UFO中文网»UFO社区 › 神秘事件 › 世界之最 › 快手端上混合现实系统，带你走进虚实融合世界 ...

收听	听众	主题

快手端上混合现实系统，带你走进虚实融合世界

发表于 2023-4-4 16:37:02 | 查看: 187| 回复: 0

一、摘要

快手端上混合现实(Mixed Reality，MR)系统融合深度学习、SLAM及场景重建技术，实时完成空间计算和场景理解，结合3D渲染引擎，在移动端实现了逼真的虚实融合特效。目前已在快手iOS及安卓双端全机型上线多款特效，这些玩法都给用户带来极具沉浸感的虚实交互新体验。
二、混合现实发展趋势

XR（Extended Reality扩展现实）是VR（Virtual Reality虚拟现实）、AR（Augmented Reality增强现实）、MR（Mixed Reality混合现实）等多种技术的统称，其通过计算机技术将真实世界与虚拟世界进行融合呈现和交互。根据虚实融合的侧重点不同，而细分了几种不同的形态，如图1所示[8]。
VR通过头戴式设备，将现实环境完全屏蔽，只将用户个体（包括动作、形象、感官等）全盘映射到虚拟世界中，用户可沉浸式探索真实世界不可触达的虚拟世界，如侏罗纪时代、漫威宇宙等。
AR狭义上指将虚拟内容简单叠加，实现对真实世界的信息展示的增强，一般只有空间定位功能，缺少环境感知、深度测量、实时光照等高级能力。
MR在AR基础之上，通过理解真实世界并由此产生虚实交互行为（真实世界影响虚拟世界的呈现方式）。

快手端上混合现实系统，带你走进虚实融合世界584 / 作者:m12345666 / 帖子ID:116261

快手端上混合现实系统，带你走进虚实融合世界584 / 作者:m12345666 / 帖子ID:116261

图1 VR、AR和MR

三、MR行业现状

（本文首次发布时间为2022-01-28）在过去的一个技术周期中，MR技术受限于算法和算力，一直处于在专用计算设备上发展的阶段。以2019年微软发布的Hololens 2为代表[1]，其设备上带有专用场景深度传感器和专用计算单元HPU。近几年，随着科技的广泛发展，尤其是移动端设备（手机）上开始部署NPU、LiDAR等专用硬件，和深度学习模型设计和模型加速技术的突破，移动端MR技术也得以快速发展，以苹果和谷歌为例，苹果在2020年中发布了ARKit4[2]，在LiDAR设备上支持了Depth API，能够通过该API获取LiDAR捕获的场景深度，从而支持场景重建、遮挡和碰撞等虚实交互效果。谷歌则在其ARCore 1.18版本上发布了Depth API[3]，该 API 可以通过运动深度探测算法，利用单个 RGB 相机生成带有深度信息的图片，这样开发人员在没有搭载 ToF传感器等相关配件的机器上依旧可以使用该 API 实现表现相当优秀的 MR 体验。移动端MR因为具有更广泛的用户基础，这加快了MR概念在普通用户中的普及，也将加快元宇宙的到来。
四、移动端混合现实系统

移动端MR系统主要包含两个模块：单目场景理解系统和特效渲染引擎。单目场景理解系统实时进行相机6DOF位姿估计、场景语义理解及场景Mesh重建，特效渲染引擎利用这些信息实现虚拟物体与真实场景的遮挡、碰撞、打光等交互，达到真正的虚实融合效果。整体流程图如下所示：

快手端上混合现实系统，带你走进虚实融合世界198 / 作者:m12345666 / 帖子ID:116261

快手端上混合现实系统，带你走进虚实融合世界198 / 作者:m12345666 / 帖子ID:116261

图3 移动端MR系统整体架构

4.1 单目场景理解系统

单目场景理解系统主要分为三个模块：运动跟踪、单目深度估计和三维重建：

运动跟踪采用VIO技术，通过连续帧图像与IMU融合定位算法实时输出当前时刻相机的姿态。
单目深度估计利用VIO重建的稀疏点云地图引导的深度学习模型，对当前时刻的场景3D深度信息以及2D语义信息进行预测。由于有地图信息作为先验输入，深度估计模型可以保证时序的稳定。
三维重建模块使用运动跟踪输出的相机位姿和当前帧语义信息，对每帧模型输出的稠密深度进行融合，得到精细重建的当前场景稠密Mesh。

为了使广大快手用户流畅地体验到 MR 效果，我们将每个算法模块针对不同的移动平台、不同的手机型号进行了分级处理，实现了iOS和Android平台几乎全机型的算法部署。另外为了提升算法的鲁棒性和渲染的准确性，我们实现了一套移动端传感器的离线自动化标定与评测系统，利用该系统标定了约200种不同型号的生产设备，覆盖约1.5亿快手用户，其覆盖度远超ARKit和ARCore。

运动跟踪

运动跟踪系统是通过融合图像和 IMU 信息（VIO 算法），实时在线估计相机在空间中的运动轨迹以及环境的稀疏三维结构（稀疏点云）。目前开源的 VIO 算法框架众多（VINS-Mono, OpenVINS, ORB-SLAM3 等），但这些算法都依赖较严格的初始化条件（充分晃动手机或手机严格静止）而使得它们无法直接应用在手机端的 AR 系统中。为了使得广大用户（各类手机）在体验 AR 时能快速上手拍摄，这意味着运动跟踪算法需要满足低计算量、高精度、且系统能快速初始化的需求。因此，我们设计了和单目深度估计相结合的高效 VIO 算法。首先，深度学习估计的单帧深度被用来促进系统的初始化，从而让用户拍摄时能直接体验 AR 效果而无需对手机进行特殊的晃动。其次，运动跟踪算法通过几何约束计算的稀疏点云深度值会作为网络的先验信息，从而保证单目深度估计的尺度一致性和深度稳定性。最后，我们采用了基于 Hash 的 VoxelMap 地图点匹配机制，通过构建光度一致性约束在无需特征描述子的情况下就实现了已建地图与当前图像的特征匹配，提升了系统的精度和效率。

单目深度估计

这项技术是学界的一个研究热点，但其模型均高达十几G的计算量 [4,5]，这在移动端是无法接受的。移动端实时获取深度图对模型在精度、泛化性、鲁棒性、实时性要求都很高。为此我们基于Unet框架进行了模型设计，如下图4所示，并从4个方面进行模型的优化：

快手端上混合现实系统，带你走进虚实融合世界273 / 作者:m12345666 / 帖子ID:116261

快手端上混合现实系统，带你走进虚实融合世界273 / 作者:m12345666 / 帖子ID:116261

图4 单目深度估计模型设计

深度数据方面，我们尽可能搜集各种场景的深度数据，并针对数据中的噪声训练了深度refine网络对原始数据进行去噪、去模糊、填补空洞处理，提高了数据质量。
模型结构方面，输入端加入了稀疏点图，采用双编码器结构分别编码rgb图和稀疏点图，解耦深度细节和深度尺度，确保在视频场景下深度细节清晰的同时深度整体尺度与稀疏点一致，此外结合了多尺度预测、语义分割、法向量预测等多任务学习间接提升深度质量，同时提出融合空间注意力机制，让模型能更好学习到空间相对关系。
模型训练方面，针对深度细节：通过多尺度深度梯度损失和加大边界损失权重，加强模型对于深度图细节的把握，针对平面平整度，我们通过平面分割构建平面感知损失提升平面平整度，此外采用基于数据增强的对抗学习提升视频序列深度图的稳定性。
模型压缩方面，采用深度可分离卷积搭建网络并进行模型剪枝，同时融合跳链接及SE进行模型结构优化，确保计算量下降的同时保持精度基本不变。利用以上这些方案，我们实现了移动端实时深度估计，兼顾效果与效率，特别是在视频场景下能够保持帧间尺度一致。我们也将相关创新整理并发表在了计算机视觉顶会ECCV2020 [6]。在效率上我们的算法在iOS和安卓全机型上都能实时运行，典型机型上平均单帧耗时：iphone11为8ms，iphone6为15ms，华为mate30为10ms，vivox9为26ms。下图5为移动端模型在通用场景下的多任务预测结果，从左到右分别是：深度预测结果(蓝色:近处，红色:远处)、法向预测结果、语义分割预测结果(红色:墙面，浅蓝色:人体，黄色:地面)，从图中可以看出深度图与场景贴合度较好。

快手端上混合现实系统，带你走进虚实融合世界105 / 作者:m12345666 / 帖子ID:116261

快手端上混合现实系统，带你走进虚实融合世界105 / 作者:m12345666 / 帖子ID:116261

图5 单目像素级多任务场景理解结果展示

端上实时重建

实时重建系统使用位姿和稠密深度图信息，实时估计场景的表面信息，整体流程如图6所示。

快手端上混合现实系统，带你走进虚实融合世界91 / 作者:m12345666 / 帖子ID:116261

图6 实时重建整体流程

与传统的RGB-D重建相比，我们场景重建的优势主要体现在三个方面：

结合VIO和单目深度估计的特点，实现了基于移动端廉价消费类RGB相机的实时稠密场景重建，使用关键帧，帧间滤波等策略，实现稳定、贴合的重建效果。
使用哈希算法灵活存储大空间场景信息，CPU和GPU数据灵活交互进行移动端实时表面重建，在典型机型上平均单帧耗时：iphone11为4ms，iphone7为8ms，华为mate30为8ms。
利用单目深度估计输出的平面语义信息，结合VIO空间大平面估计进行体素信息优化，提升重建平面的精度和平整度。

4.2 移动端特效渲染引擎

利用单目场景理解系统，可以输出准确的位姿信息及尺度性较好的深度图以及场景网格信息给到SKwai渲染引擎，供它进行效果渲染。SKwai是快手图形引擎团队为短视频应用开发的轻量级次世代3D渲染引擎，能够为用户展现精美的3D世界，现已支持上千款魔法表情。SKwai支持PBR、IBL、延迟渲染管线、光照融合等次世代渲染技术，支持碰撞、布料、软骨等物理解算，支持GPU粒子，多项技术业内首发；应用Metal/Vulkan原生渲染API，性能领先，在移动端针对不同终端设备进行优化适配，配合云端渲染，提供流畅的用户体验；针对特效业务，采用强可扩展性的ECS架构动态脚本系统，提供快速迭代能力。SKwai现阶段可以支持虚拟打光、虚实遮挡、物理碰撞、体表运动、表面贴合等技术效果，更好为MR体验落地提供技术支撑。

快手端上混合现实系统，带你走进虚实融合世界426 / 作者:m12345666 / 帖子ID:116261

快手端上混合现实系统，带你走进虚实融合世界426 / 作者:m12345666 / 帖子ID:116261

虚拟打光

快手端上混合现实系统，带你走进虚实融合世界882 / 作者:m12345666 / 帖子ID:116261

虚实遮挡

快手端上混合现实系统，带你走进虚实融合世界258 / 作者:m12345666 / 帖子ID:116261

物理碰撞

快手端上混合现实系统，带你走进虚实融合世界974 / 作者:m12345666 / 帖子ID:116261

体表运动

快手端上混合现实系统，带你走进虚实融合世界39 / 作者:m12345666 / 帖子ID:116261

表面贴合

五、混合现实的价值

长久以来，人类一直希望将虚拟照进现实，混合现实是真实世界和虚拟世界的完美融合，它采用沉浸式的交互式界面将虚拟覆盖到了物理现实上，并最终呈现为在用户环境中可以追踪的全数字对象，是未来视觉的终极表现形式。本项目所实现的MR技术是一项基础技术，结合移动及可穿戴设备，在不同的领域都可以给用户带来更美好的混合现实体验。

在用户创作领域，结合特效能够为周围环境增添逼真的渲染，给用户带来更加沉浸式的体验。同时该项技术将来可进一步发展，结合身体、手指和手势与沉浸式内容互动，而不仅仅依赖于手机屏幕，会带来更自然的虚实交互形式。
在游戏领域，MR技术不仅可以帮助玩家可视化游戏场景，还能让玩家沉浸到游戏中去，让其感觉成为游戏的一份子，如在快手特效及直播场景下，实现用户与游戏元素的沉浸式交互，进一步提升游戏娱乐性。
在商业化领域，结合广告植入、虚拟试穿试戴等，MR技术可以让用户更加真实地体验到产品的魅力，更好地达到产品宣传的目的。
在社交领域，MR技术是允许我们与他人分享我们所见、所闻和所感的系统，支持用户彼此互动，进一步增强社交属性。
在教育领域，MR技术可以生成一种逼真的视、听、力、触和动等感觉的虚拟环境，可以更立体，直观的展示给学生们，帮助学生身临其境的理解比较抽象的概念，如探索历史建筑、了解水下活动，甚至探索太空场景等，彻底将教育变为一个有趣、高效、互动、个性化的行为。

我们将继续主打以虚实融合为方向的混合现实，通过该技术进行产业升级和体验升级，把现实世界与虚拟世界进行链接，为用户提供虚实融合的服务。
六、参考文献

[1] https://www.youtube.com/watch?v=cCL3bFuC4IA.（微软Hololens2）
[2] https://developer.apple.com/videos/play/wwdc2020/10611/（ Explore ARKit4）
[3] https://github.com/googlesamples/arcore-depth-lab.（谷歌ARCore Depth API）
[4] Eigen, D., Puhrsch, C., Fergus, R., &#34;Depth map prediction from a single image using a multi-scale deep network&#34;. In: Advances in neural information processing systems. pp.2366{2374 (2014)
[5] Fu, H., Gong, M., Wang, C., Batmanghelich, K., Tao, D.: Deep ordinal regression network for monocular depth estimation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 2002{2011 (2018)
[6] Tian Chen, Shijie An, Yuan Zhang, Chongyang Ma, Huayan Wang, Xiaoyan Guo, Wen Zheng, “Improving Monocular Depth Estimation by Leveraging Structural Awareness and Complementary Datasets”, European Conference on Computer Vision (ECCV 2020).
[7] 十亿红包还不够，揭秘快手春节四大技术玩法：AI/AR/MR都被装进App，为了这个春晚真拼了 https://mp.weixin.qq.com/s/rzzUnQYravTcyyIU82SsHw
[8] Extended reality: MR, AR, VR, What’s The Difference? http://www.arreverie.com/blogs/extended-reality-mr-ar-vr-whats-the-difference/

快手端上混合现实系统，带你走进虚实融合世界800 / 作者:m12345666 / 帖子ID:116261

快手端上混合现实系统，带你走进虚实融合世界800 / 作者:m12345666 / 帖子ID:116261

快手Y-tech介绍（公众号同名）

Y-tech团队是快手公司在人工智能领域的探索者和先行者，致力于计算机视觉、计算机图形学、机器学习、AR/VR等领域的技术创新和业务落地，不断探索新技术与新用户体验的最佳结合点。Y-tech在北京、深圳、杭州、Seattle、Palo Alto有研发团队，成员来自于国际知名高校和公司。
长期招聘（全职和实习生）：计算机视觉、计算机图形学、多模态技术、机器学习、AI工程架构、美颜技术、特效技术、性能优化、平台开发、工具开发、技术美术、产品经理等方向的优秀人才。如果你对我们做的事情感兴趣，欢迎联系并加入我们，一起做酷炫的东西，创造更大的价值。
联系方式：[email protected]

收藏0 回复显示全部楼层道具举报

返回列表

		自动登录	找回密码
密码			注册会员

快手端上混合现实系统，带你走进虚实融合世界

浏览过的版块