|
浏览次数 | |
现在: | |
最近一小时: | |
最近24小时: | |
浏览总量: |
VR 带来奇妙的身临其境的体验,为人们提供了观察世界的新视角。不过,与真实世界相比,人们很难与他人分享 VR 体验,因为受 VR 头显的限制,我们看不到 VR 用户的面部表情,无法看到用户参与进 VR 体验的完整画面。
混合现实 (MR)能够帮我们解决这个问题,通过 2D 视频共享 VR 用户身处虚拟环境中的体验,从而解决了虚拟现实的距离感的问题。混合现实使体验共享成为了可能,但头显仍然挡住了用户的面部表情与视线,为打造全面的 VR 沉浸体验带来了难以逾越的障碍。
Google 机器感知研究人员与 Daydream Labs 和 YouTube Spaces 合作,找到了这个问题的解决方案:通过虚拟“摘除”头显,让用户“露脸”,营造逼真的透视效果。
Google 的技术将 3D 视景、机器学习与图形技术结合在一起,起到了良好的效果。“头显摘除术”主要从三个方面的技术来达成最终效果:
动态面部模型采集
这种技术的核心理念在于将面部 3D 模型用被头显遮住的用户面部模拟。我们使用这种模拟合成混合现实中出现的用户面部,给人造成头显已被摘掉的印象。首先,我们通过所谓的“注视点动态外观”(gaze-dependent dynamic appearance)采集用户的 3D 面部模型。在初期校准步骤中,用户坐在摄像机和监视器前,双眼跟踪监控器上的标记。我们采用一次性校准流程(通常只需要不到一分钟的时间)采集面部 3D 模型,建立起将外形图像(或纹理)映射至不同视线方向和眨眼方式的数据库。利用这部视线数据库(即基于视线方向的面部模型),在合成面部的过程中动态改变面部外形,生成面部模型,从而使合成的面部图像更为自然而鲜活。
校准与协调
创建混合现实视频需要专业化设备,包括一部经过校准、与头显时间同步的外部摄像机。摄像机拍摄到 VR 用户在绿屏前的视频,然后将用户面部图像与虚拟图像相合成,创造出最终的混合现实视频。摄像机与头显协调系统之间的校准是其中非常重要的一步。这些校准技术通常涉及大量人工干预,需要分多步完成。Google 在头显前端增加标记,对其进行 3D 视觉跟踪,从而自动通过 VR 优化校准参数,简化校准流程。
为“摘除”头显,需要根据摄像机所拍摄的画面中可见的面部露出部分调整 3D 面部模型,使二者无缝融合。理想的效果应是将面部模型放在头显后,使其刚好吻合。利用以上校准方法,与 VR 头显跟踪技术相结合,能够帮助我们修正摄像机视频流,渲染虚拟面部图像,使其融入视频。
合成与渲染
解决校准问题后,最后一步需要对 3D 面部模型进行适当渲染,使其与摄像机视频流的内容相一致。我们将注视点动态数据库与 HTC Vive 头显相结合,再现逼真的用户完整面容。SMI 已经对 HTC Vive 头显进行了改进,使其能使用眼动追踪技术。来自眼动追踪器的图像缺乏足够细节,无法直接再现被挡住的面部区域,但足以提供详细视线信息。利用追踪器提供的实时视线数据,合成能够准确重现用户视线与眨眼动态的面部模拟。运行期间,系统将搜索前期处理时建立的面部模拟数据库,找到与视线状态最符合的面部形象,同时也考虑到画面是否流畅等设计美学问题。此外,为解决视线数据库数据采集时间与系统运行时间之间的轻微变化,Google 采用了色彩纠正和羽化技术,使合成的面部区域匹配剩余面部区域。
人类对合成面部高度敏感,最微小的面部合成瑕疵也会令人感觉极不自然,这种现象被称为“恐怖谷(uncanny valley)。”为解决这个问题,最终成品中头显并没有被彻底去除,而是选择类似于“潜水面罩效果”的形式,将经过色彩校正的面部模拟与半透明头显合成在一起。在视频中提醒观众头显的存在,有助于解决“恐怖谷”问题,也使算法更能解决校准和色彩校正中的小错误。
修正后的影像将显示透明头显,用户面部暴露在观者眼前,再现用户的真实视线和表情,并与虚拟环境融为一体,创造出最终的混合现实视频。
应用效果与扩展
我们使用头显摘除技术改进混合现实,使这种媒体不仅能够传达 VR 用户与虚拟环境之间的互动,还能自然而逼真地显示出用户面部表情。下文的例子介绍了一位使用 GoogleTilt Brush 的艺术家如何在虚拟环境下使用这项技术:
这项新技术的有着很大的潜力,实际上,它的应用范围远远超出混合现实的领域。头显摘除技术有助于改进 VR 世界的社交互动模式,可用于 VR 视频会议、多玩家 VR 游戏等,用户还可以使用它与家人和朋友一起在虚拟世界中探险。从笨重的头显到轻装上阵,在机器学习技术的帮助下让用户在虚拟现实中“露脸”,将成为人类走向 VR 世界的重要一步。
2017-02-24 00:00:05