PPIO CTO王闻宇：深度解读苹果首款MR眼镜及其对元宇宙技术路线的启示

图片来源于苹果官网

在过去的一系列文章中，我一直将元宇宙视为我们这个时代的"登月工程"。为了实现真正的全身心沉浸式体验，未来必须有多项关键技术取得突破。然而就在今天，备受瞩目的苹果MR设备Apple Vision Pro，在苹果WWDC2023的舞台上绽放光芒。其单眼4K分辨率，2300万像素的视觉显示效果，搭载强大的M2主芯片，配备眼动追踪等尖端技术，以及令人惊叹的12ms的M2P外显时延技术。这些创新的技术实现，都在预期之内。然而，最令人兴奋的是，远超出了我的预期，没想到来得那么快。人类在这场伟大的"元宇宙登月工程"中，迈出了一大步。那么，在硬件技术如此迅速的进步之后，元宇宙的技术路线又将朝何方发展呢？接下来，我将分享一些个人的思考。

介绍Apple Vision Pro

在6月6日凌晨的苹果WWDC大会上，第一次正式发布了苹果的MR设备，Apple Vision Pro，将于明年早些时候上市；

这次Apple Vision Pro定位是进入空间计算时代，人类将从移动计算时代到空间计算时代。
Apple Vision Pro无缝地将数字内容与您的物理空间融为一体。这次最伟大的创举是把VR和AR统一了，这是MR设备的定位（Mixed Reality，混合现实），通过超高清摄像头把现实画面通过12ms的延迟原封不动地展示给人眼，还能叠加想显示的任何东西，创造出一种新的交互环境。这和之前的VR有着本质的区别，（Virtual Reality，虚拟现实）虚拟现实是一种通过计算机生成的仿真环境，让用户可以沉浸其中，感觉自己身临其境。之前Facebook的Oculus quest系列，国内字节跳动的Pico系列，都属于VR设备。
Apple Vision Pro可以简单地通过使用您的眼睛、手和声音来进行操作。关键是不再需要手柄了，操作上大大简化。之前的VR设备，Oculus quest系列，Pico系列等，都是需要双手拿着手柄来进行交互。

在这里，可以看出一个关键的区别，之前的VR设备，包括著名Oculus quest系列，Pico系列，说到底，本质上类比“游戏机”，主要用于游戏和视频，难以用于工作和生活的方方面面，因此购买的人不少，但使用率不高，往往尝鲜之后就不用了，所以被很多人称为超级礼物。而这次苹果的Apple Vision Pro，定位更像移动时代的“手机”，可以看见现实世界，可以带着去任何地方，可以用于工作和生活的方方面面。这才可能引领人类进入一种新的生活形态。

不过，这次唯一的遗憾就是售价有点小贵，$3499美元，差不多人民币25000。不用一般人用的，但是我相信果粉的号召力，还是不少人会购买。另外这次的产品叫Pro，按惯例，后面推测应该会推出价格更低的Air系列产品。

从官网看，苹果依然用户视觉优先，主打用户体验功能

Apps，释放您的桌面。您的应用程序将随之而来：您的Apps存在于您的空间中。通过Vision Pro，您拥有一个无限的画布，可以改变您使用喜爱的应用程序的方式。将应用程序随意排列在任何位置，并按照理想的尺寸进行缩放，使您梦寐以求的工作空间变为现实，同时保持与周围世界的联系。在Safari中浏览网页，在Notes中创建待办事项列表，在Messages中聊天，并通过一眼之间无缝切换它们。
娱乐，终极剧院。无论您身在何处。沉浸式的娱乐体验方式：Vision Pro能够将任何房间转变为您个人的剧院。通过空间音频，您可以将电影、节目和游戏扩展到最合适的尺寸，同时感受自己身临其境。而且，每只眼睛比4K电视拥有更多的像素，所以无论您身处何处——无论是长途飞行还是家中的沙发上，您都可以享受令人惊叹的内容。
照片和视频，重新沉浸在当下的时刻中。您的记忆焕发生机：Vision Pro是苹果的首款3D相机。您可以以3D形式捕捉神奇的空间照片和空间视频，然后通过沉浸式的空间音频再次体验那些珍贵的时刻，前所未有地感受其中的魅力。您现有的照片和视频库以惊人的规模呈现出令人难以置信的效果。全景照片将您围绕其中，让您感觉自己仿佛站在拍摄时的位置上。
连接，达成共识，在同一个空间中。让会议更有意义：Vision Pro让您可以轻松协作和连接，无论身在何处。FaceTime视频块的大小与真实生活尺寸相同，当有新的人加入时，通话画面会在您的房间中扩展。在FaceTime中，您还可以使用应用程序与同事们同时协作编辑同一份文件。

现在从设计的视角看看：

Apple Vision Pro是几十年设计高性能移动和可穿戴设备的经验的结晶，是苹果有史以来最具雄心的产品。Vision Pro将极其先进的技术融入优雅、紧凑的外观中，每次戴上它都能带来令人惊叹的体验。

一个独特的三维形成的层压玻璃作为相机和传感器观察世界的光学表面。它与定制的铝合金框架无缝融合在一起，柔和地弯曲以环绕您的脸部，同时作为光密封装置的连接点。

再说说操作系统：

VisionOS 苹果首个空间操作系统。面向空间计算的交互设计：visionOS基于macOS、iOS和iPadOS的基础上构建，实现了强大的空间体验。您可以用眼睛、手和声音来控制Vision Pro，交互感觉直观而神奇。只需注视一个元素，用手指敲击选择，使用虚拟键盘或语音输入进行打字。
应用程序跃入生活。在visionOS中，应用程序可以填充您周围的空间，超越显示屏的边界。它们可以在任何位置移动，按照理想的尺寸进行缩放，对房间的光线做出反应，甚至投射出阴影。
与周围的人保持联系。Vision Pro帮助您与周围的人保持联系。EyeSight可以显示您的眼睛，并让附近的人知道您何时在使用应用程序或完全沉浸在某种体验中。当有人靠近时，Vision Pro会同时让您看到对方，并向他们展示您的眼睛。

硬件配置和未来元宇宙的终极体验

现在来说说Apple Vision Pro的硬件配置（主要素材来自官网）：

从内而外突破界限，在Vision Pro上的空间体验只有通过开创性的苹果技术才能实现。每只眼睛拥有比4K电视更多像素的邮票大小的显示屏。空间音频方面的令人难以置信的进步。采用了革命性的双芯片设计，搭载了定制的苹果芯片。拥有先进的相机和传感器阵列。所有这些元素共同协作，创造了一种前所未有的体验，您必须亲眼见证才能相信。

每只眼睛拥有比4K电视更多像素。定制的微型OLED显示系统拥有2300万像素，提供令人惊叹的分辨率和色彩。特别设计的三元素镜头营造出无处不在的显示效果，让您感受到无论往哪里看都有屏幕存在的感觉。
我们迄今最先进的空间音频系统。每只耳朵旁边都有双驱动器音频单元，提供个性化的音效，同时让您听到周围的声音。环境空间音频使声音感觉像来自周围环境。通过音频光线追踪，Vision Pro分析您房间的声学特性，包括物理材料，以调整和匹配声音到您的空间。
响应迅速、精准的眼球追踪。由LED和红外摄像机组成的高性能眼球追踪系统将不可见的光模式投射到每只眼睛上。这一先进系统可以提供超精确的输入，而无需您使用任何控制器，因此您只需通过注视即可准确选择元素。
一套复杂的传感器阵列。一对高分辨率相机每秒传输超过十亿个像素到显示屏，以便您清晰地看到周围的世界。该系统还能帮助进行精确的头部和手部追踪，并进行实时三维地图绘制，同时能够理解您在各种姿势下的手势。
革命性的双芯片性能。独特的双芯片设计使得Vision Pro的空间体验成为可能。强大的M2芯片同时运行visionOS，执行先进的计算机视觉算法，并以令人难以置信的效率提供惊人的图形表现。全新的R1芯片专门负责处理来自相机、传感器和麦克风的输入，以每12毫秒的速度流式传输图像到显示屏上，实现几乎无延迟的实时视图。
激光雷达扫描仪和TrueDepth摄像头共同工作，创建了一个融合的三维地图，准确呈现您周围的环境，使Vision Pro能够在您的空间中精确渲染数字内容。
经过特别设计的热管理系统轻柔地通过Vision Pro中的空气流动，因此它可以在保持冷却和安静的同时提供卓越的性能。
红外泛光灯与外部传感器协同工作，在低光条件下增强手部追踪性能。
隐私与安全：内置隐私和安全。与每个苹果产品和服务一样，Vision Pro旨在帮助保护您的隐私并使您对自己的数据拥有控制权。它建立在现有苹果隐私和安全功能的基础上，利用Optic ID等新技术，这是一种使用您的虹膜的独特性进行安全认证的系统。

根据以上的硬件硬件配置，Apple Vision Pro带领人类距离元宇宙又进了一步。

未来元宇宙世界的最重要体验，第一要素是身临其境感，即完全把人类的视听觉包裹在沉浸世界中。元宇宙的终极体验是，人类能在半虚拟的世界中，看到和真实世界一样清晰的体验，也就是类似视网膜级的体验效果。

怎么做到，首先要理解人眼的结构。

这里有两个重要的名字

PPD (Pixels Per Degree)：每度像素数，是每度视野内所包含的像素数量。较高的PPD值意味着更高的图像分辨率和更细腻的视觉细节。此指标是从用户的视角来衡量的，人眼的PPD是多少呢，根据多项实验证明，视网膜分辨率大概是60PPD，即每度60像素。
FoV (Field of View)：视域/视场角，这是指用户在VR设备中可以看到的视场角度，通常包括水平视野和垂直视野。更宽阔的FoV可以提供更广阔的视觉体验，使用户更容易沉浸在虚拟环境中。

但是人类的FoV是多少呢？实验证明，人眼有多个视域

注意力视域 (Attention Field of View)：这是人眼在一次视觉经验中真正关注和处理详细信息的视野范围。它对应于你在看一个物体或场景时，能够清楚地看到和关注的区域。例如，当你阅读这段文字时，你的注意力视野就集中在你正在阅读的单词上。
单眼舒适视域 (Comfortable Field of View for one eye)：这是指在不移动眼球的情况下，眼睛能舒适地看到的视野范围。
单眼通常视域 (Typical Field of View for one eye)：这是指眼睛在轻微移动眼球的情况下（即不需要转动头部或身体）可以看到的视野范围。
单眼最大视域 (Maximum Field of View for one eye)：这是指眼睛在极限情况下，即在眼球转动到极限位置并加上周围的周边视觉时，可以看到的最大视野范围。

视域和不同人体质是不一样的，下表是不同视域对应的分辨率和像素

通常，VR/MR设备会采用单眼通常视域来设定，如果要做完全的视网膜级体验，差不多要做到8K多一点的分辨率。

目前苹果公司还没有具体公开分辨率和FoV视场角，但是公开了单眼高达4K，2300万像素，有其他资料提到（显示系统使用微型OLED，以便Apple可以在iPhone像素的空间中放入44个像素。每个像素宽7.5微米，有2300万像素分布在两个邮票大小的面板上），已经远远超越了单眼舒适视域，已经这远超过了市场上大多数竞品。

另外，说说眼动追踪技术，千万不要小看眼动追踪技术，能做到优秀体验还真不少。

菜单交互操作：有了眼动追踪，可以用更加自然简洁的方式，执行类似上下切换和选择确定的动作。
注视点渲染：眼动追踪能让你所注视的画面区域显示清晰，弱化非注视区域的显示清晰度。这样可以大大降低算力的消耗，其实人眼的只有注意力视域要求是非常清晰的，其他部份还好，其实要求没有高。其实人在精力非常集中的时候，注意力视域只有10度。

如果结合眼动追踪技术和注意力渲染，可以大大节省渲染算力的开销，如果采用云渲染的方案，在推流传输的时候可以结合分层编码技术（类似SVC编码）从而把视频码流率大大降低。

未来“元宇宙”可能的技术变化

这次Apple Vision Pro，其主机在性能上采用M2芯片，这和苹果MacBook，ipad pro采用了同样的计算芯片，其性能也是非常强劲。由于苹果的M2芯片集成了图形处理功能，无法直接将其与传统的独立显卡进行直接的型号比较。苹果的M2芯片在图形性能方面通常表现出色，并且可以提供高效的图形处理能力，但与传统的独立显卡相比，其性能和规格可能会有所不同。但是这样强劲的芯片，要渲染双眼4K级游戏画质还是存在巨大的挑战。

从GPU显卡的角度，NVIDIA GeForce RTX 3060是一款中高端显卡，它具有适当的性能水平，但其支持双4K渲染能力相对较有限。虽然RTX 3060在处理4K分辨率方面表现良好，但同时进行双4K渲染可能会对其性能造成一定的挑战。对于双4K渲染，更高性能的显卡如RTX 3080或RTX 3090等可能更为合适。

我的思考，云渲染依然是未来元宇宙终极体验所必须的，要看具体的推演，可以看看我之前的思考文章，《探讨元宇宙基础设施建设及在云游戏的实践和思考》。

我现在依然坚持之前的思考，即使Apple Vision Pro所带来的强大的M2芯片算力，如果要显示出非常极致的实时3D画面，还是需要采用云端渲染的技术方案。基于M2的算力，可以做很大的技术优化，采用云端算力+本地算力结合的方案做到很好的搭配。

我们看看M2芯片的特性，苹果 M2 芯片是苹果公司的第二代自研芯片，用于 Mac 电脑，采用第二代 5 纳米工艺，内部集成了 200 亿个晶体管。苹果 M2 芯片在硬件上对 AI 深度学习的支持主要体现在以下几个方面：

M2 芯片内置了 16 核神经网络引擎，每秒可以进行最多达 15.8 万亿次运算，较 M1 芯片高出 40% 以上(。这意味着 M2 芯片可以更快地处理机器学习任务，例如语音识别、图像处理、自然语言理解等。
M2 芯片支持高速统一内存，比 M1 芯片多出一倍。统一内存可以让中央处理器、图形处理器和神经网络引擎之间更高效地共享数据，减少内存拷贝和延迟，提升 AI 深度学习的性能和效率。

在音视频领域中，可以用M2芯片的本地计算性能，实现串流音视频的超分辨率技术，插帧技术来。

超分辨率技术，超分辨率技术是一种通过构建和学习更高分辨率的图像或视频，从而改善低分辨率输入的图像处理技术。这个技术可以用于图像和视频的增强，可以从模糊、低分辨率的图像或视频中生成清晰、高分辨率的输出。近年来，深度学习已被广泛应用于超分辨率技术，也是主流的超分辨率方案。这种方法通常使用神经网络（如卷积神经网络）来学习低分辨率和高分辨率图像之间的映射关系。这种方法可以生成更高质量的图像，但需要大量的计算资源和训练数据。未来可以根据M2芯片16核神经网络引擎，来设计硬件加速的超分辨率算法来支持实时超分辨率。

视频插帧技术：在原始视频的每两帧画面中增加一帧或多帧，缩短帧与帧之间的显示时间，从而提升视频的流畅度和清晰度的技术。未来可以根据M2芯片16核神经网络引擎，来设计硬件加速的视频插帧算法来支持实时超分辨率。

如果充分利用本地性能，不论是实时云渲染串流，还是音视频播放，可能做到（1080P,60帧）的云端输出；然后在本地通过超分辨率技术和插帧技术放大称为（4K，120帧）的效果。这样会大大节约云端算力和网络哟流量。双（1080P,60帧）的实时渲染输出差不多3060显卡就可以了；另外苹果M2芯片本身就支持VVC硬件解码（h266）。（1080P,60帧）的视频在h266下，一般码流率能做到2.5Mbps～5Mbps左右。如果双眼就是5-10Mbps的码流率，这样会大大降低码流率。相比（4K，120帧）的音视频流，会大大降低音视频传输带宽。

另外，如果结合前面提到的眼动追踪技术，注意力渲染技术，和SVC编解码技术，可以再大大降低云端算力，和音视频传输带宽。这样对基础设施的要求会大大降低。

算力和未来

VR/MR设备最容易引起的问题就是眩晕，其本质是大脑感觉“被欺骗”，包括瞳距、景深等问题，但难解决的是M2P时延问题，即运动到光子的时延，当人的头移动后，画面是否能足够低时延地反映效果，若是慢了，大脑会产生“被欺骗”的感觉，从而引发M2P时延。许多评测数据显示，低运动状态下，M2P时延不能高于20ms，高运动状态下，M2P时延不能高于7ms。

这里注意Apple Vison Pro，采用全新的R1芯片专门负责处理来自相机、传感器和麦克风的输入来获取双眼本来看到的视频，以每12毫秒的速度流式传输图像到显示屏上；是完全服务低运动状态下的M2P时延的，不会造成眩晕。

但是，在云渲染的解决方案中，涉及到环节就多了，包括编码、解码和传输环节，即使做到极限，也很难达到20ms的响应值，基本在30-100ms之间。最复杂的瓶颈在网络时延环节，因为它和基础设施有关，和非常分散的网络环境部署相关，不是仅仅单方面的努力就能改善的。

因此，要用边缘云的方案来解决这样的问题，也就是要将算力放在靠近用户的边缘，在这可以分布式应对高并发、大带宽、能真正地做到低时延。

只有将云计算的算力从千里之外放到社区周边，才可能实现超低时延。

PPIO正通过汇聚边缘碎片化算力资源，提供超低时延的边缘计算服务。我们要和中心云形成良好的协同，边缘云并非中心云的替代品，而是起到补足的作用，从而更好地解决客户需求。

我常常会思考宇宙，人类，生命，技术之间的关系，在人类文明诞生以来的5000年中，有谁想过创造宇宙（完全逼真的元宇宙世界），创造数字生命的事情（具有人类智慧的数字人），而如今这种伟大的事业很有可能在我们这代人就能实现，或许在不久的将来，我们真的能够打造一个充满鲜活生命的“唯心主义世界”，甚至每个人都能“所想即所得”的创造自己的世界。

当然，无论是创造宇宙还是数字生命，最基础的设施都是算力，需要无穷无尽的算力，我们PPIO边缘云的使命便是汇聚全球计算资源，并为全人类服务。很期待和各位元宇宙，VR/MR从业者合作，为创造未来贡献力量。