文章

不是最终的未来:解析Vision Pro与混合现实

前不久Lex Fridman更新了他采访Mark Zuckerberg的播客节目,在采访中扎克伯格主要谈了两点对Vision Pro的看法:其一是Vision Pro昂贵的价格会让很多人无法负担,结合一些出货量的传言,他相信更加便宜且功能够用的Meta Quest依然会占据市场的主要份额;其二是Vision Pro无控制器的交互方式会将很多游戏拒之门外,没有控制器就难以获得更加精准的操控和反馈,游戏作为混合现实设备的重要应用场景,却在发布会的演示中缺失。

不过,扎克伯格也说Apple的进场意味着对这类设备的进一步验证,这会带动更多人来了解混合现实设备,同时他承认Vision Pro是更加高端的产品。作为Vision Pro的主要竞争对手公司的老板,他无疑是在战略上认可了Vision Pro这个产品,尽管他没有谈论有关技术方面的事情,特别是对Vision Pro上的系统、显示和芯片技术的态度,但有媒体报道扎克伯格过后对员工说:对于Meta在混合现实硬件上遇到的一些设计问题,Apple也没有什么神奇的解决方案。

在媒体们实际体验Vision Pro过后发表的看法中,大多数的夸赞都集中在Vision Pro的超高完成度上。Apple强大的资源整合与研发能力,让那些由摄像头、红外灯、高像素的屏幕和两个强大算力的芯片所堆砌出来的硬件,配合一系列精心设计且布局已久的视听交互功能,所达到的极度沉浸感和直觉性操控体验,使Vision Pro成为了当下最好的混合现实设备。

不过在了解Vision Pro之后很容易会有一个疑问:未来就是每个人甚至动物的头上都长一个眼镜吗?这样的疑问本质上都是针对它所属的混合现实这一类设备,这里将从Vision Pro的使用场景、用户体验和产品发展来解析混合现实设备。

从“外挂电池”看使用场景

相比内置电池的混合现实设备,需要连接一个类似类似充电宝供电的Vision Pro显得十分奇怪。一个售价3499美元起的设备连内置电池都做不到,如果是为了减重那为什么Apple又在机身上使用铝合金和玻璃这样笨重的材质,现如今外置电池了为什么不把算力一起外置从而进一步减重?

如果把500克的重量定为底线,那么要在保持重量的同时内置电池,代价要么是砍功能,要么是换材质。比如拿掉前面的显示屏模组,或者更换更少镜片的光学方案,再或者使用塑料的机身。然而这些影响整个产品产品力或产品功能的舍弃,Apple显然是不愿意在Pro上做的。并且如今外挂电池也才两小时的续航,内置后考虑到结构堆叠和平衡重量,恐怕续航会更少。所以可预见的是在电池技术没有重大突破前,面对芯片在处理大量传感器数据时的高耗能,恐怕在很长一段时间内都难以把电池放到机身内。

在Apple发布会的演示中,可以看出来Vision Pro的使用主要场景是家中和公司以及乘坐交通工具时,而这些场景均拥有稳定供电的电源可以使用。抱怨Vision Pro外挂电池的种种变扭时,也不可否认它的电源接口在特定场景下让设备获得了无限续航的持续工作能力,这决定了它的是可以用来进行生产工作或娱乐的,或许把它视为一个接着电的混合现实电脑更为形象。

现阶段的Vision Pro或者说混合现实类产品在产品的定义上,就不是针对移动的计算场景,这样一个存在感很强甚至佩戴后有点碍事的设备,适合相对较少的移动并且需要一定沉浸性投入的场景,发布会演示的家中和公司以及乘坐交通工具时便是这样的场景。而对于人们在户外时、运动时、面对面交谈时的计算任务,那是应该是手机的使命,所以如果一定要说Vision Pro会取代什么,那应该是电视、电脑或平板,而不会是手机。

对比“按住说话”与“看住轻捏”谈使用体验

2018年5月,锤子科技在北京鸟巢声势浩大地发布了TNT工作站,之所以叫TNT,是因为其推荐使用一种名为Touch N' Talk的交互逻辑,即按住说话。锤子科技的CEO罗永浩称这种交互逻辑可以实现不可思议的效率提升,或将重新定义下一个十年的个人电脑。然而,那句“安静点,你吵到我用TNT了”的玩笑话中似乎表达了大众对TNT工作站的怀疑态度。

推荐把语音当作主要交互逻辑的公司似乎只有锤子科技和斯塔克工业这两家,不同的是你可以和斯塔克工业的贾维斯自然交流,而TNT不行。TNT上的说话更像是用语音选择菜单,这种脱离语境下冷不丁说出特定词语所造成的心智负担,加上模糊的使用条件,使得人们不知道在何时何处使用它才恰当。Siri和它笨拙的模仿者固然笨拙,但按住说话的说话也确实不是人话。

谈到TNT是因为老罗的新公司细红线科技也在做混合现实类的产品,在Apple之后老罗究竟能给出什么样的混合现实方案备受瞩目,开玩笑地讲如果把TNT搬到眼镜里,这何尝不是一个贾维斯呢。锤子科技的效率工具声名远扬,担心细红线产品的功能性应该是多余的,但是这些功能如何进行呈现和交互,不知道老罗心里有没有底。

不看科幻电影的Apple在Vision Pro中给出的方案,是利用眼动追踪配合手势识别,实现看住轻捏的交互逻辑。科技媒体极客湾称:这样的交互你让我用一个词来形容就是人机合一,仿佛这个系统界面是你人脑的一部分。

实现人机合一的前提是符合直觉,而符合直觉需要操作的流畅性来保证,这也是TNT和Vision Pro在交互体验上最大的区别。按住说话的按住需要等待,语音识别也需要等待,即使优化到再短,人们也需要在这一个操纵中等待两次,频繁的等待会严重地打断交互流畅性,而这个问题在类似鼠标的“眼标”看住轻捏操控中是不存在的。

除眼动追踪和手势识别外,一项名为EyeSight的功能可以在Vision Pro的外屏幕显示建模出来的眼部表情。国外科技媒体Dave2D在他的视频中说:肯定有很多人到手就把这功能关掉,并且很多人可能不愿意为EyeSight功能多掏五六百美金,如果没有这个功能Apple也许能拥有更多的用户群。的确,这样在设备的前面设计一块屏幕,安装一个类似FaceID的模组,并且给它们覆盖上曲面的玻璃,仅仅是为了让别人能看清楚你的眼睛。EyeSight似乎是一个用来照顾人性的功能,无疑它让Vision Pro变得更加友好和高级,但也同时增加了许多的配套成本,或许在产品线的其它系列中能看到不一样的方案。

此外,Vision Pro还拥有单眼4K级别的micro-OLED显示屏、三镜片折叠式光路的PanCake镜头方案、支持空间音频的双耳外放扬声器、带有深度信息的照片和视频拍摄等等功能。如此多且复杂特性让Vision Pro拥有了不可忽视的功能体验壁垒,而其体现出的极高完成度和超越性,也让我们相信它已经做好成为空间计算设备的准备。

从“R1芯片”聊产品发展

目前,关于这颗新的R1芯片貌似只能找到这样一句话:全新的R1芯片处理来自12个摄像头、5个传感器和6个麦克风的输入,能在12 毫秒内将新图像流式传输到显示器,以确保内容实时呈现在用户眼前。R1芯片需要在处理众多传感器的数据的同时驱动两片4K的高刷新率HDR屏幕,整个过程还要做到小于12毫秒的延迟。另外有趣的一点,M芯片和R芯片刚好组成MR混合现实,所以这里全文都使用混合现实指代类似Vision Pro类别的设备。

就像是一颗通信基带芯片让独立的iPhone连接了网络,现在的R1芯片也像是让虚拟的Vision Pro连接了现实。芯片就好像是Apple的黑魔法,先前iPhone中的M协处理器芯片,Intel Mac中的T安全芯片,无线耳机里的W和H芯片等等。通过芯片的加入让产品轻松获得了一些别人要实现难度极高或者代价极大的功能,这种从芯片到软件全链路打通的能力确实可怕。

Vision Pro上使用M2和R1两颗芯片,R1负责支撑空间计算,M2只负责用户任务。这样把负载分开的设计,可以让设备运行重度任务例如游戏时,不至于降低屏幕显示的分辨率,或者增加传感器的延迟。此外,R芯片在脱离用户任务芯片生命周期的同时,保障了产品空间计算的能力,这可以让R芯片搭配其它类型的用户任务芯片以组成Vision系列的不同产品线。例如使用A系列芯片再舍弃EyeSight功能,同时使用其它的外壳材质,组成一个性能够用且更加便宜的普通版本。

Vision Pro的起售价为3499美元,尽管它可能是苹果利润最低的产品,但这个超高价格也将让它难以普及。科技媒体Marques Brownlee说Vision Pro是富人的玩具,游戏自媒体小宁子在视频中直接抱怨Vision Pro实在是太贵了。Meta Quest Pro同为通用型混合现实产品售价999.99美元,专注游戏体验的PlayStation VR2售价549.99美元,尽管产品力上Vision Pro强大许多,但是产品力、认可度和销量这三者并非强相关的。更加廉价的Vision到来之时,也会有更多公司推出更具有竞争力的混合现实产品。

总结与展望

很明显Vision Pro的每一个部分都经过了深思熟虑的设计,如果你想获得最好的混合现实体验,那么选它就没错了。就像扎克伯格说的一样,随着苹果的入局,关于MR的产品也会越来越多地涌现,这对行业和市场来说都是一件好事。并且随着越来越多的注意力投向这个产业,越来越多的资金和人才的进入这个产业,那么这些资源就会像浪潮一样推动着那些设想加速成为现实。

至于未来就是每个人甚至动物的头上都长一个眼镜吗?其实可以回看一下人们印象中最早的移动电话机大哥大,它同样是续航极短、体型庞大且价格昂贵,甚至要专人携带。但是一旦切中了人们对通信和计算的需求,就像移动电话发展至今一样,随着资源的投入,混合现实设备也会不断迭代,变得亲民和易用,从而成为大众消费品。

那么像iPhone的发布让手机跨向智能时代一样,混合现实设备的机遇是什么?按照现在的发展趋势,当设备能够稳定高速地联网,云算力接管数据运算,实现AI处理用户请求时,再看现在设备推出的种种功能也会觉得无聊吧。

怒喵科技创始人李楠在他对Vision Pro看法的视频中说:未来的计算应该是隐形的,我们可以随时随地的无感的访问运算设备,但它不妨碍我们更加的亲近自然,而Vision Pro远远谈不上隐形。

随着技术的发展,混合现实设备必将逐步取代家中和公司现有的个人计算设备,例如电脑、电视、游戏机,而户外等移动场景则依然会继续使用手机。如果技术能幸运地继续发展,那么实现无感的混合现实技术时,使用的设备将不会是一个全部遮住人眼的眼镜。