@Lenciel

AVP 初印象 - 软件(1)

这是一个系列文章里的第二部分,前面我们聊了硬件

第二部分我们来聊聊软件。Not all softwares are equal,本章主要说的是 VisionOS 和一些内置的系统软件。因为再往上一层的软件,跟内容的边界已经很模糊了,就留到内容部分去说。

目录

VisionOS

Facts

个人认为,VisionOS 是苹果在 AVP 上最重要的创新。

因为前面说的那些 AVP 在硬件上取得的领先,大概率会让其他从业者觉得:「Wow,但,好像这个我也可以。」比如 micro-LED 的供应链应该现在就有挺多人在看了。

出原生操作系统让开发人员上来搞生态,就不是所有人都可以的了。

不是不想:任何吃内容的硬件平台,都想。因为一方面网络效应会带来内容上极高的壁垒,一方面还可以躺着抽水。

主要是这活确实不好干。

PC 时代,「Wintel」算是这个玩法的鼻祖。移动互联网这么多年,也就出了 iOS并且 iOS 也是在第三代左右才开始有 App Store。 、Android脱钩或许会让中国的鸿蒙等系统壮大, 两个体系。微软这么强的公司,几次尝试都宣告失败。

XR 领域,Meta 花了好几年才把基于 Android 的 QuestOS 功能填充出来,就已经就算做得最头部的。

算法那边,nVidia 倒是好像通过「CUDA+卡」把「Windows+Intel」两家的事儿都办了,所以现在各路人马都在想办法突围。

Apple 比 Meta 轻松,因为它手里已经有了 iOS、macOS、iPadOS、watchOS、tvOS,需要想的不过是基于哪套生态来拓展比较合适。

大家现在都知道答案了,因为官方文档说:「VisionOS 基于 iPadOS,但围绕视觉驱动和低时延做了很多定制和优化,使其更加适用于空间计算。」

这里有些很有趣的话题,比如为什么 AppleTV 也有一个 OS,比如为什么最后选择了 iPadOS 等等,先不去展开。

只聊 visionOS 最终的表现的话,我用下来觉得设计和完成度上有感动到我。

这之前的 XR 世界的主机系统有些像个菜市场。用户从 launcher 启动任何应用,都可能看到完全不同的按钮、交互、拖拽方式,内容的尺寸和距离也是各自发挥。一旦应用崩了,整个系统基本上也就崩了。

visionOS 上,每个应用就比较一致的设计元素和基本交互,跑在各自的 Space 或者 Shared Space 里,就有点精品购物中心的样子了。

感动之后,既然我知道它基于 iPadOS,我还是会说 visionOS 更像一个实习生作品,虽然是那种你想留下来的实习生的作品。

这好像已经在吐槽了,那不如我们就开始 rants。

Rants

考察操作系统,一般来说有用户和开发者两个视角:

  • 用户看安不安全,好不好用,应用是不是多,质量是不是好等等;
  • 开发者看工具链是不是好用,商务和服务是不是给力,能不能赚到钱等等;

所以我们分两部分。

用户视角

开机进入visionOS对齐手眼的过程是魔法秀:用户几乎没有理解成本就能理解系统需要它做什么,在学会手眼配合的过程中,会被这个系统识别精度之高延迟之低所震撼,以至于觉得自己好像开发出了一种超能力。

不过,稍微使用一段时间,就会发现不少的问题。比如虚拟键盘的设计,比如窗口的控件太小用眼睛去选择很累,比如和其他 Apple 设备的互联互通还不够好等等。

这里以图形化操作系统最基础的工作「窗口管理」深入一下。

说它是你想要留下来的实习生写的,是因为目前的实现在实用和酷两方面都做得不错。用户刚刚开始感受一个离自己面部如此近的窗口时,会像我们读中学的时候把《足球世界》附送的海报贴到自己房间墙上一样兴奋,并且会很快贴得满墙都是。

如果去看网上的评测,会发现很多人都扔了一堆一堆的窗口,甚至有人给自己的不同房间扔下一些不同的窗口,比如卧室看片,客厅办公。

说它是实习生作品,是因为用户跟窗口做的交互比海报复杂得多。 和 iPadOS 显然经过仔细考虑的窗口管理相比,很快就会因为下面的事情感到痛苦:

  • 我们实际上工作的时候往往需要在不同的窗口里来回切换,AVP 上寻找和定位自己想要去的窗口非常困难;
  • 一些已经是标准的窗口行为,比如「隐藏」、「最小化」等,在 AVP 上面还没有实现;
  • 当窗口内容比较多的时候,下面哪个拖动和关闭的横条很难被找到;
  • 我还可以说十五条;

结论: visionOS 还不能用来办公。不仅仅是不能用来写程序,我尝试这篇日志在里面敲出来最后都放弃了(因为我写的过程中要查各种东西,还常常要处理别的事情,窗口切换和输入效率都太低了)。当然:

  • 作为 FITURE 人,其实是理解这里面的难度的。小屏(比如手机)和大屏(比如电脑、电视机)上窗口切换实际上已经有工业标准了。在中等大小的屏上窗口如何管理其实有很多难题,特别是穿戴设备还会涉及到交互方式不同且用户在不断移动;
  • 这个实际上也符合 AVP 自己的发展阶段(生产力还不是重点,比如和 macOS 打通也做得略等于无),所以长期来看可能是比较乐观的。
开发者视角

2008 年 7 月,iPhone 到了第三代,Apple 推出了应用商店,上面有大约 500 个应用。

AVP 推出时就有应用商店,上面大约 150 个应用。

iPhone 在应用商店发布后经历了 App 的指数级增长(两年后的 2010 年就有十万个应用),虽然早期的 SDK 也跟今天 visionOS 的一样糟糕,所以看起来 AVP 应用增长会比较乐观。

但 AVP 应用市场未必有指数增长。

因为 iPhone 和 AVP 开发上一个比较大的区别是,手机软件和之前的桌面软件一样,都是平面程序。而 XR 领域涉及 3D,主要的开发团队和人员,都是通过使用相对成熟的游戏引擎(比如 Unity)做这部分工作。

所以现状是 Apple 生态内的开发工具(XCode、SwfitUI 等),主要都是面向平面程序开发,新增的 RealityKit、 ARKit、RealityComposerPro 等工具在 XR 行业内比较冷门。

反过来,XR 领域的资深开发者,又对 Swift、XCode 这套工具链比较陌生。

因此在 AVP 上面做游戏或者说一般意义上做任何涉及 3D 的开发,其实是需要在两个技术栈选一个:

  • Native stack:XCode、Swift、SwiftUI、RealityKit、RealityComposerPro…
  • Unity stack:Unity、C#、XR SDK、PolySpatia…

除此之外,进入 AVP 的开发,还需要 Apple 芯片的机器最少 16GB 的 RAM 和 512GB 的硬盘。XCode 下的 AVP 模拟器从目前来看支持除开 SharePlay 和 Personas 之外的所有功能,因此不需要人手一个 AVP 真机。

选择 Native stack:

  • 好处:启动比较便宜(100 美金的苹果开发者账户);
  • 缺点:学习成本比较高,并且不能跨平台,比较适合跟 Apple 生态绑的比较紧(比如同时开发一个应用的 Apple Watch、iPhone、iPad、AVP 等各种平台的版本)的团队;

而选择 Unity stack:

  • 好处:可以利用 Unity 实现一定程度这里说一定程度,是指 Unity 为 AVP 开发的那个 Polyspatial 还很不完整,并且进度受到 Unity 裁员的影响一直不及预期。 的跨平台;
  • 坏处:除开上面的费用,还需要一个 2040 美金的 Unity Pro license。比较适合想要一套内容在多个 XR 平台上变现的团队(实际上以目前 AVP 的量,大团队肯定还会惦记着 Quest);

无论选哪套的团队,要具备生产力都还需要一些时间。所以短期内,应用市场很难有大规模的上架。

Thoughts

Apple 虽然做了个 VR 头显,但看上去基于对 AR 的执念,选择了和 Meta 完全不同的方式去建生态:游戏在里面重要性没有那么高。

但这个差异背后核心的原因恐怕不是理念不同,而是身位不同。

Meta 本身没有生态,它做新东西新体验,元宇宙、VR/MR 游戏、3D 内容,来构建生态:所以它短期内核心是把出货量拱上去,然后支撑那些 Unity 开发者在 Quest 上赚到钱。

Apple 本身有庞大的生态,它可以先兼容 Mac、iPad 甚至手机上的一些应用,把大屏看片、大屏办公往前稍微推进一下,就能让一些开发者「赚到额外的钱」。所以它短期内的核心任务是让 AVP 和 Apple 其他设备互联互通,包括开发者工具链的互联互通。

结论: 作为创业团队,我们不要在 Apple 做好 Unity 兼容前上去搞游戏,也不要在 Quest 就是个娱乐机的今天上去搞应用。也许有天两条路会交叉,但那只跟那时候还活着的团队有关系。

AVP 初印象 - 硬件

经过一段时间不太密集的使用 之前有挺多评测博主每天戴着它几个小时甚至更长时间,我是有点不知道这么长时间能够干嘛。 ,对 Apple Vision Pro(后面简称 AVP)算是有了些初步的感受和想法,立此存照。

进入内容之前先介绍一下我的背景,这样你就知道我大概会有什么样的偏见:

  • 二十年左右的软件开发经验,从存储到嵌入式到手机到基础设施到各种应用;

  • 是 Oculus 初代的用户(感谢 studyboy),持续关注 XR 领域XR 泛指 VR/AR/MR/Spatial Computing 在内的各种概念。也许不是一个特别好的词,因为太笼统了,但又是个无法不用的词,因为贵圈太乱了。
  • 但真正入局大概半年左右:目前有一个十来人的小团队,研发的两款 VR 游戏刚刚上线

  • 对 XR 的硬件还处于看过文档拆过机的发烧友用户阶段,没有实际参与过硬件研发;

  • 在 AVP 之前,已经试用过 Meta、Pico 的几款主要机型;

我假设读者已经对 AVP 有一些基础的了解,分硬件、软件、交互、内容四个部分,说点儿讨论得还不太多的东西。如果对 AVP 非常陌生,可以先看看类似于 the Verge 或者 Wired 这类权威媒体的评测文章。

So, let’s begin…

avp_lenciel.jpeg

目录

核心亮点1:遥遥领先的显示能力

Facts

Apple 用一个让终端用户感觉挺陌生的词实际上在 1992 到 1993 年,罗伯特·雅各布森(Robert Jacobson)与 VR 教父之一的汤姆·弗内斯(Tom Furness)在共同创立华盛顿大学的 HMI 实验室的时候,就创造了「空间计算」这个词并将其投入商业用途。 ——「Spatial Computing device(空间计算设备)」——来宣传 AVP,而不是消费者耳熟能详的 VR 或 AR,我想大概有两个原因:

  • 虽然 AVP「主要」是台 VR 设备,但 Apple 一直以来都认为 AR 比 VR 靠谱(后面讲内容的部分会说到,这里的割裂带来了不少问题);
  • VR/AR 跟 AI 一样,经历了太多高开低走,从业者和消费者多少都有些疲了;

第一点值得多说几句(让我们暂时忽略 VR、AR 这些词本身就有的一些歧义,只讨论核心概念):

  • VR 是通过闭合了显示屏的头显在用户眼睛前来展示内容。它最大的问题就是所谓的「persence」不足:用户被封闭进一个和物理世界隔离的空间;
  • AR 则是通过物理透明的显示屏(形态常常是眼镜镜片)对现实进行所谓的「增强」当然,AR 也不全是眼镜形态的。比如对 AR 有偏好的 Apple 就在 iOS 里提供了一些 AR 工具,并且在高端的 iPhone 和 iPad 里增加了 LiDAR 设备,让用户在屏幕上看到对摄像头拍摄出来的「现实」的增强。 ,也就是所谓的 OST(Optical See Through)。它最大的问题是包括 FoV 在内的一堆跟人眼或者 VR 设备相比的物理限制,以及包括供电、交互、时空分辨率叠在现实世界带来了一个隐藏需求是高精度定位,不然设备都不知道自己在现实世界的哪里,而很多 AR 设备甚至还没有 SLAM。 在内的一堆软硬件限制;

AVP 实际上是个 VR 头显,通过高保真的 passthrough 来解决 VR 脱离物理世界的问题,也就是所谓的 VST(Video See Through):

ost_vst.png
图 0. OST 和 VST 的差异,source

这个方案并不新鲜,比如 Meta 已经努力了三四年了,但是跟 Apple 最终交付的保真度比,多少有点寒碜

当然,这不是 Meta 做得有多差,而是 Apple 干得实在太好了:无论之前有没有使用过其他 VR 设备,你戴上 AVP 的时候都会为其效果之好,延时之低而感动。

结论:包括高保真 passthrough 在内的在显示方面的堆叠,是 AVP 通过硬件实现的第一个杀手锏,并且很可能变成一个行业标杆:就好像 iPhone 出来之后,薄在一段时间成了移动手机的标杆指标一样,显示这部分,特别是 VST 能做到多好,估计会变成 VR 的一个标杆指标。

说它是通过硬件实现因为:

  • 它核心是 M2+R1 这套芯片搭配,毕竟两个 passthrough 对外拍,四个眼动对内拍,六个 world tracking 摄像头,两个 depth sensor,总共 14 个头子做实时计算,出两个眼睛 micro-LED 3000 PPI 的变态显示画面,还要以那样的频率刷新,这不是个软件能搞定的活了:

avp_sensors.png
图 1. AVP 的大型堆料现场

  • 它还强依赖于包括 micro-OLED 在内的硬件在供应链这侧的成熟。iFixit 那篇很强悍的拆机分析有一个使用显微镜制作的图,把 AVP 的 PPI 跟目前市面上一些最强的设备进行了对比,确实是遥遥领先:

图 2. AVP 的像素密度是 Quest3 的 3 倍,iPhone15 的 7.4 倍

  • 当然,也少不了软件上的巧思。Karl Guttag 有一篇对 AVP 显示的很细的分析,里面就讲了一个很有趣的点:Apple 在 AVP 上通过降低显示分辨率(比本来分辨率更低的 Quest3 要更模糊),来使得画面更流畅并且没有 door effect

avp_blur_feature.webp
图 3. AVP 采用了有意的模糊让成像更流畅

Rants

Apple 可以搞专有芯片,可以上十几个摄像头,但是,它没法解决物理世界的问题,特别是光学上问题。

我在拿到设备之前看到不少美国先拿到机器的评测者,包括著名的 John Gruber,都说 passthrough 体验天衣无缝,所以期望很高。

但拿到设备之后,发现 VR 镜头上常见的如眩光、运动模糊等问题,一个不差。特别是戴上它我就看不清自己的手机和电脑屏幕(而且戴上它还不能解锁手机,要操作手机只能取下来),一度以为是自己的设置有错误或者这台设备有毛病。

后来看了 Snazzy Labs 的评测就觉得,对啊,怎么会指望 Apple 可以解决人类还解决不了的问题呢比如,虽然 AVP 有 3000 PPI,但是仍然不是 retina 的,因为它离眼睛实在是太近了, PPD 仍然不够高,并且应该很长时间内也没有变高的办法。

结论:包括高保真 passthrough 在内的各种显示上的增强让 AVP 具备 VR 设备从未到达过的高度,但是还没有好到可以在虚拟与现实间随意穿梭的地步,仍然需要在一代代的设备中不断迭代出新能力来渐进式地增强。

Thoughts

三万亿美金市值,有极高人才密度,并且对 AR 情有独钟的 Apple 在 AVP 上做出的选择,基本上说明了在很长一段时间内,人类没有解决 OST 做 AR 面临的核心问题的路径(因为这些问题大部分受物理定律限制,没有摩尔定律)。

所以 VR+VST 的穿戴设备形态,应该仍然是 XR 世界很长一段时间内的主力。而且不管它被叫成 MR 还是空间计算还是啥,其使用场景会是在一小段时间内解决某个具体需求(娱乐、学习、社交等等)的穿戴设备仍然是 XR 设备的主要出货形式。

时刻使用的穿戴设备替代便携设备(手机、平板、笔记本),还不知道要多久。

核心亮点2:Apple 特有的味道

Facts

Apple 从不让用户失望的是开箱时的那些「aha moment」——虽然它在逐步衰减的过程中。

AVP 同样令人惊叹:首先金属和碳纤维的材质就跟历史上那堆塑料壳子的 VR 头显拉开了几条街的差距。

然后是跟其他 Apple 设备一脉相承,简约但不简单的设计感。比如整个 onboarding 流程,除开那个设置头带松紧的地方是手动的,其他所有流程都是经典的苹果范儿。

还有一些人觉得 AVP 比其他 VR 头显看起来更小更精神,这部分我倒没啥感觉:最新几代的 VR 设备都已经没有以前那个四四方方的前盖了。而且 AVP 要挂个尿袋,这算更精神还是更神经…

Rants

如果单纯是果粉,当然会赞美这台 AVP 仿佛是一个 iPhone、一个 Airpods Max、一个 Apple Watch 的合体。

如果跟我一样干过供应链,当然会觉得这可不就是把 iPhone、Airpods Max、Apple Watch 的一堆设计和物料重用了还要卖我几万块钱当然 Tim Cook 作为一个供应链出身的 CEO,经常干这事儿,我的备用机 iPhone Mini 不就是这么来的吗?

而且这样堆料的初代也确实出现一些设计上考虑不周的地方。比如那个编织的头带有比较严重的问题:AVP 头显这侧本来就比一般的 VR 设备重,这个头带还没有一个头顶的支撑,造成脸框和后颈压力都会很大。但是那个双带的版本好像又不够美,所以有了很多可以 3D 打印的增强配件(比如),或者,买一个:

avp_handband.png
图 4. 现在可以买到很多第三方头带

Thoughts

因为操办过一点硬件的项目,这里我其实感触挺多的。

一个是如何做产品,包括怎么找 KSP,怎么做抉择和权衡,怎么跟供应链协作,怎么省钱等等,FITURE 人自有 FITURE 人的血泪,这里按下不表。

一个是如何做营销,这里稍微多写几笔。

为什么 AVP 的包装里面有两套头带?

我觉得这是因为单环的好看,但没法用;双环的将就能用,但不好看。

比如,你能想象下面这张图的模特带着头发上中分支撑的双环头带吗?

avp_headband_1.jpeg
图 5. 优雅的用户不配用真实的头带

上面那个勉强可以的话,那这位呢?

avp_headband_2.jpeg
图 6. 这不是配不配而是能不能的问题了

但真正有趣的地方是,你有没有会发现基本上所有人在分享自己使用的照片的时候,都用的是配重有明显问题的单环头带。比如 the Verge 的总编大人,这发型当然不适合双环:

vision_pro_VPavic.webp
图 7. Vjeran Pavic 算是用户分享时的标准造型

今天,做消费品的一个挑战是人们获取信息的渠道极其分散:过去包下新闻联播前几分钟的广告可以触达几亿人,今天用户的时间散布在各种渠道各个平台。

于是我们在做营销的时候需要鼓励用户主动传播和分享对产品的使用。所以现在有一个指标叫做「成图率」,本质上是提供社交货币给用户,让他们在展示自己美好生活的过程里面,帮产品去种草。

苹果为了让用户主动去秀那根其实不太舒适的头带,在整个过程中持续宣传了这根头带的工艺,甚至在那个一分多钟毛片儿般的介绍视频中拿出了相当多的时长给它。这里面的布局和考量,值得每个做营销的人好好学习。