为什么未来是增强现实的？

首页 > 散文小说 > 正文

为什么未来是增强现实的？
2017-12-31

大约在十年前，也就是2007年，iPhone第一次公开亮相，从此开启了智能手机的革命。如今，在PC上能完成的事情，已经几乎没有哪一件不能在手机上完成了。

智能手机已经基本取代了PC。那么，我们自然要问：在下个十年，是否会出现能取代智能手机的消费级电子产品？

预测未来很难，再加上一个时间限定就更不容易。当然，「十年」只是个概数。

我们讨论的是「取代」手机，而不仅仅是手机的辅助或补充。假设未来真的出现了这样一种产品，那么它一定像手机一样足够轻便，可以随身携带、随时使用。

最容易想到的，是眼镜。根据「随身携带」的特点，我们可以排除掉很多可能在未来成为「入口级」产品的选项，比如智能音箱、智能电视，以及号称「互联时代第四块屏」的车载智能设备。它们有可能在各自的适用场景内成为新一代的计算平台，但不会达到与手机同等的使用规模。

能够跟眼镜竞争这一地位的，也许只有其它的可穿戴智能设备，包括典型的手表或手环。但历史已经表明，这些智能设备无法在所有的交互层面上全面取代手机，而只能成为手机的附属。

视觉，是人类最重要的感官。能够自然地接管这一感官的，几乎只能是眼镜，除非未来技术能够将图像直接投射到视网膜。但具体会是哪种眼镜呢？VR眼镜还是AR眼镜（VR是虚拟现实，AR是增强现实）？另外，你真的相信眼镜能取代手机吗？

彩虹尽头

如果说VR的未来是《黑客帝国》，那么AR的未来就是《彩虹尽头》。

三天之后，巴塞罗那市中心——

兔子跳上一张空的柳条椅，随后又蹦到桌子中央，在茶杯和调味瓶之间站定。它脱下帽子，依次向阿尔弗雷德·瓦茨、甘布克·布赖恩和安达庆子致敬。“我给你们带来了一笔好买卖！”它说道。总的来说，它的亮相并无特别之处。

阿尔弗雷德伸手穿过那影像挥了挥，借此强调他本人的实体就坐在这里，“我们才是带来生意的人。”

“哈。”兔子“砰”的一声坐在桌子上，从盐瓶和胡椒瓶后拽出一套微型茶具。它给自己倒了一两滴茶——足够装满它的杯子——抿了一口。“我洗耳恭听。”它晃了晃两只长耳朵示意道。

桌子的另一侧，甘布克·布赖恩一直盯着这只动物。布赖恩和兔子一样，都是虚拟的，但他投出的影像显得非常严肃，完全符合他本人的个性。

上面这段文字，就出自于弗诺·文奇的雨果奖获奖作品《彩虹尽头》。在这段描写中，一共出现了四个「人」——阿尔弗雷德·瓦茨、甘布克·布赖恩、安达庆子和一只「兔子」。他们约在巴塞罗那市中心见面。当然，只有阿尔弗雷德一个人是以实体的形式到达了这个地点，而其他三位均远在千里之外。

在作者描写的这个世界里，虚拟与现实已经完美地叠加在一起，你也很难仅凭肉眼区分出两者。在类似这种「远程聚会」的场合，你可以选择以真实面貌示人，也可以把自己打扮成任何样子（就像这只兔子一样）。

我非常喜欢弗诺·文奇这位作家，也很佩服他对于未来科技充满预测性的细节描写。他这部《彩虹尽头》，讲的不是虚无缥缈的科学幻想，而是对近未来的前瞻和透视。那么，这样的一个未来世界，是否真的可能成为现实呢？

从计算机诞生开始，数字内容就越来越深地影响我们的世界，我们也无时无刻不在建设和完善一个纯粹由数字内容组成的世界。只要打开电脑或手机，我们就一下子从现实世界跨进了数字世界。电脑和手机成为连接两个世界的桥梁。

AR（增强现实）可以说是这一趋势的自然延续。目前的数字世界和现实世界是完全割裂的，它们有着完全不同的形式。但是AR技术告诉我们，两个世界有可能完美地统一在一起，从内容到形式。《彩虹尽头》所描写的正是这样一个AR的未来。

VR是对现实世界的逃离，而AR则选择留在现实。前者是游戏的未来，而后者是现实的未来。

让我们暂时抛下眼前的苟且，想象一个「随时随地都可增强」的未来。然后，我们再冷静地思考一下，当下的科技距离这个未来还有多远。

设备

今年跟AR有关的两件大事，是苹果发布了ARKit以及谷歌发布了ARCore。这让人们日常使用的手机摇身一变，成为了（或即将成为）一款AR设备。

然而，ARKit发布已经差不多过去半年了，App Store上也还没有出现特别成功的AR应用。当然，我们仍然可以期待，借助ARkit，开发者有可能设计出非常棒的AR特性。但是，这一事实也充分说明了，基于手机屏幕的AR存在固有的一些缺点，给AR产品的设计带来了巨大的挑战。

著名的AR从业者Matt Miesnieks（6D.ai的CEO）曾经在他的文章《AR-First Mobile second》（阅读地址：https://blog.prototypr.io/ar-first-mobile-second-614e85673083）中指出了在手机上制作AR产品的关键性问题：

Why do this in AR, wouldn’t a regular app be better for the user?

(译文：为什么要把产品设计成AR的形式呢？AR比普通App的形式能给用户带来更好的体验吗？)

人们通过一块小小的手机屏幕来观察更为庞大的AR世界，这本身带来的沉浸感就很弱，交互方式也非常有限。这限制了人们的想象力。

AR的未来，还得依靠AR眼镜。依据很多传闻，苹果的眼镜已经在暗中筹备当中了。那么，我们自然会问，它什么时候会上市？

Matt Miesnieks已经给出了他的预测：是在——2021年！（参见他的博客：《Why Apple’s glasses won’t include ARKit》，阅读地址：https://medium.com/super-ventures-blog/why-apples-glasses-won-t-include-arkit-46a1d40381fe）

注意，这个时间指的是真正的AR眼镜，苹果推出的第一款眼镜产品有可能不带AR特性，比这个时间要早。实际上，这个时间是这么推算出来的（按照循序渐进的软硬件产品迭代周期）：

2018年底，第一个版本的眼镜问世。它甚至不带摄像头，只是能显示数字内容；它跟Apple Watch的地位差不多，输入主要受iPhone的控制。
2019年，第二个版本的眼镜加入摄像头，可以拍摄照片和视频，但仍然不带AR功能。它只能算是一个HUD (Heads-Up-Display)设备，显示的数字内容不和现实发生交互，还算不上AR眼镜。
2020年，第三个版本的眼镜会做大量的底层优化，但没有什么吸引眼球的大的功能改进。这时候人们可能开始抱怨，苹果动作太慢，在AR眼镜市场上已经被竞争对手领先了。
2021年，一切软硬件打磨成熟，ARKit终于被集成到眼镜当中，一款真正的够酷的AR眼镜问世了！从此，AR时代正式开启。

当然，这只是一个预测，但也说明了在一个专业的AR从业者眼中，AR的未来会以怎样的时间周期到来。

再回到前面《彩虹尽头》描述的情节，人们在这个聚会的场景中可以以真实的面貌出现。这说明要实现这种未来科技，除了需要一个类似眼镜这样的显示设备之外，还需要一个3D成像设备，它能把使用者的身体进行实时的3D重建。制造这样的一个3D成像设备，并且是便携式的，现在还几乎无法想象，这比便携式的显示设备还需要更久的时间。

不管对于哪种设备，它的普及，主要的障碍在于两点：体积和价格。

如果像很多VR头盔那样，戴上之后像在头上压了块砖头，还要拖出好几米的线缆，另外需要定位器和高配置的电脑一起配合使用，这显然只适合职业玩家，不可能对大众普及。真正的AR眼镜，要数微软的HoloLens比较出众，它已经将硬件体积控制得非常好了，完全无线，独立运行，不需要手机或电脑辅助。但是，它目前的售价在两万以上。

在《彩虹尽头》中，AR的显示设备，变成了隐形眼镜，而电脑则成为随身穿戴的网衣。现实的设备距此还比较遥远。但想想第一台通用计算机(ENIAC)的体积，它是一个占地面积约170平方米、重达30英吨的大家伙。在那个时候，如果说要把这么大的一个东西浓缩到手掌大小，肯定是不可想象的，但现在已经成为现实。

至少，在比较近的未来，AR眼镜的体积缩小到一个可以接受的水平，足以允许设计出比较时尚的外形，甚至是接近普通眼镜的尺寸，是可以期待的。价格也会随着规模化的使用而逐渐降低。

AR Cloud

假如我们要实现《彩虹尽头》中所描述的那种「远程聚会」的场景，系统必须至少做到下面两点：

对现实世界的3D结构有清晰准确的理解；
这个3D结构能够在多个客户端之间实时地共享。

借助ARKit或ARCore能不能实现这两点呢？不能，至少目前还差得远。以ARKit为例，它对于周围环境的理解只是限于特征点(feature point)的层次。什么是特征点呢？直观来说呢，我们经常在一些AR的Demo中看到的那些小点点，就是特征点了。比如下图中的黄色小点点：

ARKit的基本原理是这样：它同时运行着两套系统，一个是基于摄像头(视觉)的，另一个是基于IMU(加速度计、陀螺仪等)的。这两套系统分别对手机的位置和姿态(合称位姿，pose)进行估计，然后通过某种类似滤波的方式将两者的结果结合起来，获得一个更准确的位姿估计。其中利用摄像头拍摄的图像进行位姿估计的过程，是先对各帧图像提取特征点，也就是上图中的这些小点点，但这时只能确定它们在图像中的像素位置，还无法知道它们在真实环境中的3D坐标。然后ARKit会在前后相邻的各帧图像之间追踪这些特征点，并通过一定的算法推算出它们的相对深度，再进一步结合IMU对移动距离的估算，从而最终获得特征点真实的3D坐标(当然，有一定误差)。

这种基于特征点的方法，决定了这些特征点是非常稀疏的（从上面的图中也可以看出来），通过它们所获得的对周围环境的3D结构的理解，是非常粗糙的。只是基于这些粗糙的信息，虚拟对象和现实发生交互的方式将非常有限。在《彩虹尽头》中的那种聚会场景里，不同的远程接入者需要从各自的视角观察现实世界，这需要系统对于现实世界3D结构的理解达到很深的层次，光有一些个别的特征点的3D坐标肯定是不够的，至少应该识别出周围3D结构中带有纹理的各个平面，最终为现实世界建立起完整的3D模型，就像3D游戏中的模型一样。只有这样，虚拟对象和现实才能发生更有「真实感」的交互，比如能够互相遮挡，能够发生物理碰撞，等等。

识别环境的3D结构，这在SLAM中可以称为建图(Mapping)过程。所谓地图，就是对环境的描述。实际上，我们需要一个稠密的地图，作为对真实世界3D结构理解的基础。这需要真正的深度摄像头。然而，ARKit目前并不依赖深度摄像头，也只有iPhone X的前置摄像头是支持深度的（用于对人脸进行深度上的识别）。这意味着，主要依赖后置摄像头的手机AR应用，对于环境的理解只能达到稀疏特征点的程度。

另一方面，如果要支持多用户在同一个AR场景中进行交互，那么现实世界的3D结构需要在多个客户端之间实时地共享。这需要一个全新的基础设施的支撑。著名的AR专家——Ori Inbar(CoFounder of Ogmento, AWE, Super Ventures)，将这个基础设施称为AR Cloud，详见他的下列文章：

https://medium.com/super-ventures-blog/arkit-and-arcore-will-not-usher-massive-adoption-of-mobile-ar-da3d87f7e5ad

Matt Miesnieks也对AR Cloud这一概念做过详细阐释：

https://medium.com/super-ventures-blog/why-is-arkit-almost-useless-without-the-arcloud-6ee1e7affc65

AR Cloud到底是什么呢？一句话，它是现实世界的数字表示，可以看成是现实世界在数字空间的1:1的备份。它可以通过网络随时查询、访问，并通过算法与客户端的深度摄像头拍摄到的实时图像进行3D结构上的对齐。这个一旦对上了，数字世界和现实世界就可以方便地叠加在一起。

当然，这个AR Cloud不是一朝一夕建立起来的，它需要大量的客户端不断地采集真实世界的数据，不断地补充、更新和纠正AR Cloud中的存储的信息，逐步完成对现实世界越来越精确的描述。

所以，Ori Inbar在他的文章中对于iPhone没有采用后置的深度摄像头这一点深表遗憾。他认为，苹果一旦决定在iPhone中配备后置的深度摄像头，这将使得每一部iPhone手机都具备了对空间的3D感知能力，从而大大加快AR Cloud的建设，最终给用户带来指数级的价值提升。

苹果为什么还没有这么做，不得而知。是苹果还没有认识到深度摄像头以及对环境的3D结构进行理解的重要性吗？不太可能。也许是为了控制BOM成本，也许是因为苹果深知，在手机上的AR只是一个过渡，ARKit目前也只是处于非常初期的阶段。AR的繁荣，依靠AR眼镜的大规模普及。而对现实世界3D结构的理解，则是AR技术发展的重中之重。

AR的世界图景

让我们看一段场景描写：

一阵急促的音乐声将他叫醒。
江枫揉了揉惺忪的睡眼，一把抓过床边的AR眼镜。

像以往的清晨一样，Siri笑盈盈地站在面前。
江枫还是有些不高兴，昨晚睡得太晚，现在头还有些沉。他嘴里嘟囔说，“今天是周末啊，干嘛这么早叫我？”
“主人，很抱歉，刚才收到一条优先级很高的消息。”Siri说完，随手一指。
顺着Siri所指的方向，江枫果然看到一个蓝色的信封，正躺在卧室的书桌上。信封表面发出幽蓝的光泽，一个复杂的立体几何图形悬浮在信封上方，不断变换着角度，这是代表发信人身份的logo。
江枫突然感觉有点不对劲，他记得根据他的设置，在免打扰时段接收的消息，都应该转到客厅的储物盒里，而不应该出现在这里。
“你修改过接收消息的设置吗？”他问Siri。
“没有啊。”
“好吧。帮忙把信打开吧。”
Siri把消息的内容投射到了对面的墙上，只有一段很简短的文字：「禅意城堡的秘密。11点古木茶社见面。」
江枫心里吃了一惊，半天没有说出话来。古木茶社，那是他和她第一次见面的地方，而禅意城堡，他们曾在那里度过了在一起的最后时光。
Siri察觉到了他满脸疑惑的表情，善解人意地解释说：“我仔细查过，但消息的来源很隐秘，完全看不出寄信人的真实地址。”

江枫梳洗完毕，随口吃了点儿东西。在Siri的协助下，他挑选好了「出门」的装束。
距离会面时间还有十分钟，他决定先在城里转一转，说不定会发现一些蛛丝马迹。他调整到隐身模式，以「上帝视角」来到了城市中央广场的上空。一般来说，只有少数城市管理人员才有这样的权限，但这却难不倒他，他有一些「技术手段」能够绕过监管系统。
空中和地上一样热闹，各式各样的飞行器盘旋飞舞，叫不上名字的飞禽和长着翅膀的怪兽，载着它们的乘客在城市上空穿梭而过。他把视角移动到城市西侧，在连绵的群山环抱中瞥见了庞大的禅意城堡。它依山而建，发出森严的光芒，仿佛已经存在了千百年，比真实的存在更加真实。江枫莫名地感到一阵寒意，那本是嵌在这个世界中很普通的一处探险娱乐设施，但一年前发生的那次意外让他再也不想涉足这个地方。他的女朋友于燕就是一年前在这里失踪的……

江枫连忙闪身离开了城堡，现身在位于城北的古木茶社旁边。站在茶社门口迎宾的两位美女机器人兴高采烈地跟他打招呼，旁边的树荫下一群孩子正在玩耍嬉闹。突然，两头体型庞大的黑翼巨龙从天空俯冲下来，上面的骑手连声呼哨。巨龙的翅膀遮住了阳光，在地上留下了巨大的阴影。孩子们吓得失声惊叫。
两头巨龙重新盘旋上升，越飞越高。江枫心中的愤恨正无处发泄，他再次进入隐身模式，悄悄地跟了上去。他贴近一头巨龙的身侧，快速启动了一段隐秘的程序，然后伸出手指弹了出去。巨龙应声栽落，在骑手的惨呼声中以自由落体的速度向地面摔去……

以上引用的这段描写，并非出自名家的作品。实际上——嗯——这是我刚刚随手写的一段……本来写到这里的时候，突然感觉普通的陈述句似乎无法充分表达那个光怪陆离的AR世界。当然，这只是想象，众多可能性中的一种。

其中一个很有意思的问题是，在AR的世界中，也必然会有机器人。试想，如果你不太需要它帮你搬东西的话，那么机器人确实没有必要以实体的形式存在。它也会在这个现实与虚拟叠加的世界中逐渐成长。

尾声

AR眼镜在工业、教育等垂直领域，已经开始被真正使用了。而在大众消费领域，AR的应用场景可能更容易理解，却也最不易实现。只要我们怀有一些技术浪漫主义，就不难想象一个充满趣味的AR的未来。到了那个时代，所有的行业，所有的应用，都会以新的形式出现。

对大多数人来说，AR可能还比较遥远。但也许就像智能手机一样，它真正到来的那一刻，比我们所有人想象地都快。

（完）

其它精选文章：

原创文章，转载请注明出处，并包含下面的二维码！否则拒绝转载！
本文链接：http://zhangtielei.com/posts/blog-talk-about-ar-future.html
欢迎关注我的个人微博：微博上搜索我的名字「张铁蕾」。

上篇：天赋是个伪命题吗？

下篇：漫谈分布式系统、拜占庭将军问题与区块链