首页 > 杂记 > 正文

为什么未来是增强现实的?


大约在十年前,也就是2007年,iPhone第一次公开亮相,从此开启了智能手机的革命。如今,在PC上能完成的事情,已经几乎没有哪一件不能在手机上完成了。

智能手机已经基本取代了PC。那么,我们自然要问:在下个十年,是否会出现能取代智能手机的消费级电子产品?

预测未来很难,再加上一个时间限定就更不容易。当然,「十年」只是个概数。

我们讨论的是「取代」手机,而不仅仅是手机的辅助或补充。假设未来真的出现了这样一种产品,那么它一定像手机一样足够轻便,可以随身携带、随时使用。

最容易想到的,是眼镜。根据「随身携带」的特点,我们可以排除掉很多可能在未来成为「入口级」产品的选项,比如智能音箱、智能电视,以及号称「互联时代第四块屏」的车载智能设备。它们有可能在各自的适用场景内成为新一代的计算平台,但不会达到与手机同等的使用规模。

能够跟眼镜竞争这一地位的,也许只有其它的可穿戴智能设备,包括典型的手表或手环。但历史已经表明,这些智能设备无法在所有的交互层面上全面取代手机,而只能成为手机的附属。

视觉,是人类最重要的感官。能够自然地接管这一感官的,几乎只能是眼镜,除非未来技术能够将图像直接投射到视网膜。但具体会是哪种眼镜呢?VR眼镜还是AR眼镜(VR是虚拟现实,AR是增强现实)?另外,你真的相信眼镜能取代手机吗?

彩虹尽头

如果说VR的未来是《黑客帝国》,那么AR的未来就是《彩虹尽头》。

三天之后,巴塞罗那市中心——

兔子跳上一张空的柳条椅,随后又蹦到桌子中央,在茶杯和调味瓶之间站定。它脱下帽子,依次向阿尔弗雷德·瓦茨、甘布克·布赖恩和安达庆子致敬。“我给你们带来了一笔好买卖!”它说道。总的来说,它的亮相并无特别之处。

阿尔弗雷德伸手穿过那影像挥了挥,借此强调他本人的实体就坐在这里,“我们才是带来生意的人。”

“哈。”兔子“砰”的一声坐在桌子上,从盐瓶和胡椒瓶后拽出一套微型茶具。它给自己倒了一两滴茶——足够装满它的杯子——抿了一口。“我洗耳恭听。”它晃了晃两只长耳朵示意道。

桌子的另一侧,甘布克·布赖恩一直盯着这只动物。布赖恩和兔子一样,都是虚拟的,但他投出的影像显得非常严肃,完全符合他本人的个性。

上面这段文字,就出自于弗诺·文奇的雨果奖获奖作品《彩虹尽头》。在这段描写中,一共出现了四个「人」——阿尔弗雷德·瓦茨、甘布克·布赖恩、安达庆子和一只「兔子」。他们约在巴塞罗那市中心见面。当然,只有阿尔弗雷德一个人是以实体的形式到达了这个地点,而其他三位均远在千里之外。

在作者描写的这个世界里,虚拟与现实已经完美地叠加在一起,你也很难仅凭肉眼区分出两者。在类似这种「远程聚会」的场合,你可以选择以真实面貌示人,也可以把自己打扮成任何样子(就像这只兔子一样)。

我非常喜欢弗诺·文奇这位作家,也很佩服他对于未来科技充满预测性的细节描写。他这部《彩虹尽头》,讲的不是虚无缥缈的科学幻想,而是对近未来的前瞻和透视。那么,这样的一个未来世界,是否真的可能成为现实呢?

从计算机诞生开始,数字内容就越来越深地影响我们的世界,我们也无时无刻不在建设和完善一个纯粹由数字内容组成的世界。只要打开电脑或手机,我们就一下子从现实世界跨进了数字世界。电脑和手机成为连接两个世界的桥梁。

AR(增强现实)可以说是这一趋势的自然延续。目前的数字世界和现实世界是完全割裂的,它们有着完全不同的形式。但是AR技术告诉我们,两个世界有可能完美地统一在一起,从内容到形式。《彩虹尽头》所描写的正是这样一个AR的未来。

VR是对现实世界的逃离,而AR则选择留在现实。前者是游戏的未来,而后者是现实的未来。

让我们暂时抛下眼前的苟且,想象一个「随时随地都可增强」的未来。然后,我们再冷静地思考一下,当下的科技距离这个未来还有多远。

设备

今年跟AR有关的两件大事,是苹果发布了ARKit以及谷歌发布了ARCore。这让人们日常使用的手机摇身一变,成为了(或即将成为)一款AR设备。

然而,ARKit发布已经差不多过去半年了,App Store上也还没有出现特别成功的AR应用。当然,我们仍然可以期待,借助ARkit,开发者有可能设计出非常棒的AR特性。但是,这一事实也充分说明了,基于手机屏幕的AR存在固有的一些缺点,给AR产品的设计带来了巨大的挑战。

著名的AR从业者Matt Miesnieks(6D.ai的CEO)曾经在他的文章《AR-First Mobile second》(阅读地址:https://blog.prototypr.io/ar-first-mobile-second-614e85673083)中指出了在手机上制作AR产品的关键性问题:

Why do this in AR, wouldn’t a regular app be better for the user?

(译文:为什么要把产品设计成AR的形式呢?AR比普通App的形式能给用户带来更好的体验吗?)

人们通过一块小小的手机屏幕来观察更为庞大的AR世界,这本身带来的沉浸感就很弱,交互方式也非常有限。这限制了人们的想象力。

AR的未来,还得依靠AR眼镜。依据很多传闻,苹果的眼镜已经在暗中筹备当中了。那么,我们自然会问,它什么时候会上市?

Matt Miesnieks已经给出了他的预测:是在——2021年! (参见他的博客:《Why Apple’s glasses won’t include ARKit》,阅读地址:https://medium.com/super-ventures-blog/why-apples-glasses-won-t-include-arkit-46a1d40381fe

注意,这个时间指的是真正的AR眼镜,苹果推出的第一款眼镜产品有可能不带AR特性,比这个时间要早。实际上,这个时间是这么推算出来的(按照循序渐进的软硬件产品迭代周期):

  • 2018年底,第一个版本的眼镜问世。它甚至不带摄像头,只是能显示数字内容;它跟Apple Watch的地位差不多,输入主要受iPhone的控制。
  • 2019年,第二个版本的眼镜加入摄像头,可以拍摄照片和视频,但仍然不带AR功能。它只能算是一个HUD (Heads-Up-Display)设备,显示的数字内容不和现实发生交互,还算不上AR眼镜。
  • 2020年,第三个版本的眼镜会做大量的底层优化,但没有什么吸引眼球的大的功能改进。这时候人们可能开始抱怨,苹果动作太慢,在AR眼镜市场上已经被竞争对手领先了。
  • 2021年,一切软硬件打磨成熟,ARKit终于被集成到眼镜当中, 一款真正的够酷的AR眼镜问世了!从此,AR时代正式开启。

当然,这只是一个预测,但也说明了在一个专业的AR从业者眼中,AR的未来会以怎样的时间周期到来。

再回到前面《彩虹尽头》描述的情节,人们在这个聚会的场景中可以以真实的面貌出现。这说明要实现这种未来科技,除了需要一个类似眼镜这样的显示设备之外,还需要一个3D成像设备,它能把使用者的身体进行实时的3D重建。制造这样的一个3D成像设备,并且是便携式的,现在还几乎无法想象,这比便携式的显示设备还需要更久的时间。

不管对于哪种设备,它的普及,主要的障碍在于两点:体积和价格。

如果像很多VR头盔那样,戴上之后像在头上压了块砖头,还要拖出好几米的线缆,另外需要定位器和高配置的电脑一起配合使用,这显然只适合职业玩家,不可能对大众普及。真正的AR眼镜,要数微软的HoloLens比较出众,它已经将硬件体积控制得非常好了,完全无线,独立运行,不需要手机或电脑辅助。但是,它目前的售价在两万以上。

在《彩虹尽头》中,AR的显示设备,变成了隐形眼镜,而电脑则成为随身穿戴的网衣。现实的设备距此还比较遥远。但想想第一台通用计算机(ENIAC)的体积,它是一个占地面积约170平方米、重达30英吨的大家伙。在那个时候,如果说要把这么大的一个东西浓缩到手掌大小,肯定是不可想象的,但现在已经成为现实。

至少,在比较近的未来,AR眼镜的体积缩小到一个可以接受的水平,足以允许设计出比较时尚的外形,甚至是接近普通眼镜的尺寸,是可以期待的。价格也会随着规模化的使用而逐渐降低。

AR Cloud

假如我们要实现《彩虹尽头》中所描述的那种「远程聚会」的场景,系统必须至少做到下面两点:

  • 对现实世界的3D结构有清晰准确的理解;
  • 这个3D结构能够在多个客户端之间实时地共享。

借助ARKit或ARCore能不能实现这两点呢?不能,至少目前还差得远。以ARKit为例,它对于周围环境的理解只是限于特征点(feature point)的层次。什么是特征点呢?直观来说呢,我们经常在一些AR的Demo中看到的那些小点点,就是特征点了。比如下图中的黄色小点点:

ARKit的特征点演示图

ARKit的基本原理是这样:它同时运行着两套系统,一个是基于摄像头(视觉)的,另一个是基于IMU(加速度计、陀螺仪等)的。这两套系统分别对手机的位置和姿态(合称位姿,pose)进行估计,然后通过某种类似滤波的方式将两者的结果结合起来,获得一个更准确的位姿估计。其中利用摄像头拍摄的图像进行位姿估计的过程,是先对各帧图像提取特征点,也就是上图中的这些小点点,但这时只能确定它们在图像中的像素位置,还无法知道它们在真实环境中的3D坐标。然后ARKit会在前后相邻的各帧图像之间追踪这些特征点,并通过一定的算法推算出它们的相对深度,再进一步结合IMU对移动距离的估算,从而最终获得特征点真实的3D坐标(当然,有一定误差)。

这种基于特征点的方法,决定了这些特征点是非常稀疏的(从上面的图中也可以看出来),通过它们所获得的对周围环境的3D结构的理解,是非常粗糙的。只是基于这些粗糙的信息,虚拟对象和现实发生交互的方式将非常有限。在《彩虹尽头》中的那种聚会场景里,不同的远程接入者需要从各自的视角观察现实世界,这需要系统对于现实世界3D结构的理解达到很深的层次,光有一些个别的特征点的3D坐标肯定是不够的,至少应该识别出周围3D结构中带有纹理的各个平面,最终为现实世界建立起完整的3D模型,就像3D游戏中的模型一样。只有这样,虚拟对象和现实才能发生更有「真实感」的交互,比如能够互相遮挡,能够发生物理碰撞,等等。

识别环境的3D结构,这在SLAM中可以称为建图(Mapping)过程。所谓地图,就是对环境的描述。实际上,我们需要一个稠密的地图,作为对真实世界3D结构理解的基础。这需要真正的深度摄像头。然而,ARKit目前并不依赖深度摄像头,也只有iPhone X的前置摄像头是支持深度的(用于对人脸进行深度上的识别)。这意味着,主要依赖后置摄像头的手机AR应用,对于环境的理解只能达到稀疏特征点的程度。

另一方面,如果要支持多用户在同一个AR场景中进行交互,那么现实世界的3D结构需要在多个客户端之间实时地共享。这需要一个全新的基础设施的支撑。著名的AR专家——Ori Inbar(CoFounder of Ogmento, AWE, Super Ventures),将这个基础设施称为AR Cloud,详见他的下列文章:

Matt Miesnieks也对AR Cloud这一概念做过详细阐释:

AR Cloud到底是什么呢?一句话,它是现实世界的数字表示,可以看成是现实世界在数字空间的1:1的备份。它可以通过网络随时查询、访问,并通过算法与客户端的深度摄像头拍摄到的实时图像进行3D结构上的对齐。这个一旦对上了,数字世界和现实世界就可以方便地叠加在一起。

当然,这个AR Cloud不是一朝一夕建立起来的,它需要大量的客户端不断地采集真实世界的数据,不断地补充、更新和纠正AR Cloud中的存储的信息,逐步完成对现实世界越来越精确的描述。

所以,Ori Inbar在他的文章中对于iPhone没有采用后置的深度摄像头这一点深表遗憾。他认为,苹果一旦决定在iPhone中配备后置的深度摄像头,这将使得每一部iPhone手机都具备了对空间的3D感知能力,从而大大加快AR Cloud的建设,最终给用户带来指数级的价值提升。

苹果为什么还没有这么做,不得而知。是苹果还没有认识到深度摄像头以及对环境的3D结构进行理解的重要性吗?不太可能。也许是为了控制BOM成本,也许是因为苹果深知,在手机上的AR只是一个过渡,ARKit目前也只是处于非常初期的阶段。AR的繁荣,依靠AR眼镜的大规模普及。而对现实世界3D结构的理解,则是AR技术发展的重中之重。

AR的世界图景

让我们看一段场景描写:

一阵急促的音乐声将他叫醒。
江枫揉了揉惺忪的睡眼,一把抓过床边的AR眼镜。

像以往的清晨一样,Siri笑盈盈地站在面前。
江枫还是有些不高兴,昨晚睡得太晚,现在头还有些沉。他嘴里嘟囔说,“今天是周末啊,干嘛这么早叫我?”
“主人,很抱歉,刚才收到一条优先级很高的消息。”Siri说完,随手一指。
顺着Siri所指的方向,江枫果然看到一个蓝色的信封,正躺在卧室的书桌上。信封表面发出幽蓝的光泽,一个复杂的立体几何图形悬浮在信封上方,不断变换着角度,这是代表发信人身份的logo。
江枫突然感觉有点不对劲,他记得根据他的设置,在免打扰时段接收的消息,都应该转到客厅的储物盒里,而不应该出现在这里。
“你修改过接收消息的设置吗?”他问Siri。
“没有啊。”
“好吧。帮忙把信打开吧。”
Siri把消息的内容投射到了对面的墙上,只有一段很简短的文字:「禅意城堡的秘密。11点古木茶社见面。」
江枫心里吃了一惊,半天没有说出话来。古木茶社,那是他和她第一次见面的地方,而禅意城堡,他们曾在那里度过了在一起的最后时光。
Siri察觉到了他满脸疑惑的表情,善解人意地解释说:“我仔细查过,但消息的来源很隐秘,完全看不出寄信人的真实地址。”

江枫梳洗完毕,随口吃了点儿东西。在Siri的协助下,他挑选好了「出门」的装束。
距离会面时间还有十分钟,他决定先在城里转一转,说不定会发现一些蛛丝马迹。他调整到隐身模式,以「上帝视角」来到了城市中央广场的上空。一般来说,只有少数城市管理人员才有这样的权限,但这却难不倒他,他有一些「技术手段」能够绕过监管系统。
空中和地上一样热闹,各式各样的飞行器盘旋飞舞,叫不上名字的飞禽和长着翅膀的怪兽,载着它们的乘客在城市上空穿梭而过。他把视角移动到城市西侧,在连绵的群山环抱中瞥见了庞大的禅意城堡。它依山而建,发出森严的光芒,仿佛已经存在了千百年,比真实的存在更加真实。江枫莫名地感到一阵寒意,那本是嵌在这个世界中很普通的一处探险娱乐设施,但一年前发生的那次意外让他再也不想涉足这个地方。他的女朋友于燕就是一年前在这里失踪的……

江枫连忙闪身离开了城堡,现身在位于城北的古木茶社旁边。站在茶社门口迎宾的两位美女机器人兴高采烈地跟他打招呼,旁边的树荫下一群孩子正在玩耍嬉闹。突然,两头体型庞大的黑翼巨龙从天空俯冲下来,上面的骑手连声呼哨。巨龙的翅膀遮住了阳光,在地上留下了巨大的阴影。孩子们吓得失声惊叫。
两头巨龙重新盘旋上升,越飞越高。江枫心中的愤恨正无处发泄,他再次进入隐身模式,悄悄地跟了上去。他贴近一头巨龙的身侧,快速启动了一段隐秘的程序,然后伸出手指弹了出去。巨龙应声栽落,在骑手的惨呼声中以自由落体的速度向地面摔去……

以上引用的这段描写,并非出自名家的作品。实际上——嗯——这是我刚刚随手写的一段……本来写到这里的时候,突然感觉普通的陈述句似乎无法充分表达那个光怪陆离的AR世界。当然,这只是想象,众多可能性中的一种。

其中一个很有意思的问题是,在AR的世界中,也必然会有机器人。试想,如果你不太需要它帮你搬东西的话,那么机器人确实没有必要以实体的形式存在。它也会在这个现实与虚拟叠加的世界中逐渐成长。

尾声

AR眼镜在工业、教育等垂直领域,已经开始被真正使用了。而在大众消费领域,AR的应用场景可能更容易理解,却也最不易实现。只要我们怀有一些技术浪漫主义,就不难想象一个充满趣味的AR的未来。到了那个时代,所有的行业,所有的应用,都会以新的形式出现。

对大多数人来说,AR可能还比较遥远。但也许就像智能手机一样,它真正到来的那一刻,比我们所有人想象地都快。

(完)

其它精选文章


原创文章,转载请注明出处,并包含下面的二维码!否则拒绝转载!
本文链接:http://zhangtielei.com/posts/blog-talk-about-ar-future.html
我的微信公众号: tielei-blog (张铁蕾)
上篇: 天赋是个伪命题吗?