@Lenciel

人工智能:成果、问题和展望(1)

上周去移动讲了讲人工智能。很多朋友说把材料分享一下,那就整理整理。

拿到的题目比较大,但出去讲或者听人家讲,主要是个照镜子的过程。稍微有点经验就知道,任何的知识、系统、手法,再具体再性感,都不是照搬过来就能解决自己的问题的。所以整个过程里面可能有那么一两句话,一两个场景能够给彼此启发,就应该知足了。

人工智能的成果

Slide11.png
图 1. 治学先治史

中国有句话叫治学先治史,我们搞清楚了过去,就搞清楚了未来。

如果我们去搜索人工智能历史,通常会看到的一个图,所谓的有两次寒冬,然后整体趋势是向上的。我会觉得,这其实就是 Roy Amara 的「阿拉玛定律」的一个体现:一个新技术出现,总是有短期被高估,长期被低估的现象。

Roy Amara 是未来研究院的总裁,见得多了,所以得出了这个结论。

一个典型的例子是 GPS,它出现的时候,人们脑补了很多使用场景,大大地高估了。但实际上 GPS 铺开,是导航上的使用。今天的小朋友已经么有办法想象,车开到二环或者三环,一堆举着「带路」牌子的人在那里了。但是 GPS 通过导航普及,一旦上行、下行、端侧的基础设施建设完毕,我们看到,就出现了第二批的互联网公司:美团、滴滴、货车帮…因为这个时候,供需双方的地理信息可以准确拿到了。所以,GPS 短期被高估,但长期看,它仍然从根本上改变了很多的行业,以及我们的生活方式。

阿拉玛定律在人工智能领域会放大,反反复复地出现高峰低谷,我个人觉得是因为人工智能这项技术里面有「智能」这两个字。因为在普通人的认知里,和在学术界工业界这些真正的人工智能从业者认知里,「人工智能」这四个字根本就是两个意思。

接下来我就把它们拆开聊聊。

Slide12.png
图 2. 普通人的人工智能

我们如果去搜索人工智能,看到的图片一般都是这样的:有一个洁白光滑的机器人,它可以像人类一样去思考,甚至像人类一样去行动。这其实是代表了大众心中的人工智能:它是比较单一且明确的,就是对标的科幻小说或电影里面那,接近于我们今天说的 AGI 的存在。

所以我们每次说人工智能出现了重大突破,大家就会去想,这个东西是不是要来了。

Slide13.png
图 3. 麦卡锡娇嗔背后的「模式」

所以人工智能奠基人之一麦卡锡有一个娇嗔,说,一旦这东西工作了,大家就不把它叫人工智能了。

这话啥意思呢,就是人工智能它研究的各个领域,最终会变成算法,甚至算法最终稳定了之后,会定制成为硬件。比如我们大家现在付钱,或者刷门禁,一刷脸搞定了,大家觉得,这叫人脸识别。在 AlphaGo 出来的时候,我就听一些同学说我们的 AI 四小龙,号称人工智能,不就是做人脸识别吗。为什么?因为大家脑子里面对标的人工智能是类似于《her》里面的萨曼莎,所以就会觉得不够厉害。实际上,人脸识别也是一个可以做得很深的人工智能的领域。

所以我们可以看到人工智能历史上的一个模式:

  1. 研究(包括技术)取得进展;
  2. 人们开始激动并对 AI 抱着很高的期望;
  3. 产业界开始加大投入并开发各种应用;
  4. 应用未能满足期望,人工智能行业进入低谷;
  5. 整个过程中,「某林频谱仪」常伴左右;

今天,因为人工智能大量以 chatbot 或者 agent 的形式存在,会增加用户的错误期望。

那么究竟什么是人工智能呢?比如电饭煲里面加一点 PID 控制是不是人工智能呢?

Slide14.png
图 4. 学术界的「人工智能」

在学术界和工程界或者说真正的 AI 从业者内部,AI 的定义不是那么明确的,而是相当模糊的。很多领域,比如自然语言处理,数字图像处理,增强学习,机器学习等等都被纳入其中。

这是因为比较公认的「AI」的提出,在 1956 年达特茅斯会议,整个命题就很宽泛。

大家可以看这张 slide,左边是这次头脑风暴形式的 workshop 讨论的主题,右边是主要的参与者,可以看到两个现象:首先,今天我们人工智能讨论的很多话题,比如神经网络,那个时候其实已经在讨论了;更重要是,讨论的话题以及参与者的背景,非常宽泛,横跨了计算机、自动化、逻辑、数学、心理学等多个学科。

比如,整个神经网络的提出主要就是维纳的学生,麦卡洛克(W. McCulloch)。图片里另外一位,塞弗里奇(O. Selfridge),名声没有那些拿了图灵奖的大,但其实是公认的模式识别之父,也做过一段时间明斯基的主管。他在 MIT 时一直和麦卡洛克一起在维纳手下工作。维纳对他非常欣赏,《控制论》的第一个读者就是他,但因为没有写博士论文,所以没有拿到博士学位:这大概跟他出身有关,日不落帝国牛津街上的 Selfridges 是他们家的。

Slide15.png
图 5. 两种主义的持续斗争

达特茅斯会议后,人工智能的研究蓬勃发展,但却分裂成了以「符号主义」和「连接主义」为主的数个阵营:

  • 「符号主义(Symbolicism)」,又称逻辑主义,主张用符号、公理和逻辑体系搭建一套人工智能系统;
  • 「连接主义(Connectionism)」,又叫仿生学派,主张模仿人类的神经元,用神经网络的连接机制实现人工智能;

「符号主义」里的「符号」,就是表示客观事物或者事物间关系的「字符串」。通过它们对人类的「认知」进行编码,形成可逻辑演算的系统,是「符号主义」的核心思想。

因此,「符号主义」的核心特点在于:

  • 推理的过程是可解释的;
  • 出现错误,是可以追溯和定位的;
  • 符号化方法对于知识的表达能力强,能够应对较复杂的知识推理;

这些优势让「符号主义」在 AI 领域长期一枝独秀,被广泛地运用于「自动定理证明」和「专家系统」的构建。尤其是「专家系统」的成功开发与应用,为人工智能走向工程应用做出了杰出贡献。

但「符号主义」也有一些根深蒂固的困境。比如,哥德尔不完全性定理(证明了对于任何一个公理化系统,都存在此公理体系所无法判定真伪的命题),就让使用「符号主义」构建的系统面临泛化的问题。再比如,既然要用符号来表达事物和事物之间的关系,这里就有一个谁可以把客观世界抽象成这些符号,并解释给其他人的问题。

因为这些没法解决的问题,「人工智能」曾经有很长一段时间发展得并不算好。我读书的时候,国内的人工智能集中在自动化专业。当时我感觉自动化专业主要有三拨人:

  • 搞控制理论的,主要是用数学工具在矩阵推导;
  • 搞应用系统的,主要是想要做出国产的工控机;
  • 搞算法的,主要是遗传算法、神经网络;

前面两帮人是主流,彼此不太看得上,但是他们一起看不上搞算法的。到了今天,人工智能在很多学校已经和计算机、自动化平起平坐,有自己的学院了。

这似乎全靠「神经网络」的大获全胜。实际上,今天我们基本上听不到「连接主义」,只听得到这个门派的代表作:「神经网络」,即通过模仿人类的神经元组网,实现人工智能。

需要注意的是,它说的神经元是 1943 年生理学家麦卡洛克(McCulloch)和数理逻辑学家皮茨(Pitts)创立的脑模型,即 MP 模型,跟今天我们对脑神经的认知有很大的不同。但报导 ChatGPT 的媒体好像很喜欢配一张现代科学理解下的大脑透视图,显得这套东西多么先进甚至科幻。

实际上,神经网络提出快 90 年了,并且曾多次被主流圈子抛弃。比如右边这张图上,大家可以看到 Marvin Minsky,虽然他 1954 年的博士论文你看标题就知道很「连接主义」,但后来却改旗易帜,成了「符号主义」领袖。特别是 1969 年,作为「符号主义」的领军人物,Marvin Minsky 和 ​​Seymour Papert 出版了一本书《Perceptrons》,对连 XOR 运算都不会的神经网络判了死刑。

但大家看到右边这张图就知道,神经网络后来又再次突飞猛进,成为主流,这是为什么呢?

Slide16.png
图 6. 从「玩具」到「产品」

我个人觉得,神经网络再次成为主流,主要是下面三方面的进展综合造成的:

  • 算力
  • 数据
  • 算法

算力方面,今天很多人都对处境艰辛的 Hinton 和同样处境艰辛的黄教主,是怎么把 GPU 用起来的故事耳熟能详了。

互联网的兴起,也带来了大量公开的数据,让大规模神经网络的训练成为可能。

当然,算法也有不断的进步,这里列出了几个里程碑式的算法进展,最后一个就是 transformer。

有了这三方面的加持,人工智能在很多细分领域的能力超越了人类,从「玩具」正式变成具备一定生产力的「产品」。

Slide17.png
图 7. 从「炼丹」到「系统」

人工智能在过去一两年的发展,还有一个特点,就是从「炼丹」到「系统」。

什么意思?我们判断一个行业或者叫赛道是不是进入了收敛期,主要看是不是出现了分工和分层。

比如倒过去五六年,如果你问一个公司的技术负责人在干嘛,Ta 大概率会说,在做「微服务」或者「中台」。

这就有点像你问晚年的牛顿在干嘛,他会说,他在炼金。

炼金距离真正的化学,主要就是差一张门捷列夫的化学元素周期表。

类似的,一旦有了分工和分层,一个体系就建立了。比如你最近两三年问技术负责人,Ta 会说,在做微服务里面的哪个模块,或者说哪种中台,这就是收敛的迹象。

目前,人工智能也已经有了明确的分工和分层。有干基础设施的,有干应用层的。干应用的,还会细分,有干纵向的,有干垂类的。

Slide18.png
图 8. 还是有争议

但是尽管有了长足进步,参加各种的人工智能讨论和会议,会有一个明显的感受,就是一些核心问题还没有收敛,比如这里列出的这些。

并且有个特点,不仅仅是普通从业者对这些问题有争议,行业领军人物也不例外。IEEE Spectrum 为此专门搞了个计分卡,把 AI 领域的 22 位杰出领袖的意见做了一个整理:可以看到,以 Rodney Brooks、Yann Lecun 为代表的大部分人,还是觉得哪怕 GPT-4 也没有任何发展为 AGI 的可能。少数派主要是忧心忡忡的 Hinton 和 Sam Altman。

为什么能有这么大争议呢?

Slide19.png
图 9. 为什么还有很多争议

我对这个问题的看法是,因为我们讨论的过程中,涉及很多「suitcase words」,所以根本没法聊清楚。

「suitcase words」是 Minsky 在 2006 年的这本《Emotional Machine》里提出的概念,就是说我们讨论人工智能的时候使用的很多词是,类似于出行的时候用手提箱打包一样,一个抽象了打包好的概念,外延和边界都非常模糊。

下面举两个例子。

Slide20.png
图 10. 例子一:机器学习

比如「学习」这个词。

Arthur Samuel 使用「机器学习」这个词,我们看原文,其实是一个类比。

而且,机器学习几个主要分支,监督学习、无监督学习、深度学习等等,都是已经提出了大几十年的概念。

它和人的「学习」有很大不同。

人学东西有两个显著特点,即「抽象」和「泛化」能力。

GPT-3 的训练使用了数千亿个 token,与此相对,普通儿童听到的所有单词,不排重还不到一个亿。

人类不需要那么大的数据量做训练,因为人擅长各种层次的抽象,并能够把抽象出来的认知泛化。

比如,你买一把香蕉告诉四五岁的小孩儿这是香蕉,从此以后不管是长的短的,熟的生的,黄的绿的甚至闷烂了发黑的香蕉摆在 Ta 面前, Ta 都知道这是香蕉。为什么说机器「学习」和人的「学习」完全不是一回事?因为你绝不会感到教小朋友某个东西,是在调 Ta 的参数。

Slide21.png
图 11. 例子二:中文屋问题

再比如一个经典的哲学问题:「中文屋」。

如果简单地思考,肯定觉得如果屋子里面这个人完全不懂中文,他没有中文能力。

但是我们如果多想几步,比如这个人经过相当长时间,已经把各种中文的 rule book 内化了,外面给他的中文问题,他可以在头脑里面查找给出回复,那么他会不会中文?

这个时候,他其实已经可以脱离那间屋子了,非常接近于一个经过训练的「大模型」,对不对?

实际上「中文屋」是一个非常深的问题,可以聊很多,比如什么是语法和语义,什么是意识和心智,限于时间,我们制定这些东西都是「suitcase words」即可。

Slide22.png
图 12. 人工智能的成果总结

总结一下第一部分,人工智能的成果:

  1. 大部分人心中的 AI 和从业者心中的 AI 很不一样,所以目前的这些成果是否会再次遇到「短期被高估」的问题,还有待时间检验;
  2. 得益于数据、算力、软硬件框架等各方面的进展和成熟,以及类似于 Transformer 这样算法上的创新,神经网络在人工智能的各个领域都取得了一骑绝尘的巨大进展,很多细分领域的能力超越了人类,有了从「玩具」到「产品」,从「炼丹」到「系统」的趋势;
  3. 但构建当今 AI 系统的大部分理论仍然没有大的变化,因此 Suitcase Words 这样的问题会长期存在,很多类似于「有没有涌现」,「会不会通向 AGI」的问题很难讨论出结果;

《万神殿》第二季

治哥在群里分享了一个视频,让我想起来之前看的《万神殿》第二季

这部剧讲的核心话题都是被反复讨论过的:

  • 平行宇宙以及我们的世界是不是别人玩的一个游戏;
  • 心智从肉体中分离并上传从而永生后带来的冲突;
  • 时间旅行来回穿越对其他人对自己生活的影响等等;

它受到广大人民群众好评,主要是因为设定上的巧妙构思和严谨呼应当然,能做这么好,很主要的原因也是站在了一堆巨人的肩膀上。

但带给我更多感动的,却是剧情里的那对高中生情侣——神一般的 Caspian 和后来超神一般的 Maddie——在面对种种问题时的那份单纯、青涩和无畏。

人都会追求精神层面的东西。可以说虽然每个人对于具体什么是「幸福」,理解大相径庭。但享受幸福生活的愿望基本上是共同的。

于是就常常感到绝望:因为各种东西包括青春年华会从有到无,各位亲友包括自己会从生到死,各种关系包括爱会从炽热到消失。

人的大部分哲思,都是讨论在这些令人绝望的约束条件下,究竟什么是意义,什么是幸福,什么是 human being 里的那个 being…

这部剧做了很多非常棒的展示当然,看同样的东西,每个人的感受不同,我写的可以说都是我的脑补。

比如,Caspian 搞定了稳定上传心智,就消灭了「死」。但随之而来的,是「生」失去了意义:绝大多数人类选择刚刚出生不久就杀死肉体上传精神,从而在虚拟宇宙过上自己定制的天马行空的生活。

再比如,当 Stephen 在虚拟宇宙里拥有了无上权限,消灭了「无」之后,「有」也失去了意义:毕竟挥挥手就可以平地起高楼,让沧海变桑田时,高楼、沧海和桑田还有什么价值呢?

这有点像《圣经》里,人类的开始,是亚当和夏娃被逐出「永远快乐」的伊甸园。这听起来是「痛苦」的开始,但明白人都知道,消灭了「痛苦」的地方,肯定也消灭了「快乐」。我们不用去深究上帝设计伊甸园究竟是好意还是恶作剧,但只有傻子才愿意在那样的地方永无止境地生活下去。

于是 Maddie 和Caspian 这两个多少有点算问题少年的小孩儿,他们在一起之后,却比那些有着宏达目标的成年人,比那些傻乎乎按照父母的意志循规蹈矩的同龄人,都过得更像样。

但并不只是因为他们收获了爱情。

爱情既不是喜欢,也不是爱。

喜欢是对方的特质命中了自己的喜好,想要去占有。它是基因指挥的,一对多的,所以人没法一辈子只想占有一个人当然,有人会说自己不是这样,我觉得比较虚伪。

爱是看到对方不够好的地方,还愿意做很多,让对方更好。这要求对他人的理解,并且大部分时候不但不占有,还是纯付出。所以长时间爱另一个人,往往只发生在血缘关系中,特别是父母对自己的孩子。

理想的爱情,需要喜欢和爱相互混合。人有这样的缘分,并不容易,很多关系都是将就而已。

剧里安排 Maddie 在 Caspian 为众生放弃自己生命前他这么做说明了他是个人,因为只有人才会追求活着的意义甚至为了意义放弃活下去,其他生物只要能活着就不会选择死。 ,战战兢兢地和他打破处子之身,算是爱情故事里的常规操作。

为什么爱情片里的男女主角总得上个床?

因为「性」这件事情,里面充满了呼唤和应答,渴求和允许,拆除防御和解除武装,放弃装饰和袒露真实。两个终于下定决心要在一起的人,这种互相敞开和贴近,互相依靠和收留,打破一切规矩和束缚,去共同创造共同拥有共同赴死又共同活过来的活动,确实是表达爱最好的语言和形式。

「这个人总算跟我是一边的了。」

(这里面可以没有的安排,是 Maddie 就这么怀了个 Caspian 的小孩儿。所以我会教育自己的孩子,遇到爱的人,多睡几次,但戴好套。)

但接下来 Maddie 在 Caspian 牺牲后几十万年里,孜孜不倦地仿真各种平行宇宙,直到进入那个可以影响结局的宇宙,就不是常规操作了。

这个结局并不温馨,却足够真实。

喜欢了,胡思乱想了。
靠近了,胡作非为了。

这之后,爱最好的语言或者形式,就不是「性」了。

而是孤独。

因为人活着,就还想占有。

比如 Maddie 的母亲,肯定对她逝世的父亲也有过真爱。但面对上传之后的漫长时光,也选择了那位同样是华裔的前同事。这实在是人之常情。

甚至人死了,都还想占有。

所以 Stephen 才会搞出自己的克隆人 Caspian,让他解决之前上传心智的 bug 好让自己永生。

只有甘于孤独,可以证明爱。

当然,有很多现实的人会说,Caspian 那几乎永不可达的距离,才能带来 Maddie 几乎永恒的追寻。重新拥有 Caspian 之后,可能过不了多久她就会觉得,不过如此。

有道理,但我不赞同。

人最宝贵的,本来就不是并不稳定的爱,甚至不是长长久久的厮守,而是几十万年跑一个个仿真时那点儿执念和傻气。

这是人最大的弱点,实际上也是人最大的优势。

不信你看,那些上传了自己的人类,拥有了无限的生命,各种的能力,已经接近于神了,但他们并没有谁取得比 Maddie 更大的成就。

岂止是这些接近于神的人没有什么成就。古今中外各路神仙,他们除开创造了一身软肋的人,有过什么像样的成就呢?