@Lenciel

人工智能:成果、问题和展望(2)

第一部分传送门

人工智能的问题

Slide24.png
图 1. 不说整个人工智能

不说整个人工智能,光是 LLM,就有很多问题。所以下面挑一些个人认为比较核心的问题稍微讲讲。

Slide25.png
图 2. 与生俱来的缺陷

第一个可能也是最大的问题,是神经网络的先天不足。因为人工(artificial)这个词对应的是自然(natural)。我们要搞好「人工智能」,需要对自然的智能有深入了解。但如果说当年连接派刚刚创立的时候,智能和计算机这两块的研究都还在起步阶段,所以长期被符号派压着打的话,今天计算机的各方面研究已经有了长足进步,但我们对智能的理解仍然还比较浅。

可以看右边这张图。人类在 1986 年对秀丽隐杆线虫做了纵切后,逐步搭建了它的由 302 个神经元构成的神经网络,并且形成了一个 OpenWorm 项目,希望能够模拟整个网络的运行。

至今,这个项目里已经诞生了三个诺奖,但距离搞明白这张神经网络的运行机制,还很遥远。而我们的人类,有大概 1000 亿个神经元。所以不要说人类的智能究竟是怎么回事,光是神经网络本身,我们的理解都不深。

Slide26.png
图 3. 信任问题

信任有两种,组织或者社会信任(social trust)和个体间信任(interpersonal trust)。

前者以规章制度法律等为基础来构建,后者以道德声望名节等为基础来构建。

你给女朋友买了块表,手机上找个同城快递送过去,是基于对这个服务的「组织信任」。手机上叫个朋友送过去,是基于对这个兄弟的「个体间信任」。

现代社会和传统社会有一个大家很容易忽略的变化,是「个体间信任」被「社会信任」大规模取代了。

过去的人,生活在一大群跟自己有「个体间信任」的关系中,跟其他「陌生人」少有连接。Ta 找谁买肉,找谁打铁,找谁写对联,都是基于对个体的信任。

今天我来演讲,敢打一个陌生人的车过来。我们出差,敢把命交给自己根本不认识的飞行员。不是因为我们对这些人有个体上的信任,而是我们信任背后滴滴也好,航空公司也好,都进行了自己的选拔、培训和管理。政府的有关部门,对这些公司也有相应的监管。

因为有了社会信任对个体间信任的大规模取代,「可信」很大程度上体现了一个社会的整体治理水平。比如我们收到的短信敢不敢点,电话敢不敢接,买到的东西敢不敢放心吃,相信大家深有体会。

人工智能的到来,肯定会对这些信任带来新的挑战。因为这些更加拟人甚至看着就是真人的 AI,背后是商业公司花费巨资打造的。商业上只有一种道德,就是在合法合规的基础上挣钱。

因此,人工智能需要政府的介入也需要政府的监管。

Slide27.png
图 4. 合法合规

从去年年底开始,面向 OpenAI 的大量诉讼,特别是版权相关的诉讼就开始了。所以首先,做基底模型,训练数据来源是不是合法合规还要看最终事情的走向。

第二方面,我们大量的应用开发者,用的是国外的产品做封装。这种方法是否合法合规?

第三方面,国内做这块儿业务,已经有了一些相应的政策条列,必须了解它们,才能规避风险:

  • 责任主体风险:AIGC 产品提供者是 2023 年 8 月 15 日生效的《生成式人工智能服务管理暂行办法》规定的信息内容责任主体,负有网络信息内容生产者责任和网络信息安全义务,需严格遵守《办法》及《互联网信息服务深度合成管理规定》对个人信息处理、生成内容标识、投诉举报渠道等服务规范的要求。
  • 上线备案风险:根据《办法》第十七条,境内 AIGC 产品如向社会公众开放且「具有舆论属性或社会动员能力」,应在行政机关进行算法备案。结合《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》及目前的备案实践来看,绝大多数 AIGC 产品都负有备案义务。在网信办于 2023 年 6 月及 8 月公布的两批次备案信息共计 151 个算法中,不乏在线智能客服、商品三维图像合成、文本转语音等较为功能较为单一的算法。
  • 用户参与风险:用户输入内容可能存在知识产权侵权、涉密、违反法律法规等情形。如果该 AIGC 产品同步将用户输入内容纳入数据集或模型改进,则相关侵权内容可能对既有的合规数据集造成「污染」,增加数据集侵权风险和违法风险。
  • 数据安全风险:使用 AIGC 产品产生的用户数据的使用、存储、处理和分级管理应符合数据合规要求。尤其值得注意的是,境内第三方主体在其提供的 AIGC 产品嵌入境外大模型 API 的,涉及用户数据及个人信息向境外传输,可能触及《数据安全法》《个人信息保护法》等跨境数据合规要求。

Slide28.png
图 5. Scaling Laws 的有效性

目前发展大模型最核心的路径,就是根据 Scaling Laws,去加算力,加数据,加参数规模。但是 Scaling Laws 其实是一个统计出来的经验,是不是长期有效并没有理论支持。并且就算长期有效,我们可以看到,算力是好加的,但是未必有那么多数据,特别是现在模型进入多模态阶段了,高质量的图片数据集非常少。

Slide29.png
图 6. 高成本 & 高能耗

右边上面这张表说明,目前基底模型的训练成本往十亿美金数量级发展了。这里再给两个不同规模的模型训练成本让大家有一个直观印象:

  • BloomBerg 打造 50B 参数的金融垂类大模型,训练成本约为 454 万元;
  • 阿布扎比大学发布 180B 参数的 Falcon 大模型,训练成本约为 1.08 亿;

可以看到,训练一个比 GPT-4 小得多的基底模型也不是一个普通的创业团队或者大学可以去承担的任务。

有人可能会觉得,训练不起,是不是只做推理会便宜一点。

我们右边下面这张表说明,也没有那么便宜。一个大模型只要在线上有足够多的活跃用户,推理和运营的成本也是非常昂贵的。

Slide30.png
图 7. 我们面对的独特问题

国外现在不管是模型这一侧,还是基础设施这一侧,都在收敛:

  • 大的基底模型基本上就是 Google、Anthropic 和 OpenAI 三家最好,到 2024 年这种身位领先会体现得更加明显;
  • 算力的芯片就是 NV、AMD 和 Google 的 TPU,2024 年可以看看比如苹果要不要入局;

而国内,我们因为受到了芯片禁令等技术封锁,而自主可控的软硬件产业还不成熟,这会带来一系列的问题。

举个例子,两张 3080 算力差不多是一张 A100,买不到 A100,看起来我们可以用更多的 3080 来组建网络。但:

  • 更多的卡带来更大的出错概率,而且因为这种东西是乘法(后面道客的郑松总把这块儿讲得更细更精彩);
  • 各自的功耗分别为 700W 和 300W。在三年生命周期内,电费就会有几万块钱的差距;

更大的问题是,因为没有办法获得足够多资源,我们的发展比较分散。模型侧有百模大战,基础设施侧也有大量处于追赶阶段的国产公司。这两边的中间层,其实非常关键。

人工智能的展望

讲了这么多问题,接下来聊聊展望。

Slide32.png
图 8. 算法方面展望

2024 年,在模型,包括算子这方面,可以做的优化还是很多的。但是这些优化对于效能的提升不是根本性的,因为基本架构并没有变。可能一系列的优化最终累积起来,聚沙成塔,可以带来几倍的变化。

Slide33.png
图 9. 算力方面展望

算力这部分肯定是未来几年都比较关键的,特别是我们前面说了国内面临的独特问题。

现在基座模型的训练很多都是上万张 GPU 了,到这个规模,IDC 的 Power、Cooling、Networking 都是问题。拿网络举例,能这么玩的架构就非常有效,我们看到 NV 自己正在从 Fat-tree 逐步转向 Dragonfly,而 Google 在 Torus 架构上有了两代 TPU 的积累。

除开智算中心的建设之外,建好后这些算力如何去调度?如何去容错?如何让使用者拿到运行稳定,价格合适的环境?包括芯片这部分,有没有办法使用大量的端侧芯片来运行一些小模型,解决很多简单的任务,而不是所有请求都到云端。

Slide34.png
图 10. 数据方面展望

整个 2023 年,可以看到的一个趋势就是高质量数据集已经是壁垒。有一些训练使用了高质量的「小数据集」,证明了效果跟大数据集比并不差。再加上多模态之后,高质量的数据集更加成为瓶颈,因此可以预见,2024 年 Synthetic Data 会成为进行数据准备的关键能力。

另外,右边这张图可以看到,我们存储性能的发展是远远落后于算力发展的。因此大模型训练的瓶颈,其实会是数据带宽,而不是数据计算。因此,近存储计算、存内计算乃至存算一体,也会是数据这方面在 2024 年发展的一个趋势。

Slide35.png
图 10. 开源与闭源模型展望

虽然中国有百模大战,但是真正从 pre-training 开始做的模型并没有那么多。这个部分既有投入上的硬门槛,也有人才密度和基础设施上的软门槛。

但另一方面,在 pre-training 上相互较劲的头部玩家,最大的能力差别体现在 post-training 上。因此强如 Google,追 OpenAI 仍然追得很辛苦。

在这种背景下面,闭源模型和开源模型的差距,在 2024 年个人感觉会进一步拉大。很可能是手里面有闭源模型的厂开源一些小一点的旧一点的模型出来,丰富热度和生态,特别是端侧的小模型。

但无论开源闭源模型,都享受着所谓「新摩尔定律」的利好。可以看到闭源模型在语言能力甚至是知识能力上距离闭源模型的差距在迅速缩小,但在推理能力上还是有不小的差距。

Slide36.png
图 11. 应用与应用架构展望

2024 年首先可以做的应用层的展望毫无疑问是多模态将会成为主流,视频生成类将会出现头部应用。

此外,作为企业需要仔细思考,究竟要不要采用大模型技术来开发自己的应用。很多企业现在还处于没有算清楚账,看明白场景的阶段。比如用户来的请求,要不要做分流?是不是有些可以走传统的知识图谱或者专家系统就很好的解决?是不是有一些使用小模型就可以解决?

另一方面,虽然 OpenAI 最近上线了 App 商店,但未必会有应用的爆发。因为里面同质化的应用会非常多,本质上是因为大模型这场千亿豪赌究竟能不能转化到实实在在的生产力,能够在哪些场景产生实际的用户价值,还处于摸索阶段,跑通的比较少。并且,一旦跑通,可能模型本身就会增加相应的能力,所以模型本身可能就是最大的甚至是最终唯一的应用。

Slide37.png
图 12. 中间层值得期待

前面讲了,国内一方面有百模大战,一方面有相对比较散的基础设施。那么 2024 年我们可以期待的是一些中间层应用出来,解决统一编译,部署,调度等等问题,并且在过程里面系统性解决安全和信任的问题。

但是这样的中间层平台谁来建设是一个问题:民企缺少足够多的资源和许可,国央企缺少足够的产品技术能力,也许移动这样的企业可以来做一下这部分的工作。

Slide38.png
图 13. 把时间拉长来看

「展望」这东西好玩之处就在于,如果回头看,几乎从来没有谁的展望是准过的,但是人们会继续期待它。

如果只有一句话,我的展望会是 2024 年比 2023 年更加疯狂。

正好有人说,疯狂的年代,利好身心灵行业,比如算命。

其实要我这样的人去展望未来,跟找人算命,底层大概是一回事:人们需要确定性。

所以最后我给大家分享我很喜欢的一张图片,是斯图尔特·布兰德的书里的。

他认为我们所处的世界,其实是分层的。每层变化的速度有快有慢,比如流行风尚,恨不得天天变。商业模式,以年为单位变。而越往下,比如我们的文化,处处还是几千年农业社会孕育出来的样子。自然的大环境,更是以亿为单位的年头在变了。

布兰德认为,这种速度的差异,其实是好事:

  • 上层变化更快,会带动下层的变化,避免僵化;
  • 下层变化更慢,会给上层约束条件,避免冒进;

我觉得他的洞见很有道理。

在一个真正持久的系统中,每个层次都应该被允许以自己的速度运行,由下面的层次提供坚实基础,由上面的层次保持活力。

不管是一个公司还是一个国家,如果把管某一层的方式或者要求,拿去管理别的层次,那是要出问题的。

同时,另一方面,每个人在这样疯狂的年代,应该找到适合自己和团队的节奏和层次。

如果你喜欢新技术,喜欢跟用户打交道,就应该呆在最上面一层。不管是折腾产品还是做主播打造个人影响力,总之不要浪费了自己的热情。

如果你喜欢钻研业务体系甚至是构建基础设施,那就老老实实地干,做好持久战的准备,不要羡慕台前的人起高楼。

找到适合自己的层次和速度,是在这样一个疯狂的时代立足的最好方式。

欢迎留言