@Lenciel

五一节我在干嘛

最近没有怎么更新小报童,因为脑袋不在这里,不想凑数(不过大家放心,一年下来肯定是超过平均一周一篇的)。

五一期间,除开带娃读书看片搭帐篷,还搞了几个事情:

  • 学了一下 Mojo,Modular 新发布的一种面向 AI 的编程语言:
    • 它的作者 Chris Lattner 其实领导了很多影响我们生活的项目,比如 LLVM、Swift、MLIR,在我心中十大工程师排行榜里,排在前三;
    • 和当年用 Swift 来发挥 LLVM 的威力类似,Mojo 以 MLIR 为核心,但是这次它兼容了 Python ,比 Swift 学习曲线要低很多;
    • 和 Julia 相比,它有一个相当精简的运行时,和 「Numba + Cython」 相比,它解决了部署问题,可以轻松跨平台;
  • 在 4090 单卡上,把现在可以本地部署的几种对 base model 进行微调的方案都进行了尝试,为一个探索性质的项目做了选型:
    • 过程中越发觉得基于聊天窗口的 LUI(相对于 GUI)不是个好的 UI;
    • AIGC 的商业模型相当特别,就是增加更多的算力和语料,就带来更好的产品。这种「无脑堆」的方式,有几个好玩的事情待观察:
      • 人类有文字以来的语料已经很快就被灌得七七八八了,接下来喂什么给模型才会带来比较大的「体感上」的进步?
      • 目前 AIGC 这个技术究竟带来了多少「生产力」,多少只是「无聊消遣」?好比智能手机,带来了一些生产力的提升,但目前人平均每天花在上面的时间大约为 7 小时,其中超过 5 小时是用于社交媒体、观看视频或游戏;
      • 仍然有很多优化的事情还没人有空去做:无论是用更短的浮点或者稀疏矩阵这样偏通用的优化,还是特定模型特定硬件的优化,这些可能是天天被卡脖子的天朝 AI 参战各方需要投入点儿时间的领域;
  • 一直都想干的一些杂事:
    • 自建了 Joplin 的模板(用 Joplin 换掉 Evernote 后,唯一不太满意的就是它的界面,微调了「Outline」插件,美化了 Mermaid 等 Markdown 语法的显示;
    • 约了四位行业大佬(分别做量化交易、房地产、外贸和云计算),扔掉手机 1-1 各做了大概半天的「详谈」。收获很多,无法一一道来,但最大的感觉是,焦虑还是淡定,不看盘子和位置,而是看对自己是谁,自己的路是什么是否笃定,不然太容易 fomo 太容易迷茫了;
    • 写了一个小说的开头,算是纪念去年还被封着的魔幻时光,希望它不会烂尾;

有图无真相还是很可怕的

我最近在尝试用 LLaMA 的一些变种搭建和训练一个聊天机器人,目标是看看通过一些语料(包括我在极客时间、QCon 讲的东西,blog、聊天记录等等)和它的自主学习,它能不能在某个 topic 上判断和表达跟我类似。

作为一个工程师,我仍然不相信它有一些人说的那么厉害,但不去了解和掌握这种生产力肯定也是不对的。

这个过程里面,我想的最多的是,以后社会的信噪比可能会很低,这里面有没有什么可以做的。

人类其实很长时间以来,没什么数据生产能力。从甲骨文、楔形文字,到四库全书,总共没多少量。到 15 世纪,都还有 乔瓦尼 这样的博学者,号称自己看了所有的书。

当世界上已经没有人可以读完所有的小说,看完所有的报纸,喝完所有的酒,出现了什么?出现了「时尚人士」。

抽象一点看,时尚人士其实是生产力过剩之后,做信息过滤的。他们读你没有读过的书,听你没有听过的音乐,看你没有看过的秀,下你没有下过的馆子,最终告诉大众,什么是「好东西」。

然后呢?然后出现了搜索引擎,最后是推送算法。这些东西,本质上把信息过滤的权力,从时尚人士转交给了程序员。

互联网出现的时候,我们认为这种权力交接是伟大的。因为我们自己就是程序员,我们热爱生活,崇尚自由,信奉公平与分享。

后来我们发现自己瞎眼了:一旦掌握了这种权力,谁都没有办法「don’t be evil」。看看 Tiwtter 开源出来的排序算法就知道,到处都是 evil。

所以我选择隔离可以推送信息给我的应用,自己来做「过滤器」——哪怕会错过一些好的信息,也没有啥,至少你有一个「自以为」干净的脑袋不是吗?

然而 AIGC 意味着,各种特征可以被提取,并低成本且高速地生成文本、声音、图片甚至视频。

它肯定会带来信噪比的巨大衰减。DNA 的总数据量还没有一部高清的毛片儿多的渺小人类,咋办呢?

单说一个场景,杀猪盘。以前杀猪盘的特点是,只杀「猪」:你经常会发现有一些骗局那么低级,那么好辨别。

这是因为这些「看起来很蠢」的问题,是用来过滤做案对象的:如果这样都能上当的人,是相对好骗的。

说白了,这是个人力密集型的业务:那些躲在境外,拿着聊天工具或者电话来骗你的,也是人。他们要吃饭,要睡觉,要开工资。

如果没有情绪,不吃不睡的 AI 下场了,来干这个事情,想想都是很可怕的。所以,是不是能有一个指纹数据,「generated by AI」,给所有的 AIGC 产品打上?或者反过来,不是 AI 生成的内容,可以打一个标签,「generated by human being」?

我还没有看到解决方案…但是我会持续更新我的发现和方法。