@Lenciel

有图无真相还是很可怕的

我最近在尝试用 LLaMA 的一些变种搭建和训练一个聊天机器人,目标是看看通过一些语料(包括我在极客时间、QCon 讲的东西,blog、聊天记录等等)和它的自主学习,它能不能在某个 topic 上判断和表达跟我类似。

作为一个工程师,我仍然不相信它有一些人说的那么厉害,但不去了解和掌握这种生产力肯定也是不对的。

这个过程里面,我想的最多的是,以后社会的信噪比可能会很低,这里面有没有什么可以做的。

人类其实很长时间以来,没什么数据生产能力。从甲骨文、楔形文字,到四库全书,总共没多少量。到 15 世纪,都还有 乔瓦尼 这样的博学者,号称自己看了所有的书。

当世界上已经没有人可以读完所有的小说,看完所有的报纸,喝完所有的酒,出现了什么?出现了「时尚人士」。

抽象一点看,时尚人士其实是生产力过剩之后,做信息过滤的。他们读你没有读过的书,听你没有听过的音乐,看你没有看过的秀,下你没有下过的馆子,最终告诉大众,什么是「好东西」。

然后呢?然后出现了搜索引擎,最后是推送算法。这些东西,本质上把信息过滤的权力,从时尚人士转交给了程序员。

互联网出现的时候,我们认为这种权力交接是伟大的。因为我们自己就是程序员,我们热爱生活,崇尚自由,信奉公平与分享。

后来我们发现自己瞎眼了:一旦掌握了这种权力,谁都没有办法「don’t be evil」。看看 Tiwtter 开源出来的排序算法就知道,到处都是 evil。

所以我选择隔离可以推送信息给我的应用,自己来做「过滤器」——哪怕会错过一些好的信息,也没有啥,至少你有一个「自以为」干净的脑袋不是吗?

然而 AIGC 意味着,各种特征可以被提取,并低成本且高速地生成文本、声音、图片甚至视频。

它肯定会带来信噪比的巨大衰减。DNA 的总数据量还没有一部高清的毛片儿多的渺小人类,咋办呢?

单说一个场景,杀猪盘。以前杀猪盘的特点是,只杀「猪」:你经常会发现有一些骗局那么低级,那么好辨别。

这是因为这些「看起来很蠢」的问题,是用来过滤做案对象的:如果这样都能上当的人,是相对好骗的。

说白了,这是个人力密集型的业务:那些躲在境外,拿着聊天工具或者电话来骗你的,也是人。他们要吃饭,要睡觉,要开工资。

如果没有情绪,不吃不睡的 AI 下场了,来干这个事情,想想都是很可怕的。所以,是不是能有一个指纹数据,「generated by AI」,给所有的 AIGC 产品打上?或者反过来,不是 AI 生成的内容,可以打一个标签,「generated by human being」?

我还没有看到解决方案…但是我会持续更新我的发现和方法。

如何选择信息源

今天有一个朋友说,「想了解世界经济科技的大事件和简要分析,有没有优质的推荐」

背后的原因我知道:信息过载。

解决它有很多的说法,我自己以前也写过一些。现在,我自己的办法是「先分大类,只看订阅,然后随缘」

I)先分大类

创新的内容形式:公号、播客、短视频、长视频…加上传统的形式:书、杂志、电影、座谈,套用编程的模型去抽象它们的生产过程,可以分成两大类:一类是「阻塞式(blocking)」的,另一些则是「非阻塞式(non-blocking)」的。

比如听播客或者跟人聊天,我觉得它是阻塞式的:就是你做这个的时候,是没有办法再异步地去做一些对探讨的主题有帮助的其他事情的。

所以它们属于启动成本低,但是信息密度低,信息质量也比较随机的。你找一个大佬当面聊天,可能收获远小于看他的书或者文字;我也听过一些播客,主持人对一些自己没有多明白的事情侃侃而谈,经过一些后续的剪辑,配上动听的 BGM,也就上线了。

与之相对的,是一些严肃的写作、视频或者主题对话。它们的创作过程是非阻塞地,你可以随时停下创作的线程,去做任何有益于把这个主题做得更好的事情:重新梳理逻辑框架和脚本,搜集更完整更准确的资料,甚至根据新的创意推翻重来。

如果我想要获取信息,我会选择后面这类。

如果我想要娱乐,我会选择前者。

II)只看订阅

即便选择看书或者看正经大学里精心备课的教程,信息仍然是过载的。

在网络历史的早期阶段,它被广泛认为是一个暂时的问题。

「是的,我们会被无数的内容包围,但很快我们就会拥有更好的技术来帮我们找到真正想要的东西,同时忽略其余部分。」

第一代的解决方案叫「搜索」。说白了,这是个信息过滤器,pageRank 的核心就是让你从大海里面尽快捞出针,从沙子里面尽快捞出黄金。

但很快,人们发现搜索下来的东西看不完。每个人面临的问题不是在沙子里面淘不出金子,而是每个人都有几百个 G 的电子书,没时间看。

第二代的解决方案叫「推荐」。这个就更猛了,你不用去搜,每天一开门,一堆堆的「黄金」向你涌来。

如果你跟我一样,非娱乐目的不看通过「阻塞式创作的内容」,那么你就已经躲过了很多的推送:短视频、公众号、各种的小红点…

然后,即便是严肃认真制作的内容,我也只看订阅的。如果是 blog 或者小报童,这种订阅相对好理解。书籍、电影,我基本上选一个时间看某个人的全集。有不少人是过世的名家(这相当于大众帮我做了筛选),少数我欣赏的生者,这些算是基于名字的订阅。

III)然后随缘

大多数关于生产力和时间管理的建议,都延续了「大海捞针」的方法:只是让你捞针捞得更有效率和有条理,更好地确定捞出来的这些东西消化的优先次序,隐含的承诺是你可能因此提高你的 ROI。

这些可能对有些人有用,但我一直是一个连 todo list 都用不好的人。所以我几乎从来没有一个「今年要读 xx 本书」的计划。

我倾向于让通过了前面两个 filter 的东西,像没人管理的菜地里随意撒下的植物一样,随意地进出我的生活,而不是在一个有处理优先级的 pipeline 里。

从根本上就接受,家里乱七八糟,桌上乱七八糟,电脑里乱七八糟。堆满了各种没看完甚至没打开的书,有各种各样看过几遍甚至从没打开的电影,就从根本上去掉了焦虑感。随时你都可以开始一段,也随时可以停下来。

我现在越来越觉得,真不需要看那么多看那么快。真正的理解,在于去生活去实践。理解了之后,看只鸟飞过,也能悟出来几本书。

这里面有趣的地方是,这种消费它的方式,正好跟制作它的方式一样,也是「非阻塞的」。我们不妨认为,在今天这个随时要用内容占据你的注意力,要把你的脑子掀开往里面倾倒东西的年代,认真的内容制作者,和认真的内容消费者,都是稀少的。他们通过这种非阻塞的方式,遥相呼应,守护着人类最后一点儿宁静。