有图无真相还是很可怕的

我最近在尝试用 LLaMA 的一些变种搭建和训练一个聊天机器人，目标是看看通过一些语料（包括我在极客时间、QCon 讲的东西，blog、聊天记录等等）和它的自主学习，它能不能在某个 topic 上判断和表达跟我类似。

作为一个工程师，我仍然不相信它有一些人说的那么厉害，但不去了解和掌握这种生产力肯定也是不对的。

这个过程里面，我想的最多的是，以后社会的信噪比可能会很低，这里面有没有什么可以做的。

人类其实很长时间以来，没什么数据生产能力。从甲骨文、楔形文字，到四库全书，总共没多少量。到 15 世纪，都还有乔瓦尼这样的博学者，号称自己看了所有的书。

当世界上已经没有人可以读完所有的小说，看完所有的报纸，喝完所有的酒，出现了什么？出现了「时尚人士」。

抽象一点看，时尚人士其实是生产力过剩之后，做信息过滤的。他们读你没有读过的书，听你没有听过的音乐，看你没有看过的秀，下你没有下过的馆子，最终告诉大众，什么是「好东西」。

然后呢？然后出现了搜索引擎，最后是推送算法。这些东西，本质上把信息过滤的权力，从时尚人士转交给了程序员。

互联网出现的时候，我们认为这种权力交接是伟大的。因为我们自己就是程序员，我们热爱生活，崇尚自由，信奉公平与分享。

后来我们发现自己瞎眼了：一旦掌握了这种权力，谁都没有办法「don’t be evil」。看看 Tiwtter 开源出来的排序算法就知道，到处都是 evil。

所以我选择隔离可以推送信息给我的应用，自己来做「过滤器」——哪怕会错过一些好的信息，也没有啥，至少你有一个「自以为」干净的脑袋不是吗？

然而 AIGC 意味着，各种特征可以被提取，并低成本且高速地生成文本、声音、图片甚至视频。

它肯定会带来信噪比的巨大衰减。DNA 的总数据量还没有一部高清的毛片儿多的渺小人类，咋办呢？

单说一个场景，杀猪盘。以前杀猪盘的特点是，只杀「猪」：你经常会发现有一些骗局那么低级，那么好辨别。

这是因为这些「看起来很蠢」的问题，是用来过滤做案对象的：如果这样都能上当的人，是相对好骗的。

说白了，这是个人力密集型的业务：那些躲在境外，拿着聊天工具或者电话来骗你的，也是人。他们要吃饭，要睡觉，要开工资。

如果没有情绪，不吃不睡的 AI 下场了，来干这个事情，想想都是很可怕的。所以，是不是能有一个指纹数据，「generated by AI」，给所有的 AIGC 产品打上？或者反过来，不是 AI 生成的内容，可以打一个标签，「generated by human being」？

我还没有看到解决方案…但是我会持续更新我的发现和方法。

@Lenciel