@Lenciel

有图无真相还是很可怕的

我最近在尝试用 LLaMA 的一些变种搭建和训练一个聊天机器人,目标是看看通过一些语料(包括我在极客时间、QCon 讲的东西,blog、聊天记录等等)和它的自主学习,它能不能在某个 topic 上判断和表达跟我类似。

作为一个工程师,我仍然不相信它有一些人说的那么厉害,但不去了解和掌握这种生产力肯定也是不对的。

这个过程里面,我想的最多的是,以后社会的信噪比可能会很低,这里面有没有什么可以做的。

人类其实很长时间以来,没什么数据生产能力。从甲骨文、楔形文字,到四库全书,总共没多少量。到 15 世纪,都还有 乔瓦尼 这样的博学者,号称自己看了所有的书。

当世界上已经没有人可以读完所有的小说,看完所有的报纸,喝完所有的酒,出现了什么?出现了「时尚人士」。

抽象一点看,时尚人士其实是生产力过剩之后,做信息过滤的。他们读你没有读过的书,听你没有听过的音乐,看你没有看过的秀,下你没有下过的馆子,最终告诉大众,什么是「好东西」。

然后呢?然后出现了搜索引擎,最后是推送算法。这些东西,本质上把信息过滤的权力,从时尚人士转交给了程序员。

互联网出现的时候,我们认为这种权力交接是伟大的。因为我们自己就是程序员,我们热爱生活,崇尚自由,信奉公平与分享。

后来我们发现自己瞎眼了:一旦掌握了这种权力,谁都没有办法「don’t be evil」。看看 Tiwtter 开源出来的排序算法就知道,到处都是 evil。

所以我选择隔离可以推送信息给我的应用,自己来做「过滤器」——哪怕会错过一些好的信息,也没有啥,至少你有一个「自以为」干净的脑袋不是吗?

然而 AIGC 意味着,各种特征可以被提取,并低成本且高速地生成文本、声音、图片甚至视频。

它肯定会带来信噪比的巨大衰减。DNA 的总数据量还没有一部高清的毛片儿多的渺小人类,咋办呢?

单说一个场景,杀猪盘。以前杀猪盘的特点是,只杀「猪」:你经常会发现有一些骗局那么低级,那么好辨别。

这是因为这些「看起来很蠢」的问题,是用来过滤做案对象的:如果这样都能上当的人,是相对好骗的。

说白了,这是个人力密集型的业务:那些躲在境外,拿着聊天工具或者电话来骗你的,也是人。他们要吃饭,要睡觉,要开工资。

如果没有情绪,不吃不睡的 AI 下场了,来干这个事情,想想都是很可怕的。所以,是不是能有一个指纹数据,「generated by AI」,给所有的 AIGC 产品打上?或者反过来,不是 AI 生成的内容,可以打一个标签,「generated by human being」?

我还没有看到解决方案…但是我会持续更新我的发现和方法。

欢迎留言