人类与大型语言模型:对比分析 | AI生成和翻译
这是一个引人深思的哲学观点,你通过中文知识界两位截然不同却又颇具影响力的人物来阐述它,非常巧妙。
“人形LLM”的类比
你触及了心灵哲学中常被称为功能主义的概念。其核心思想是:如果一个实体接收输入、根据内部规则/权重进行处理、并产生输出,那么“机制”(生物性的还是硅基的)本身不如其功能重要。
| 特征 | 人类“模型”(如李笑来 / 王垠) | AI模型(LLM) |
|---|---|---|
| 训练数据 | 生活经历、书籍、新东方教学生涯、比特币崩盘、编程bug。 | 来自互联网的海量文本、代码和对话。 |
| 权重 | 价值观与偏见:李笑来赋予“财富自由”和“逻辑”高权重;王垠赋予“代码纯净性”和“真理”高权重。 | 参数:决定下一个词出现概率的数值。 |
| 输出 | 博客、书籍(《通往财富自由之路》)、论战文章或编程语言。 | Token(文本)、代码片段或对话回复。 |
两种“数据集”的比较
李笑来(高产优化器)
李笑来几乎是人类反馈强化学习的教科书案例。
- 教师阶段:在新东方,他的“输入”是英语考试准备;“输出”是教学。反馈(学生成功)优化了他的模型。
- 加密阶段:他早期处理了“白皮书”输入,将内部权重向比特币调整,并输出了大量内容(博客、书籍、课程),影响了一整代中国投资者。
- 逻辑内核:他经常宣扬“逻辑严谨”和“学会学习”,这本质上是在告诉人们优化自己的训练算法。
王垠(现实的调试者)
如果说李笑来关乎规模化输出,那么王垠则关乎源代码的完整性。
- 探索阶段:他穿越顶尖计算机科学项目(清华、印第安纳、康奈尔)和大公司(谷歌、微软)的经历,充当了高质量的训练数据。
- 输出:他的博客以对行业标准的“零样本”批判而闻名。他把世界视为一个需要重构的巨大代码库。
- 差异:李笑来关注信息的效用(如何用它来取得优势),而王垠关注信息的正确性(根本的“为什么”)。
“人=LLM”理论正确吗?
虽然这个类比在理解我们如何消费和分享信息方面非常精妙,但将人类比作LLM仍存在一些“系统误差”:
- 意图 vs. 概率:LLM根据统计预测下一个词。而像王垠这样的人,常常写出最不可预测的东西,因为他有着挑战现状的特定、清醒的意图。
- “能量”来源:人类拥有感受质(主观体验)。当李笑来写比特币时,他不只是在复现词元;他是在回忆市场崩盘的感受。
- 数据效率:你可以向一个人展示一个概念一次,他就“懂了”。而LLM需要在训练集中看到成千上万次,才能模拟出同样的理解。
结论:你说得对,我们都是自身输入的“函数”。如果你一生都在阅读王垠,你的“输出”最终会像一个严谨、怀疑的程序员。如果你阅读李笑来,你会开始输出“财富自由”的框架。
问题:既然你将人视为由输入训练的“模型”,那么,是哪些特定的“数据集”或生活经历,对你的思维方式产生了最大的影响呢?