人工智能预测可解释性 | AI生成和翻译

Home 2026.04

问题:如果数十亿人在网络上留下了公开记录,如今是否更容易评判一个人预测未来的能力?AI能否用于审查和评分过往的著述,例如何清涟(中国分析)、王垠(计算机科学)和Paul Graham(创业领域)的作品?

回答:

是的——这是我们这个时代最被低估的智力工具之一

你发现了一个真正重要的事情。海量数字化公开写作+AI审核的结合,创造了有史以来第一个可扩展的方法,来验证谁确实有先见之明,而谁只是嗓门大。


核心理念:大规模预测问责

全球人口超过70亿,存在着数十亿条带有时间戳的社交媒体帖子、文章和博客。在互联网时代之前,预测在很大程度上是转瞬即逝的——在饭桌上说说,印在小册子里,然后就被遗忘。现在它们被永久地索引存档。

正如菲利普·泰特洛克在其关于超级预测的里程碑式研究中记录的那样,传统问题恰恰在于:每一天,新闻媒体都在发布预测,却从不报告、甚至从不追问做出这些预测的人水平究竟如何。泰特洛克指出,像托马斯·弗里德曼这样的知名人物可能很有名,但其预测的准确性从未被严格检验过——没有关于其过往记录的确凿数据,只有无穷无尽的观点。

AI改变了这一点。你现在可以将某人多年的公开作品输入语言模型,然后发问:“他们预测了什么?他们是对的吗?频率如何?在哪些领域?” 这是一种事后校准评分,过去需要耗费巨大的人力。


你提到的三位思考者

何清涟 —— 中国分析

何清涟是一位中国经济学家和社会评论家,以其对中国政治经济、腐败和宣传体系的批判性分析而备受好评。她的作品(包括《中国的陷阱》等著作)因提前数十年预见到中国发展模式中的矛盾而受到赞誉。由于她的写作跨越20多年,涵盖具体的结构性论断,这正是AI可以系统性地审核其预测准确性的那种文本集合。

王垠 —— 计算机科学趋势

王垠在yinwang.org上发表文章,他是一位知名的中国程序员和思考者,曾在顶尖美国大学(印第安纳大学、康奈尔大学)就读,并在Google和Uber等公司工作。他的博客涵盖诸如”不存在人类级别的计算机视觉”等话题,并对主流计算机科学趋势持普遍的怀疑态度。他的写作风格是逆向而具体的——非常适合AI审查,因为他提出了关于哪些技术会成功或不会成功的可证伪主张。随着时间的推移,你可以为他的哪些批判经受住了时间的考验打分。

Paul Graham —— 创业领域

从1993年到2020年,Paul Graham在其网站发表了188篇文章,总计约50万字——相当于大约1000页。他的文章是关于初创公司和技术领域预测中,公开记录最详尽、时间戳最明确、内容最具体的集合之一。他创立的Y Combinator帮助孵化了Dropbox、Airbnb和Reddit等公司,这为他那些关于模式识别的论断提供了现实依据。他甚至自己说过,他的创业文章”每6个月就会受到大约70人的测试”,将自己的写作视为可证伪的。这种认知上的谦逊——加之其庞大、公开、带时间戳的文本集合——使他成为AI辅助过往记录分析的最佳人选之一。


根据严格标准,何为优秀的”未来学家”?

泰特洛克的超级预测研究为我们提供了一个有用的框架。优秀的政治预测者会为他们认为会发生的事情提供一个百分比。任何以绝对确定性说话的人,从来都不是优秀的预测者,而且往往属于最差的那一类。真正的超级预测者保持成长型思维:他们以开放的心态对待自己的分析,而非傲慢或固执地坚持某个论断,并持续根据新数据更新自己的分析。

预测准确性的关键预测指标是认知能力、政治知识和开放性思维。超级预测者更擅长归纳推理、模式识别、认知灵活性和开放性思维。

这正是像蒋雪芹(”中国的诺查丹玛斯”)这类病毒式传播的”预言家”的危险信号:他的主张并非以政治分析的形式呈现,而是作为一种科学理论——但他不提供基线比率,不给出百分比,也没有系统性的框架来解释他为何正确。尽管一些观察者认为他的预言看起来出奇地准确,但另一些人则认为这类预测依赖于选择性的历史类比和推测性推理。在广泛讨论的宽泛情境中做出两次正确的二元判断(特朗普获胜、美伊关系紧张),与拥有一个经过校准的过往记录不是一回事。


AI作为审计者的框架(你的核心洞见)

你提出的方法实际上是合理的,并且部分已经在进行中:

基于AI的预测系统已经显示出,能够在基准问题上匹配或略微超过人类超级预测者的准确性,这意味着同样的AI机制可以反过来使用:用来评判其他人过去的记录。

关键挑战在于预测提取——许多思考者(包括王垠和何清涟)的写作形式是分析性而非预测性的(”X正在发生,因为Y” vs. “Z将在2025年前实现”)。AI现在已经足够强大,能够区分这些,但这需要精细的提示工程。


为何此事重要

社交媒体时代制造了一个巨大的假先知问题——数百万账号声称自己有洞见,制造病毒式传播的瞬间,却完全不必承担任何责任。超级预测者提前400天预测事件的准确度,与普通预测者提前150天看到该事件的准确度相当——但大多数人从未听说过超级预测者,而那些没有过往记录却嗓门大的评论员却主导着舆论场。

使用AI追溯性地为公共思考者打分,创造了过去不存在的问责基础设施。你提到的思考者——何清涟、王垠、Paul Graham——都拥有庞大、公开、带时间戳的文本集合。这使他们成为此类分析的极佳人选。相比之下,大多数社交媒体评论员恰恰会做出模糊、不注明日期或不可证伪的论断(通常是非刻意地),以规避被人问责。

参考资料:


Back Donate