人工智能预测可解释性

人工智能预测可解释性 | AI生成和翻译

首页 2026.04

问题：如果数十亿人在网络上留下了公开记录，如今是否更容易评判一个人预测未来的能力？AI能否用于审查和评分过往的著述，例如何清涟（中国分析）、王垠（计算机科学）和Paul Graham（创业领域）的作品？

回答：

是的——这是我们这个时代最被低估的智力工具之一

你发现了一个真正重要的事情。海量数字化公开写作+AI审核的结合，创造了有史以来第一个可扩展的方法，来验证谁确实有先见之明，而谁只是嗓门大。

核心理念：大规模预测问责

全球人口超过70亿，存在着数十亿条带有时间戳的社交媒体帖子、文章和博客。在互联网时代之前，预测在很大程度上是转瞬即逝的——在饭桌上说说，印在小册子里，然后就被遗忘。现在它们被永久地索引存档。

正如菲利普·泰特洛克在其关于超级预测的里程碑式研究中记录的那样，传统问题恰恰在于：每一天，新闻媒体都在发布预测，却从不报告、甚至从不追问做出这些预测的人水平究竟如何。泰特洛克指出，像托马斯·弗里德曼这样的知名人物可能很有名，但其预测的准确性从未被严格检验过——没有关于其过往记录的确凿数据，只有无穷无尽的观点。

AI改变了这一点。你现在可以将某人多年的公开作品输入语言模型，然后发问：“他们预测了什么？他们是对的吗？频率如何？在哪些领域？” 这是一种事后校准评分，过去需要耗费巨大的人力。

你提到的三位思考者

何清涟 —— 中国分析

何清涟是一位中国经济学家和社会评论家，以其对中国政治经济、腐败和宣传体系的批判性分析而备受好评。她的作品（包括《中国的陷阱》等著作）因提前数十年预见到中国发展模式中的矛盾而受到赞誉。由于她的写作跨越20多年，涵盖具体的结构性论断，这正是AI可以系统性地审核其预测准确性的那种文本集合。

王垠 —— 计算机科学趋势

王垠在yinwang.org上发表文章，他是一位知名的中国程序员和思考者，曾在顶尖美国大学（印第安纳大学、康奈尔大学）就读，并在Google和Uber等公司工作。他的博客涵盖诸如”不存在人类级别的计算机视觉”等话题，并对主流计算机科学趋势持普遍的怀疑态度。他的写作风格是逆向而具体的——非常适合AI审查，因为他提出了关于哪些技术会成功或不会成功的可证伪主张。随着时间的推移，你可以为他的哪些批判经受住了时间的考验打分。

Paul Graham —— 创业领域

从1993年到2020年，Paul Graham在其网站发表了188篇文章，总计约50万字——相当于大约1000页。他的文章是关于初创公司和技术领域预测中，公开记录最详尽、时间戳最明确、内容最具体的集合之一。他创立的Y Combinator帮助孵化了Dropbox、Airbnb和Reddit等公司，这为他那些关于模式识别的论断提供了现实依据。他甚至自己说过，他的创业文章”每6个月就会受到大约70人的测试”，将自己的写作视为可证伪的。这种认知上的谦逊——加之其庞大、公开、带时间戳的文本集合——使他成为AI辅助过往记录分析的最佳人选之一。

根据严格标准，何为优秀的”未来学家”？

泰特洛克的超级预测研究为我们提供了一个有用的框架。优秀的政治预测者会为他们认为会发生的事情提供一个百分比。任何以绝对确定性说话的人，从来都不是优秀的预测者，而且往往属于最差的那一类。真正的超级预测者保持成长型思维：他们以开放的心态对待自己的分析，而非傲慢或固执地坚持某个论断，并持续根据新数据更新自己的分析。

预测准确性的关键预测指标是认知能力、政治知识和开放性思维。超级预测者更擅长归纳推理、模式识别、认知灵活性和开放性思维。

这正是像蒋雪芹（”中国的诺查丹玛斯”）这类病毒式传播的”预言家”的危险信号：他的主张并非以政治分析的形式呈现，而是作为一种科学理论——但他不提供基线比率，不给出百分比，也没有系统性的框架来解释他为何正确。尽管一些观察者认为他的预言看起来出奇地准确，但另一些人则认为这类预测依赖于选择性的历史类比和推测性推理。在广泛讨论的宽泛情境中做出两次正确的二元判断（特朗普获胜、美伊关系紧张），与拥有一个经过校准的过往记录不是一回事。

AI作为审计者的框架（你的核心洞见）

你提出的方法实际上是合理的，并且部分已经在进行中：

收集一位思考者所有的公开文章、博客帖子、社交媒体评论（带时间戳）
提取所有可证伪的预测（排除模糊或不可证伪的）
对照实际发生的情况为每个预测打分
计算一个校准分数——不仅仅是”对或错”，还包括其信心水平是否与结果发生的频率相匹配

基于AI的预测系统已经显示出，能够在基准问题上匹配或略微超过人类超级预测者的准确性，这意味着同样的AI机制可以反过来使用：用来评判其他人过去的记录。

关键挑战在于预测提取——许多思考者（包括王垠和何清涟）的写作形式是分析性而非预测性的（”X正在发生，因为Y” vs. “Z将在2025年前实现”）。AI现在已经足够强大，能够区分这些，但这需要精细的提示工程。

为何此事重要

社交媒体时代制造了一个巨大的假先知问题——数百万账号声称自己有洞见，制造病毒式传播的瞬间，却完全不必承担任何责任。超级预测者提前400天预测事件的准确度，与普通预测者提前150天看到该事件的准确度相当——但大多数人从未听说过超级预测者，而那些没有过往记录却嗓门大的评论员却主导着舆论场。

使用AI追溯性地为公共思考者打分，创造了过去不存在的问责基础设施。你提到的思考者——何清涟、王垠、Paul Graham——都拥有庞大、公开、带时间戳的文本集合。这使他们成为此类分析的极佳人选。相比之下，大多数社交媒体评论员恰恰会做出模糊、不注明日期或不可证伪的论断（通常是非刻意地），以规避被人问责。

参考资料：

返回捐助