人工智能训练数据的价值与稀缺性

人工智能训练数据的价值与稀缺性 | AI生成和翻译

首页 2026.05

问题： 这段对话中关于个人数据收集及其对AI训练价值的分析正确吗？

回答：

这段对话触及了关于AI训练数据的几个有趣且基本正确的观点。以下是详细分析：

随着公开可用的互联网数据被消耗殆尽，AI实验室正在积极寻求：

这一点已有充分记载。”数据墙”问题确实是当前AI行业担忧的现实。

FineWeb 是由 Hugging Face 发布的大规模网络爬取数据集，常用于大型语言模型的预训练。44TB 的规模对于此类数据集是合理的。

确实有报道和主要AI公司（包括Anthropic）的内部讨论，提及使用书籍扫描/OCR来扩展训练语料库。但是，对于泄露邮件的具体细节应谨慎对待——并非所有报道的泄露都经过完全核实。

许多现代AI实验室都使用OCR流程从扫描文档和图像中提取文本。DeepSeek具备强大的文档理解能力，这与该方法一致。

每GB存储空间的比较：

文本是训练语言模型最高效的格式——这是公认的。

那些当前大型语言模型无法访问的冷门、绝版或小众书籍，代表着真正的价值，类似于考古发现。如果数据不在训练集中，模型就无从得知。

您朋友的直觉大体上是正确的：稀有的、文本密集的、难以获取的数据集将成为越来越具有战略价值的资产，因为AI公司正在努力超越公开爬取的网络数据。

返回捐助