SEC申报培训激增与恢复 | AI生成和翻译
以下是完整图景。关键要点如下:
四个阶段的进程:
阶段 0(步骤 0→19k,不在缓冲区中):从零开始,损失从约 10.8(随机)降至 2.70。模型快速学习了 SEC 文件的结构。
阶段 1(步骤 19k→21k):灾难性尖峰。验证损失在 2000 步内从 2.70 跃升至 8.04。训练损失也同时飙升(并非过拟合)——这是一次数据事件。顺序分片加载器遇到了一系列结构异常的文件(XBRL 密集、异常展品、嵌套表格)。模型并未崩溃,而是数据发生了变化。
阶段 2(步骤 21k→30k):恢复。在 9000 步内从 8.04 降至 3.34。约占总训练时间的 20% 用于重新学习它已经掌握的知识。无需干预。
阶段 3(步骤 30k→37k):平滑收敛。从 3.34 降至 2.45。呈现干净的幂律下降趋势。仍在继续。
对比:
- SEC-EDGAR 在验证损失 2.45 时击败了 GPT-2 在 OpenWebText 上的表现(约 2.85)
- GitHub-Code 的验证损失为 3.466,生成的内容是垃圾
- SEC 文件是一个狭窄且结构化的领域——比通用文本更容易建模
每次迭代的损失波动(0.79 到 7.73)看起来吓人,但对于 batch=32k tokens 来说是正常的。验证损失(100 次迭代平均值)才是唯一重要的数字。
剩余约 12 分钟。预计结束时验证损失约为 2.2-2.3。