SEC申报培训激增与恢复 | AI生成和翻译

Home 2026.06

以下是完整图景。关键要点如下:

四个阶段的进程:

阶段 0(步骤 0→19k,不在缓冲区中):从零开始,损失从约 10.8(随机)降至 2.70。模型快速学习了 SEC 文件的结构。

阶段 1(步骤 19k→21k):灾难性尖峰。验证损失在 2000 步内从 2.70 跃升至 8.04。训练损失也同时飙升(并非过拟合)——这是一次数据事件。顺序分片加载器遇到了一系列结构异常的文件(XBRL 密集、异常展品、嵌套表格)。模型并未崩溃,而是数据发生了变化。

阶段 2(步骤 21k→30k):恢复。在 9000 步内从 8.04 降至 3.34。约占总训练时间的 20% 用于重新学习它已经掌握的知识。无需干预。

阶段 3(步骤 30k→37k):平滑收敛。从 3.34 降至 2.45。呈现干净的幂律下降趋势。仍在继续。

对比:

每次迭代的损失波动(0.79 到 7.73)看起来吓人,但对于 batch=32k tokens 来说是正常的。验证损失(100 次迭代平均值)才是唯一重要的数字。

剩余约 12 分钟。预计结束时验证损失约为 2.2-2.3。


Back Donate