SEC申报培训激增与恢复

SEC申报培训激增与恢复 | AI生成和翻译

首页 2026.06

以下是完整图景。关键要点如下：

四个阶段的进程：

阶段 0（步骤 0→19k，不在缓冲区中）：从零开始，损失从约 10.8（随机）降至 2.70。模型快速学习了 SEC 文件的结构。

阶段 1（步骤 19k→21k）：灾难性尖峰。验证损失在 2000 步内从 2.70 跃升至 8.04。训练损失也同时飙升（并非过拟合）——这是一次数据事件。顺序分片加载器遇到了一系列结构异常的文件（XBRL 密集、异常展品、嵌套表格）。模型并未崩溃，而是数据发生了变化。

阶段 2（步骤 21k→30k）：恢复。在 9000 步内从 8.04 降至 3.34。约占总训练时间的 20% 用于重新学习它已经掌握的知识。无需干预。

阶段 3（步骤 30k→37k）：平滑收敛。从 3.34 降至 2.45。呈现干净的幂律下降趋势。仍在继续。

对比：

每次迭代的损失波动（0.79 到 7.73）看起来吓人，但对于 batch=32k tokens 来说是正常的。验证损失（100 次迭代平均值）才是唯一重要的数字。

剩余约 12 分钟。预计结束时验证损失约为 2.2-2.3。

返回捐助