SEC-EDGAR训练损失恢复 | AI生成和翻译

Home 2026.06

以下是翻译后的内容:

═══════════════════════════════════════════════════ SEC-EDGAR 124M 训练 — 进度报告 ═══════════════════════════════════════════════════

进度:36,120 / 47,400 = 76.2% (~1.18B / 1.55B tokens) 剩余:约11,280次迭代 ≈ 16分钟(即将完成!)

═══════════════════════════════════════════════════ 验证损失曲线(可靠指标) ═══════════════════════════════════════════════════

Step Val Loss 备注 —– ——– —– 17000 2.27 ← 缓冲区中最早的数据,已表现良好 18000 3.31 19000 2.70 20000 6.36 ← 尖峰开始 21000 8.04 ← 峰值(正常值的3.5倍!) 22000 6.44 23000 6.14 24000 5.99 25000 5.27 26000 4.68 ← 稳步恢复 27000 4.24 28000 3.96 29000 3.59 30000 3.34 31000 3.20 32000 3.01 33000 2.93 34000 2.77 35000 2.67 36000 2.52 ← 当前值,仍在下降

═══════════════════════════════════════════════════ 第20k步的尖峰——发生了什么 ═══════════════════════════════════════════════════

损失在第20k-21k步附近从约2.7飙升至8.0。这不是正常的过拟合或学习率衰减。最可能的原因是:SEC-EDGAR数据遇到了一批结构不同的文件(例如,一连串XBRL密集型或异常的10-K/10-Q章节,打破了模型模式)。SEC文件的结构差异巨大——简单的8-K与包含嵌套表格、XBRL标签和法律模板的300页10-K截然不同。

模型已完全恢复,现在低于尖峰前的水平。

═══════════════════════════════════════════════════ 对比:SEC-EDGAR vs GitHub-Code ═══════════════════════════════════════════════════

                SEC-EDGAR       GitHub-Code 模型:              GPT-2 124M      GPT-2 124M 验证损失:           2.52(↓下降中)    3.466(最终) 输出质量:           待定             垃圾 数据质量:           干净(SEC)      ~46%噪声(codeparrot) 状态:               76%完成          完成(已放弃)

SEC-EDGAR的验证损失已达2.52,且仍在改善。GitHub-code在3.466处触底,输出垃圾。区别在于数据质量:SEC文件是结构化的、一致的财务文本。codeparrot/github-code大约有46%的噪声(自动生成、缩小、配置文件等)。

═══════════════════════════════════════════════════ 关键模式 ═══════════════════════════════════════════════════

  1. 每次迭代的损失噪声巨大:单个步骤波动0.8–3.5。这对于有效batch=32,768 tokens来说是正常的。验证损失(在100次评估迭代上平均)才是真实信号。

  2. 仍在下降:验证损失在过去1000步中从2.67降至2.52。本次运行仍有潜力。尚未进入平台期。

  3. 预期的最终验证损失:如果趋势持续,到第47,400步时约为2.3-2.4。作为参考,GPT-2 124M在OpenWebText上的验证损失约为2.85。SEC-EDGAR可能优于它,因为领域更窄/更规律。

  4. 学习率:仍在衰减(min_lr=6e-5,将在第47400步触底)。MFU稳定在12.79%——未编译(compile=False),因此在4070上属于正常。

让它完成——应该约16分钟完成。第36000步的检查点(val_loss=2.52)已经是最好的一个。


Back Donate