SEC-EDGAR训练损失恢复

SEC-EDGAR训练损失恢复 | AI生成和翻译

首页 2026.06

以下是翻译后的内容：

═══════════════════════════════════════════════════ SEC-EDGAR 124M 训练 — 进度报告 ═══════════════════════════════════════════════════

进度：36,120 / 47,400 = 76.2% (~1.18B / 1.55B tokens) 剩余：约11,280次迭代 ≈ 16分钟（即将完成！）

═══════════════════════════════════════════════════ 验证损失曲线（可靠指标） ═══════════════════════════════════════════════════

Step Val Loss 备注 —– ——– —– 17000 2.27 ← 缓冲区中最早的数据，已表现良好 18000 3.31 19000 2.70 20000 6.36 ← 尖峰开始 21000 8.04 ← 峰值（正常值的3.5倍！） 22000 6.44 23000 6.14 24000 5.99 25000 5.27 26000 4.68 ← 稳步恢复 27000 4.24 28000 3.96 29000 3.59 30000 3.34 31000 3.20 32000 3.01 33000 2.93 34000 2.77 35000 2.67 36000 2.52 ← 当前值，仍在下降

═══════════════════════════════════════════════════ 第20k步的尖峰——发生了什么 ═══════════════════════════════════════════════════

损失在第20k-21k步附近从约2.7飙升至8.0。这不是正常的过拟合或学习率衰减。最可能的原因是：SEC-EDGAR数据遇到了一批结构不同的文件（例如，一连串XBRL密集型或异常的10-K/10-Q章节，打破了模型模式）。SEC文件的结构差异巨大——简单的8-K与包含嵌套表格、XBRL标签和法律模板的300页10-K截然不同。

模型已完全恢复，现在低于尖峰前的水平。

═══════════════════════════════════════════════════ 对比：SEC-EDGAR vs GitHub-Code ═══════════════════════════════════════════════════

                SEC-EDGAR       GitHub-Code 模型：              GPT-2 124M      GPT-2 124M 验证损失：           2.52（↓下降中）    3.466（最终） 输出质量：           待定             垃圾 数据质量：           干净（SEC）      ~46%噪声（codeparrot） 状态：               76%完成          完成（已放弃）

SEC-EDGAR的验证损失已达2.52，且仍在改善。GitHub-code在3.466处触底，输出垃圾。区别在于数据质量：SEC文件是结构化的、一致的财务文本。codeparrot/github-code大约有46%的噪声（自动生成、缩小、配置文件等）。

═══════════════════════════════════════════════════ 关键模式 ═══════════════════════════════════════════════════

每次迭代的损失噪声巨大：单个步骤波动0.8–3.5。这对于有效batch=32,768 tokens来说是正常的。验证损失（在100次评估迭代上平均）才是真实信号。
仍在下降：验证损失在过去1000步中从2.67降至2.52。本次运行仍有潜力。尚未进入平台期。
预期的最终验证损失：如果趋势持续，到第47,400步时约为2.3-2.4。作为参考，GPT-2 124M在OpenWebText上的验证损失约为2.85。SEC-EDGAR可能优于它，因为领域更窄/更规律。
学习率：仍在衰减（min_lr=6e-5，将在第47400步触底）。MFU稳定在12.79%——未编译（compile=False），因此在4070上属于正常。

让它完成——应该约16分钟完成。第36000步的检查点（val_loss=2.52）已经是最好的一个。

返回捐助