SEC-EDGAR训练损失恢复 | AI生成和翻译
以下是翻译后的内容:
═══════════════════════════════════════════════════ SEC-EDGAR 124M 训练 — 进度报告 ═══════════════════════════════════════════════════
进度:36,120 / 47,400 = 76.2% (~1.18B / 1.55B tokens) 剩余:约11,280次迭代 ≈ 16分钟(即将完成!)
═══════════════════════════════════════════════════ 验证损失曲线(可靠指标) ═══════════════════════════════════════════════════
Step Val Loss 备注 —– ——– —– 17000 2.27 ← 缓冲区中最早的数据,已表现良好 18000 3.31 19000 2.70 20000 6.36 ← 尖峰开始 21000 8.04 ← 峰值(正常值的3.5倍!) 22000 6.44 23000 6.14 24000 5.99 25000 5.27 26000 4.68 ← 稳步恢复 27000 4.24 28000 3.96 29000 3.59 30000 3.34 31000 3.20 32000 3.01 33000 2.93 34000 2.77 35000 2.67 36000 2.52 ← 当前值,仍在下降
═══════════════════════════════════════════════════ 第20k步的尖峰——发生了什么 ═══════════════════════════════════════════════════
损失在第20k-21k步附近从约2.7飙升至8.0。这不是正常的过拟合或学习率衰减。最可能的原因是:SEC-EDGAR数据遇到了一批结构不同的文件(例如,一连串XBRL密集型或异常的10-K/10-Q章节,打破了模型模式)。SEC文件的结构差异巨大——简单的8-K与包含嵌套表格、XBRL标签和法律模板的300页10-K截然不同。
模型已完全恢复,现在低于尖峰前的水平。
═══════════════════════════════════════════════════ 对比:SEC-EDGAR vs GitHub-Code ═══════════════════════════════════════════════════
SEC-EDGAR GitHub-Code 模型: GPT-2 124M GPT-2 124M 验证损失: 2.52(↓下降中) 3.466(最终) 输出质量: 待定 垃圾 数据质量: 干净(SEC) ~46%噪声(codeparrot) 状态: 76%完成 完成(已放弃)
SEC-EDGAR的验证损失已达2.52,且仍在改善。GitHub-code在3.466处触底,输出垃圾。区别在于数据质量:SEC文件是结构化的、一致的财务文本。codeparrot/github-code大约有46%的噪声(自动生成、缩小、配置文件等)。
═══════════════════════════════════════════════════ 关键模式 ═══════════════════════════════════════════════════
-
每次迭代的损失噪声巨大:单个步骤波动0.8–3.5。这对于有效batch=32,768 tokens来说是正常的。验证损失(在100次评估迭代上平均)才是真实信号。
-
仍在下降:验证损失在过去1000步中从2.67降至2.52。本次运行仍有潜力。尚未进入平台期。
-
预期的最终验证损失:如果趋势持续,到第47,400步时约为2.3-2.4。作为参考,GPT-2 124M在OpenWebText上的验证损失约为2.85。SEC-EDGAR可能优于它,因为领域更窄/更规律。
-
学习率:仍在衰减(min_lr=6e-5,将在第47400步触底)。MFU稳定在12.79%——未编译(compile=False),因此在4070上属于正常。
让它完成——应该约16分钟完成。第36000步的检查点(val_loss=2.52)已经是最好的一个。