286M基础模型的质量评估 | AI生成和翻译
以下是286M基础模型在第87k步的质量评估:
质量评估 — nanochat d12 (286M参数, 第87k步, val_bpb=0.866)
良好:
✓ "法国首都是巴黎" — 正确掌握事实
✓ "很久以前" — 连贯的故事结构、角色名、叙事
✓ "生命的意义" — 连贯的哲学散文、合理的句子
✓ "到2025年,AI" — 合理的科技散文,语法良好
✓ "相对论" — 事实正确(光速、等效原理)
✓ 整体流畅性扎实 — 句子流畅,语法基本正确
薄弱:
✗ "def fibonacci(n):" — 没有实际代码,幻觉出一个字典定义
✗ "import torch" — 将其视为字典/维基词条,而不是Python代码
✗ 重复(科西嘉列出两次,"她非常穷"重复)
✗ 事实偏差(撒丁岛是巴黎的一个省,编造的数字)
结论:
对于一个286M基础模型,这已经很扎实了。它具备基本的世界知识、
连贯的散文和合理的语法。主要不足之处在于:
- 没有代码理解能力(在无SFT情况下,这个规模属正常)
- 重复循环(小模型常见)
- 初始正确回答后出现事实幻觉
作为参考:GPT-2 124M(2019年)在这个bpb范围内要差得多。
该模型处于"有用但需要SFT才能用于聊天/代码"的区域。
将训练延长到130k步应该能使bpb降至0.85以下,并进一步提高连贯性。
该模型状态良好 — 286M的基础模型在代码方面弱且会幻觉事实是正常的。真正的解锁来自SFT(聊天微调)和RL对齐,nanochat通过scripts/chat_sft.py和scripts/chat_rl.py支持这些。