286M基础模型的质量评估

286M基础模型的质量评估 | AI生成和翻译

首页 2026.06

以下是286M基础模型在第87k步的质量评估：

质量评估 — nanochat d12 (286M参数, 第87k步, val_bpb=0.866)

良好：
  ✓ "法国首都是巴黎" — 正确掌握事实
  ✓ "很久以前" — 连贯的故事结构、角色名、叙事
  ✓ "生命的意义" — 连贯的哲学散文、合理的句子
  ✓ "到2025年，AI" — 合理的科技散文，语法良好
  ✓ "相对论" — 事实正确（光速、等效原理）
  ✓ 整体流畅性扎实 — 句子流畅，语法基本正确

薄弱：
  ✗ "def fibonacci(n):" — 没有实际代码，幻觉出一个字典定义
  ✗ "import torch" — 将其视为字典/维基词条，而不是Python代码
  ✗ 重复（科西嘉列出两次，"她非常穷"重复）
  ✗ 事实偏差（撒丁岛是巴黎的一个省，编造的数字）

结论：
  对于一个286M基础模型，这已经很扎实了。它具备基本的世界知识、
  连贯的散文和合理的语法。主要不足之处在于：
  - 没有代码理解能力（在无SFT情况下，这个规模属正常）
  - 重复循环（小模型常见）
  - 初始正确回答后出现事实幻觉

  作为参考：GPT-2 124M（2019年）在这个bpb范围内要差得多。
  该模型处于"有用但需要SFT才能用于聊天/代码"的区域。
  将训练延长到130k步应该能使bpb降至0.85以下，并进一步提高连贯性。

该模型状态良好 — 286M的基础模型在代码方面弱且会幻觉事实是正常的。真正的解锁来自SFT（聊天微调）和RL对齐，nanochat通过scripts/chat_sft.py和scripts/chat_rl.py支持这些。

返回捐助