修复模型配置整除错误

修复模型配置整除错误 | AI生成和翻译

Home 2025.11

错误信息非常明确：

assert config.n_embd % config.n_head == 0

这意味着 n_embd 必须能被 n_head 整除（因为每个注意力头会获得 n_embd // n_head 个维度）。

你正在使用这个模型配置（可能是我之前给你的）：

n_layer = 12
n_head  = 12
n_embd  = 512

512 ÷ 12 = 42.666… → 不是整数 → 崩溃。

以下是在你的 12GB 4070 显卡上使用单个 FineWeb Parquet 文件时安全且经过验证的有效组合：

n_layer = 12
n_head  = 12
n_embd  = 576        # ← 576 ÷ 12 = 48 正好整除

→ 约1.25亿参数，在 batch_size=16 + grad_acc=32 + block_size=1024 配置下仍能轻松适配约10.5GB显存

n_layer = 12
n_head  = 12
n_embd  = 720        # 720 ÷ 12 = 60

n_layer = 12
n_head  = 12
n_embd  = 480        # 480 ÷ 12 = 40

n_layer = 12
n_head  = 8          # 512 ÷ 8 = 64
# 或者
n_head  = 16         # 512 ÷ 16 = 32

# 模型 – 12层，约1.25亿参数，保证可用
n_layer = 12
n_head  = 12
n_embd  = 576        # ← 这是你唯一需要修改的行
dropout = 0.0

其他所有设置（batch_size=16、grad_acc=32、block_size=1024 等）都保持完全不变。

将 n_embd 改为 576 后，断言错误会立即消失，训练将正常开始。

这个 12层/12头/576嵌入维度的模型目前在 nanoGPT 社区非常流行——许多人在使用 FineWeb 的 12GB 4070/4070 Ti 显卡上成功训练了它。

运行它，100% 会正常工作。当你看到第一个损失值输出时告诉我！🚀

Back Donate