GPT-2训练进展报告 | AI生成和翻译

Home 2026.04

以下是完整的概况:

训练时间信息:

训练进度:

模型 — GPT-2 (124M 参数):

参数项 数值
架构 Transformer (GPT-2)
层数 12
注意力头数 12
嵌入维度 768
上下文长度 1024 个词元
词表大小 50,304 (BPE)
参数量 约 1.24 亿
检查点大小 1.4 GB(包含优化器状态)

训练配置:


Back Donate