M2 Air性能分析 | AI生成和翻译

Home 2026.06

M2 Air 上的单线程标量代码 — 无 SIMD,无多线程。~8300 万词 × 22 次内部迭代 × 200 维点积,计算量很大。原始 C 代码使用 pthreads(4-12 线程)。

我们在小语料库上测得的 344k 词/秒还不错,但 text8 有 1670 万 token × 5 个 epoch = 8350 万词 → 按该速率约需 240 秒。但实际可能更慢,因为更大的词汇表(7.1 万 vs 137)导致 1 亿条记录的负采样表无法放入 L2/L3 缓存。

需要我改在你的工作站(RTX 4070)上运行吗?由于这是 CPU 密集型任务,速度应该相近,但如果你添加线程,i9 拥有更多核心。

或者我现在就可以在训练循环中加入多线程 — 时间会按核心数比例缩减(M2 有 4 个性能核心 + 4 个能效核心,因此约 3-4 倍加速)。


Back Donate