原始文本到令牌化数据的解释

原始文本到令牌化数据的解释 | AI生成和翻译

首页 2026.04

根据您的数据准备日志，以下是如何理解“60GB text data”声明与您所见内容的对比：

您的输出：150 shards × 每个 ~0.19GB ≈ 28GB 总计

这表明三种可能情况之一：

“60GB”很可能指的是raw source text，而 28GB 是tokenized/binary format：

Speed: 40M tokens/sec
Time: ~20 minutes total = 1,200 seconds
Total tokens processed: 40M × 1,200 = 48B tokens

如果每个 token 在 binary format 中平均 ~0.6 bytes（BPE 的典型值）：

# Verify raw input size
du -sh /path/to/raw/data/

# Check one shard format
file /path/to/output/shard_0000.bin

要点：您的处理是正确的 — 60GB raw text → 28GB tokenized output，带有 ~48B tokens，是 LLM 数据准备的健康比例。

返回捐助