GitHub代码GPT-2训练管道 | AI生成和翻译

Home 2026.06

以下是完整的流水线摘要:

=== /mnt/data/zz — GitHub代码训练流水线 ===

步骤1:下载(来自HuggingFace的codeparrot/github-code)

步骤2:分词(通过tiktoken实现的GPT-2 BPE)

步骤3:训练(nanoGPT,当前在tmux会话”train”中运行)

最近提交记录: 79273b9 功能(训练):为RTX 4070上的github-code添加GPT-2 124M配置 c0672b7 重构(提取):简化分词逻辑 0f9416d 杂项(微调):添加合并脚本,忽略*.gguf文件 336bcef 新增github-code下载和分词脚本

注意:1126个parquet分片中仅下载了38个(目标100GB中的11GB)。但分词已产生约140亿token,恰好达到训练配置的目标。因此本次运行的流水线已完成——如需更多数据,可后续下载更多分片。


Back Donate