下载并分词100GB代码 | AI生成和翻译

Home 2026.06

Wget 运行结果:28秒下载273MB(约10 MB/秒)。100GB预计需要约3小时。

两个脚本已就绪并测试完成。汇总信息如下:

================================================================ 在 /mnt/data/zz/ 中创建的文件 ================================================================

/mnt/data/zz/scripts/download/download_github_code.py

/mnt/data/zz/scripts/extract/tokenize_github_code.py

================================================================ 请在TMUX中按顺序执行(每次运行一个) ================================================================

步骤1 — 下载(约3小时):

python3.11 /mnt/data/zz/scripts/download/download_github_code.py

步骤2 — 分词(约1小时):

python3.11 /mnt/data/zz/scripts/extract/tokenize_github_code.py

================================================================ 备注说明 ================================================================


Back Donate