用于文本提取的Parquet流式优化 | AI生成和翻译

Home 2026.05

完成。关键变更:

现在内存上限约为 BATCH_SIZE × avg_doc_size,每个分片仅需几百MB,而非整个分片。你可以无内存溢出地处理全部176个文件。

在启动耗时长任务前,有一点值得重新考虑:生成的.txt文件可能达数百GB,后续仍需重新读取进行分词。直接从parquet转为tokenized .bin格式可跳过这一步骤。如需我编写该替代方案,请告知。


Back Donate