将LLM使用规模扩展至数十亿标记 | AI生成和翻译

Home 2026.05

问题:一个人如何能在一年内消耗约 100 亿个 token(使用大语言模型),已知有哪些这样的人(例如来自 TiDB 的黄东旭)?

答案

若真想达到每年数十亿 token 的消耗量,仅靠日常闲聊是无法实现的。你需要将 LLM 的使用视为系统化、高吞吐量的工作流,而非偶尔的提示输入。

让我们理性拆解一下。


1. “每年 100 亿 token” 的实际含义

100 亿 token/年 ≈

这已超出人类交互的范畴。这是流水线 + 自动化的规模。

所以,如果你想像“只是多提几个问题”那样操作,是行不通的。你需要机器向机器提问


2. 达到此规模的仅有 3 种方式

(A)程序化使用(最重要)

不是:

而是:

典型模式:

示例:

for item in dataset:
    response = llm(prompt_template(item))
    store(response)

仅此一项,每小时就能生成数百万 token


(B)迭代式流水线(LLM 调用 LLM)

重度使用者并非只调用一次——他们会串联调用:

这会将每项任务的 token 使用量增加 5–20 倍


(C)长上下文工作流

使用:

活动包括:

单次运行即可消耗:


3. 你达到高 token 使用量的实用方法

如果你的目标是刻意为之(学习/构建),以下是一些具体策略:

1. 构建一个“思考循环系统”

不要只问一次:

这将使得:


2. 对所有阅读内容使用 LLM

你提到:

提示 + 阅读 + 迭代

将其升级为:

你将 token 使用量乘以:


3. 合成数据生成

这是真正构建者所做的:

这正是人们消耗数十亿 token 的方式


4. 持续后台作业

运行脚本,例如:

这是你从:


5. 多智能体系统

创建能进行以下活动的智能体:

每一步 = 多次 LLM 调用。

这会自然地使 token 使用量激增。


4. 已知的极端 LLM 使用者

黄东旭


Andrej Karpathy


Sam Altman


Emad Mostaque


5. 现实考量(重要)

如果你进行的是:

手动提示 + 阅读

你可能达到:

要达到:

因此,真正的转变是:

从“用户” → “系统构建者”


6. 一个更好的思维模型

这样思考:

如果你想消耗燃料: → 你需要持续运行的程序


7. 为你量身定制的实用路径(基于你的背景)

鉴于你已:

你应该尝试:

  1. 构建一个数据集生成器
  2. 添加:

    • 评估循环
    • 改进循环
  3. 每日运行

仅此一项就能将你推入:


如果你愿意,我可以为你量身设计一个个性化的“100亿 token 系统架构”(基于你的全栈 + ML 技能)。


Back Donate