未来技术专长的钢铁人论证 | AI生成和翻译
问题: 现在(2026年)应该投资什么样的技术/知识栈,才能到2030年成为他人学习的对象?——以历史类比来说:2010年代的移动开发者现在正在学习大语言模型,但新开发者完全跳过移动端。
回答:
这是一个锐利的思维模型。让我强化它并延伸。
这个类比在结构上是合理的
| 时期 | “新平台” | 谁致富了 | 谁被落在后面 |
|---|---|---|---|
| 2008–2012 | iOS/Android | 早期移动开发者、应用创始人 | 等待的纯Web开发者 |
| 2012–2016 | 云/AWS | 早期DevOps、SRE、分布式系统 | 仅专注本地部署的工程师 |
| 2016–2020 | 深度学习 | 早期ML工程师、PyTorch用户 | 基于规则的CV/NLP人员 |
| 2020–2024 | LLMs/Transformers | 提示工程师、微调者、智能体构建者 | 其他正在追赶的人 |
| 2024–2028 | ??? | 你想成为这里的人 | — |
关键洞察:到2030年知识上富有的人,是那些现在比“调用LLM API”更深一层的人。
什么是2026年“在2010年学习iOS”的等价物?
在2010年,学习iOS意味着:
- 学习一个大多数人不屑一顾的平台(“谁需要应用?”)
- 深入抽象层之下(Objective-C、UIKit内部、内存管理)
- 在工具不成熟、文档稀少的时代进行构建
今天直接的类比不是“学会调用GPT-4”。那相当于“学会下载一个应用”。在2010年构建iOS应用的等价物是:
1. 模型内部机制——API之下的层面
不是“如何提示”,而是:
- 注意力机制实现(你已经在做——更进一步)
- KV缓存管理、推测解码、连续批处理
- 量化:GPTQ、AWQ、GGUF——它们为什么有效,而不仅仅是运行方法
- 为注意力机制编写的自定义CUDA核(FlashAttention的数学原理,而不仅仅是使用)
到2030年,理解为什么一个70B模型能在2个GPU上快速运行的人将稀少且昂贵。大多数人只会调用API。
2. 训练后优化栈(RLHF → DPO → GRPO)
这是从基模型创造价值的地方。你已经触及这一点。加大投入:
- 从第一性原理出发的奖励建模
- GRPO(DeepSeek使用的方法)——组相对策略优化
- 合成数据生成流水线(真正的护城河)
- 评估设计——这个被严重低估了
2030年“我在应用商店发布了第一个五星级应用”的等价物是“我训练了一个领域特定模型,它在X任务上实际超越了GPT”。
3. 智能体基础设施(不是LangChain——而是其下的层面)
LangChain是这个时代的Cordova/PhoneGap——到2028年它将基本无关紧要。真正重要的将是:
- 工具使用协议(MCP很有趣——你已经在使用)
- 记忆架构(智能体的事件记忆、语义记忆、工作记忆)
- 生产规模的多智能体编排
- 非确定性系统的可靠性工程
4. 领域 × 模型交叉
到2030年最不可替代的位置是领域专业知识 + 模型训练能力。纯ML工程师正在变得商品化。但:
- 一个能在专有金融数据上微调+评估模型的金融工程师?罕见。
- 你已经拥有:银行系统 + AI工程。这就是一条护城河。
5. 推理优化与部署
随着模型在API层面商品化,价值转向了高效运行它们:
- vLLM内部机制、PagedAttention
- 混合专家模型路由(Mixtral/DeepSeek-MoE所做的)
- 边缘推理(设备端模型——苹果硅NPU、高通)
- 分离式预填充/解码(当前热门研究领域)
2026年应该避免深入学习的内容
这些是这个时代的“黑莓开发技能”:
| 跳过 | 原因 |
|---|---|
| 提示工程作为一门学科 | 会被元提示系统自动替代 |
| RAG流水线搭建 | 成为每个向量数据库的常见功能 |
| LangChain/LlamaIndex内部机制 | 框架更替——抽象层会发生变化 |
| “AI产品管理” | 过于高层,无技术护城河 |
| 在通用模型上微调LoRA | 到2027年成为入场门槛 |
你的具体位置(智维)
你拥有一个罕见的组合,清晰地映射到2030年有价值的知识栈:
银行领域知识 → 金融模型微调 + 评估
iOS/Android/全栈经验 → 设备端推理、多模态用户体验
12年系统工程师经验 → 智能体可靠性、LLM系统基础设施
从头训练GPT-2 → 更深入:MoE、推测解码
每年消耗15亿token → 系统化评估、提示到训练流水线
我为你具体下的赌注是:从头到尾训练一个小型(1–7B)金融/银行领域模型——预训练数据整理、DPO/GRPO训练后优化、评估框架、在vLLM上部署。 整个流水线,用真实数据做一次,到2028年将使你真正稀缺。
元观点
那些在2010年学习iOS的人并不知道它到2015年值30万美元年薪。他们只是追随了那个感觉有生命的平台——那里有能量。
现在,能量明确在:
- 模型内部机制与训练后优化
- 实际在生产中工作的智能体系统
- 大规模推理效率
- 多模态(视觉+音频+文本结合)
你已经在潮流中。走得更深,而不是更广。2030年版本的“我在没人做的时候构建了应用”是“我在别人都只调用API的时候训练了模型”。