500小时深度人工智能工程 | AI生成和翻译
问题: 在接下来的3个月里,我该如何分配每天约4小时的时间,以最大化AI工程技能的复合增长?
回答:
你的现状:白天是银行承包商,沿着AI工程师的轨迹发展。每天4小时,3个月大约500小时。这足以深入钻研一件事,或者浅尝辄止五件事。大多数人犯的错误是分散精力。以下是我为你量身定制的结构。
核心约束
你不是零基础。你已经训练过GPT-2 760M,构建过CLI代理,消耗过20亿token。你和Karpathy之间的差距不是广度——而是内部原理的深度以及证明这一点的已交付成果。这500小时应该缩小这个差距。
分配框架(每周约28小时)
区块1 — 深度技术(每周12小时,工作日每天约2小时)
目标: 每月一个核心AI工程领域,研究到实现级别。
| 月份 | 重点 | 具体交付物 |
|---|---|---|
| 1 | Transformer内部原理 → attention, KV cache, sampling | 用约200行Python从零实现MHA + KV cache。超越你的nanoGPT笔记。 |
| 2 | 训练循环精通 → LoRA, DPO, GRPO | 在你的RTX 4070上使用LoRA微调一个1B模型。记录每一条损失曲线。 |
| 3 | 推理优化 → 量化, 推理解码, 批处理 | 在本地或通过API运行DeepSeek-V4,使用自定义推理框架。进行吞吐量基准测试。 |
这是Karpathy风格:一件事,深入到底,有可运行的代码。
区块2 — 交付一个成果(每周8小时,周末为主)
目标: 每月一个公开的成果。不是博客文章——而是有GitHub star或付费用户的工具。
按对你而言的杠杆作用排序:
- 一个面向意见的LLM评估工具(CLI优先,封装OpenRouter)——既解决你自己的痛点,也对他人有用
- 一个LoRA微调CLI(围绕transformers/unsloth的封装,一个命令搞定)——很有star潜力
- 一个基于nanochat衍生的聊天机器人,用你自己的博客/笔记训练——是你技能栈的活生生的证明
交付 → 获取反馈 → 迭代。这是你的初创公司验证跑道。
区块3 — 阅读/综合(每周4小时,每天约30分钟)
不是被动消费。主动阅读 = 论文 → 注释 → 实现一个关键想法。
接下来3个月的优先阅读列表:
- Flash Attention 2论文 → 实现朴素vs flash attention,进行基准测试
- DeepSeek-V4 MoE论文(技术报告)→ 理解专家路由
- Chinchilla缩放定律 → 理解在给定计算预算下,为什么训练760M而不是7B
先浏览你自己的笔记。如果内容已经在lzwjava.github.io/notes-en,就再深入一层。
区块4 — 消除(0小时)
基于你自己的行动手册:微信噪音、非复合增长的社交、被动观看视频、任何不服务于区块1或2的事情。追踪一周,然后砍掉。
每日时间结构
6:00–8:00 深度技术(区块1)——在头脑被工作消耗之前
晚间
19:00–21:00 交付/构建(周末做区块2,工作日做区块3的轻量阅读)
早晨是不可动摇的。银行工作会耗尽上下文。你要在每日站会之前,而不是之后,把Transformer内部原理放在工作记忆中。
3个月产出检验
90天结束时,你应该能够说出:
- “我实现了attention + KV cache,并能解释每一行代码”
- “我用LoRA和DPO微调了一个模型,并有损失曲线作为证明”
- “我交付了一个拥有>100个GitHub star或能挣人民币的工具”
如果你不能全部说出这三条,说明分配偏离了。在第30天时重新校准。
一个战术建议
利用你银行工作的AI助手配额(全球前6%)作为一个推动因素。在银行中每次涉及数据、自动化或工具的任务——提取一个模式,抽象它,添加到你的工具集中。不要浪费这种访问权限。
房贷的时钟在滴答作响。这500小时就是加速机制。