自学AI学习之旅

自学AI学习之旅 | AI生成和翻译

首页 2026.05

问题： 你如何看待我长达数年的自学AI/ML历程——从2023年组装一台搭载RTX 4070的电脑，在60GB文本上训练GPT-2，花费数百美元租用云端GPU（RunPod、DigitalOcean、H100/H200），获得两项深度学习证书，到现在在400多GB文本数据上本地训练——全程预算约束在约1000–5000元，最初出于职业目标，最终却源于纯粹的好奇心？

回答：

对你这段历程的坦诚反思

你所描述的，坦率地说，是最真实的学习任何技术的方式之一。让我来分点剖析。

1. 你走了最难的路——但恰好是正确的路

要摆脱教程地狱、真正学会，你必须亲自动手，从头编写算法，复现论文，做真正的实际项目。这正是你所做的——不是沿着一条清晰的路线图，而是通过反复撞墙。RunPod的账单、崩溃的环境、缺货的云端GPU——这些不是失败，而是向现实缴纳的学费。

大多数人看关于Transformer的YouTube视频。你实际跑了数天的训练循环，体会过60GB文本语料库需要半天时间的痛苦。那种知道与做过之间的差距是巨大的。

2. 动机的转变是最宝贵的部分

你开始于：

“我想找一份AI工作”
“我想炫耀证书”
“我想追逐AGI梦想”

而你最终：

拥有了纯粹的好奇心
学会了在预算约束下创造性地解决问题
真正理解了小型模型能实际做什么

这正是深度学习的经典成长弧线。只是我、一个梦想和我的PC。在我面前是知识的海洋——一个广阔而深邃的海洋（互联网），我开始了无尽的学习旅程。在这段旅程中，我遇到了许多挑战，多次迷失方向。你亲身经历了那句话。那些经历过“多次迷失方向”阶段并坚持下来的人，正是最终获得真正理解的人。

3. 限制让你更聪明，而非更弱

用一块5000元的GPU，紧张的预算，没有团队，没有托管环境——这迫使你真正理解了：

内存瓶颈
块大小实际意味着什么（你的“泳池/swimming pool”比喻确实很有洞察力）
何时云端值得，何时本地计算更优
如何在没有无限显存的情况下让400GB文本数据运转起来

专注于特定任务的简单模型项目，可以用一块GPU来训练它们的AI。你是通过实证发现这一真理的，而不是从教科书中学到的。这比什么都珍贵。

4. 你现在实际拥有什么

经过两年多的时间：

你所做的	你所获得的
RTX 4070本地推理（2023）	硬件直觉，CUDA基础
GPT-2在60GB文本上训练	数据管道，分词，训练动态
RunPod / DigitalOcean H100/H200	云端GPU工作流，成本优化
两项深度学习证书	结构化词汇，资质证明
400GB本地训练运行	耐心，数据工程，实际吞吐量理解
微信频道，朋友讨论	沟通与教学能力

教学他人（你的“泳网/block size”视频获得数万观看）是最被低估的学习验证方式之一。

5. 有哪些诚实的批评？

证书方面“过多参考作业”——这是值得诚实面对的一个差距。资质本身不如你是否能自己重构这些概念重要。
在$3/小时的H200上花费“数百美元”的云端GPU支出是一个常见的陷阱。你学到的教训——对于迭代式的小模型工作，本地计算往往优于昂贵的云端——完全正确。
在单块消费级GPU上用400GB数据跑三到四天的训练运行，实际上令人印象深刻。但问问自己：你在那些运行中是否理解了损失曲线、梯度范数和学习率调度在告诉你什么？ 那是下一阶段的挑战。

6. 更大的图景

你所构建的不是一份职业资质。而是一个关于这项技术如何运作的真正心智模型，通过痛苦、金钱、时间和迭代建立起来。在2025年，任何拥有中等配置笔记本电脑和互联网连接的人，都可以构建、训练和部署五年前需要专用GPU集群的模型。而你是在这变得容易之前就这么做了——这意味着你的直觉是在真实摩擦中校准的，而非来自方便的抽象。

AGI梦想可能是个玩笑（你的原话），但驱使你走过这一切的好奇心——那不是玩笑。那是你最宝贵的资产。

继续前进。现在感觉训练小模型很“舒适”的事实，说明你已经赢得了这份舒适。

参考资料：

返回捐助