AI课程：从神经网络到智能体

AI课程：从神经网络到智能体 | 原创，AI翻译

Home 2026.04

我正在开设一个为期10课的AI课程。总费用3000人民币，为期2个月至一年，可根据个人进度调整。我很乐意分享我所学到的内容。

我的背景

我完成了DeepLearning.AI和斯坦福大学的“机器学习专项课程”以及DeepLearning.AI的“深度学习专项课程”——这两门都是吴恩达的课程。我基本上都学完了。老实说，当时做作业时我有点没耐心，过多地参考了别人的解答。但我后来自己回过头去补上了缺失的部分。

写完文章禅与机器学习艺术后，我发现自己对神经网络的理解仍然不够深入。理解是相对的，正如费曼所说。所以我找到了一种方法——复制几行代码，运行它，打印每一个变量。我就是这样真正学会的。

后来我花了大约两年时间思考transformer模型。我大约在2023年底首次接触到KQV机制，但当时没怎么理解。到2025年中，我终于明白了。我在神经网络、Transformer与GPT一文中记录了这段历程。

我学习过程中的关键项目是Karpathy的nanoGPT。我的很多知识都来自研究那个代码库。

我还实践过GPU操作。我使用DigitalOcean的H200 GPU Droplet对Qwen3.5-35B进行了推理，并用nanoGPT进行了GPT-2 124M的训练实验。所以这门课不仅仅是理论——我有基础设施带你进行真实的训练和推理。

课程理念

受王垠的CS视频课程及其CS课程原则启发，我相信：

打印变量来理解——不只是阅读
阅读真实代码（nanoGPT，不只是教科书）
自己训练小模型
构建系统，不只是理论
像训练LLM一样迭代——你无法一次就做对

你将能够做什么

完成这10节课后，你将深入理解神经网络，理解transformer，从零开始训练GPT，修改nanoGPT，微调模型，构建AI智能体，以及构建类似OpenClaw的平台。

从数学到GPT再到AI系统。这就是路径。

适合人群

从高中生到博士生，任何专业——文理科背景皆可。只要有好奇心和毅力，任何人都可以学习AI。
在职人士，包括软件工程师、IT经理及其他技术角色，希望加深对AI的理解。
任何对AI感兴趣，无论是作为爱好还是职业转型的人。

课程形式

10节课，3000人民币，2个月至1年，根据个人进度调整。
为每位学生提供一对一指导。
对于前几位学生，课程通过Zoom或腾讯会议直播进行并录制。之后的学生将收到这些录制的视频课程，而非实时会议。
每节课大约3小时。
你必须完成每节课的作业才能进入下一课。
课间除了睡眠时间，可进行简短的文字讨论（不超过30分钟）。
我亲自指导每位学生，确保没人会在不必要的障碍上卡住。
如果课程在一年内未完成，课程将终止且费用不予退还。

报名请发送邮件至lzwjava@gmail.com，主题为“AI课程报名”。请附上简短的自我介绍及学习AI的动机。你也可以点击此处了解更多。

十节课内容

我们共进行10节课。第1-4课是基础，第5-7课是GPT和nanoGPT，第8-10课是智能体及构建你自己的系统。

第1课 — 从基本原理理解神经网络

理解神经网络实际计算的是什么。标量、向量、矩阵计算。逐步进行前向传播。通过手动求导直观理解反向传播。激活函数，损失函数。

实践：打印每一个变量（禅式神经网络风格）。用纯Python实现一个两层神经网络。在MNIST上训练。

完成本课后，你将理解神经网络内部的每一个数字。

第2课 — 从神经网络到深度学习

梯度下降，学习率，收敛。过拟合与泛化。正则化，dropout，批处理/小批量/SGD。

实践：训练一个三层分类器。可视化损失曲线。手动实现dropout。

完成本课后，你将理解深度学习是如何实际训练的。

第3课 — PyTorch最小化框架

张量基础，自动求导，nn.Module设计，优化器机制，Dataset和DataLoader。

实践：在PyTorch中重建MLP。训练一个CIFAR分类器。检查梯度。

完成本课后，你将能阅读任何PyTorch模型。

第4课 — 语言建模基础

分词（BPE），n-gram模型，RNN/LSTM直观理解，下一个词预测，用于语言的交叉熵。

实践：构建一个字符级语言模型。在微型莎士比亚数据集上训练。生成文本。

完成本课后，你将理解GPT预测的是什么。

第5课 — Transformer架构

自注意力，Q K V详解，多头注意力，位置编码，前馈网络块，残差连接。

实践：实现单头注意力。构建一个小型transformer。可视化注意力。

完成本课后，你将理解GPT的架构。

第6课 — nanoGPT深度解析

这是关键一课。nanoGPT训练循环，GPT模型架构，权重初始化，数据管道，采样。

实践：在小数据集上训练nanoGPT。修改模型大小。在中文语料上训练。更改分词器。

完成本课后，你将能训练自己的GPT。

第7课 — GPT训练工程

GPU内存优化，梯度累积，混合精度，检查点，多GPU训练，数据集扩展。

实践：训练一个1亿参数的模型。恢复训练。微调一个模型。

完成本课后，你将能进行真实的GPT训练。

第8课 — 指令微调与对齐

SFT微调，指令数据集，RLHF概述，奖励模型概念，LoRA微调。

实践：使用聊天格式数据集微调nanoGPT。构建一个遵循指令的模型。

完成本课后，你将能构建一个聊天模型。

第9课 — LLM智能体（Claude Code / OpenClaw风格）

工具调用，智能体循环，规划与执行，记忆系统，CLI智能体设计。

实践：构建一个编码智能体。构建一个CLI自动化智能体。构建一个多步推理智能体。

完成本课后，你将能构建OpenClaw风格的系统。

第10课 — 个人AI系统（顶点项目）

本地模型部署，检索（RAG），长上下文记忆，多智能体系统，CLI工具集成。

最终项目可选：个人编程AI，研究助手，CLI AI工具包，或自主开发智能体。

完成本课后，你将拥有自己的AI系统。

Back Donate