AI课程:从神经网络到智能体 | 原创,AI翻译

Home 2026.04

我正在开设一个为期10课的AI课程。总费用3000人民币,为期2个月至一年,可根据个人进度调整。我很乐意分享我所学到的内容。

我的背景

我完成了DeepLearning.AI和斯坦福大学的“机器学习专项课程”以及DeepLearning.AI的“深度学习专项课程”——这两门都是吴恩达的课程。我基本上都学完了。老实说,当时做作业时我有点没耐心,过多地参考了别人的解答。但我后来自己回过头去补上了缺失的部分。

写完文章禅与机器学习艺术后,我发现自己对神经网络的理解仍然不够深入。理解是相对的,正如费曼所说。所以我找到了一种方法——复制几行代码,运行它,打印每一个变量。我就是这样真正学会的。

后来我花了大约两年时间思考transformer模型。我大约在2023年底首次接触到KQV机制,但当时没怎么理解。到2025年中,我终于明白了。我在神经网络、Transformer与GPT一文中记录了这段历程。

我学习过程中的关键项目是Karpathy的nanoGPT。我的很多知识都来自研究那个代码库。

我还实践过GPU操作。我使用DigitalOcean的H200 GPU Droplet对Qwen3.5-35B进行了推理,并用nanoGPT进行了GPT-2 124M的训练实验。所以这门课不仅仅是理论——我有基础设施带你进行真实的训练和推理。

课程理念

受王垠的CS视频课程及其CS课程原则启发,我相信:

你将能够做什么

完成这10节课后,你将深入理解神经网络,理解transformer,从零开始训练GPT,修改nanoGPT,微调模型,构建AI智能体,以及构建类似OpenClaw的平台。

从数学到GPT再到AI系统。这就是路径。

适合人群

课程形式

报名请发送邮件至lzwjava@gmail.com,主题为“AI课程报名”。请附上简短的自我介绍及学习AI的动机。你也可以点击此处了解更多

十节课内容

我们共进行10节课。第1-4课是基础,第5-7课是GPT和nanoGPT,第8-10课是智能体及构建你自己的系统。

第1课 — 从基本原理理解神经网络

理解神经网络实际计算的是什么。标量、向量、矩阵计算。逐步进行前向传播。通过手动求导直观理解反向传播。激活函数,损失函数。

实践:打印每一个变量(禅式神经网络风格)。用纯Python实现一个两层神经网络。在MNIST上训练。

完成本课后,你将理解神经网络内部的每一个数字。

第2课 — 从神经网络到深度学习

梯度下降,学习率,收敛。过拟合与泛化。正则化,dropout,批处理/小批量/SGD。

实践:训练一个三层分类器。可视化损失曲线。手动实现dropout。

完成本课后,你将理解深度学习是如何实际训练的。

第3课 — PyTorch最小化框架

张量基础,自动求导,nn.Module设计,优化器机制,Dataset和DataLoader。

实践:在PyTorch中重建MLP。训练一个CIFAR分类器。检查梯度。

完成本课后,你将能阅读任何PyTorch模型。

第4课 — 语言建模基础

分词(BPE),n-gram模型,RNN/LSTM直观理解,下一个词预测,用于语言的交叉熵。

实践:构建一个字符级语言模型。在微型莎士比亚数据集上训练。生成文本。

完成本课后,你将理解GPT预测的是什么。

第5课 — Transformer架构

自注意力,Q K V详解,多头注意力,位置编码,前馈网络块,残差连接。

实践:实现单头注意力。构建一个小型transformer。可视化注意力。

完成本课后,你将理解GPT的架构。

第6课 — nanoGPT深度解析

这是关键一课。nanoGPT训练循环,GPT模型架构,权重初始化,数据管道,采样。

实践:在小数据集上训练nanoGPT。修改模型大小。在中文语料上训练。更改分词器。

完成本课后,你将能训练自己的GPT。

第7课 — GPT训练工程

GPU内存优化,梯度累积,混合精度,检查点,多GPU训练,数据集扩展。

实践:训练一个1亿参数的模型。恢复训练。微调一个模型。

完成本课后,你将能进行真实的GPT训练。

第8课 — 指令微调与对齐

SFT微调,指令数据集,RLHF概述,奖励模型概念,LoRA微调。

实践:使用聊天格式数据集微调nanoGPT。构建一个遵循指令的模型。

完成本课后,你将能构建一个聊天模型。

第9课 — LLM智能体(Claude Code / OpenClaw风格)

工具调用,智能体循环,规划与执行,记忆系统,CLI智能体设计。

实践:构建一个编码智能体。构建一个CLI自动化智能体。构建一个多步推理智能体。

完成本课后,你将能构建OpenClaw风格的系统。

第10课 — 个人AI系统(顶点项目)

本地模型部署,检索(RAG),长上下文记忆,多智能体系统,CLI工具集成。

最终项目可选:个人编程AI,研究助手,CLI AI工具包,或自主开发智能体。

完成本课后,你将拥有自己的AI系统。


Back Donate