AI 論文
基础概念与架构:
- 反向传播:训练神经网络的基本算法。
- 卷积神经网络:图像处理的关键架构。
- Word2Vec:Tomáš Mikolov 关于词嵌入的论文。
- 序列到序列学习与神经网络:序列建模的基础性论文。
- Attention is All You Need:引入 Transformer 架构的开创性论文。
- ResNet, “深度残差学习用于图像识别”:为更深层网络引入残差连接。
大型语言模型及相关技术:
- 链式思维提示引发大型语言模型中的推理:探索增强推理的提示技术。
- 检索增强生成用于知识密集型 NLP 任务:结合检索与生成以提升性能。
- GPT-4 技术报告
- Claude 3 模型卡
- LLaMA 3 论文
特定模型与应用:
- DeepSeek V3 和 V2:DeepSeek 的最新模型。
- Whisper, 通过大规模弱监督实现鲁棒语音识别:一个鲁棒的语音识别模型。
- 潜在扩散模型(Stable Diffusion)论文:引入潜在扩散用于图像生成。
- DALL-E 3:扩展文本到图像生成:一个强大的文本到图像模型。
基准测试与评估:
- SWE-Bench:语言模型能否解决现实世界的 GitHub 问题?:评估代码生成能力的基准测试。
精选列表:
- NeurIPS 时间考验论文:一组因其长期影响而受到认可的有影响力的论文。
- Ilya 的 30 篇顶级 AI 论文:由 Ilya Sutskever 精选的列表,可在 https://aman.ai/primers/ai/top-30-papers/ 查看。