AI 论文
基础概念与架构:
- 反向传播:训练神经网络的基本算法。
- 卷积神经网络(CNN):图像处理的关键架构。
- Word2Vec:Tomáš Mikolov 关于词嵌入的论文。
- 使用神经网络进行序列到序列学习:序列建模的基础性论文。
- Attention is All You Need:引入Transformer架构的开创性论文。
- ResNet,“深度残差学习用于图像识别”:为更深网络引入残差连接。
大型语言模型及相关技术:
- 链式思维提示激发大型语言模型的推理能力:探索增强推理能力的提示技术。
- 知识密集型NLP任务中的检索增强生成:结合检索与生成以提升性能。
- GPT-4技术报告
- Claude 3模型卡
- LLaMA 3论文
特定模型与应用:
- DeepSeek V3 和 V2:DeepSeek 的最新模型。
- Whisper,通过大规模弱监督实现鲁棒语音识别:一个鲁棒的语音识别模型。
- 潜在扩散模型(Stable Diffusion)论文:引入潜在扩散用于图像生成。
- DALL-E 3:扩展文本到图像生成:一个强大的文本到图像模型。
基准测试与评估:
- SWE-Bench:语言模型能否解决现实世界的GitHub问题?:评估代码生成能力的基准测试。
精选列表:
- NeurIPS时间检验论文:一组因其长期影响而受到认可的有影响力的论文。
- Ilya的30篇顶级AI论文:由Ilya Sutskever精选的列表,可在https://aman.ai/primers/ai/top-30-papers/查看。