Articles sur l'IA
Concepts et Architectures Fondamentaux :
- Rétropropagation : L’algorithme fondamental pour l’entraînement des réseaux de neurones.
- Réseaux de Neurones Convolutifs (CNN) : Une architecture clé pour le traitement d’images.
- Word2Vec : Articles de Tomáš Mikolov sur les plongements de mots.
- Sequence to Sequence Learning with Neural Networks : Un article fondateur sur la modélisation de séquences.
- Attention is All You Need : L’article séminal introduisant l’architecture Transformer.
- ResNet, “Deep Residual Learning for Image Recognition” : Introduit les connexions résiduelles pour des réseaux plus profonds.
Grands Modèles de Langage et Techniques Associées :
- Chain-of-Thought Prompting Elicits Reasoning in Large Language Models : Explore les techniques d’invite pour améliorer le raisonnement.
- Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks : Combine la récupération avec la génération pour une meilleure performance.
- Rapport Technique de GPT-4
- Fiche Technique du Modèle Claude 3
- Article sur LLaMA 3
Modèles Spécifiques et Applications :
- DeepSeek V3 & V2 : Modèles récents de DeepSeek.
- Whisper, Robust Speech Recognition via Large-Scale Weak Supervision : Un modèle robuste de reconnaissance vocale.
- Article sur les Modèles de Diffusion Latente (Stable Diffusion) : Introduit la diffusion latente pour la génération d’images.
- DALL-E 3: Scaling Text-to-Image Generation : Un modèle puissant de génération d’images à partir de texte.
Benchmarks et Évaluations :
- SWE-Bench: Can Language Models Resolve Real-World GitHub Issues? : Un benchmark pour évaluer les capacités de génération de code.
Listes Curatées :
- NeurIPS Test of Time Papers : Une collection d’articles influents reconnus pour leur impact à long terme.
- Top 30 des Articles sur l’IA par Ilya : Une liste curatée par Ilya Sutskever, disponible à https://aman.ai/primers/ai/top-30-papers/.