Documentos sobre IA
Conceptos Fundamentales y Arquitecturas:
- Backpropagation: El algoritmo fundamental para entrenar redes neuronales.
- Redes Neuronales Convolucionales: Una arquitectura clave para el procesamiento de imágenes.
- Word2Vec: Artículos de Tomáš Mikolov sobre embeddings de palabras.
- Sequence to Sequence Learning with Neural Networks: Un artículo fundamental sobre modelado de secuencias.
- Attention is All You Need: El artículo seminal que introduce la arquitectura Transformer.
- ResNet, “Deep Residual Learning for Image Recognition”: Introdujo conexiones residuales para redes más profundas.
Modelos de Lenguaje Grande y Técnicas Relacionadas:
- Chain-of-Thought Prompting Elicits Reasoning in Large Language Models: Explora técnicas de prompting para mejorar el razonamiento.
- Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks: Combina recuperación con generación para mejorar el rendimiento.
- Informe Técnico de GPT-4
- Ficha Técnica de Claude 3
- Artículo de LLaMA 3
Modelos y Aplicaciones Específicas:
- DeepSeek V3 y V2: Modelos recientes de DeepSeek.
- Whisper, Robust Speech Recognition via Large-Scale Weak Supervision: Un modelo robusto de reconocimiento de voz.
- Artículo sobre Modelos de Difusión Latente (Stable Diffusion): Introduce la difusión latente para la generación de imágenes.
- DALL-E 3: Scaling Text-to-Image Generation: Un potente modelo de generación de imágenes a partir de texto.
Evaluaciones y Puntos de Referencia:
- SWE-Bench: ¿Pueden los Modelos de Lenguaje Resolver Problemas Reales de GitHub?: Un punto de referencia para evaluar capacidades de generación de código.
Listas Curadas:
- Artículos NeurIPS Test of Time: Una colección de artículos influyentes reconocidos por su impacto a largo plazo.
- Los 30 Artículos Principales de Ilya: Una lista curada por Ilya Sutskever, disponible en https://aman.ai/primers/ai/top-30-papers/.