AI論文
基礎概念とアーキテクチャ:
- バックプロパゲーション
- 畳み込みニューラルネットワーク
- トマーシュ・ミコロフによるWord2Vec論文
- ニューラルネットワークによるシーケンスからシーケンスへの学習
- アテンションはすべてです
- ResNet, “画像認識のための深い残差学習”
大規模言語モデルと関連技術:
- チェーン・オブ・サイト・プロンプティングは大規模言語モデルに推論を引き出す
- 知識集約的NLPタスクのためのリトリーバル・オーガメンテッド・ジェネレーション
- GPT-4技術報告書
- Claude 3モデルカード
- LLaMA 3論文
特定のモデルと応用:
- DeepSeek V3 & V2
- Whisper, 大規模な弱い教師データによる強力な音声認識
- ラテンディフュージョンモデル(Stable Diffusion)論文
- DALL-E 3テキストから画像への生成のスケーリング
ベンチマークと評価:
- SWE-Bench言語モデルはリアルワールドのGitHubの問題を解決できますか?
カレントリスト:
- NeurIPS Test of Time Papers
- イリヤのトップ30 AI論文、イリヤ・スツケバーによるカレントリスト、https://aman.ai/primers/ai/top-30-papers/で利用可能。