Transformer电路:逆向工程人工智能模型 | AI生成和翻译

Home 2025.11

Transformer Circuits 是一个专注于基于Transformer的语言模型机制可解释性的研究发布平台。该平台汇集了来自Anthropic可解释性团队的一系列技术论文、博客文章与分析报告,致力于以细粒度方式逆向解析这些AI模型的工作原理——将神经网络分解为可解释的”电路”,以理解诸如归纳头或事实回溯等涌现行为。

核心亮点:

若您对AI对齐或机器学习内部机制感兴趣,这个平台堪称实践洞察的宝库。

Transformer Circuits


Back

x-ai/grok-4-fast

Donate