Claude Sonnet运行时指标详解

Claude Sonnet运行时指标详解 | AI生成和翻译

Home 2025.09

您看到的是通过 Google Vertex AI 进行 anthropic/claude-sonnet-4 推理时的运行时指标。让我逐一解析：

首令牌延迟（2.85秒）： 这是发送提示到接收第一个输出令牌之间的延迟。包含网络延迟、请求排队和模型的初始计算。对于像 Claude Sonnet 这样的大型模型，几秒钟延迟属于正常范围。
吞吐量（32.9 令牌/秒）： 生成首个令牌后，模型会流式传输后续令牌。32.9 令牌/秒是良好速率——虽非最快，但对大型模型而言已属不错。吞吐量会因模型规模、服务提供商（Vertex）负载及提示长度而产生波动。
完成原因（停止）： 这仅表示模型在生成文本自然结束时停止（而非达到长度限制、被截断或遇到错误）。

因此，“为何如此？” → 因为这些数值描述了大型语言模型通过 Vertex 运行时的正常推理特性：

需要我进一步将这些数值与其他典型模型（如 GPT-5、Gemini Pro、DeepSeek 等）的性能区间进行对比吗？这样您就能更清楚判断当前表现处于“快速”还是“缓慢”范畴。

Back Donate