优化多服务等级目标的大语言模型服务 | AI生成和翻译

Home 2025.10

概述

论文《SLOs-Serve:多服务等级目标大语言模型的优化服务》介绍了SLOs-Serve系统,该系统专为多阶段应用场景中的大语言模型服务优化设计。在这些场景中,每个处理阶段(如输入处理的预填充阶段、令牌生成的解码阶段)和具体应用(如聊天机器人、编程助手)都有特定的服务等级目标。这些SLOs能确保面向用户环节的低延迟,例如预填充阶段的首令牌响应时间和解码阶段的令牌输出间隔时间。传统服务系统(如vLLM或Sarathi-Serve)以吞吐量为优先考量,但在共享资源环境下(特别是在突发流量或混合工作负载时)经常违反这些细粒度SLOs。

核心挑战与创新贡献

作者指出了多SLO服务中的关键挑战:

SLOs-Serve的核心创新包括:

应用场景 预填充SLO要求 解码SLO要求 典型示例
文本摘要 严格(3倍延迟上限) 宽松(100ms TPOT) 文档处理
代码生成 宽松 严格(50ms TPOT) 编程辅助
聊天机器人 宽松 宽松 交互式问答
工具调用 严格(循环中) 严格(循环中)/宽松(最终输出) 智能体工作流
逻辑推理 严格(思考阶段) 严格(思考阶段)/宽松(响应阶段) 思维链推理

系统设计

该设计深入探索了系统权衡,例如扩大批处理规模可提升吞吐量但会增加延迟风险(通过SLO可行区域可视化图表呈现)

性能评估

在6类场景(聊天机器人、代码生成、文本摘要、混合负载、工具调用、逻辑推理)中采用真实流量轨迹(Azure LLM工作负载)和数据集(ShareGPT、HumanEval等)进行测试。模型选用OPT-7B/13B/30B、ToolLlama-7B,硬件配置以4×A100为主,最高扩展至8×H100

实验图表显示,在流量峰值期间SLOs-Serve能保持p99延迟接近目标值,而基线系统性能明显劣化

结论

SLOs-Serve通过保障多样化突发环境中的多SLOs,将服务效率提升2倍以上,推动LLM服务技术发展。未来工作可延伸至未知解码长度或更多阶段场景。该系统证明基于SLO的定制化调度是实现生产级LLM部署的关键。

SLOs-Serve:多服务等级目标大语言模型的优化服务


Back

x-ai/grok-4-fast

Donate