理解服务等级目标 | AI生成和翻译
什么是服务等级目标(SLO)?
服务等级目标(SLO) 是一个可衡量的目标,用于定义服务或系统期望达到的可靠性、性能或可用性水平。这是站点可靠性工程(SRE)中的核心概念,SLO作为内部目标,既能确保用户满意度,又避免过度投入工程资源。
核心构成要素:
- 服务等级指标(SLI):实际测量的指标(如请求延迟、错误率或正常运行时间百分比)
- 目标值:具体阈值或范围(例如“99.9%的请求需在200毫秒内响应”)
- 时间窗口:SLO评估周期(例如滚动28天平均值)
SLO与SLA的区别:
- SLO:面向工程团队的内部理想目标(例如力争实现99.95%正常运行时间)
- SLA:对客户的外部合同承诺,通常基于SLO制定并包含违约处罚条款(例如保证99.9%正常运行时间,若未达标则提供抵扣额度)
在LLM场景下的应用(以SLOs-Serve为例):
在大语言模型服务中,SLO通常按处理阶段划分:
- 首令牌响应时间(TTFT):在交互式应用(如聊天机器人)中,针对预填充(输入处理)阶段设置的严格SLO
- 输出令牌时效(TPOT):针对生成速度的解码阶段SLO,根据工作负载动态调整(例如编程类任务要求50毫秒/令牌,摘要任务则为100毫秒/令牌)
SLO有助于在共享环境中平衡吞吐量与延迟,防止流量突发时出现违规。
扩展阅读:
SRE手册:服务等级目标
SLOs-Serve论文