vLLM:高效大语言模型服务引擎 | AI生成和翻译

Home 2025.10

vLLM 的诞生

vLLM(”virtual LLM”的简称)是一个专为大语言模型推理与服务打造的高吞吐、内存高效开源库。该项目由加州大学伯克利分校RISELab的Sky Computing实验室研究人员于2023年初创立,最初是专为英伟达A100 GPU和有限模型集优化的推理引擎,致力于解决LLM服务中的内存碎片化和低吞吐量等核心难题。

重要早期里程碑:

GitHub代码库(vllm-project/vllm)创建于2023年5-6月,与项目初期开发阶段同步。

知名度攀升

vLLM于2024年开始获得显著关注,从小众研究工具演进为开源LLM服务的事实标准。其爆发式增长得益于快速的功能迭代(如量化、推测解码、多模态支持)、硬件平台扩展(英伟达、AMD、谷歌TPU等)以及被亚马逊(2024年会员日期间支持Rufus)、LinkedIn等企业的生产环境采用。

2024年关键增长指标:

截至2024年中,项目已收获约2万星标,并因在吞吐量方面超越同类方案而频繁获得AI社区讨论。这一增长势头持续至2025年:

目前(2025年10月),项目已获得超5.5万星标,支持近100种模型架构,成为可扩展AI部署的基石技术。

PagedAttention arXiv论文
vLLM GitHub代码库
vLLM 2024回顾博客
PyTorch集成公告


Back

x-ai/grok-4-fast

Donate