vLLM：高效大语言模型服务引擎

vLLM：高效大语言模型服务引擎 | AI生成和翻译

Home 2025.10

vLLM 的诞生

vLLM（”virtual LLM”的简称）是一个专为大语言模型推理与服务打造的高吞吐、内存高效开源库。该项目由加州大学伯克利分校RISELab的Sky Computing实验室研究人员于2023年初创立，最初是专为英伟达A100 GPU和有限模型集优化的推理引擎，致力于解决LLM服务中的内存碎片化和低吞吐量等核心难题。

重要早期里程碑：

2023年4月中旬：首次与FastChat完成公开集成，为LMSYS的Vicuna和Chatbot Arena演示提供支持
2023年6月：正式发布并公开GitHub代码库
2023年9月12日：在arXiv发表奠基性研究论文《基于PagedAttention的大语言模型服务高效内存管理》，提出实现连续批处理和近零KV缓存浪费的核心PagedAttention机制

GitHub代码库（vllm-project/vllm）创建于2023年5-6月，与项目初期开发阶段同步。

知名度攀升

vLLM于2024年开始获得显著关注，从小众研究工具演进为开源LLM服务的事实标准。其爆发式增长得益于快速的功能迭代（如量化、推测解码、多模态支持）、硬件平台扩展（英伟达、AMD、谷歌TPU等）以及被亚马逊（2024年会员日期间支持Rufus）、LinkedIn等企业的生产环境采用。

2024年关键增长指标：

GitHub星标数：从1.4万（2024年初）增长2.3倍至3.26万（2024年底）
月下载量：从6000次猛增4.5倍至2.7万次
GPU使用量：2024下半年增长约10倍
社区规模：贡献者数量增长3.9倍达740人，设立双周办公时间并建立合作伙伴关系（如英伟达、IBM、AWS）

截至2024年中，项目已收获约2万星标，并因在吞吐量方面超越同类方案而频繁获得AI社区讨论。这一增长势头持续至2025年：

2024年12月加入PyTorch生态系统
2024年10月进入LF AI & Data孵化计划
2025年6月达成5万星标里程碑

目前（2025年10月），项目已获得超5.5万星标，支持近100种模型架构，成为可扩展AI部署的基石技术。

PagedAttention arXiv论文
 vLLM GitHub代码库
 vLLM 2024回顾博客
 PyTorch集成公告

Back Donate