:::color5

vLLM:通过 PagedAttention 轻松、快速且廉价地提供 LLM 服务。 vLLM 是一个 Python 库,还包含预编译的 C++ 和 CUDA (12.1) 二进制文件。

:::

简介

vLLM 是一个快速且易于使用的 LLM 推理和服务库。

vLLM 的速度很快:

  • 最先进的服务吞吐量
  • 使用PagedAttention高效管理注意力键和值内存
  • 连续批处理传入请求
  • 使用 CUDA/HIP 图快速执行模型
  • 量化:GPTQAWQSqueezeLLM、FP8 KV 缓存
  • 优化的 CUDA 内核

vLLM 灵活且易于使用:

  • 与流行的 Hugging Face 模型无缝集成
  • 高吞吐量服务与各种解码算法,包括并行采样波束搜索
  • 对分布式推理的张量并行支持
  • 流输出
  • 兼容 OpenAI 的 API 服务器
  • 支持 NVIDIA GPU 和 AMD GPU
  • (实验性)前缀缓存支持
  • (实验性)多lora支持

vLLM 无缝支持许多 Hugging Face 模型,包括以下架构:

  • 天鹰座和天鹰座2(BAAI/AquilaChat2-7BBAAI/AquilaChat2-34BBAAI/Aquila-7BBAAI/AquilaChat-7B等)
  • 百川 & 百川2 ( baichuan-inc/Baichuan2-13B-Chat, baichuan-inc/Baichuan-7B, 等)
  • 绽放(bigscience/bloombigscience/bloomz等)
  • ChatGLM(THUDM/chatglm2-6bTHUDM/chatglm3-6b等)
  • Command-R(CohereForAI/c4ai-command-r-v01等)
  • DBRX(databricks/dbrx-basedatabricks/dbrx-instruct
  • DeciLM ( Deci/DeciLM-7BDeci/DeciLM-7B-instruct等)
  • 猎鹰(tiiuae/falcon-7btiiuae/falcon-40btiiuae/falcon-rw-7b等)
  • 杰玛(google/gemma-2bgoogle/gemma-7b等)
  • GPT-2(gpt2gpt2-xl等)
  • GPT BigCode(bigcode/starcoderbigcode/gpt_bigcode-santacoder等)
  • GPT-J(EleutherAI/gpt-j-6bnomic-ai/gpt4all-j等)
  • GPT-NeoX(EleutherAI/gpt-neox-20bdatabricks/dolly-v2-12bstabilityai/stablelm-tuned-alpha-7b等)
  • 实习生LM(internlm/internlm-7binternlm/internlm-chat-7b等)
  • 实习生LM2(internlm/internlm2-7binternlm/internlm2-chat-7b等)
  • 贾斯 ( core42/jais-13bcore42/jais-13b-chatcore42/jais-30b-v3core42/jais-30b-chat-v3等)
  • LLaMA、Llama 2 和 Meta Llama 3(meta-llama/Meta-Llama-3-8B-Instructmeta-llama/Meta-Llama-3-70B-Instructmeta-llama/Llama-2-70b-hflmsys/vicuna-13b-v1.3young-geng/koalaopenlm-research/open_llama_13b等)
  • 最小每千次展示费用(openbmb/MiniCPM-2B-sft-bf16openbmb/MiniCPM-2B-dpo-bf16等)
  • 米斯特拉尔(mistralai/Mistral-7B-v0.1mistralai/Mistral-7B-Instruct-v0.1等)
  • 混合(mistralai/Mixtral-8x7B-v0.1mistralai/Mixtral-8x7B-Instruct-v0.1mistral-community/Mixtral-8x22B-v0.1等)
  • MPT(mosaicml/mpt-7bmosaicml/mpt-30b等)
  • OLMo ( allenai/OLMo-1B-hfallenai/OLMo-7B-hf等)
  • OPT(facebook/opt-66bfacebook/opt-iml-max-30b等)
  • 猎户座(OrionStarAI/Orion-14B-BaseOrionStarAI/Orion-14B-Chat等)
  • Φ ( microsoft/phi-1_5microsoft/phi-2等)
  • Phi-3(microsoft/Phi-3-mini-4k-instructmicrosoft/Phi-3-mini-128k-instruct等)
  • Qwen ( Qwen/Qwen-7BQwen/Qwen-7B-Chat等)
  • Qwen2 ( Qwen/Qwen1.5-7BQwen/Qwen1.5-7B-Chat等)
  • Qwen2MoE ( Qwen/Qwen1.5-MoE-A2.7BQwen/Qwen1.5-MoE-A2.7B-Chat等)
  • StableLM( stabilityai/stablelm-3b-4e1t, stabilityai/stablelm-base-alpha-7b-v2, 等)
  • Starcoder2( bigcode/starcoder2-3bbigcode/starcoder2-7bbigcode/starcoder2-15b等)
  • Xverse(、、、xverse/XVERSE-7B-Chatxverse/XVERSE-13B-Chatxverse/XVERSE-65B-Chat
  • 易 ( 01-ai/Yi-6B01-ai/Yi-34B等)

学习更多关于 AI 大模型全栈知识👇

:::danger 🌈** AI大模型全栈通识课程**👇

:::

:::color1 🙋 个人介绍 **👉🏻**

:::

:::color5 🙋 AI 工具 **👉🏻**

:::

:::info 🙋 开源版知识库**👉🏻**

:::

:::warning 🙋 AI全栈通识课堂

:::


免责声明

素材来源于网络以及个人总结,仅供个人学习交流无商业用途,版本归原创者所有

如有侵权请及时与我联系(微信:AGI舰长-LHYYH0001)删除