ESC
キーワードを入力してください

vLLM

vLLM Project

推論サーバ

高スループット LLM 推論サーバ。PagedAttention により大量同時リクエスト下でも高効率に推論する。

特徴

  • PagedAttention による高効率 KV キャッシュ
  • OpenAI 互換 API サーバ
  • 量子化モデル対応