【LLM】兼容OpenAI API服务使用指南

引言

在本地部署好 vLLM 之后，它会启动一个 兼容 OpenAI 格式的 API 服务。
vLLM 在内部用 FastAPI 写了一个 Web 服务，挂载了和 OpenAI API 风格一致的路由，比如：
- /v1/completions
- /v1/chat/completions
- /v1/models
本文将以部署在 http://172.22.215.77:6080 的服务为例，详细介绍 vLLM 的 API 路由结构、各个地址的含义，以及常用接口的调用示例。
在 http://172.22.215.77:6080/docs 可以查看由 FastAPI 自动生成的交互式 API 文档界面。

API 路由结构

vLLM 的接口分为以下几类：

1. 基础运维类

GET /health → 健康检查，返回服务状态。（一般不需要 Key）
GET /ping / POST /ping → Ping 测试。
GET /load → 查看服务负载信息。
GET /metrics → 导出监控指标。
GET /version → 查看服务版本。

2. Token 工具类

POST /tokenize → 文本转 token。
POST /detokenize → token 转文本。

3. 模型与响应

GET /v1/models → 列出可用模型。
POST /v1/responses → 创建生成任务。
GET /v1/responses/{response_id} → 获取生成结果。
POST /v1/responses/{response_id}/cancel → 取消生成任务。

4. 核心 NLP 能力

POST /v1/chat/completions → 聊天对话接口。
POST /v1/completions → 文本补全接口。
POST /v1/embeddings → 获取文本向量嵌入。
POST /pooling → 向量池化。
POST /classify → 分类任务。
POST /score / POST /v1/score → 文本评分。

5. 音频相关

POST /v1/audio/transcriptions → 语音转文本。
POST /v1/audio/translations → 语音翻译。

6. Rerank 与检索增强

POST /rerank / /v1/rerank / /v2/rerank → 文档重排序接口。

7. 系统管理

POST /scale_elastic_ep → 动态扩缩容。
POST /is_scaling_elastic_ep → 查询是否在扩容。
POST /invocations → 通用推理调用入口。

常用接口与示例

1. 查看可用模型

1 2	curl http://172.22.215.77:6080/v1/models \ -H "Authorization: Bearer 123456"

{
  "object": "list",
  "data": [
    {
      "id": "Qwen3-235B-A22B-2507",
      "object": "model",
      "created": 1755654682,
      "owned_by": "vllm",
      "root": "/mnt/data/hot4/wenjin/models/Qwen3-235B-A22B-2507",
      "parent": null,
      "max_model_len": 163840,
      "permission": [
        {
          "id": "modelperm-ff40983d7a8e414989dff2f553521184",
          "object": "model_permission",
          "created": 1755654682,
          "allow_create_engine": false,
          "allow_sampling": true,
          "allow_logprobs": true,
          "allow_search_indices": false,
          "allow_view": true,
          "allow_fine_tuning": false,
          "organization": "*",
          "group": null,
          "is_blocking": false
        }
      ]
    }
  ]
}

2. Chat Completions

curl http://172.22.215.77:6080/v1/chat/completions \
  -H "Authorization: Bearer 123456" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen3-235B-A22B-2507",
    "messages": [
      {"role": "user", "content": "你好，请介绍一下你自己"}
    ]
  }'

{
  "id": "chatcmpl-7512a95a51cb4712b1ffd72a2da19c0b",
  "object": "chat.completion",
  "created": 1755654762,
  "model": "Qwen3-235B-A22B-2507",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "你好！我是Qwen，是阿里巴巴集团旗下的义实验室自主研发的超大规模语言模型。我可以帮助你回答问题、创作文字，比如写故事、写公文、写邮件、写剧本、逻辑推理、编程等等，还能表达观点，玩游戏等。我支持多种语言，包括但不限于中文、英文、德语、法语、西班牙语等。\n\n如果你有任何问题或需要帮助，尽管告诉我，我会尽力提供支持！😊",
        "refusal": null,
        "annotations": null,
        "audio": null,
        "function_call": null,
        "tool_calls": [],
        "reasoning_content": null
      },
      "logprobs": null,
      "finish_reason": "stop",
      "stop_reason": null
    }
  ],
  "service_tier": null,
  "system_fingerprint": null,
  "usage": {
    "prompt_tokens": 12,
    "total_tokens": 106,
    "completion_tokens": 94,
    "prompt_tokens_details": null
  },
  "prompt_logprobs": null,
  "kv_transfer_params": null
}

3. Tokenize / Detokenize

3.1 Tokenize，使用 prompt 字段

curl http://172.22.215.77:6080/tokenize \
  -H "Authorization: Bearer 123456" \
  -H "Content-Type: application/json" \
  -d '{"prompt": "Hello world"}'

1	{"count":2,"max_model_len":163840,"tokens":[9707,1879],"token_strs":null}

3.2 Tokenize，使用 messages（类似 Chat Completion）

curl http://172.22.215.77:6080/tokenize \
  -H "Authorization: Bearer 123456" \
  -H "Content-Type: application/json" \
  -d '{
    "messages": [
      {"role": "user", "content": "Hello world"}
    ]
  }'

1	{"count":10,"max_model_len":163840,"tokens":[151644,872,198,9707,1879,151645,198,151644,77091,198],"token_strs":null}

3.3 Detokenize

curl http://172.22.215.77:6080/detokenize \
  -H "Authorization: Bearer 123456" \
  -H "Content-Type: application/json" \
  -d '{"tokens": [151644,872,198,9707,1879,151645,198,151644,77091,198]}'

1	{"prompt":"<\|im_start\|>user\nHello world<\|im_end\|>\n<\|im_start\|>assistant\n"}

4. Embeddings

curl http://172.22.215.77:6080/v1/embeddings \
  -H "Authorization: Bearer 123456" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "bge-large",
    "input": "自然语言处理很有趣"
  }'

示例返回：

{
  "data": [
    {"embedding": [0.012, -0.031, ...], "index": 0}
  ]
}

5. Rerank

curl http://172.22.215.77:6080/v1/rerank \
  -H "Authorization: Bearer 123456" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "bge-reranker-large",
    "query": "人工智能的应用有哪些？",
    "documents": [
      "人工智能用于医疗诊断。",
      "人工智能和足球没有关系。",
      "人工智能推动自动驾驶。"
    ]
  }'

示例返回：

{
  "results": [
    {"index": 0, "score": 0.95},
    {"index": 2, "score": 0.88},
    {"index": 1, "score": 0.05}
  ]
}

三、总结

vLLM 提供了 与 OpenAI API 高度兼容的接口。
常用接口：
- /v1/chat/completions → 聊天对话
- /v1/completions → 文本补全
- /v1/embeddings → 向量嵌入
- /v1/rerank → 文档重排序

LLM vLLM FastAPI

相关推荐

2025-08-15

【LLM】使用vLLM本地部署大模型

2025-12-22

【Agent】Agent Skills 介绍

今年 10 月，Anthropic 推出了 Claude Skills 能力，在 Claude 网页端、API 以及 Claude Code等产品都可以使用。Claude Skills 解决了什么问题呢？一句话来讲，Claude Skills 是一种基于文件系统的、可复用的知识包，运行在 Claude 的沙盒虚拟机（VM）环境中，用于向 Agent 注入流程化、确定性的内部知识（SOP）的标准化方案。什么是 Claude SkillsAnthropic 官方文档给出了 Agent Skills 的定义： Agent Skills are modular capabilities that extend Claude’s functionality. Each Skill packages instructions, metadata, and optional resources (scripts, templates) that Claude uses automatically when relevant.智能体技能（Agent...

2026-01-09

【Agent】Agent Skill 实战

在上一篇博客中，我们介绍了 Agent Skills 的概念和原理。本文将聚焦于实战，介绍如何安装 Claude Code、加载和使用 Agent Skills，并以官方的 skill-creator 为例，演示如何创建自定义 Skill。 Claude Code 安装Claude Code 是 Anthropic 推出的命令行工具，可以在终端中直接与 Claude 交互，是使用 Agent Skills 的主要方式之一。安装 Claude Code 1npm install -g @anthropic-ai/claude-code 修改~/.claude/settings.json文件，使用中转站 12345678910111213141516{ "alwaysThinkingEnabled": true, "env": { "ANTHROPIC_AUTH_TOKEN": "sk-bHWPKD8Ns5", ...

2025-08-22

【Agent】MCP协议介绍

什么是MCP？MCP（Model Context Protocol）是由Anthropic开发的开放标准协议，旨在让AI助手能够安全、标准化地连接到各种外部数据源和工具。简单来说，MCP就像是AI助手的“工具箱”，通过这个协议，AI 大模型可以访问文件系统、数据库、API服务等外部资源，大大扩展了AI的能力边界。 MCP架构原理MCP采用客户端-服务器架构： MCP Client：通常是AI助手（如Claude Desktop、Cline、Cursor等） MCP Server：提供特定功能的服务程序传输层：负责客户端和服务器之间的通信 MCP传输层模式1. Stdio (Standard Input/Output) 工作原理：使用标准输入/输出流进行进程间直接通信，提供最优性能且无网络开销需要自己装mcp server的环境配置示例1234567891011{ "mcpServers": { "github": { "command":...

2025-08-29

【LLM】ChatGPT 训练范式

Stage 1: PT(Continue PreTraining)，增量预训练使用百科类文档类数据集，用来在领域数据集上增量预训练或二次预训练，期望能把领域知识注入给模型...

2025-08-11

【LLM】LLM的量化与微调方法

引言现代大语言模型（如 LLaMA、ChatGLM、Qwen）动辄拥有数十亿甚至上万亿参数。以 FP16 精度存储时：模型规模显存占用 7B 参数 ~14 GB 13B 参数 ~26 GB 70B 参数 ~140 GB 这意味着多数人无法在消费级显卡（如 RTX 3090/4090，24GB）上加载完整模型，并且推理延迟高，难以部署到边缘设备量化（Quantization）就是解决这一问题的关键技术：通过降低模型权重的精度（如从 16 位压缩到 4 位），大幅减少模型体积和显存需求。模型量化的概念量化是将高精度数值（如 FP32/FP16）转换为低精度表示（如 INT8、INT4）的过程。常见量化方式对比精度每参数位数压缩比（相比 FP32）显存需求（以7B 模型为例） FP32 32 bit 1x 28 GB FP16 16 bit 2x 14 GB INT8 8 bit 4x 7 GB INT4 4 bit 8x 3.5 GB 4-bit...