Qwen2.5-72B-Instruct-GPTQ-Int4部署教程:vLLM Token统计+成本核算接口

张开发
2026/4/10 21:55:33 15 分钟阅读

分享文章

Qwen2.5-72B-Instruct-GPTQ-Int4部署教程:vLLM Token统计+成本核算接口
Qwen2.5-72B-Instruct-GPTQ-Int4部署教程vLLM Token统计成本核算接口1. 模型简介Qwen2.5-72B-Instruct-GPTQ-Int4是Qwen大语言模型系列的最新版本具有72.7亿参数规模采用GPTQ 4-bit量化技术。这个指令调优模型在多个方面实现了显著提升知识量与能力提升编程和数学能力大幅增强文本处理能力支持长达128K tokens的上下文理解可生成最多8K tokens的文本结构化数据处理在表格理解和JSON生成方面表现优异多语言支持覆盖29种语言包括中文、英语等主要语种模型架构特点采用RoPE、SwiGLU、RMSNorm等技术80层网络结构64个查询注意力头和8个键值注意力头2. 环境准备与部署2.1 系统要求建议使用以下环境配置Ubuntu 20.04或更高版本NVIDIA GPU建议A100 80GB或更高CUDA 11.8Python 3.92.2 快速部署步骤克隆vLLM仓库git clone https://github.com/vllm-project/vllm.git cd vllm安装依赖pip install -e .下载模型权重wget [模型下载链接]启动vLLM服务python -m vllm.entrypoints.api_server \ --model Qwen/Qwen2.5-72B-Instruct-GPTQ-Int4 \ --quantization gptq \ --dtype half3. 服务验证与调用3.1 检查服务状态使用以下命令查看服务日志cat /root/workspace/llm.log成功部署后日志中会显示类似信息INFO: Uvicorn running on http://0.0.0.0:8000 INFO: Started server process [1234]3.2 使用Chainlit前端调用安装Chainlitpip install chainlit创建调用脚本app.pyimport chainlit as cl from openai import OpenAI client OpenAI(base_urlhttp://localhost:8000/v1, api_keynone) cl.on_message async def main(message: cl.Message): response client.chat.completions.create( modelQwen/Qwen2.5-72B-Instruct-GPTQ-Int4, messages[{role: user, content: message.content}] ) await cl.Message(contentresponse.choices[0].message.content).send()启动Chainlit服务chainlit run app.py4. Token统计与成本核算4.1 vLLM Token统计接口vLLM提供了内置的Token统计功能可以通过API获取import requests response requests.post( http://localhost:8000/v1/completions, json{ model: Qwen/Qwen2.5-72B-Instruct-GPTQ-Int4, prompt: 介绍一下Qwen2.5模型的特点, max_tokens: 100 } ) print(f输入Token数: {response.json()[usage][prompt_tokens]}) print(f输出Token数: {response.json()[usage][completion_tokens]})4.2 成本核算方法基于Token统计可以计算推理成本def calculate_cost(input_tokens, output_tokens): # 假设每百万输入Token成本为$0.5输出为$1.5 input_cost (input_tokens / 1_000_000) * 0.5 output_cost (output_tokens / 1_000_000) * 1.5 return input_cost output_cost # 示例计算 cost calculate_cost(150, 300) print(f预估成本: ${cost:.4f})5. 性能优化建议5.1 批处理请求vLLM支持批处理可以显著提高吞吐量responses [] for prompt in prompts: responses.append( client.chat.completions.create( modelQwen/Qwen2.5-72B-Instruct-GPTQ-Int4, messages[{role: user, content: prompt}], streamTrue ) )5.2 长文本处理优化对于长文本输入建议使用--max-model-len参数调整最大上下文长度启用--enable-prefix-caching缓存常见前缀6. 总结本教程详细介绍了Qwen2.5-72B-Instruct-GPTQ-Int4模型的部署流程和使用方法重点包括模型特点72B参数规模4-bit量化支持128K上下文部署步骤vLLM服务部署和Chainlit前端集成成本控制Token统计接口和成本核算方法性能优化批处理和长文本处理建议通过本教程您可以快速搭建一个高性能的Qwen2.5模型服务并有效监控和管理推理成本。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

更多文章