Qwen3.5-2B部署教程:Ubuntu 22.04 + torch28环境零报错安装全流程

张开发
2026/4/3 9:36:23 15 分钟阅读
Qwen3.5-2B部署教程:Ubuntu 22.04 + torch28环境零报错安装全流程
Qwen3.5-2B部署教程Ubuntu 22.04 torch28环境零报错安装全流程1. 前言为什么选择Qwen3.5-2BQwen3.5-2B是当前轻量化多模态基础模型的优秀代表作为Qwen3.5系列的小参数版本20亿参数它在保持不错性能的同时显著降低了部署门槛和资源消耗。这个模型特别适合资源受限环境边缘设备、个人开发机等快速原型开发需要快速验证AI能力的场景私有化部署需求遵循Apache 2.0协议支持免费商用和二次开发本教程将带你完成从零开始的完整部署过程确保在Ubuntu 22.04系统上一次性成功运行Qwen3.5-2B模型。2. 环境准备2.1 硬件要求配置项最低要求推荐配置CPU4核8核内存8GB16GBGPU无NVIDIA显卡(显存≥8GB)存储20GB50GB2.2 软件依赖确保系统已安装以下基础组件sudo apt update sudo apt install -y wget git python3 python3-pip python3-venv3. 安装步骤详解3.1 创建Python虚拟环境python3 -m venv qwen-env source qwen-env/bin/activate3.2 安装PyTorch 2.8根据你的CUDA版本选择安装命令无GPU可去掉cu121部分pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121验证安装import torch print(torch.__version__) # 应显示2.8.x print(torch.cuda.is_available()) # GPU可用性检查3.3 安装Qwen3.5-2B依赖pip install transformers4.37.0 accelerate sentencepiece tiktoken gradio4. 模型下载与加载4.1 下载模型权重推荐使用huggingface官方源from transformers import AutoModelForCausalLM, AutoTokenizer model_name Qwen/Qwen1.5-2B tokenizer AutoTokenizer.from_pretrained(model_name) model AutoModelForCausalLM.from_pretrained(model_name, device_mapauto)4.2 本地加载验证创建简单的测试脚本test_load.pyfrom transformers import AutoModelForCausalLM, AutoTokenizer model AutoModelForCausalLM.from_pretrained(./Qwen1.5-2B) tokenizer AutoTokenizer.from_pretrained(./Qwen1.5-2B) input_text 你好介绍一下你自己 inputs tokenizer(input_text, return_tensorspt).to(cuda) outputs model.generate(**inputs) print(tokenizer.decode(outputs[0], skip_special_tokensTrue))5. 部署Web界面5.1 创建Gradio应用保存为app.pyimport gradio as gr from transformers import AutoModelForCausalLM, AutoTokenizer model AutoModelForCausalLM.from_pretrained(Qwen/Qwen1.5-2B, device_mapauto) tokenizer AutoTokenizer.from_pretrained(Qwen/Qwen1.5-2B) def respond(message, history): inputs tokenizer(message, return_tensorspt).to(cuda) outputs model.generate(**inputs, max_new_tokens512) return tokenizer.decode(outputs[0], skip_special_tokensTrue) demo gr.ChatInterface(respond) demo.launch(server_name0.0.0.0)5.2 启动服务python app.py服务启动后可以通过以下地址访问本地访问: http://localhost:7860网络访问: http://你的服务器IP:78606. 常见问题解决6.1 CUDA内存不足如果遇到CUDA内存错误尝试以下方案减少max_new_tokens参数值使用量化版本model AutoModelForCausalLM.from_pretrained(Qwen/Qwen1.5-2B, device_mapauto, torch_dtypetorch.float16)6.2 下载速度慢可以设置镜像源加速下载export HF_ENDPOINThttps://hf-mirror.com6.3 端口冲突如需更改端口修改启动命令python app.py --server_port 80807. 进阶配置7.1 使用Supervisor管理进程安装Supervisorsudo apt install supervisor创建配置文件/etc/supervisor/conf.d/qwen.conf[program:qwen] command/path/to/qwen-env/bin/python /path/to/app.py directory/path/to/your/project useryour_username autostarttrue autorestarttrue stderr_logfile/var/log/qwen.err.log stdout_logfile/var/log/qwen.out.log启用配置sudo supervisorctl reread sudo supervisorctl update sudo supervisorctl start qwen7.2 性能优化建议启用Flash Attentionpip install flash-attn --no-build-isolation使用vLLM加速推理pip install vllm8. 总结通过本教程你已经完成了Ubuntu 22.04系统环境准备PyTorch 2.8和必要依赖的安装Qwen3.5-2B模型的下载与加载验证基于Gradio的Web界面部署常见问题的解决方案生产环境下的进程管理和性能优化建议现在你可以开始体验Qwen3.5-2B的强大能力了这个轻量级模型特别适合本地开发测试边缘设备部署快速原型验证私有化商业应用获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

更多文章