大模型接入从入门到实战:API/SDK/本地部署/Claude Code 路由全解析

张开发
2026/4/15 1:59:10 15 分钟阅读

分享文章

大模型接入从入门到实战:API/SDK/本地部署/Claude Code 路由全解析
文章目录一、什么是大模型二、API接入三、SDK接入四、本地部署Ollama五、Claude Code 接入六、其他接入方式前言本文面向刚开始接触大模型开发的小伙伴不需要深厚的算法基础只需具备基本的编程常识即可阅读。全文分为五个部分从大模型的基本概念出发依次介绍如何通过 API、SDK、本地部署Ollama以及 Claude Code 路由等方式将大模型接入自己的项目。读完本文你将对大模型的接入方式有一个完整的横向认识并能根据自己的需求选择合适的方案。一、什么是大模型模型是从数据中学习规律的“函数”或“程序”一个模型通常只能做特定的任务在模型训练中不一定输出结果都是对的需要人工参与也就是数据标注员。大模型又称⼤语⾔模型Large Language ModelLLM指基于⼤规模神经⽹络参数规模通常达数⼗亿⾄万亿级别例如GPT-3包含1750亿参数通过⾃监督或半监督⽅式对海量⽂本进⾏训练的语⾔模型。参数参数是模型从数据中学习到的“知识要点”或“内部规则”参数越大判断的越精确训练的复杂度也越高。神经网络是模仿人的大脑的工作方式由多个神经元构成每个神经元处理一点点信息整个神经网络就能处理复杂的任务。简单说神经⽹络就是⼀个通过数据训练出来的、由⼤量参数组成的复杂决策系统。监督学习想象在教一个小孩认动物。拿着一张猫的图片告诉他这是猫拿着狗的图片说这是狗。每张图片都有人告诉他答案。需要投入大量的人力。这就是监督学习——每一条数据都有人工标注好的答案。半监督学习需要少量人工标注作为起点其余靠模型自己补充。这次只告诉他几十张图片的答案剩下几千张没有标注。模型会先从这少量的已知答案中学习规律再去推断那些没有标注的数据大概是什么。自监督学习不需要任何人来标注数据自己就能给自己出题。模型在做了几千亿次这样的完形填空之后慢慢就理解了语言的规律、逻辑甚至常识。生成型模型给它一段话它给你生成一段话回来。就像你问一个人帮我写封邮件他思考之后写出来给你。它的核心能力是创造内容而且每次输出的都是人类能直接阅读和使用的东西。我们平时在web端或移动端app使用的AI就是生成型模型。嵌入型模型把文字变成一串数字向量比如几百个到几千个数字组成的列表。这串数字人类看不懂是给计算机看的。通常用来搜索语义相似的数据RAG。二、API接入API调用通常都是使用HTTP请求把信息放在Json里通过POST发送。再接收Json格式的回复。这里我们使用Apifox来做测试Apifox 是一款集 API 设计、调试、测试于一体的工具支持 HTTP 请求调试非常适合在接入大模型前进行接口验证。下面以DeepSeek为例进行测试ChatGPT、Gemini、Claude等等同理。DeepSeek放平台https://platform.deepseek.com/api_keysAPI接入说明文档https://api-docs.deepseek.com/zh-cn/正文字段响应结果三、SDK接入官方网示例# Please install OpenAI SDK first: pip3 install openaiimportosfromopenaiimportOpenAI clientOpenAI(api_keyos.environ.get(DEEPSEEK_API_KEY),base_urlhttps://api.deepseek.com)responseclient.chat.completions.create(modeldeepseek-chat,messages[{role:system,content:You are a helpful assistant},{role:user,content:Hello},],streamFalse)print(response.choices[0].message.content)示例importosfromopenaiimportOpenAI clientOpenAI(base_urlhttps://api.deepseek.com,api_keyos.environ.get(DEEPSEEK_API_KEY))responseclient.chat.completions.create(modeldeepseek-chat,messages[{role:user,content:你是谁}],streamFalse)print(response.choices[0].message.content)四、本地部署Ollama如果你觉得调用API太烧钱或者想对模型进行一些微调那么可以找一些开源的模型下载下来部署到本地。下面是常用大模型开源社区Hugging Facehttps://huggingface.co/魔塔社区https://modelscope.cn/modelsOllama 是目前最流行的本地大模型运行工具支持 Llama、Mistral、Qwen、Gemma 等主流开源模型一条命令即可完成部署。注意在本地部署时需要考虑电脑性能能不能跑得通。注意即使模型开源若通过运营商提供的 API 调用消耗的是对方算力需要付费。安装 OllamaLinux / macOScurl-fsSLhttps://ollama.com/install.sh|shWindows前往 https://ollama.com/download 下载.exe安装包。安装完成后 Ollama 会作为系统服务自动启动并在任务栏托盘显示图标。Windows 用户安装后无需手动执行ollama serve服务已在后台运行。拉取并运行模型# 拉取并运行模型ollama run模型名称常用管理命令# 查看已下载的模型列表ollama list# 查看正在运行的模型ollamaps# 删除模型ollamarm模型名称# 查看模型详情ollama show模型名称模型下载下来占用空间是很大的如果你不想让你的C盘炸请关注一下存储路径平台默认存储路径Linux~/.ollama/modelsmacOS~/.ollama/modelsWindowsC:\Users\用户名\.ollama\modelsWindows 修改模型存储路径可选打开「系统属性」→「环境变量」新建系统变量变量名OLLAMA_MODELS值填入目标路径例如D:\ollama\models重启 Ollama 服务生效Linux / macOS 修改模型存储路径exportOLLAMA_MODELS/data/ollama/models ollama serve或者在Ollama应用的设置中更改存储路径。配置 Ollama 允许外部访问默认情况下 Ollama 仅监听本机127.0.0.1如需局域网访问需额外配置。Linux / macOS临时生效OLLAMA_HOST0.0.0.0 ollama serveLinux永久生效systemdsudosystemctl edit ollama.service# 在弹出的编辑器中 [Service] 段下添加# EnvironmentOLLAMA_HOST0.0.0.0sudosystemctl daemon-reloadsudosystemctl restart ollamaWindows永久生效打开「系统属性」→「环境变量」新建系统变量变量名OLLAMA_HOST值0.0.0.0在任务栏托盘重启 Ollama 服务Ollama 服务接口Ollama 启动后默认在http://localhost:11434提供服务兼容 OpenAI API 格式接口方法说明/api/generatePOST文本生成Ollama 原生格式/api/chatPOST多轮对话Ollama 原生格式/v1/chat/completionsPOSTOpenAI 兼容接口/v1/modelsGET获取模型列表使用 Modelfile 自定义模型FROM qwen2.5:7b SYSTEM 你是一个专业的代码助手擅长 Python、JavaScript 和 Go 语言开发。 请用简洁清晰的中文回答问题。 PARAMETER temperature 0.7 PARAMETER top_p 0.9 PARAMETER num_ctx 4096Linux / macOSollama create my-coder-f./Modelfile ollama run my-coderWindowsCMDollama create my-coder -f .\Modelfile ollama run my-coder五、Claude Code 接入claude-code-router是Github的一个开源项目可以将其他模型接入到Claude Code上。相当与给其他模型套一个Claude Code的壳获取了Claude Code 整套工程能力。你的代码任务 ↓ Claude Code任务理解、工具调用、上下文管理 ↓ claude-code-router智能路由 ↓ ┌─────────────┬──────────────┬─────────────┐ DeepSeek-V3 Gemini 2.5 Qwen-Max ... 便宜 长上下文 中文强操作步骤下载claude codenpminstall-ganthropic-ai/claude-code下载claude code routernpminstall-gmusistudio/claude-code-router创建并配置文件~/.claude-code-router/config.json即在家目录下创建.claude-code-router文件夹在该文件夹下再创建config.json注意如果需要使用skills需将skills文件夹放在.claude-code-router文件夹下。config.json的配置示例{Providers:[{name:grok,api_base_url:xxxxxx,api_key:your-key,models:[grok-4.20-0309]},{name:ollama,api_base_url:http://localhost:11434/v1/chat/completions,api_key:ollama,models:[your-model]}],Router:{default:grok,grok-4.20-0309}}以上是最简洁的配置相关的字段也是必须要有的Providers里可以配置多个模型包括本地和远程模型。效果示例注意ollama配置的本地模型可选其中api_key直接填ollama即可。官方示例{APIKEY:your-secret-key,PROXY_URL:http://127.0.0.1:7890,LOG:true,API_TIMEOUT_MS:600000,NON_INTERACTIVE_MODE:false,Providers:[{name:openrouter,api_base_url:https://openrouter.ai/api/v1/chat/completions,api_key:sk-xxx,models:[google/gemini-2.5-pro-preview,anthropic/claude-sonnet-4,anthropic/claude-3.5-sonnet,anthropic/claude-3.7-sonnet:thinking],transformer:{use:[openrouter]}},{name:deepseek,api_base_url:https://api.deepseek.com/chat/completions,api_key:sk-xxx,models:[deepseek-chat,deepseek-reasoner],transformer:{use:[deepseek],deepseek-chat:{use:[tooluse]}}},{name:ollama,api_base_url:http://localhost:11434/v1/chat/completions,api_key:ollama,models:[qwen2.5-coder:latest]},{name:gemini,api_base_url:https://generativelanguage.googleapis.com/v1beta/models/,api_key:sk-xxx,models:[gemini-2.5-flash,gemini-2.5-pro],transformer:{use:[gemini]}},{name:volcengine,api_base_url:https://ark.cn-beijing.volces.com/api/v3/chat/completions,api_key:sk-xxx,models:[deepseek-v3-250324,deepseek-r1-250528],transformer:{use:[deepseek]}},{name:modelscope,api_base_url:https://api-inference.modelscope.cn/v1/chat/completions,api_key:,models:[Qwen/Qwen3-Coder-480B-A35B-Instruct,Qwen/Qwen3-235B-A22B-Thinking-2507],transformer:{use:[[maxtoken,{max_tokens:65536}],enhancetool],Qwen/Qwen3-235B-A22B-Thinking-2507:{use:[reasoning]}}},{name:dashscope,api_base_url:https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions,api_key:,models:[qwen3-coder-plus],transformer:{use:[[maxtoken,{max_tokens:65536}],enhancetool]}},{name:aihubmix,api_base_url:https://aihubmix.com/v1/chat/completions,api_key:sk-,models:[Z/glm-4.5,claude-opus-4-20250514,gemini-2.5-pro]}],Router:{default:deepseek,deepseek-chat,background:ollama,qwen2.5-coder:latest,think:deepseek,deepseek-reasoner,longContext:openrouter,google/gemini-2.5-pro-preview,longContextThreshold:60000,webSearch:gemini,gemini-2.5-flash}}APIKEY可选设置访问 router 本身的密钥客户端需在 Authorization 或 x-api-key 头中携带HOST可选服务绑定地址。若未设置APIKEY强制锁定为127.0.0.1PROXY_URL可选为 API 请求设置代理如http://127.0.0.1:7890LOG可选是否启用日志true/falseProviders配置各模型providerRouter设置路由规则default字段指定默认模型注意每次配置结束后使用ccr restart重启保证配置生效。ccr model选择模型ccr code启动claude code六、其他接入方式除了以上这些接入方式还有LangChain和LangGraph等框架可供选择:LangChain封装了「调模型→处理结果→调工具→再调模型」这个循环的框架你写应用逻辑它帮你管模型调用、Prompt模板、RAG、记忆等。适合快速搭建问答机器人、文档摘要、RAG检索等相对线性的应用场景。LangGraphLangChain的升级版把流程从线性链变成图结构节点可以循环、分支、多Agent并行。适合需要多步推理、条件判断或多个 Agent 协作的复杂任务比如自动化研究助手、代码审查流水线等。关于LangChain和LangGraph的介绍和使用请期待后文。非常感谢您能耐心读完这篇文章。倘若您从中有所收获还望多多支持呀

更多文章