从LLM到A2A:AI工程师必备7大核心概念解析,掌握AI未来!

张开发
2026/4/8 23:30:39 15 分钟阅读

分享文章

从LLM到A2A:AI工程师必备7大核心概念解析,掌握AI未来!
从 LLM 到 A2AAI 工程师必须掌握的七个核心概念大模型 · API · Agent · MCP · Skill · A2A 全景解析你是否曾经困惑调用一个大模型 API 和「部署一个 Agent」到底有什么本质区别MCP 和 Skill 都是「能力扩展」为什么需要两套机制A2A 又在哪个层次上解决了什么问题第一章 全景总览这篇文章把七个核心概念放在同一张地图里。你可以把它理解为一个由内向外的分层结构•第 0 层 基础设施LLM大语言模型Large Language Model•第 1 层 访问接口OpenAI API、Claude API、Qwen API•第 2 层 能力扩展MCP模型上下文协议、Skill技能•第 3 层 自主执行Agent智能体•第 4 层 协作网络A2AAgent 间通信协议从中心向外每一层都依赖内层同时向外层提供更强的自主性和协作能力。理解这个层次关系是读懂本文的关键前提。第 0 层灰是 LLM展示了四个代表性模型及其核心特征。第 1 层蓝是三大 API标注了各自的关键差异点。第 2 层分左右两块左侧的 MCP青绿展示 Tools / Resources / Prompts 三类资源右侧的 Skill琥珀展示能力封装结构两者之间有「Skill 使用 MCP」的虚线标注。第 3 层紫是 Agent内部展示 Thought → Action → Observe 的 ReAct 循环底部有回环箭头表达迭代特性。第 4 层珊瑚红是 A2A 协作网络双向箭头表达 Agent 间的横向通信。第二章 LLM一切的基础▍概念与定义大语言模型Large Language ModelLLM是基于 Transformer 架构、在海量文本语料上预训练的神经网络模型。它的核心能力是给定一段文本上下文预测下一个 token词元的概率分布。这听起来很简单却涌现出了理解、推理、代码生成、多语言翻译等复杂能力。这种「涌现性」Emergent Ability是 LLM 区别于早期 NLP 模型的核心特征。▍核心原理直觉解释LLM 在预测「下一个词」时需要理解整句话甚至整篇文章的语义这迫使它学会了语言的深层结构。严格定义给定序列 x₁, x₂, …, xₙ模型最大化联合概率 P(x₁,…,xₙ) ∏P(xᵢ | x₁,…,xᵢ₋₁)。Transformer 的自注意力机制Self-Attention让每个 token 都能直接关注序列中任意位置的 token突破了 RNN 的长距离依赖瓶颈。▍典型代表•GPT-4oOpenAI闭源具备多模态文本、图像、音频能力•Claude 3.7Anthropic闭源强调安全对齐与长上下文200K tokens•Qwen3阿里云开源与闭源双轨中文能力突出支持本地部署•LLaMA 3Meta开源广泛用于本地推理和微调▍关键参数参数量目前主流大模型的参数量在 7B 到 1T 之间。参数量影响模型容量但不直接等于推理质量。推理质量更多取决于数据质量和对齐RLHF/DPO训练。上下文窗口Context Window模型单次能处理的 token 上限。GPT-4o 为 128KClaude 3.7 为 200KQwen3 最高 1M。窗口越大支持的对话轮次越多但推理成本呈二次方增长。注意上下文窗口大小 ≠ 模型「记忆力」。超出窗口的历史会被截断模型本身没有持久化记忆。第三章 三大 APIOpenAI · Claude · Qwen▍OpenAI API【定义与接口格式】OpenAI API 是访问 GPT 系列模型的 HTTP 接口。核心端点是 /v1/chat/completions采用 ChatMLChat Markup Language格式消息结构如下POST https://api.openai.com/v1/chat/completions { model: gpt-4o, // 指定模型版本 messages: [ {role: system, content: 你是一名工程师}, // 系统提示 {role: user, content: 解释 TCP 握手} // 用户输入 ], temperature: 0.7, // 随机性0确定性1高随机 max_tokens: 1024 // 最大输出长度 }返回结构中choices[0].message.content 是模型的文本回复。finish_reason 字段区分正常停止stop和截断length。【Function Calling工具调用】OpenAI 在 2023 年引入 Function Calling允许模型返回结构化的函数调用意图而非自由文本。这是构建 Agent 的关键机制之一。流程为请求中声明可用函数 → 模型返回函数名和参数 JSON → 调用方执行函数 → 把结果放回对话继续推理。▍Claude APIAnthropic【定义与接口格式】Claude API 提供对 Claude 系列模型的访问。核心端点是 /v1/messages格式与 OpenAI 相似但有差异system 字段独立于 messages 数组而不是作为数组中的一条消息。POST https://api.anthropic.com/v1/messages { model: claude-sonnet-4-6, // 当前最新 Sonnet 版本 max_tokens: 1024, system: 你是一名工程师, // 系统提示独立字段 messages: [ {role: user, content: 解释 TCP 握手} ] }Claude API 的工具调用格式与 OpenAI 类似但使用 tools 字段而不是 functions。Claude 在长上下文和安全对齐方面投入更多适合需要处理大量文档或对输出安全性要求高的场景。【Claude 独有特性】•200K token 上下文支持整本书级别的文档分析•Constitutional AI 对齐方法拒绝有害请求的逻辑更透明•支持 Artifacts结构化输出组件适合代码生成与文档生成▍Qwen API阿里云【定义与接口格式】Qwen API 通过阿里云百炼平台DashScope提供服务。接口兼容 OpenAI 格式可以直接使用 OpenAI SDK 并替换 base_url 和 api_key 接入。from openai import OpenAI client OpenAI( api_keyyour-dashscope-key, base_urlhttps://dashscope.aliyuncs.com/compatible-mode/v1 # 兼容层 )Qwen3 同时发布了开源版本7B / 14B / 32B / 72B / 235B-MoE可本地部署适合对数据隐私有严格要求的企业场景。【三大 API 核心区别对比】定价模型三者均按 token 计费输入/输出分开计价。Claude 的长上下文使用场景下成本可能更高。Qwen 在国内合规和低延迟方面有优势。•语言能力Qwen3 在中文评测上领先Claude 在英文长文理解上领先GPT-4o 在代码和多模态上领先•开源生态Qwen3 和 LLaMA 有开源版本OpenAI 和 Claude 均为闭源•合规性Qwen 通过国内安全审查适合政务和金融场景三套 API 的认证方式均为 HTTP Header 传 Bearer Token但 Anthropic 额外要求 anthropic-version 版本头。第四章 Agent从问答到自主执行▍概念与定义Agent智能体是一个能够感知环境、规划行动、调用工具并迭代执行任务的 AI 系统。它不是简单地「调用 LLM 一次」而是通过多轮推理和工具使用自主完成复杂任务。工程师视角的准确定义Agent LLM 工具集合 循环执行框架 可选记忆模块。▍核心原理ReAct 循环目前最广泛使用的 Agent 框架是 ReActReasoning Acting其核心是一个思考-行动-观察的循环•Thought思考LLM 分析当前状态决定下一步行动•Action行动调用工具搜索、代码执行、数据库查询等•Observation观察获取工具返回结果放入上下文•重复上述步骤直到任务完成或达到最大步数这个循环的终止条件是判断任务已完成而不是固定步数。因此需要设置最大步数如 20 步作为保护机制防止无限循环。▍工程实现要点系统提示System Prompt决定了 Agent 的行为边界。生产环境中系统提示通常包含可用工具列表及其描述、输出格式约束、安全规则不得调用哪些 API、以及任务终止条件。工具注册格式遵循 JSON Schema。每个工具需要声明名称、描述、参数类型和必填字段。描述的质量直接影响模型是否选择正确工具。常见错误工具描述过于模糊如「搜索工具」导致模型在不需要时也调用它。描述应说明「什么场景用什么场景不用」。第五章 MCP标准化工具接入协议▍概念与定义MCPModel Context Protocol模型上下文协议是 Anthropic 于 2024 年 11 月发布的开放标准协议用于规范 AI 模型与外部工具/数据源之间的通信方式。在 MCP 出现之前每个 Agent 框架LangChain、AutoGPT 等都有各自的工具接入方式互不兼容。MCP 试图成为这个领域的「USB 接口」——一套标准适配所有。▍核心原理MCP 采用 Client-Server 架构。MCP Server 封装工具或数据源MCP Client通常是 Agent 宿主连接 Server 并代理模型的工具调用。MCP 定义了三类资源•Tools工具模型可主动调用的函数如「发送邮件」「执行 SQL 查询」•Resources资源模型可读取的数据如「文件系统」「数据库记录」•Prompts提示模板预定义的提示片段供用户或模型复用通信格式基于 JSON-RPC 2.0传输层支持 stdio本地进程间通信和 SSEHTTP 流式事件适合远程服务。▍工程格式示例// MCP Server 注册工具TypeScript SDK server.setRequestHandler(ListToolsRequestSchema, async () ({ tools: [{ name: query_database, // 工具唯一名称 description: 执行只读 SQL 查询返回 JSON 格式结果, inputSchema: { // JSON Schema 定义参数 type: object, properties: { sql: { type: string, description: SELECT 语句 } }, required: [sql] } }] }));▍MCP 与直接工具调用的区别直接工具调用如 OpenAI Function Calling是模型与工具的紧耦合工具定义写在请求体里换一个 Agent 框架就需要重写。MCP 是松耦合工具封装在独立的 Server 里任何支持 MCP 协议的 Client 都可以接入。2024 年底Cursor、Claude Desktop、Windsurf 等主流工具已支持 MCP。截至 2025 年初已有超过 1000 个社区维护的 MCP Server。第六章 SkillAgent 的可复用能力单元▍概念与定义Skill技能是 Agent 框架中对「可复用能力模块」的抽象封装。它比单个工具调用更高层一个 Skill 通常封装了完成某类子任务所需的提示词、工具组合和执行逻辑。类比如果 MCP 工具是「函数」Skill 就是「类方法」——它包含状态管理、错误处理和特定领域的领域知识。▍Skill 的典型结构•名称与描述供 Agent 调度层判断何时使用此 Skill•输入/输出 Schema明确参数类型便于 Agent 编排•执行逻辑可以是单次 LLM 调用、工具链、或子 Agent•上下文需求声明需要哪些权限如读取文件系统、访问网络▍Skill 与 MCP 的关系两者不在同一层次不存在替代关系。MCP 解决「工具如何接入」的标准化问题Skill 解决「工具如何组合成可复用能力」的抽象问题。实际架构中一个 Skill 的实现往往依赖多个 MCP 工具。例如「代码审查 Skill」可能需要调用代码文件读取MCP Resource 静态分析工具MCP Tool 生成报告LLM 调用三个组件。Skill 是框架级概念不同框架AutoGen、CrewAI、LangGraph对 Skill 的命名和实现方式有差异。阅读具体框架文档时注意概念对应关系。第七章 A2AAgent 间的通信协议▍概念与定义A2AAgent-to-Agent Protocol智能体间通信协议是 Google 于 2025 年 4 月发布的开放标准定义了不同 Agent 之间如何安全、互操作地通信与协作。它解决了一个现实问题当多个 Agent 由不同团队或不同供应商构建时如何让它们之间传递任务、共享状态、协商能力而不依赖某个特定的框架或平台。▍核心原理A2A 的核心机制围绕三个概念•Agent Card能力名片每个 Agent 通过 JSON 格式声明自己能做什么、接受什么输入、返回什么输出。类似服务发现中的 Service Registry。•Task任务A2A 的基本交互单元。一个 Task 包含任务描述、输入数据、状态pending / running / completed / failed和输出结果。•Message Stream消息流基于 SSE 的流式通信允许 Agent 在任务执行过程中实时回传中间状态而不必等到任务完全结束。A2A 使用标准 HTTP/JSON 通信不绑定任何编程语言或框架这是它与 LangChain 等框架内置的 Agent 编排机制的本质区别。▍A2A 与 MCP 的定位区别这是最容易混淆的两对概念。一句话区分MCP 是 Agent 与工具/数据源之间的协议纵向A2A 是 Agent 与 Agent 之间的协议横向。•MCP模型 → 工具数据库、文件系统、API•A2AAgent A → Agent B跨团队、跨组织的 Agent 调用两者可以在同一系统中并存Agent A 通过 MCP 调用本地工具同时通过 A2A 把子任务委派给 Agent B。A2A 发布时间较新2025 年生产级实现仍在演进中。评估是否采用时需关注所用框架的支持状态。第八章 概念关系与架构全图▍层次架构从基础设施到协作网络完整的分层视图如下▍数据流示例一个 Agent 处理「分析竞品报告」任务用户发起任务 → Agent 接收第 3 层→ Agent 调用「文档读取 Skill」→ Skill 通过 MCP 读取 PDF 文件第 2 层→ Agent 调用「总结 Skill」→ Skill 调用 Claude API第 1 层→ Claude 模型推理第 0 层→ 结果返回。如果报告分析需要市场数据Agent 可通过 A2A 委派给「数据分析 Agent」第 4 层。第九章 总结▍一句话核心结论LLM 是能力来源API 是访问接口MCP 是工具标准Skill 是能力封装Agent 是执行主体A2A 是协作协议——七个概念各司其职共同构成现代 AI 应用的技术栈。▍局限性与注意事项•MCP 和 A2A 均为 2024–2025 年新发布规范社区工具和最佳实践仍在快速演进•多 Agent 系统的可观测性日志、追踪、调试是当前工程落地的最大挑战•LLM 的不确定性幻觉、随机性在 Agent 多跳推理链中会被放大需要严格的输入/输出校验•成本控制Agent 循环中每一步都消耗 token生产环境须做 token budget 管理▍延伸学习方向•LLM 推理优化量化Quantization、KV Cache、Speculative Decoding•Agent 可靠性工具调用失败重试策略、幂等设计•多 Agent 编排框架LangGraph有向图编排、AutoGen多 Agent 对话、CrewAI角色驱动•安全与权限Agent 的最小权限原则、工具调用审计▍思考题如果你的 Agent 需要同时接入 10 个外部系统数据库、Slack、GitHub、日历…你会优先采用 MCP 统一接入还是为每个系统写独立的 Function Calling 工具两种方案在维护成本、灵活性和性能上的 trade-off 各是什么假如你从2026年开始学大模型按这个步骤走准能稳步进阶。接下来告诉你一条最快的邪修路线3个月即可成为模型大师薪资直接起飞。阶段1:大模型基础阶段2:RAG应用开发工程阶段3:大模型Agent应用架构阶段4:大模型微调与私有化部署配套文档资源全套AI 大模型 学习资料朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】配套文档资源全套AI 大模型 学习资料朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】

更多文章