注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷】
文章目录
- GPT多模态大模型与AI Agent智能体系列八十
- MCP 协议:AI 时代的 “万能转接头”,从 “手动粘贴” 到 “万能接口”:MCP 协议如何重构 AI 工具调用规则?
- 一、MCP协议:AI时代的“万能转接头”
- 二、为什么需要MCP?从痛点到破局
- 1. Agent开发的“三座大山”
- 2. Function Call的“先天局限”
- 三、MCP是什么?重新定义AI与世界的交互
- 1. 核心定位:AI的“能力扩展协议”
- 2. 与Function Call的本质区别
- 3. 从“前后端分离”看MCP的价值
- 四、MCP如何工作?拆解核心架构与通信流程
- 1. 三大核心组件:Host、Client、Server
- 2. 动态通信:从“握手”到“调用”
- 3. SSE通信流程详解
- 五、如何使用MCP?从用户到开发者的全指南
- 1. 普通用户:零代码扩展AI能力
- 2. 开发者:快速搭建MCP Server
- 3. LLM如何“决定用哪个工具”?
- 六、MCP生态与未来:从“玩具”到“生产级”
- 1. 当下生态:从小众尝试到厂商入局
- 2. 未来方向:三大关键升级
- 3. 应用场景:从个人到企业的潜力
- 七、总结:MCP为何是AI工具调用的未来?
- 更多技术内容
- 总结
GPT多模态大模型与AI Agent智能体系列八十
MCP 协议:AI 时代的 “万能转接头”,从 “手动粘贴” 到 “万能接口”:MCP 协议如何重构 AI 工具调用规则?
一、MCP协议:AI时代的“万能转接头”
当你还在为让AI调用本地文件、查询实时天气而手动复制粘贴信息到提示词时,一种名为MCP的协议已经悄然改写了AI与外部世界交互的规则。
MCP(Model Context Protocol,模型上下文协议)是Anthropic(Claude母公司)在2024年11月提出的标准化协议,核心目标是让AI模型能以统一的方式调用外部工具、访问数据源,就像USB-C接口让不同设备能通过同一标准连接一样。它的出现并非偶然——而是AI从“对话助手”向“自主Agent”进化的必然结果。
二、为什么需要MCP?从痛点到破局
在MCP诞生前,AI与工具的交互长期存在三大痛点,让开发者和用户都备受困扰。
1. Agent开发的“三座大山”
- 耦合度高:工具开发者必须深入了解Agent内部实现,工具代码与Agent逻辑深度绑定,调试一次工具可能要修改整个Agent架构。
- 复用性差:同个“查询天气”工具,在OpenAI的function call里要按JSON-Schema格式写,在Google模型里又要适配另一种参数规范,跨语言复用更是天方夜谭。
- 生态碎片化:不同平台的工具如同“孤岛”,OpenAI的工具无法直接给Claude用,开发者被迫为每个模型重复开发工具。
2. Function Call的“先天局限”
为解决手动粘贴信息的问题,LLM平台曾推出function call(函数调用)功能,但它的短板明显:
- 平台锁定:OpenAI与Google的function call接口不兼容,切换模型就得重写代码。
- 静态僵化:工具定义是固定的,无法动态更新;交互是“一次性”的,难以支持复杂流程。
- 安全风险:调用外部工具时,敏感数据可能全程上传,隐私难以保障。
MCP的出现正是为了打破这些困局。它像一个“中间协议层”,让工具开发者专注于工具功能,Agent开发者专注于业务逻辑,两者通过标准化接口协作,彻底实现“工具分层”。
三、MCP是什么?重新定义AI与世界的交互
1. 核心定位:AI的“能力扩展协议”
MCP的本质是AI模型与外部资源交互的通用标准,它让AI能获取三类关键上下文:
- Tools(工具):可执行的功能(如查询天气、操作文件);
- Resources(资源):本地数据、数据库等数据源;
- Prompts(提示词):可复用的提示模板和工作流程。
无论你用的是Claude、GPT还是其他模型,只要支持MCP,就能调用同一套工具——这彻底终结了“模型换了,工具全废”的尴尬。
2. 与Function Call的本质区别
维度 | MCP | Function Call |
---|---|---|
定义 | 模型与外部集成的标准接口(含工具、资源、提示词) | 模型与外部系统的静态函数调用 |
协议 | 基于JSON-RPC,支持双向通信、动态更新 | 基于JSON-Schema,静态固定 |
调用方式 | Stdio(本地)/SSE(远程)/同进程调用 | 同进程函数调用 |
适用场景 | 动态、复杂的多工具协作流程 | 单一、静态的工具调用 |
工程化程度 | 高(标准化、可扩展) | 低(碎片化、平台依赖) |
简单说,Function Call是“点对点的单线电话”,而MCP是“支持多方通话、随时插话的智能总机”。
3. 从“前后端分离”看MCP的价值
早期Web开发中,前端代码与后端逻辑混在一起(如JSP、PHP),维护成本极高;直到AJAX、RESTful API推动“前后端分离”,才实现高效协作。
MCP正在AI领域复刻这一变革:
- 工具开发者=“后端”:专注工具功能,输出标准化接口;
- Agent开发者=“前端”:无需关心工具实现,直接组合工具构建应用。
这种分工让AI应用开发效率提升数倍——就像搭积木一样,开发者只需组合现成的MCP工具,就能快速搭建复杂Agent。
四、MCP如何工作?拆解核心架构与通信流程
1. 三大核心组件:Host、Client、Server
MCP采用“客户端-服务器”架构,三者协同完成工具调用:
- Host(主机):AI应用本身(如Claude Desktop、Cursor),负责接收用户问题并与LLM交互;
- Client(客户端):运行在Host内,负责与MCP Server通信,解析工具调用需求;
- Server(服务器):提供具体工具/资源,执行实际操作(如文件服务器、天气API服务器)。
举个例子:当你用Claude Desktop问“我桌面有哪些文件?”时:
- Host(Claude Desktop)接收问题并传给Claude模型;
- 模型判断需要调用文件工具,Host激活MCP Client;
- Client连接文件系统MCP Server,请求扫描桌面;
- Server执行操作并返回结果,Client将结果回传给模型;
- 模型整理结果,通过Host反馈给你。
2. 动态通信:从“握手”到“调用”
MCP的通信核心是动态服务发现与适配机制(Capability Exchange),类似“握手协议”:
- 能力交换:Client发送请求,Server返回自身支持的工具、资源列表(如“我能查天气,需要经纬度参数”);
- 确认连接:Client确认支持后,建立通信通道;
- 工具调用:Client根据LLM需求,调用Server的具体工具,获取结果。
通信方式有两种:
- Stdio:通过本地标准输入输出流通信,适合同一设备内的工具调用(如操作本地文件);
- SSE(Server-Sent Events):基于HTTP的远程通信,Server通过长连接推送结果,Client通过POST发送请求,适合跨设备调用(如查询远程天气API)。
3. SSE通信流程详解
以远程调用天气工具为例,SSE通信分四步:
- 建立连接:Client访问
http://xxx/sse
,Server返回专用消息端点(如/messages?session_id=xxx
); - 初始化:Client向端点发送初始化请求,确认协议版本、客户端信息;
- 工具调用:Client请求“获取工具列表”,Server返回可用工具(如
get_forecast
需经纬度);Client再调用get_forecast
,传入参数; - 结果返回:Server执行后,通过SSE推送天气数据,Client将结果回传给LLM。
整个过程是双向异步的,Server能实时推送更新,Client也能随时中断或调整调用——这比function call的“一次性请求”灵活得多。
五、如何使用MCP?从用户到开发者的全指南
1. 普通用户:零代码扩展AI能力
如果你用的是Claude Desktop、Zed等支持MCP的客户端,只需简单配置就能用上现成工具:
- 打开客户端的MCP设置,添加官方推荐的Server(如文件系统工具
filesystem
); - 直接向AI发指令,如“把这篇诗保存到桌面”,AI会自动请求权限并调用工具执行。
官方提供的Awesome MCP Servers
列表里,有文件操作、日历管理、代码运行等上百种工具,开箱即用。
2. 开发者:快速搭建MCP Server
要开发自定义工具(如BMI计算、企业内部数据查询),只需用MCP SDK(支持Python等语言)编写Server:
# 示例:计算BMI的MCP Server
from mcp.server.fastmcp import FastMCPmcp = FastMCP("BMI计算器")@mcp.tool() # 用装饰器定义工具
def calculate_bmi(weight_kg: float, height_m: float) -> float:"""根据体重(kg)和身高(m)计算BMI"""return weight_kg / (height_m **2)if __name__ == "__main__":mcp.run() # 启动Server,默认监听本地端口
启动后,Claude等客户端就能发现并调用这个工具,无需关心底层通信细节。
3. LLM如何“决定用哪个工具”?
MCP的巧妙之处在于,它让LLM通过提示工程自主选择工具:
- Client将所有工具的描述(名称、功能、参数)整理成文本,放入系统提示词;
- LLM分析用户问题,结合工具描述判断是否需要调用工具;
- 若需要,LLM输出标准化JSON(如
{"tool": "calculate_bmi", "arguments": {"weight_kg": 60, "height_m": 1.7}}
); - Client解析JSON,调用对应工具,将结果回传给LLM;
- LLM整理结果,生成自然语言回答。
例如,当你问“我60公斤,1.7米,BMI是多少?”,LLM会从工具描述中找到calculate_bmi
,调用后返回“你的BMI约为20.8,属于正常范围”。
六、MCP生态与未来:从“玩具”到“生产级”
1. 当下生态:从小众尝试到厂商入局
目前MCP生态还在快速成长,已有不少实用工具和支持平台:
- 客户端:Claude Desktop、Zed(IDE)、Cursor(AI编辑器)等;
- Server资源:文件系统工具、天气API、代码运行器等,可在
Awesome MCP Servers
获取; - 厂商支持:Cloudflare、Zapier等提供托管服务,接入一个端点即可使用一批工具。
对个人用户来说,用Claude调用本地文件、用Zed在编辑器里让AI运行代码,已经是触手可及的体验。
2. 未来方向:三大关键升级
根据MCP官方路线图,未来将聚焦三点:
-** 远程MCP支持 :引入鉴权、服务发现、无状态服务,适配K8S架构,满足生产级扩展需求;
- Agent能力强化 :支持更复杂的工作流,优化人机交互,让Agent能处理多步骤任务;
- 开发者生态扩张 **:吸引更多厂商参与,丰富工具库,比如地图厂商接入后,Agent能直接提供生活服务导航。
值得关注的是,MCP正计划用“Streamable HTTP”替代SSE,解决远程通信的延迟和状态管理问题,更适配云服务场景。
3. 应用场景:从个人到企业的潜力
-** 个人场景 :快速扩展AI能力,比如让Claude管理本地文件、自动生成周报,无需写代码;
- 开发场景 :用现成工具搭建复杂Agent,比如“邮件解析→数据查询→生成报告”的自动化流程;
- 企业场景 **:通过本地MCP Server调用内部数据库,避免敏感数据上传,同时标准化工具调用流程。
七、总结:MCP为何是AI工具调用的未来?
MCP的价值,本质是给AI与世界的交互定了“通用语言”。它解决了function call的平台锁定、工具碎片化问题,让AI从“封闭的黑盒”变成“开放的生态”。
对用户来说,它降低了使用门槛——无需技术背景,就能让AI调用各种工具;对开发者来说,它简化了开发流程——工具与Agent解耦,复用率大幅提升;对行业来说,它推动了标准化——不同模型、工具、平台能协同工作,加速AI应用落地。
从“手动粘贴信息”到“AI自主调用工具”,MCP正在改写AI的能力边界。或许在不久的将来,当你用AI处理任务时,根本不会在意它调用了哪个工具、用了哪个模型——因为MCP已经让这一切变得无缝而自然。
更多技术内容
更多技术内容可参见
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】。
更多的技术交流和探讨也欢迎加我个人微信chenjinglei66。
总结
此文章有对应的配套新书教材和视频:
【配套新书教材】
《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
新书特色:《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)是一本2025年清华大学出版社出版的图书,作者是陈敬雷,本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。
全书共8章,从大模型技术原理切入,逐步深入大模型训练及微调,还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体,从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面,本书提供了丰富的案例分析,如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人,以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用,也为读者提供了宝贵的实践经验。
本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读,也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统,既有理论知识的深入讲解,也有大量的实践案例和代码示例,能够帮助学生在掌握理论知识的同时,培养实际操作能力和解决问题的能力。通过阅读本书,读者将能够更好地理解大模型技术的前沿发展,并将其应用于实际工作中,推动人工智能技术的进步和创新。
【配套视频】
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】
视频特色: 前沿技术深度解析,把握行业脉搏
实战驱动,掌握大模型开发全流程
智能涌现与 AGI 前瞻,抢占技术高地
上一篇:《GPT多模态大模型与AI Agent智能体》系列一》大模型技术原理 - 大模型技术的起源、思想
下一篇:DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析:支撑万亿参数模型的幕后英雄