注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
GPT多模态大模型与AI Agent智能体书籍本章配套视频课程【陈敬雷】
文章目录
- GPT多模态大模型与AI Agent智能体系列十五
- DeepSeek 微调实践:DeepSeek-R1 大模型基于 MS-Swift 框架部署 / 推理 / 微调实践大全
- 一、引言
- 二、MS - Swift框架简介
- 三、DeepSeek - R1模型简介
- 四、DeepSeek - R1部署实践
- 4.1 环境准备
- 4.2 安装swift
- 4.3 vllm加速
- 4.4 模型下载
- 4.5 模型部署
- 五、DeepSeek - R1推理实践
- 六、DeepSeek - R1微调实践
- 6.1 数据集准备
- 6.2 模型微调训练
- 6.3 推理训练后权重文件
- 6.4 LoRA合并&推理训练后的权重文件
- 七、性能优化与评估
- 7.1 deepseek硬件优化
- 7.2 推理性能优化
- 7.3 微调性能优化
- 7.4 性能评估
- 更多技术内容
- 总结
GPT多模态大模型与AI Agent智能体系列十五
DeepSeek 微调实践:DeepSeek-R1 大模型基于 MS-Swift 框架部署 / 推理 / 微调实践大全
一、引言
随着大语言模型(LLM)在自然语言处理(NLP)领域的广泛应用,如何高效部署、推理和微调这些模型成为了一个重要的研究方向。DeepSeek - R1作为一款在推理能力方面表现突出的大型语言模型,凭借其独特的架构设计与先进的训练技术,在各类推理任务中脱颖而出。而MS - Swift框架则为大模型的高效部署提供了全面且强大的支持,两者结合,为开发者和研究人员提供了极具潜力的技术方案。本文将深入且细致地阐述基于MS - Swift框架的DeepSeek - R1模型在部署、推理和微调方面的实践操作,帮助大家快速掌握并熟练运用这一技术组合,从而在自然语言处理相关项目中充分发挥其优势。
二、MS - Swift框架简介
MS - Swift是一款专为大模型部署而精心打造的高效框架,具备出色的兼容性与丰富的功能特性。在模型类型支持上,无论是专注于文本处理的纯文本模型,还是融合文本、图像、音频等多种信息模态的多模态模型,亦或是擅长文本序列分类任务的序列分类模型,MS - Swift均能为其提供适配的部署环境。另外在功能层面,MS - Swift框架提供了基于Gradio的Web UI。Gradio作为开源的界面构建工具,能够以直观、便捷的方式搭建起用户与模型交互的可视化界面,即便非专业开发人员也能轻松上手,通过简单操作与模型进行对话、输入指令等。
三、DeepSeek - R1模型简介
DeepSeek - R1是一款专为提升推理能力而设计的大型语言模型。它在自然语言处理领域,尤其是复杂推理任务中表现出色,这得益于其独特的训练方式和优化策略。DeepSeek - R1采用了强化学习技术,通过与环境的交互不断优化模型的推理能力,使其能够在面对复杂的逻辑推理和多步骤问题时,生成准确且连贯的答案。此外,为了进一步提升模型的实用性和效率,DeepSeek - R1还结合了蒸馏技术,将大型模型的知识和能力迁移到更小的模型中,从而在保持推理性能的同时,显著降低了资源消耗。
DeepSeek - R1提供了多种蒸馏版本,以满足不同用户的需求。具体信息如下:
[此处插入各蒸馏版本相关参数、性能特点等图片描述]
DeepSeek - R1 - Distill - Qwen - 7B是一款在资源受限环境下具有突出优势的蒸馏模型。它既不像一些小型模型那样对硬件资源要求极低但推理性能有限,也不像大型模型那样对硬件资源需求较高但能在复杂场景中展现卓越的推理能力。它以适中的参数规模,在保持较为出色的推理性能的同时,能很好地适应普通个人电脑、小型服务器等资源受限的设备,为这些设备提供了高效推理的解决方案,是平衡资源与性能的最佳选择,能够满足大多数对推理效率有一定要求且受限于硬件资源的应用场景。而其他DeepSeek - R1 - Distill - Qwen - 14B和DeepSeek - R1 - Distill - Qwen - 32B等更大参数的蒸馏模型,在推理能力上表现更出色,更适合对性能要求较高的复杂场景。
四、DeepSeek - R1部署实践
4.1 环境准备
在部署DeepSeek - R1模型之前,需要准备合适的硬件和软件环境:
操作系统选用Ubuntu 22.04,其稳定性和丰富的软件资源,为AI开发提供了良好的基础。Python版本选择3.10,它在性能和兼容性上表现出色,广泛应用于各类AI项目。同时,安装PyTorch 2.1.2,作为深度学习的核心框架,PyTorch为模型的运行提供了高效的计算库和灵活的编程接口。此外,还需安装Cuda 11.8,它能充分发挥NVIDIA GPU的并行计算能力,加速模型的训练与推理过程。
4.2 安装swift
# pip install git+https://github.com/modelscope/ms - swift.git
git clone https://github.com/modelscope/ms - swift.git
cd ms - swift
pip install -e.
下载完成如下:[此处插入下载完成后的相关截图描述]
4.3 vllm加速
vLLM是一个高性能、灵活且易于部署的大语言模型推理框架,适用于需要高效处理大模型的场景。它通过优化的内存管理和高效的调度算法,显著提升了推理效率
# 临时指定清华源安装(推荐)
pip install vllm -i https://pypi.tuna.tsinghua.edu.cn/simple
# 临时指定阿里源安装(备用)pip install vllm -i https://mirrors.aliyun.com/pypi/simple
安装完成如下:[此处插入安装完成后的相关截图描述]
4.4 模型下载
DeepSeek - R1的蒸馏版本可以通过modelscope或者Hugging Face下载。以下以DeepSeek - R1 - Distill - Qwen - 7B为例:
使用modelscope中的snapshot_download函数下载模型(提前安装modelscope :pip install modelscope)。第一个参数为模型名称,参数cache_dir用于指定模型的下载路径。在/root/autodl - tmp路径下新建download.ipynb文件,并在其中输入以下内容:
from modelscope import snapshot_download
model_dir = snapshot_download('deepseek - ai/DeepSeek - R1 - Distill - Qwen - 7B', cache_dir='/root/autodl - tmp', revision='master')
运行代码执行下载,如下:[此处插入模型下载过程及完成后的截图描述]
4.5 模型部署
使用MS - Swift框架,可以通过以下命令启动模型服务:
CUDA_VISIBLE_DEVICES=0 swift deploy \--model /root/autodl - tmp/deepseek - ai/DeepSeek - R1 - Distill - Qwen - 7B \--infer_backend vllm
模型部署启动成功如下:[此处插入模型部署成功后的相关截图描述]
服务启动后,可以通过HTTP API访问模型。
我们可以使用cli命令脚本调用模型服务,在终端中输入以下命令:
curl http://localhost:8000/v1/chat/completions \
-H "Content - Type: application/json" \
-d '{
"model": "DeepSeek - R1 - Distill - Qwen - 7B",
"messages": [{"role": "user", "content": "用最精炼的语言介绍一下AI大模型"}],
"temperature": 0
}'
模型API返回如下:
{"model":"DeepSeek - R1 - Distill - Qwen - 7B","choices":[{"index":0,"message":{"role":"assistant","content":"<think>\n好的,我现在要介绍AI大模型。首先,我需要明确什么是AI大模型。AI大模型通常指的是像GPT、BERT这样的大型预训练模型,它们通过大量数据训练,能够处理复杂的自然语言任务。\n\n接下来,我应该解释这些模型的特点,比如它们的规模大、参数多,能够处理多种语言和任务。然后,说明它们的应用领域,比如文本生成、信息检索、对话系统等。\n\n最后,要提到这些模型对社会的积极影响,比如推动创新、提高效率,同时也要注意潜在的挑战,如隐私和伦理问题。\n\n现在,把这些点组织成一个连贯的介绍,语言要简洁明了,适合快速理解。\n</think>\n\nAI大模型是指经过大规模预训练的高级人工智能模型,具备处理复杂语言任务的能力,广泛应用于文本生成、信息检索和对话系统等领域,推动创新和效率提升,同时需注意隐私和伦理挑战。","tool_calls":null},"finish_reason":"stop","logprobs":null}],"usage":{"prompt_tokens":14,"completion_tokens":194,"total_tokens":208},"id":"61a7a02a832d4dd5ba6dd185a9fa417d","object":"chat.completion","created":1741687627}
部署推理资源消耗情况如下(28G左右):[此处插入资源消耗相关截图描述]
五、DeepSeek - R1推理实践
推理是DeepSeek - R1的核心应用场景之一。以下是一个基于MS - Swift框架的推理代码示例:
CUDA_VISIBLE_DEVICES=0 swift infer \--model /root/autodl - tmp/deepseek - ai/DeepSeek - R1 - Distill - Qwen - 7B \--stream true \--infer_backend vllm \--max_new_tokens 2048
脚本执行成功,推理效果如下:[此处插入推理结果相关截图描述]
六、DeepSeek - R1微调实践
微调是提升DeepSeek - R1模型性能的重要手段。以下是一个基于MS - Swift框架的微调步骤:
6.1 数据集准备
为对DeepSeek - R1 - Distill - Qwen - 7B模型开展微调,找了一份有趣的数据集(https://github.com/KMnO4 - zx/huanhuan - chat),内容如下:[此处插入数据集内容相关截图描述]
6.2 模型微调训练
以下是一个基于MS - Swift框架的lora微调代码示例:
CUDA_VISIBLE_DEVICES=0 \
swift sft \--model '/root/autodl - tmp/deepseek - ai/DeepSeek - R1 - Distill - Qwen - 7B' \--train_type lora \--dataset '/root/autodl - tmp/datasets/huanhuan.json' \--num_train_epochs 1 \--per_device_train_batch_size 1 \--learning_rate 1e - 4 \--lora_rank 8 \--lora_alpha 32 \--gradient_accumulation_steps 16 \--eval_steps 100 \--save_steps 100 \--save_total_limit 2 \
--logging_steps 5
参数说明:
- –model:指定预训练模型的名称或路径
- –train_type lora :指定训练类型为LoRA(Low - Rank Adaptation),一种高效的微调方法
- –dataset :指定训练数据集的名称或路径
- –num_train_epochs:指定训练的总轮数(epoch),这里设置为1轮
- –per_device_train_batch_size:指定每个设备(GPU)的训练批次大小,这里设置为1
- –learning_rate:设置学习率,这里为1e - 4
- –lora_rank:设置LoRA的秩(rank),用于控制LoRA层的参数数量,这里设置为8
- –lora_alpha:设置LoRA的缩放因子alpha,用于控制LoRA层的缩放比例,这里设置为32
- –gradient_accumulation_steps:设置梯度累积步数,用于在小批次情况下模拟大批次训练,这里设置为16步
- –eval_steps:每隔多少步进行一次评估,这里设置为每100步评估一次
- –save_steps:每隔多少步保存一次模型,这里设置为每100步保存一次
- –save_total_limit:保存的模型总数限制,这里最多保存2个模型
- –logging_steps:每隔多少步记录一次日志,这里设置为每5步记录一次
- –model_author swift:指定模型作者,这里为“swift”
- –model_name swift - robot:指定保存的模型名称,这里为“swift - robot”
微调训练结果如下:[此处插入微调训练过程中的指标、日志等相关截图描述]
微调后生成的新的checkpoint权重文件如下:
/root/autodl - tmp/output/DeepSeek - R1 - Distill - Qwen - 7B/v0 - 20250312 - 093007/checkpoint - 230
在微调过程中,建议使用结构化的提示数据,并通过拒绝采样生成更多训练样本。
6.3 推理训练后权重文件
直接加载微调后的权重文件,快速验证微调效果是否生效。
CUDA_VISIBLE_DEVICES=0 \
swift infer \--adapters /root/autodl - tmp/output/DeepSeek - R1 - Distill - Qwen - 7B/v0 - 20250312 - 093007/checkpoint - 230 \--stream true \--temperature 0 \
--max_new_tokens 2048
微调效果:[此处插入微调后推理结果相关截图描述]
微调训练后的权重文件实际上既包含了主模型的通用知识,也包含了微调后的特定知识,可以通过上面的方式快速查看微调效果。
6.4 LoRA合并&推理训练后的权重文件
不仅加载微调后的权重文件,还通过LoRA合并进一步优化推理结果。
# merge - lora and use vLLM for inference acceleration
CUDA_VISIBLE_DEVICES=0 \
swift infer \--adapters /root/autodl - tmp/output/DeepSeek - R1 - Distill - Qwen - 7B/v0 - 20250312 - 093007/checkpoint - 230 \--stream true \--merge_lora true \--infer_backend vllm \--max_model_len 8192 \--temperature 0 \
--max_new_tokens 2048
即可得到新的模型权重文件:
/root/autodl - tmp/output/DeepSeek - R1 - Distill - Qwen - 7B/v0 - 20250312 - 093007/checkpoint - 230 - merged
七、性能优化与评估
7.1 deepseek硬件优化
对于非常小的馏模型(如1.5B),只需要GTX 1650、RTX 3060
对于较小的蒸馏模型(如7B),单卡V100或A100即可满足需求。
对于较大的模型(如14B),推荐使用多卡并行。
7.2 推理性能优化
使用MS - Swift框架的vllm模式可以显著提升推理速度。
在推理时,可以通过调整max_new_tokens和temperature参数来优化生成结果。
7.3 微调性能优化
在微调时,建议增加epoch次数或扩充数据集。
如果显存不足,可以减小batch_size或增大gradient_accumulation_steps。
7.4 性能评估
使用标准的推理基准测试(如AIME 2024)评估模型性能。
比较不同蒸馏版本的性能,选择最适合的模型。
更多技术内容
更多技术内容可参见
《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】书籍。
更多的技术交流和探讨也欢迎加我个人微信chenjinglei66。
总结
此文章有对应的配套新书教材和视频:
【配套新书教材】
《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
新书特色:《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)是一本2025年清华大学出版社出版的图书,作者是陈敬雷,本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。
全书共8章,从大模型技术原理切入,逐步深入大模型训练及微调,还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体,从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面,本书提供了丰富的案例分析,如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人,以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用,也为读者提供了宝贵的实践经验。
本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读,也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统,既有理论知识的深入讲解,也有大量的实践案例和代码示例,能够帮助学生在掌握理论知识的同时,培养实际操作能力和解决问题的能力。通过阅读本书,读者将能够更好地理解大模型技术的前沿发展,并将其应用于实际工作中,推动人工智能技术的进步和创新。
【配套视频】
GPT多模态大模型与AI Agent智能体书籍本章配套视频 - 第1章 大模型技术原理【陈敬雷】
视频特色: 前沿技术深度解析,把握行业脉搏
揭秘 DeepSeek、Sora、GPT-4 等多模态大模型的技术底层逻辑,详解 Transformer 架构如何突破传统神经网络局限,实现长距离依赖捕捉与跨模态信息融合。
对比编码预训练(BERT)、解码预训练(GPT 系列)及编解码架构(BART、T5)的技术差异,掌握大模型从 “理解” 到 “生成” 的核心逻辑。
实战驱动,掌握大模型开发全流程
提示学习与指令微调:通过 Zero-shot、Few-shot 等案例,演示如何用提示词激活大模型潜能,结合 LoRA 轻量化微调技术,实现广告生成、文本摘要等场景落地(附 ChatGLM3-6B 微调实战代码)。
人类反馈强化学习(RLHF):拆解 PPO 算法原理,通过智谱 AI 等案例,掌握如何用人类偏好优化模型输出,提升对话系统的安全性与实用性。
智能涌现与 AGI 前瞻,抢占技术高地
解析大模型 “智能涌现” 现象(如上下文学习、思维链推理),理解为何参数规模突破阈值后,模型能实现从 “量变” 到 “质变” 的能力跃升。
前瞻通用人工智能(AGI)发展趋势,探讨多模态模型(如 Sora)如何推动 AI 从 “单一任务” 向 “类人智能” 进化,提前布局未来技术赛道。
上一篇:《GPT多模态大模型与AI Agent智能体》系列一》大模型技术原理 - 大模型技术的起源、思想
下一篇:DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析:支撑万亿参数模型的幕后英雄