华为云Flexus+DeepSeek征文｜基于Dify构建音视频内容转录工作流

一、构建音视频内容转录工作流前言
二、构建音视频内容转录工作流环境
- 2.1 基于FlexusX实例的Dify平台
- 2.2 基于MaaS的模型API商用服务
三、构建音视频内容转录工作流实战
- 3.1 配置Dify环境
- 3.2 配置Dify工具
- 3.3 创建音视频内容转录工作流
- 3.4 使用音视频内容转录工作流
四、总结

一、构建音视频内容转录工作流前言

在信息爆炸时代，会议录音、培训视频、访谈播客等音视频资料已成为知识传递的重要载体，但原始素材往往存在三大痛点，信息密度低：1小时会议录音的有效信息可能仅占10%，人工听写耗时耗力；检索困难：关键结论淹没在冗长对话中，无法快速定位；结构化缺失：非文本内容难以直接用于报告、知识库等场景。通过 Dify 构建AI流水线，可以自动完成音频提取 → 语音识别 → 文本摘要 → 结构化输出的全流程，可以很方便的完成音视频内容的转录工作。

华为云Flexus X实例通过算力加速、弹性资源、高可用架构、存储网络优化及智能运维的全面创新，为大模型应用提供了从训练到推理的全生命周期支持。其核心价值在于以30%以上的成本优势实现6倍性能跃升，同时通过柔性算力技术突破传统云服务器的资源限制，成为企业构建大模型基础设施的首选方案。

在这里插入图片描述

二、构建音视频内容转录工作流环境

2.1 基于FlexusX实例的Dify平台

华为云FlexusX实例提供高性价比的云服务器，按需选择资源规格、支持自动扩展，减少资源闲置，优化成本投入，并且首创大模型QoS保障，智能全域调度，算力分配长稳态运行，一直加速一直快，用于搭建Dify-LLM应用开发平台。

Dify是一个能力丰富的开源AI应用开发平台，为大型语言模型（LLM）应用的开发而设计。它巧妙地结合了后端即服务（Backend as Service）和LLMOps的理念，提供了一套易用的界面和API，加速了开发者构建可扩展的生成式AI应用的过程。

参考：华为云Flexus+DeepSeek征文 | 基于FlexusX单机一键部署社区版Dify-LLM应用开发平台教程

2.2 基于MaaS的模型API商用服务

MaaS预置服务的商用服务为企业用户提供高性能、高可用的推理API服务，支持按Token用量计费的模式。该服务适用于需要商用级稳定性、更高调用频次和专业支持的场景。

参考：华为云Flexus+DeepSeek征文 | 基于ModelArts Studio开通和使用DeepSeek-V3/R1商用服务教程

在这里插入图片描述

三、构建音视频内容转录工作流实战

3.1 配置Dify环境

输入管理员的邮箱和密码，登录基于FlexusX部署好的Dify网站

在这里插入图片描述

将MaaS平台的模型服务接入Dify，这里我们选择的是DeepSeek V3商用服务，需要记住调用说明中的接口信息和 API Key 管理中API Key，若没有可以重新创建即可

在这里插入图片描述

配置Dify模型供应商：设置 - 模型供应商 - 找到OpenAI-API-compatible供应商并单击添加模型，在添加 OpenAI-API-compatible对话框，配置相关参数，然后单击保存

在这里插入图片描述

参数	说明
模型类型	选择`LLM`。
模型名称	填入模型名称。
API Key	填入创建的API Key。
API Endpoint URL	填入获取的MaaS服务的基础API地址，需要去掉地址尾部的“/chat/completions”后填入

3.2 配置Dify工具

1. FFmpeg

使用FFmpeg处理和转换视频和音频文件。提供获取视频信息、格式转换、剪切、压缩和提取音频的工具。

打开DIfy - 工具中搜索 FFmpeg，找到 FFmpeg 并安装它

在这里插入图片描述

安装完成后点击 FFmpeg，后面就可以在Chatflow 和 Workflow 应用程序中添加 Audio 工具节点，提供了 5 种方法

视频信息：获取视频文件的详细信息
视频格式转换：将视频文件转换为不同的格式
视频裁剪：剪切视频以提取特定部分
视频压缩：压缩视频文件以减小文件大小
提取音频：从视频文件中提取音频轨道

在这里插入图片描述

2. Audio

一个用于文本转语音和语音转文本的工具。

打开DIfy - 工具中搜索 Audio ，找到 Audio 并安装它

在这里插入图片描述

安装完成后点击 Audio，后面就可以在Chatflow 和 Workflow 应用程序中添加 Audio 工具节点，提供了 2 种方法，Speech To Text 和 Text To Speech

Speech To Text：将音频文件转换为文本，需输入音频文件。
Text To Speech：将文本转换为音频文件，需输入要转换的文本。

在这里插入图片描述

3.3 创建音视频内容转录工作流

在 Dify - 工作室，创建空白应用，选择 Chatflow，输入应用名称和图标，点击创建

在这里插入图片描述

删除默认的其他节点，在开始节点后添加参数 Video 用于上传音视频文件

Video（单文件）：音视频文件

在这里插入图片描述

添加节点 - 工具 - FFmpeg - 提取音频，配置节点参数，输入变量中的视频文件为开始节点上传的文件，音频格式输入 mp3

在这里插入图片描述

添加直接回复节点，输出给用户提取音频后的文件

在这里插入图片描述

添加节点 - 工具 - Audio - Speech To Text ，使用此工具将音频文件转化为文本。配置 Speech To Text 节点，输入变量为提取音频后的文件，模型选择之前添加的 FunAudioLLM/SenseVoiceSmall

在这里插入图片描述

再添加直接回复节点，输出给用户STT的文件

在这里插入图片描述

添加LLM节点，命名为音频转文字总结LLM，这步主要使用大语言模型将音频转文字进行总结归纳。模型选择为由 Maas 提供的 DeepSeek V3，输入系统提示词参考如下：

# Role: 音视频内容总结专家## Profile
- 专业领域: 音视频内容分析、文本摘要、内容提炼
- 专长: 从音视频转录文本中提取关键信息并生成简洁明了的总结
- 经验: 10年媒体内容分析经验，5年AI辅助内容处理经验
- 教育背景: 传播学硕士，计算机科学学士## Skills
- 精通内容关键信息提取和主题识别
- 擅长结构化分析叙事内容和情节发展
- 熟练掌握多种总结技巧（摘要式、要点式、图表式等）
- 能够识别和保留内容中的情感基调和核心观点
- 具备跨领域知识，能够理解各类专业内容## Goals
- 准确提取音视频内容中的核心信息和关键要点
- 保留原始内容的主要情节和情感基调
- 生成结构清晰、逻辑连贯的内容总结
- 根据不同内容类型（教育、娱乐、新闻等）调整总结风格
- 确保总结内容简洁且信息丰富，便于快速理解## Constraints
- 总结长度应控制在原始内容的10-20%之间
- 不添加原始内容中不存在的信息或个人观点
- 避免使用过于主观的评价性语言
- 保持内容的中立性，不偏向特定立场
- 尊重原创内容，不歪曲原意## WorkFlow
1. 仔细分析音视频转录文本，识别核心主题和关键信息
2. 确定内容类型（故事、教程、访谈、新闻等）并选择适当的总结结构
3. 提取主要情节、关键人物、重要事件和核心观点
4. 按时间顺序或逻辑关系组织信息
5. 撰写简洁明了的总结，保留原内容的核心价值
6. 检查总结是否完整反映了原始内容的要点
7. 根据需要调整总结格式（段落式、要点式或混合式）## OutputFormat
{"内容类型": "故事/教程/访谈/新闻/其他","核心主题": "简明扼要的主题描述","总结正文": "详细的内容总结，可使用段落式或要点式","关键要点": ["要点1","要点2","要点3"],"情感基调": "内容的整体情感或氛围描述"
}## Examples
### 例1: 故事类内容
用户输入: "在一个阳光明媚的午后，机器猫哆啦A梦躺在沙发上打盹，4次元口袋突然发出诡异的嗡鸣声。随着一声巨响，天线帽、竹蜻蜓和记忆面包等道具像喷泉一样涌出，将它挤成了一个蓝色毛球，惹得静香捂嘴偷笑，面对失控的4次元口袋。哆啦A梦紧急掏出时空缝合器。但道具刚接触口袋裂口，却意外释放出彩虹色的时间乱流，把大熊的书包、铜锣烧和穿越时空地图等物品卷入了空中漩涡。整间屋子飘满了闪着光的悬浮物品，最终哆啦A梦冒险钻入4次元口袋内部，用迷你清洁机器人疏通了时空管道，修复后的口袋涌出金粉般的修复粒子，将混乱场景瞬间改造成星空闪耀的奇幻空间，竞香伸手触碰悬浮的猫形光斑，笑眼弯弯。"输出:
{"内容类型": "故事","核心主题": "哆啦A梦的四次元口袋故障冒险","总结正文": "在一个阳光明媚的午后，哆啦A梦的四次元口袋突然失控，各种道具喷涌而出。尝试使用时空缝合器修复时，意外引发时间乱流，将更多物品卷入空中。最终，哆啦A梦进入口袋内部，用迷你清洁机器人修复了故障，将混乱场景转变为奇幻星空，让静香感到惊喜。","关键要点": ["哆啦A梦的四次元口袋突然失控，道具喷涌而出","使用时空缝合器时意外引发更大混乱","哆啦A梦进入口袋内部成功修复故障","混乱场景转变为美丽的星空奇幻空间"],"情感基调": "轻松幽默，充满奇幻色彩"
}### 例2: 教育类内容
用户输入: [教育视频转录文本]输出:
{"内容类型": "教程","核心主题": "...","总结正文": "...","关键要点": ["...","...","..."],"情感基调": "..."
}## Rules
1. 始终保持客观中立，不添加个人观点
2. 确保总结涵盖所有关键信息点
3. 根据内容类型调整总结风格和结构
4. 保持总结的简洁性和可读性
5. 尊重原始内容的情感基调和核心观点
6. 对于较长内容，适当增加关键要点数量
7. 对于专业内容，保留必要的专业术语## Initialization
作为音视频内容总结专家，我已准备好帮助您提取和总结音视频转录文本中的关键信息。请提供您需要总结的音视频转录文本，我将分析内容并生成一个结构清晰、信息丰富的总结。无论是故事、教程、访谈还是新闻报道，我都能够识别其核心主题和关键要点，并以适当的格式呈现给您。

在这里插入图片描述

输入用户提示词参考如下：

请根据{{#Speech To Text.text#}}总结归纳

在这里插入图片描述

最后添加直接回复节点，回复内容为：音频转文字总结LLM节点的输出的内容

在这里插入图片描述

编排工作流后点击右上角的运行进行测试，先从 蜻蜓FM 下载一个博客音频文件，再上传此文件，对话框种输入总结，点击发送

苹果Macmini大升级不到13厘米宽M4处理器性能更强为AI做准备
https://www.qtfm.cn/channels/225793/programs/27914455

在这里插入图片描述

查看完整流程，开始 - 提取音频 - 音频提取输出 - Speech To Text - 音频转文字输出 - 音频转文字总结LLM - 音频转文字总结回复

在这里插入图片描述

这里主要查看 Speech To Text 中将音频文件转化为文字的输出结果

{"text": "。好，大家好，那么今天的节目，这最新出来的苹果麦个迷你小饭盒终于更新了。这次的更新做的非常的大呀。啊，这次它的样子呢做的一个是大升级，缩小了很多，它的整个的尺寸呢缩小了7厘米啊，这个尺寸原来都已经不大了啊，变成一个真正的小饭盒，但是呢高度只增加了不到好像是2厘米，所以这个机器呢。现在非常的小巧啊，这个样子还是铝合金的样子。那咱们来看这个机身的外观呢，它现在前置有两个typepe C的口，它叫雷电的口，然后一个是像小电源似的，那个实际是一个耳机的插口。对于我们的日常使用非常的方便。因为你基本上都是用扩展嘛。那么机身后边呢它也是口，它带了三个叫雷利的雷厉三雷厉四的口，一个电源口，一个呃实体的网线的口在。加上HDMI可以这么说啊，现在这个机器机身虽然小巧，但是呢它的接口比之前更加的丰富了，做的很好。那最有意思的是呢，它的电源键放在了机身底部，机身呢还是带实体散热的，有一个大风扇，看起来啊我不知道是不是真正的风扇，但是呢有散热孔。Yeah.然后电源键放在底下之后呢，其实这个机型呢，咱们说13厘米，它是12.7厘米的这么一个四方盒，你基本上带在身上，随时都可以走，走起来都没有什么问题，就移动办公啊，你只要配一个现在很流行的那种叫带触摸的便携式显示器就可以了。所以它能做的事儿啊非常的多哈。而且这次它的性能也是做了一个升级，非常的强啊。.那咱们来看他这个官方的介绍里边啊，提到了，他说我的后边这个啊叫刚才说到的，他不是不是风扇，它是叫对流的，对流的空气散热，无风扇。那么无风扇这一点就好了。无风扇的情况之下，它就不会存在那些声音，特别烦人的这一点我觉得挺好。Yeah.然后里边这个机身呢样子就没什么太多的一个变化了。那主要就是看里边的芯片。这次的芯片呢，它完全是为了AI做准备的。它用了M4和M4pro。我们之前记得有一个苹果的叫m studio maxax studio呢这个性能特别强，但价格非常的贵。但是现在你的升级，这个麦个迷你M4就能赶上之前的max studio了，为啥呀？16个G的内存起步啊，这个M4的处理器M4pro的处理器对于日常我们说呃办公打游戏，但大部分用苹果的用户啊，除了就是拿它做代码的大部分呢就是日常的应用，日常的办公啊，上网啊这些，所以它的性能呢都是够用的。所以这一点来说，它是最便宜的苹果电脑了，但是比之前的性能升级还特别的大。但。很可惜啊，现在国内没有的苹果的AI，所以没办法。但是它在未来我们可以想象一下啊，这个苹果打通的是什么生态链再一次给它打通结合了。就是你可以在苹果电脑上去控制你的手机做一个镜像投屏这一点的功能啊，之前的安卓人家华为啊、小米啊，谁都有了。但是现在苹果有了，那生产力就不一样了。安卓这方面，我觉得。挺好的那未来呢这个苹果的你手机在电脑上操作的必要性在哪里呢？就是我不用拿起来手机天天看了，我可以直接用电脑的大屏幕刷抖音这些的那有的人他不喜欢躺着看是吧？坐着看的时候刷手机老得抬着，这个有利于护眼。Yeah。我感觉啊有利于护眼，而且对脖子什么的都比较的好。但是你得是同一个账号，，你同一个账号登录了这个麦克，呃，关键是这玩意儿便宜啊，他要是再能虚拟一个这个手机就更好了啊，这个说多了。然后它的硬件连接呢，他说也是非常多，但基本上啊买了这个之后就买这个蓝牙的键盘鼠标去呃，包括所有的东西全都用蓝牙，这样的话呢，这个桌面上会更加的好看。这些的样子。然后内存呢16个G起步这一点就怎么说，加量不加价，这苹果难得这么良心呢，主要就是为了推广他们家的AI。那么看一下机型的售价和比较呃，起步呢4499，然后是5999，差了1500，分别呢都是差1500的定价就是449959997499和1000。这个最后的100呢，差价比较大。因为它用的芯片是。M4pro这个基本上普通用户就用不到了，是给那些专业级的，你有办公啊，或者是3D啊这些的渲染的，他们来跑一些什么程序的普通用户啊，你就是44995999和7499的做一个选择。那差别在哪呢？他们都用了一样的M4的芯片和最新的Iac电脑的M4啊都是一样的啊。内存呢不一样，内存呢最低配和中配直接起步。16个G内存，但是差距在于256G的硬盘和512G的硬盘。那么这两个硬盘。怎么说呢？苹果啊它的升级是非常有限的，它是16个G内存，因为我的AI跑不起来了，我才16个G，要不然我还是给你8G。因为之前呢有人就说苹果可能会上12个G内存。但是看起来呀他们的AI要跑起来12个G内存不够，所以才这么良心的给你配16个G内存，你得知道，但是这个256G存储属实有一点不够用，所以如果你对于存储有需要，你拿它当一个。主流的办公的去应用的话，那么应该买5999的512G的版本比较好啊。那么这个机型呢它可以外接显示器，他说同时用雷力接口可以接叫两台6K的显示器，但我们一般是不会买这么大的，一般会买的4K显示器。那么4K显示器呢，HDMI可以接一台。然后你这个雷利接口也可以接一台。他说最多可以接3台显示器。，一般我们要是能用到两台，基本上都已经很牛了啊。Yeah.但是它对于接口，M4pro的机型更强，它带了雷利5的接口。这个接口我们只是听说过，就没见过这种的。它支持了8K，它这个接口的目的就是为了未来的8K视频去做准备的。那其他方面啊，他就没啥太多升级了。内置扬声器和麦克风，你要是给别人打电话呀，这些还是挺方便的。3.5毫米的耳机接口方便咱们插一些其他的设备，这一点很好。然后这些的接口呢，你能看到HDMI还是很重要的，是吧？别的DP接口还是没有达到。那么wifi呢它是wifi6E，并不是wifi7啊，这一点呃咋说够用。。呃，蓝牙呢5.3，这不是最强的了呃，千兆的网卡这足够用的了。机身的重量方面，它现在给的是M4机型是0.670千0克，也就是一斤二两多一些啊，这个重量呢还是挺有质感的啊，机身的厚度它是不到5毫米啊，5厘米5厘米的厚度也是OK的了，稍微的厚一点。但行，它非常类似于咱们现在国内的。这种各家的小饭盒了，虽然说它的价位还是挺低的，跟苹果自己比，但是呢跟同品牌的用英特尔处理器的这些国产的机型比还是贵。国产机型基本上就是2000多的3000块钱以下的特别多，对于4000块钱左右的，它可能会有一波就对于那种迷你主机的大压，这些迷你主机呢肯定要去做升级了。那你会不会买这个机型呢？我最后。想关注一下它的瓦，它这个瓦数，他说最大持续功率是155瓦，它的功率啊也还行，不算特别的低啊，和它的M1的呃M4版本的imagac也是看齐的，比那个还高，说明它的性能其实一点都不弱。那教育优惠是最划算的。如果你想买的话，你直接去苹果的这个商店里边，然后你去用教育优惠。这个教育优惠的价格就很合适。但是如果你不差这个钱，你想24期免息，那么你买正常版本的24期免息的也很划算。","files": [],"json": []
}

在这里插入图片描述

最后LLM格式整理后的内容如下，总结的核心要点都是很准确的

[ae428668295b4684a1137e65dba3c2c0.mp3](http://host.docker.internal/files/tools/5f767b7b-5423-4259-8edf-74ffd6630b74.mp3?timestamp=1751209117&nonce=89048ceb67e0b36ece174d449e6ba0a0&sign=zlhndxGsrLk81SlVvm4dib2Fpy5NSSp24SxPcuUCR6c=){"内容类型": "产品评测","核心主题": "苹果Mac mini M4版本全面评测与购买建议","总结正文": "最新发布的Mac mini M4版本进行了大幅度升级，机身尺寸缩小至12.7厘米，更加便携。接口配置大幅提升，前置2个雷电Type-C接口，后置包含3个雷电接口、网线口和HDMI口。采用无风扇对流散热设计，运行更安静。性能方面搭载M4/M4pro芯片，16G内存起步，性能接近高端Mac Studio。支持多显示器输出，最高可接3台显示器（M4pro版支持8K）。价格从4499元起，教育优惠更划算。虽然国内暂不支持苹果AI功能，但整体性价比在苹果产品线中较高。","关键要点": ["外观设计：尺寸缩小至12.7cm，保持铝合金机身，更加便携","接口升级：前置2个雷电Type-C，后置多个接口包括HDMI和网线口","散热系统：采用无风扇对流散热设计，运行时更安静","性能配置：M4/M4pro芯片，16G内存起步，性能接近Mac Studio","显示支持：最多支持3台显示器(M4pro版支持8K输出)","价格策略：4499元起，教育优惠更划算，推荐512G版本","生态整合：支持手机镜像投屏等跨设备操作","功耗表现：最大持续功率155W，性能表现强劲"],"情感基调": "专业客观中带有积极评价，对产品升级表示认可"
}

在这里插入图片描述

测试完成就可以发布更新到探索页面了，发布后选择运行就可以获得一个在线运行的工作流的网页！

3.4 使用音视频内容转录工作流

在探索 - 音视频内容转录中开启新对话

在这里插入图片描述

先从 bilibili 下载一个 mp4 视频，上传 video 不能超过 100.00MB，所以下载的是320P版本，再上传此文件

全网首试小米YU7，我还要买吗？
https://www.bilibili.com/video/BV1fwJJzHEfi?t=2.0

在这里插入图片描述

按照顺序执行工作流，最后输出这个测评视频的总结内容，并给出关键要点，对小米YU7产品设计高度赞赏

[87f9768555ac49c1bb8aa11ce9b0ba4e.mp3](http://host.docker.internal/files/tools/d4122087-0c1c-4e4d-b447-d53e41879c89.mp3?timestamp=1751215063&nonce=0dda6a18c4b38a4e7cb87b79306a304b&sign=cb2gWkTmX7XvY_MK0g7UbmmRQw_1m6spPT3aBN7txxo=){"内容类型": "产品评测","核心主题": "小米SUV车型设计亮点与空间表现评测","总结正文": "这段视频详细评测了小米新推出的SUV车型。评测者高度评价了该车比苏7更强势的设计语言，特别强调了其5米车身上保留的长车头比例和仅1.6米的车高带来的运动感。车辆采用3.11平方米的巨型电动开启机盖，配备真实有效的全车10个风道设计。内饰方面，后排空间超出预期，配备135度电动躺椅、可拆卸控制屏、冰箱等配置。后备箱空间表现出色，通过巧妙设计实现露营模式。前排配备创新的HyperVision全景投影系统，通过三块可自定义屏幕提供驾驶信息。评测者对整车空间利用率和细节处理给予高度评价，并表示将第一时间订购该车。","关键要点": ["SUV设计语言比苏7更具气势，强调长车头和低车高(1.6米)的运动比例","3.11平方米电动开启机盖，全车10个真实风道优化空气动力学","后排空间远超预期，配备135度电动躺椅、可拆卸控制屏和冰箱","巧妙的后备箱设计实现露营模式，整车空间利用率极高","前排创新HyperVision全景投影系统，三块可自定义屏幕不挡视线","全车细节处理到位，包括绒面包覆、隐藏式储物空间等","评测者高度评价并表示将第一时间订购"],"情感基调": "热情洋溢、充满惊喜，对产品设计高度赞赏"
}

在这里插入图片描述

四、总结

Dify 音视频智能处理工作流通过可视化节点串联音频提取、语音识别（ASR）、AI 摘要与结构化输出全流程，实现 1 小时录音 → 4 分钟精准纪要 的效能跃迁。其工作流核心价值并非简单“转文字”，而是通过场景化重构释放内容潜力，会议录音 → 可执行待办事项（含责任人/Deadline），培训视频 → 交互式学习笔记（带批判性思考题），客户访谈 → 情感倾向分析报告（基于语调关键词），随着多模态模型开放，实时视频理解、跨模态知识检索等场景即将落地。

华为云 MaaS 的 DeepSeek V3 服务通过架构创新、全栈优化、成本控制及场景适配，构建了从底层算力到上层应用的全链路优势，其核心价值在于以30%成本实现6倍性能提升，提供可视化Prompt Engineering工具，支持动态权重调整，无需代码即可优化生成效果，同时通过自动化运维和行业模板降低AI落地门槛，成为企业构建智能应用的首选方案。