华为云Flexus+DeepSeek征文|基于Dify构建文本/图像/视频生成工作流
- 一、构建文本/图像/视频生成工作流前言
- 二、构建文本/图像/视频生成工作流环境
- 2.1 基于FlexusX实例的Dify平台
- 2.2 基于MaaS的模型API商用服务
- 三、构建文本/图像/视频生成工作流实战
- 3.1 配置Dify环境
- 3.2 配置Dify工具
- 3.3 创建文本/图像/视频生成工作流
- 3.4 使用文本/图像/视频生成工作流
- 四、总结
一、构建文本/图像/视频生成工作流前言
当前,生成式AI技术正从单一模态向跨模态协同创作演进,而工作流编排平台成为释放大模型潜力的关键枢纽。在这一技术演进浪潮中,Dify凭借其灵活的可视化编排能力,使开发者能够无缝集成各类大模型API,构建端到端的创意生产管道。大模型在多模态生成领域实现了显著突破——支持文本生成图像(T2I)、文本生成视频(T2V)、图像生成视频(I2V)三大核心功能,在运动质量、情感表达和物理模拟等维度达到很高水准,能够进行各种艺术和多媒体内容的生产。
Flexus X
实例以柔性资源+智能调度
双引擎,解决了大模型应用中资源碎片化、性能波动、长时运维等痛点,尤其适合两类场景,敏捷开发:中小团队快速迭代模型,低成本试错;生产部署:企业级高并发
推理服务,兼顾性能与成本
最优。通过技术民主化(一键式运维
)与资源精细化(动态配比
),让大模型从实验室技术加速转化为生产力工具。
二、构建文本/图像/视频生成工作流环境
2.1 基于FlexusX实例的Dify平台
华为云FlexusX实例
提供高性价比的云服务器,按需选择资源规格、支持自动扩展,减少资源闲置,优化成本投入,并且首创大模型QoS保障,智能全域调度,算力分配长稳态运行,一直加速一直快,用于搭建Dify-LLM应用开发平台。
Dify是一个能力丰富的开源AI应用开发平台
,为大型语言模型(LLM)应用的开发而设计。它巧妙地结合了后端即服务(Backend as Service)和LLMOps的理念,提供了一套易用的界面和API,加速了开发者构建可扩展的生成式AI应用的过程。
参考:华为云Flexus+DeepSeek征文 | 基于FlexusX单机一键部署社区版Dify-LLM应用开发平台教程
2.2 基于MaaS的模型API商用服务
MaaS预置服务的商用服务为企业用户提供高性能、高可用的推理API服务,支持按Token用量计费的模式。该服务适用于需要商用级稳定性、更高调用频次和专业支持的场景。
参考:华为云Flexus+DeepSeek征文 | 基于ModelArts Studio开通和使用DeepSeek-V3/R1商用服务教程
三、构建文本/图像/视频生成工作流实战
3.1 配置Dify环境
输入管理员的邮箱和密码,登录基于FlexusX部署好的Dify网站
将MaaS平台的模型服务接入Dify,这里我们选择的是DeepSeek V3商用服务
,需要记住调用说明中的接口信息
和 API Key 管理中API Key
,若没有可以重新创建即可
配置Dify模型供应商:设置 - 模型供应商 - 找到OpenAI-API-compatible
供应商并单击添加模型
,在添加 OpenAI-API-compatible对话框,配置相关参数,然后单击保存
参数 | 说明 |
---|---|
模型类型 | 选择LLM 。 |
模型名称 | 填入模型名称。 |
API Key | 填入创建的API Key。 |
API Endpoint URL | 填入获取的MaaS服务的基础API地址,需要去掉地址尾部的“/chat/completions”后填入 |
3.2 配置Dify工具
Doubao Image and Video Generator
基于火山引擎豆包 API 的全功能 AI 媒体生成 Dify 插件,支持文本生成图像、文本生成视频以及图像转视频功能。
申请火山方舟 API Key,在 火山方舟 API Key 页面上创建新的 API 密钥,保存此 Key
在 火山方舟开通管理 中,开通视觉模型中的三个服务:文生图 Doubao-Seedream-3.0-t2i
、文生视频 Doubao-Seedance-1.0-lite-t2v
、图生视频 Doubao-Seedance-1.0-lite-i2v
,都是由免费的额度可以使用的
打开DIfy - 工具中搜索 Daobao ,找到 Doubao Image and Video Generator
并安装它
安装完成后点击 Doubao Generator
,点击去授权,填入上面获取到的 API Key,点击保存即可
查看到已授权,后面就可以在Chatflow 和 Workflow 应用程序中添加 Doubao Generator 工具节点,提供了 3 种方法:Text to Image
、Text to Video
和 Image to Video
3.3 创建文本/图像/视频生成工作流
在 Dify - 工作室,创建空白应用,选择 Chatflow,输入应用名称和图标,点击创建
删除其他默认节点,在开始节点
后添加输入字段 prompt
、picture
和 type
prompt
(文本):提示词
picture
(单文件):图片
type
(下拉选项):选择类型(文本生成图像、文本生成视频、图像转视频)
添加条件分支
节点,分成三个分支,Case1为文生图片,Case2为文生视频,Case3为图生视频(需要同时上传图片)
若为其他情况,则直接回复重新上传图片
Case1 再添加LLM
节点,命名为文生图提示词改写LLM
,这步主要是通过大语言模型生成文生图的提示词。模型
选择由华为 Maas 提供的 DeepSeek V3 ,系统提示词参考如下:
# Role: 即梦AI文生图结构化提示词生成器 (Jmeng AI Image Structured Prompt Generator)
## Background:
- 这是一个专门为即梦AI生成静态图像提示词的工具
- 将用户的画面创意转换为结构化提示词
- 输出格式固定且简洁
## Core Objectives:
- 将用户输入的画面创意转换为结构化提示词
- 确保输出格式统一且易于使用
- 提供丰富且具体的画面描述
## Constraints:
1. 输出格式必须严格遵循:画面主体:[内容] 场景描述:[内容] 风格关键词:[内容] 细节修饰:[内容]2. 禁止输出任何额外的文字说明或格式
3. 各字段之间使用空格分隔
4. 直接输出结果,不进行对话
## Skills:
1. 静态构图能力:- 准确描述主体位置- 定义姿态和表情- 把握画面重点
2. 场景描写能力:- 营造环境氛围- 描述天气光线- 构建空间感
3. 风格定义能力:- 应用艺术流派- 把控色彩风格- 确定渲染技术
4. 细节补充能力:- 添加画质要素- 强化材质表现- 突出关键特征
## Workflow:
1. 接收用户输入的画面创意
2. 将创意拆解为四个维度
3. 组合成规定格式字符串
4. 直接输出结果
## OutputFormat:
画面主体:[主体描述] 场景描述:[场景内容] 风格关键词:[风格定义] 细节修饰:[细节内容]## Init:
我已准备好接收您的画面创意,将直接输出符合格式的提示词。
用户提示词参考如下:
请根据用户输入{{#开始.prompt#}}改写符合即梦AI绘画的提示词
添加节点 - 工具 - Doubao Generator
- Text to lmage
,添加完成后配置节点,输入变量为文生图提示词改写LLM生成的提示词,IMAGE SIZE
选择1024x1024(Square),MODEL VERSION
选择 DoubaoSeedream 3.0
这里再添加直接回复
节点,输出文生图提示词
和生成的图片
Case2 再添加LLM
节点,命名为文生视频提示词改写LLM
,这步主要是通过大语言模型生成文生视频的提示词。模型
选择由华为 Maas 提供的 DeepSeek V3 ,系统提示词参考如下:
# Role: 即梦AI文生视频结构化提示词生成器 (Jmeng AI Video Structured Prompt Generator)
## Background:
- 这是一个专门为即梦AI生成视频提示词的工具
- 将用户的视频创意转换为结构化提示词
- 输出格式固定且简洁
## Core Objectives:
- 将用户输入的视频创意转换为结构化提示词
- 确保输出格式统一且易于使用
- 提供丰富且具体的动态场景描述
## Constraints:
1. 输出格式必须严格遵循:画面主体:[内容] 动作描述:[内容] 场景描述:[内容] 风格关键词:[内容] 细节修饰:[内容]2. 禁止输出任何额外的文字说明或格式
3. 各字段之间使用空格分隔
4. 直接输出结果,不进行对话
## Skills:
1. 动态构图能力:- 准确描述主体位置- 定义动作流程- 把握动态重点
2. 场景描写能力:- 营造环境氛围- 描述天气光线- 构建空间感
3. 风格定义能力:- 应用视频风格- 把控色彩风格- 确定渲染技术
4. 细节补充能力:- 添加动态要素- 强化材质表现- 突出关键特征
## Workflow:
1. 接收用户输入的视频创意
2. 将创意拆解为五个维度
3. 组合成规定格式字符串
4. 直接输出结果
## OutputFormat:画面主体:[主体描述] 动作描述:[动作内容] 场景描述:[场景内容] 风格关键词:[风格定义] 细
节修饰:[细节内容]## Init:
我已准备好接收您的视频创意,将直接输出符合格式的提示词。
用户提示词参考如下:
请根据用户输入{{#开始.prompt#}}改写符合即梦AI绘画的提示词
添加节点 - 工具 - Doubao Generator
- Text toVideo
,添加完成后配置节点,输入变量为文生图提示词改写LLM生成的提示词,ASPECT RATIO
选择16:9 (Landscape),DURATION(SECONDS)
选择 5seconds
,MODEL VERSION
选择 DoubaoSeedance 1.0 Lite
再添加LLM节点,用于文生视频内容提取,模型
选择为 DeepSeek V3,系统提示词参考如下:
仅提取内容中的视频链接,然后变成 markdown 格式。
这是你看到的内容:{{#文生视频.text#}}
用户提示词为:
{{#文生视频.text#}}
这里再添加直接回复
节点,输出文生视频提示词
和生成的视频
Case3 添加节点 - 工具 - Doubao Generator
- Text toVideo
,添加完成后配置节点,输入变量 Prompt
为开始输入的提示词,Image
为开始上传的图片,ASPECT RATIO
选择16:9 (Landscape),ASPECT RATIO(REFERENCEONLY)
选择 Adaptive(Auto)
,DURATION(SECONDS)
选择 5seconds
最后添加直接回复节点,输出图片生成视频的提示词
和视频
编排工作流后点击右上角的运行
进行测试,输入提示词为 虎鲸和小渔夫游玩
,选择类型为文生图像
,输入开始,点击发送
查看完整流程,开始 - 条件分支 - 文生图提示词改写LLM - 文生图 - 文生图回复,这里主要查看下 文生图提示词改写LLM
节点输出的结果
{"text": "画面主体:[虎鲸与小渔夫在海中嬉戏] 场景描述:[日落时分的平静海面,金色阳光洒在水面上] 风格关键词:[童话风格,温暖色调,水彩质感] 细节修饰:[虎鲸喷出水柱,小渔夫开心大笑,海浪轻轻拍打,远处有小渔船轮廓]","usage": {"prompt_tokens": 406,"prompt_unit_price": "0","prompt_price_unit": "0","prompt_price": "0","completion_tokens": 71,"completion_unit_price": "0","completion_price_unit": "0","completion_price": "0","total_tokens": 477,"total_price": "0","currency": "USD","latency": 3.138953330984805},"finish_reason": "stop"
}
最后输出图片提示词和生成的图片如下,这个图片的效果很不错,比我之前使用的 Flux 要好很多
画面主体:[虎鲸与小渔夫在海中嬉戏] 场景描述:[日落时分的平静海面,金色阳光洒在水面上] 风格关键词:[童话风格,温暖色调,水彩质感] 细节修饰:[虎鲸喷出水柱,小渔夫开心大笑,海浪轻轻拍打,远处有小渔船轮廓]
再测试一下文生视频
,输入提示词为 虎鲸和小渔夫游玩
,选择类型为文生视频
,输入开始,点击发送
按照文生视频的工作流,最后输出视频提示词和生成的视频如下,这个视频的效果也很不错
画面主体:[虎鲸和小渔夫] 动作描述:[虎鲸跃出水面与小渔夫互动嬉戏] 场景描述:[夕阳下的金色海面 远处有小渔船] 风格关键词:[梦幻水彩风格 温暖色调] 细节修饰:[飞溅的水花细节 虎鲸光滑皮肤反光 渔夫欢乐表情]
视频链接
测试完成就可以发布更新到探索
页面了,发布后选择运行就可以获得一个在线运行的工作流的网页!
3.4 使用文本/图像/视频生成工作流
在探索 - 文本/图像/视频生成开启新对话
输入提示词为 Hello Kitty 圣诞节和好友滑雪
,选择图生视频
,并上传图片,点击开始对话,输入生成滑雪的视频
,点击发送
当你也出现如下报错时,需要再 dify 的 .env
文件中添加 FILES_URL=http://host.docker.internal
,再重新启动即可
正在从URL获取图片: /files/2052d24d-fce1-4d34-9464...从URL下载图片失败: Invalid URL '/files/2052d24d-fce1-4d34-9464-ed7b3d616c0a/file-preview?timestamp=1751180380&nonce=097407fdb910c07ffce06ab26752e27d&sign=8WEXzpJHjiSH2DkXZIeTuLgZ5TRzcIVpRWgVBHVET9s=': No scheme supplied. Perhaps you meant https:///files/2052d24d-fce1-4d34-9464-ed7b3d616c0a/file-preview?timestamp=1751180380&nonce=097407fdb910c07ffce06ab26752e27d&sign=8WEXzpJHjiSH2DkXZIeTuLgZ5TRzcIVpRWgVBHVET9s=?
再经过图生视频的工作流,创建视频生成任务,已等待 15 秒...视频生成成功!
正在从URL获取图片: http://host.docker.internal/fi…成功下载图片: 大小=127.72KB图片编码完成: 原始大小=127.72KB, 编码后大小=170.29KB正在使用豆包 Seedance 图生视频模型生成视频…正在创建视频生成任务…视频生成任务已创建,任务ID: cgt-20250629154144-rppjq提示词: Hello Kitty 圣诞节和好友滑雪 --ratio adaptive --duration 5正在等待视频生成完成…视频正在生成中,已等待 5 秒…视频正在生成中,已等待 10 秒…视频正在生成中,已等待 15 秒…视频生成成功!上方视频链接有效期为24小时。如需保存,请在此期间内下载视频文件。
fa274517e6ec43e2a5d7a2e4ce9504eb.mp4
最后生成 5 秒的视频,视频质量很高,环境和动作都渲染的很好
四、总结
通过Dify高效集成了豆包多模态API,成功构建了文本→图像→视频
的端到端创意工作流,不仅验证了Dify在复杂任务编排中的灵活性(如异步调度、分支并行处理),更凸显了多模态模型在中文场景动态生成的独特优势,其细腻的情感表达与物理模拟能力,让静态创意真正"活"了起来,提供了跨模态技术落地的标准化路径,为AIGC应用注入强扩展性。工作流将单点生成升级为可迭代的创作管线(如生成→优化→组合),释放出"1+1>2"的生产力增益,突破工具链割裂的瓶颈,实现"所想即所得"的沉浸式创作体验。
华为云 MaaS(ModelArts Studio
)平台提供的 DeepSeek-V3
模型推理服务,在构建大模型应用方面具备多项显著优势,综合技术适配、成本效益、部署便捷性与企业级能力于一体。免费额度+低代码调用,可以快速验证AI应用原型,而大型企业生产部署,可以选择高稳定、可扩展的商用推理服务,支撑关键业务智能化升级。