华为云Flexus+DeepSeek征文|基于Dify构建文本/图像/视频生成工作流

华为云Flexus+DeepSeek征文|基于Dify构建文本/图像/视频生成工作流

  • 一、构建文本/图像/视频生成工作流前言
  • 二、构建文本/图像/视频生成工作流环境
    • 2.1 基于FlexusX实例的Dify平台
    • 2.2 基于MaaS的模型API商用服务
  • 三、构建文本/图像/视频生成工作流实战
    • 3.1 配置Dify环境
    • 3.2 配置Dify工具
    • 3.3 创建文本/图像/视频生成工作流
    • 3.4 使用文本/图像/视频生成工作流
  • 四、总结

一、构建文本/图像/视频生成工作流前言

当前,生成式AI技术正从单一模态向跨模态协同创作演进,而工作流编排平台成为释放大模型潜力的关键枢纽。在这一技术演进浪潮中,Dify凭借其灵活的可视化编排能力,使开发者能够无缝集成各类大模型API,构建端到端的创意生产管道。大模型在多模态生成领域实现了显著突破——支持文本生成图像(T2I)、文本生成视频(T2V)、图像生成视频(I2V)三大核心功能,在运动质量、情感表达和物理模拟等维度达到很高水准,能够进行各种艺术和多媒体内容的生产。

Flexus X 实例以柔性资源+智能调度双引擎,解决了大模型应用中资源碎片化、性能波动、长时运维等痛点,尤其适合两类场景,敏捷开发:中小团队快速迭代模型,低成本试错;生产部署:企业级高并发推理服务,兼顾性能与成本最优。通过技术民主化(一键式运维)与资源精细化(动态配比),让大模型从实验室技术加速转化为生产力工具。

在这里插入图片描述

二、构建文本/图像/视频生成工作流环境

2.1 基于FlexusX实例的Dify平台

华为云FlexusX实例提供高性价比的云服务器,按需选择资源规格、支持自动扩展,减少资源闲置,优化成本投入,并且首创大模型QoS保障,智能全域调度,算力分配长稳态运行,一直加速一直快,用于搭建Dify-LLM应用开发平台。

Dify是一个能力丰富的开源AI应用开发平台,为大型语言模型(LLM)应用的开发而设计。它巧妙地结合了后端即服务(Backend as Service)和LLMOps的理念,提供了一套易用的界面和API,加速了开发者构建可扩展的生成式AI应用的过程。

参考:华为云Flexus+DeepSeek征文 | 基于FlexusX单机一键部署社区版Dify-LLM应用开发平台教程

2.2 基于MaaS的模型API商用服务

MaaS预置服务的商用服务为企业用户提供高性能、高可用的推理API服务,支持按Token用量计费的模式。该服务适用于需要商用级稳定性、更高调用频次和专业支持的场景。

参考:华为云Flexus+DeepSeek征文 | 基于ModelArts Studio开通和使用DeepSeek-V3/R1商用服务教程

在这里插入图片描述

三、构建文本/图像/视频生成工作流实战

3.1 配置Dify环境

输入管理员的邮箱和密码,登录基于FlexusX部署好的Dify网站

在这里插入图片描述

将MaaS平台的模型服务接入Dify,这里我们选择的是DeepSeek V3商用服务,需要记住调用说明中的接口信息和 API Key 管理中API Key,若没有可以重新创建即可

在这里插入图片描述

配置Dify模型供应商:设置 - 模型供应商 - 找到OpenAI-API-compatible供应商并单击添加模型,在添加 OpenAI-API-compatible对话框,配置相关参数,然后单击保存

在这里插入图片描述

参数说明
模型类型选择LLM
模型名称填入模型名称。
API Key填入创建的API Key。
API Endpoint URL填入获取的MaaS服务的基础API地址,需要去掉地址尾部的“/chat/completions”后填入

3.2 配置Dify工具

Doubao Image and Video Generator

基于火山引擎豆包 API 的全功能 AI 媒体生成 Dify 插件,支持文本生成图像、文本生成视频以及图像转视频功能。

申请火山方舟 API Key,在 火山方舟 API Key 页面上创建新的 API 密钥,保存此 Key

在这里插入图片描述

在 火山方舟开通管理 中,开通视觉模型中的三个服务:文生图 Doubao-Seedream-3.0-t2i、文生视频 Doubao-Seedance-1.0-lite-t2v、图生视频 Doubao-Seedance-1.0-lite-i2v,都是由免费的额度可以使用的

在这里插入图片描述

打开DIfy - 工具中搜索 Daobao ,找到 Doubao Image and Video Generator 并安装它

在这里插入图片描述

安装完成后点击 Doubao Generator,点击去授权,填入上面获取到的 API Key,点击保存即可

在这里插入图片描述

查看到已授权,后面就可以在Chatflow 和 Workflow 应用程序中添加 Doubao Generator 工具节点,提供了 3 种方法:Text to ImageText to VideoImage to Video

在这里插入图片描述

3.3 创建文本/图像/视频生成工作流

在 Dify - 工作室,创建空白应用,选择 Chatflow,输入应用名称和图标,点击创建

在这里插入图片描述

删除其他默认节点,在开始节点后添加输入字段 promptpicturetype

prompt(文本):提示词
picture(单文件):图片
type(下拉选项):选择类型(文本生成图像、文本生成视频、图像转视频)

在这里插入图片描述

添加条件分支节点,分成三个分支,Case1为文生图片,Case2为文生视频,Case3为图生视频(需要同时上传图片)

在这里插入图片描述

若为其他情况,则直接回复重新上传图片

在这里插入图片描述

Case1 再添加LLM节点,命名为文生图提示词改写LLM,这步主要是通过大语言模型生成文生图的提示词。模型 选择由华为 Maas 提供的 DeepSeek V3 ,系统提示词参考如下:

# Role: 即梦AI文生图结构化提示词生成器 (Jmeng AI Image Structured Prompt Generator)
## Background:
- 这是一个专门为即梦AI生成静态图像提示词的工具
- 将用户的画面创意转换为结构化提示词
- 输出格式固定且简洁
## Core Objectives:
- 将用户输入的画面创意转换为结构化提示词
- 确保输出格式统一且易于使用
- 提供丰富且具体的画面描述
## Constraints:
1. 输出格式必须严格遵循:画面主体:[内容] 场景描述:[内容] 风格关键词:[内容] 细节修饰:[内容]2. 禁止输出任何额外的文字说明或格式
3. 各字段之间使用空格分隔
4. 直接输出结果,不进行对话
## Skills:
1. 静态构图能力:- 准确描述主体位置- 定义姿态和表情- 把握画面重点
2. 场景描写能力:- 营造环境氛围- 描述天气光线- 构建空间感
3. 风格定义能力:- 应用艺术流派- 把控色彩风格- 确定渲染技术
4. 细节补充能力:- 添加画质要素- 强化材质表现- 突出关键特征
## Workflow:
1. 接收用户输入的画面创意
2. 将创意拆解为四个维度
3. 组合成规定格式字符串
4. 直接输出结果
## OutputFormat:
画面主体:[主体描述] 场景描述:[场景内容] 风格关键词:[风格定义] 细节修饰:[细节内容]## Init:
我已准备好接收您的画面创意,将直接输出符合格式的提示词。

用户提示词参考如下:

请根据用户输入{{#开始.prompt#}}改写符合即梦AI绘画的提示词

在这里插入图片描述

添加节点 - 工具 - Doubao Generator - Text to lmage,添加完成后配置节点,输入变量为文生图提示词改写LLM生成的提示词,IMAGE SIZE选择1024x1024(Square),MODEL VERSION 选择 DoubaoSeedream 3.0

在这里插入图片描述

这里再添加直接回复节点,输出文生图提示词生成的图片

在这里插入图片描述

Case2 再添加LLM节点,命名为文生视频提示词改写LLM,这步主要是通过大语言模型生成文生视频的提示词。模型 选择由华为 Maas 提供的 DeepSeek V3 ,系统提示词参考如下:

# Role: 即梦AI文生视频结构化提示词生成器 (Jmeng AI Video Structured Prompt Generator)
## Background:
- 这是一个专门为即梦AI生成视频提示词的工具
- 将用户的视频创意转换为结构化提示词
- 输出格式固定且简洁
## Core Objectives:
- 将用户输入的视频创意转换为结构化提示词
- 确保输出格式统一且易于使用
- 提供丰富且具体的动态场景描述
## Constraints:
1. 输出格式必须严格遵循:画面主体:[内容] 动作描述:[内容] 场景描述:[内容] 风格关键词:[内容] 细节修饰:[内容]2. 禁止输出任何额外的文字说明或格式
3. 各字段之间使用空格分隔
4. 直接输出结果,不进行对话
## Skills:
1. 动态构图能力:- 准确描述主体位置- 定义动作流程- 把握动态重点
2. 场景描写能力:- 营造环境氛围- 描述天气光线- 构建空间感
3. 风格定义能力:- 应用视频风格- 把控色彩风格- 确定渲染技术
4. 细节补充能力:- 添加动态要素- 强化材质表现- 突出关键特征
## Workflow:
1. 接收用户输入的视频创意
2. 将创意拆解为五个维度
3. 组合成规定格式字符串
4. 直接输出结果
## OutputFormat:画面主体:[主体描述] 动作描述:[动作内容] 场景描述:[场景内容] 风格关键词:[风格定义] 细
节修饰:[细节内容]## Init:
我已准备好接收您的视频创意,将直接输出符合格式的提示词。

用户提示词参考如下:

请根据用户输入{{#开始.prompt#}}改写符合即梦AI绘画的提示词

在这里插入图片描述

添加节点 - 工具 - Doubao Generator - Text toVideo,添加完成后配置节点,输入变量为文生图提示词改写LLM生成的提示词,ASPECT RATIO选择16:9 (Landscape),DURATION(SECONDS) 选择 5secondsMODEL VERSION 选择 DoubaoSeedance 1.0 Lite

在这里插入图片描述

再添加LLM节点,用于文生视频内容提取,模型选择为 DeepSeek V3,系统提示词参考如下:

仅提取内容中的视频链接,然后变成 markdown 格式。
这是你看到的内容:{{#文生视频.text#}}

用户提示词为:

{{#文生视频.text#}}

在这里插入图片描述

这里再添加直接回复节点,输出文生视频提示词生成的视频

在这里插入图片描述

Case3 添加节点 - 工具 - Doubao Generator - Text toVideo,添加完成后配置节点,输入变量 Prompt 为开始输入的提示词,Image 为开始上传的图片,ASPECT RATIO选择16:9 (Landscape),ASPECT RATIO(REFERENCEONLY) 选择 Adaptive(Auto)DURATION(SECONDS) 选择 5seconds

在这里插入图片描述

最后添加直接回复节点,输出图片生成视频的提示词视频

在这里插入图片描述

编排工作流后点击右上角的运行进行测试,输入提示词为 虎鲸和小渔夫游玩,选择类型为文生图像,输入开始,点击发送

在这里插入图片描述

查看完整流程,开始 - 条件分支 - 文生图提示词改写LLM - 文生图 - 文生图回复,这里主要查看下 文生图提示词改写LLM 节点输出的结果

{"text": "画面主体:[虎鲸与小渔夫在海中嬉戏] 场景描述:[日落时分的平静海面,金色阳光洒在水面上] 风格关键词:[童话风格,温暖色调,水彩质感] 细节修饰:[虎鲸喷出水柱,小渔夫开心大笑,海浪轻轻拍打,远处有小渔船轮廓]","usage": {"prompt_tokens": 406,"prompt_unit_price": "0","prompt_price_unit": "0","prompt_price": "0","completion_tokens": 71,"completion_unit_price": "0","completion_price_unit": "0","completion_price": "0","total_tokens": 477,"total_price": "0","currency": "USD","latency": 3.138953330984805},"finish_reason": "stop"
}

在这里插入图片描述

最后输出图片提示词和生成的图片如下,这个图片的效果很不错,比我之前使用的 Flux 要好很多

画面主体:[虎鲸与小渔夫在海中嬉戏] 场景描述:[日落时分的平静海面,金色阳光洒在水面上] 风格关键词:[童话风格,温暖色调,水彩质感] 细节修饰:[虎鲸喷出水柱,小渔夫开心大笑,海浪轻轻拍打,远处有小渔船轮廓]在这里插入图片描述

在这里插入图片描述

再测试一下文生视频,输入提示词为 虎鲸和小渔夫游玩,选择类型为文生视频,输入开始,点击发送

在这里插入图片描述

按照文生视频的工作流,最后输出视频提示词和生成的视频如下,这个视频的效果也很不错

画面主体:[虎鲸和小渔夫] 动作描述:[虎鲸跃出水面与小渔夫互动嬉戏] 场景描述:[夕阳下的金色海面 远处有小渔船] 风格关键词:[梦幻水彩风格 温暖色调] 细节修饰:[飞溅的水花细节 虎鲸光滑皮肤反光 渔夫欢乐表情]
视频链接

在这里插入图片描述

测试完成就可以发布更新到探索页面了,发布后选择运行就可以获得一个在线运行的工作流的网页!

3.4 使用文本/图像/视频生成工作流

在探索 - 文本/图像/视频生成开启新对话

在这里插入图片描述

输入提示词为 Hello Kitty 圣诞节和好友滑雪,选择图生视频,并上传图片,点击开始对话,输入生成滑雪的视频,点击发送

在这里插入图片描述

当你也出现如下报错时,需要再 dify 的 .env 文件中添加 FILES_URL=http://host.docker.internal,再重新启动即可

正在从URL获取图片: /files/2052d24d-fce1-4d34-9464...从URL下载图片失败: Invalid URL '/files/2052d24d-fce1-4d34-9464-ed7b3d616c0a/file-preview?timestamp=1751180380&nonce=097407fdb910c07ffce06ab26752e27d&sign=8WEXzpJHjiSH2DkXZIeTuLgZ5TRzcIVpRWgVBHVET9s=': No scheme supplied. Perhaps you meant https:///files/2052d24d-fce1-4d34-9464-ed7b3d616c0a/file-preview?timestamp=1751180380&nonce=097407fdb910c07ffce06ab26752e27d&sign=8WEXzpJHjiSH2DkXZIeTuLgZ5TRzcIVpRWgVBHVET9s=?

再经过图生视频的工作流,创建视频生成任务,已等待 15 秒...视频生成成功!

在这里插入图片描述

正在从URL获取图片: http://host.docker.internal/fi…成功下载图片: 大小=127.72KB图片编码完成: 原始大小=127.72KB, 编码后大小=170.29KB正在使用豆包 Seedance 图生视频模型生成视频…正在创建视频生成任务…视频生成任务已创建,任务ID: cgt-20250629154144-rppjq提示词: Hello Kitty 圣诞节和好友滑雪 --ratio adaptive --duration 5正在等待视频生成完成…视频正在生成中,已等待 5 秒…视频正在生成中,已等待 10 秒…视频正在生成中,已等待 15 秒…视频生成成功!上方视频链接有效期为24小时。如需保存,请在此期间内下载视频文件。
fa274517e6ec43e2a5d7a2e4ce9504eb.mp4

最后生成 5 秒的视频,视频质量很高,环境和动作都渲染的很好

在这里插入图片描述

四、总结

通过Dify高效集成了豆包多模态API,成功构建了文本→图像→视频的端到端创意工作流,不仅验证了Dify在复杂任务编排中的灵活性(如异步调度、分支并行处理),更凸显了多模态模型在中文场景动态生成的独特优势,其细腻的情感表达与物理模拟能力,让静态创意真正"活"了起来,提供了跨模态技术落地的标准化路径,为AIGC应用注入强扩展性。工作流将单点生成升级为可迭代的创作管线(如生成→优化→组合),释放出"1+1>2"的生产力增益,突破工具链割裂的瓶颈,实现"所想即所得"的沉浸式创作体验。

华为云 MaaS(ModelArts Studio)平台提供的 DeepSeek-V3 模型推理服务,在构建大模型应用方面具备多项显著优势,综合技术适配、成本效益、部署便捷性与企业级能力于一体。免费额度+低代码调用,可以快速验证AI应用原型,而大型企业生产部署,可以选择高稳定、可扩展的商用推理服务,支撑关键业务智能化升级。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/87004.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/87004.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

相机-IMU联合标定:IMU更新频率

文章目录 📚简介⚠️ IMU频率参数错误设置的影响❌ 相机-IMU联合标定失败:Optimization failed!🚀 确定IMU更新频率直接通过 rostopic hz 检查实际频率检查 IMU 驱动或数据手册从 bag 文件统计频率在这里插入图片描述修改 `update_rate` 的注意事项**最终建议****常见问题…

动手实践:如何提取Python代码中的字符串变量的值

要提取Python代码中所有变量类型为字符串的变量的值,但不执行代码(避免安全风险),可以通过静态分析代码的抽象语法树(AST)来实现。以下是完整的解决方案: 本文由「大千AI助手」原创发布&#xf…

Python中字符串isalpha()函数详解

在 Python 中,isalpha() 是字符串(string)类型的内置方法,用于检查字符串中的所有字符是否都是字母字符(alphabetic character)。以下是详细说明: 一、基本功能 返回值:布尔值&…

Gradio全解13——MCP详解(4)——TypeScript包命令:npm与npx

Gradio全解13——MCP详解(4)——TypeScript包命令:npm与npx 第13章 MCP详解13.4 TypeScript包命令:npm与npx13.4.1 概念区分1. npm概念与运行逻辑2. npx概念及特点 13.4.2 操作示例1. 使用npm执行包2. 使用npx执行包3. 常用npm命令…

《推客小程序全链路开发指南:从架构设计到裂变运营》

在移动互联网流量红利逐渐消退的今天,如何低成本获客成为企业营销的核心痛点。推客小程序作为一种基于社交关系的裂变营销工具,正成为企业突破增长瓶颈的利器。本文将为您全面解析推客小程序的开发定制全流程,帮助您打造专属的社交裂变营销平…

中钧科技参加中亚数字经济对话会,引领新疆企业数字化新征程!

6月27 日,乌鲁木齐成为数字经济领域的焦点,中国新疆 - 中亚国家数字经济和数字贸易企业对话会在此盛大举行。 来自中亚国家及新疆数字经济领域的100 余位核心代表齐聚一堂,围绕数字经济时代的机遇、挑战与策略展开深度探讨。 本次对话会由新…

k8s一键部署tongweb企业版7049m6(by why+lqw)

声明 1.此贴仅供参考,请根据自身需求在测试环境测试和修改。 安装准备 1.获取对应的安装包和授权,并将授权和安装包放在同一个目录下 2.docekr已配置远程仓库 3.提前拉取jdk的镜像(这里配置了使用openjdk:8) 安装 将以下内容复制到k8s_…

Qt 与 Halcon 联合开发六:基于海康SDK设计完整的相机类【附源码】

在现代工业自动化、机器人视觉、等领域,相机模块的作用至关重要。通过相机模块采集到的图像数据,我们能够进行一系列的图像处理和分析。为了高效地控制相机和处理图像,本篇文章将介绍如何使用Qt和Halcon联合开发一个相机模块,帮助…

第7篇:Gin模板引擎——服务端页面渲染

作者:GO兔 博客:https://luckxgo.cn 分享大家都看得懂的博客 引言 在Web开发中,服务端页面渲染(SSR)依然是构建动态网页的重要方式。Gin框架虽然以API开发见长,但也内置了强大的模板引擎支持,基于Go标准库的html/template包实现。本文将深入…

RagFlow 源码部署启动指南

一、环境准备 1. 安装 uv 和 pre-commit 如果已安装,可跳过。推荐使用官方方式安装,避免报错: pipx install uv pre-commit export UV_INDEXhttps://mirrors.aliyun.com/pypi/simple安装报错 使用清华源安装: pipx install uv…

【Python基础】12 闲谈分享:Python用于无人驾驶的未来

引言:一个程序员的自动驾驶梦想 还记得2016年的那个秋天,我第一次坐进特斯拉Model S的驾驶座,体验Autopilot功能。当方向盘开始自己转动,车辆在高速公路上自动跟随前车时,我的内心涌起了一种奇妙的感觉——这不就是我…

为什么js是单线程?

js单线程,同一时间只能做一件事 。js的单线程 主要与它的用途有关。作为浏览器脚本语言,js的主要用途是与用户互动,以及操作DOM。这决定了它只能是单线程,否则会带来很复杂的同步问题。如果js同时有两个线程,一个线程在…

DVWA靶场通关笔记-文件包含(Medium级别 9种渗透方法)

目录 一、文件包含 1、原因 2、危害 3、防范措施 二、代码审计(Medium级别) 1、渗透准备 (1)配置php.ini (2)file1.php (3)file2.php (4)file3.php…

飞云翻倍布林(翻倍密码系统四线布林版)双安全系统+均价趋势指标+日线周线MACD,组合操盘技术图文分享

如上图组合操盘套装指标,主图指标-翻倍密码系统四线布林版-飞云翻倍布林。副图指标1-均价趋势指标,跟踪市场均价走势和趋势;副图指标2-日线周线MACD指标,跟踪日线和周线两个级别的MACD多空走势以及共振与否。 主图指标-飞云翻倍布…

《汇编语言:基于X86处理器》第6章 条件处理(1)

本章向程序员的汇编语言工具箱中引入一个重要的内容,使得编写出来的程序具备作决策的功能。几乎所有的程序都需要这种能力。首先,介绍布尔操作,由于能影响CPU状态标志,它们是所有条件指令的核心。然后,说明怎样使用演绎…

【分治思想】归并排序 与 逆序对

归并排序 归并排序是一种分治算法,怎么分,怎么治? 分:通过递归不断把数组分成两半,直到每个子数组只剩 1 个元素(天然有序)治:把两个已经排好序的子数组合并成一个有序数组。 把问…

SQL参数化查询:防注入与计划缓存的双重优势

在数据库操作中,SQL参数化查询(Parameterized Queries)是一种非常有效的技术,它不仅可以防止SQL注入攻击,还可以提高数据库查询的效率,尤其是在与计划缓存(Query Plan Caching)结合使…

【你怕一E1】- 孰轻孰重如何断-组合问题的多种情形

摘要 本视频讲解了组合问题的多种情形,包括多选一、多选二、多选三以及分队问题的解题方法。首先介绍了从不同人数中选人的不同选择方式,如一百人中选一人有一百种选择。随后,详细讲解了有序思考方法在多选二问题中的应用,通过选队长的方式列举不同组合情况,并归纳出选择规…

nginx反向代理的bug

nginx反向代理的bug 问题呈现 当我们配置反向代理的时候查询error.log的时候我们发现以下的问题 2025/06/29 08:38:47 [error] 7#7: *2 open() “/usr/share/nginx/html/payed/notify” failed (2: No such file or directory), client: 192.168.98.1, server: localhost, r…

MyBatis 动态 SQL 与缓存机制深度解析

在Java持久层技术体系中,MyBatis凭借其灵活的SQL映射和强大的动态SQL能力,成为企业级应用开发的首选框架。本文从动态SQL核心语法、缓存实现原理、性能优化及面试高频问题四个维度,结合源码与工程实践,系统解析MyBatis的核心特性与…