华为云 Flexus+DeepSeek 征文|增值税发票智能提取小工具:基于大模型的自动化信息解析实践
前言背景
企业财务处理中,增值税发票信息手动提取存在效率低、易出错等痛点,华为云 Flexus 弹性算力联合 DeepSeek 大模型,通过 CCE 集群部署 Dify 平台,构建发票上传 - 文本解析 - 信息提取自动化工作流,可精准识别发票代码、金额等关键数据并输出结构化 JSON,助力企业提升财务处理效率,降低人工成本
前提准备
Step.1 华为账号注册登录
1、华为云官网登录
Step.2 华为云单机部署流程
华为云 Flexus+DeepSeek 实战:华为云单机部署 Dify-LLM 开发平台全流程指南【服务部署、模型配置、知识库构建全流程】
查看链接
✅上面链接文章是本文的操作前提,包含了华为云单机部署 Dify - LLM 开发平台全流程,涵盖 ModelArts Studio 大模型开通、Dify 平台单机与模型供应商配置,还有高质量知识库配置(含 Embedding 及 Rerank 模型部署、相关供应商配置等),以及资源删除销毁,大家需要根据链接完成前提部署再进行本文的操作流程哈
智能体工作流搭建配置
1、智能体工作流信息创建配置
2、工作流创建配置
3、开始节点配置
4、文档提取器节点配置
- 输入:接收 “开始” 节点的
sys.files
(即上传的发票文件,支持 pdf、docx 等多格式 ),作为提取内容的来源。- 功能:解析文件文本信息,输出给后续 “LLM(DeepSeek - R1 模型 )” 节点,让 AI 基于提取的内容识别发票关键数据(如金额、税额等 ),是从 “文件上传” 到 “智能识别” 的核心转换环节 。
5、大模型配置
- 模型:选用
DeepSeek-R1
,用于处理发票提取任务。- 输入:接收 “文档提取器” 解析的发票文件内容(
file
关联的文件信息 )。- 系统指令(SYSTEM):要求提取发票关键信息(如机器编号、发票代码等 ),并以 JSON 格式输出,明确模型处理发票内容的规则,是智能识别发票数据的核心环节 。
- USER 输入:关联 “开始” 节点的
sys.query
,即把用户输入的查询内容作为该模块的用户侧输入,用于流程中结合历史或上下文信息处理,是构建对话 / 任务上下文关联的配置项 。
# 角色 你是一个专业的发票信息提取助手,能够从增值税发票中精准地解析并提取所需的信息,然后将这些信息按照指定的JSON格式进行输出。## 技能 ### 技能 1: 解析发票 1. 接收并识别增值税发票的图像或文本信息。 2. 根据规则说明,准确提取出所有必要的字段信息。### 技能 2: 数据校验 1. 确保提取的数据符合格式要求,如字段名称与示例完全一致,包括标点和空格。 2. 对金额、日期等关键信息进行校验,确保其严格按票面信息提取。### 技能 3: JSON格式化 1. 将提取的数据按照指定的JSON结构进行组织。 2. 确保所有字段的值正确无误,如无对应信息则填入空字符串。### 技能 4: 精准识别 1. 仔细匹配发票上的文字信息,确保每个字段的提取精准无误。 2. 对于票面上直接显示的税率、税额等信息直接取值,对于需要计算的则按照票面的计算逻辑进行处理。## 限制 - 提取信息时必须严格依据票面内容,不能自行推测或填写不存在的字段。 - 输出内容必须符合规定的JSON格式,不能有任何偏差。 - 对于所有字段的提取,若无对应信息,则必须填写空字符串,不得留白或填写其它默认值。
6、结束节点
- 功能:接收 LLM 节点输出的
text
(即发票提取结果 ),作为最终回复内容输出给用户。- 流程定位:是工作流收尾环节,把 AI 处理后的发票信息(如金额、税额等关键数据 ),通过该节点反馈,完成 “上传发票→提取信息→回复结果” 的完整流程 。
工作流测试与预览
1、准备需要提取的发票
2、上传至Dify平台
3、工作流提取分析
{ "机器编号": "", "发票代码": "", "发票号码": "24342000000169207701", "开票日期": "2024年11月22日", "校验码": "", "购买方名称": "杭州...有限公司", "购买方纳税人识别号": "91330...CAYEC75C", "购买方地址、电话": "", "开户行及账号": "", "货物或应税劳务、服务名称": "*信息技...息服务费", "规格型号": "", "单位": "", "数量": "", "单价": "", "金额": "¥243.40", "税率": "6%", "税额": "¥14.60", "价税合计(大写)": "贰佰伍拾捌圆整", "价税合计(小写)": "¥258.00", "销售方名称": "蚌埠谦..技有限公司", "销售方纳税人识别号": "9134030...34329C", "销售方地址、电话": "", "开户行及账号": "徽商银行股份...蚌山支行;2379702504...528183/12804010210002...991", "备注": "", "收款人": "", "复核": "" }
4、成功搭建展示
应用场景与拓展方向
通过华为云 Flexus 算力与 DeepSeek 大模型结合,实现增值税发票关键信息自动化提取,已在企业财务审核、智能报销及税务申报等场景落地,未来将向多票种识别、OCR 与 LLM 深度融合及行业定制方案拓展,全面提升票据处理智能化水平
✅财务场景全覆盖:支撑企业发票验真、报销流程优化及税务申报自动化,如某制造企业借此提升审核效率提高
✅技术融合升级:通过 OCR 模型与 DeepSeek 大模型结合提升识别准确率,计划拓展至全票种类型解析
✅行业定制拓展:针对零售、医疗等行业开发专属模板,同步集成区块链存证实现票据数据全链路可信溯源
总结
本文基于华为云 Flexus 弹性算力与 DeepSeek 大模型,通过 CCE 集群部署 Dify 平台构建增值税发票智能提取工具,实现发票代码、金额等关键信息自动化解析与结构化输出,经过实践可以企业财务、报销及税务场景落地提效,未来可以向多票种兼容、OCR+LLM 深度融合及行业定制方向拓展,为票据处理智能化提供解决方案
✅极简部署体验:通过自动化工具与预置模板,快速完成环境配置,无需复杂操作即可搭建开发平台
✅柔性资源调配:支持 CPU 与内存灵活配比,根据业务负载动态调整资源,按需计费降低算力成本
✅场景无缝适配:适用于个人学习、中小企业开发测试等场景,且能平滑扩展至集群部署,满足业务增长需求