华为云Flexus+DeepSeek征文｜基于Dify构建拍照识题智能学习助手

一、构建拍照识题智能学习助手前言
二、构建拍照识题智能学习助手环境
- 2.1 基于FlexusX实例的Dify平台
- 2.2 基于MaaS的模型API商用服务
三、构建拍照识题智能学习助手实战
- 3.1 配置Dify环境
- 3.2 配置Dify工具
- 3.3 创建拍照识题智能学习助手
- 3.4 使用拍照识题智能学习助手
四、总结

一、构建拍照识题智能学习助手前言

面对纸质习题、板书题目等实体知识载体的数字化理解鸿沟，传统答疑方式往往力有不逮。智能看图解题助手，可以巧妙地融合了用户直观的拍照上传与文字提问双通道输入，用户仅需拍照上传，系统便能通过Qwen2.5-VL精准提取题目，并由DeepSeek-V3完成知识讲解，将复杂的图像识别与语义理解转化为即时、权威的认知输出，这不仅极大提升了答疑的便捷性与覆盖场景，更将多模态交互的潜力转化为用户指尖可触、可感的认知升级，让复杂问题的求解过程变得前所未有的流畅与高效。

依托FlexusX云服务器强大的弹性算力与高并发稳定性，无缝承载了基于MaaS模式部署的DeepSeek大模型，使其能够毫秒级响应复杂的看图解题请求，结合模型本身在中文理解、逻辑推理与知识讲解上的深度优化，共同确保了智能助手的流畅性、可靠性与专业输出品质，为用户提供高性能、免运维的一站式智能服务体验。

在这里插入图片描述

二、构建拍照识题智能学习助手环境

2.1 基于FlexusX实例的Dify平台

华为云FlexusX实例提供高性价比的云服务器，按需选择资源规格、支持自动扩展，减少资源闲置，优化成本投入，并且首创大模型QoS保障，智能全域调度，算力分配长稳态运行，一直加速一直快，用于搭建Dify-LLM应用开发平台。

Dify是一个能力丰富的开源AI应用开发平台，为大型语言模型（LLM）应用的开发而设计。它巧妙地结合了后端即服务（Backend as Service）和LLMOps的理念，提供了一套易用的界面和API，加速了开发者构建可扩展的生成式AI应用的过程。

参考：华为云Flexus+DeepSeek征文 | 基于FlexusX单机一键部署社区版Dify-LLM应用开发平台教程

2.2 基于MaaS的模型API商用服务

MaaS预置服务的商用服务为企业用户提供高性能、高可用的推理API服务，支持按Token用量计费的模式。该服务适用于需要商用级稳定性、更高调用频次和专业支持的场景。

参考：华为云Flexus+DeepSeek征文 | 基于ModelArts Studio开通和使用DeepSeek-V3/R1商用服务教程

在这里插入图片描述

三、构建拍照识题智能学习助手实战

3.1 配置Dify环境

输入管理员的邮箱和密码，登录基于FlexusX部署好的Dify网站

在这里插入图片描述

将MaaS平台的模型服务接入Dify，这里我们选择的是DeepSeek V3商用服务，需要记住调用说明中的接口信息和 API Key 管理中API Key，若没有可以重新创建即可

在这里插入图片描述

配置Dify模型供应商：设置 - 模型供应商 - 找到OpenAI-API-compatible供应商并单击添加模型，在添加 OpenAI-API-compatible对话框，配置相关参数，然后单击保存

在这里插入图片描述

参数	说明
模型类型	选择`LLM`。
模型名称	填入模型名称。
API Key	填入创建的API Key。
API Endpoint URL	填入获取的MaaS服务的基础API地址，需要去掉地址尾部的“/chat/completions”后填入

3.2 配置Dify工具

通义千问

同义 Qwen 由阿里云开发，是一系列复杂的 LLM。它包括多个变体，例如用于文本处理的 Qwen、用于视觉语言任务的 Qwen-VL 和用于音频理解的 Qwen-Audio。这些模型以其令人印象深刻的规模而著称，旗舰 Qwen-72B 模型具有 720 亿个参数，并在超过 3 万亿个代币上进行了训练。

根据多个实战案例的测试结果，Qwen/Qwen2-VL-72B-Instruct模型在中文票据识别任务中表现最佳。该模型特点：

强大的视觉理解能力
对中文票据格式有良好适配性
支持结构化输出

打开设置 - 模型供应商 - 安装模型供应商，选择通义千问，进行安装

在这里插入图片描述

安装完成后，您需要从阿里云获取 API 密钥

在这里插入图片描述

并在设置 -> Model Provider 中添加通义千问 API Key

在这里插入图片描述

刷新页面后就可以查看到 qwen2.5-vl-72b-instruct 状态已开启

在这里插入图片描述

3.3 创建拍照识题智能学习助手

在 Dify - 工作室，创建空白应用，选择 Chatflow ，输入应用名称和图标，点击创建

在这里插入图片描述

默认是有个简单的模板的，删除其他默认节点，保留开始节点

在这里插入图片描述

点击右上角 功能 菜单，开启文件上传功能，并选择图片类型，保存即可

在这里插入图片描述

开始节点后添加条件分支，用来判断用户是否上传了图片，如果上传了图片则提交给 Qwen2.5-vl 进行题目识别，如果没有上传图片则直接提交给 DeepSeek-V3 进行知识点讲解

在这里插入图片描述

若上传图片则添加LLM图片识别节点，通过 Qwen2.5-vl 对图片内容进行解析，识别题目，需要开始视觉，参数选择上传的文件

提示词参考：识别图片中的题目并输出题目

在这里插入图片描述

再添加LLM节点，用于题目解析，配置模型为MaaS通过的DeepSeek V3，添加上下文为 图片识别 返回的结果，也就是图片的题目信息，添加的提示词如下：

#角色你是一位经验丰富的小学全科老师，能够耐心指导我理解题目的相关知识。题目：引用上下文#技能1.能够记录和存储题目，帮助分析题目错误的地方背后的知识点，然后用苏格拉底提问法一步步引导我去理解相关的知识点，每次提问需要等待我回答后再继续提问，每次只提一个问题。2.请分析认为我搞懂题目相关知识点后，你可以出3道相同类型的题目检测我是否已经完全掌握。

在这里插入图片描述
这里的关键是要通过提示语规定大模型输出，要求大模型能够引导用户一步步进行知识点的讲解，而不是直接给出答案，最终达到接近真人老师的讲解效果，并且在判断用户掌握了该知识后能够出类似的题目进行检测。

最后添加直接回复节点，直接返回题目解析节点输出的变量即可

在这里插入图片描述

再将条件分支的ElSE也接入题目解析节点，并开启记忆功能，输入参数为用户输入内容 query

在这里插入图片描述

开启对话开场白功能，输入内容保存即可

在这里插入图片描述

编排完成后，就可以在预览界面进行测试，先直接输入问题测试：6x7=?

在这里插入图片描述

查看运行流程直接走的是题目解析，但是并没有直接给出答案，而是引导反问你对题目的认知，很接近真人老师

在这里插入图片描述

然后一步步的引导并讲解，知道你给出正确的答案

在这里插入图片描述

甚至还会出三道类似的题目

在这里插入图片描述

整个流程都很有很好的引导和解释，而且会给出正向反馈

在这里插入图片描述

再上传一张数学应用题的照片，并在对话框输入：讲解这几道题的思路

在这里插入图片描述

这时走进了图片识别的流程，返回值如下，可以检查下识别的准确度如何

{"text": "以下是图片中几道题目的思路讲解：\n\n### 01. 妈妈买了 5 个苹果，每个苹果 5 元，付给售货员 30 元，应找回多少元？\n**思路：**\n1. 计算 5 个苹果的总价格：5 个苹果 × 5 元/个 = 25 元。\n2. 用付给售货员的 30 元减去苹果的总价格：30 元 - 25 元 = 5 元。\n3. 应找回的金额为 5 元。\n\n### 02. 小美拿着 25 元去买作业本，每个作业本是 3 元，她最多能买几个作业本？\n**思路：**\n1. 用总金额除以每个作业本的价格：25 元 ÷ 3 元/本 ≈ 8.33。\n2. 由于不能买部分作业本，所以最多能买 8 个作业本。\n\n### 03. 同学们要栽 65 棵树，已经栽了 6 行，每行 8 棵，还需要栽多少棵？\n**思路：**\n1. 计算已经栽了多少棵树：6 行 × 8 棵/行 = 48 棵。\n2. 用总共要栽的树数减去已经栽的树数：65 棵 - 48 棵 = 17 棵。\n3. 还需要栽 17 棵树。\n\n### 04. 小刚今年 7 岁，妈妈比小刚大 23 岁，爸爸比妈妈大 4 岁，那爸爸妈妈分别多少岁？\n**思路：**\n1. 计算妈妈的年龄：7 岁 + 23 岁 = 30 岁。\n2. 计算爸爸的年龄：30 岁 + 4 岁 = 34 岁。\n3. 妈妈 30 岁，爸爸 34 岁。\n\n### 05. 把 35 个彩球按 4 个一组分类，可以分成几组，还剩下几个彩球？\n**思路：**\n1. 用总彩球数除以每组的彩球数：35 个 ÷ 4 个/组 = 8 组…… 3 个。\n2. 可以分成 8 组，还剩下 3 个彩球。\n\n### 06. 食堂里有 100 千克大米，用去 60 千克，剩下的每天吃 8 千克，还可以吃多少天？\n**思路：**\n1. 计算剩下多少大米：100 千克 - 60 千克 = 40 千克。\n2. 用剩下的大米除以每天吃的量：40 千克 ÷ 8 千克/天 = 5 天。\n3. 还可以吃 5 天。\n\n### 07. 把一根绳子对折后，再次对折后有 20 厘米，这根绳子原本有多长？\n**思路：**\n1. 两次对折后的长度为 20 厘米。\n2. 每次对折长度减半，所以对折一次后的长度为 20 厘米 × 2 = 40 厘米。\n3. 原本的长度为 40 厘米 × 2 = 80 厘米。\n\n### 08. 某栋大楼共十层，每层 4 米，小刚站在 8 楼的阳台，他离一楼地面多少米？\n**思路：**\n1. 计算小刚所在的楼层高度：(8 - 1) 层 × 4 米/层 = 7 层 × 4 米/层 = 28 米。\n2. 小刚离一楼地面的高度为 28 米。","usage": {"prompt_tokens": 1190,"prompt_unit_price": "4.13","prompt_price_unit": "0.000001","prompt_price": "0.0049147","completion_tokens": 921,"completion_unit_price": "4.13","completion_price_unit": "0.000001","completion_price": "0.0038037","total_tokens": 2111,"total_price": "0.0087184","currency": "RMB","latency": 49.49028724800155},"finish_reason": "stop"
}

再次进入问题的一步步探讨过程

在这里插入图片描述

简单的回答了第1个问题了，得到了正确的答复后，就开始了第2个问题，流程较长没有完全测试

在这里插入图片描述

测试完成就可以发布更新到探索页面了，发布后选择运行就可以获得一个在线运行的智能学习助手的网页！

3.4 使用拍照识题智能学习助手

在探索 - 拍照识题智能学习助手中开启新对话

在这里插入图片描述

这里测试一下英语问题，搜到一张英语的试题

上传此图片，并输入：怎么做

在这里插入图片描述

此时不能查看图片识别的全部返回值，只能查看输入的问题来看了

在这里插入图片描述

第一个问题的识别准确，回答出正确答案后，但是解释不正确

在这里插入图片描述

很容易拓展知识点，可以直接继续下一题，整个过程真的很像被老师答疑解惑的感觉，这个提示词太强了！大家也可以试试，尤其是小学生的家长们！

在这里插入图片描述

四、总结

通过dify直观的可视化工作流编排，将复杂的多模态识别（Qwen2.5-VL）、智能判断与知识讲解（DeepSeek-v3）模块无缝集成变得异常清晰高效，深刻体会到其降低智能应用开发门槛的强大力量，让聚焦用户价值（看图解题）的核心逻辑得以快速验证和流畅运行，真正实现了从构想到落地的极短周期，使技术创新触手可及。

依托FlexusX云服务器的高弹性算力与稳定承载，无缝驱动MaaS模式下的DeepSeek V3调用API，实现毫秒级响应的专业级语义理解与精准知识输出，以卓越性能和免运维的可靠性，为智能应用提供强大引擎。