华为云Flexus+DeepSeek征文|基于Dify构建拍照识题智能学习助手

华为云Flexus+DeepSeek征文|基于Dify构建拍照识题智能学习助手

  • 一、构建拍照识题智能学习助手前言
  • 二、构建拍照识题智能学习助手环境
    • 2.1 基于FlexusX实例的Dify平台
    • 2.2 基于MaaS的模型API商用服务
  • 三、构建拍照识题智能学习助手实战
    • 3.1 配置Dify环境
    • 3.2 配置Dify工具
    • 3.3 创建拍照识题智能学习助手
    • 3.4 使用拍照识题智能学习助手
  • 四、总结

一、构建拍照识题智能学习助手前言

面对纸质习题、板书题目等实体知识载体的数字化理解鸿沟,传统答疑方式往往力有不逮。智能看图解题助手,可以巧妙地融合了用户直观的拍照上传与文字提问双通道输入,用户仅需拍照上传,系统便能通过Qwen2.5-VL精准提取题目,并由DeepSeek-V3完成知识讲解,将复杂的图像识别与语义理解转化为即时、权威的认知输出,这不仅极大提升了答疑的便捷性与覆盖场景,更将多模态交互的潜力转化为用户指尖可触、可感的认知升级,让复杂问题的求解过程变得前所未有的流畅与高效。

依托FlexusX云服务器强大的弹性算力与高并发稳定性,无缝承载了基于MaaS模式部署的DeepSeek大模型,使其能够毫秒级响应复杂的看图解题请求,结合模型本身在中文理解、逻辑推理与知识讲解上的深度优化,共同确保了智能助手的流畅性、可靠性与专业输出品质,为用户提供高性能、免运维的一站式智能服务体验。

在这里插入图片描述

二、构建拍照识题智能学习助手环境

2.1 基于FlexusX实例的Dify平台

华为云FlexusX实例提供高性价比的云服务器,按需选择资源规格、支持自动扩展,减少资源闲置,优化成本投入,并且首创大模型QoS保障,智能全域调度,算力分配长稳态运行,一直加速一直快,用于搭建Dify-LLM应用开发平台。

Dify是一个能力丰富的开源AI应用开发平台,为大型语言模型(LLM)应用的开发而设计。它巧妙地结合了后端即服务(Backend as Service)和LLMOps的理念,提供了一套易用的界面和API,加速了开发者构建可扩展的生成式AI应用的过程。

参考:华为云Flexus+DeepSeek征文 | 基于FlexusX单机一键部署社区版Dify-LLM应用开发平台教程

2.2 基于MaaS的模型API商用服务

MaaS预置服务的商用服务为企业用户提供高性能、高可用的推理API服务,支持按Token用量计费的模式。该服务适用于需要商用级稳定性、更高调用频次和专业支持的场景。

参考:华为云Flexus+DeepSeek征文 | 基于ModelArts Studio开通和使用DeepSeek-V3/R1商用服务教程

在这里插入图片描述

三、构建拍照识题智能学习助手实战

3.1 配置Dify环境

输入管理员的邮箱和密码,登录基于FlexusX部署好的Dify网站

在这里插入图片描述

将MaaS平台的模型服务接入Dify,这里我们选择的是DeepSeek V3商用服务,需要记住调用说明中的接口信息和 API Key 管理中API Key,若没有可以重新创建即可

在这里插入图片描述

配置Dify模型供应商:设置 - 模型供应商 - 找到OpenAI-API-compatible供应商并单击添加模型,在添加 OpenAI-API-compatible对话框,配置相关参数,然后单击保存

在这里插入图片描述

参数说明
模型类型选择LLM
模型名称填入模型名称。
API Key填入创建的API Key。
API Endpoint URL填入获取的MaaS服务的基础API地址,需要去掉地址尾部的“/chat/completions”后填入

3.2 配置Dify工具

通义千问

同义 Qwen 由阿里云开发,是一系列复杂的 LLM。它包括多个变体,例如用于文本处理的 Qwen、用于视觉语言任务的 Qwen-VL 和用于音频理解的 Qwen-Audio。这些模型以其令人印象深刻的规模而著称,旗舰 Qwen-72B 模型具有 720 亿个参数,并在超过 3 万亿个代币上进行了训练。

根据多个实战案例的测试结果,​Qwen/Qwen2-VL-72B-Instruct模型在中文票据识别任务中表现最佳。该模型特点:

  • 强大的视觉理解能力
  • 对中文票据格式有良好适配性
  • 支持结构化输出

打开设置 - 模型供应商 - 安装模型供应商,选择通义千问,进行安装

在这里插入图片描述

安装完成后,您需要从 阿里云 获取 API 密钥

在这里插入图片描述

并在 设置 -> Model Provider 中添加通义千问 API Key

在这里插入图片描述

刷新页面后就可以查看到 qwen2.5-vl-72b-instruct 状态已开启

在这里插入图片描述

3.3 创建拍照识题智能学习助手

在 Dify - 工作室,创建空白应用,选择 Chatflow ,输入应用名称和图标,点击创建

在这里插入图片描述

默认是有个简单的模板的,删除其他默认节点,保留开始节点

在这里插入图片描述

点击右上角 功能 菜单,开启文件上传功能,并选择图片类型,保存即可

在这里插入图片描述

开始节点后添加条件分支,用来判断用户是否上传了图片,如果上传了图片则提交给 Qwen2.5-vl 进行题目识别,如果没有上传图片则直接提交给 DeepSeek-V3 进行知识点讲解

在这里插入图片描述

若上传图片则添加LLM图片识别节点,通过 Qwen2.5-vl 对图片内容进行解析,识别题目,需要开始视觉,参数选择上传的文件

提示词参考:识别图片中的题目并输出题目

在这里插入图片描述

再添加LLM节点,用于题目解析,配置模型为MaaS通过的DeepSeek V3,添加上下文为 图片识别 返回的结果,也就是图片的题目信息,添加的提示词如下:

#角色你是一位经验丰富的小学全科老师,能够耐心指导我理解题目的相关知识。题目:引用上下文#技能1.能够记录和存储题目,帮助分析题目错误的地方背后的知识点,然后用苏格拉底提问法一步步引导我去理解相关的知识点,每次提问需要等待我回答后再继续提问,每次只提一个问题。2.请分析认为我搞懂题目相关知识点后,你可以出3道相同类型的题目检测我是否已经完全掌握。

在这里插入图片描述
这里的关键是要通过提示语规定大模型输出,要求大模型能够引导用户一步步进行知识点的讲解,而不是直接给出答案,最终达到接近真人老师的讲解效果,并且在判断用户掌握了该知识后能够出类似的题目进行检测。

最后添加直接回复节点,直接返回题目解析节点输出的变量即可

在这里插入图片描述

再将条件分支的ElSE也接入题目解析节点,并开启记忆功能,输入参数为用户输入内容 query

在这里插入图片描述

开启对话开场白功能,输入内容保存即可

在这里插入图片描述

编排完成后,就可以在预览界面进行测试,先直接输入问题测试:6x7=?

在这里插入图片描述

查看运行流程直接走的是题目解析,但是并没有直接给出答案,而是引导反问你对题目的认知,很接近真人老师

在这里插入图片描述

然后一步步的引导并讲解,知道你给出正确的答案

在这里插入图片描述

甚至还会出三道类似的题目

在这里插入图片描述

整个流程都很有很好的引导和解释,而且会给出正向反馈

在这里插入图片描述

再上传一张数学应用题的照片,并在对话框输入:讲解这几道题的思路

在这里插入图片描述

在这里插入图片描述

这时走进了图片识别的流程,返回值如下,可以检查下识别的准确度如何

{"text": "以下是图片中几道题目的思路讲解:\n\n### 01. 妈妈买了 5 个苹果,每个苹果 5 元,付给售货员 30 元,应找回多少元?\n**思路:**\n1. 计算 5 个苹果的总价格:5 个苹果 × 5 元/个 = 25 元。\n2. 用付给售货员的 30 元减去苹果的总价格:30 元 - 25 元 = 5 元。\n3. 应找回的金额为 5 元。\n\n### 02. 小美拿着 25 元去买作业本,每个作业本是 3 元,她最多能买几个作业本?\n**思路:**\n1. 用总金额除以每个作业本的价格:25 元 ÷ 3 元/本 ≈ 8.33。\n2. 由于不能买部分作业本,所以最多能买 8 个作业本。\n\n### 03. 同学们要栽 65 棵树,已经栽了 6 行,每行 8 棵,还需要栽多少棵?\n**思路:**\n1. 计算已经栽了多少棵树:6 行 × 8 棵/行 = 48 棵。\n2. 用总共要栽的树数减去已经栽的树数:65 棵 - 48 棵 = 17 棵。\n3. 还需要栽 17 棵树。\n\n### 04. 小刚今年 7 岁,妈妈比小刚大 23 岁,爸爸比妈妈大 4 岁,那爸爸妈妈分别多少岁?\n**思路:**\n1. 计算妈妈的年龄:7 岁 + 23 岁 = 30 岁。\n2. 计算爸爸的年龄:30 岁 + 4 岁 = 34 岁。\n3. 妈妈 30 岁,爸爸 34 岁。\n\n### 05. 把 35 个彩球按 4 个一组分类,可以分成几组,还剩下几个彩球?\n**思路:**\n1. 用总彩球数除以每组的彩球数:35 个 ÷ 4 个/组 = 8 组…… 3 个。\n2. 可以分成 8 组,还剩下 3 个彩球。\n\n### 06. 食堂里有 100 千克大米,用去 60 千克,剩下的每天吃 8 千克,还可以吃多少天?\n**思路:**\n1. 计算剩下多少大米:100 千克 - 60 千克 = 40 千克。\n2. 用剩下的大米除以每天吃的量:40 千克 ÷ 8 千克/天 = 5 天。\n3. 还可以吃 5 天。\n\n### 07. 把一根绳子对折后,再次对折后有 20 厘米,这根绳子原本有多长?\n**思路:**\n1. 两次对折后的长度为 20 厘米。\n2. 每次对折长度减半,所以对折一次后的长度为 20 厘米 × 2 = 40 厘米。\n3. 原本的长度为 40 厘米 × 2 = 80 厘米。\n\n### 08. 某栋大楼共十层,每层 4 米,小刚站在 8 楼的阳台,他离一楼地面多少米?\n**思路:**\n1. 计算小刚所在的楼层高度:(8 - 1) 层 × 4 米/层 = 7 层 × 4 米/层 = 28 米。\n2. 小刚离一楼地面的高度为 28 米。","usage": {"prompt_tokens": 1190,"prompt_unit_price": "4.13","prompt_price_unit": "0.000001","prompt_price": "0.0049147","completion_tokens": 921,"completion_unit_price": "4.13","completion_price_unit": "0.000001","completion_price": "0.0038037","total_tokens": 2111,"total_price": "0.0087184","currency": "RMB","latency": 49.49028724800155},"finish_reason": "stop"
}

再次进入问题的一步步探讨过程

在这里插入图片描述

简单的回答了第1个问题了,得到了正确的答复后,就开始了第2个问题,流程较长没有完全测试

在这里插入图片描述

测试完成就可以发布更新到探索页面了,发布后选择运行就可以获得一个在线运行的智能学习助手的网页!

3.4 使用拍照识题智能学习助手

在探索 - 拍照识题智能学习助手中开启新对话

在这里插入图片描述

这里测试一下英语问题,搜到一张英语的试题

在这里插入图片描述

上传此图片,并输入:怎么做

在这里插入图片描述

此时不能查看图片识别的全部返回值,只能查看输入的问题来看了

在这里插入图片描述

第一个问题的识别准确,回答出正确答案后,但是解释不正确

在这里插入图片描述

很容易拓展知识点,可以直接继续下一题,整个过程真的很像被老师答疑解惑的感觉,这个提示词太强了!大家也可以试试,尤其是小学生的家长们!

在这里插入图片描述

四、总结

通过dify直观的可视化工作流编排,将复杂的多模态识别(Qwen2.5-VL)、智能判断与知识讲解(DeepSeek-v3)模块无缝集成变得异常清晰高效,深刻体会到其降低智能应用开发门槛的强大力量,让聚焦用户价值(看图解题)的核心逻辑得以快速验证和流畅运行,真正实现了从构想到落地的极短周期,使技术创新触手可及。

依托FlexusX云服务器的高弹性算力与稳定承载,无缝驱动MaaS模式下的DeepSeek V3调用API,实现毫秒级响应的专业级语义理解与精准知识输出,以卓越性能和免运维的可靠性,为智能应用提供强大引擎。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/89032.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/89032.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

题解:CF2120E Lanes of Cars

根据贪心,不难想到每次会把最长队伍末尾的那辆车移动到最短队伍的末尾。但由于 k k k 的存在,会导致一些冗余移动的存在。设需要挪动 C C C 辆车,则怒气值可以表示为 f ( C ) k C f(C) kC f(C)kC,其中 f ( C ) f(C) f(C) 是…

Excel基础:选择和移动

本文演示Excel中基础的选择和移动操作,并在最后提供了一张思维导图,方便记忆。 文章目录 一、选择1.1 基础选择1.1.1 选择单个单元格1.1.2 选择连续范围 1.2 行列选择1.2.1 选择整行整列1.2.2 选择多行多列 1.3 全选1.3.1 全选所有单元格1.3.2 智能选择…

Java面试宝典:基础四

80. int vs Integer 维度intInteger类型基本数据类型(8种之一)包装类默认值0null应用场景性能敏感场景(计算密集)Web表单、ORM框架(区分null和0)特殊能力无提供工具方法(如parseInt())和常量(如MAX_VALUE)示例:

RabbitMQ + JMeter 深度集成指南:中间件性能优化全流程解析!

在 2025 年的数字化浪潮中,中间件性能直接决定系统的稳定性和用户体验,而 RabbitMQ 作为消息队列的“老大哥”,在分布式系统中扮演着关键角色。然而,高并发场景下,消息堆积、延迟激增等问题可能让系统不堪重负&#xf…

uniapp image引用本地图片不显示问题

1. uniapp image引用本地图片不显示问题 在uniapp 开发过程中采用image引入本地资源图片。 1.1. 相对路径和绝对路径问题 在UniApp中开发微信小程序时,引入图片时,相对路径和绝对路径可能会有一些差异。这差异主要涉及到小程序和UniApp框架的文件结构、…

论文阅读:arxiv 2025 ThinkSwitcher: When to Think Hard, When to Think Fast

总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328 ThinkSwitcher: When to Think Hard, When to Think Fast https://arxiv.org/pdf/2505.14183#page2.08 https://www.doubao.com/chat/10031179784579842 文章目录 速览一、…

智能体记忆原理-prompt设计

智能体记忆的管理与设计开发分为以下几步: 1.记忆的抽取; 2.记忆的存储; 3.记忆的搜索; 一、记忆抽取一: FACT_RETRIEVAL_PROMPT f"""你是一位个人信息整理助手,专门负责准确存储事实、用…

026 在线文档管理系统技术架构解析:基于 Spring Boot 的企业级文档管理平台

在线文档管理系统技术架构解析:基于Spring Boot的企业级文档管理平台 在企业数字化转型的进程中,高效的文档管理系统已成为提升协作效率的核心基础设施。本文将深入解析基于Spring Boot框架构建的在线文档管理系统,该系统整合公告信息管理、…

AWTK-MVVM的一些使用技巧总结(1)

在项目中用了一段时间的AWTK-MVVM框架,由于AWTK-MVVM本身的文档十分欠缺,自己经过一段时间的研究折腾出了几个技巧,在此记录总结。 用fscript启用传统UI代码 AWTK-MVVM里面重新设计了navigator机制,重定位了navigator_to的调用方…

openwrt使用quilt工具制作补丁

前言:简单聊一下为什么需要制作补丁,因为openwrt的编译是去下载很多组件放到dl目录下面,这些组件都是压缩包。如果我们要修改这些组件里面的源码,就需要对这些组件打pacth,也就是把我们的差异点在编译的时候合入到对应…

强化学习 (1)基本概念

grid-world example 一个由多个格子组成的二维网格 三种格子:accessible可通行的; forbidden禁止通行的; target目标 state状态 state是智能体相对于环境的状态(情况) 在grid-world example里,state指的…

【Typst】纵向时间轴

概述 6月10日实验了一个纵向时间轴排版效果,当时没有做成单独的模块,也存在一些Bug。 今天(6月29日)在原基础上进行了一些改进,并总结为模块。 目前暂时发布出来,可用,后续可能会进行大改。 使用案例 导入模块使用…

【Visual Studio Code上传文件到服务器】

在 Visual Studio Code (VS Code) 中上传文件到 Linux 系统主要通过 SSH 协议实现,结合图形界面(GUI)或命令行工具操作。以下是具体说明及进度查看、断点续传的实现方法: ⚙️ 一、VS Code 上传文件到 Linux 的机制 SSH 远程连接 …

手机控车一键启动汽车智能钥匙

手机一键启动车辆的方法 手机一键启动车辆是一种便捷的汽车启动方式,它通过智能手机应用程序实现对车辆的远程控制。以下是详细的步骤: 完成必要的认证与激活步骤。打开手机上的相关移动管家手机控车APP,并与车载蓝牙建立连接。在APP的主界面…

基于深度学习的语音增强技术:时间增强多尺度频域卷积网络模型解析

基于深度学习的语音增强技术:时间增强多尺度频域卷积网络模型解析 近年来,随着语音处理技术的不断发展,语音增强(Speech Enhancement)逐渐成为研究热点。语音增强的主要目标是通过消除噪声和改善信噪比来提高语音质量…

计算机组成原理-数据表示与运算(三)

### 文字提取结果: #### 题目内容: 34. 【2009 统考真题】浮点数加、减运算过程一般包括对阶、尾数运算、规格化、舍入和判断溢出等步骤。设浮点数的阶码和尾数均采用补码表示,且位数分别为 5 和 7(均含 2 位符号位)。…

Learning Fully Convolutional Networks for Iterative Non-blind Deconvolution论文阅读

Learning Fully Convolutional Networks for Iterative Non-blind Deconvolution 1. 研究目标与实际问题1.1 研究目标1.2 实际意义2. 创新方法与模型设计2.1 核心框架:迭代式梯度域处理2.1.1 模型架构2.2 关键技术实现2.2.1 梯度域去噪网络2.2.2 解卷积模块(核心公式实现)2.…

Vue3——组件传值

父传子 props ——最推荐的方法&#xff08;TOP1级别&#xff09; 父组件文件 <sidebar :text"textname" ></sidebar> //父组件通过 :text 将父组件的数据textname传递给子组件 const textname:Ref<dataFather[]> ref([{name:刘亦菲,age:18 },…

DOP数据开放平台(真实线上项目)

什么是数据开放平台&#xff1f; 数据开放平台是一种通过公开应用程序编程接口&#xff08;API&#xff09;或结构化数据&#xff0c;允许第三方开发者或机构访问、使用和共享数据的平台‌&#xff0c;旨在促进数据流通、打破信息孤岛并激发创新应用。 DOP数据开放平台简单演示…

InfluxDB 3 Core数据库管理指南:从概念到实操的完整流程

本文深入解析InfluxDB 3 Core的数据库管理核心概念&#xff0c;涵盖数据库与历史版本的兼容性差异、关键限制&#xff08;数据库/表/列数量&#xff09;、以及创建/查看/删除数据库的完整命令行操作。通过结构化流程和实用建议&#xff0c;帮助用户高效管理时序数据存储&#x…