Ai大模型 - ocr图像识别形成结构化数据(pp-ocr+nlp结合) 以及训练微调实现方案(初稿)

全局目录,一步到位

  • 功能流程
  • 第一阶段 基于现有条件进行 `调研,测试与评估`
    • 1.1 ocr深度学习模型 pp-ocr
    • 1.2 nlp结构化模型
    • 1.3 硬件要求:
  • 第二阶段 模型训练微调
    • 2.1 更换ocr-GPU模型, 下载相关环境
    • 2.2 nlp模型 语义训练
    • 2.3 最低硬件要求:
    • 2.4 样本数据: (重点)
    • 2.5 进一步增强模型能力
    • 2.5 python语言类库 (深度学习框架)
  • 第三阶段: 结果
  • 注意事项
  • 至此, 医疗领域-此方向的专属ocr大模型就完成了

功能流程

数据预处理
检测模型微调
识别模型微调
模型联调
NLP后处理
错误分析
迭代优化

第一阶段 基于现有条件进行 调研,测试与评估

全部先使用 预训练完成的模型(本地进行测试,评估后进行二阶段训练微调)

在这里插入图片描述

1.1 ocr深度学习模型 pp-ocr

  1. 了解 百度开源模型 pp-ocr
  2. 先在windows上使用预训练模型 可先选cpu版本查看执行效果
  3. 下载nlp自然语言模型进行json格式化输出
  4. 模型评估: 上述结果不能满足业务需求, 进行第二阶段

1.2 nlp结构化模型

先选: DD-Parse(尽量先使用百度pp全家桶)

1.3 硬件要求:

先基于现有电脑进行测试, 不满足在升级

第二阶段 模型训练微调

官方明确说明 windows仅支持推理,不支持训练
解决方案: linux部署 或者 WSL2或Docker方案解决

2.1 更换ocr-GPU模型, 下载相关环境

2.2 nlp模型 语义训练

2.3 最低硬件要求:

cpu i7 /i5 等都可以(满足: x64/ Intel 64/ AMD64 即可) 核心数要多 
内存 32g(最低) 不然训练时候会频繁报错
显存: 8g - 12g 太小训练效率低
硬盘: 512g/1T(推荐)

2.4 样本数据: (重点)

3000-5000, 需要进行数据标注,进行 监督学习

2.5 进一步增强模型能力

  • 可通过用户反馈进行学习训练
  • 对模型的性能 准确率进行评估

2.5 python语言类库 (深度学习框架)

python --version: 3.8/3.9/3.10/3.11/3.12/3.13
pip 版本为 20.2.2更高版本
Python 和 pip 是 64bit,并且处理器架构是 x86_64(或称作 x64、Intel 64、AMD64)架构

paddleocr 3.0
shapely
pyclipper
lmdb
tqdm
sklearn
requirements.txt (将版本写清楚,工程初始化用) 

第三阶段: 结果

  1. 微调后的PP-OCR检测/识别模型(.pdparams)
  2. API接口封装文档(FastAPI部署方案)
  3. 训练的python项目代码

注意事项

  1. 需要对错误数据进行记录(用户反馈等)
  2. 持续的进行训练 直到达到模型评估的标注,满足业务要求
  3. 模型安装的安全性以及用户隐私数据的保护

至此, 医疗领域-此方向的专属ocr大模型就完成了

如果后续需要拓展升级, 再出相关方案 windows版本官方文档上不支持

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/89222.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/89222.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Linux】软硬链接,动静态库

目录 一、认识一下常用指令 1、建立一个软链接 2、建立一个硬链接 3、删除文件的第二种方式:删除链接unlink指令 二、什么是硬链接? 三、软硬链接的原理: 四、应用场景 1、建立一个软链接可以快速在一个比较深的路径中找到目标文件进行…

VRR(可变刷新率)和QMS(快速媒体切换)

🔧 一、技术原理的本质区别 技术VRR (可变刷新率)QMS (快速媒体切换)核心目标消除动态帧率波动导致的画面撕裂/卡顿消除静态帧率切换时的黑屏中断工作机制实时调整显示器刷新率(Hz)匹配GPU输出帧率(FPS)→ 动态延长/缩…

GO 语言学习 之 Map

map 是 Go 语言中非常重要的数据结构,常用于需要快速查找、统计或分组数据的场景。 map定义: package mainimport "fmt"func main() {var m1 map[int]string // 创建一个 mapm2 : make(map[int]string) // 创建一个 map m3…

什么是可观测性?监控、日志、追踪三者之间有什么区别?

一、引言:为什么现代系统需要“看得见”? 你是否遇到过这样的情况:系统运行突然变慢,但没人知道问题出在哪?随着微服务、云原生架构的普及,系统的复杂度越来越高,传统的“靠经验判断”已经无法…

扣子(coze)实战|自动搬运+改写+归档!自媒体矩阵终极方案

今天给大家分享的是用coze做一个工作流来自动提取抖音/小红书视频文案及改写并传入到飞书多维表格,我们先来看案例 上传视频链接即可一键生成,废话不多说,上教程~ 一、整体工作流如下: 二、开发思路: 三、详细工作流分…

K8s环境下基于Nginx WebDAV与TLS/SSL的文件上传下载部署指南

#作者:闫乾苓 文章目录 1.问题及背景2.方案说明3.部署步骤3.1 制作TLS/SSL私有证书3.2 创建访问nginx账户密码文件并创建secret3.3 为TLS/SSL私有证书创建secret3.4 为Nginx 配置文件创建confimap3.5 使用deployment,svc部署nginx3.6 客户端curl上传下载…

【Day 7-N17】Python函数(1)——函数定义、位置参数调用函数、关键字参数调用函数、函数的默认值

挑战14天学会Python,第7天学习笔记!加油! 一、概述 函数(Function)是 Python 中用于封装可重用代码块的基本结构。通过定义函数,我们可以将复杂逻辑拆分为更小、更易管理的单元,并通过参数传递…

STM32 驱动 ADS1015 单端 差分 多通道模式 ADC 转换

文章目录 一、ADS1015简介二、引脚功能三、寄存器介绍1.Conversion Register 转化数据存放寄存器2.Config Register 配置寄存器 四、IIC时序1.写寄存器2.读寄存器 五、程序六、实验现象1.单端模式2.差分模式3.伪多通道模式 一、ADS1015简介 ADS1015 是一款由德州仪器&#xff…

RabbitMQ 消费幂等性与消息重放实现

一、幂等性实现 1.1 什么是幂等性? 幂等性是指同一条消息无论被消费多少次,业务结果都只生效一次,防止重复扣款、重复发货等问题。 RabbitMQ 的投递模式是“至少一次交付”(at-least-once delivery),如果消费者处理失败或者没有及…

【HarmonyOS 5】鸿蒙TEE(可信执行环境)详解

【HarmonyOS 5】鸿蒙TEE(可信执行环境)详解 一、TEE是什么? 1、TEE的定义: 可信执行环境(Trusted Execution Environment),简称TEE,是存在于智能手机、平板或任意移动设备主处理器…

算法: 冒泡排序

冒泡排序是一种简单的排序算法,通过相邻元素的比较和交换,使较大的元素逐渐"浮"到数组末尾。 时间复杂度:最佳 O(n) | 平均 O(n) | 最差 O(n) 空间复杂度:O(1) 稳定性:稳定 应用场景/前提条件 适用于小规模数据对几乎已排序的数据效率较高…

基于SpringBoot的家电销售展示平台

源码编号:S567 源码名称:基于SpringBoot的家电销售展示平台 用户类型:双角色,用户、管理员 数据库表数量:14 张表 主要技术:Java、Vue、ElementUl 、SpringBoot、Maven 运行环境:Windows/M…

java+vue+SpringBoo智慧旅游系统(程序+数据库+报告+部署教程+答辩指导)

源代码数据库LW文档(1万字以上)开题报告答辩稿ppt部署教程代码讲解代码时间修改工具 技术实现 开发语言:后端:Java 前端:vue框架:springboot数据库:mysql 开发工具 JDK版本:JDK1.…

Docker 入门教程(三):镜像操作命令

文章目录 🐳 Docker 入门教程(三):镜像操作命令获取镜像:docker pull查看镜像:docker images删除镜像:docker rmi搜索镜像:docker search镜像打标签:docker tag镜像详情与…

如何修改discuz文章标题字数限制 修改成255

在 Discuz! X3.5 中,文章(主题)标题字数的限制可以通过修改数据库结构以及后台配置来实现,以下是完整的修改方法,将标题长度限制改为 255 个字符: ✅ 一、修改数据库字段长度 Discuz 默认标题字段是 subje…

基于BP神经网络的26个英文字母识别

本课题旨在设计并实现一个基于BP(反向传播)神经网络的英文字母识别系统,实现对手写或打印的26个英文字母(A-Z)的自动分类识别。项目首先对字母图像进行预处理(如灰度化、归一化、二值化和特征提取&#xff…

系统架构设计师论文分享-论云原生技术的应用

我的软考历程 摘要 2023年2月,我所在的公司做了开发纱线MES系统的决定,该系统为国内纱线工厂提供SAAS服务,旨在提高纱线工厂的智能化和数字化水平。我在该项目中被任命为系统架构设计师,全面掌管该项目的架构设计工作。该项目涉…

重置 MySQL root 密码

引言 在linux可能存在安装mysql安装失败,一直不出现默认密码 /usr/local/mysql/mysql-8.0.26/bin/mysqld --defaults-file/etc/my.cnf --usermysql --basedir/usr/local/mysql/mysql-8.0.26 --datadir/usr/local/mysql/mysql-8.0.26/data --lower-case-table-name…

面试八股---HTML

面试八股 1、HTML 1.1 src和href的区别 src 用于替换当前元素,href 用于在当前文档和引用资源之间确立联系。 核心区别在于 href 关联的资源(主要是 CSS)是用于描述页面外观的,浏览器可以先生成内容再应用样式,因此…

气候智能体:AI如何重构人类应对气候危机的决策体系?

前言 前些天发现了一个巨牛的人工智能免费学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站 《气候智能体:AI如何重构人类应对气候危机的决策体系?》 展开全景式论述。文章结合2025年最新技术突破与…