百度飞桨PaddleOCR 3.0开源发布 OCR精度跃升13%

百度飞桨 PaddleOCR 3.0 开源发布

2025 年 5 月 20 日,百度飞桨团队正式发布了 PaddleOCR 3.0 版本,并将其开源。这一新版本在文字识别精度、多语种支持、手写体识别以及高精度文档解析等方面取得了显著进展,进一步提升了 PaddleOCR 在 OCR 领域的技术实力和应用价值。

在这里插入图片描述
开源地址:

https://github.com/PaddlePaddle/PaddleOCR

技术亮点

全场景文字识别模型 PP-OCRv5

PP-OCRv5 是 PaddleOCR 3.0 的核心亮点之一,实现了单一模型支持简体中文、繁体中文、中文拼音、英文、日文五种文字类型,以及手写、竖版、拼音、生僻字等复杂文本场景的识别。与上一代相比,PP-OCRv5 的整体识别精度提升了 13 个百分点,达到了业界领先水平。通过统一模型架构,PP-OCRv5 简化了部署流程,提升了识别的总体精度和速度。

通用文档解析方案 PP-StructureV3

PP-StructureV3 增强了布局区域检测、表格识别和公式识别的能力,增加了图表理解和多列阅读顺序恢复的功能,并能够将结果转换为 Markdown 和 JSON 格式。在 OmniDocBench 基准测试中,PP-StructureV3 领先于许多开源和闭源解决方案,展现了其在多场景、多布局 PDF 高精度解析中的强大能力。

智能文档理解方案 PP-ChatOCRv4

PP-ChatOCRv4 原生支持文心大模型 4.5 Turbo,关键信息提取的准确性相比前一代提高了 15 个百分点。它结合了大模型和小模型的优势,支持多模态文档理解模型 PP-DocBee2 的离线使用,为复杂文档信息提取问题(如布局分析、生僻字、多页 PDF、表格和印章识别)提供了一站式解决方案。

其他更新

PaddleOCR 3.0 还重构了部署能力,统一了推理接口,全面适配了飞桨框架 3.0 正式版,并优化了训练流程。此外,它还新增了对昆仑芯、昇腾等国产硬件的支持。

⚡ 快速开始

请参考安装指南完成PaddlePaddle 3.0的安装,然后安装paddleocr。

# 安装 paddleocr
pip install paddleocr==3.0.0

命令行方式推理

# 运行 PP-OCRv5 推理
paddleocr ocr -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png --use_doc_orientation_classify False --use_doc_unwarping False --use_textline_orientation False # 运行 PP-StructureV3 推理
paddleocr pp_structurev3 -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/pp_structure_v3_demo.png --use_doc_orientation_classify False --use_doc_unwarping False# 运行 PP-ChatOCRv4 推理前,需要先获得千帆API Key
paddleocr pp_chatocrv4_doc -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/vehicle_certificate-1.png -k 驾驶室准乘人数 --qianfan_api_key your_api_key --use_doc_orientation_classify False --use_doc_unwarping False # 查看 "paddleocr ocr" 详细参数
paddleocr ocr --help
API方式推理

PP-OCRv5 示例

from paddleocr import PaddleOCR
# 初始化 PaddleOCR 实例
ocr = PaddleOCR(use_doc_orientation_classify=False,use_doc_unwarping=False,use_textline_orientation=False)
# 对示例图像执行 OCR 推理 
result = ocr.predict(input="https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")
# 可视化结果并保存 json 结果
for res in result:res.print()res.save_to_img("output")res.save_to_json("output")

PP-StructureV3 示例

from pathlib import Path
from paddleocr import PPStructureV3pipeline = PPStructureV3(use_doc_orientation_classify=False,use_doc_unwarping=False
)# For Image
output = pipeline.predict(input="https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/pp_structure_v3_demo.png",)# 可视化结果并保存 json 结果
for res in output:res.print() res.save_to_json(save_path="output") res.save_to_markdown(save_path="output") 

PP-ChatOCRv4 示例

from paddleocr import PPChatOCRv4Docchat_bot_config = {"module_name": "chat_bot","model_name": "ernie-3.5-8k","base_url": "https://qianfan.baidubce.com/v2","api_type": "openai","api_key": "api_key",  # your api_key
}retriever_config = {"module_name": "retriever","model_name": "embedding-v1","base_url": "https://qianfan.baidubce.com/v2","api_type": "qianfan","api_key": "api_key",  # your api_key
}mllm_chat_bot_config = {"module_name": "chat_bot","model_name": "PP-DocBee","base_url": "http://127.0.0.1:8080/",  # your local mllm service url"api_type": "openai","api_key": "api_key",  # your api_key
}pipeline = PPChatOCRv4Doc(use_doc_orientation_classify=False,use_doc_unwarping=False
)visual_predict_res = pipeline.visual_predict(input="https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/vehicle_certificate-1.png",use_common_ocr=True,use_seal_recognition=True,use_table_recognition=True,
)visual_info_list = []
for res in visual_predict_res:visual_info_list.append(res["visual_info"])layout_parsing_result = res["layout_parsing_result"]vector_info = pipeline.build_vector(visual_info_list, flag_save_bytes_vector=True, retriever_config=retriever_config
)
mllm_predict_res = pipeline.mllm_pred(input="vehicle_certificate-1.png",key_list=["驾驶室准乘人数"],mllm_chat_bot_config=mllm_chat_bot_config,
)
mllm_predict_info = mllm_predict_res["mllm_res"]
chat_result = pipeline.chat(key_list=["驾驶室准乘人数"],visual_info=visual_info_list,vector_info=vector_info,mllm_predict_info=mllm_predict_info,chat_bot_config=chat_bot_config,retriever_config=retriever_config,
)
print(chat_result)

意义

PaddleOCR 3.0 的发布不仅展示了百度在 OCR 技术上的持续创新能力,也为开发者提供了更强大且用户友好的工具,帮助他们快速实现 AI 应用。感兴趣的开发者可以访问 PaddleOCR 的开源地址,获取更多详细信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/pingmian/81964.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android 14 Binderized HAL开发实战指南(AIDL版)

Android 14 Binderized HAL开发实战指南(AIDL版) 环境要求 Android 14源码编译环境AOSP android-14.0.0_r7分支Soong build系统Java 17 & NDK r25c 项目结构 hardware/interfaces/myservice/ ├── 1.0 │ ├── IMyHalService.aidl # AID…

第九天的尝试

目录 一、每日一言 二、练习题 三、效果展示 四、下次题目 五、总结 一、每日一言 创造美好的代价是努力,失望以及毅力,首先是痛苦,然后才是欢乐。 时间是快的,看怎么利用,安排好一切事情,才能从容面对…

交安安全员:交通工程安全领域的关键角色

在交通工程这个庞大而复杂的领域中,交安安全员扮演着举足轻重的角色,他们是安全的捍卫者,是交通工程顺利推进的重要保障。​ 交安安全员,专门从事公路水运工程施工企业安全生产管理工作。他们的专业身份由交通运输部门颁发的交安…

实验-设计一个应用系统(计算机组成原理)

目录 一. 实验内容 二. 实验步骤 (1)七段数码管显示模块 (2)指令模块 (3)控制模块 (4)ALU模块 (5)CPU模块 三. 实现效果 四. 实验环境 五. 实验小结…

【博客系统】博客系统第四弹:令牌技术

令牌机制 为什么不能使用 Session 实现登录功能? 传统思路: 登录页面把用户名密码提交给服务器。服务器端验证用户名密码是否正确,并返回校验结果给前端。如果密码正确,则在服务器端创建 Session。通过 Cookie 把 sessionId 返回…

【瑞数3代】药监评审中心逆向分析 | 后缀MmEwMD参数

1.目标 目标网址:https://www.cde.org.cn/main/news/listpage/545cf855a50574699b46b26bcb165f32 import requestscookies {FSSBBIl1UgzbN7N80S: 8sYeMWaC_IHoNl8Ckfx2y9MLiueMCkPr2V3MIoZkrMPUfzMMaXKzAoxpNPvyw4lt,Path: /,FSSBBIl1UgzbN7N80T: 3js3ygV.St6BvO20…

【漫话机器学习系列】274.基尼指数(Gini Index)

决策树中的基尼指数(Gini Index)详解 —— 从公式理解到实际应用 在构建决策树模型时,一个核心问题是:如何选择最优的特征来进行节点划分? 这就涉及到了“划分准则”的问题。常见的准则有信息增益、信息增益率以及本文…

R语言学习--Day07--T分布与T检验

昨天我们介绍了R中用于对数据进行分类的聚类分析的方法,接下来我们来看T分布。 T分布 T分布适用于帮我们估计整组数据(较小的数据量,一般小于30)的真实值在哪一个区间,具体是计算置信区间(一般为95%&#…

数据结构与算法-线性表-双向链表(Double Linked List)

1 线性表 1.4 双向链表(Double Linked List) 双向链表的结点中有两个指针域,一个指向直接后继,另一个指向直接前驱,主要是为了解决前向查找的问题。 双向链表结构: 书籍和视频教程都只讲解了插入和删除的…

甘特图实例 dhtmlxGantt.js

本文介绍了如何使用dhtmlxGantt库创建一个基础的甘特图示例,并对其进行汉化和自定义配置。首先,通过引入dhtmlxgantt.css和dhtmlxgantt.js文件初始化甘特图。接着,通过设置gantt.i18n.setLocale("cn")实现核心文本的汉化&#xff0…

C++23 新增扁平化关联容器详解

文章目录 一、引言已有关联容器回顾新容器的引入原因 二、std::flat_set定义与特性代码示例适用场景 三、std::flat_multiset定义与特性代码示例适用场景 四、std::flat_map定义与特性代码示例适用场景 五、std::flat_multimap定义与特性代码示例适用场景 六、与其他容器的比较…

使用zap,对web应用/API接口 做安全检测

https://www.zaproxy.org/getting-started/ 检测方法 docker pull ghcr.io/zaproxy/zaproxy:stable# 执行baseline测试 docker run -t ghcr.io/zaproxy/zaproxy:stable zap-baseline.py \ -t https://baseline.yeshen.org# 执行api测试 docker run -t ghcr.io/zaproxy/zaproxy…

Qt—模态与非模态对话框

Qt—模态与非模态对话框 核心概念 ​模态对话框​​:强制用户优先处理当前窗口,阻塞指定范围的用户交互。​非模态对话框​​:允许用户自由切换窗口,无交互限制。 一、模态对话框类型与行为 1. 应用级模态(Applica…

Axure高保真CRM客户关系管理系统原型

一套出色的CRM(客户关系管理)系统,无疑是企业管理者掌控客户动态、提升销售业绩的得力助手。今天,就为大家介绍一款精心打造的Axure高保真CRM客户关系管理系统原型模板,助你轻松开启高效客户管理之旅。 这款CRM原型模…

【羊圈——状压 + DP / 记忆化搜索DP】

题目 一般DP代码&#xff08;注意&#xff0c;这里只能向外推(起始状态是f(1,0)&#xff0c;不能向内推&#xff08;不然会导致之前的羊圈被割裂&#xff09;&#xff09; #include <bits/stdc.h> using namespace std;const int MAX_N 210; const int MAX_M 16;int n…

讲解Mysql InnoDB的MVCC

1. 定义 MVCC是多版本并发控制&#xff08;Multi - Version Concurrency Control&#xff09;的缩写。它是InnoDB存储引擎实现高并发控制的一种机制。在数据库系统中&#xff0c;多个事务可能会同时对数据进行读写操作&#xff0c;而MVCC通过为数据行保存多个版本来解决并发事务…

ZeroMQ Sockets介绍及应用示例

1. 概念解释 ZeroMQ Sockets提供了一种类标准套接字&#xff08;socket-like&#xff09;的 API&#xff0c;是消息导向的通信机制&#xff0c;基于 TCP/UDP 等传输层协议&#xff0c;但封装了底层细节&#xff08;如连接管理、消息路由、缓冲区等&#xff09;&#xff0c;提供…

语音合成之十五 语音合成(TTS)分句生成拼接时的响度一致性问题:现状、成因与对策

语音合成&#xff08;TTS&#xff09;分句生成拼接时的响度一致性问题&#xff1a;现状、成因与对策 引言&#xff1a;分段式文本转语音中的响度一致性挑战业界对响度差异问题的认知拼接语音片段中响度变化的根本原因分段拼接的固有挑战各片段预测韵律特征的差异文本特征和模型…

Android中Binder驱动作用?

Binder驱动的作用与核心功能 Binder驱动是Android系统中实现进程间通信&#xff08;IPC&#xff09;的核心底层组件&#xff0c;它工作于Linux内核层&#xff0c;负责管理跨进程通信的建立、数据传输、资源同步等关键任务。以下是其核心作用及实现细节&#xff1a; 1. ​​进程…

网络学习-TCP协议(七)

一、TCP协议 TCP&#xff08;Transmission Control Protocol&#xff0c;传输控制协议&#xff09;是一种面向连接的、可靠的、基于字节流的传输层通信协议。 1、三次握手 客户端&#xff1a; 1、先发起连接&#xff0c;发送SYN置1&#xff0c;seqnum12345(随机值)----半连接…