OmniDocBench:一键评测PDF解析算法

绝大多数文档格式都能无损转换至PDF,解决了PDF解析,也就相当于解决了绝大多数文档的解析。所以,PDF解析算法是文档服务的基石技术。

PDF解析算法目前有两类技术路线

  • pipeline方法,整合layout analysis, OCR, formula/table recognition, and reading order estimation等多个模型,来解析PDF
  • 视觉大语言模型,直接输出PDF的解析结果

但是这两类PDF解析算法缺乏统一的评测方式,来比较性能优劣。

来自上海人工智能实验室、Abaka AI等机构的研究人员提出OmniDocBench数据集和评测方式,具备

  • PDF文档类型丰富,覆盖9种类型
  • 评测指标丰富,包含端到端评测、逐任务评测(layout analysis, OCR等任务)、逐属性评测(文本语言、文本背景、文本旋转、表格语言、表格线栏等)
    在这里插入图片描述

论文链接:
https://arxiv.org/pdf/2412.07626
代码链接:
https://github.com/opendatalab/OmniDocBench
下载链接:
https://opendatalab.com/OpenDataLab/OmniDocBench


OmniDocBench数据集

![[Pasted image 20250620182258.png]]

整体流程有:

1. 数据采集

  • 从Common Crawl, Google, Baidu search engines, and internal data中收集200,000张原始PDF文档
  • 对于每页PDF,提取图像特征,聚类,采样6,000页PDF
  • 人工从中选择981页PDF,进行细粒度标注

2. 数据标注

先做版面区域检测标注,包括四种标注类型:

  • 版面区域检测框,共19种类型,如标题、段落、表格、图像等
  • 版面区域属性标注
  • 阅读顺序标注,标注版面区域的阅读顺序
  • 归属标注,为图像、表格、公式、代码块标注caption和title,和正文内容区分开。

再做内容识别标注,为标题、文本段等纯文本内容标注文字;为行内公式、显示公式和下标进行LaTex注释;为表格进行HTML和LaTex标注。
标注流程为:自动标注——>人工矫正——>专家质检,以实现标注速度和标注质量的平衡。

3. 数据的统计信息
PDF类型的多样性:981页PDF,囊括9种类型,有书籍、PPT、技术报告、考卷、杂志等
标注的多样性:共有超过10万处标注,超过2万处块级标注(如段落、图像、表格等),超过7万处span级标注(如公式、脚注等)
![[Pasted image 20250621105230.png]]

标注属性的多样性:有文本属性和表格属性

文本属性统计信息:
![[Pasted image 20250621105245.png]]

表格属性统计信息:
![[Pasted image 20250621105258.png]]

OmniDocBench评测

![[Pasted image 20250621105524.png]]

评测流程有:

1.待评测算法输出Markdown结果

2.提取不同元素

  • 预处理,移除图片、移除markdown tag等
  • 元素抽取,按正则匹配逻辑,依照特定顺序抽LaTex表格、HTML表格、显示公式、markdown表格和代码块
  • 纯文本抽取
  • 行内公式格式转换,均转化成Unicode格式,便于统一比较
  • 阅读顺序抽取

3.和GT做匹配

  • 临近搜索匹配(Adjacency Search Match):GT(Ground Truth)和待评测算法输出Markdown(Preds)分别都要多个元素信息(文本、表格、公式等),需要先做匹配映射,才能计算指标结果。首先计算GTs和Preds的多个元素间的编辑距离,相似度超过某段阈值,即认定为匹配。对于GTs和Preds元素存在嵌套的情况,通过fuzzy match实现嵌套识别。
  • 忽视handling(Ignore Handling):对于表头、页码、图片caption、表格caption等handling信息,在指标计算时不考虑。因为不同算法对这些数据的处理方式,差别过大。

4.指标计算

  • 纯文本:计算Normalized Edit Distance
  • 表格:表格先转换成HTML格式,计算Tree-Edit-Distance-based Similarity和NormalizedEditDistance
  • 公式:计算Character Detection Matching、Normal ized Edit Distance和BLEU。
  • 阅读顺序:计算Normalized Edit Distance指标

最终结果

文本、公式、表格、阅读顺序的整体评测指标
![[Pasted image 20250622104510.png]]

不同PDF类型下,文本识别(指标为:编辑距离)评测效果:
![[Pasted image 20250622104551.png]]

不同page属性下,文本识别评测效果:
![[Pasted image 20250622104735.png]]

不同版本类型(单栏、多栏等)下,阅读顺序评测效果
![[Pasted image 20250622104811.png]]

不同PDF类型下,版面区域检测评测效果
![[Pasted image 20250622104858.png]]

不同表格类型下,表格识别评测效果
![[Pasted image 20250622104918.png]]

总结

OmniDocBench应该是目前类型最丰富、标注粒度最详细的PDF解析评测数据集了,对于评估PDF解析算法,意义重大。最新的PP-StructureV3简介 - PaddleOCR 文档便给出了在OmniDocBench上的评测对比,可以详细看看。

但是,某个算法想利用该benchmark来评测结果时,需要注意数据泄露的风险,尽量避免用该benchmark里的数据进行训练。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/84964.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/84964.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[按键精灵安卓/ios脚本插件开发] 遍历获取LuaAuxLib函数库命令辅助工具

LuaAuxLib库 LuaAuxLib是按键精灵所有内置命令所在的库文件,有多种方式来获取LuaAuxLib库下的函数命令,例如反编译按键精灵手机端库文件等。这里咱们来介绍一种浅显易懂的方式来获取,直接for循环遍历获取函数名。 ScanLuaAuxLib 我们写一个自…

深度学习和计算机视觉的关系的理解

深度学习和计算机视觉的关系 深度学习作为人工智能的重要分支,近年来在计算机视觉领域取得了革命性突破。计算机视觉的核心任务包括图像分类、目标检测、语义分割等,而深度学习通过神经网络模型自动学习图像特征,极大提升了这些任务的准确率…

springboot开发项目 SLF4J+Logback日志框架集成【最终篇】

在这篇文章之前,实际对于 springboot和SLF4JLogback日志框架的使用 我已经分享过3篇关于springboot 日志的文章了。为什么会在写这篇最终篇,因为 前3篇分享的关于springBoot框架日志的配置方案, 发现了一个问题:只有项目启动的时候…

phpstudy无法启动apache,80端口被占用,完美解决

phpstudy无法启动apache,80端口被占用,完美解决 解决方法一(最推荐) 依次点击网站-管理-修改 将端口由80改为81,再点击确认后即可重新启动apache。 需要注意的是,网站的访问由127.0.0.1变为127.0.0.1:81。默认是80的端口所以可以不…

Loggers 配置解析(log4j.xml)

Loggers 配置解析 我们通过下面的例子来理解 log4j 的 Loggers 配置是如何决定日志输出规则的。 <Loggers><!-- 根Logger&#xff1a;全局配置 --><Root level"debug"><AppenderRef ref"consoleAppender" level"info"/&g…

Java 大视界 -- Java 大数据在智能政务舆情监测与引导中的情感分析与话题挖掘技术(272)

&#x1f496;亲爱的朋友们&#xff0c;热烈欢迎来到 青云交的博客&#xff01;能与诸位在此相逢&#xff0c;我倍感荣幸。在这飞速更迭的时代&#xff0c;我们都渴望一方心灵净土&#xff0c;而 我的博客 正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识&#xff0c;也…

[NocoDB] 在局域网中调整Float类型显示精度的部署经验

在单位局域网环境中,NocoDB有效地连接MySQL数据库和前端服务,做为中间件很方便。然而,在实际应用中,我们也会遇到一些较为隐藏的设置问题,比如此次经历的 float 显示精度不匹配问题。 问题环境 实际数据库:MySQL,表中有 float 类型的数据 原始数据来源:Excel表格 数据转…

Dockerfile 常见指令详解

Dockerfile 是一个文本文件&#xff0c;包含了一系列用于构建 Docker 镜像的指令。以下是 Dockerfile 中常见指令的详细解释&#xff1a; 基础指令 1. FROM 指定基础镜像&#xff0c;必须为第一条指令&#xff08;注释除外&#xff09;。 FROM ubuntu:20.04 FROM python:3.…

InnoDB Cluster 与 NDB Cluster 对比及部署指南

InnoDB Cluster 与 NDB Cluster 对比及部署指南 一、核心区别对比 特性InnoDB ClusterNDB Cluster存储引擎InnoDBNDB (内存优先)架构设计基于Group Replication分布式架构(数据节点管理节点SQL节点)一致性模型最终一致性/强一致性强一致性数据持久化磁盘存储为主内存存储为主…

PySide环境配置及工具使用

文章目录 [toc]1 概述1.1 PySide 能做什么&#xff1f;1.2 PySide 的优点1.3 PySide 的缺点1.4 示例代码&#xff08;简单窗口&#xff09; 2 环境准备2.1 安装必要软件2.2 修改 pip 源 3 PySide23.1 环境要求3.2 配置PySide23.3 工具配置 4 PySide64.1 环境4.2 配置PySide64.3…

数据标注师学习内容

目录 文本标注词性标注实体标注 图像标注语音标注 文本标注 词性标注 第一篇 第二篇 实体标注 点击这里 关系标注 事件标注 意图标注 关键词标注 分类标注 问答标注 对话标注 图像标注 拉框标注 关键点标注 2D标注 3D标注 线标注 目标跟踪标注 OCR标注 图像分类标注 语音…

【linux】文件与目录命令 - rsync

文章目录 1. 基本用法2. 常用参数3. 用法举例4. 注意事项 rsync 命令用于快速同步文件和目录&#xff0c;可用于本地和远程传输&#xff0c;支持增量同步、压缩、权限保留等特性。 1. 基本用法 语法&#xff1a; rsync [选项] 源 目标功能&#xff1a; 高效增量同步&#xff…

互联网大厂Java求职面试:电商系统高并发设计

互联网大厂Java求职面试&#xff1a;电商系统高并发设计 文章内容 面试官&#xff08;技术总监&#xff09;与郑薪苦的对话 面试官&#xff1a; “郑薪苦&#xff0c;欢迎来到我们的面试。今天我们会围绕一个非常热门的话题——电商系统的高并发设计进行深入探讨。你之前在某…

Nginx跨云反向代理排错:解密配置参数的“陷阱”

前言&#xff1a;在当今的云计算环境中&#xff0c;跨云平台的应用部署变得越来越常见。为了验证跨云平台反向代理的可行性&#xff0c;我们进行了一次测试。本次测试将后端程序部署在阿里云服务器&#xff0c;同时使用在腾讯云注册的已备案国内域名。我们在腾讯云控制台将域名…

股票账户的管理和交易

中国证券登记结算有限责任公司&#xff08;简称“中国结算”&#xff09;确实是负责股票的账户管理&#xff08;开户、销户&#xff09;和登记、存管、清算、交收等后台业务的中央机构。它确保了股票所有权的准确记录和交易后资金与证券的最终转移。 而股票的交易业务&#xff…

Arcgis地理配准变换方法说明

零阶多项式 - 将使用零阶多项式来平移数据。 当已对数据进行地理配准但通过微小的平移可以更好的排列数据时&#xff0c;通常使用该多项式。 执行零阶多项式平移只需要一个连接线。相似性多项式 - 将使用一阶变换&#xff0c;尝试保持原始栅格的形状。 RMS 错误会高于其他多项式…

深入理解 C++ volatile 与 atomic:五大用法解析 + 六大高频考点

一、volatile volatile是C中一个非常重要的关键字。volatile关键字告诉编译器&#xff0c;被修饰的变量可能会在程序控制之外被改变&#xff0c;因此编译器不能对该变量的访问进行优化。什么意思呢&#xff1f;现代处理器架构中&#xff0c;有寄存器&#xff0c;L1缓存&#x…

跨主机管理Docker容器化应用的操作与技巧

哈喽&#xff0c;大家好&#xff0c;我是左手python&#xff01; 环境准备与 Docker 安装 在开始跨主机管理 Docker 容器化应用之前&#xff0c;需要确保所有主机上都安装了 Docker 引擎&#xff0c;并且这些主机之间可以通过 SSH 协议进行通信。本节将详细介绍环境准备和 Doc…

编程实践:sigmastar330 调用IVE图像处理加速

说明:本专栏文章有两种解锁方案 1:付费订阅,畅享所有文章 2:免费获取,点击下方链接,关注,自动获取免费链接 https://free-img.400040.xyz/4/2025/04/29/6810a50b7ac8b.jpg 主题:利用IVE进行图像处理加速 Sigmastar 支持的硬件操作,基本都在:mi_ive.h 文件中,本文…

Nginx+PHP+MySQL安装参考

NginxPHPMySQL安装参考 CentOS7环境 配置CentOS7网络&#xff1a; CentOS(最小安装)默认是不打开网络的 启动网络 vi打开&#xff1a;/etc/sysconfig/network-scripts/ifcfg-ens33 文件 将 “ONBOOT:no”属性修改为&#xff1a;“ONBOOT:yes” 重启网络服务 # sudo service …