【开源初探】基于 Qwen2.5VL的文档解析工具：docext

【开源初探】基于 Qwen2.5VL的文档解析工具：docext

pingmian/2025/6/22 20:41:55/文章来源:https://blog.csdn.net/meiqi0538/article/details/148809909

源码地址： https://github.com/NanoNets/docext

概述

docext 是一个由视觉语言模型（vlm）提供支持的全面的本地文档智能工具包。vlm 使用的是基于 Qwen2.5VL-3B 的模型，应该是在此模型基础上进行的微调。

它提供了三个核心功能：

1.pdf/image 转 markdown：将文档转换为具有智能内容识别的结构化标记，包括 LaTeX 方程、签名、水印、表和语义标记。

2.文档信息提取：从发票、护照和其他文档类型等文档中无 ocr 地提取结构化信息（字段、表等），并进行置信度评分。

3.智能文档处理排行榜（https://idp-leaderboard.org/）：一个全面的基准测试平台，跟踪和评估视觉语言模型在OCR、关键信息提取（Key Information Extraction， KIE）、文档分类、表提取和其他智能文档处理任务中的性能。

核心特点

文档转换

(1) latex 公式识别，行内和块的公式使用 latex 表示
输入：

官方案例部分输出结果如下：

(2) 智能图片描述，对于所有图片，使用去替代原来图片中的内容；
输入：

官方案例部分输出结果如下：

(3)签名/水印/页码的检测，检测和标记文档中的签名、水印和页码，并分别放入到、、<page_number></page_number>中；
输入：

官方案例部分输出结果如下：

输入：

官方案例部分输出结果如下：

(4) 复选框和单选按钮：将表单复选框和单选按钮转换为标准化的 Unicode 符号(☐, ☑, ☒)
输入：

官方案例部分结果如下：

(5) 表格检测：将复杂的表格转换成 html 的表格表示
输入：

官方案例部分结果如下：

智能文档处理排行榜

该基准评估七个关键文档智能挑战的性能;

(1) 关键信息提取（KIE）：从非结构化文档文本中提取结构化字段。

(2) 视觉问答（VQA）：通过问答来评估对文档内容的理解。

(3) 光学字符识别（OCR）：测量识别印刷和手写文本的准确性。

(4) 文档分类：评估模型对各种文档类型进行分类的准确性。

(5) 长文档处理：测试模型对冗长的、上下文丰富的文档的推理。

(6) 表提取：从复杂的表格格式中提取基准结构化数据。

(7) 可信度评分校准：评估模型预测的可靠性和置信度。

补充

工具提到可以输出可信度评分，从源码来看主要是将用户的输入以及大模型的输出结果+打分的 prompt 让大模型对用户的输入和大模型的输出结果打分。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/pingmian/85672.shtml
繁体地址，请注明出处：http://hk.pswp.cn/pingmian/85672.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Python 正确重载运算符(增量赋值运算符)

Python 正确重载运算符(增量赋值运算符)

增量赋值运算符 Vector 类已经支持增量赋值运算符和 * 了，如示例 13-15 所示。示例 13-15　增量赋值不会修改不可变目标，而是新建实例，然后重新绑定 >>> v1 Vector([1, 2, 3]) >>> v1_alias v1 # ➊ >>> …

阅读更多...

XCUITest + Objective-C 详细示例

XCUITest + Objective-C 详细示例

💖亲爱的技术爱好者们，热烈欢迎来到 Kant2048 的博客！我是 Thomas Kant，很开心能在CSDN上与你们相遇～💖 本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】

阅读更多...

redis分布式锁 Redisson在电商平台开发中的实际应用

redis分布式锁 Redisson在电商平台开发中的实际应用

目录概述 Redis分布式锁的实现方式 1. 基于SETNX命令（String类型） 2. 使用SET命令的NX和EX参数（推荐方式） 3. 基于Lua脚本实现复杂逻辑 4. RedLock算法（多节点Redis实现） Redisson的分布式锁 Redis…

阅读更多...

joomla 使用nginx服务器只能打开首页，其他页面404的解决方案

joomla 使用nginx服务器只能打开首页，其他页面404的解决方案

最近一个客户将Joomla4网站从原先的Apache服务器改为Nginx服务器，整个过程一切顺利，但还原网站后发现只能打开首页，其他页面都是404。这个问题需要修改nginx的配置文件来解决。伪静态在Apache中使用.htaccess来完成伪静态路由的转发&…

阅读更多...

湖北理元理律师事务所企业债务纾困路径：司法重整中的再生之道

湖北理元理律师事务所企业债务纾困路径：司法重整中的再生之道

中小企业债务危机常呈现“担保链扩散”特征，单一债务可能引发企业崩盘。湖北理元理律师事务所通过预重整制度与企业债务重组技术，探索出“司法保护商业谈判”的纾困模式。一、企业债务风险处置四步法紧急止血申请司法保护：通过诉前调解…

阅读更多...

利用DeepWiki高效阅读项目源码

利用DeepWiki高效阅读项目源码

想获取更多高质量的Java技术文章？欢迎访问Java技术小馆官网，持续更新优质内容，助力技术成长技术小馆官网 DeepWiki 是一个强大的工具，专为程序员提供开源项目源码的结构化文档和 AI 驱动的问答功能，帮助快速理解复杂…

阅读更多...

django rest_framework 前端网页实现Token认证

django rest_framework 前端网页实现Token认证

rest_framework提供了几种认证方式：Session、Token等。Session是最简单的，几乎不用写任何代码就可以是实现，Token方式其实也不复杂，网上的教程一大把，但是最后都是用Postman这类工具来实现API调用的，通过这…

阅读更多...

面试题-函数类型的重载是啥意思

面试题-函数类型的重载是啥意思

在 TypeScript 中，函数重载（Function Overload） 是指为同一个函数提供多个不同的调用签名（参数类型和返回值类型的组合），但函数体只有一个实现。这样可以让函数在不同的输入下表现出不同的行为，…

阅读更多...

磐基PaaS平台MongoDB组件SSPL许可证风险与合规性分析（上）

磐基PaaS平台MongoDB组件SSPL许可证风险与合规性分析（上）

#作者：任少近文章目录 1.背景与问题1.1.背景1.2.问题 3.SSPL条款解读分析3.1.条款0：定义条款3.2.条款一：源代码条款3.3.条款二：基本授权条款3.4.条款三：反规避保护条款3.5.条款四：逐字传播条款3.6.条款五…

阅读更多...

「Linux文件及目录管理」输入输出重定向与管道

「Linux文件及目录管理」输入输出重定向与管道

知识点解析输入/输出重定向标准输入（stdin）：默认从键盘读取，文件描述符为0。标准输出（stdout）：默认输出到终端，文件描述符为1。标准错误（stderr）：默认输出到终端，文件描述符为2。重定向符号： >：覆盖输出到文件（如command > file）。>>：追加输出…

阅读更多...

【Node】最佳Node.js后端开发模板推荐

【Node】最佳Node.js后端开发模板推荐

Node.js 后端开发模板推荐以下是几个优秀的Node.js后端模板，它们都适合二次开发，各自有不同的特点和适用场景： 1. Express基础模板 Express Generator (官方工具) 官方提供的快速搭建工具基础MVC结构简单易上手 npm install express-ge…

阅读更多...

HALCON相机标定

HALCON相机标定

相机标定简介： 首先，相机会产生畸变，即实际图像和拍摄图像不一致，可以是凸性也可以是凹性形变，相机标定的过程就是将畸变图像还原为原始图像，并将图像中的像素坐标转换为世界坐标。形如：相机内…

阅读更多...

Solidity 入门教程（二）：值类型全解 —— 布尔、整数、地址与字节数组

Solidity 入门教程（二）：值类型全解 —— 布尔、整数、地址与字节数组

在上一章中，我们写下了第一个 Solidity 合约并在 Remix 中成功运行。本章我们将深入了解 Solidity 中的几种常用值类型（Value Types），并通过示例代码在 Remix 进行验证。一、Solidity 中的三种数据类型在 Solidity 中&#xf…

阅读更多...

16.大数据监控

16.大数据监控

0.说明监控主要构成。软件版本。 1.exporter监控配置 1.1 node_exporter 启动命令 nohup ./node_exporter &服务创建文件 /etc/systemd/system/node_exporter.service： [Unit] DescriptionPrometheus Node Exporter Wantsnetwork-online.target Aft…

阅读更多...

Tomcat项目本地部署（Servlet为例）

Tomcat项目本地部署（Servlet为例）

在Windows上部署在idea中打开项目首先我们需要准备一个Servlet项目，我之前的Servlet项目是用eclipse写的，这种情况下如果用idea直接打开的话会出现左侧目录无法显示的情况，这个时候我们就需要用别的方法打开打开项目管理如下图&#…

阅读更多...

安装MySQL 5.7导入数据，修改密码，创建账号并授权

安装MySQL 5.7导入数据，修改密码，创建账号并授权

1. 准备工作 sudo yum update -y sudo yum install -y wget libaio numactl 2. 下载 MySQL 5.7 二进制包 wget https://dev.mysql.com/get/Downloads/MySQL-5.7/mysql-5.7.44-linux-glibc2.12-x86_64.tar.gz 3. 创建 MySQL 用户和组 sudo groupadd mysql sudo useradd -r -g m…

阅读更多...

基础RAG实现，最佳入门选择（八）

基础RAG实现，最佳入门选择（八）

RAG重排序 RAG重排序技术以提高RAG系统中的检索质量。重新排序充当初始检索后的第二个过滤步骤，以确保最相关的内容用于响应生成。重排序的关键概念 1.初始检索：使用基本相似度搜索的第一遍（准确度较低但速度更快） 2.文档评分…

阅读更多...

Spring Boot 常用注解整理

Spring Boot 常用注解整理

Spring & Spring Boot 常用注解整理现代的 Spring 与 Spring Boot 应用大量使用注解来简化配置、管理组件和实现各种框架功能。本文系统整理了常用的 Spring/Spring Boot 注解，按照功能分类进行介绍。每个注解都会涵盖其含义、提供来源、应用场景以及代码示例…

阅读更多...

深入理解 Cross-Entropy 损失函数：从原理到实践

深入理解 Cross-Entropy 损失函数：从原理到实践

在深度学习中，损失函数是衡量模型性能的关键指标之一。对于多分类问题，Cross-Entropy 损失函数是最常用的选择之一。它不仅能够有效衡量模型输出与真实标签之间的差异，还能通过梯度下降法指导模型的优化。本文将深入探讨 Cross-Entropy 损失…

阅读更多...

Vim-vimrc保存文件自动移除行末尾空格

Vim-vimrc保存文件自动移除行末尾空格

Vim-vimrc保存文件自动移除行末尾空格这段代码通过设置 autocmd 和自定义函数，确保每次保存文件时都自动删除文件中的行尾空格，同时不会影响光标和视图的位置。它适用于所有文件类型，并且删除操作不会引入错误，即使没有行尾空格的…

阅读更多...

最新文章