【开源初探】基于 Qwen2.5VL的文档解析工具:docext

源码地址: https://github.com/NanoNets/docext

概述

docext 是一个由视觉语言模型(vlm)提供支持的全面的本地文档智能工具包。vlm 使用的是基于 Qwen2.5VL-3B 的模型,应该是在此模型基础上进行的微调。

它提供了三个核心功能:

1.pdf/image 转 markdown:将文档转换为具有智能内容识别的结构化标记,包括 LaTeX 方程、签名、水印、表和语义标记。

2.文档信息提取:从发票、护照和其他文档类型等文档中无 ocr 地提取结构化信息(字段、表等),并进行置信度评分。

3.智能文档处理排行榜(https://idp-leaderboard.org/):一个全面的基准测试平台,跟踪和评估视觉语言模型在OCR、关键信息提取(Key Information Extraction, KIE)、文档分类、表提取和其他智能文档处理任务中的性能。

核心特点

文档转换

(1) latex 公式识别,行内和块的公式使用 latex 表示
输入:

官方案例部分输出结果如下:

(2) 智能图片描述,对于所有图片,使用去替代原来图片中的内容;
输入:

官方案例部分输出结果如下:

(3)签名/水印/页码的检测,检测和标记文档中的签名、水印和页码,并分别放入到、、<page_number></page_number>中;
输入:

官方案例部分输出结果如下:

输入:

官方案例部分输出结果如下 :

(4) 复选框和单选按钮:将表单复选框和单选按钮转换为标准化的 Unicode 符号(☐, ☑, ☒)
输入:

官方案例部分结果如下:

(5) 表格检测:将复杂的表格转换成 html 的表格表示
输入:

官方案例部分结果如下:

智能文档处理排行榜

该基准评估七个关键文档智能挑战的性能;

(1) 关键信息提取(KIE):从非结构化文档文本中提取结构化字段。

(2) 视觉问答(VQA):通过问答来评估对文档内容的理解。

(3) 光学字符识别(OCR):测量识别印刷和手写文本的准确性。

(4) 文档分类:评估模型对各种文档类型进行分类的准确性。

(5) 长文档处理:测试模型对冗长的、上下文丰富的文档的推理。

(6) 表提取:从复杂的表格格式中提取基准结构化数据。

(7) 可信度评分校准:评估模型预测的可靠性和置信度。

补充

工具提到可以输出可信度评分,从源码来看主要是将用户的输入以及大模型的输出结果+打分的 prompt 让大模型对用户的输入和大模型的输出结果打分。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/85672.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/85672.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python 正确重载运算符(增量赋值运算符)

增量赋值运算符 Vector 类已经支持增量赋值运算符 和 * 了&#xff0c;如示例 13-15 所示。 示例 13-15 增量赋值不会修改不可变目标&#xff0c;而是新建实例&#xff0c;然后 重新绑定 >>> v1 Vector([1, 2, 3]) >>> v1_alias v1 # ➊ >>> …

XCUITest + Objective-C 详细示例

💖亲爱的技术爱好者们,热烈欢迎来到 Kant2048 的博客!我是 Thomas Kant,很开心能在CSDN上与你们相遇~💖 本博客的精华专栏: 【自动化测试】 【测试经验】 【人工智能】 【Python】

redis分布式锁 Redisson在电商平台开发中的实际应用

目录 概述 Redis分布式锁的实现方式 1. 基于SETNX命令&#xff08;String类型&#xff09; 2. 使用SET命令的NX和EX参数&#xff08;推荐方式&#xff09; 3. 基于Lua脚本实现复杂逻辑 4. RedLock算法&#xff08;多节点Redis实现&#xff09; Redisson的分布式锁 Redis…

joomla 使用nginx服务器只能打开首页,其他页面404的解决方案

最近一个客户将Joomla4网站从原先的Apache服务器改为Nginx服务器&#xff0c;整个过程一切顺利&#xff0c;但还原网站后发现只能打开首页&#xff0c;其他页面都是404。这个问题需要修改nginx的配置文件来解决。 伪静态 在Apache中使用.htaccess来完成伪静态路由的转发&…

湖北理元理律师事务所企业债务纾困路径:司法重整中的再生之道

中小企业债务危机常呈现“担保链扩散”特征&#xff0c;单一债务可能引发企业崩盘。湖北理元理律师事务所通过预重整制度与企业债务重组技术&#xff0c;探索出“司法保护商业谈判”的纾困模式。 一、企业债务风险处置四步法 紧急止血 申请司法保护&#xff1a;通过诉前调解…

利用DeepWiki高效阅读项目源码

想获取更多高质量的Java技术文章&#xff1f;欢迎访问Java技术小馆官网&#xff0c;持续更新优质内容&#xff0c;助力技术成长 技术小馆官网 DeepWiki 是一个强大的工具&#xff0c;专为程序员提供开源项目源码的结构化文档和 AI 驱动的问答功能&#xff0c;帮助快速理解复杂…

django rest_framework 前端网页实现Token认证

rest_framework提供了几种认证方式&#xff1a;Session、Token等。Session是最简单的&#xff0c;几乎不用写任何代码就可以是实现&#xff0c;Token方式其实也不复杂&#xff0c;网上的教程一大把&#xff0c;但是最后都是用Postman这类工具来实现API调用的&#xff0c;通过这…

面试题-函数类型的重载是啥意思

在 TypeScript 中&#xff0c;函数重载&#xff08;Function Overload&#xff09; 是指为同一个函数提供多个不同的调用签名&#xff08;参数类型和返回值类型的组合&#xff09;&#xff0c;但函数体只有一个实现。这样可以让函数在不同的输入下表现出不同的行为&#xff0c;…

磐基PaaS平台MongoDB组件SSPL许可证风险与合规性分析(上)

#作者&#xff1a;任少近 文章目录 1.背景与问题1.1.背景1.2.问题 3.SSPL条款解读分析3.1.条款0&#xff1a;定义条款3.2.条款一&#xff1a;源代码条款3.3.条款二&#xff1a;基本授权条款3.4.条款三&#xff1a;反规避保护条款3.5.条款四&#xff1a;逐字传播条款3.6.条款五…

「Linux文件及目录管理」输入输出重定向与管道

知识点解析 输入/输出重定向 标准输入(stdin):默认从键盘读取,文件描述符为0。标准输出(stdout):默认输出到终端,文件描述符为1。标准错误(stderr):默认输出到终端,文件描述符为2。重定向符号: >:覆盖输出到文件(如command > file)。>>:追加输出…

【Node】最佳Node.js后端开发模板推荐

Node.js 后端开发模板推荐 以下是几个优秀的Node.js后端模板&#xff0c;它们都适合二次开发&#xff0c;各自有不同的特点和适用场景&#xff1a; 1. Express基础模板 Express Generator (官方工具) 官方提供的快速搭建工具基础MVC结构简单易上手 npm install express-ge…

HALCON相机标定

相机标定简介&#xff1a; 首先&#xff0c;相机会产生畸变&#xff0c;即实际图像和拍摄图像不一致&#xff0c;可以是凸性也可以是凹性形变&#xff0c;相机标定的过程就是将畸变图像还原为原始图像&#xff0c;并将图像中的像素坐标转换为世界坐标。 形如&#xff1a;相机内…

Solidity 入门教程(二):值类型全解 —— 布尔、整数、地址与字节数组

在上一章中&#xff0c;我们写下了第一个 Solidity 合约并在 Remix 中成功运行。本章我们将深入了解 Solidity 中的几种常用值类型&#xff08;Value Types&#xff09;&#xff0c;并通过示例代码在 Remix 进行验证。 一、Solidity 中的三种数据类型 在 Solidity 中&#xf…

16.大数据监控

0.说明 监控主要构成。 软件版本。 1.exporter监控配置 1.1 node_exporter 启动命令 nohup ./node_exporter &服务 创建文件 /etc/systemd/system/node_exporter.service&#xff1a; [Unit] DescriptionPrometheus Node Exporter Wantsnetwork-online.target Aft…

Tomcat项目本地部署(Servlet为例)

在Windows上部署 在idea中打开项目 首先我们需要准备一个Servlet项目&#xff0c;我之前的Servlet项目是用eclipse写的&#xff0c;这种情况下如果用idea直接打开的话会出现左侧目录无法显示的情况&#xff0c;这个时候我们就需要用别的方法打开 打开项目管理 如下图&#…

安装MySQL 5.7导入数据,修改密码,创建账号并授权

1. 准备工作 sudo yum update -y sudo yum install -y wget libaio numactl 2. 下载 MySQL 5.7 二进制包 wget https://dev.mysql.com/get/Downloads/MySQL-5.7/mysql-5.7.44-linux-glibc2.12-x86_64.tar.gz 3. 创建 MySQL 用户和组 sudo groupadd mysql sudo useradd -r -g m…

基础RAG实现,最佳入门选择(八)

RAG重排序 RAG重排序技术以提高RAG系统中的检索质量。重新排序充当初始检索后的第二个过滤步骤&#xff0c;以确保最相关的内容用于响应生成。 重排序的关键概念 1.初始检索&#xff1a;使用基本相似度搜索的第一遍&#xff08;准确度较低但速度更快&#xff09; 2.文档评分…

Spring Boot 常用注解整理

Spring & Spring Boot 常用注解整理 现代的 Spring 与 Spring Boot 应用大量使用注解来简化配置、管理组件和实现各种框架功能。本文系统整理了常用的 Spring/Spring Boot 注解&#xff0c;按照功能分类进行介绍。每个注解都会涵盖其含义、提供来源、应用场景以及代码示例…

深入理解 Cross-Entropy 损失函数:从原理到实践

在深度学习中&#xff0c;损失函数是衡量模型性能的关键指标之一。对于多分类问题&#xff0c;Cross-Entropy 损失函数 是最常用的选择之一。它不仅能够有效衡量模型输出与真实标签之间的差异&#xff0c;还能通过梯度下降法指导模型的优化。本文将深入探讨 Cross-Entropy 损失…

Vim-vimrc保存文件自动移除行末尾空格

Vim-vimrc保存文件自动移除行末尾空格 这段代码通过设置 autocmd 和自定义函数&#xff0c;确保每次保存文件时都自动删除文件中的行尾空格&#xff0c;同时不会影响光标和视图的位置。它适用于所有文件类型&#xff0c;并且删除操作不会引入错误&#xff0c;即使没有行尾空格的…