一款将PDF转化为机器可读格式的工具介绍

ps:以下内容来自MinerU项目

MinerU

项目简介

MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。 MinerU诞生于书生-浦语的预训练过程中,我们将会集中精力解决科技文献中的符号转化问题,希望在大模型时代为科技发展做出贡献。 相比国内外知名商用产品MinerU还很年轻,如果遇到问题或者结果不及预期请到issue提交问题,同时附上相关PDF

https://github.com/user-attachments/assets/4bea02c9-6d54-4cd6-97ed-dff14340982c

主要功能

  • 删除页眉、页脚、脚注、页码等元素,确保语义连贯
  • 输出符合人类阅读顺序的文本,适用于单栏、多栏及复杂排版
  • 保留原文档的结构,包括标题、段落、列表等
  • 提取图像、图片描述、表格、表格标题及脚注
  • 自动识别并转换文档中的公式为LaTeX格式
  • 自动识别并转换文档中的表格为HTML格式
  • 自动检测扫描版PDF和乱码PDF,并启用OCR功能
  • OCR支持84种语言的检测与识别
  • 支持多种输出格式,如多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等
  • 支持多种可视化结果,包括layout可视化、span可视化等,便于高效确认输出效果与质检
  • 支持纯CPU环境运行,并支持 GPU(CUDA)/NPU(CANN)/MPS 加速
  • 兼容Windows、Linux和Mac平台

快速开始

如果安装或使用中遇到任何问题,请先查询 FAQ
如果遇到解析效果不及预期,参考 Known Issues

在线体验

官网在线应用

官网在线版功能与客户端一致,界面美观,功能丰富,需要登录使用

基于Gradio的在线demo

基于gradio开发的webui,界面简洁,仅包含核心解析功能,免登录

本地部署

[!WARNING] 安装前必看——软硬件环境支持说明

为了确保项目的稳定性和可靠性,我们在开发过程中仅对特定的软硬件环境进行优化和测试。这样当用户在推荐的系统配置上部署和运行项目时,能够获得最佳的性能表现和最少的兼容性问题。

通过集中资源和精力于主线环境,我们团队能够更高效地解决潜在的BUG,及时开发新功能。

在非主线环境中,由于硬件、软件配置的多样性,以及第三方依赖项的兼容性问题,我们无法100%保证项目的完全可用性。因此,对于希望在非推荐环境中使用本项目的用户,我们建议先仔细阅读文档以及FAQ,大多数问题已经在FAQ中有对应的解决方案,除此之外我们鼓励社区反馈问题,以便我们能够逐步扩大支持范围。

解析后端pipelinevlm-transformersvlm-sglang
操作系统Linux / Windows / macOSLinux / WindowsLinux / Windows (via WSL2)
CPU推理支持
GPU要求Turing及以后架构,6G显存以上或Apple SiliconTuring及以后架构,8G显存以上
内存要求最低16G以上,推荐32G以上
磁盘空间要求20G以上,推荐使用SSD
python版本3.10-3.13

安装 MinerU

使用pip或uv安装MinerU
pip install --upgrade pip -i https://mirrors.aliyun.com/pypi/simple
pip install uv -i https://mirrors.aliyun.com/pypi/simple
uv pip install -U "mineru[core]" -i https://mirrors.aliyun.com/pypi/simple 
通过源码安装MinerU
git clone https://github.com/opendatalab/MinerU.git
cd MinerU
uv pip install -e .[core] -i https://mirrors.aliyun.com/pypi/simple

[!TIP] mineru[core]包含除sglang加速外的所有核心功能,兼容Windows / Linux / macOS系统,适合绝大多数用户。 如果您有使用sglang加速VLM模型推理,或是在边缘设备安装轻量版client端等需求,可以参考文档扩展模块安装指南。


使用docker部署Mineru

MinerU提供了便捷的docker部署方式,这有助于快速搭建环境并解决一些棘手的环境兼容问题。 您可以在文档中获取Docker部署说明。


使用 MinerU

最简单的命令行调用方式:

mineru -p <input_path> -o <output_path>

您可以通过命令行、API、WebUI等多种方式使用MinerU进行PDF解析,具体使用方法请参考使用指南。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/96234.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/96234.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

代码随想录算法训练营第三十九天|62.不同路径 63.不同路径ll

62.不同路径&#xff1a; 文档讲解&#xff1a;代码随想录|62.不同路径 视频讲解&#xff1a;https://www.bilibili.com/video/BV1ve4y1x7Eu 状态&#xff1a;已做出 一、题目要求&#xff1a; 一个二维数组里&#xff0c;将(0&#xff0c;0)位置下标作为起点&#xff0c;计算…

openEuler2403安装部署Prometheus和Grafana

文章目录openEuler2403安装部署Prometheus和Grafana一、前言1.简介2.环境二、正文1.环境准备1&#xff09;JDK 安装部署&#xff08;可选&#xff09;2&#xff09;关闭防火墙2.安装 Prometheus1&#xff09;下载和安装2&#xff09;启动3&#xff09;systemd服务管理3.安装 Gr…

乐吾乐大屏可视化组态软件【SQL数据源】

乐吾乐大屏可视化组态软件&#xff08;大屏可视化设计器 - 乐吾乐Le5le&#xff09;支持直接对接SQL数据源功能&#xff0c;目前仅对企业源码客户开放。 配置SQL数据源 管理员进入可视化管理中心&#xff0c;点击SQL数据源&#xff0c;配置添加SQL数据源。 创建SQL数据源连接 …

Django高效查询:values_list实战详解

Django 实战案例 讲解 values_list 的用法。 values_list("field", flatTrue) → 获取单字段的一维列表。values_list("f1", "f2") → 获取多个字段&#xff0c;返回元组。搭配 filter / distinct / in / 外键查询 非常高效。适合用于 导出数据 …

Java数据结构——树

一、树型结构1.1 概念我们之前提到的数组&#xff0c;单链表&#xff0c;栈和队列都是一种线性结构&#xff0c;每个元素都有最多一个后继节点。而树型结构是一种非线性结构&#xff0c;它是由n&#xff08;n>0&#xff09;节点组成的一个具有层次关系的集合。它之所以叫做树…

基于LLM的月全食时空建模与智能预测:从天文现象到深度学习融合

当古老的天文学遇上现代人工智能,会碰撞出怎样的火花? 一、当月球遇见AI 月全食,这一令人惊叹的天文现象,自古以来就吸引着无数天文学家和爱好者的目光。当地球恰好运行到太阳和月球之间,完全遮挡太阳光时,我们就能目睹月球逐渐被"吞噬"然后又重焕光彩的奇妙…

LeetCode热题 42.接雨水

题目 思路&#xff1a; 通过画图观察我们其实可以很容易发现&#xff0c;每个柱子接多少水由这个地方左边最高的柱子和右边最高的柱子确定&#xff0c;因为总要形成一个坑嘛&#xff0c;然后就能接着确定&#xff1a; 当前柱子接水量 min(左边最高柱子的高度, 右边最高柱子的…

PostgreSQL与Greenplum数据库的编程语言连接

编程语言连接数据库 目前数据库一般支持HA的连接&#xff0c;即一个Coordinator内的一个节点异常后会链接到另外的一个节点&#xff0c;不会影响业务的正常运行。在JDBC配置时需要采用 高可用链接字符串(Connection URL/DSN) 的方式连接。适用于不同的编程语言中使用&#xff…

后端(JDBC)学习笔记(CLASS 1):基础篇(一)

一、引言1、数据的存储开发java程序的时候&#xff0c;数据都是存储在内存中&#xff0c;属于临时存储&#xff0c;当程序停止或重启时&#xff0c;内存中的数据就丢失了。为了解决数据的长期存储问题&#xff0c;有如下解决方案&#xff1a;1、数据通过I/O流技术&#xff0c;存…

卷对卷(Roll-to-Roll,R2R)技术的应用领域和技术进展

目录&#xff1a;第一节&#xff1a;卷对卷技术及其应用领域和工艺要求一、卷对卷技术发展现概述二、卷对卷研发和规模化应用难点重点和发展趋势三、卷对卷工艺主要应用领域及工艺要求第二节&#xff1a;卷对卷生产工艺参数及质量控制四、卷对卷生产工艺控制参数和条件五、卷对…

【Ansible】管理变量和事实知识点

1.Ansible变量名由什么组成&#xff1f;答&#xff1a;变量名必须以字母开头&#xff0c;且只能含有字母、数字和下划线。2.定义变量的方法及变量的优先级&#xff1f;答&#xff1a;按优先级从低到高排列: 在清单中定义的组变量 < 在清单或playbook所在目录的group_vars子目…

基于SpringBoot的天气预报系统的设计与实现

源码链接&#xff1a;点击下载源码 相关文档&#xff1a;点击下载相关文档 摘 要 随着科技的飞速发展和人们生活水平的不断提高&#xff0c;天气预报已成为现代社会不可或缺的一部分。无论是日常生活出行、农业生产安排&#xff0c;还是航空、海运等交通领域&#xff0c;准确…

算法(keep learning)

基础算法 背模板加刷题 排序快排 主要思想&#xff1a;分治 第一步&#xff1a;确认一个分界点&#xff0c;比如起点&#xff0c;中间点&#xff08;分界点&#xff09;&#xff0c;末点第二步&#xff1a;调整区间&#xff0c;使得第一个区间的数都小于等于分界点&#xff0c;…

Django项目架构

背景&#xff1a;很多人写 Django 时容易“什么都往 views 里塞”&#xff0c;结果项目一大就乱套了。需要把 视图层 / 业务层 / 数据层 等职责清晰分出来。图解说明Client&#xff1a;浏览器 / App / 前端调用 API。urls.py&#xff1a;定义 API 路由&#xff0c;把请求分发到…

MySQL】从零开始了解数据库开发 --- 表的操作

永远记住&#xff0c;你的存在是有意义的&#xff0c; 你很重要&#xff0c; 你是被爱着的&#xff0c; 而且你为这个世界带来了无可取代的东西。 -- 麦克西 《男孩、鼹鼠、狐狸和马》-- 从零开始了解数据库开发创建数据表查看表结构修改数据表结构重命名表复制表删除表今天我们…

MySQL底层架构设计原理详细介绍

文章目录一、MySQL体系结构概览二、连接层&#xff08;Connection Layer&#xff09;1. 连接器&#xff08;Connectors&#xff09;2. 连接池&#xff08;Conncction Pool&#xff09;三、服务层&#xff08;Server Layer&#xff09;1. SQL接口组件&#xff08;SQL Interface&…

QB/T 4674-2021 汽车内装饰用聚氨酯束状超细纤维合成革检测

汽车内饰品聚氨酯束状超细纤维合成革是指以海岛型双组份或多组分纤维加工成飞织造布&#xff0c;再经水性聚氨酯树脂或溶剂型聚氨酯树脂浸渍、湿法凝固、溶剂或碱液萃取及后整理等工艺制成的汽车内装饰皮革。QB/T 4674-2021 汽车内装饰用聚氨酯束状超细纤维合成革检测项目测试项…

QML和Qt Quick

QML和Qt Quick QML 和 Qt Quick 是 Qt 框架中紧密相关但概念不同的两个部分&#xff0c;它们之间的关系可以用如下方式清晰说明&#xff1a; 核心区别概览​​特性​​​​QML​​​​Qt Quick​​​​本质​​声明式编程​​语言​​基于 QML 的​​框架/库​​​​作用​​定…

JavaScript 结构型设计模式详解

1. 代理模式1.1. 使用场景代理模式在不改变原始对象的前提下&#xff0c;通过代理对象控制对其访问&#xff0c;通常用于权限控制、延迟加载、远程调用等场景。在前端开发中&#xff0c;可以通过代理模式对网络请求、缓存机制等进行控制。1.2. 代码实现class ApiService {reque…

摄像头模块在运动相机中的特殊应用

运动相机作为记录高速运动场景的专用设备&#xff0c;其摄像头模块的设计与普通消费电子产品存在显著差异。根据行业资料和技术发展&#xff0c;摄像头模块在运动相机中的特殊应用主要体现在以下五个维度&#xff1a;一、极端环境适应性设计运动相机的摄像头模块针对户外运动场…