OCR大模型最新研究

最新OCR大模型介绍

在这里插入图片描述

1.GPT-4o 2024.5.14

3.MinerU 2024.7.4

3.GOT-OCR 2024.9.3

4.InternVL3-78B 2025.4.11 开源
通用多模态大模型，OCR是它们的能力之一
因其训练数据的偏向，在文档理解、数学公式识别、图表分析等任务上通常是开源模型中的SOTA（最先进水平）
https://chat.intern-ai.org.cn/internvl/chat/7hH1UoW8kh9NYn56a84MaYpPQh1Z89ONciSGUKmgFFA=

5.olmOCR 2025.4.19

6.MonkeyOCR 2025.6.5 开源
专门为看清和识别图像中的小字、密集文字而设计，在需要极高分辨率的场景下优势明显。
http://vlrlabmonkey.xyz:7685/

7.OCRFlux-3B 2025.6.17 开源
专精于OCR：目标是做好文本提取，而不是像LMM那样进行通用推理参数量相对Gemini等模型较小，易于部署和微 OCRFlux-3B 是基于 Qwen2.5-VL-3B-Instruct 多模态视觉语言模型微调的轻量级模型
https://ocrflux.pdfparser.io/#/
pdf输入，图像中文字无法提取，markdown文本结构基本掌握，部分丢失。

8.Gemini 2.5Pro 未开源 2025.6.19
通用多模态大模型，OCR是它们的能力之一
百万级别的token上下文窗口，可以一次性处理极长的文档（如数小时的视频或数百页的PDF）

9.dots.ocr 2025.8 1.7B 开源小红书
https://dotsocr.xiaohongshu.com/?source=post_page-----b069d92153c2---------------------------------------

测试效果：dots.ocr > InternVL3-78B >OCRFlux-3B>MonkeyOCR（发布网站未布置好，一直error）

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/bicheng/95290.shtml
繁体地址，请注明出处：http://hk.pswp.cn/bicheng/95290.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！