最新OCR大模型介绍
1.GPT-4o 2024.5.14
3.MinerU 2024.7.4
3.GOT-OCR 2024.9.3
4.InternVL3-78B 2025.4.11 开源
通用多模态大模型,OCR是它们的能力之一
因其训练数据的偏向,在文档理解、数学公式识别、图表分析等任务上通常是开源模型中的SOTA(最先进水平)
https://chat.intern-ai.org.cn/internvl/chat/7hH1UoW8kh9NYn56a84MaYpPQh1Z89ONciSGUKmgFFA=
5.olmOCR 2025.4.19
6.MonkeyOCR 2025.6.5 开源
专门为看清和识别图像中的小字、密集文字而设计,在需要极高分辨率的场景下优势明显。
http://vlrlabmonkey.xyz:7685/
7.OCRFlux-3B 2025.6.17 开源
专精于OCR:目标是做好文本提取,而不是像LMM那样进行通用推理 参数量相对Gemini等模型较小,易于部署和微 OCRFlux-3B 是基于 Qwen2.5-VL-3B-Instruct 多模态视觉语言模型微调的轻量级模型
https://ocrflux.pdfparser.io/#/
pdf输入,图像中文字无法提取,markdown文本结构基本掌握,部分丢失。
8.Gemini 2.5Pro 未开源 2025.6.19
通用多模态大模型,OCR是它们的能力之一
百万级别的token上下文窗口,可以一次性处理极长的文档(如数小时的视频或数百页的PDF)
9.dots.ocr 2025.8 1.7B 开源 小红书
https://dotsocr.xiaohongshu.com/?source=post_page-----b069d92153c2---------------------------------------
测试效果:dots.ocr > InternVL3-78B >OCRFlux-3B>MonkeyOCR(发布网站未布置好,一直error)