OCRBench:评估多模态大模型的OCR能力

论文地址:OCRBench: On The Hidden Mystery of OCR In Large Multimodal Models:2305.07895

OCRBench在10个文本相关任务上测评多模态大模型(LMM)的OCR能力,包含1000个问题-答案对,每个问题-答案对包含以下五个类别:index(索引),image(图片),question(问题),answer(回答),category(问题类别)。其中问题类别主要有以下内容:

任务翻译image(图片)示例question(问题)示例answer(回答)示例任务数量
Key Information Extraction关键信息提取

736.jpg

what is the total amount of this receipt? Answer this question using the text in the image directly. ['26.58']200
Doc-oriented VQA面向文档的视觉问答

518.jpg

Whats the Venue Name?   ['the halfmoon']200
Scene Text-centric VQA以场景文本为中心的视觉问答

304.jpg

What is the title of the book?  ['PENDRAGON']200
Handwritten Mathematical Expression Recognition手写数学表达式识别

910.jpg

Please write out the expression of the formula in the image using LaTeX format.['x = \\frac { 1 7 } { 5 }\n']100
Irregular Text Recognition 不规则文本识别

52.jpg

what is written in the image?['COFFEE']50
Regular Text Recognition规则文本识别

2.jpg

what is written in the image?['CHAIN']50
Non-Semantic Text Recognition非语义文本识别

250.jpg

what is written in the image?['espt']50
Digit String Recognition数字字符串识别

222.jpg

what is the number in the image?['9557']50
Handwriting Recognition手写体识别

152.jpg

what is written in the image?['bread']50
Artistic Text Recognition 艺术文本识别

102.jpg

what is written in the image?['Home']50
Total总计---1000

需要注意的是,在tsv文件中,图片使用Base64编码保存。Base64 编码可将二进制图像文件(PNG、JPEG、GIF)转换为紧凑的纯文本字符串,从而直接嵌入到 HTML、CSS 或 JSON 中。

要将Base64编码转换为图片,有以下三种方式:

(1)使用在线网站:例如:Base64 转图片转换器 – 免费在线工具箱 - DopuBOX

(2)使用脚本:

import base64# 1. 复制 Base64 编码字符串
base64_data = "/9j/4AAQSkZJRgABAQAAAQABAAD/...(完整字符串)/ALz44+gHAooA/9k="# 2. 解码并保存为图片
with open("output.jpg", "wb") as f:f.write(base64.b64decode(base64_data))print("图片已保存为 output.jpg")

(3)浏览器直接预览

在 HTML 文件中使用以下代码:

<img src="data:image/jpeg;base64,/9j/4AAQSkZJRgABAQ...(完整 Base64 字符串).../9k=">

用浏览器打开该 HTML 文件即可显示图片。


说明

  • 编码类型:该字符串是 JPEG 图片的 Base64 编码(以 /9j/ 开头)。

  • 注意事项:确保复制完整的编码(从 /9j/ 到结束标记 /9k=),否则转换会失败。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/85443.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/85443.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

servlet前后端交互

前后端交互目录 servlet流程servlet请求JSON格式实现表格效果完整代码 servlet流程 流程图&#xff1a; 客户端&#xff08;浏览器&#xff09;&#xff1a; 技术栈&#xff1a;使用 jQuery Ajax 发起异步请求。请求配置&#xff1a; 请求路径&#xff1a;指定目标Servlet的…

4. 时间序列预测的自回归和自动方法(2)

ar_model.AutoReg 模型通过应用以下元素来估计参数 条件最大似然&#xff08;CML&#xff09;估计量&#xff1a;这是一种涉及条件对数似然函数最大化的方法&#xff0c;据此认为已知的参数要么由理论假设固定&#xff0c;要么更常见地由估计值代替&#xff08;LewiseBeck&…

MySQL(84)如何配置MySQL防火墙?

MySQL防火墙&#xff08;MySQL Enterprise Firewall&#xff09;是一种MySQL企业版特性&#xff0c;用于保护数据库免受SQL注入和其他恶意活动的攻击。它通过学习和监控合法SQL语句&#xff0c;创建一个允许列表&#xff0c;从而阻止未在列表中的SQL语句。 1. 启用MySQL防火墙…

优化 Python 爬虫性能:异步爬取新浪财经大数据

一、同步爬虫的瓶颈 传统的同步爬虫&#xff08;如requestsBeautifulSoup&#xff09;在请求网页时&#xff0c;必须等待服务器返回响应后才能继续下一个请求。这种阻塞式I/O操作在面对大量数据时存在以下问题&#xff1a; 速度慢&#xff1a;每个请求必须串行执行&#xff0…

Visual Studio Code (VSCode) Python 开发环境配置完整指南

一、安装准备 1. 安装 VSCode 官网下载: Visual Studio Code - Code Editing. Redefined安装时建议勾选: "添加到PATH" (方便终端调用)"注册为受支持的文件类型编辑器"2. 安装 Python 官网下载: Download Python | Python.org安装时勾选: "Add Pytho…

智能数据标签引擎:企业级分类分级与动态管控实践

在数字化转型浪潮中&#xff0c;企业数据量呈爆发式增长&#xff0c;数据的多样性和复杂性也不断提升。如何对海量数据进行高效分类分级&#xff0c;并实施动态管控&#xff0c;成为企业释放数据价值、保障数据安全的关键挑战。智能数据标签引擎应运而生&#xff0c;它通过引入…

Redis(1)——RDB持久化

在追求极致性能的 Redis 世界里&#xff0c;数据安全是永恒的主题。作为内存数据库&#xff0c;Redis 重启或宕机意味着数据丢失的风险。RDB (Redis Database) 持久化&#xff0c;又称快照持久化&#xff0c;是 Redis 提供的最经典、最高效的数据落地方案之一。它通过生成某个时…

深度剖析无感刷新Token:领码SPARK平台赋能微服务认证的智能实践

摘要 在现代微服务架构与数字化转型大潮中&#xff0c;用户身份认证的连续性与安全性尤为关键。无感刷新Token技术通过智能的双Token机制&#xff0c;确保用户访问凭证在不打扰用户的前提下自动续期&#xff0c;避免因Token过期导致的频繁登录中断。本文结合领码SPARK融合平台的…

声网对话式 AI:开启我的编程进阶之旅

转行学习编程时&#xff0c;复杂的代码逻辑常让我无从下手&#xff0c;直到遇见声网对话式AI。它像一位耐心的导师&#xff0c;不仅用通俗易懂的语言帮我理解Python循环嵌套等难点&#xff0c;还提供实际代码示例。当我开发学生成绩管理系统时&#xff0c;它甚至直接生成框架代…

精准护理,点亮进行性核上性麻痹患者生活希望

进行性核上性麻痹&#xff08;PSP&#xff09;是一种罕见的神经系统变性疾病&#xff0c;主要表现为姿势平衡障碍、眼球运动障碍、吞咽困难等症状。科学的健康护理能有效延缓病情进展&#xff0c;提升患者生活质量&#xff0c;可从以下方面着手。 ​在饮食护理上&#xff0c;因…

记录一次 Oracle 表空间不足问题的解决过程

记录一次 Oracle 表空间不足问题的解决过程 6月14日&#xff0c;某医院信息科用户反映无法提交门诊病例&#xff0c;门诊处方也无法开立。其他功能是正常的。考虑可能是与门诊病例有关的表空间用完了。 Oracle表空间的数据文件默认是可以自动增长的&#xff0c;但是单个文件的…

2024 年 11 月公链行业研报:比特币创历史新高引领市场全面上涨

比特币屡创历史新高&#xff0c;主导市场全面上涨&#xff0c;同时 Layer 1 表现强劲&#xff0c;而 Layer 2 格局持续演变。 2024 年 11 月公链研报 作者&#xff1a;Stella L (stellafootprint.network) 数据来源&#xff1a;Footprint Analytics 公链研究页面 2024 年 11…

MAX4622ESE+T双5Ω模拟开关在低失真音频路由中的实测:0.5Ω匹配度如何改善THD性能

一、产品概述&#xff1a;精密信号切换的硬件基石 MAX4622ESET是一款双通道SPDT&#xff08;单刀双掷&#xff09;模拟开关&#xff0c;采用5Ω超低导通电阻设计&#xff08;典型值3Ω&#xff09;&#xff0c;专为高精度信号路由场景优化。其核心价值在于通过单片CMOS架构实现…

高并发秒杀系统(Redis分布式锁优化与库存防超卖实战)

本文通过日活百万级的电商秒杀案例&#xff0c;深度剖析分库分表路由算法在高并发场景下的落地实践。结合Redis分布式锁的优化方案解决库存超卖问题&#xff0c;包含完整架构设计、代码实现及压测数据对比。全文包含12个核心代码片段和8类技术图表&#xff0c;来自线上生产环境…

从loader和plugin开始了解webpack

目录 一、webpack中loader和plugin的区别1. Loader&#xff08;每个 Loader 是一个函数或对象&#xff09;2.plugin&#xff08;每个 Plugin 是一个实例&#xff09;3.自定义loader和plugin 二、Babel的功能三、Plugin中的compiler和compilation对象1. compiler对象2. compilat…

36-Oracle Statistics Gathering(统计信息收集)

小伙伴们&#xff0c;有没有因为统计信息不准&#xff0c;导致了业务卡顿&#xff0c;各种状况频出&#xff0c;这几天在实践和实操的过程中&#xff0c;时不时就需要进行统计信息的收集。同时统计信息收集的动作也是OCM必考内容。 数据库中的数据是地图&#xff0c;统计信息是…

Linux驱动程序(PWM接口)与超声波测距

一、利用阿里云服务器实现树莓派外网访问&#xff08;SSH 反向代理&#xff09; 1. 树莓派端配置 步骤 1&#xff1a;安装 SSH 服务&#xff08;若未安装&#xff09; sudo apt-get install openssh-server 步骤 2&#xff1a;创建反向代理连接 -p 22&#xff1a;指定阿里…

Web攻防-XSS跨站文件类型功能逻辑SVGPDFSWFHTMLXMLPMessageLocalStorage

知识点&#xff1a; 1、Web攻防-XSS跨站-文件类型-html&pdf&swf&svg&xml 2、Web攻防-XSS跨站-功能逻辑-postMessage&localStorage 一、演示案例-WEB攻防-XSS跨站-文件类型触发XSS-SVG&PDF&SWF&HTML&XML等 1、SVG-XSS SVG(Scalable Vect…

强大模型通过自我和解进步——Unsupervised Elicitation of Language Models——论文阅读笔记

本周关注的工作是&#xff1a;Unsupervised Elicitation of Language Models 这篇文章通篇体现了这样一件事——香蕉皮大需要香蕉大&#xff01; 一句话总结 首先注意&#xff1a;这个工作不是面向对齐的&#xff0c;而是写【如何准备】对齐任务的Reward Model需要的数据集的…

Qt—(Qt初识,槽,信号,事件)

一 Qt初识 暂时不写了 我的理解是类似于c#&#xff0c;是一个组件库&#xff0c;不局限是一个组件框架。 二 Qt Core Qt Core 是 Qt 框架的基础模块&#xff0c;提供非 GUI 的核心功能&#xff1a; 核心类&#xff1a;QObject&#xff08;信号槽机制&#xff09;、QEvent&…