[论文阅读] 人工智能 | Gen-n-Val:利用代理技术革新计算机视觉数据生成

Gen-n-Val:利用代理技术革新计算机视觉数据生成

论文信息

@article{huang2025gennval,title={Gen-n-Val: Agentic Image Data Generation and Validation},author={Huang, Jing-En and Fang, I-Sheng and Huang, Tzuhsuan and Wang, Chih-Yu and Chen, Jun-Cheng},journal={arXiv preprint arXiv:2506.04676},year={2025}
}

在这里插入图片描述

研究背景:计算机视觉的数据困境

在计算机视觉领域,数据就像模型的"粮食"。想象一下,自动驾驶系统需要识别路上的各种物体——从常见的汽车、行人,到罕见的施工警示牌或野生动物。但现实是,标注大规模高质量数据集耗时又费力,比如标注一张图像中的物体边界可能需要数分钟,而训练一个先进模型可能需要数万张图像。

更麻烦的是"标签噪声"问题:人工标注难免出错,可能把"卡车"误标为"公交车",或者分割掩码漏掉物体的一部分。这就像给学生批改作业时写错答案,模型会跟着学歪。

为解决数据稀缺,研究者想到生成合成数据。但传统方法好比"粗制滥造的流水线":比如MosaicFusion生成的图像中,50%存在严重问题——要么一个掩码里包含多个物体(像把猫和狗画在同一个框里),要么分割不准确(比如苹果的掩码多出一块阴影),甚至标签错误(把橘子标成苹果)。这种"劣质数据"喂给模型,反而会降低性能。

创新点:给数据生成装上"智能质检员"

Gen-n-Val的核心创新是引入两个"智能代理",让数据生成过程像有经验的工匠一样精益求精:

  1. LD提示代理(LLM大脑):用大语言模型优化图像生成提示词,就像一个文案专家,把简单的"生成一只狗"变成"高分辨率、阳光下的金毛寻回犬,背景干净,毛发细节清晰",确保层扩散模型生成单对象、高精度的前景图像和分割掩码。

  2. 数据验证代理(VLLM质检员):用视觉语言模型充当"质检员",自动检查生成的图像是否符合标准——是否只有一个对象、是否完整、背景是否干净。这就像工厂里的质检流水线,把不合格的产品(如包含多个物体的图像)过滤掉。

研究方法和思路:数据生成的四步流水线

1. 智能提示词生成:让机器学会"精准描述"

  • 传统方法用"single object"这样的简单提示,结果模糊不清。Gen-n-Val用TextGrad技术优化提示词,就像反复调整搜索关键词:先让LLM生成初始提示,再根据生成效果用梯度下降优化,直到提示词能精准指导层扩散模型生成单对象图像。
  • 例如,将"生成一个橙子"优化为"高分辨率、阳光下的鲜橙,表皮有细微纹理,背景纯白"。

2. 前景与背景分离生成:像剪纸一样精准

  • 利用层扩散(LD)技术生成透明前景图像,每个像素包含RGB值和透明度通道,直接作为分割掩码。这就像用透明胶片剪出物体轮廓,无需额外分割算法。
  • 同时生成多样化背景(室内/室外),解决传统方法中背景单一的问题。

3. 自动质量过滤:拒绝"残次品"

  • VLLM作为验证代理,按四个标准检查图像:
    • 单对象(Only one object)
    • 单视角(Single viewpoint)
    • 完整无缺(Intact object)
    • 背景简洁(Plain background)
  • 例如,发现图像中有两个雪人的话,直接过滤。

4. 图像和谐合成:打造真实场景

  • 用图像和谐技术将多个前景对象粘贴到背景中,调整颜色和光影,让合成图像看起来自然真实,就像用Photoshop精心处理过一样。

主要贡献:数据质量提升带来模型性能飞跃

  1. 数据质量革命:将无效数据从MosaicFusion的50%降至7%,相当于工厂废品率大幅下降。

  2. 模型性能显著提升

    • 在COCO实例分割中,YOLOv9c的掩码mAP提升2.1%,稀有类别提升3.6%;YOLO11m的掩码mAP提升3.1%,稀有类别提升3.6%。
    • 在开放词汇目标检测中,YOLO11m相比基线提升7.1% mAP,相当于能多识别7%的新类别物体。
  3. 为稀有类别"雪中送炭":传统方法对罕见物体(如"鸵鸟")效果差,Gen-n-Val通过合成更多稀有类数据,让模型不再"少见多怪"。

  4. 可扩展的解决方案:数据量越大效果越好,生成20K数据时模型性能仍在提升,适合大规模应用。


关键问题

  1. Gen-n-Val如何解决现有合成数据的质量问题?
    • 答案:Gen-n-Val通过两个代理协同工作,LD提示代理(LLM)优化LD提示,生成单对象、精确掩码的前景实例和干净背景;数据验证代理(VLLM)按单对象、单视角等标准过滤低质量图像,结合TextGrad优化提示,将无效数据从50%降至7%。
  2. Gen-n-Val在YOLO系列模型上的性能提升如何?
    • 答案:在COCO实例分割中,YOLOv9c箱mAP提升1.8%、掩码mAP提升2.1%,稀有类掩码mAP提升3.6%;YOLO11m箱mAP提升2.1%、掩码mAP提升3.1%,稀有类掩码mAP提升3.6%。在开放词汇目标检测中,YOLO11m箱mAP提升7.1%、掩码mAP提升4.9%。
  3. Gen-n-Val的可扩展性如何?
    • 答案:随着合成数据集规模增加,模型性能持续提升。在COCO数据集上,使用20K合成数据时,YOLO11m箱mAP达52.0,掩码mAP达43.0,相比4K数据分别提升1.2%和0.8%。

总结:让数据生成更智能,让模型训练更高效

Gen-n-Val通过引入LLM和VLLM代理,将数据生成从"粗放式生产"升级为"智能制造":用语言模型优化生成提示,用视觉语言模型保证数据质量,最终实现"高质量数据→高性能模型"的良性循环。

实验表明,这种方法在实例分割和开放词汇检测中均大幅超越传统技术,尤其对稀有类别效果显著。未来,该框架有望成为计算机视觉数据增强的标配工具,缓解数据稀缺问题,推动自动驾驶、医疗影像等领域的发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/85243.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/85243.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【AI论文】ReasonMed:一个370K的多智能体生成数据集,用于推进医疗推理

摘要:尽管基于推理的大型语言模型(LLM)在数学和编程方面表现出色,但它们在知识密集型医疗问题回答方面的能力仍未得到充分探索。为解决这一问题,我们推出了ReasonMed,这是最大的医疗推理数据集,…

singlefligt使用方法和源码解读

singlefligt使用方法和源码解读 介绍 sync.once保证其整个生命周期内只调用一次;而singleflight则可以保证在一定范围内其只调用一次。 背景|使用场景 应对缓存击穿:加锁可以解决这个问题,但是加锁不太灵活(不能控制访问频率之…

HTTP 协议的基本概念(请求/响应流程、状态码、Header、方法)问题解决方案大全

HTTP 协议的基本概念(请求/响应流程、状态码、Header、方法)问题解决方案大全 一. 摘要 HTTP 协议是 Web 开发的基石,但初学者往往只停留在 GET、POST 的层面,对重定向机制、缓存控制、请求体解析等概念缺乏深入理解,…

Python中常用的函数

以下是Python中常用的函数分类整理,涵盖基础操作、数据处理、文件操作、面向对象等场景,并附上示例说明: --- ### **一、基础内置函数** | 函数 | 作用 | 示例 | |----…

【Windows】删除鼠标右键多余菜单的方法

要删除鼠标右键菜单中的多余菜单,如:“打开抖音壁纸”选项,通常需要通过修改注册表或使用第三方工具来清理残留的注册表项。以下是详细步骤(操作注册表前务必备份!): 方法一:通过注册…

【性能优化】启用zram

性能优化 系统内存不足时,可以考虑启动ZRAM功能(压缩内存)。关于ZRAM的概念,可自行学习。这里记录一下,启用ZRAM的方式。 启用ZRAM,可能会导致CPU升高,以及低内存时的恶性循环。是否启用需要综…

深度解析YOLOv8:CSPHet卷积结构如何实现极致轻量化

文章目录 一、背景介绍1.1 YOLOv8的现状1.2 降参数的必要性 二、相关技术介绍2.1 Dual思想2.2 HetConv 三、CSPHet结构设计3.1 CSP模块的改进3.2 结合HetConv3.3 参数量的下降 四、CSPHet的代码实现五、实验结果六、总结与展望 在目标检测领域,YOLO系列算法一直以其…

适配器模式demo

#include <QCoreApplication> #include <iostream>using namespace std;class XmCom { public:void ComByXm(){cout << "XM电源适配器只适用于小米笔记本电脑" << endl;} };class LxCom { public:virtual void ComByLx() 0;virtual ~LxCom…

数据处理考核要求-SQL测试的答案

在一个团队中&#xff0c;有业务人员。如业务人员深入理解数据处理的内容&#xff0c;会大幅度增强相互配合的效率。 针对业务人员进行针对性培训&#xff0c;还是比较容易掌握SQL的数据处理。类似与大学里面开的一门选修课。数据集选择帆软的Demo数据集。 业务人员学会SQL的…

第十七届全国大学生数学竞赛(数学类)初赛模拟试题

上周组委会发布了第十七届全国大学生数学竞赛通知&#xff0c;初赛暂定于2025年11月8日(星期六)上午9:00-11:30举行&#xff0c;同时今年新增了个亮点&#xff0c;针对与数学类的同学&#xff0c;即&#xff1a; 为提升全国大学生数学竞赛的含金量和公平性&#xff0c;并进一步…

解决: React Native iOS webview 空白页

iOS react-native-webview 之前是正常的, 升级了 react-native / react-native-webview 等 之后, 就变成了空白页. 通过下面的修改, 可以修复, 回到正常的状态. 来源: https://github.com/react-native-webview/react-native-webview/issues/3697 diff --git a/node_modules/…

VMware安装Ubuntu并实现root远程登录

前置信息 垃圾Ubuntu系统默认ssh、vim都没有&#xff01;&#xff01;&#xff01; 已踩坑cnmUbuntu处于sb安全机制要求&#xff0c;默认是禁用root直接登录的 1、修改root密码 sudo -sH &#xff08;可以让一个具有sudo权限的普通用户进入 root&#xff09; 然后就是pas…

量化面试绿皮书:20. 正态生成

文中内容仅限技术学习与代码实践参考&#xff0c;市场存在不确定性&#xff0c;技术分析需谨慎验证&#xff0c;不构成任何投资建议。 20. 正态生成 Q: 如何生成两个标准正态分布&#xff08;N(0,1)&#xff09;的随机变量&#xff0c;使它们之间的相关系数为p&#xff0c;假设…

Arduino入门教程:10、屏幕显示

飞书文档https://x509p6c8to.feishu.cn/docx/N45Pd0tA1oaC4CxUWZjc8Ekyn0b 屏幕应用场景 课程使用的SSD1306是一款128*64像素可以使用IIC驱动的OLED屏幕。 SSD1306 Oled显示模块共有4个引脚&#xff0c;标记为GND, VCC, SCL和SDA。这种Oled显示模块可以使用3.3V到5V轻松上电。…

华为云Flexus+DeepSeek征文|体验华为云ModelArts快速搭建Dify-LLM应用开发平台并创建自己dify钉钉群聊机器人

华为云FlexusDeepSeek征文&#xff5c;体验华为云ModelArts快速搭建Dify-LLM应用开发平台并创建自己dify钉钉群聊机器人 什么是华为云ModelArts 华为云ModelArts ModelArts是华为云提供的全流程AI开发平台&#xff0c;覆盖从数据准备到模型部署的全生命周期管理&#xff0c;帮…

【Pytorch】(1)Pytorch环境安装-①创建虚拟环境

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、创建Pytorch的虚拟环境 前言 提示&#xff1a;以下是本篇文章正文内容&#xff0c;下面案例可供参考 一、Anaconda环境基础操作 1.1 启动Anaconda Prompt …

如何自定义WordPress登录页面,提升用户体验和安全性

WordPress是目前最受欢迎的网站搭建平台之一&#xff0c;无论是个人博客、企业网站&#xff0c;还是电商平台&#xff0c;很多人都选择用它来搭建自己的网站。不过&#xff0c;很多WordPress用户会发现默认的登录页面相对普通&#xff0c;无法体现自己网站的特色。其实&#xf…

Coze扣子 - AI生成数字人口播视频

一、数字人介绍 数字人&#xff08;Digital Human&#xff09;是指利⽤先进的数字技术和⼈⼯智能创建的虚拟人 类形象&#xff0c;能够模拟⼈类的外貌、⾏为和情感。数字⼈不仅可以在视觉上表 现出真实的⼈类特征&#xff0c;还可以通过⾃然语⾔处理与⽤户进⾏互动。 Coze通过全…

【请关注】真实案例pg及kong安装部署

# 前提需要安装好nfs KONG_NAMESPACE="kong-api" PG_NAMESPACE="pg-ha" HARBOR_IP="harbor.rancher.com" 一、安装pg高可用####################################################################################### kubectl creat…

SSRF7 SSRF漏洞的检测方式

我们可以进入bp利用bp模块collaborator&#xff0c;进行检测&#xff1a; 我们点击复制到剪切板&#xff1a; 然后再到目标网站进行构造URL&#xff1a; http://192.168.112.12/pikachu-master/vul/ssrf/ssrf_curl.php?urlmvluewtgs390alohzqjakhu2qtwkkc81.oastify.com 然…