基于点标注的弱监督目标检测方法研究

摘要

        在计算机视觉领域,目标检测需要大量精准标注数据,但人工标注成本高昂。弱监督目标检测通过低成本标注训练模型,成为近年研究热点。本文提出一种基于点标注的弱监督目标检测算法,仅需在图像中物体中心点标注,即可高效定位和分类目标。通过构建空间关系、语义关联和实例计数三大模块,算法显著提升了检测精度,为低成本视觉任务提供了新方案。

一、研究背景

        传统目标检测依赖人工标注的边界框,例如标注一张包含汽车的图片需画出汽车轮廓,耗时费力。弱监督方法使用图像级标签(如 “图片中有汽车”)降低成本,但存在三大难题:

  1. 定位不准:模型可能只识别汽车轮胎等局部特征,而非完整汽车;
  2. 语义混淆:多物体场景中漏检部分类别(如同时存在汽车和行人时漏检行人);
  3. 实例模糊:无法区分同一类别多个物体(如停车场中的多辆汽车)。

        点标注是一种折中方案:只需在物体中心打一个点,提供位置、类别和数量信息。例如,在医疗图像中,医生只需在肿瘤中心标注点,即可训练模型检测肿瘤。

二、算法设计

(一)整体框架

算法包含三大核心模块,分别解决三大难题:

  1. 空间图模块(SGB):利用标注点周围的空间关系,推断完整目标范围;
  2. 语义分支(MSB):分析类别间关联(如 “汽车” 常与 “道路” 同时出现),提升多标签检测能力;
  3. 实例计数模块(CIB):根据标注点数量区分多个物体(如 3 个标注点对应 3 辆汽车)。

(二)关键技术

1. 空间图模块:从点到完整目标
  • 原理:标注点通常位于物体中心,其周围区域大概率属于同一物体。例如,在 “猫” 的标注点附近,算法通过计算候选框的重叠度(IoU),将重叠度高于 0.8 的区域视为相关区域,构建 “空间图” 关联这些区域的特征。
  • 效果:避免模型仅关注猫的头部,而是通过整合头部、身体、尾巴的特征,检测完整的猫。
2. 语义分支:挖掘类别关联
  • 方法:利用词向量分析类别间的语义共现概率。例如,“鸟” 和 “天空” 在文本中常一起出现,算法在检测 “鸟” 时会增强对 “天空” 区域的关注,减少背景干扰。
  • 实现:通过自然语言处理模型(如 Word2Vec)生成类别词向量,计算 “鸟” 与 “天空” 的余弦相似度,融合相关类别特征。
3. 实例计数模块:区分多物体
  • 策略:若图像中某类别有 N 个标注点,则视为 N 个实例。例如,停车场图像中 3 个 “汽车” 标注点,算法会筛选 3 个高得分候选框,分别对应 3 辆汽车,避免将多辆车误检为 1 辆。

三、实验验证

(一)数据集与标注

  • 模拟数据集:使用合成图像数据集 “CarPark”(包含 1000 张停车场图片),每张图片人工标注汽车中心点,部分图片包含多辆汽车。
  • 对比方法
    • 基线模型:仅使用图像级标签的弱监督算法(如 WSDDN);
    • 全监督模型:使用边界框标注的 Faster R-CNN。

(二)核心结果

方法定位准确率(%)多车检测召回率(%)类别混淆率(%)
基线模型65.258.322.1
本文算法81.589.710.4
全监督模型89.292.55.6

  • 定位准确率:本文算法比基线模型提升 16.3%,接近全监督模型水平,证明点标注有效弥补了位置信息缺失。
  • 多车检测:基线模型常将多辆车误检为 1 辆(召回率 58.3%),本文算法通过实例计数模块将召回率提升至 89.7%。
  • 类别混淆:语义分支显著降低了 “汽车” 与 “卡车” 等相似类别的混淆率(从 22.1% 降至 10.4%)。

四、应用场景

  1. 自动驾驶:标注员只需在车载摄像头图像中标注行人、车辆中心点,算法可实时检测完整目标,降低标注成本;
  2. 工业检测:在机械零件图像中标注缺陷点,算法可定位完整缺陷区域,适用于螺丝缺失、表面裂纹等检测;
  3. 卫星遥感:在遥感图像中标注建筑中心点,算法可检测完整建筑轮廓,提升城市规划中的用地统计效率。

五、结论与展望

        本文提出的点标注弱监督算法,通过空间、语义、实例三层关系建模,有效解决了传统弱监督检测的核心难题。实验表明,其性能接近全监督模型,但标注成本大幅降低。未来可进一步优化模型轻量化,拓展至医疗显微图像等更复杂场景,推动低成本视觉技术的实际应用。

关键词:弱监督学习;目标检测;点标注;空间关系;语义关联

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/web/81322.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

外网如何连接内网中的mysql数据库服务器?简单网络工具方案

当内网服务器部署好mysql数据库后,在局域网外需要用程序进行mysql 远程访问,而mysql因为安全的因素,默认的时候用户设置的是不能远程连接,只能本地连接,这个时候就需要自己去修改其中的设置。下面就介绍一下相关mysql的…

无人机避障——深蓝学院浙大栅格地图以及ESDF地图内容

Occupancy Grid Map & Euclidean Signed Distance Field: 【注意】:目的是为了将有噪声的传感器收集起来,用于实时的建图。 Occupancy Grid Map: 概率栅格: 【注意】:由于传感器带有噪声,在实际中基于…

Rocky Linux 8.9 升级至 8.10 测试可通过以下步骤完成

一、执行升级‌ sudo dnf -y update --disablerepoappstream 二、重启系统‌ reboot ‌三、验证升级结果‌ ‌检查系统版本‌ 执行命令确认版本已更新 cat /etc/redhat-release 输出应包含 Rocky Linux release 8.10

固定翼无人机抛投技术分析!

一、技术要点 1. 结构设计优化 传动组件创新:采用齿轮-齿条传动(替代传统丝杆结构),简化机械设计,降低成本并提高可靠性。例如,通过电机驱动齿轮带动齿条移动,实现柱销与抛投物插孔的精准分…

Oracle中的[行转列]与[列转行]

目录 一、原始数据 二、行转列的多种实现方式 1.CASE WHEN 2.DECODE 3.PIVOT(Oracle独有) 4.使用LEAD开窗函数 三、列转行的多种实现方式 1.UNPIVOT(Oracle独有) 2.UNION ALL合并结果集 四、行转列练习:CASE WHEN/DECODE/PIVOT/lag/LEAD 1.CASE WHEN 2…

【Excel VBA 】窗体控件分类

一、Excel 窗体控件分类 Excel 中的窗体控件分为两大类型,适用于不同的开发需求: 类型所在选项卡特点表单控件开发工具 → 插入 → 表单控件简单易用,直接绑定宏,兼容性好,适合基础自动化操作。ActiveX 控件开发工具…

[ 计算机网络 ] 深入理解OSI七层模型

🎉欢迎大家观看AUGENSTERN_dc的文章(o゜▽゜)o☆✨✨ 🎉感谢各位读者在百忙之中抽出时间来垂阅我的文章,我会尽我所能向的大家分享我的知识和经验📖 🎉希望我们在一篇篇的文章中能够共同进步!!&…

线性代数之张量计算,支撑AI算法的数学原理

目录 一、张量计算的数学本质 1、线性代数:张量的几何与代数性质 2、微积分:梯度与自动微分 3、优化理论:张量分解与正则化 4、张量计算的核心操作 二、张量计算在AI算法中的作用 1、数据表示与处理 2、神经网络的参数表示 3、梯度计算与优化 三、张量计算在AI中的…

打造一个支持MySQL查询的MCP同步插件:Java实现

打造一个支持MySQL查询的MCP同步插件:Java实现 用Java实现一个MCP本地插件,直接通过JDBC操作本地MySQL,并通过STDIO与上层MCP客户端(例如Cursor)通信。插件注册一个名为mysql 的同步工具,接收连接参数及SQL…

【数据架构01】数据技术架构篇

✅ 9张高质量数据架构图:大数据平台功能架构、数据全生命周期管理图、AI技术融合架构等; 🚀无论你是数据架构师、治理专家,还是数字化转型负责人,这份资料库都能为你提供体系化参考,高效解决“架构设计难、…

java三种常见设计模式,工厂、策略、责任链

设计模式实战解析 一、工厂模式(点外卖模式) 1. 核心思想 代替直接new对象像点外卖一样获取对象 2. 实际应用 Spring框架:BeanFactoryJDBC:DriverManager.getConnection() 3. 三种变体对比 类型特点示例场景简单工厂一个工…

jenkins使用Send build artifacts over SSH发布jar包目录配置

本测试用ruoyi-plus的代码。 1 [GitLab 自动触发 Jenkins 构建_jenkins构建触发器没有build when a change is pushed to git-CSDN博客](https://blog.csdn.net/wangyiyungw/article/details/81776972) 2 [jenkins使用Send build artifacts over SSH遇到的坑-CSDN博客](https…

vscode打开vue + element项目

好嘞,我帮你详细整理一个用 VS Code 来可视化开发 Vue Element UI 的完整步骤,让你能舒服地写代码、预览界面、调试和管理项目。 用 VS Code 可视化开发 Vue Element UI 全流程指南 一、准备工作 安装 VS Code 官网下载安装:https://code…

黑马程序员C++2024新版笔记 第4章 函数和结构体

目录 1.结构体的基本应用 2.结构体成员的默认值 3.结构体数组 4.结构体指针 ->操作符 5.结构体指针数组 1.引入已存在的结构体数组地址 2.通过new操作符申请指针数组空间 6.函数的概念 7.函数的基础语法 8.无返回值函数和void类型 9.空参函数 10.函数的嵌套调用…

高级前端工程师必备的 JS 设计模式入门教程,常用设计模式案例分享

目录 高级前端工程师必备的 JS 设计模式入门教程,常用设计模式案例分享 一、什么是设计模式?为什么前端也要学? 1、设计模式是什么 2、设计模式的产出 二、设计模式在 JS 里的分类 三、常用设计模式实战讲解 1、单例模式(S…

Ubuntu+Docker+内网穿透:保姆级教程实现安卓开发环境远程部署

文章目录 前言1. 虚拟化环境检查2. Android 模拟器部署3. Ubuntu安装Cpolar4. 配置公网地址5. 远程访问小结 6. 固定Cpolar公网地址7. 固定地址访问 前言 本文将详细介绍一种创新性的云开发架构:基于Ubuntu系统构建Android仿真容器环境,并集成安全隧道技…

Linux Kernel调试:强大的printk(一)

引言 想了好久,还是觉得这个标题才配得上printk!^_^ 我相信,不管做什么开发,使用最多的调试手段应该就是打印了,从我们学习编程语言第一课开始,写的第一段代码,就是打印"Hello, world&qu…

基于NLP技术的客户投诉与需求文本分类方法研究

目录 摘要 1. 引言 2. 文本分类基础 2.1 文本分类的定义与类型 2.2 文本分类的评价指标 3. 传统文本分类方法 3.1 基于TF-IDF和SVM的方法 3.2 基于主题模型和词向量的改进方法 4. 深度学习文本分类方法 4.1 TextCNN模型 4.2 BiLSTM模型 4.3 注意力机制与Transformer…

#RabbitMQ# 消息队列入门

目录 一 MQ技术选型 1 运行rabbitmq 2 基本介绍 3 快速入门 1 交换机负责路由消息给队列 2 数据隔离 二 Java客户端 1 快速入门 2 WorkQueue 3 FanOut交换机 4 Direct交换机 5 Topic交换机 *6 声明队列交换机 1 在配置类当中声明 2 使用注解的方式指定 7 消息转…

【深度学习】多目标融合算法(六):渐进式分层提取模型PLE(Progressive Layered Extraction)

目录 一、引言 二、PLE(Progressive Layered Extraction,渐进式分层提取模型) 2.1 技术原理 2.2 技术优缺点 2.3 业务代码实践 2.3.1 业务场景与建模 2.3.2 模型代码实现 2.3.3 模型训练与推理测试 2.3.4 打印模型结构 三、总结 一…