基于YOLO-NAS-Pose的无人机象群姿态估计:群体行为分析的突破

导读

应对气候变化对非洲象的生存威胁,本研究创新采用无人机航拍结合AI姿态分析技术,突破传统观测局限。团队在肯尼亚桑布鲁保护区对比测试DeepLabCut与YOLO-NAS-Pose两种模型,首次将后者引入野生动物研究。通过检测象群头部、脊柱等关键点(50像素分辨率),YOLO-NAS-Pose在RMSE、PCK、OKS等指标上全面超越实验室常用工具,实现多目标行为动态解析。该技术突破为裂变-融合社会结构的大象群体行为研究提供高精度自动化解决方案,推动无人机生态监测在保护生物学中的应用进程。>>更多资讯可加入CV技术群获取了解哦~

图片1.png

论文题目:

Whole-Herd Elephant Pose Estimation from Drone Data for Collective Behavior Analysis

论文链接:

https://arxiv.org/pdf/2411.00196


目录

一、方法

数据集

千款模型+海量数据,开箱即用!

DeepLabCut工作流程

YOLO-NAS-Pose工作流程

性能评估

无需代码,训练结果即时可见!

从实验到落地,全程高速零代码!

二、实验结果

三、讨论

四、结论


一、方法

  • 数据集

本研究采用配备广角摄像头的无人机技术观测象群,确保单帧画面可呈现整个群体。无人机数据采集带来特定挑战。"拯救大象"野外团队在保证数据质量最大化的同时,尽可能减少对大象的干扰以捕捉真实行为。此前研究表明无人机会引发大象不同程度的反应。虽然更高分辨率数据更具优势,但使用多架无人机可能改变大象自然行为。为此,无人机在肯尼亚允许的最高飞行高度(400英尺)进行操作,通过稳定云台平台以29帧/秒、3840×2160分辨率拍摄视频。研究期间无人机固定于设定高度进行俯拍,确保视角统一。在该飞行高度下,视频中幼象从鼻到尾约占8像素,成年象最多占70像素。图1展示了无人机视频的示例帧。

图片2.png

研究重点识别与社交行为相关的关键点,如头部朝向和耳朵扇动等。因此选择图2所示的8个关键点作为姿态估计目标。

图片3.png

数据集包含23段视频,每段约5分钟时长。从中选取俯拍帧,最终得到包含1308头大象的133帧图像。基于这些帧创建了人工标注的训练数据集,包括边界框和图2定义的关键点。标注时,对特别幼小的象崽若无法辨别耳朵,则仅标注脊柱关键点,耳朵标记为"遮挡"。

标注数据集按90-10-10比例划分为训练集-验证集-测试集。测试集来自完全独立的四段视频,确保与训练集和验证集无视频来源重叠。

  • 千款模型+海量数据,开箱即用!

平台汇聚国内外开源社区超1000+热门模型,覆盖YOLO系列、Transformer、ResNet等主流视觉算法。同时集成300+公开数据集,涵盖图像分类、目标检测、语义分割等场景,一键下载即可投入训练,彻底告别“找模型、配环境、改代码”的繁琐流程!

IMG_2734.GIF

  • 预处理

在进入任一工作流程之前,都要对数据进行预处理,以满足 YOLOv5 模型对对象尺寸的要求。标记的视频帧被平铺为 800x800 像素,窗口间距有 33% 的重叠,以确保帧内大象有合适的对象尺寸。然后使用以下两个工作流程对数据进行姿态估计。

  • DeepLabCut工作流程

  • 大象检测器

首先采用YOLOv5模型和MegaDetector预训练模型对前文定义的数据集进行微调。这些模型被训练用于生成画面中大象的边界框。

当预测出边界框后,以检测框为中心截取正方形图像,其边长取边界框最大尺寸增加20%余量。这些图像块随后被调整为100×100像素。该格式用于训练DeepLabCut,通过提供居中放大的动物图像来消除背景不一致带来的干扰。

  • DeepLabCut

使用姿态数据集训练DeepLabCut模型。数据被转换为DLC训练格式,模型训练80万次迭代直至损失收敛。

  • YOLO-NAS-Pose工作流程

为了训练 YOLO-NAS-Pose 网络,使用了与训练检测器和 DeepLabCut 工作流程相同的数据集,并添加了手动注释的姿势。然后对模型进行训练,以提供整个图像的边界框和姿势。

  • 性能评估

采用独立测试集评估两种工作流程。YOLOv5检测器与YOLO-NAS-Pose的边界框准确性通过平均精度均值(mAP)评估。两种工作流程的姿态估计均采用均方根误差(RMSE)、正确关键点百分比(PCK)和物体关键点相似度(OKS)进行评估。为保证公平比较,由于DeepLabCut仅能在提取的边界框上进行姿态估计,评估时仅选取YOLO-NAS-Pose工作流程中正确检测的边界框。

图片4.png

为识别正确检测目标,YOLO-NAS-Pose输出的边界框经非极大值抑制(NMS)处理,最大重叠阈值设为0.5。经过去重的边界框按置信度排序后与真实标注计算交并比(IoU)。当预测框与真实标注框IoU≥0.5时视为候选匹配,若多个预测框对应同一真实框,则选取置信度最高者。

  • 可视化视频追踪

虽然连续视频并非训练或定量评估的必要条件,但个体连续影像对定性评估大有助益。通过DeepSORT算法对每帧检测个体生成追踪视频片段。该方法通过比较图像块位置、嵌入特征和物体运动动量来识别视频中的连续目标。由于部分个体分辨率过低,本研究排除边界框小于50像素的幼象,重点分析成年象行为。最终从训练集、验证集和测试集的原始视频中提取25段视频用于姿态估计评估。

如果你也想要使用模型进行训练或改进,Coovally——新一代AI开发平台,为研究者和产业开发者提供极简高效的AI训练与优化体验!Coovally支持计算机视觉全任务类型,包括目标检测、文字识别、实例分割、并且即将推出关键点检测、多模态3D检测、目标追踪等全新任务类型。

  • 无需代码,训练结果即时可见!

在Coovally平台上,上传数据集、选择模型、启动训练无需代码操作,训练结果实时可视化,准确率、损失曲线、预测效果一目了然。无需等待,结果即训即看,助你快速验证算法性能!

图片

  • 从实验到落地,全程高速零代码!

无论是学术研究还是工业级应用,Coovally均提供云端一体化服务:

  • 免环境配置:直接调用预置框架(PyTorch、TensorFlow等);

  • 免复杂参数调整:内置自动化训练流程,小白也能轻松上手;

  • 高性能算力支持:分布式训练加速,快速产出可用模型;

  • 无缝部署:训练完成的模型可直接导出,或通过API接入业务系统。

!!点击下方链接,立即体验Coovally!!

平台链接:https://www.coovally.com

无论你是算法新手还是资深工程师,Coovally以极简操作与强大生态,助你跳过技术鸿沟,专注创新与落地。访问官网,开启你的零代码AI开发之旅!


二、实验结果

在初始工作流程中发现,采用YOLOv5标准预训练权重的检测效果优于megadetector权重。边界框检测器的mAP指标如表1所示。

图片5.png

测试集的各项评估指标结果(包括各关键点及整体平均值)展示在表2。

图片6.png

图4展示了DeepLabCut在提取图像块上的应用效果。补充材料包含带有姿态估计叠加的训练验证集追踪视频,既有效果良好的案例,也存在耳部检测不准的情况——虽然脊柱对齐效果稳定,但在快速运动或非常规姿态时耳尖检测容易出现偏差。

图片7.png

图5展示了YOLO-NAS-Pose在单帧视频中的定性结果。整体关键点标注准确,仅漏检一只幼象,但"前额"关键点持续偏置于头部后方。

图片8.png


三、讨论

本研究开创了无人机视频数据自动姿态估计在野生动物研究中的应用。实验结果对野生动物行为监测的改进提供了重要启示。

从表2指标可见,两种模型在测试集均表现合理。YOLO-NAS-Pose在所有指标上均表现良好(虽未达完美),证明其作为野生动物行为研究工具的潜力。但当前精度尚未达到全自动化流程要求,仍需进一步优化。

图片9.png

需注意关键点准确度差异:DeepLabCut耳尖检测精度较低(因其运动范围大且标注置信度最低),但髋部成为最差关键点(可能因缺乏相邻参考点)。这与YOLO-NAS-Pose形成反差——后者髋部表现最佳却在前额关键点遇到困难(可能因象鼻伸展时难以定位面部)。未来将探究这些差异成因。

定性分析显示,DeepLabCut整体表现良好,但存在耳部追踪失败(尤其在幼象上表现为默认"中立"耳姿)。值得注意的是,全帧多象姿态估计与个体图像块估计各有优势:前者简化工作流程利于自动化,后者通过筛选成年象可避免低分辨率幼象的干扰,且能平衡训练集姿态分布。

虽然DeepLabCut未超越YOLO-NAS-Pose,但在小样本场景(约100帧)仍具价值。这对标注数据有限但需快速获取全视频姿态的研究尤为重要。

展望未来,针对低分辨率姿态估计,通过分析视频序列变化检测复杂关键点是重要方向。单帧耳部定位的困难凸显了当前逐帧估计的局限,后续可探索光流或循环神经网络等跨帧分析方法来提升运动连续性检测精度。


四、结论

这项研究通过比较不同的姿态估计技术,在将自动行为分析方法纳入野生动物研究方面取得了重大进展。它为在自然栖息地对野生动物行为进行更复杂的研究铺平了道路,这些研究涉及大范围场景中的多个个体。研究结果表明,YOLO-NAS-Pose 是一种可行且有吸引力的姿态估计方法,它提供了简单明了的工作流程和卓越的性能指标。不过,还需要进一步的开发和改进。这项工作的意义超出了对大象行为的研究,它为未来基于无人机的野生动物行为研究在不同物种和生态环境中的发展提供了宝贵的见解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/diannao/85559.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

8.RV1126-OPENCV 视频中添加LOGO

一.视频中添加 LOGO 图像大体流程 首先初始化VI,VENC模块并使能,然后创建两个线程:1.把LOGO灰度化,然后获取VI原始数据,其次把VI数据Mat化并创建一个感兴趣区域,最后把LOGO放感兴趣区域里并把数据发送给VENC。2.专门获…

AI+3D 视觉重塑塑料袋拆垛新范式:迁移科技解锁工业自动化新高度

在工业自动化浪潮席卷全球的当下,仓储物流环节的效率与精准度成为企业降本增效的关键战场。其中,塑料袋拆垛作为高频、高重复性的作业场景,传统人工或机械臂操作面临着诸多挑战。迁移科技,作为行业领先的 3D 工业相机和 3D 视觉系…

MATLAB实战:视觉伺服控制实现方案

以下是一个基于MATLAB的视觉伺服控制项目实现方案,结合实时图像处理、目标跟踪和控制系统设计。我们将使用模拟环境进行演示,但代码结构可直接应用于真实硬件。 系统架构 图像采集 → 目标检测 → 误差计算 → PID控制器 → 执行器控制 完整代码实现 …

RequestRateLimiterGatewayFilterFactory

一、功能说明 RequestRateLimiterGatewayFilterFactory 是 Spring Cloud Gateway 的流量控制组件,用于实现 API 请求速率限制,核心功能包括: 限制单位时间内的请求数量(如每秒10次)防止服务被突发流量击垮&#xff0…

鸿蒙仓颉语言开发实战教程:购物车页面

大家上午好,仓颉语言商城应用的开发进程已经过半,不知道大家通过这一系列的教程对仓颉开发是否有了进一步的了解。今天要分享的购物车页面: 看到这个页面,我们首先要对它简单的分析一下。这个页面一共分为三部分,分别是…

AXURE安装+汉化-Windows

安装网站:https://www.axure.com/release-history/rp9 Axure中文汉化包下载地址 链接:https://pan.baidu.com/s/1U62Azk8lkRPBqWAcrJMFew?pwd5418 提取码:5418 下载完成之后,crtlc lang文件夹 到下载的Axure路径下 双击点进这个目录里面。ctrlv把lan…

【Oracle】视图

个人主页:Guiat 归属专栏:Oracle 文章目录 1. 视图基础概述1.1 视图的概念与特点1.2 视图的工作原理1.3 视图的分类 2. 简单视图2.1 创建简单视图2.1.1 基本简单视图2.1.2 带计算列的简单视图 2.2 简单视图的DML操作2.2.1 通过视图进行INSERT操作2.2.2 通…

Lua和JS的垃圾回收机制

Lua 和 JavaScript 都采用了 自动垃圾回收机制(GC) 来管理内存,开发者无需手动释放内存,但它们的 实现机制和行为策略不同。下面我们从原理、策略、优缺点等方面来详细对比: 🔶 1. 基本原理对比 特性LuaJa…

Kafka 的优势是什么?

Kafka 作为分布式流处理平台的核心组件,其设计哲学围绕高吞吐、低延迟、高可扩展性展开,在实时数据管道和大数据生态中具有不可替代的地位。 一、超高吞吐量与低延迟 1. 磁盘顺序 I/O 优化 突破磁盘瓶颈:Kafka 将消息持久化到磁盘&#xff…

车载诊断架构 --- DTC消抖参数(Trip Counter DTCConfirmLimit )

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 做到欲望极简,了解自己的真实欲望,不受外在潮流的影响,不盲从,不跟风。把自己的精力全部用在自己。一是去掉多余,凡事找规律,基础是诚信;二是…

【C++】类的析构函数

类的析构函数 1. 作用:1.1 当对象的地址空间释放的时候,会自动调用析构函数(对象可以主动调用析构函数)1.2 实际应用:往往用来做收尾工作 2. 语法规则:示例代码:析构函数使用 1. 作用: 1.1 当对象的地址空…

重拾Scrapy框架

基于Scrapy框架实现 舔狗语录百度翻译 输出结果到txt文档 爬虫脚本 from typing import Iterable, Any, AsyncIteratorimport scrapy import json from post.items import PostItemclass BaidufanyiSpider(scrapy.Spider):name "baidufanyi"allowed_domains [&quo…

【实例】事业单位学习平台自动化操作

目录 一、创作背景: 二、实现逻辑: 三、代码分析【Deepseek分析】: 1) 主要功能 2)核心组件 2.1 GUI界面 (AutomationApp类) 2.2 浏览器自动化 2.3 平台特定处理 3) 关键技术 4)代码亮点 5)总结 四、运行截图: 五、程序代码: 特别声明:***本代码仅限编程学…

CSS篇-1

1. CSS 有哪些基本选择器?它们的权重是如何表示的? 这是一个关于 CSS 基础且极其重要的问题,因为它直接关系到我们如何精准地控制页面元素的样式,以及在样式冲突时浏览器如何决定哪个样式生效。理解 CSS 选择器及其权重(或称为“优先级”或“特殊性”),是编写高效、可维…

封装一个Qt调用动态库的类

封装一个Qt调用动态库的类 由于我的操作系统Ubuntu系统,我就以Linux下的动态库.so为例了,其实windows上的dll库调用方式是一样的,如果你的Qt项目是windows的,这篇文章代码可以直接使用。 一般情况下我们对外输出都是以动态库的形式封装的,这样我们更新版本的时候就很方便…

阴盘奇门 api数据接口

阴盘奇门,又称"道家阴盘遁甲"或"法术奇门",与阳盘奇门(奇门排盘)并称"奇门双雄"。由王凤麟教授整合道家三式(奇门、六壬、太乙)精髓创立,独创行为风水与立体全息预测技术,广…

【计算机网络】第3章:传输层—可靠数据传输的原理

目录 一、PPT 二、总结 (一)可靠数据传输原理 关键机制 1. 序号机制 (Sequence Numbers) 2. 确认机制 (Acknowledgements - ACKs) 3. 重传机制 (Retransmission) 4. 校验和 (Checksum) 5. 流量控制 (Flow Control) 协议实现的核心:滑…

C#实现图片缩略图生成:多种模式详解与实践

C#实现图片缩略图生成:多种模式详解与实践 在图像处理的场景中,生成图片缩略图是一项常见且实用的功能。无论是搭建图片展示网站,还是开发本地图片管理工具,按需生成合适尺寸的缩略图,能够有效减少图片传输和显示所需…

2025年- H57-Lc165--994.腐烂的橘子(图论,广搜)--Java版

1.题目描述 2.思路 3.代码实现 import java.util.LinkedList; import java.util.Queue;public class H994 {public int orangesRotting(int[][] grid) {//1.获取行数int rowsgrid.length;int colsgrid[0].length;//2.创建队列用于bfsQueue<int[]> quenew LinkedList<…

005 flutter基础,初始文件讲解(4)

书接上回&#xff0c;今天继续完成最后的讲解&#xff1a; class _MyHomePageState extends State<MyHomePage> {int _counter 0;void _incrementCounter() {setState(() {_counter;});}可以看到&#xff0c;这里的_MyHomePageState是一个类&#xff0c;继承于 State&l…