1.GCT(Gated Channel Transformation)
定义
GCT(Gated Channel Transformation)是一种用于增强卷积神经网络特征提取能力的模块。它的核心思想是通过门控机制对特征图的通道进行动态调整,从而突出对任务更有帮助的特征通道,同时抑制无关或冗余的特征通道。
工作原理
-
门控机制:GCT 引入了一个门控向量(Gating Vector),该向量的每个元素对应于特征图的一个通道。门控向量的值决定了每个通道的重要性权重,这些权重是通过学习得到的,能够根据输入数据的特征动态调整。
-
特征增强:在特征提取过程中,GCT 对每个通道的特征图进行加权操作。重要的通道会被赋予较高的权重,从而在后续的处理中占据更大的比重;而不太重要的通道则会被削弱。这种选择性增强机制能够提高模型对关键特征的敏感性,同时减少噪声特征的干扰。
-
轻量化设计:GCT 模块的设计通常较为轻量化,不会显著增加模型的计算复杂度或参数量,因此可以方便地嵌入到现有的卷积神经网络架构中。
2.自适应任务动态加权Adaptive Task Dynamic Weighting
自适应极化特征融合模块
在颈部网络构建该模块,目的是提升特征语义融合能力,更好地捕捉复杂细节。它能自适应地调整特征通道的权重,增强对关键信息的表达,可使模型更敏锐地感知课堂行为中的复杂细节,如学生细微手势或表情变化等。
任务动态对齐检测头模块
该模块可提高模型在多尺度目标上的识别能力。课堂行为检测中目标尺度变化大,如学生整体形象是大目标,手中的文具则是小目标。此模块通过对不同尺度目标进行动态对齐和优化,使模型能够更有效地处理这些不同大小的行为目标。
动态分组卷积混洗转换模块
引入到主干网络中,一方面增强特征表示能力,让模型能更精准地提取和表达图像特征;另一方面实现网络轻量化,降低计算复杂度,提高计算效率,使模型在资源受限的设备上也能更快速地运行。
Wise-IoU 损失函数
用 Wise-IoU 函数替代传统的 CIoU 损失函数,其能更准确地衡量边界框之间的重叠程度,在训练过程中为模型提供更有效的反馈,进一步提升边界框的拟合精度,从而提高检测精度
3.双向特征金字塔网络(BiFPN)
概念:BiFPN 是一种改进的特征金字塔网络(FPN)结构,它在传统 FPN 的基础上引入了双向特征传递机制,旨在更高效地融合不同尺度的特征。
工作原理:
-
双向特征融合:传统的 FPN 只支持自顶向下的特征融合,而 BiFPN 增加了自底向上的特征传递路径。这样,低层的细节特征可以通过多尺度特征融合传递到高层,同时高层的语义特征也可以向下传递给低层。
-
多尺度特征增强:BiFPN 的双向结构使得特征在不同尺度之间能够进行更充分的交互和融合,从而增强模型对多尺度目标的检测能力,特别是对于小目标和复杂背景下的目标检测。
4.全局局部空间聚合(GLSA)模块
概念:GLSA 模块是一种用于聚合全局和局部特征的结构,它通过结合全局特征和局部特征来增强模型对目标的语义理解。
工作原理:
-
全局特征:通过全局池化或全局注意力机制获取图像的全局特征信息,这些特征提供了图像的整体语义信息。
-
局部特征:通过卷积操作获取局部特征,这些特征关注图像的局部细节。
-
聚合操作:将全局特征和局部特征进行融合,通常通过加权求和或特征拼接等方式实现。这种融合方式使得模型能够同时利用全局语义信息和局部细节信息。
5.高效局部注意力(ELA)机制
概念:ELA 是一种注意力机制,专门用于增强模型对局部特征的关注。它通过引入注意力权重,动态调整特征图中不同区域的重要性。
工作原理:
-
注意力生成:ELA 机制首先计算特征图的注意力权重,这些权重基于输入特征图的特征分布动态生成。通常是通过卷积操作和激活函数(如 Sigmoid)来生成注意力图。
-
特征加权:将生成的注意力图与原始特征图逐元素相乘,从而对特征图中的每个区域进行加权。注意力权重高的区域在后续处理中会被赋予更高的重要性。
6.BiLevelRoutingAttention
是一种新型的动态稀疏注意力机制,旨在解决传统注意力机制计算负担重和内存占用高的问题.
- 核心思想:引入了一种新颖的双层次路由机制,通过双层路由实现了动态的、查询感知的稀疏性。对于一个查询,不相关的键值对首先在粗略的区域级别被过滤掉,然后在剩余候选区域(即路由区域)的并集中应用细粒度令牌到令牌的注意力。这样使得注意力机制能够根据每个查询自适应地关注最有语义相关的键 - 值对,从而实现高效的计算。
- 实现方式:通过构建一个区域级别的亲和度图,然后对其进行修剪,保留每个节点的前 k 个连接,每个区域只需要关注前 k 个路由的区域。确定关注区域后,应用标记到标记的注意力。在这个过程中,通过收集键 / 值标记来处理,只涉及对于硬件友好的稠密矩阵乘法,利用稀疏性来节省计算和内存。
- 相关模型:将双层次路由注意力作为基本构件,可构建通用的视觉变换器 BiFormer。由于 BiFormer 以一种查询自适应的方式只关注小部分相关令牌,不受其他不相关令牌的分心,因此在密集预测任务中,BiFormer 在良好的性能和高计算效率方面都表现出色。在图像分类、目标检测和语义分割等多个计算机视觉任务中的实证结果验证了其有效性。6.