Deep semi-supervised learning for medical image segmentation: A review

概述

在这里插入图片描述

医学图像分割的重要性：它是计算机辅助诊断（CAD）的关键部分，能帮助医生定位病变、评估治疗效果，减轻医生工作量。
深度学习技术的应用：U-Net等网络在医学图像分割中表现优异，近期大型视觉语言模型也展现出潜力。
数据稀缺的挑战：医学图像标注数据少（因疾病罕见、隐私问题、标注成本高），导致模型容易过拟合。
现有解决方案的局限性：降低模型复杂度、正则化、数据增强等方法效果有限。
半监督学习的潜力：通过利用少量标注数据和大量未标注数据，可能缓解数据稀缺问题，包括传统方法（多视图、图模型、生成模型）和深度半监督学习。

现在AI技术（尤其是深度学习）在医学影像分析中很厉害，比如用U-Net这种网络可以自动圈出CT或MRI图像里的肿瘤或器官，帮医生更快诊断。但问题是，训练这些AI需要大量带标注的医疗图片，而现实中这种数据很难搞到——要么因为罕见病例少，要么因为患者隐私保护，而且请专家标注图片又贵又费时间。

目前解决数据少的方法（比如简化AI模型、数据增强）效果一般，所以研究者开始尝试“半监督学习”：让AI既学少量标注数据，也利用大量未标注数据（比如医院里现成的未标记片子），这样可能更省钱又高效。

假设你要教小朋友认动物，但只有几张带标签的猫狗图片（有标注数据），和一堆无标签的动物照片（未标注数据）。传统方法是只反复用那几张带标签的图训练，而深度半监督学习会

先用带标签的图教基础规则（比如猫有尖耳朵）。
对无标签图片，让模型自己猜标签（伪标签）或发现规律（比如“这两张图耳朵形状一致，可能是同类”）。
通过设计更聪明的练习（损失函数）或学习工具（模型结构），让小朋友举一反三，最终认得更准

![[Pasted image 20250702095110.png]]

三个关键假设

平滑假设（保证局部一致性）

相似的输入，应该有相似的输出
如果两个样本（比如两张医学图像）在特征空间里距离很近（比如像素分布、纹理相似），那它们的标签（比如是否患病）也应该相似

聚类假设（保证全局一致性）

同一类别的数据会聚在一起
数据在特征空间中会形成聚类（Cluster），同一聚类内的样本属于同一类别
因此，决策边界（分类的分界线）应该避开高密度区域（即不要穿过聚类中心）

低密度分离假设

分类边界应该位于数据稀疏的地方
聚类假设的强化版，明确要求决策边界不能穿过数据密集区，而要在空白区域。

图像五大分割方法

伪标签法（Pseudo-Labeling）

先用标注数据训练初始模型，然后用该模型对未标注数据预测伪标签（Pseudo-Label），再将这些伪标签加入训练集重新训练模型。

典型方法：

自训练（Self-training）：模型自己生成伪标签迭代优化。
协同训练（Co-training）：多个模型互相提供伪标签（如不同视角或模态的数据）。

改进方向：

筛选高置信度伪标签（避免错误标签累积）。
动态阈值调整（不同类别采用不同置信度阈值）。
不确定性估计（剔除不可靠预测）。

优点：简单易实现，计算成本低
缺点：错误伪标签会导致“累积偏差”（误差越来越大）
未来方向：结合不确定性建模、多模型协同优

一致性正则化（Consistency Regularization）

对同一输入施加不同扰动（如噪声、数据增强），要求模型输出保持一致（即预测结果不应因微小变化而剧烈波动）

![[Pasted image 20250702114946.png]]

（1）数据一致性（Data Consistency）
对未标注数据进行不同增强或扰动，强制模型对这些变体给出相同或相似的预测

（2）模型一致性（Model Consistency）
对模型本身施加约束（如参数扰动、多模型交互），确保不同模型变体的输出一致

（3）任务一致性（Task Consistency）
通过多任务学习或辅助任务（如重建、分类）约束主任务（分割）的一致性。

典型方法：

Π-Model：同一图像两次不同增强后预测应一致。
Mean Teacher：学生模型和教师模型（EMA平滑版）输出需一致。
FixMatch：强增强数据与弱增强数据的预测一致。

改进方向：

更强的数据增强策略（如MixUp、CutMix）。
自适应一致性权重（不同样本赋予不同重要性）。

优点：避免依赖伪标签，适合噪声多的数据。
缺点：对扰动方式敏感，可能过拟合增强策略。
未来方向：自适应扰动策略、多模态一致性学习。

基于生成对抗网络（GAN）的方法

![[Pasted image 20250702112729.png]]

利用**生成器（Generator）合成逼真数据，判别器（Discriminator）区分真实标注数据和生成数据，通过对抗训练提升分割性能。

典型方法：

SegAN：生成器生成分割图，判别器判断其真实性。
CycleGAN：跨模态数据转换（如MRI→CT）辅助分割。

改进方向：

更稳定的GAN训练（如Wasserstein GAN）。
结合半监督损失（如一致性正则化+GAN）。

优点：能生成多样化数据，缓解标注不足问题。
缺点：训练不稳定，计算成本高。
未来方向：轻量化GAN、结合扩散模型（Diffusion Models）。

基于对比学习（Contrastive Learning）的方法

让相似样本（正样本）在特征空间靠近，不相似样本（负样本）远离，从而学习更好的特征表示(之前看过的facenet也是)

高级特征 vs. 低级特征

![[Pasted image 20250702113147.png]]

典型方法：

SimCLR：同一图像的不同增强版本作为正样本。
MoCo：使用动态记忆库存储负样本。

改进方向：

医学图像特异性对比策略（如解剖结构相似性）。
减少负样本偏差（医学数据类别不平衡）

优点：特征提取能力强，适合小样本场景。
缺点：需要大量负样本，计算开销大。
未来方向：无负样本对比学习（如BYOL）、跨模态对比

混合方法（Hybrid Methods）

结合上述多种方法（如伪标签+一致性正则化+对比学习），取长补短

典型方法：

UPS（Uncertainty-aware Pseudo-labeling and Self-training）：伪标签+不确定性估计。
CCT（Cross-Consistency Training）：一致性+对比学习。

优点：性能通常优于单一方法。
缺点：设计复杂，调参难度大。
未来方向：自动化方法组合（如NAS搜索最优混合策略）。

方法	核心思想	优点	缺点	适用场景
伪标签法	模型自生成标签迭代训练	简单、计算高效	错误标签累积风险	标注数据较少但质量高
一致性正则化	不同扰动下预测应一致	避免伪标签偏差	依赖数据增强策略	数据增强有效的任务（如CT）
GAN方法	生成对抗数据提升泛化能力	数据多样性增强	训练不稳定、计算成本高	需要合成数据的复杂任务
对比学习	特征空间正负样本分离	特征提取能力强	需大量负样本、计算量大	小样本但需强特征表示的任务
混合方法	结合多种策略	性能通常最优	设计复杂、调参难	对精度要求极高的任务

评估指标

Dice系数（Dice Score）：
- 衡量预测结果和医生标注的重叠程度（0~1，越接近1越好）。
- 通俗理解：像“考试得分”，90分（Dice=0.9）比70分（Dice=0.7）好。
Jaccard指数（IoU）：
- 类似Dice，但计算方式不同（通常比Dice略低）。
平均表面距离（ASD）：
- 预测边界和真实边界的平均误差（单位：毫米）。
- 通俗理解：像“测量肿瘤边界的偏差”，误差越小越好。
95% Hausdorff距离（HD95）：
- 剔除5%异常值后的最大边界误差（对噪声更鲁棒）。
- 通俗理解：像“去掉最离谱的错题后，看最差能错多远”。

类型	代表方法	性能表现	原因分析
单模型	自训练（Chen et al. 2022）	较低	易过拟合（标注数据少时，模型“死记硬背”）。
多模型	Mean Teacher、UMCT	更高、更稳定	多模型互相纠错（如教师模型提供稳定伪标签，协同训练多视角学习）。
例外	URPC（单模型+金字塔一致性）	媲美多模型	通过多尺度（多模态？？？）一致性约束（不同放大倍率的预测需一致），减少偏差。