深度学习---负样本训练

1. 定义与范畴
负样本（Negative Sample）是与目标样本（正样本）在语义、特征或任务目标上存在显著差异的样本。其核心价值在于通过对比学习引导模型学习样本间的判别性特征，而非仅记忆正样本分布。

场景差异：
- 分类任务：负样本为非目标类样本（如垃圾邮件分类中“非垃圾邮件”）。
- 排序/推荐系统：负样本为用户未交互但相关的项目（如未点击的商品）。
- 对比学习：负样本为同一数据增强空间中的非相似样本（如同一图像的不同失真版本）。

2. 核心目标

1. 基础采样方法

随机采样（Random Sampling）
- 原理：从非正样本中均匀随机选取负样本。
- 优缺点：简单易实现，但可能引入大量无关样本（如推荐系统中随机选取用户不感兴趣的类别商品），导致模型学习低效。
- 适用场景：数据量充足、正负样本分布均衡的简单任务。
分层采样（Stratified Sampling）
- 原理：按类别/特征分层采样，确保负样本覆盖各类别（如在图像分类中，负样本需包含所有非目标类的少量样本）。
- 优势：避免负样本偏向某一类，提升样本多样性。

2. 困难样本挖掘（Hard Negative Mining）

核心思想：聚焦“难分负样本”（模型易误判为正样本的负样本），优先训练此类样本以提升模型鲁棒性。
实现方式：
- 离线挖掘：训练后根据模型输出概率/距离筛选难样本，重新加入训练集（如Faster R-CNN中对候选框的loss排序）。
- 在线挖掘：在训练过程中动态选择难样本（如Siamese网络中实时计算样本间距离，选取最近的负样本）。
关键参数：难样本比例（通常控制在10%-30%，避免模型被噪声主导）。

3. 基于密度的采样

4. 对抗生成负样本

对抗样本（Adversarial Examples）：通过微小扰动生成接近正样本的负样本（如FGSM算法），迫使模型学习更鲁棒的特征（如对抗训练提升模型抗攻击能力）。
生成模型（GANs/VAE）：利用生成模型合成逼真负样本（如在人脸验证中，生成与正样本相似但身份不同的人脸）。

1. 损失函数设计

二元分类场景
- 交叉熵损失（Cross-Entropy Loss）：
  $\frac{1}{N} \sum_{i=1}^N \left[ y_i \log p_i + (1-y_i) \log (1-p_i) \right]$
  其中负样本 $y_i=0)$ 通过 $log(1-p_i)$ 项驱动模型降低对其预测为正的概率。
- 焦点损失（Focal Loss）：
  
  $\frac{1}{N} \sum_{i=1}^N (1-p_i)^\gamma \log p_i \quad (\text{当} \ y_i=1)$
$\frac{1}{N} \sum_{i=1}^N p_i^\gamma \log (1-p_i) \quad (\text{当} \ y_i=0)$
通过 $\gamma$ 调节对难负样本的关注程度 $(\gamma>0$ 时，难负样本的权重更高）。
对比学习场景
- 三元组损失（Triplet Loss）：
  
  $\max(0, d(A,P) - d(A,N) + \text{margin})$
  要求正样本对（Anchor-Positive）的距离小于负样本对（Anchor-Negative）的距离至少 $ma r g in$ ，其中(N)为负样本。
- NT-Xent损失（对比学习标准损失）：
  $\frac{1}{2N} \sum_{i=1}^N \left[ \log \frac{e^{sim(z_i, z_i^+) / \tau}}{e^{sim(z_i, z_i^+) / \tau} + \sum_{k=1}^{2N} e^{sim(z_i, z_k^-) / \tau}} \right]$
  其中 $z_i^+$ 为正样本（同一数据的不同增强）， $z_k^-$ 为负样本（其他数据的增强），通过温度参数 $\tau$ 调节对比难度。

2. 训练技巧

1. 负样本质量问题

挑战1：混淆样本（Ambiguous Negatives）
- 表现：负样本与正样本高度相似（如细粒度分类中“金渐层猫”与“银渐层猫”），导致模型难以区分。
- 解决方案：
  - 人工标注难负样本边界（如在数据集中增加难负样本类别）；
  - 使用度量学习（如Siamese网络）显式建模样本间距离。
挑战2：无关负样本（Irrelevant Negatives）
- 表现：负样本与正样本语义无关（如推荐系统中为用户推荐跨品类商品），导致模型学习无效特征。
- 解决方案：
  - 基于内容过滤负样本（如通过用户历史行为筛选相关类别）；
  - 引入注意力机制，让模型自动忽略无关特征。

2. 计算效率瓶颈

挑战：大规模数据中负样本数量庞大（如推荐系统中负样本数可达正样本的1000倍），导致计算成本激增。
解决方案：
- 分层抽样（Hierarchical Sampling）：先按粗粒度类别（如商品大类）抽样，再在类内细选（如电子产品下的手机品类）；
- 负样本共享（Negative Sharing）：多个正样本共享同一批负样本（如对比学习中一个batch内的样本互为负样本）；
- 近似最近邻（ANN）：通过向量检索（如FAISS、NSW）快速找到难负样本，避免全局遍历。

3. 类别不平衡与偏差

挑战：负样本类别分布不均（如长尾分布），模型易偏向高频负类，忽视稀有负类。
解决方案：
- 类别加权损失：对低频负类赋予更高权重（如根据类别频率的倒数设置权重）；
- 元学习（Meta-Learning）：训练模型快速适应新出现的负类别（如小样本学习中的负样本泛化）。

1. 推荐系统中的负样本优化

场景：用户点击商品为正样本，未点击但曝光的商品为负样本（显式负样本），未曝光商品为隐式负样本。
策略：
- 优先采样“曝光未点击”的显式负样本（更具区分度）；
- 使用逆 propensity 加权（IPW）校正负样本偏差（如曝光概率高但未点击的商品更可能为真负样本）；
- 案例：YouTube Recommendations通过“均匀采样+热门负样本降权”提升推荐多样性。

2. 图像识别中的难负样本挖掘