推荐系统-数据分割、性能验证

推荐系统基础概念

前言

作者根据开源项目 gorse 的每一步提交，系统性学习推荐系统架构组成以及gorse中使用的推荐算法的实现。通过参考算法文档以及代码实现，作者对gorse的学习过程以及进度与博客发布的时间线保持一致

数据集分割

原因

推荐系统的根本任务是学习一个函数 $(\mathcal{U}, \mathcal{I}) \to \mathbb{R}$ ，该函数能够预测用户 $U\mathcal{U}$ 对物品 $I\mathcal{I}$ 的偏好（例如评分）

然而，我们的最终目标是最小化模型在未观测到的数据上的误差，即泛化误差。一个模型如果在训练集上表现优异，但在未见数据上表现糟糕，则称之为过拟合 (Overfitting)。它过度学习了训练数据中的特有模式乃至噪声，而未能捕捉到底层的、具有普适性的偏好规律。

因此，数据集划分的根本目的，就是从有限的训练数据中，模拟出未见数据的场景，从而对模型的泛化能力进行可靠的估计
常见数据划分优缺点
- 留出法
  
  这是最简单直接的方法。它从原始数据集中随机抽取一部分（例如80%）作为训练集，剩下的一部分（20%）作为测试集。
  
  大致流程：
  
  对数据集 $D\mathcal{D}$ 进行一次性的、互斥的划分，形成训练集 $D∗train\mathcal{D}*{train}$ 和测试集 $D∗test\mathcal{D}*{test}$ ，满足 $D∗train∩D∗test=∅\mathcal{D}*{train} \cap \mathcal{D}*{test} = \emptyset$ 且 $D∗train∪D∗test=D\mathcal{D}*{train} \cup \mathcal{D}*{test} = \mathcal{D}$ 。
  
  在 $D∗train\mathcal{D}*{train}$ 上训练模型 $M$ ，之后在 $D∗test\mathcal{D}*{test}$ 上评估 $M$ 的性能，其结果作为对泛化误差的估计。*
  - 优点：现简单，计算开销小，尤其适合在数据量非常庞大的场景下进行快速实验和验证。
  - 缺点：单次随机划分的结果带有很强的偶然性。可能某一次划分恰好把一些“困难”或“简单”的样本都分到了测试集中，从而导致评估结果出现偏差。
- K折交叉验证
  
  为了克服留出法的偶然性，它将整个数据集分成 K 个大小相似、互不相交的子集（称为“折”）。然后进行 K 次训练和评估，每次都选择其中 1 个折作为测试集，剩下的 K-1 个折合并作为训练集。最后，将 K 次的评估结果取平均值，作为模型的最终性能指标。
  
  大致流程
  
  将数据集 $D\mathcal{D}$ 随机划分为 K 个大小近似相等的互斥子集（折，Folds）: $D1,D2,…,DK\mathcal{D}_1, \mathcal{D}_2, \dots, \mathcal{D}_K$
  
  进行 K 轮迭代，对于第 $\in \{1, \dots, K\}$ 轮:
  - 令测试集为 $Dtest(k)=Dk\mathcal{D}_{test}^{(k)} = \mathcal{D}_k$ 。
  - 令训练集为 $Dtrain(k)=D∖Dk\mathcal{D}_{train}^{(k)} = \mathcal{D} \setminus \mathcal{D}_k$ 。
  - 在 $Dtrain(k)\mathcal{D}_{train}^{(k)}$ 上训练模型 $M_k$ ，并在 $Dtest(k)\mathcal{D}_{test}^{(k)}$ 上计算其性能指标 $ϵk\epsilon_k$ 。
  最终的性能估计为 K 轮指标的均值。同时，也可以计算指标的标准差，以衡量模型性能的稳定性。
  - 优点：充分利用了所有数据，每个样本都有一次机会成为测试数据，使得评估结果更加稳定、可靠，大大降低了单次划分带来的偶然误差。
  - 缺点：计算成本高: 计算开销是留出法的 K 倍。常用的 K 值为 5 或 10。
  参考代码：
```
func (set *TrainSet) KFold(k int, seed int64) ([]TrainSet, []TrainSet) {trainFolds := make([]TrainSet, k)testFolds := make([]TrainSet, k)rand.New(rand.NewSource(seed))perm := rand.Perm(set.Length())foldSize := set.Length() / kbegin, end := 0, 0	// todo 数据集划分for i := 0; i < k; i++ {end += foldSizeif i < set.Length()%k {end++}// Test settestIndex := perm[begin:end]testFolds[i].interactionUsers = selectInt(set.interactionUsers, testIndex)testFolds[i].interactionItems = selectInt(set.interactionItems, testIndex)testFolds[i].interactionRatings = selectFloat(set.interactionRatings, testIndex)// Train settrainIndex := concatenate(perm[0:begin], perm[end:set.Length()])trainFolds[i].interactionUsers = selectInt(set.interactionUsers, trainIndex)trainFolds[i].interactionItems = selectInt(set.interactionItems, trainIndex)trainFolds[i].interactionRatings = selectFloat(set.interactionRatings, trainIndex)begin = end}return trainFolds, testFolds
}
```
- 留一法交叉验证
  
  这是K折交叉验证的一种极端情况，即 K 的值等于数据集中样本的总数 N。在推荐场景下，这通常意味着每次只留下一个用户的某一次交互记录作为测试，用该用户的所有其他数据来训练。
  
  大致流程：
  
  K-折交叉验证的一个特例，其中 $K = N$ ，N 是数据集中样本的总数。
  - 优点：由于几乎所有数据都参与了训练，模型的评估结果偏差极小，最能反映模型在真实数据上的期望性能。
  - 缺点：计算成本极其高昂。如果数据集稍大，执行一次完整的留一法验证将会耗费难以想象的时间。因此，它只适用于数据集规模非常小的场景。
- 基于时间的划分
  
  基于时间的划分方法严格按照时间戳来切分数据。例如，选取一个时间点，将此时间点之前的所有数据作为训练集，之后的数据作为测试集。
  
  大致流程
  
  严格依据交互发生的时间戳进行划分。
  1. 选取一个时间点 $T_{split}$ 。
  2. 所有时间戳 $t < T_{split}$ 的交互数据构成训练集 $Dtrain\mathcal{D}_{train}$ 。
  3. 所有时间戳 $\ge T_{split}$ 的交互数据构成测试集 $Dtest\mathcal{D}_{test}$ 。
  - 优点：最能模拟线上真实环境，可以有效评估模型对未来用户行为的预测能力。这是检验模型是否能跟上用户兴趣变化趋势的黄金标准。
  - 适用场景：对于任何具有时序特征的推荐任务（例如电商、新闻、社交媒体），这都是首选的划分方法。

总结

根据不同的推荐场景选择合适的划分方法

划分方法	优点	缺点	主要适用场景
留出法	简单、快速	结果偶然性大	数据量巨大时的快速实验或初步验证。
K折交叉验证	结果稳定，数据利用率高	计算开销相对较大	常规的模型选择和评估，是学术界和工业界的标准实践。
留一法	评估偏差小，结果最可靠	计算成本极高	数据集规模很小，且对评估精度要求极高的罕见情况。
时间划分	最贴近真实应用场景	需要数据包含时间信息	用户兴趣会随时间变化的场景，如新闻、电商推荐。

推荐模型性能验证

模型验证的核心目标是科学地度量模型的泛化能力，确保其在未知数据上的表现符合预期。

离线评估 (Offline Evaluation)

离线评估是在模型上线前，使用固定的历史数据集进行的验证。它是成本最低、迭代速度最快的评估方式。

所有离线评估都必须基于正确的数据集划分，以模拟真实世界的数据不可见性。主要协议包括：
- 时序划分 (Temporal Split): 业界标准。按时间切分，用过去的数据训练，预测未来的数据。这是唯一能在线下可靠模拟线上环境的方法。
- K-折交叉验证 (K-Fold Cross-Validation): 学术界标准。适用于静态、非时序数据集，通过多次划分求平均来获得鲁棒的评估结果。
- 留出法 (Hold-out): 用于超大规模数据集的快速验证，但结果稳定性较差。
核心评估指标 (Key Metrics)

根据推荐任务的不同，我们关注的指标也不同。
1. 评分预测 (Rating Prediction) 任务
  
  这类任务的目标是预测用户对物品的具体评分。
  - 平均绝对误差 (Mean Absolute Error, MAE):
    
    它衡量的是预测评分与真实评分之间差值的绝对值的平均值。MAE对所有误差一视同仁。
    $MAE=1∣Dtest∣∑(u,i)∈Dtest∣rui−r^ui∣ \text{MAE} = \frac{1}{|\mathcal{D}_{test}|} \sum_{(u,i) \in \mathcal{D}_{test}} |r_{ui} - \hat{r}_{ui}|$
  - 均方根误差 (Root Mean Square Error, RMSE):
    
    与MAE相比，RMSE通过平方项放大了较大预测误差的惩罚，对模型的离谱预测（比如真实评分为1分，预测为5分）更为敏感。
    $RMSE=1∣Dtest∣∑(u,i)∈Dtest(rui−r^ui)2 \text{RMSE} = \sqrt{\frac{1}{|\mathcal{D}_{test}|} \sum_{(u,i) \in \mathcal{D}_{test}} (r_{ui} - \hat{r}_{ui})^2}$
  gorse中的相关实现代码：
```
func RootMeanSquareError(prediction []float64, truth []float64) float64 {tmp := make([]float64, len(prediction))floats.SubTo(tmp, prediction, truth)	// 误差floats.Mul(tmp, tmp)					// 平方return math.Sqrt(stat.Mean(tmp, nil))	// 平均值开根号 
}
func MeanAbsoluteError(prediction []float64, truth []float64) float64 {tmp := make([]float64, len(prediction))	floats.SubTo(tmp, prediction, truth)	// 误差abs(tmp)								// 绝对值 return stat.Mean(tmp, nil)				// 平均值
}
```
2. Top-N 排序推荐 (Ranking) 任务
  
  这是现代推荐系统最核心的任务，即为用户生成一个有序的推荐列表。
  
  精确率 (Precision@K) / 召回率 (Recall@K):
  - Precision@K: 在推荐的Top-K个物品中，用户真正喜欢的物品所占的比例。它衡量推荐结果的准确性。
  - Recall@K: 在用户所有喜欢的物品中，被我们成功推荐到Top-K列表里的比例。它衡量推荐结果的全面性。
3. 分类任务 (Classification) - 如点击率(CTR)预估
  
  这类任务的目标是预测用户点击某个物品的概率。
  
  AUC (Area Under the ROC Curve):
  AUC衡量的是模型将正样本排在负样本前面的能力。它不依赖于某个具体的点击阈值，能综合评估模型在所有阈值下的排序能力，是CTR预估模型最核心的离线评估指标之一。
在线评估（Online Evaluation）

当模型在离线评估中表现出色后，必须通过在线实验来验证其在真实环境中的效果。这是检验模型商业价值的最终标准。
- A/B 测试 (A/B Testing):
  - 机制: 将用户随机分成若干组，一组（控制组）使用现有模型A，另一组或多组（实验组）使用新模型B、C等。在一段时间内，比较各组的核心业务指标。
  - 评估指标: 不再是RMSE或NDCG，而是真实的商业KPI，例如：点击率(CTR)、转化率(CVR)、用户停留时长、GMV（商品交易总额）等。
  - 优点: 结果最可靠，具有统计学意义，能直接衡量商业价值。
  - 缺点: 实验周期长，成本高，可能对部分用户造成负面体验。
- 交叉测试 (Interleaving):
  - 机制: 将两个模型（A和B）的推荐结果混合在一起，展示给同一个用户。通过追踪用户最终点击了来自哪个模型的物品，来快速判断哪个模型更优。
  - 优点: 比A/B测试更敏感，能用更少的时间和流量获得显著的统计结果，非常适合快速迭代多个算法版本。
  - 缺点: 实现相对复杂，主要用于判断模型的相对好坏，难以直接评估对绝对业务指标的影响。
超越精确度的质量评估 (Qualitative Evaluation)

一个高精度的模型不一定是一个好的推荐模型。例如，模型可能总是推荐那些热门的、用户早已熟知的物品。因此，还需要关注以下质量指标：
- 覆盖率 (Coverage): 模型能够推荐出的物品占总物品库的比例。高覆盖率意味着模型具有更好的挖掘长尾物品的能力。
- 多样性 (Diversity): 推荐列表中的物品是否种类丰富，而不是高度同质化。
- 新颖性 (Novelty): 模型推荐的物品是否是用户之前不知道的、全新的物品。
- 惊喜度 (Serendipity): 模型能否推荐出那些用户意想不到、但又确实令其满意的物品。

总结

一个成熟的模型验证流程应该是：通过离线评估快速筛选和迭代算法，辅以质量评估确保推荐广度和深度，最终通过在线评估来决策模型是否上线。

评估范式	核心目的	主要方法/指标	优点	缺点
离线评估	快速验证算法的理论性能	RMSE, MAE, Precision/Recall@K, NDCG@K, AUC	快速、低成本、可重复	无法完全模拟真实环境，与线上表现可能存在偏差(Gap)
在线评估	验证模型的真实商业价值	A/B测试, 交叉测试	结果真实可靠，直接关联业务KPI	慢、高成本、有风险
质量评估	衡量推荐的人性化和探索能力	覆盖率, 多样性, 新颖性	弥补纯精度指标的盲点，提升用户体验	通常难以直接量化和优化