推荐系统基础概念
-
前言
作者根据开源项目 gorse 的每一步提交, 系统性学习推荐系统架构组成以及gorse中使用的推荐算法的实现。 通过参考算法文档以及代码实现,作者对gorse的学习过程以及进度 与 博客发布的时间线保持一致
-
数据集分割
-
原因
推荐系统的根本任务是学习一个函数 f:(U,I)→Rf: (\mathcal{U}, \mathcal{I}) \to \mathbb{R}f:(U,I)→R,该函数能够预测用户 U\mathcal{U}U 对物品 I\mathcal{I}I 的偏好(例如评分)
然而,我们的最终目标是最小化模型在未观测到的数据上的误差,即泛化误差。一个模型如果在训练集上表现优异,但在未见数据上表现糟糕,则称之为过拟合 (Overfitting)。它过度学习了训练数据中的特有模式乃至噪声,而未能捕捉到底层的、具有普适性的偏好规律。
因此,数据集划分的根本目的,就是从有限的训练数据中,模拟出未见数据的场景,从而对模型的泛化能力进行可靠的估计
-
常见数据划分优缺点
-
留出法
这是最简单直接的方法。它从原始数据集中随机抽取一部分(例如80%)作为训练集,剩下的一部分(20%)作为测试集。
大致流程:
对数据集 D\mathcal{D}D 进行一次性的、互斥的划分,形成训练集 D∗train\mathcal{D}*{train}D∗train 和测试集 D∗test\mathcal{D}*{test}D∗test,满足 D∗train∩D∗test=∅\mathcal{D}*{train} \cap \mathcal{D}*{test} = \emptysetD∗train∩D∗test=∅ 且 D∗train∪D∗test=D\mathcal{D}*{train} \cup \mathcal{D}*{test} = \mathcal{D}D∗train∪D∗test=D。
在 D∗train\mathcal{D}*{train}D∗train 上训练模型 MMM,之后在 D∗test\mathcal{D}*{test}D∗test 上评估 MMM 的性能,其结果作为对泛化误差的估计。*
- 优点:现简单,计算开销小,尤其适合在数据量非常庞大的场景下进行快速实验和验证。
- 缺点:单次随机划分的结果带有很强的偶然性。可能某一次划分恰好把一些“困难”或“简单”的样本都分到了测试集中,从而导致评估结果出现偏差。
-
K折交叉验证
为了克服留出法的偶然性,它将整个数据集分成 K 个大小相似、互不相交的子集(称为“折”)。然后进行 K 次训练和评估,每次都选择其中 1 个折作为测试集,剩下的 K-1 个折合并作为训练集。最后,将 K 次的评估结果取平均值,作为模型的最终性能指标。
大致流程
将数据集 D\mathcal{D}D 随机划分为 K 个大小近似相等的互斥子集(折,Folds): D1,D2,…,DK\mathcal{D}_1, \mathcal{D}_2, \dots, \mathcal{D}_KD1,D2,…,DK
进行 K 轮迭代,对于第 k∈{1,…,K}k \in \{1, \dots, K\}k∈{1,…,K} 轮:
-
令测试集为 Dtest(k)=Dk\mathcal{D}_{test}^{(k)} = \mathcal{D}_kDtest(k)=Dk。
-
令训练集为 Dtrain(k)=D∖Dk\mathcal{D}_{train}^{(k)} = \mathcal{D} \setminus \mathcal{D}_kDtrain(k)=D∖Dk。
-
在 Dtrain(k)\mathcal{D}_{train}^{(k)}Dtrain(k) 上训练模型 MkM_kMk,并在 Dtest(k)\mathcal{D}_{test}^{(k)}Dtest(k) 上计算其性能指标 ϵk\epsilon_kϵk。
最终的性能估计为 K 轮指标的均值。同时,也可以计算指标的标准差,以衡量模型性能的稳定性。
- 优点:充分利用了所有数据,每个样本都有一次机会成为测试数据,使得评估结果更加稳定、可靠,大大降低了单次划分带来的偶然误差。
- 缺点:计算成本高: 计算开销是留出法的 K 倍。常用的 K 值为 5 或 10。
参考代码:
func (set *TrainSet) KFold(k int, seed int64) ([]TrainSet, []TrainSet) {trainFolds := make([]TrainSet, k)testFolds := make([]TrainSet, k)rand.New(rand.NewSource(seed))perm := rand.Perm(set.Length())foldSize := set.Length() / kbegin, end := 0, 0 // todo 数据集划分for i := 0; i < k; i++ {end += foldSizeif i < set.Length()%k {end++}// Test settestIndex := perm[begin:end]testFolds[i].interactionUsers = selectInt(set.interactionUsers, testIndex)testFolds[i].interactionItems = selectInt(set.interactionItems, testIndex)testFolds[i].interactionRatings = selectFloat(set.interactionRatings, testIndex)// Train settrainIndex := concatenate(perm[0:begin], perm[end:set.Length()])trainFolds[i].interactionUsers = selectInt(set.interactionUsers, trainIndex)trainFolds[i].interactionItems = selectInt(set.interactionItems, trainIndex)trainFolds[i].interactionRatings = selectFloat(set.interactionRatings, trainIndex)begin = end}return trainFolds, testFolds }
-
-
留一法交叉验证
这是K折交叉验证的一种极端情况,即 K 的值等于数据集中样本的总数 N。在推荐场景下,这通常意味着每次只留下一个用户的某一次交互记录作为测试,用该用户的所有其他数据来训练。
大致流程:
K-折交叉验证的一个特例,其中 K=NK=NK=N,N 是数据集中样本的总数。
- 优点:由于几乎所有数据都参与了训练,模型的评估结果偏差极小,最能反映模型在真实数据上的期望性能。
- 缺点:计算成本极其高昂。如果数据集稍大,执行一次完整的留一法验证将会耗费难以想象的时间。因此,它只适用于数据集规模非常小的场景。
-
基于时间的划分
基于时间的划分方法严格按照时间戳来切分数据。例如,选取一个时间点,将此时间点之前的所有数据作为训练集,之后的数据作为测试集。
大致流程
严格依据交互发生的时间戳进行划分。
-
选取一个时间点 TsplitT_{split}Tsplit。
-
所有时间戳 t<Tsplitt < T_{split}t<Tsplit 的交互数据构成训练集 Dtrain\mathcal{D}_{train}Dtrain。
-
所有时间戳 t≥Tsplitt \ge T_{split}t≥Tsplit 的交互数据构成测试集 Dtest\mathcal{D}_{test}Dtest。
- 优点:最能模拟线上真实环境,可以有效评估模型对未来用户行为的预测能力。这是检验模型是否能跟上用户兴趣变化趋势的黄金标准。
- 适用场景:对于任何具有时序特征的推荐任务(例如电商、新闻、社交媒体),这都是首选的划分方法。
-
-
-
总结
根据不同的推荐场景选择合适的划分方法
划分方法 优点 缺点 主要适用场景 留出法 简单、快速 结果偶然性大 数据量巨大时的快速实验或初步验证。 K折交叉验证 结果稳定,数据利用率高 计算开销相对较大 常规的模型选择和评估,是学术界和工业界的标准实践。 留一法 评估偏差小,结果最可靠 计算成本极高 数据集规模很小,且对评估精度要求极高的罕见情况。 时间划分 最贴近真实应用场景 需要数据包含时间信息 用户兴趣会随时间变化的场景,如新闻、电商推荐。
-
-
推荐模型性能验证
模型验证的核心目标是科学地度量模型的泛化能力,确保其在未知数据上的表现符合预期。
-
离线评估 (Offline Evaluation)
离线评估是在模型上线前,使用固定的历史数据集进行的验证。它是成本最低、迭代速度最快的评估方式。
所有离线评估都必须基于正确的数据集划分,以模拟真实世界的数据不可见性。主要协议包括:
-
时序划分 (Temporal Split): 业界标准。按时间切分,用过去的数据训练,预测未来的数据。这是唯一能在线下可靠模拟线上环境的方法。
-
K-折交叉验证 (K-Fold Cross-Validation): 学术界标准。适用于静态、非时序数据集,通过多次划分求平均来获得鲁棒的评估结果。
-
留出法 (Hold-out): 用于超大规模数据集的快速验证,但结果稳定性较差。
核心评估指标 (Key Metrics)
根据推荐任务的不同,我们关注的指标也不同。
-
评分预测 (Rating Prediction) 任务
这类任务的目标是预测用户对物品的具体评分。
-
平均绝对误差 (Mean Absolute Error, MAE):
它衡量的是预测评分与真实评分之间差值的绝对值的平均值。MAE对所有误差一视同仁。
MAE=1∣Dtest∣∑(u,i)∈Dtest∣rui−r^ui∣ \text{MAE} = \frac{1}{|\mathcal{D}_{test}|} \sum_{(u,i) \in \mathcal{D}_{test}} |r_{ui} - \hat{r}_{ui}| MAE=∣Dtest∣1(u,i)∈Dtest∑∣rui−r^ui∣ -
均方根误差 (Root Mean Square Error, RMSE):
与MAE相比,RMSE通过平方项放大了较大预测误差的惩罚,对模型的离谱预测(比如真实评分为1分,预测为5分)更为敏感。
RMSE=1∣Dtest∣∑(u,i)∈Dtest(rui−r^ui)2 \text{RMSE} = \sqrt{\frac{1}{|\mathcal{D}_{test}|} \sum_{(u,i) \in \mathcal{D}_{test}} (r_{ui} - \hat{r}_{ui})^2} RMSE=∣Dtest∣1(u,i)∈Dtest∑(rui−r^ui)2
gorse中的相关实现代码:
func RootMeanSquareError(prediction []float64, truth []float64) float64 {tmp := make([]float64, len(prediction))floats.SubTo(tmp, prediction, truth) // 误差floats.Mul(tmp, tmp) // 平方return math.Sqrt(stat.Mean(tmp, nil)) // 平均值开根号 } func MeanAbsoluteError(prediction []float64, truth []float64) float64 {tmp := make([]float64, len(prediction)) floats.SubTo(tmp, prediction, truth) // 误差abs(tmp) // 绝对值 return stat.Mean(tmp, nil) // 平均值 }
-
-
Top-N 排序推荐 (Ranking) 任务
这是现代推荐系统最核心的任务,即为用户生成一个有序的推荐列表。
精确率 (Precision@K) / 召回率 (Recall@K):
- Precision@K: 在推荐的Top-K个物品中,用户真正喜欢的物品所占的比例。它衡量推荐结果的准确性。
- Recall@K: 在用户所有喜欢的物品中,被我们成功推荐到Top-K列表里的比例。它衡量推荐结果的全面性。
-
分类任务 (Classification) - 如点击率(CTR)预估
这类任务的目标是预测用户点击某个物品的概率。
AUC (Area Under the ROC Curve):
AUC衡量的是模型将正样本排在负样本前面的能力。它不依赖于某个具体的点击阈值,能综合评估模型在所有阈值下的排序能力,是CTR预估模型最核心的离线评估指标之一。
-
-
在线评估(Online Evaluation)
当模型在离线评估中表现出色后,必须通过在线实验来验证其在真实环境中的效果。这是检验模型商业价值的最终标准。
-
A/B 测试 (A/B Testing):
- 机制: 将用户随机分成若干组,一组(控制组)使用现有模型A,另一组或多组(实验组)使用新模型B、C等。在一段时间内,比较各组的核心业务指标。
- 评估指标: 不再是RMSE或NDCG,而是真实的商业KPI,例如:点击率(CTR)、转化率(CVR)、用户停留时长、GMV(商品交易总额)等。
- 优点: 结果最可靠,具有统计学意义,能直接衡量商业价值。
- 缺点: 实验周期长,成本高,可能对部分用户造成负面体验。
-
交叉测试 (Interleaving):
- 机制: 将两个模型(A和B)的推荐结果混合在一起,展示给同一个用户。通过追踪用户最终点击了来自哪个模型的物品,来快速判断哪个模型更优。
- 优点: 比A/B测试更敏感,能用更少的时间和流量获得显著的统计结果,非常适合快速迭代多个算法版本。
- 缺点: 实现相对复杂,主要用于判断模型的相对好坏,难以直接评估对绝对业务指标的影响。
-
-
超越精确度的质量评估 (Qualitative Evaluation)
一个高精度的模型不一定是一个好的推荐模型。例如,模型可能总是推荐那些热门的、用户早已熟知的物品。因此,还需要关注以下质量指标:
- 覆盖率 (Coverage): 模型能够推荐出的物品占总物品库的比例。高覆盖率意味着模型具有更好的挖掘长尾物品的能力。
- 多样性 (Diversity): 推荐列表中的物品是否种类丰富,而不是高度同质化。
- 新颖性 (Novelty): 模型推荐的物品是否是用户之前不知道的、全新的物品。
- 惊喜度 (Serendipity): 模型能否推荐出那些用户意想不到、但又确实令其满意的物品。
-
总结
一个成熟的模型验证流程应该是:通过离线评估快速筛选和迭代算法,辅以质量评估确保推荐广度和深度,最终通过在线评估来决策模型是否上线。
评估范式 核心目的 主要方法/指标 优点 缺点 离线评估 快速验证算法的理论性能 RMSE, MAE, Precision/Recall@K, NDCG@K, AUC 快速、低成本、可重复 无法完全模拟真实环境,与线上表现可能存在偏差(Gap) 在线评估 验证模型的真实商业价值 A/B测试, 交叉测试 结果真实可靠,直接关联业务KPI 慢、高成本、有风险 质量评估 衡量推荐的人性化和探索能力 覆盖率, 多样性, 新颖性 弥补纯精度指标的盲点,提升用户体验 通常难以直接量化和优化
-