075 | 推荐系统评测之一:传统线下评测

上周我们讨论了 EE 算法,介绍了 UCB(Upper Confidence Bound)算法和“汤普森采样”(Thompson Sampling)。

这周,我们回归到一个更加传统的话题,那就是如何评测推荐系统。这个话题非常重要,牵涉到如何持续对一个推荐系统进行评价,从而能够提高推荐系统的精度。

今天,我们先来看一看推荐系统的线下评测。

基于评分的线下评测

在过去 10 年里,随着 Netflix 大奖赛的举行,很多研究人员和工程人员往往把推荐系统的模型学习简化为对用户评分的一种估计。同时,在模型上面来说,对用户物品评分矩阵进行分解成为了一种主流的方法。

在这样的场景下,如何对模型进行评测呢?

一种简单且直观的办法,就是衡量评分的准确性,换句话说,也就是看我们预测的评分和真实评分之间有多大的差距。

那么,有哪些方法可以用来衡量两个数值之间的差异呢?

在机器学习中,一个经常使用的测度叫“均方差”(Mean Square Error),或MSE。有时候,我们也会使用它的根号后的结果,叫作“方差”(Rooted Mean Square Error),或RMSE。

MSE 是这么定义的。首先,如果我们知道一个用户 i 和物品 j 的真实评分,假设叫 YijYij ,那么我们的一个估计值是