春节加餐2|一次答疑，带你回顾模型评估的所有基础概念

你好，我是海丰。

今天是我们春节假期的第二篇加餐。这节课，我筛选出了一些常见的课后问题，对它们做了统一的整理，同时也对一些优质回答做了补充讲解，希望更多同学可以进行参考。

常见问题

问题 1：老师，我总是容易弄混 KS、PSI 等很多指标。

我看到有很多同学提出类似的问题，这些都是 AI 产品经理需要掌握的基础概念，而且在接下来的项目实践篇都会涉及。所以这里，我会把一些基础概念进行汇总，希望能再帮你巩固一下。

最后，我再补充解释一下 OOT 这个基础概念。OOT 是跨时间测试，使用的样本是和模型训练集，验证集没有交集的样本，目的是用来判断模型的泛化能力。我在第 3 讲提到过:

在我刚开始转做 AI 产品经理的时候，遇到过这么一件事儿，我们的用户年龄预测模型训练时候的 KS 值（模型中用于区分预测正负样本分隔程度的评价指标）很高，但是 OOT 测试的时候 KS 还不足 10。当我拿着结果去找算法同学沟通的时候，他就说了一句，“可能是过拟合了，我再改改”。

也有同学提问说，“不明白为什么 OOT 过高就是模型样本选择的问题？”我这里表达的意思，其实不是 OOT 过高就是模型样本选择有问题，而是说，如果模型在验证集上的 KS 值不错，但到了 OOT 测试的时候 KS 反而不好，就说明，可能是我们当时选择的样本不合理。比如：训练和验证样本抽取的时间过早，很多数据发生了变化，这就导致模型在过去样本上表现好，但在目前样本上不适用。

课后讨论题

问题 2：假设，我们业务方 HR 团队希望你分析每一个员工的离职概率，你觉得用朴素贝叶斯合不合适？为什么？（12 | 朴素贝叶斯：让 AI 告诉你，航班延误险该不该买？）

首先，我非常认可这位同学的观点。离职率的预测是一个非常复杂的模型，正常情况来说，只用朴素贝叶斯大概率是不够的。但作为产品经理，我们要回到场景上看问题，场景不同，选择的模型不同。因此，我认为对于这个问题，我们可以分为两个阶段来考虑。

第一个阶段：快速响应，从 0 到 1。我们要结合成本来考量，因为一般公司内部部门的诉求样本比较少，并且他们对准确率的接受程度比较大，他们在意的是从无到有。那么，针对启动期没有效果指标可以参考的情况，我们可以先用朴素贝叶斯来完成业务方从无到有的需求，做到快速响应。

第二个阶段：根据实际情况，考虑资源倾斜。这个阶段，我们就要看模型的实际使用情况。不过，一般来说，内部部门的项目就到此为止。但如果你是在众包机构工作，就需要切实投入更多的资源，来训练一个模型解决资源倾斜的问题。

希望同学们可以根据我提供的思路，来继续深入思考一下这个问题。

问题 3：假设，你们公司是做电商业务的，现在领导打算让你做流失用户的召回，你认为评估这个模型的指标都有哪些？为什么？（18 | 核心技能：产品经理评估模型需要关注哪些指标？）

这位同学的思路很好！下面，我们再来说一下我的思路。对于产品经理来说，我们首先需要明确做一件事情的目的是什么，领导预期达到的目标是怎么样的，然后明确指标的计算口径。

其次，我们要明确这个问题属于什么问题。对于判断流失用户，大部分场景都定义为分类问题。在实际操作中，它也可能被当作一个回归问题来处理（比如，我们判断用户多久之后会流失）。总的来说，分类问题还是使用 KS 作为评估指标比较多。

最后，就是模型的评估。一般来说，我们给到业务评估指标会使用精确率和召回率，这是一对经常被同时使用的指标。这里，我还要提醒你一点，精确率和准确率是两个不一样的指标，它们的概念，我都总结在了刚才的脑图中，我们要记住。除此之外，因为流失用户在整个用户群体中占比不会太大，所以我们一般不使用准确率作为评估指标。

文章目录

常见问题

课后讨论题