春节加餐2|一次答疑,带你回顾模型评估的所有基础概念
文章目录
你好,我是海丰。
今天是我们春节假期的第二篇加餐。这节课,我筛选出了一些常见的课后问题,对它们做了统一的整理,同时也对一些优质回答做了补充讲解,希望更多同学可以进行参考。
常见问题
问题 1:老师,我总是容易弄混 KS、PSI 等很多指标。
我看到有很多同学提出类似的问题,这些都是 AI 产品经理需要掌握的基础概念,而且在接下来的项目实践篇都会涉及。所以这里,我会把一些基础概念进行汇总,希望能再帮你巩固一下。
最后,我再补充解释一下 OOT 这个基础概念。OOT 是跨时间测试,使用的样本是和模型训练集,验证集没有交集的样本,目的是用来判断模型的泛化能力。我在第 3 讲提到过:
在我刚开始转做 AI 产品经理的时候,遇到过这么一件事儿,我们的用户年龄预测模型训练时候 的 KS 值(模型中用于区分预测正负样本分隔程度的评价指标)很高,但是 OOT 测试的时候 KS 还不足 10。当我拿着结果去找算法同学沟通的时候,他就说了一句,“可能是过拟合了,我再改改”。
也有同学提问说,“不明白为什么 OOT 过高就是模型样本选择的问题?”我这里表达的意思,其实不是 OOT 过高就是模型样本选择有问题,而是说,如果模型在验证集上的 KS 值不错,但到了 OOT 测试的时候 KS 反而不好,就说明,可能是我们当时选择的样本不合理。比如:训练和验证样本抽取的时间过早,很多数据发生了变化,这就导致模型在过去样本上表现好,但在目前样本上不适用。
课后讨论题
问题 2:假设,我们业务方 HR 团队希望你分析每一个员工的离职概率,你觉得用朴素贝叶斯合不合适?为什么?(12 | 朴素贝叶斯:让 AI 告诉你,航班延误险该不该买?)
首先,我非常认可这位同学的观点。离职率的预测是一个非常复杂的模型,正常情况来说,只用朴素贝叶斯大概率是不够的。但作为产品经理,我们要回到场景上看问题,场景不同,选择的模型不同。因此,我认为对于这个问题,我们可以分为两个阶段来考虑。
第一个阶段:快速响应,从 0 到 1。我们要结合成本来考量,因为一般公司内部部门的诉求样本比较少,并且他们对准确率的接受程度比较大,他们在意的是从无到有。那么,针对启动期没有效果指标可以参考的情况,我们可以先用朴素贝叶斯来完成业务方从无到有的需求,做到快速响应。
第二个阶段:根据实际情况,考虑资源倾斜。这个阶段,我们就要看模型的实际使用情况。不过,一般来说,内部部门的项目就到此为止。但如果你是在众包机构工作,就需要切实投入更多的资源,来训练一个模型解决资源倾斜的问题。
希望同学们可以根据我提供的思路,来继续深入思考一下这个问题。
问题 3:假设,你们公司是做电商业务的,现在领导打算让你做流失用户的召回,你认为评估这个模型的指标都有哪些?为什么?(18 | 核心技能:产品经理评估模型需要关注哪些指标?)
这位同学的思路很好!下面,我们再来说一下我的思路。对于产品经理来说,我们首先需要明确做一件事情的目的是什么,领导预期达到的目标是怎么样的,然后明确指标的计算口径。
其次,我们要明确这个问题属于什么问题。对于判断流失用户,大部分场景都定义为分类问题。在实际操作中,它也可能被当作一个回归问题来处理(比如,我们判断用户多久之后会流失)。总的来说,分类问题还是使用 KS 作为评估指标比较多。
最后,就是模型的评估。一般来说,我们给到业务评估指标会使用精确率和召回率,这是一对经常被同时使用的指标。这里,我还要提醒你一点,精确率和准确率是两个不一样的指标,它们的概念,我都总结在了刚才的脑图中,我们要记住。除此之外,因为流失用户在整个用户群体中占比不会太大,所以我们一般不使用准确率作为评估指标。
最后,春节假期就快结束了,我也希望这次加餐能帮助你做好准备,迎接新的挑战,我们节后再见!
文章作者 anonymous
上次更新 2024-04-11