NPS样本抽取-分层抽样在滴滴的应用

更准确的统计NPS,其中一个因素是比较准确的选取样本。分享滴滴在这方便的一些经验


一、优化抽样方法可以带来哪些收益?
1、提升估计量的精度,使样本更好的代表整体
2、降低成本,在保证样本代表性的同时达到费用最优


二、NPS为什么适合选择分层抽样方法?
影响估计精度的因素除了样本量、总体大小还有总体方差。在其他因素不变的情况下,总体方差越小,估计的精度越高。

总体的方差是客观存在且无法改变的,但如果对总体单元进行分类,即分成若干子总体,在子总体内单元之间比较相似,每个子总体的方差较小,这样只需在子总体中抽取少量样本单元,就能很好的代表子总体的特征,从而提高对整个总体估计的精度。

例如:对于目前NPS抽样而言,我们可以通过历史数据分析发现,不同特征的用户群体间NPS差异较大,如年龄、消费频次、消费偏好等。我们可以将用户根据不同特征进行分层。尽可能降低层内差异,增大层间差异,提高整体估计精度。


三、怎样分配各层样本数量,提升估计精度?
以某品牌消费者为例,发现消费其他相关品类的不同品牌数量,对本品NPS有显著影响。则根据对其他品牌的消费数量对消费者进行分层,计算出各层NPS的总体方差。若假设需要抽取1500个样本(总样本量),现使用不同分配方案,计算各层所需样本量,并计算总体均值的估计量标准差: 
从而,当选择与成正比即内曼分配时,方差最小,此时我们可以以95%的置信度认为消费者的NPS为:。在这里,由于NPS抽样各层每样本费用相同,故内曼分配可在确保精度相同的情况下使得所需样本数量相对更低,即整体费用达到最低;当样本数量一定时,也可使整体指标精度得到提升。