NPS的思考——基于用户自评时的异质性差异

NPS在用户体验乃至整个产品界有着举足轻重的地位,文章通过一个实证案例,反思了NPS在使用过程可能遇到的“用户自评时的异质性差异”问题,并通过引入锚点,尝试给出了解决方案,希望给大家在后续分析、制定主观概念量表时,提供一个分析思路


什么是NPS?

相信从事互联网行业的诸君,对于NPS一定不会陌生。

NPS的全称Net Promoter Score,即净推荐值,主要通过一个问题来测量客户/用户向他人推荐某个企业或服务可能性的指数:

你有多大可能把我们的品牌/产品/服务推荐给周围的亲朋好友?请从0-10分选择符合你真实意愿的具体分值。0分表示“毫无可能”,10分表示“非常有可能”。

按照客户不同的打分,将用户分成三组人群:推荐者(打9和10分的客户)、贬损者(打分0-6分的客户)、被动者(打7和8分的客户)。有了这三组数据,便可计算出NPS得分:(推荐者人数-贬损者人数)/受访者总人数



哪些公司、产品在使用NPS

测量NPS是一个快速了解用户情绪的简单办法,在市场上已广为人们所接受,许多龙头企业,包括Apple、戴尔、汇丰、KPMG、中国平安、天猫、滴滴、蚂蚁金服、中国移动等,已将其植入了公司运作乃至KPI。


NPS使用过程中可能存在的问题

NPS并非万能,现有许多专家学者对NPS使用过程中存在的问题进行了研究,2019年12月,《哈佛商业评论》杂志曾刊专文——“净推荐值问题出在哪”——对NPS使用过程中存在的问题进行系统梳理,主要包括以下几个方面:

  • NPS用于测量用户的问题,其假设存在一定问题
  • 潜在的错误分类
  • 简单性与有有用性之间的权衡

由于篇幅限制,就不在此一一展开,有兴趣的朋友可以找来看看。


自评时的异质性差异

以往的许多研究对于NPS的分析,往往忽略了用户自评时的异质性差异。在对于NPS(净推荐值)使用的过程中,测量是否准确、科学是研究结果是否可靠的前提和基础,但目前NPS的测量方法显然会受用户/消费者自评时的异质性差异的影响。

什么是自评异质性差异?

举个例子,以现有的NPS测量方法为例:假设A、B两人同样给某一产品的NPS值评了7分,在A的评价认知体系中,他/她认为6分(含)以上就称得上是“推荐”了,而B则认为8分(含)以上才算是“推荐”。因此,由于A、B两人对“推荐”的基准不一致,同样的7分,A认为自己是“推荐”的,而B则认为自己是“不推荐”的。因此,如果不对自评异质性问题进行统计控制,直接运用评分结果进行统计分析会存在一定问题

其实,不仅NPS值存在自评异质性问题,所有主观概念的测量,如个人健康状况、幸福感、工作满意度等均存在自评异质性问题。

以自我健康评价为例,由于不同群体、不同个人对健康的定义、判断标准和期望水平等可能存在显著差异,相同的自我健康状况评分很可能代表不同的健康状况。已有研究表明,不同性别、种族、年龄的群体关于健康的标准存在很大差异。

与自我健康评价相比,NPS(净推荐值)的测量更加主观,自我健康状况的自评异质性可以通过引入能够客观评价的标准化情境来加以克服,而NPS的标准化场景却不容易建立,但我们可以借鉴健康测量中克服自评异质性的主要思路。


通过什么方法可以改善样本自评异质性差异问题?

学界一般通过引入“锚点”的情境选择测量法,来克服自评异质性问题。

使用问题1测量用户/消费者NPS的自我评价,新增问题2去校正问题1所得评分。问题1、2均采用一致的测量原点,起到测量标准化的作用,使测量对象的主观感受可量化,且不同对象的测量结果具有可比性。

问题1:你有多大可能把我们的产品/公司推荐给周围的亲朋好友?请从0-10分选择符合你真实意愿的具体分值。0分表示“毫无可能”,10分表示“非常有可能”。

问题2:在对我们产品/公司的推荐评分中,你认为几分及以上算是“推荐”(最高分为10分,最低分是0分)


一个实证案例:关于A银行NPS的研究

数据

通过两大渠道收集数据:银行App首页banner,银行微信公众号。有效样本占比约为81%,问卷平均填答时间约6分钟,通过去重、填答时间、问题前后逻辑设置,去掉无效、低质量问卷,共回收有效问卷1046份。

自评异质性的影响因素

自评异质性方面,所有用户“几分以上是推荐的”平均分8.26分,显著高于通常认为的及格线(6分),同样显著高于通常认为的优秀线(8分)。其中,女性用户“几分以上是推荐的”平均分8.36显著高于男性用户平均分8.16(t检验显著),说明不同性别用户之间存在自评异质性问题,即男性、女性用户对于A银行推荐与否的基准不一致。

女性>男性,t检验显著,p=0.04

不同的受教育程度群体,同样存在自评异质性差异,如表3所示:初中文化程度“几分以上是推荐的”平均分最高,8.53分;硕士及以上,平均分最低,7.67分。单因素方差分析(ANOVA)表明,不同受教育程度群体间在“几分以上是推荐的”存在显著差异。

ANOVA分析显示:不同组别的均值存在显著差异,p=0.002

具体操作方案:等比例标准化

等比例标准化方法的核心思想是:将“在对我们银行的推荐评分中,你认为几分及以上算是推荐”中的得分(以下简称评分基准推荐临界点)统一调整到9分,从而使得不同用户之间的推荐评分具有可比性。推荐基准本身是人为确定的,主要是为了有一个统一的参照标准,可以是8分,理论上也可以是任意一个其他分数。本文将推荐基准设定为9分,主要考虑到符合NPS的划分标准。

等比例标准化方法假定:用户的原始评分与用户的评分基准之比等于调整后评分与我们预设的评分基准(本文设定为9)之比



小结

笔者在这给NPS“挑刺”并不是否定NPS,NPS在诸多业务领域取得的成就有目共睹,也毋庸赘言。但任何一种方法都很难做到完美无缺,只有明白该方法的使用局限,才能更好地运用它为我们服务。

此外,在使用主观概念的测量时(这里不局限于NPS),用户/消费者自评时的异质性差异这一问题不应被忽视,在引入锚点,进行标准化的时候,笔者着重介绍了等比例标准化方法,除此之外,还有等距离标准化方法,在原理方面其实是异曲同工,下次碰到合适的案例再给大家分享。

参考文献:
[1]Idler E L, Benyamini Y. Self-rated health andmortality: a review of twenty-seven community studies[J]. Journal of health andsocial behavior, 1997: 21-37.
[2]Tandon A, Murray C J L, Salomon J A, et al.Statistical models for enhancing cross-population comparability[J]. Healthsystems performance assessment: debates, methods and empiricism. Geneva: WorldHealth Organization, 2003: 727-46.
[3]王广州, 王军. 中国家庭幸福感测量[D]., 2013.

本文转自网易UEDC,作者盛少奇。