数据异动归因系列(一):元素归因

Wait 5 sec.

在数据驱动的产品世界里,异动数据往往是业务波动的前奏,却也是最难追溯的谜团。本系列首篇《元素归因》将带你拆解数据异动的底层逻辑,从“归因对象”的颗粒度入手,厘清指标背后的行为元素与系统机制。数据异动归因系列将分为四章:元素归因(针对任意指标,在给定维度下,定位对指标波动贡献最大的元素)维度归因(针对任意指标,定位对指标波动贡献最大的维度)根因分析(针对任意指标,分析对指标波动贡献最大的维度+元素组合)因子挖掘(针对复合指标和复杂因果关系,挖掘对指标波动贡献最大的因子)本文为第一章内容,阅读耗时约10分钟;原创保护侵权必究。绝对值指标在给定维度下,绝对值类指标的元素定位简单且清晰:假设大盘gmv去年同期1000万,今年同期2000万,给定地域维度,通过数据探查得到各地域去年和今年gmv:华北地区800万—>1600万,西南地区100万—>350万,其他地区100万—>50万。代入公式可知:华北地区对大盘波动的贡献度为80%,西南地区对大盘波动的贡献度为25%,其他地区对大盘波动的贡献度为-5%,在地域维度下,对gmv指标波动贡献最大的元素是「华北地区」。相对值指标相对值类指标如点击率、笔单价、广告流量占比等,这类指标和绝对值指标的区别是:度量不可直接累加,无法用上述的式子计算各元素贡献,甚至各元素的数据波动方向会和大盘波动方向相反,如下所示:大盘点击率下降12pt,但ABC三个元素的点击率都在上涨,无法像绝对值指标一样直观观察出各元素的贡献度排序(如果通过92%-90%=2pt > 11%-10%=1pt > 1.5%-1%=0.5pt 从而得出 C贡献度 > B贡献度 > A贡献度 显然不科学)。这种局部趋势和整体趋势相悖的现象是我们熟知的【辛普森悖论】。下面将通过理清这个悖论背后的原理,来引出相对值指标波动归因的解题方法。相对值指标 — 辛普森悖论下图中存在甲乙两个整体,每个整体都由A和B两个向量组成,假设甲A+甲B = 乙A+乙B。这里可以想象甲和乙是两个人,A代表文科B代表理科,长度代表甲乙在每个学科的投入时长,角度代表甲乙在该学科的考试通过率。通过向量角度可以看到:甲的学习能力很强,无论在文科还是理科表现都优于乙。通过向量长度可以看到:虽然投入的总时长相同,但甲在理科投入更多,乙在文科投入更多。关键性的一点出现了:理科和文科考试通过率天然不同,文科更容易有高通过率,而乙在「势能」更大的事情上投入了更多的时长,拉高了自己的整体通过率。再进一步,假设甲在文理科的时间分配和乙相同,那么以甲的学习能力,不仅单科通过率会优于乙,整体通过率也会如预期一样优于乙(正如下图所示)。更进一步,我们已知了甲乙在两个科目的表现,甚至可以通过规定 甲total = 乙total 来倒推出甲需要在文科投入时间的阈值(假设甲的学习能力不随投入时间多少而变化),如果低于这个阈值,甲total就会小于乙total。如下图所示,图中的甲A长度即为该阈值。所以悖论的核心我们已经看到了:在不同选择上的投入比重。我们把甲想象成指标的before,乙想象成指标的after,在不同元素上的比重变化会引起整体结构的变化从而引起大盘指标波动,而这也是相对值指标波动归因的核心。相对值指标 – 基本公式回到点击率的波动分析,我们将「权重」这个隐藏变量代入,可得:计算可得:A贡献度=-3%,B贡献度=1%,C贡献度=103%。分子部分代表每个元素在波动分析场景下的pvctr前后变化,令:w1代表after的曝光占比,w0代表before的曝光占比,r1代表after的点击率,r0代表before的点击率,分子部分可缩写为:可以看到在这样的表达式下,权重和点击率糅合在了一起,无法区分是权重变化导致的大盘指标异动还是元素点击率本身变化导致了大盘指标异动。为了看清这一点,我们进一步将该式子细分拆解:拆解后的式子可以帮助我们在元素定位的基础上,给出对大盘波动更细致的解读。相对值指标 – 优化公式基础公式虽然已经可以帮我们看清是权重的变化还是点击率本身的变化,但依然存在一个问题:当大盘整体结构没有变化时,也就是每个元素的after曝光占比都等于before曝光占比时,上述式子中的第二项「权重的变化」将只和该元素的before点击率有关,也就是基本公式会放大点击率天然更高的元素的影响。如何避免?令R0代表大盘before的点击率,在「权重的变化」中通过r0-R0的方式使得「权重的变化」更稳定,优化后公式如下:计算可得:A贡献度=42%,B贡献度=-12%,C贡献度=70%。和基础公式下的结果对比,可以看到,两种计算方式下的结果发生了变化:基础公式下:C(103%)>B(1%)>A(-3%)优化公式下:C(70%)>A(42%)>B(-12%)可以看到优化公式对天然点击率更高的元素进行了降权,使得各元素贡献度各均匀。总结相对值指标的元素定位是数据异动归因中比较头疼的问题,本文给出了两种通用的定位方法,基本公式的优点是可以在定位元素的同时拆解清「权重因子」和「指标因子」的影响大小,同时简洁清晰。优化公式的优点是使得「权重因子」的影响更稳定,最终得到的各元素贡献度也更均匀。方法无好坏,可以在实际业务应用中探索最适合的。本文由 @大湾区妙妙蛙 原创发布于人人都是产品经理。未经作者许可,禁止转载题图来自Unsplash,基于CC0协议