揭秘A/B测试:如何用Z统计量和t统计量揭示成功背后的统计学奥秘
来源:Gumm, B. (2012). Metrics and statistics behind A/B testing. In D. Siroker, P. Koomen & C. Harshman (Eds.), A/B testing (pp. 180-193). John Wiley & Sons, Inc. https://go.exlibris.link/GCpjV5sN
A/B测试和统计学基础
A/B测试是一种在线实验,用来比较两个版本的网站或应用(比如,A版和B版),看看哪个表现更好。这通常用于优化用户体验或提高转化率。
1. 置信区间(Confidence Intervals)
置信区间是一种统计工具,用来估计一个总体参数(比如,拥有学士学位的旧金山居民的比例)的可能范围。这个范围基于样本数据计算得出,并且我们有一定的信心认为真实的总体参数就在这个区间内。
-
点估计(Point Estimate):一个单一的数值,用来估计总体参数。比如,如果你随机调查了1000个旧金山居民,发现509个人有学士学位,那么点估计就是50.9%。
-
区间估计(Interval Estimate):不是一个单一的数,而是一个数值范围。这个范围告诉我们,我们有多大的信心认为真实的总体参数在这个区间内。比如,95%的置信区间意味着如果我们重复实验很多次,95%的情况下计算出的区间会包含真实的总体参数。
2. 置信水平(Confidence Levels)
置信水平(比如,95%)告诉我们置信区间包含真实总体参数的概率。这并不是说有95%的概率总体参数就在这次实验计算出的区间内,而是如果我们做很多这样的实验,95%的置信区间会包含真实的总体参数。
A/B测试中的统计测试
在A/B测试中,我们通常比较两个版本的性能,比如两个网页的转化率。
Z统计量和t统计量,这两种统计量在A/B测试中常用来确定结果是否具有统计显著性。
概念
Z统计量(Z Statistic)用于比较比例
-
比例或百分比的测试统计量:如果你的指标是一个比例(比如,转化率),你会使用Z统计量来比较两个比例之间的差异是否显著。这个统计量考虑了样本的比例和样本大小。
t统计量(t Statistic)用于比较平均值
-
平均值的测试统计量:如果你的指标是一个平均值(比如,用户在网站上停留的平均时间),你会使用t统计量来比较两个平均值之间的差异是否显著。这个统计量考虑了样本的平均值、样本的方差和样本大小。
如何计算
1) Z统计量(Z Statistic)
Z统计量主要用于比较两个比例(比如,转化率、点击率)是否有显著差异。它假设样本量足够大,且数据呈正态分布。
Z统计量的计算公式:
其中:
-
(
) 和 (
) 分别是两个版本(比如,A版和B版)的样本比例。
-
(
) 和 (
) 是两个版本的样本大小。
-
(
) 是合并后的比例,计算公式为
,其中 (
) 和 (
) 分别是两个版本中的成功次数(比如,转化次数)。
如何解读Z统计量:
-
Z统计量的值告诉我们两个比例之间的差异有多大。
-
通常,如果Z统计量的绝对值大于1.96(对应95%置信水平),我们认为两个比例之间存在显著差异。
Z统计量的例子
假设你是一个网站设计师,想要通过改变网站的注册按钮颜色来增加用户注册的数量。你进行了一个A/B测试:
-
A版本(原注册按钮):1000个用户中有100个注册了,转化率是10%。
-
B版本(新注册按钮):1000个用户中有120个注册了,转化率是12%。
你想知道这个变化是否真的有效,还是仅仅因为偶然。
计算Z统计量:
-
合并比例 ( p ):
-
Z统计量:
如果Z统计量的绝对值大于1.96(对应95%置信水平),我们可以认为两个版本的转化率存在显著差异。在这个例子中,Z统计量是2.02,所以我们可以说新注册按钮的转化率显著高于原注册按钮。
2) t统计量(t Statistic)
t统计量主要用于比较两个平均值(比如,平均销售额、平均停留时间)是否有显著差异。与Z统计量不同,t统计量适用于样本量较小(通常小于30)或总体标准差未知的情况。
t统计量的计算公式:
其中:
-
(
) 和 (
) 分别是两个版本的样本平均值。
-
(
) 和 (
) 是两个版本的样本大小。
-
(
) 是合并后的样本标准差,计算公式为:
-
(
) 和 (
) 分别是两个版本的样本方差。
如何解读t统计量:
-
t统计量的值告诉我们两个平均值之间的差异有多大。
-
通常,我们需要查看t分布表或使用统计软件来确定t统计量的临界值,以判断差异是否显著。这取决于所需的置信水平和自由度(
)。
t统计量的例子
假设你是一个在线课程的提供商,你想要通过改变课程介绍视频的长度来增加用户的购买意愿。你进行了一个A/B测试:
-
A版本(原视频长度):50个用户的平均观看时间是5分钟。
-
B版本(新视频长度):50个用户的平均观看时间是7分钟。
你想知道这个变化是否真的有效。
计算t统计量:
-
首先计算两个版本的方差和标准差(这里假设方差分别是 (
) 和 (
),标准差分别是 (
) 和 (
))。
-
合并标准差 (
):
-
t统计量:
假设 ( ) 计算出来是2分钟,那么:
如果t统计量的绝对值大于t分布表中的临界值(取决于所需的置信水平和自由度),我们可以认为两个版本的平均观看时间存在显著差异。在这个例子中,t统计量远大于2(常见的临界值),所以我们可以说新视频长度的平均观看时间显著高于原视频长度。
3) 小结
在A/B测试中,我们通常根据Z统计量或t统计量的值来计算p值。p值是一个概率值,表示观察到的差异完全由随机因素引起的概率。如果p值小于0.05(或其他预设的显著性水平),我们就认为结果具有统计显著性,即差异不太可能由随机因素引起。
4) 生活中的例子
想象一下,你是一个餐厅老板,想要测试两种不同的菜单设计(A和B)来提高顾客的消费额。你随机给一半的顾客A菜单,另一半B菜单。几周后,你发现用B菜单的顾客平均消费比用A菜单的顾客高5美元。
现在,你想知道这个5美元的差异是真的因为菜单B设计得更好,还是仅仅因为偶然的巧合,比如某天顾客特别多或者某天的菜品特别受欢迎。
这时候,Z统计量和t统计量就派上用场了,它们就像是一个“探测器”,用来帮助你判断这个差异是真实的还是偶然的。
-
观察差异:你观察到的5美元就是A菜单和B菜单之间的差异。
-
标准误差:这就像是一个“误差范围”,它告诉你因为偶然因素,两个菜单的平均消费额可能会有多大的波动。如果波动很小,那么你更有信心说两个菜单的平均消费额是不同的。
-
Z统计量或t统计量:这就像是一个“放大镜”,它把你观察到的5美元差异放大,然后除以“误差范围”,这样你就能看到这个差异在统计上有多大。如果这个统计量很大,那就意味着这个差异不太可能是偶然发生的。
-
p值:这就像是一个“概率尺”,它告诉你如果两个菜单实际上没有任何区别(即,差异完全是偶然的),那么你观察到的这个5美元差异(或更大的差异)发生的概率是多少。如果这个概率很小(比如小于5%),那就意味着偶然发生这种情况的可能性很小,所以你可以说这个差异是统计显著的,很可能是真的。
所以,使用Z统计量或t统计量来计算p值的逻辑就是:通过一个统计上的“探测器”和“放大镜”来确定你观察到的差异是真的还是假的,然后使用“概率尺”来量化这个判断的可信度。如果p值很小,那你就可以有信心地说,你的新菜单B确实帮助顾客花得更多,这不太可能仅仅是偶然的巧合。