如何在七周内成为数据分析师16-数据分析必须了解的假设检验

2020年10月17日04:26:40 发表评论 3 次浏览

如何在七周内成为数据分析师16:数据分析必须了解的假设检验

假设检验在一篇文章中完成概率分布之后,我们再接再厉,争取通过假设检验,也就是所谓的AB检验。俗话说,再好的品经理也跑不了半个AB测试。

抽样

在数据分析中,虽然数据多越好,但受各种因的限,我们无法得到所有的数据。比如excel的性能有限,比如数据库不支持导出大文件,或者无法进行全面的用户调研。

抽样是一种应对方法,通过样本推断人群。抽样结果只提供了相应人群特征的估计,而“估计”是非重要的。

采样的方式有很多种,样本首先要满足随机性。比如社交面试,不能只选择商场里的人群,因为面试的人明显是一类人,但是郊区和城的人,宅男和人就省略了。

抽样在互联品中也是无处不在的。众所周知的AB测试是一种抽样,选择一部分人来验证运营策略或产品改进。通对用户ID末尾的数字进行筛选,比如末尾选择0 ~ 4,这样就采样了50%的用户,既能保证随机性,又能保证可控性。

毕竟抽样的目的是验证和检验,始终要保证用户群体的完全隔离。用户看不到旧界面和改进的新界面。以上也适用于推荐算法、用户分组等冠军挑战赛。

至于反向抽样和分层抽样,在网上的数据分析中很少用到,这里省略。

点估计

既然我们知道如何选择样本,我们就需要样本中推断出种群。

列举一个场景。产品和运营人员每周进行一次用户调查,从调查中随机抽取30名用户对产品进行评分,评分范围为0-10分。根据历史数据,平均分7.5,标准差1。

现在的问题是,用户研究能不能反映一些产品的状态?比如发布新版本或者做营销活后,如何判断是正面还是负面?假设产品经理本月发布了新版本。本次调查选择的30位用户平均得分为7.3分。是正常波动还是不好波动?

在统计学中,总体的平均标准差称为总体参数,样本的各种指标称为点估计量。s是样本的标准差,σ是总体标准差。n是样本,n是总体。

点估计是通过在原始符号上加一条水平线来表示的。例如,样本平均值x是样本平均值。现实中无法保证每次调查的数据一致。假设一次又一次的进行抽样过程,调查得到的平均分数也是波动的。此时样本均值x为随机变量,其概率分布称为x的抽样分布。

每次采样得到的不平均值必然有一个期望值,E(x-pull) = u,E(x-pull)是大量样本所有可能值的平均值。对于简随机抽样,我们可以认为其数学期望等于u总体均值。当点估计量的期望值等于总体参数时,称为无偏估计。

当样本量占总数的5%以上时,计算样本标准差的式如下:

当样本量小于总数的5%时,公式可简化为:

研究用户数必须小于总数的5%,所以样本的标准差可以计算为0.18。

以上数学期望和标准差的计算适用于所有人群,但如果想知道具体概率?比如分数小于等于7.3的概率?如果是10%,说明这是很少见的情况,产品改版不一定满意。如果是90%,说明这是数据的正常波动。

x不是正态分布,也不是作为概率分布的非正态分布。根据统计学中的中心极限定理,当样本数足够大(n > 30)时,x-plot的抽样分布可以近似为正态分布。

只要是正态分布,转化成标准正态分布就很容易解决问题。调查样本得分为x=7.3,标准差σ为0.18。总体均值u为7.5分。

z = (7.3-7.5)/0.18 = -1.11 .然后p (x

通过抽样来估计总体,其概率计算是基于样本的标准差,换话说,如果样本的标准差发生变化,概率也会发生变化。样本标准差与样本量n密切相关,如果调查用户数为100,那么即使其他数不变,最终概率也会变成2.2%。这是因为样本量加了,均值的标准差减小了误差。

区间概算

点估计是估计总体参数的样本统计量。我们不可能通过点估计给出人口参数的准确值。一种更全的方法是加减一个边际误差,并用一个区间值来估计它。

上面的用户调查案例已经知道了总体均值和标准差。但其总体均值只是通过期调研做出的假设,并不能反映产品所有用户的评价。一个比较实际的应用是如何通过一个调查来计算用户的整体评价。这是相反的。

通过调查的历史数据可知,用户评分的标准差为1。近,产品人员进行了大规模调查,采访了200名用户,样本平均得分为7.5分。现在我们需要计算人口平均数的区间。

如何在七周内成为数据分析师16-数据分析必须了解的假设检验

  通过点估计公式,可以得出样本的标准差为0.07。在正态分布的经验公式中,已知95%的任意正态分布的随机变量都落在平均值附近的1.96标准差以内。因此,x得出的值的95%必须落在平均值u的1.96标准差内。

此时1.96标准差等于1.96*0.07 = 0.13。使用总体均值的区间估计公式;

将数据替换为:

这里增加了一个新的符号Zσ/2,叫做置信度。除以2的原因是正态分布是对称的。代表“95%的随机变量落在均值附近的1.96标准差内”,即均值有95%的概率落在这个区间内,也叫95%置信水平。推广了一下,也有90%置信水平,99%置信水平等等。

1.96是95%置信水平的Zσ/2值。我已经把边际误差计算为0.13以上,最后加上平均值得到7.36~7.64的答案。所以可以说,通过对调查样本平均值的估计,总体用户有95%的概率得分在7.36 ~ 7.64之间。这么说吧,那么它的置信度一定是无限接近100,因为它涵盖了几乎所有的可能性。如何选择置信水平和区间是数据分析的重点之一。

区间估计还有一个常见的情况,就是σ未知。在上面的情况下,我们知道了整个人口的标准差。标准差未知怎么办?毕竟案例只是基于历史调查数据假设标准差,不一定能反映用户的真实情况。然后,给出了一个新问题。采访了200个用户,样本均值为7.5分,标准差为2。总体平均多少?

总体标准差由样本的标准差来估计,总体均值基于T分布的概率分布(以上称为Z分布)。T分布假设抽样总体满足正态分布,但在非正态分布中,也可以使用T,效果较好。

t分布取决于一个叫做由度df的参数。与标准正态分布曲线相比,df越小,t分布曲线越平坦。df越大,T分布曲线越接近正态分布曲线。当df=∞时,T分布曲线为标准正态分布曲线。区间估计公式如下:

公式没有大的变化,总体标准差σ变为样本的标准差s,置信水平由t概率表计算。t概率的区间分布需要两个参数:由度和置信度。自由度=样本量-1,案例中的自由度为199。然后,当置信度Excel为95%时,TINV (0.05,199) = 1.97。替代公式:

得到区间[7.22,7.77]。当总体标准差未知时,从样本均值7.5和标准差2可以计算出总均值95%的概率落在7.22和7.77之间。

假设检验

在熟悉了点估计和区间估计之后,学习假设检验。

什么是假设检验?假设检验是对总体参数做一个试探性的假设,称为原假设,然后定义一个与原假设完全相反的假设,称为替代假设。假设检验是通过样本数据检验两个相反的假设。

假设检验有成熟的方法论。从参数的角度来看,可以计算平均值或比率。从样本来看,可以分为样本和双样本。单个样本是样本均值和总体均值之间的比较。用户调查是典型的单样本。从假设条件来看,有单侧检验(只有大于或小于的可能性)和双侧检验(只有不可能,包括大于和小于两种情况)。

在数据分析上,更多的案例是两组样本的对比,比如男女用户的差异,用户群体的差异,产品AB测试的好坏。由于篇幅原因,案例侧重于双样本检验,单样本检验熟悉点估计和区间估计并不困难。

回到最初的案例,当通过调查发现用户对产品的评分下降时,我们再来讨论怎么做。产品经理说:用户很笨,不能对产品改版做出有效的判断,评分不算,要用更好的判断方法。

此时以产品改版后活跃的相关指标为标准,半数用户不变,但仍有原有功能,成为对照组。另一半用户体验新功能,然后根据一段时间后的表现来判断改版的好坏。

如何设置主动指标对如何使用假设检验影响很大。可以用均值法,即用户的平均使用时间或一个时间窗内活跃用户的平均数量来衡量,也可以用比例法,即一时间内的活跃率来衡量。它们对应不同的公式。这里以平均活跃用户数为例。

假设检验需要先立原始假设和替代假设,容易出错。在很多假设检验中,替代假设是出现点,是我们希望得到支持的结论。因为之前的用户调查分数都在下降,所以测试希望“拒绝”会主动上升或者保持不变,从而得出下降的结论。

原假设H0:主动晋升或不变;另类假设:主动衰落。如果样本结果得出被拒绝的结论,那么可以推断是真的。

不同的样本量和总体方差使用不同的检验方法。下显示了不同情况下使用的检查方法。样本是大于还是小于30是由于中心极限定理。当样本量较大,总体方差未知时,可以采用T检验,也可以采用Z检验,因为T分布与Z分布相似。我们用Z检验作为两个样本的平均值。

将用户分为两组体验产品功能,原控组和改进组各5用户。对照组7平均活动数为u1=8500,标准差为s1=1250。改良组7平均活动数为u2=8300,标准差为s2=1240。当总体标准差未知时,有一个公式:

计算出z=25.399,远大于1.96,p值无限接近0,几乎不可能发生,也就是说改进组的主动上升等于一个很小的概率事件。我们拒绝原始假设,接受替代假设。如果您想知道活动深度下降了多少,使用两个样本的平均值来计算置信区间:

两个样本平均值之差的95%置信区间为[183.566,215.433]。也就是说,七天平均活动次数有95%的可能下降到183-215次之间。

假设检验的难点在于很多知识点和业务的结。由于文章篇幅所限,我省略了很多概念性的观点。这一块需要更多的实践,比如用之前文章的实践数据来计算上海杭州的数据分析师的平均工资是否相等,财务工资是否高于电商。实际分析不会有那么复杂的计算。我知道大家对公式都很迷茫。Excel,R或者Python都有简单的函数可以用,只要知道结果的符号意义就行。

统计的内容已经告一段落。这些都是基础知识点,不算复杂。第一,我不擅统计学(学习的时候没好好学习)。第二,我不追求我的申背后的数学原理。这大概是我写过的最难的系列了。虽然有时间序列,方差分析之类的,还是留待以后再说吧。

下一篇是关于商业的,因为涉及了很多历史文章,重复也没有意义,所以一篇就够了,数据中涉及的各种商业指标和知识点都可以搞清楚。然后就是Python。嗯,基础数据分析的内容已经算下来了。

相关阅读

互联网数据分析能力的培养需要一个七周的大纲

如何在七周内成为一名数据分析师01:这里涵盖了所有常见的Excel函数

如何在七周内成为一名数据分析师02: Excel小技巧

如何在七周内成为数据分析师03:你实战Excel

如何在七周内成为一名数据分析师:用Excel技巧绘制(项目管理)

如何在七周内成为一名数据分析师:创多级菜单的Excel技巧

如何在七周内成为一名数据分析师04:数据可化经典图表

如何在七周内成为数据分析师05:数据可化创建升职加薪报告

如何在七周内成为数据分析师06:用数据可视化之打造BI

如何在七周内成为一名数据分析师07:快掌握麦肯锡的分析思维

七周如何成为数据分析师08:如何构建数据分析的思维框架?

如何在七周内成为一名数据分析师09:新人数据库指

如何在七周内成为一名数据分析师10: SQL,从入到熟练

如何在七周内成为一名数据分析师11: SQL,从熟练到

如何在七周内成为一名数据分析师12:解锁数据分析的正确姿势(一)

如何在七周内成为一名数据分析师13:解锁数据分析的正确姿势(下)

如何在七周内成为一名数据分析师14:概率论入

如何在七周内成为一名数据分析师15:看完这篇文章,你就会明概率分布

相关阅读数据库中常见面试问题的完整收集

点击上面的“程序”

四个层次的业务数据分析(5)示例

通过四篇文章详细介绍了业务数据分析的四个层次,本文将通过一个例子将这四个层次串联起来。后台PAS是一款销售企业管理软件

如果不是专业的数据分析师,应该如何科学的对待大数据?

当人们不知道某件事时,很容易将其化或妖魔化。好很多创业者都喜欢讲一些概念性的西。比如说前两年的互联网+,

关于数据库索的一两件事(3)——索引的底层结构

根据前两篇文章的铺垫,今天可以具体看一下标引的知识。索引的知识是基于mysql的,尽管我的项目使用的是PGSql....B,B+,b+树性能考虑:I

数据文章

如何成为运营大牛(1):运营中的数据

数据操作是目前非常热门的话题。大数据的价值在于使用数据来推动决策,避一些主观、本能或认知偏见

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: