数据分析中的统计学
统计学是数据分析必须掌握的基础知识,它是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。统计学用到了大量的数学及其它学科的专业知识,其应用范围几乎覆盖了社会科学和自然科学的各个领域,而在数据量极大的互联网领域也不例外,因此扎实的统计学基础是一个优秀的数据分析师必备的技能。统计学的知识包括了图形信息化、数据的集中趋势、概率计算、排列组合、连续型概率分布、离散型概率分布、假设检验、相关和回归等知识,对于具体的知识点,楼主就不一一介绍了,感兴趣的同学请参考书籍《深入浅出统计学》、《统计学:从数据到结论》,今天的分享主要会选取统计学中几个容易混淆的、比较重要的知识点进行分享。
PS:本部分知识点整理自《深入浅出统计学》以及网友们分享的博客、知乎等,转载的部分已经在原文加引同时在文末的参考链接部分已经标出,欢迎大家参读网友的原作。
01
方差、协方差、R、R2
1.方差、标准差以及标准差系数
(1) 方差:所有样本各自减平均数的差,平方后在累计求和,最后在除以样本个数。
(2) 标准差:所有样本各自减平均数的差,平方后在累计求和,再除以样本个数,最后再开方。
(3) 标准差系数:所有样本各自减平均数的差,平方后在累计求和,再除以样本个数再开方,最后除以样本平均值。
2.协方差
协方差通俗的理解就是两个变量在变化过程中是同向还是反向?同向或反向的程度如何?
你变大,同时我也变大,说明两个变量是同向变化,这时协方差就为正;
你变大,同时我变小,说明两个变量是反向变化的,这时协方差为负
协方差的计算公式:
如果有X,Y两个变量,每个时刻的X与其均值之差’乘以‘Y与其均值之差’得到一个乘积,在对这时刻的乘积求和并求出均值。
3.相关系数R
相关系数分三种,spearman,pearson, kendall
协方差的值会随着变量量纲的变化而变化(covarianceis not scale invariant),所以,这才提出了pearson相关系数的概念:
相关系数(皮尔森相关系数):X,Y的协方差除以X,Y的标准差的乘积。
解释:自变量X和因变量Y的协方差/标准差的乘积。
*协方差:两个变量变化是同方向的还是异方向的。X高Y也高,协方差就是正,相反,则是负。
*为什么要除标准差:标准化。即消除了X和Y自身变化的影响,只讨论两者之间关系。
*因此,相关系数是一种特殊的协方差。
4.决定系数R2
下面来说决定系数,R方一般用在回归模型用于评估预测值和实际值的符合程度,R2的定义如下:
决定系数=回归平方和/总平方和=1-残差平方和/总平方和
02
极限中心定理和大数定理
大数定律讲的是样本均值收敛到总体均值,说白了就是期望。
中心极限定理告诉我们,当样本足够大时,样本均值的分布会慢慢变成正态分布。
中心极限定理收敛至大数定律。
1.中心极限定理
中心极限定理指的是给定一个任意分布的总体。我每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。然后把这 m 组抽样分别求出平均值。这些平均值的分布接近正态分布。
下图形象的说明了中心极限定理
当样本量N逐渐趋于无穷大时,N个抽样样本的均值的频数逐渐趋于正态分布,其对原总体的分布不做任何要求,意味着无论总体是什么分布,其抽样样本的均值的频数的分布都随着抽样数的增多而趋于正态分布,如上图,这个正态分布的u会越来越逼近总体均值,并且其方差满足a^2/n,a为总体的标准差,注意抽样样本要多次抽取,一个容量为N的抽样样本是无法构成分布的。
2、大数定律
大数定律是指在随机试验中,每次出现的结果不同,但是大量重复试验出现的结果的平均值却几乎总是接近于某个确定的值。
ps:
1.总体的分布不要求是正态分布
2.抽取的样本要足够大(>=30)
3、数学理论
数学理论
我们假设有n个独立随机变量,令他们的和为:
那么大数定律(以一般的大数定律为例),它的公式为:
而中心极限定理的公式为:
注意:上面两个公式,一个是值为0,一直均值为0的正太分布;而左边极为相似!
4、区别
(1)随机变量的分布
大数定律:揭示了大量随机变量的平均结果,但没有涉及到随机变量的分布的问题。
中心极限定理:说明的是在一定条件下,大量独立随机变量的平均数是以正态分布为极限的。
(2)研究的内容不同
大数定律研究的是在什么条件下,这组数据依概率收敛于他们的均值。
中心极限定理研究的是在什么条件下,这些样本依分布收敛于正态分布。(卯诗松的概率论与数理统计上说)
(3)描述的问题不同
大数定律描述的是频率稳定性,就是我们所说的频率稳定在具体的一个数值,即为概率;
中心极限定理描述的是分布稳定性,指的是频率有很多,但是服从正态分布,XY轴中Y最高的那个正态分布数值即为概率。
(4)举个例子
大数定理是说样本足够大时,会接近期望,在样本无穷大时平均值是期望(一个值)。
中心极限定理说的是样本距离期望的涨跌偏差分布。(出现一种分布规律)
举个简单的例子,一滴水从高空落下,经过一个随机分布的风向后,落在地上。
大数定理指出,无论风向分布规律是什么,所有的点距离垂直落下的点的距离应该等于一个值,这个值就是期望。
中心极限定理指出,无论风向分布规律是什么,每个样本距离期望的位置的距离分布是符合正态分布的。
03
条件概率与贝叶斯公式
1.概率:度量某事发生几率的数量指标。
进一步理解:概率只是对事件发生可能性的一种表达,概率并非担保。
2.事件:有概率可言的一个结果或一件事。
计算公式:
,其中S称为概率空间,或样本空间。
3.概率的直观表现形式:
维恩图
概率树
4.对立事件: “A不发生”事件可以用A'表示。A'被称为A的对立事件。A'包含事件A所不包含的任何事件。P(A')=1-P(A)
5.互斥事件:事件A与事件B不同时发生。
6.相交事件:事件A与事件B会同时发生。
7.独立事件: 几个事件互相不影响。P(A|B)=P(A). 如果两个事件相互独立,则 P(A∩B)= P(A|B)P(B)=P(A)P(B)
8.穷举事件:表示两个事件的并为全集。
划重点
9.条件概率:P(A|B)=P(A∩B)/P(B)
10.全概率公式:根据条件概率计算一个特定事件的全概率。P(B)=P(A∩B)+P(A'∩B)=P(A)* P(B|A)+P(A')* P(B|A')
11.贝叶斯定理:提供了一种计算逆条件概率的方法,再无法预知每种概率的情况下,非常有用。
贝叶斯定理:已知P(A),P(B|A),P(B|A');求P(A|B).
P(A|B) = P(A∩B) / P(B) = P(A)*P(B|A) / P(A)* P(B|A)+P(A')* P(B|A')
公式:P(A∪B)=P(A)+P(B)-P(A∩B)
12.相关事件:如果 P(A|B)不等于P(A),就说事件A与事件B的概率相互影响。
【贝叶斯定理例题解析—2020 Pdd学霸批笔试题】
设工厂A和工厂B的产品的次品率分别为1%和2%,现从由A和B的产品分别占60%和40%的一批产品中随机抽取一件,发现是次品,则该次品属A生产的概率是______.
【解析】
设事件:A={抽取的产品为A工厂生产的};事件:B={抽取的产品是B工厂生产的};事件:C={抽取的是次品};显然有:P(A)=0.6;P(B)=0.4P(C|A)=0.01;P(C|B)=0.02;根据全概率公式有:P(C)=P(A)P(C|A)+P(B)P(C|B)=0.6×0.01+0.4×0.02=0.014.P(AC)=P(A)P(C|A)=0.6×0.01=0.006根据条件概率公式有:P(A|C)=P(AC)/P(C)
=0.006÷0.014=3/7
答案为:3/7
04
正态分布与偏态分布
1.正态分布与偏态分布的概念
正态分布(normal distribution)
偏态分布(skewed distribution)
左偏态:left skewed distribution,负偏态(negatively skewed distribution),以尾部命名,左偏态或者叫负偏态的尾部,主要在左侧;
右偏态:right skewed distribution,正偏态(positively skewed distribution),同样地,右偏态或者叫正偏态的尾部,则集中在右侧;
2.众数、中位数以及均值的关系
正态分布还是偏态分布(左偏态/右偏态)在函数图像上容易分辨,在统计数据上,也很容易分别,比如正偏态分布(右偏),mean > median>mode,对于负偏态(左偏),mean< median<mode。
3.正态分布的数字特征
4.偏态分布的偏态和峰度
(1)偏态与峰度分布的形状
(2)偏度系数(Skewness)
偏度系数(Skewness)用来度量分布是否对称。正态分布左右是对称的,偏度系数为0。较大的正值表明该分布具有右侧较长尾部。较大的负值表明有左侧较长尾部。偏度系数与其标准误的比值同样可以用来检验正态性。
偏态系数的计算公式如下:
划重点
1)偏态系数=0为对称分布
2)偏态系数>0为右偏分布
3)偏态系数<0为左偏分布
(3)峰度系数(Kurtosis)
峰度系数的概念:峰度系数是用来反映频数分布曲线顶端尖峭或扁平程度的指标。有时两组数据的算术平均数、标准差和偏态系数都相同,但他们分布曲线顶端的高耸程度却不同。
峰度系数(Kurtosis)用来度量数据在中心聚集程度。
峰度系数的计算公式:
划重点
1)峰度系数=3,扁平程度适中
2)偏态系数<3,扁平分布
3)偏态系数>3, 峰锋分布
在正态分布情况下,峰度系数值是3(但是SPSS等软件中将正态分布峰度值定为0,是因为已经减去3,这样比较起来方便)。
>3的峰度系数说明观察量更集中,有比正态分布更短的尾部;<3的峰度系数说明观测量不那么集中,有比正态分布更长的尾部,类似于矩形的均匀分布。
峰度系数的标准误用来判断分布的正态性。峰度系数与其标准误的比值用来检验正态性。如果该比值绝对值大于2,将拒绝正态性。
05
3δ原则
3δ原则简介
先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除就得出3δ。
在正态分布中δ代表标准差,μ代表均值。x=μ即为图像的对称轴。
3δ:数值分布在(μ-δ,μ+δ)中的概率为0.6826;
数值分布在(μ-2δ,μ+2δ)中的概率为0.9544;
数值分布在(μ-3δ,μ+3δ)中的概率为0.9974;
可以认为,Y 的取值几乎全部集中在(μ-3δ,μ+3δ)]区间内,超出这个范围的可能性仅占不到0.3%。
3δ准建立在正态分布的等精度重复测量基础上,造成奇异数据的干扰或噪声难以满足正态分布。如果一组测量数据中某个测量值的残余误差的绝对值 νi>3δ,则该测量值为坏值,应剔除。
通常把等于 ±3δ的误差作为极限误差,对于正态分布的随机误差,落在 ±3δ以外的概率只有 0.27%,它在测量中发生的可能性很小,故存在3δ准则。
3δ准则是最常用也是最简单的粗大误差判别准则,它一般应用于测量次数充分多( n ≥30)或当 n>10做判别时的情况。
参考链接
https://www.zhihu.com/question/20852004
https://blog.csdn.net/theonegis/article/details/85991138#_5
https://www.jianshu.com/p/8aefd78be186
https://zhuanlan.zhihu.com/p/32335608
https://blog.csdn.net/u014755493/article/details/72118559
https://zhuanlan.zhihu.com/p/36259056
https://moluchase.github.io/2018/08/29/ml07/
https://www.cnblogs.com/sherial/archive/2018/03/07/8522405.html
点击关注