UNNCer专属丨统计学习笔记:前8讲核心逻辑梳理
救命!这学期学了啥?统计学前8讲,我帮你盘清楚了
没有期中考试,但我不想你全忘光
---
别慌!
这篇文章就是帮你把前8讲的核心逻辑,用最轻松的方式盘一遍。
不制造焦虑,不堆公式,只说人话
前8讲到底在讲啥?
一句话讲完:
从数据出发,最后学会用样本猜总体。
具体拆开是五步:
数据 → 描述它 → 理解随机性 → 抽样 → 推断
下面我们一层一层来。
每一行是一个元素,比如你、我、某家公司。每一列是一个变量,比如工资、城市、满意度。
变量分两种。一种是分类变量,贴标签用的,比如性别、是否会员。另一种是数值变量,能算数的,比如年龄、销售额。
数据按时间也分两类。横截面数据是在同一时间点拍一张照。时间序列数据是像追剧一样跟着时间看变化。
记住一句话。总体是全部,样本是一部分。统计学就是用样本猜总体。
先说中心在哪里。均值是把所有数加起来平均,但容易被极端值带跑。中位数是排队站在中间的那个人,更稳。众数是出现最多次的那个值。
再说数据有多散。极差是最大值减最小值,有点太粗暴了。四分位距是第75%的位置减去第25%的位置,只看中间一半,更靠谱。方差是把每个数离均值的距离平方后再平均。标准差是方差的平方根,单位回到原始数据,用起来很方便。变异系数是标准差除以均值,可以用来比较不同东西谁更飘。
接着说某个值离不离谱。z分数等于你的值减去均值,再除以标准差。如果z等于2,意思就是比平均高出两个标准差。
最后说两个变量有没有关系。协方差如果是正数,说明它们同向变化;如果是负数,说明反向变化;接近零说明没有线性关系。相关系数被压缩在负一到正一之间,绝对值越接近一,关系越铁。这个数真的很好用。
随机实验就是结果不确定但所有可能结果我们都知道的事,比如扔硬币。样本空间是所有可能结果的集合。
A或B发生的概率等于A的概率加上B的概率,再减去A和B同时发生的概率。
如果A和B不能同时发生,那么它俩同时发生的概率就是零,A或B的概率就直接相加。
条件概率是说,已知B发生了,A发生的概率等于A和B同时发生的概率除以B的概率。
如果B发生不影响A,那A和B就是独立的,这时候A给定B的概率就等于A本身的概率。
贝叶斯定理的逻辑特别实用。先有一个先验判断,然后收到新信息,最后更新成后验判断。举个例子,你觉得某产品是坏的概率只有百分之一,结果检测出来是坏的,用贝叶斯重新算一下,真实概率可能高很多。是不是很有意思?
二项分布是我们最常用的离散分布之一。它适用的场景是做n次独立试验,每次只有成功或失败两种结果,而且每次成功的概率p是固定的。它的期望是n乘以p,方差是n乘以p再乘以一减p。
泊松分布也很常见。它适用的场景是在单位时间或单位空间内,随机事件发生几次,比如一小时内平均来两个顾客。泊松分布的期望等于λ,方差也等于λ。这个性质很特别。
一个直观的区别是,二项分布问的是固定次数里成功几次,而泊松分布问的是固定时间或空间里发生几次。理解了这一点,你就知道什么时候用哪个了。
正态分布是一条钟形曲线,由均值μ和标准差σ决定。标准正态分布是它的特例,均值是零,标准差是一,通常用字母z表示。
计算正态概率的步骤很简单。第一步,把一般的x转换成z,z等于x减μ除以σ。第二步,查表或者记住三个常用区间。大约68%的数据落在μ加减一个σ以内。大约95%的数据落在μ加减两个σ以内。大约99.7%的数据落在μ加减三个σ以内。这三个数很有用,以后看到正态分布,心里就有底了。
我们还可以用正态分布去近似二项分布。条件是n乘以p和n乘以一减p都大于等于五。注意要用连续性校正,比如把P(X等于12)近似成P(11.5小于X小于12.5)。这个小技巧很贴心。
抽样分布,就是把所有可能的样本统计量画出来形成的分布,比如所有可能样本的均值。这个概念第一次听可能有点绕,但一旦想通,就会觉得它很漂亮。
样本均值的抽样分布尤其重要。它的期望等于总体均值μ。它的标准误等于总体标准差除以根号n。中心极限定理告诉我们,只要样本量n大于等于三十,样本均值的分布就近似正态,不管你原来的总体长什么样。这个定理真的太强大了。
样本比例的抽样分布同样重要。它的期望等于总体比例p。它的标准误等于根号下p乘以一减p除以n。
现在你知道为什么样本量要够大这句话这么常被提到了吧?因为它让我们可以放心地使用正态分布。
当我们已知总体的标准差σ时,均值的置信区间可以写成样本均值加减z值乘以标准误。很工整。
当总体的标准差σ未知,只能用样本标准差s来代替时,就改用t分布。这时候的区间会略宽一些,因为多了一层不确定性。自由度等于n减一。这个t分布也很友善,查表就能用。
对于大样本情况下的比例,置信区间公式是样本比例加减z值乘以根号下样本比例乘以一减样本比例除以n。看起来有点复杂,但拆开看就很清楚。
如果需要确定要抽多少人,先设定一个允许的边际误差,记作ME。对于均值,样本量n等于z的平方乘以σ的平方,再除以ME的平方。对于比例,样本量n等于z的平方乘以p乘以一减p,再除以ME的平方。计算结果如果有小数,向上取整。这个公式在调研设计中特别实用。
数据,然后描述统计,包括均值、方差、图表。然后概率与随机变量,包括二项分布、泊松分布、正态分布。然后抽样分布与中心极限定理。最后置信区间,也就是用样本估计总体。
这五个环节,就是前八讲的主干。理清楚这条线,以后再遇到统计相关的内容,你就知道自己站在哪一环了。
收藏起来,或者转发给那个说“我好像全忘了”的同学。
等到真正需要用的时候,你会感谢现在花十分钟读完的自己。