当前位置：首页>学习笔记>UNNCer专属丨统计学习笔记:前8讲核心逻辑梳理

UNNCer专属丨统计学习笔记:前8讲核心逻辑梳理

2026-04-28 20:37:09

救命！这学期学了啥？统计学前8讲，我帮你盘清楚了

没有期中考试，但我不想你全忘光

---

别慌！

这篇文章就是帮你把前8讲的核心逻辑，用最轻松的方式盘一遍。

不制造焦虑，不堆公式，只说人话

前8讲到底在讲啥？

一句话讲完：

从数据出发，最后学会用样本猜总体。

具体拆开是五步：

数据 → 描述它 → 理解随机性 → 抽样 → 推断

下面我们一层一层来。

第一层数据是什么？

数据就是事实加数字。

每一行是一个元素，比如你、我、某家公司。每一列是一个变量，比如工资、城市、满意度。

变量分两种。一种是分类变量，贴标签用的，比如性别、是否会员。另一种是数值变量，能算数的，比如年龄、销售额。

数据按时间也分两类。横截面数据是在同一时间点拍一张照。时间序列数据是像追剧一样跟着时间看变化。

记住一句话。总体是全部，样本是一部分。统计学就是用样本猜总体。

第二层怎么用数字描述数据？

先说中心在哪里。均值是把所有数加起来平均，但容易被极端值带跑。中位数是排队站在中间的那个人，更稳。众数是出现最多次的那个值。

再说数据有多散。极差是最大值减最小值，有点太粗暴了。四分位距是第75%的位置减去第25%的位置，只看中间一半，更靠谱。方差是把每个数离均值的距离平方后再平均。标准差是方差的平方根，单位回到原始数据，用起来很方便。变异系数是标准差除以均值，可以用来比较不同东西谁更飘。

接着说某个值离不离谱。z分数等于你的值减去均值，再除以标准差。如果z等于2，意思就是比平均高出两个标准差。

最后说两个变量有没有关系。协方差如果是正数，说明它们同向变化；如果是负数，说明反向变化；接近零说明没有线性关系。相关系数被压缩在负一到正一之间，绝对值越接近一，关系越铁。这个数真的很好用。

第三层概率给不确定性打分

随机实验就是结果不确定但所有可能结果我们都知道的事，比如扔硬币。样本空间是所有可能结果的集合。

几个常用规则，我们用大白话写出来。

事件A不发生的概率等于一减去A发生的概率。

A或B发生的概率等于A的概率加上B的概率，再减去A和B同时发生的概率。

如果A和B不能同时发生，那么它俩同时发生的概率就是零，A或B的概率就直接相加。

条件概率是说，已知B发生了，A发生的概率等于A和B同时发生的概率除以B的概率。

如果B发生不影响A，那A和B就是独立的，这时候A给定B的概率就等于A本身的概率。

贝叶斯定理的逻辑特别实用。先有一个先验判断，然后收到新信息，最后更新成后验判断。举个例子，你觉得某产品是坏的概率只有百分之一，结果检测出来是坏的，用贝叶斯重新算一下，真实概率可能高很多。是不是很有意思？

第四层离散概率分布

二项分布是我们最常用的离散分布之一。它适用的场景是做n次独立试验，每次只有成功或失败两种结果，而且每次成功的概率p是固定的。它的期望是n乘以p，方差是n乘以p再乘以一减p。

泊松分布也很常见。它适用的场景是在单位时间或单位空间内，随机事件发生几次，比如一小时内平均来两个顾客。泊松分布的期望等于λ，方差也等于λ。这个性质很特别。

一个直观的区别是，二项分布问的是固定次数里成功几次，而泊松分布问的是固定时间或空间里发生几次。理解了这一点，你就知道什么时候用哪个了。

第五层正态分布统计学的明星

正态分布是一条钟形曲线，由均值μ和标准差σ决定。标准正态分布是它的特例，均值是零，标准差是一，通常用字母z表示。

计算正态概率的步骤很简单。第一步，把一般的x转换成z，z等于x减μ除以σ。第二步，查表或者记住三个常用区间。大约68%的数据落在μ加减一个σ以内。大约95%的数据落在μ加减两个σ以内。大约99.7%的数据落在μ加减三个σ以内。这三个数很有用，以后看到正态分布，心里就有底了。

我们还可以用正态分布去近似二项分布。条件是n乘以p和n乘以一减p都大于等于五。注意要用连续性校正，比如把P(X等于12)近似成P(11.5小于X小于12.5)。这个小技巧很贴心。

第六层抽样分布样本均值的规律

抽样分布，就是把所有可能的样本统计量画出来形成的分布，比如所有可能样本的均值。这个概念第一次听可能有点绕，但一旦想通，就会觉得它很漂亮。

样本均值的抽样分布尤其重要。它的期望等于总体均值μ。它的标准误等于总体标准差除以根号n。中心极限定理告诉我们，只要样本量n大于等于三十，样本均值的分布就近似正态，不管你原来的总体长什么样。这个定理真的太强大了。

样本比例的抽样分布同样重要。它的期望等于总体比例p。它的标准误等于根号下p乘以一减p除以n。

现在你知道为什么样本量要够大这句话这么常被提到了吧？因为它让我们可以放心地使用正态分布。

第七层置信区间用样本估计总体

当我们已知总体的标准差σ时，均值的置信区间可以写成样本均值加减z值乘以标准误。很工整。

当总体的标准差σ未知，只能用样本标准差s来代替时，就改用t分布。这时候的区间会略宽一些，因为多了一层不确定性。自由度等于n减一。这个t分布也很友善，查表就能用。

对于大样本情况下的比例，置信区间公式是样本比例加减z值乘以根号下样本比例乘以一减样本比例除以n。看起来有点复杂，但拆开看就很清楚。

如果需要确定要抽多少人，先设定一个允许的边际误差，记作ME。对于均值，样本量n等于z的平方乘以σ的平方，再除以ME的平方。对于比例，样本量n等于z的平方乘以p乘以一减p，再除以ME的平方。计算结果如果有小数，向上取整。这个公式在调研设计中特别实用。

把前八讲串成一条线

我们从头到尾走一遍。

数据，然后描述统计，包括均值、方差、图表。然后概率与随机变量，包括二项分布、泊松分布、正态分布。然后抽样分布与中心极限定理。最后置信区间，也就是用样本估计总体。

这五个环节，就是前八讲的主干。理清楚这条线，以后再遇到统计相关的内容，你就知道自己站在哪一环了。

写在最后

没有期中考试，真的是一件值得开心的事。

你不用为了分数焦虑，可以按照自己的节奏慢慢理解。

收藏起来，或者转发给那个说“我好像全忘了”的同学。

等到真正需要用的时候，你会感谢现在花十分钟读完的自己。

---

如果觉得有用，点个赞再走呗👇

评论区可以聊聊：你卡在哪一讲？

END

关注我们

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

UNNCer专属丨统计学习笔记:前8讲核心逻辑梳理

最新文章

热门文章

随机文章

UNNCer专属丨统计学习笔记:前8讲核心逻辑梳理

我的英语学习笔记:You are pretending to be happy.

区块链学习笔记(15)[ ETH-美链 ]

最新文章

热门文章

随机文章