在单次实验呈现不确定性,但是多次重复实验呈现的规律现象,即随机现象,概率论所研究的就是随机现象。在概率论的研究领域中,对概率的定义分出了三种学派:古典学派
古典学派认为如果我们因为没有足够信息确定哪一个结果更容易出现,那么它们出现的概率就相等。例如投硬币,没有足够信息确定哪一个结果更容易出现,那么它们出现的概率就相等,均为0.5。
频率学派
频率派通过对过往的经验进行归纳总结估计概率。还是投硬币,如果100次中正面出现了47次,那么频率就是47/100=0.47,正面出现的概率也是0.47。
贝叶斯学派
贝叶斯学派认为每个人对某一事件的发生,都有一个主观信念。随着实际情况不断更新这个主观信念,这个主观信念就是概率。
集合,用来描述一组对象。它由若干明确的元素构成,可以是有限的,也可以是无限的。常用大括号表示:A={1,2,3}。
样本空间,是概率论中描述所有可能结果的集合。其中每个元素表示实验中可能出现的一个基本结果。通常用S表示,分为离散样本空间和连续样本空间。前者可能的结果是有限或者可数无穷多个,后者可能的结果是不可数或者无穷多个。
事件,是样本空间的子集,表示实验中感兴趣的结果。事件A是样本空间S的一个子集,包含某些基本结果。它分为简单事件和复合事件。前者只包含一个结果,后者包含多个结果。如果A=S,是必然事件,如果A为空,是不可能事件。
概率论有三大公理:
非负性
任何一个事件A,它的概率总是非负的:P(A)≥0。
规范性
也称为归一性,样本空间S的概率总是等于1:P(S)=1。
可列可加性
如果事件A1,A2,……是两两互不相容的,那么它们的并集的概率等于各个事件概率的总和。对于互不相容的事件,他们的概率可以直接相加。
2. 概率里的基本运算
乘法原理定义为如果一件事需要经过n步完成,每一步有k种方法完成,第i步有ki种方法完成,整件事有:k1×k2×···kn种方法完成。
加法原理定义为如果一件事有n种方案完成,每种方案又有k种不同的实现方法,第i个方案有ki种方法实现,则整件事有:k1+k2+···kn种方法完成。
排列定义为从n个不同元素里取r个元素进行排列,不能重复选择元素,并且考虑元素的位置顺序。则这是一个排列问题。按照乘法原理,这种排列共有:n×(n-1)×···(n-r+1) 种可能。
组合定义为从n个元素中选取r个元素作为一组,不考虑顺序,则这是一个组合问题。可能的组合数为:
3. 随机变量及其分布
投掷硬币,样本空间为{正面,反面},抽查零件,样本空间为{合格,不合格},虽然有不同的样本空间,但都属于同一类问题,实验结果都有2种可能。为了对这种实验进行数学抽象,引入了随机变量,它将样本空间里的样本点映射到一个实数,因此随机变量是一个函数。
随机变量的定义为:在随机实验E中,S是相应的样本空间,如果对S中的每一个样本点ω,有唯一一个实数X(ω)与它对应,那么就把这个定义域为S的单值实值函数:X=X(ω)称为是随机变量。一般用大写字母X,Y,Z表示。
如果要描述一个随机变量的值域是离散型的随机实验,就是逐个给每个样本点取值,它叫做概率质量函数,定义为:P(X=x)=p(x),x是随机变量X的一个可能的取值,p(x)是X取值x的概率。满足非负性,归一性,若x不是X可能的取值,则p(x)=0。
对于掷骰子而言,X的取值为{1,2,3,4,5,6},通过概率质量函数可以得知每个取值的概率。但如果要知道点数出现小于等于4时的概率,也就是求取值为{1,2,3,4}时的概率和,这就是累积概率分布。定义为给定一个随机变量X,对任意实数x∈(−∞,+∞)称函数F(x)=P(X≤x)为随机变量X的累积概率分布函数。并且对于任意满足条件−∞<a<b<+∞的实数a,b,有:P(a<X<b)=F(b)−F(a)。
将例子转为测量身高,每个人的身高是无法穷举的,结果也是无限个的,因此无法列举每个样本点的概率,此时需要做的就是对这些观测值的分布区间进行统计,此时可以计算出在每个区间的概率。
如果将区间划分更小,估算就会更精确,如果将区间划分得无穷小,就得到了连续性变量的概率密度曲线,其面积为1。
概率密度函数是描述连续型随机变量概率分布的重要工具。该函数f(x)是一个非负函数,用来描述随机变量在某一点附近取值的“相对可能性”。满足两个条件:非负性、归一化。对于连续型变量的概率估计,一般是估计某个值落在一个区间的概率,其概率为:
连续型变量的累积概率分布函数定义与离散型类似,累积分布函数F(x)表示随机变量X小于或者等于某个值x的概率:F(x)=P(X≤x)。对于连续型随机变量,F(x) 是通过概率密度函数f(x)的积分来定义的:
对于同一个随机变量X的概率密度函数f(x)与累积概率分布函数F(x)有如下关系:
4. 数学期望和方差
首先要明确概率和统计的区别:概率是以“已知分布”为前提的学科。它关注的是随机变量的分布特性,并通过数学模型来描述这些特性;统计是以有限样本为前提的学科。它关注的是通过样本推断总体的特性。
数学期望,简称期望,是研究随机变量可能取值与其出现概率的加权平均数,它反映了随机变量分布的中心趋势。
对于离散型随机变量X,其数学期望定义为:
方差是用来衡量随机变量取值偏离其期望程度的重要指标。在概率论里它表示随机变量与其期望值之间差的平方的期望。方差通常用Var(X)或σ^2表示,其数学表达式为:Var(X)=E[(X−E[X])^2]总体方差在采集到一个分布的所有样本时计算,反映总体中每个数据点与总体均值的偏差平方的平均值。设总体中的数据点为x1,x2,...,xn总体均值为μ,总体方差σ^2定义为:样本方差是在只对一些样本采样进行统计时计算,设样本中的数据点为x1,x2,...,xn,样本均值为xˉ,样本方差s^2定义为:标准差是方差的平方根,用来衡量数据偏离均值的程度,反映数据的离散程度或波动性。标准差定义为:大数定律描述了大量独立随机变量的平均值在重复实验中表现出的统计规律性。大数定律表明,当试验次数足够多时,随机变量的平均值会趋近于理论期望值。在深度学习中,如果要训练一个根据图片分类猫狗的模型,采集的图片越多,模型就能越学到接近真实场景的性能。条件概率就是研究在提供某些条件下,事件发生的概率。在事件B发生条件下,A事件发生的概率表示为:P(A|B)在事件B发生的情况下,A发生的概率,就是A∩B的面积(概率)除以B的面积(概率),即:P(A|B)=P(AB)/P(B);P(B)≠0。条件概率的本质是,额外的条件让事件的样本空间变小。原始P(A)的样本空间是S,而P(A|B)同样是求A的概率,但是样本空间变成了B。根据条件概率公式变换可得:P(AB)=P(A|B)P(B)完备事件组,又称为样本空间的分割或者划分。如果一组事件他们两两互斥,并且合集为整个样本空间。那么它们就是一个完备事件组。全概率公式为:设B1,B2,...,Bn为样本空间S的一个完备事件组,且P(Bi)>0 (i=1,2,...,n) 则对任意事件A有:正态分布也叫高斯分布,因为他在研究天文学中的测量误差时首次系统地研究了这种分布,它的分布曲线是一种钟形曲线。谈到正态分布,还有一种叫中心极限定理:无论单个随机变量的原始分布是什么样的,只要随机变量是独立同分布的,且具有有限的均值和方差,那么这些随机变量的和(或均值)在样本量足够大的情况下,其分布将趋近于正态分布。举一个例子,箱子里有一样多的白球和黑球,抽了10次,8次是黑球,2次是白球。明明是一样多的数量,为什么黑球的次数比白球多,这时先求一下概率分布。首先在抽球的时候已经进行了极大似然估计。概率和似然是有区别的,概率:固定概率分布参数θ,研究随机变量X的分布;似然:固定观测数据x,研究概率分布参数θ的可能性。似然函数就是把概率分布的参数作为未知变量,描述事件发生可能性的函数。假设黑球概率为a,白球概率为(1-a),那么似然函数为:L(a)=a^8(1-a)^2,函数L(a)就是似然函数,可以绘制出这个函数的曲线。似然函数表达了不同的分布参数让这个事件发生的可能性,那么8次黑球,2次白球这件事,会有一个参数让这个可能性最大。由上图可知a取0.8时函数取最大值,也就是说箱子里的球有80%是黑球,是最有可能让事件发生的。在实际运用中,似然函数一般是多个概率连乘,多个数值相乘在进行极大值计算时不方便,一般会对似然函数取对数,也就是对数似然函数。对数运算和将多个数相乘,变化为多个数相加。这就大大简化了求极值的过程。了解似然函数后,就可以极大似然估计:极大似然估计是一种统计方法,用于估计模型参数,使得在已知数据样本的情况下,模型生成这些数据的概率最大。其核心思想如下:电子书链接:https://www.rethink.fun/