《女士品茶》第7章的内容主要聚焦于**费希尔(Ronald Fisher)**在20世纪30年代获得的最终认可,以及他在统计学思想上的全面胜利。本章详细阐述了费希尔的理论体系如何取代皮尔逊(Karl Pearson)的旧体系,成为现代统计学的基石。
以下是第7章《费希尔的胜利》的学习笔记:
1. 迟来的认可与荣耀
背景:此前,费希尔长期被主流数学界和皮尔逊所把持的圈子排斥,只能在农业实验站工作,论文发表在非主流期刊上。
转折点:到了1934年,费希尔已经获得了理学博士学位,并当选为英国皇家学会会员(FRS)。
标志性事件:1934年12月,费希尔受邀在英国皇家统计学会发表题为**《归纳推理的逻辑》**的演讲。这是极高的荣誉,标志着他正式被承认为统计学界的领袖。皮尔逊已经退休,影响力日渐衰退。
2. 费希尔与皮尔逊的哲学分歧
本章深入探讨了两人在统计学本质看法上的根本差异:
皮尔逊的观点(描述学派):认为统计分布是对实际数据集的描述。他关注的是大样本,认为只要样本足够大,计算出的参数就是真值。他把测量值的分布看作真实存在的事物。
费希尔的观点(推断学派):认为真正的分布是抽象的数学模型(如无限的总体),我们收集的数据只是从这个总体中抽取的随机样本。我们算出的平均值等只是“统计量”(statistic),用来估计真实的参数。因为是随机抽样,统计量本身也具有随机性,会有误差。
3. 费希尔的统计量标准
为了评估一个统计量的好坏,费希尔提出了三个核心标准:
一致性(Consistency):数据越多,估计值越接近真值。
无偏性(Unbiasedness):多次估计的平均值应该等于真值(没有系统性偏差)。
有效性(Efficiency):在所有可能的统计量中,该统计量的波动(方差)最小,最精准。
4. 终极武器:最大似然估计(MLE)
发现:费希尔发现皮尔逊的方法往往算出的统计量效率不高。
创新:费希尔提出了最大似然估计(Maximum Likelihood Estimation, MLE)。这是一种通用的数学方法,可以找出在给定数据下,最“可能”的参数值。
统治地位:费希尔证明了MLE总是具有一致性,而且效率最高。这套方法迅速横扫统计学界,成为了参数估计的标准方法,沿用至今。
5. 迭代算法与计算机
计算难题:MLE虽然理论完美,但计算极其复杂,往往没有现成的公式解。
解决方案:费希尔引入了迭代算法(类似于古代的“试位法”),通过不断猜测、计算误差、修正猜测,一步步逼近正确答案。
现代应用:这种计算量巨大的方法在当时很难普及,但随着现代计算机的出现(如EM算法),费希尔的极大似然法成为了计算机统计分析的核心。
总结:
第7章宣告了费希尔时代的全面到来。他将统计学从“对数据的整理和描述”提升到了“对抽象模型的推断”。他提出的参数估计理论和最大似然方法,彻底击败了皮尔逊的旧方法,构建了现代数理统计学的理论框架。