当前位置：首页>学习笔记>用大语言模型学习机器学习的学习笔记(下)

用大语言模型学习机器学习的学习笔记(下)

2026-05-17 17:20:48

接上篇。本文主要是 MIT 6.390 Introduction to Machine Learning [1] 的学习笔记。

六、怎么知道学得好不好

模型在训练数据上预测得准，不代表在新数据上也准。损失函数衡量单次预测离真实值多远，均方误差就是一种。在训练数据上求平均叫训练误差：

换一批没参与训练的新数据，用同样的方式算平均损失，就是测试误差——它才能告诉你模型在没见过的数据上表现如何。打个比方：训练误差是作业分，测试误差是考试分。

但训练误差低不代表测试误差也低。还是那 5 个房价数据点：一条直线拟合，大体趋势对但每个点都有偏差。换一条 4 次多项式，精确穿过所有 5 个点——训练误差为零。但它为了穿过这些点扭出了很复杂的形状，新数据稍微偏一点就全乱了——模型把噪声当成了规律。这叫过拟合（overfitting）：作业满分，考试挂科。

应对办法之一是正则化（regularization）：在目标函数上加一项惩罚，把参数往小了拽，防止模型太自由：

用控制惩罚力度。怎么选？把训练数据分成几份，每次拿其中一份当"模拟考试"、其余拿来训练，轮换几轮看哪个平均表现最好——这叫交叉验证（cross-validation）。正则化只在训练时起作用，推理时就是纯粹的前向传播。

训练误差只说明模型记住了数据，测试误差才说明它学到了规律。

七、凭什么过去能预测未来

上一节默认了一件事：拿过去的数据训练出来的模型，对未来的新数据也管用。但这并不是理所当然的。

罗素讲过一个故事 [3]：一只鸡每天看到农场主来就知道要喂食了，越来越确信"农场主来 = 有食物"。直到有一天，农场主带的是一把刀。过去的规律不能在逻辑上保证未来也成立——这是归纳问题（Problem of Induction）。

机器学习的做法是引入假设 [1]：训练样本近似独立同分布（i.i.d.），且测试时的 query 来自与训练数据相同的分布。有了这组假定，才有理由期待训练时学到的规律对新数据依然有效——这件事在机器学习里叫泛化（generalization）。

八、推理和解码——为什么每次回答不一样

房价模型的推理是确定的——90 平米进去，350.2 万出来，算多少遍都一样。

大语言模型也一样：给定一段输入文字，前向传播算出的下一个词的概率分布是完全确定的。但接下来要从这个分布里选一个词，这一步叫解码（decoding），就引入了不确定性。每步选概率最高的词（贪心解码）看似稳妥，但容易陷入重复循环——上一个词的输出会成为下一步的输入，一旦某个片段的概率很高，模型就会反复生成它：天气很好。天气很好。天气很好…… [4]

解决思路是给挑词过程加入随机性。Temperature 是最常用的旋钮：它调的是概率分布的"锐度"。Temperature 低时，高概率的词占据几乎全部权重，输出接近贪心解码；Temperature 高时，原本概率低的词也获得机会，输出更多样。副作用是同一个问题答两遍可能不同——不过模型学到的本来就是一个分布。

九、大语言模型为什么会出错

前面讲了评估、过拟合、解码。但还有一个更根本的问题：大语言模型为什么会说错话？

教材把测试误差分成结构误差（模型表达力不够）和估计误差（数据不够或优化没到位）[1]，这能解释一部分。但大语言模型出错的原因远不止于此。Huang et al. [6] 和 Alansari & Luqman [7] 的综述做了系统梳理，问题出在从数据到推理的每一个阶段。

首先是数据：训练语料里本身就有错误、偏见和过时的信息，模型照单全收。

然后是训练目标的错位：模型学的是"猜下一个词猜得准"，不是"说正确的话"。它可以流畅地写出"太阳绕着地球转"——语法没问题，事实全错。通顺和正确是两件事。RLHF（基于人类反馈的强化学习）可以拉近模型输出和人的期望，但标注者自身的偏好又会渗进模型。

到了推理阶段，第八节讲的采样随机性也贡献一份不确定性。此外还有上下文窗口的长度限制——输入太长时早期信息可能被忽略，以及一个更根本的问题：模型不知道自己哪里不懂，该说"不确定"的时候它照样自信地给答案。

这些因素叠加在一起，就产生了 hallucination（幻觉）——生成的内容读起来没问题，但事实上不对。目前业界在不同环节下手：RLHF 用人的偏好微调，RAG（检索增强生成）让模型回答前先查资料，Chain-of-Thought 引导模型一步步推理。每种方法各治一部分，但没有哪种能彻底解决问题。

总结

从上篇到这里，主线就是一条：定义模型、定义损失、在数据上用梯度下降优化参数——这是训练。训练之后是评估（训练误差不算数，测试误差才算），评估会暴露过拟合，而推理阶段的解码又引入了新的不确定性。大语言模型的出错，不是某一个环节的问题，而是从数据到推理整条链路上每个阶段都可能贡献一份误差。

教材里面有一句话 [1]：

One crucial aspect of machine learning approaches to solving problems is that human engineering plays an important role.

从选数据到搭网络到评估结果到处理出错，人的判断始终在场。

最后，很多当前 AI 产品并不只是单个 LLM，而是把 LLM 与检索、规则、外部工具、工作流编排等模块组合起来的系统。

参考文献

[1] MIT 6.390 课程笔记，Introduction to Machine Learning，https://introml.mit.edu/notes/

[3] Russell, B. (1912). The Problems of Philosophy, Chapter VI.

[4] Holtzman, A., Buys, J., Du, L., Forbes, M., & Choi, Y. (2020). The Curious Case of Neural Text Degeneration. ICLR 2020.

[6] Huang, L., Yu, W., Ma, W., Zhong, W., Feng, Z., Wang, H., Chen, Q., Peng, W., Feng, X., Qin, B., & Liu, T. (2025). A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions. ACM TOIS, 43(2), 1–55.

[7] Alansari, A. & Luqman, H. (2025). A Comprehensive Survey of Hallucination in Large Language Models: Causes, Detection, and Mitigation. arXiv:2510.06265v3.

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

用大语言模型学习机器学习的学习笔记(下)

六、怎么知道学得好不好

七、凭什么过去能预测未来

八、推理和解码——为什么每次回答不一样

九、大语言模型为什么会出错

总结

参考文献

最新文章

热门文章

随机文章

用大语言模型学习机器学习的学习笔记(下)

六、怎么知道学得好不好

七、凭什么过去能预测未来

八、推理和解码——为什么每次回答不一样

九、大语言模型为什么会出错

总结

参考文献

【学习资料分享】二年级下册语文 第一单元课文主要内容+中心思想

2026学习教育全套素材

最新文章

热门文章

随机文章

【学习资料分享】二年级下册语文第一单元课文主要内容+中心思想