1、学习语言的“共现概率”
大模型通过训练学习文本中字、词或token之间的共现概率。简单来说,它学会了“哪些词经常一起出现”。
例如,在训练过程中,模型会发现“咖啡”这个词后面,经常跟着“杯”、“因”、“馆”等字眼。但它并不理解咖啡的香气、味道或提神作用,只是掌握了这些词汇之间的统计关联。
这就像一个从没尝过巧克力却背熟了所有巧克力配方的人——他能准确说出巧克力的成分和制作步骤,但完全不知道它的味道和口感。这种基于统计规律的学习方式,是大模型“智能”的第一块基石。
2、生成回答的“概率预测”
当我问大模型一个问题时,它生成回答的过程实际上是逐步预测下一个词的概率游戏。
比如我问:“为什么天空是蓝色的?”
模型内部是这样运作的:
看到“为什么” → 预测下一个可能词(“天空”概率高)
看到“为什么天空” → 预测下一个可能词(“是”概率高)
看到“为什么天空是” → 预测下一个可能词(“蓝色”概率高)
依此类推,直到生成完整回答
这个过程完全是自动的概率选择,没有主动的“思考”或“理解”参与。模型只是在每一步选择训练数据中概率最高的候选词,像玩一场超级复杂的文字接龙游戏。
3、无意识的模式生成
课程中最让我印象深刻的一点是:大模型的所有输出都是自动且无意识的。
模型不“知道”自己在回答问题,不“知道”答案正确与否,更不“知道”什么是逻辑推理。
它就像一个极其精密的自动完成工具,只是规模和数据量远超我们熟悉的手机输入法。