当前位置：首页>学习笔记>观世的AI学习笔记⑫:从“会接话”到“会听话”,AI是怎么学会的

观世的AI学习笔记⑫:从“会接话”到“会听话”,AI是怎么学会的

2026-04-17 12:59:09

点击蓝字

关注我们

这是课程的第十二篇笔记，也是关于大型语言模型技术的“进阶篇”。

前面几周我们一直在用大语言模型这类工具，聊它能做什么、不能做什么、怎么用它搭应用。但这周的内容回答了一个我一直好奇的问题：

它是怎么从“会接话”变成“会听话”的？

你问它“法国的首都是哪里”，它不是接着问“德国的首都是哪里”，而是直接回答“巴黎”。这背后发生了什么？

AI本来是“接话大王”，不是

“答题高手”

课程里先讲了一个基础事实：最开始训练语言模型的时候，用的方法是让它看互联网上的海量文本，然后学习预测下一个单词。

比如给它看“我最喜欢的食物是奶油干酪百吉饼”，它就学会看到“我最喜欢的食物是”之后，下一个词可能是“奶油”。

这种训练方式下，如果你问它“法国的首都是哪里？”，它可能会接着问“德国的首都是哪里？孟买在哪里？富士山还是乞力马扎罗山更高？”

因为互联网上确实有很多这种“问题列表”式的文本——一个问题后面跟着另一个问题，而不是答案。

所以，最初的AI只是一个“接话大王”，不是“答题高手”。

教AI听话，得先给它看“好答案”

那它是怎么学会回答问题的？

有一种技术叫指令微调。做法很简单：收集很多“问题-好答案”的例子，让AI在上面加练。

比如：

· 问：“韩国的首都是哪里？” 答：“韩国的首都是首尔。”

· 问：“帮我推荐波哥大值得参观的博物馆。” 答：“当然，这里有一些建议……”

· 问：“写一首关于日本樱花的俳句。” 答：“粉色的花布满天空，日本的樱花舞动，春天的美丽绽放。”

甚至还要准备一些“不该回答”的例子：

· 问：“怎么闯入诺克斯堡？” 答：“我不能帮你做这个。请不要违法。”

在这样一批“好答案”数据集上微调之后，AI就慢慢学会了：面对问题，应该给出有用的回答，而不是接着问下一个问题。

这个过程，就像教一个孩子：别人问你话，你要好好回答，而不是自顾自地往下说。

用“打分”的方式，让AI越学越好

指令微调之后，AI已经能回答问题。但怎么让它回答得更好？

有一种更高级的技术叫RLHF（基于人类反馈的强化学习）。名字听起来复杂，原理其实挺直观。

第一步：训练一个“打分老师”

拿同一个问题，让AI生成好几个不同的回答。比如问“如何申请工作？”：

· 回答A：“我很乐意帮忙！以下是一些步骤……”

· 回答B：“尽你所能！”

· 回答C：“这是无望的，为什么要费心呢？”

然后找人来给这些回答打分——A是好的，B一般，C很差。用这些“回答-分数”的数据，训练一个AI评分模型。这个模型以后看到新的回答，就能自动给它打分。

第二步：用“老师”来训练“学生”

让AI不断生成回答，每次都用那个评分模型给分。AI的目标是：生成的回答要能得高分。通过这种方式，它慢慢学会了什么样的回答是“有用、诚实、无害”的。

课程里说，很多AI公司训练模型时追求的就是这三个词：有用、诚实、无害。

RLHF就是实现这个目标的关键技术之一。

选AI模型，像选工具

现在市面上的AI模型很多，大的小的、开源的闭源的，怎么选？

课程里给了几条经验：

看参数规模（大概相当于AI的“脑容量”）

· 10亿参数左右：适合简单任务，比如把餐厅评论分成好评差评。这种模型对世界有基本了解，能做模式匹配。

· 100亿参数左右：拥有更丰富的知识，能更好地遵循指令。做食品订单聊天机器人这类应用，这个规模可能就够了。

· 1000亿参数以上：拥有非常丰富的世界知识，能做复杂推理。如果你想搞一个“深度思考伙伴”类的应用，这种大模型更合适。

开源还是闭源？

· 闭源模型（比如通过云服务调用的）：容易集成到应用里，很多最强大的模型目前只能这样用，成本相对低。缺点是存在“供应商锁定”风险——万一人家涨价或关停，你就被动了。

· 开源模型：可以完全控制，甚至能在自己的电脑上运行。如果你处理的是敏感数据（比如医疗记录），必须保证隐私，那开源模型可能是唯一的选择。

课程里讲了一个真实例子：有个项目要用电子健康记录，因为病人隐私问题，不能把数据上传到云端，团队就在自己的电脑上跑了一个开源模型。

所以选模型不是越大越好，得看你的具体需求。

除非专业，别自己从头训练

课程最后问了一个问题：那些大公司花大价钱从零开始训练模型，我要不要也这么干？

答案是：大概率不要。

训练一个超大规模的语言模型，可能要花几千万美元，需要一个庞大的专业工程团队，耗费好几个月。这不是普通人或普通公司能承受的。

除非你像bloomberg那样——他们有海量的金融文本数据，专门训练了一个“bloomberg GPT”，在处理金融文本上比通用模型做得更好。而且他们有资源、有动力这么做。

对大多数人来说，正确的路径是：

用别人已经预训练好的模型，然后在你自己的数据上做微调。

这样既省时省力，又能让模型适应你的具体需求。

课程最后说了一句让我感动的话：那些投入大量资源预训练模型然后开源的团队，其实是在为整个AI社区做贡献。正因为有了他们，我们才有这么多不同的模型可以选、可以用。

学习总结

1. AI本来只会“接话”，是“指令微调”教会它“回答问题”

2. RLHF用“打分”的方式，让AI学会输出更有用、更安全的回答

3. 模型大小决定能力：10亿参数做简单任务，100亿够用，1000亿以上能做复杂推理

4. 开源vs闭源：闭源方便强大，开源可控隐私，看需求选

5. 自己从头训练大模型需要门槛

6. 感谢那些开源模型的团队，他们在为整个社区铺路

这周的内容让我对AI的“内在”多了些理解。

以前用AI，只觉得它“聪明”。现在知道，它的聪明不是天生的，是被一步步教出来的——教它回答问题、教它说人话、教它别乱说话。

就像一个孩子，从只会模仿，到学会对话，再到懂得分寸。

END

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

观世的AI学习笔记⑫:从“会接话”到“会听话”,AI是怎么学会的

最新文章

热门文章

随机文章

观世的AI学习笔记⑫:从“会接话”到“会听话”,AI是怎么学会的

孙过庭《书谱》学习笔记(二)

周易学习笔记:谦卦(上)地山谦

最新文章

热门文章

随机文章