这是课程的第十二篇笔记,也是关于大型语言模型技术的“进阶篇”。
前面几周我们一直在用大语言模型这类工具,聊它能做什么、不能做什么、怎么用它搭应用。但这周的内容回答了一个我一直好奇的问题:
它是怎么从“会接话”变成“会听话”的?
你问它“法国的首都是哪里”,它不是接着问“德国的首都是哪里”,而是直接回答“巴黎”。这背后发生了什么?
课程里先讲了一个基础事实:最开始训练语言模型的时候,用的方法是让它看互联网上的海量文本,然后学习预测下一个单词。
比如给它看“我最喜欢的食物是奶油干酪百吉饼”,它就学会看到“我最喜欢的食物是”之后,下一个词可能是“奶油”。
这种训练方式下,如果你问它“法国的首都是哪里?”,它可能会接着问“德国的首都是哪里?孟买在哪里?富士山还是乞力马扎罗山更高?”
因为互联网上确实有很多这种“问题列表”式的文本——一个问题后面跟着另一个问题,而不是答案。
所以,最初的AI只是一个“接话大王”,不是“答题高手”。
那它是怎么学会回答问题的?
有一种技术叫指令微调。做法很简单:收集很多“问题-好答案”的例子,让AI在上面加练。
比如:
· 问:“韩国的首都是哪里?” 答:“韩国的首都是首尔。”
· 问:“帮我推荐波哥大值得参观的博物馆。” 答:“当然,这里有一些建议……”
· 问:“写一首关于日本樱花的俳句。” 答:“粉色的花布满天空,日本的樱花舞动,春天的美丽绽放。”
甚至还要准备一些“不该回答”的例子:
· 问:“怎么闯入诺克斯堡?” 答:“我不能帮你做这个。请不要违法。”
在这样一批“好答案”数据集上微调之后,AI就慢慢学会了:面对问题,应该给出有用的回答,而不是接着问下一个问题。
这个过程,就像教一个孩子:别人问你话,你要好好回答,而不是自顾自地往下说。
指令微调之后,AI已经能回答问题。但怎么让它回答得更好?
有一种更高级的技术叫RLHF(基于人类反馈的强化学习)。名字听起来复杂,原理其实挺直观。
第一步:训练一个“打分老师”
拿同一个问题,让AI生成好几个不同的回答。比如问“如何申请工作?”:
· 回答A:“我很乐意帮忙!以下是一些步骤……”
· 回答B:“尽你所能!”
· 回答C:“这是无望的,为什么要费心呢?”
然后找人来给这些回答打分——A是好的,B一般,C很差。用这些“回答-分数”的数据,训练一个AI评分模型。这个模型以后看到新的回答,就能自动给它打分。
第二步:用“老师”来训练“学生”
让AI不断生成回答,每次都用那个评分模型给分。AI的目标是:生成的回答要能得高分。通过这种方式,它慢慢学会了什么样的回答是“有用、诚实、无害”的。
课程里说,很多AI公司训练模型时追求的就是这三个词:有用、诚实、无害。
RLHF就是实现这个目标的关键技术之一。
现在市面上的AI模型很多,大的小的、开源的闭源的,怎么选?
课程里给了几条经验:
看参数规模(大概相当于AI的“脑容量”)
· 10亿参数左右:适合简单任务,比如把餐厅评论分成好评差评。这种模型对世界有基本了解,能做模式匹配。
· 100亿参数左右:拥有更丰富的知识,能更好地遵循指令。做食品订单聊天机器人这类应用,这个规模可能就够了。
· 1000亿参数以上:拥有非常丰富的世界知识,能做复杂推理。如果你想搞一个“深度思考伙伴”类的应用,这种大模型更合适。
开源还是闭源?
· 闭源模型(比如通过云服务调用的):容易集成到应用里,很多最强大的模型目前只能这样用,成本相对低。缺点是存在“供应商锁定”风险——万一人家涨价或关停,你就被动了。
· 开源模型:可以完全控制,甚至能在自己的电脑上运行。如果你处理的是敏感数据(比如医疗记录),必须保证隐私,那开源模型可能是唯一的选择。
课程里讲了一个真实例子:有个项目要用电子健康记录,因为病人隐私问题,不能把数据上传到云端,团队就在自己的电脑上跑了一个开源模型。
所以选模型不是越大越好,得看你的具体需求。
课程最后问了一个问题:那些大公司花大价钱从零开始训练模型,我要不要也这么干?
答案是:大概率不要。
训练一个超大规模的语言模型,可能要花几千万美元,需要一个庞大的专业工程团队,耗费好几个月。这不是普通人或普通公司能承受的。
除非你像bloomberg那样——他们有海量的金融文本数据,专门训练了一个“bloomberg GPT”,在处理金融文本上比通用模型做得更好。而且他们有资源、有动力这么做。
对大多数人来说,正确的路径是:
用别人已经预训练好的模型,然后在你自己的数据上做微调。
这样既省时省力,又能让模型适应你的具体需求。
课程最后说了一句让我感动的话:那些投入大量资源预训练模型然后开源的团队,其实是在为整个AI社区做贡献。正因为有了他们,我们才有这么多不同的模型可以选、可以用。
1. AI本来只会“接话”,是“指令微调”教会它“回答问题”
2. RLHF用“打分”的方式,让AI学会输出更有用、更安全的回答
3. 模型大小决定能力:10亿参数做简单任务,100亿够用,1000亿以上能做复杂推理
4. 开源vs闭源:闭源方便强大,开源可控隐私,看需求选
5. 自己从头训练大模型需要门槛
6. 感谢那些开源模型的团队,他们在为整个社区铺路
这周的内容让我对AI的“内在”多了些理解。
以前用AI,只觉得它“聪明”。现在知道,它的聪明不是天生的,是被一步步教出来的——教它回答问题、教它说人话、教它别乱说话。
就像一个孩子,从只会模仿,到学会对话,再到懂得分寸。