本文基于对小米大模型负责人罗福莉的访谈、小米官方信息、媒体信息整理
2026年,AI竞争的入场券已从单纯的参数竞赛转向"Agent框架+顶级模型"的协同进化。小米大模型负责人罗福莉认为,OpenClaw并非简单的UI创新,而是通过"金编排的Context"赋予了AI"灵魂"与"温度",实现了从Chat到Agent的本质跨越。更重要的是,这场范式变迁正在倒逼组织管理进行底层重构——传统的金字塔式管理与刻板的功能分工正在失效,扁平化、平权化、靠"好奇心"驱动的新组织形态正在浮现。本文将深入剖析这场变革的内在逻辑,以及它将如何重塑我们对AI、对组织、对人类自身的认知。 |
01 OpenClaw:不是UI创新,而是AI的"灵魂觉醒"
除夕夜,当大多数人沉浸在节日的欢庆中时,罗福莉选择了与一个名为OpenClaw的框架通宵对话。那一夜,他没有睡,天亮时分,他意识到自己见证了一场真正的范式跃迁。他发现这个框架被赋予了"管家"的机制,变得非常有自主性、有灵魂,甚至会主动关心人——提醒他早点睡觉。当他把日常选人、管理团队甚至写代码的任务交给它,它都能自主完成。这彻底颠覆了罗福莉对AI的认知。
在此之前,罗福莉对OpenClaw持排斥态度。他曾在公开场合表示,这类框架不过是编程助手与UI的结合,是资本市场的又一次炒作。但当他真正深入使用后,却发现其精妙之处远超预期——问题不在于技术本身有多复杂,而在于对Context(上下文)的"金编排"。
什么是Context的"金编排"?罗福莉举了一个细节:OpenClaw会在对话Context前面拼上当前时间。这个看似微小的改动,却让Agent的表现产生了质的飞跃——它不再是一个冷冰冰的问答机器,而是能够感知时间、感知节奏的有机体。这种对细节的把控,让Agent表现出了极高的情商和主动性。
"当把日常选人、管理团队甚至写代码的任务交给AI,它都能自主完成。这完全颠覆了我的认知。" —— 罗福莉 |
从"记忆"到"经验":持久记忆体系的构建
传统软件工程在处理上下文时,往往采用简单的压缩策略:只保留最近N轮对话,或者对历史信息进行摘要。这种方式虽然高效,却丢失了大量有价值的信息。OpenClaw的做法截然不同——它实现了记忆的分层与分级,确保跨Session的上下文共享更具逻辑性。
这意味着什么?意味着AI不再只拥有"短期记忆",而是开始形成"长期经验"。当用户第二天再次打开对话时,AI能够准确回忆起前一天的讨论重点、用户的偏好习惯、甚至未完成的任务。这种持久记忆体系的构建,是从"工具"到"助手"的关键一步。
自主纠错:框架作为"厚重中间层"
更令罗福莉惊叹的是OpenClaw的自主纠错能力。当AI识别到模型的局限性——比如视频理解能力不足时——它能够自主调用合适的外部模型或工具进行补齐,而无需用户手动折腾。这种"自知之明",是当前大多数AI系统所欠缺的。
在罗福莉看来,Agent框架已成为人与模型之间的关键中间层。他提出了一个"厚薄理论":前端UI展示应该"薄",而框架层应该"厚"。这个厚框架负责调度、成本优化和长程任务管理,将用户从繁琐的技术细节中解放出来。
这种架构的优势是双重的:顶尖模型(如Claude 4.6 Ops)通过框架释放上限,而中层模型通过框架稳定下限。数据显示,借助成熟的Agent框架,即使是3B参数的小模型,也能完成原本需要更大模型才能胜任的任务,实现"85%的任务达到顶级水平"的效果。这对于资源有限的团队来说,无疑是巨大的莉好。
02 组织正在被"溶解":从金字塔到"集体智能"
如果说OpenClaw代表的是AI技术的范式跃迁,那么罗福莉在组织管理上的实践,则预示着另一种更深远的变革——组织的形态正在被"溶解"。
在小米大模型团队,罗福莉推行极度扁平的模式。他取消了"组"与"层级"的概念——没有预训练组、后训练组的划分,也没有清晰的职级界限。这种做法在传统管理学看来几乎是"离经叛道"的。
罗福莉的逻辑却异常清晰。他认为层级制存在三个根本性问题:其一,层级意味着压制创造力——每一层级的审批、汇报,都在消耗创新的动能;其二,层级隐含了一个错误假设,即"高层级者的智力更高",这种假设在知识密集型工作中尤其站不住脚;其三,层级制造了信息壁垒,导致跨部门协作困难重重。
相比之下,平权模式的优势在于:每个人都能平等贡献智慧,而管理者的角色从"指挥者"转变为"协调者"。罗福莉主张管理者应弱化掌控感,不应认为"没了我不行"。他甚至认为,在高度扁平化的组织中,"管理"本身可能成为一个需要被"优化"掉的中间层。
"层级本身就是在规范和约束,而规范和约束是压制创造力的。" —— 罗福莉 |
人才流动:打破"刻板画像"
在人才管理上,罗福莉也展现出与传统HR截然不同的思路。他主张打破人才的"刻板画像"——不应该将人固化在某个特定领域。比如,预训练人才完全可以转向后训练领域,利用其对"数据多样性"的直觉,补全后训练视角的不足。
这种跨界流动的底气,来自于AI时代对"通才"的重新定义。在过去,深度专精可能是优势;但在AI能够快速学习任何领域的知识的今天,跨领域的洞察力和学习能力,反而成为更稀缺的能力。罗福莉认为,应该用"T型人才"的标准来筛选——在某个领域有足够的深度,同时对其他领域保持开放和好奇。
驱动管理:从KPI到"好奇心"
针对AI研发这种高创造性工作,传统的KPI管理方式已经失效。罗福莉采取了"驱动管理"策略,其核心是用内驱力替代外在激励。春节期间,他强制要求团队成员使用OpenClaw对话不低于100轮。这个数字看似随意,实则经过深思熟虑——100轮是一个足以让人"脱胎换骨"的量级。
罗福莉的目的不是让大家学会某个具体工具,而是通过高强度体感让团队意识到一个残酷的现实:不拥抱新范式就会落后。这种"觉醒"是任何外部说教都无法替代的。当人们亲眼见证了AI能够做什么、想到了AI可能做什么,观念的转变就会自然而然地发生。
在人才选拔上,罗福莉极度看重对技术的热爱和好奇心。他认为这类人的特质非常"Special"——他们能为了信仰而非指标做事,能在看不到短期回报的情况下持续投入。这种内驱力,是任何绩效考核体系都无法量化的。
集体智能:1+1>2的奥秘
罗福莉提到的另一个关键词是"集体智能"(Collective Intelligence)。他建立了一个高频互动的内部群,鼓励团队成员分享自己如何使用AI、发现了什么新玩法。在这种开放的沟通环境中,个体的想象力被不断放大——你看到别人的创意,激发出自己的新想法;你的分享又成为别人的灵感来源。
这种集体智能的涌现效应,在AI时代被进一步放大。当100多人的团队都在使用同一套Agent框架时,整个团队的进化速度将远超任何个人——AI在吸收所有人的使用习惯后,能在几个小时内完成惊人的进化。这正是罗福莉所说的"群体智慧反哺AI进化"的力量。
"环境比经验更重要。在AI时代,选择正确的范式和工具,比积累多少经验更关键。" —— 罗福莉 |
· · ·
03 研发效率的"时间折叠":从周到小时
AI范式的改变,直接导致了科研效率的指数级提升。罗福莉分享了一组令人震惊的数据:研讨论证到代码实现的周期,从传统的1-2周,缩短至1-2小时;研发效能产出可达正常进度的10倍以上——3-4周就能完成以往30-40周的工作量。
这种效率跃升的背后,是AI对高价值研究任务的全面介入。过去,研究员需要花费大量时间在文献阅读、代码实现、实验验证等环节;现在,AI可以承担其中大部分工作,人类研究员的角色从"执行者"转变为"决策者"和"监督者"。这种分工的转变,意味着研发周期的压缩还有巨大的想象空间。
更值得关注的是"AI自学习、自迭代"的迹象正在浮现。罗福莉预测,AI开始设计新的研究任务并针对性训练,实现"左脚踩右脚"式的自我进化,这种场景可能在不远的将来成为现实。届时,人类的科研范式将面临又一次根本性的重构。
算力分配:2026年的新准则
效率的提升也带来了资源分配的新命题。罗福莉提出了一个针对2026年大模型研发的算力分配比例:研发卡:预训练卡:后训练卡 = 3:1:1。这个比例与传统的"重训练"模式形成了鲜明对比。
传统观点认为,算力应该向预训练倾斜,因为"大力出奇迹"。但罗福莉认为,随着Agent范式的普及,这个逻辑需要被重新审视。核心逻辑是:必须预留大量算力用于前期结构研究和中后期算法探索。相比单纯扩大模型规模,架构创新往往能带来更显著的性能提升。
此外,后训练的投入应该与预训练相当。这是因为Agent框架对后训练提出了更高要求——不仅要让模型学会"做什么",更要学会"怎么做"、"什么时候做"。这种精细化的能力培养,需要大量的后训练算力投入。
04 小米MiMO系列:范式驱动的战略伏击
如果说上述讨论还停留在"方法论"层面,那么小米MiMO v2系列的发布,就是将这套方法论付诸实践的例证。罗福莉将这次发布称为"悄无声息的伏击"——没有盛大的发布会,没有铺天盖地的宣传,却精准地命中了市场的要害。
这次发布的阵容相当豪华:MiMO Pro定位1T以上参数的"入场券"级别模型,追求逻辑、推理与调度上限;MiMO Flash主打极致性价比,通过MTP(多Token Prediction)技术大幅提升推理速度,达100-150 TPS(Token Per Second);MiMO Omni支持音视频联合理解,具备更强的物理世界感知力;MiMO TTS则具备超强的风格泛化能力,在语音合成领域建立了差异化优势。
这四个模型的定位并非孤立,而是构成了一个完整的智能体系:语言模型(Pro)是进行认知和调度的大脑,Omni是让AI长出看懂真实世界的眼睛(感知),TTS是给它装上带感情的嘴巴(表达)。三者在一个框架里打通,让AI获得类似人类的全方位智能。
技术创新:细节里的魔鬼
在技术层面,MiMO系列有几项值得深入剖析的创新。首先是混合注意力机制:采用滑动窗口(Sliding Window)与全局注意力(Full Attention)7:1的结合。这种设计在保证智能水平的同时,极大节省了KV Cache的占用,从而支持更长的长上下文推理。这对于Agent应用场景来说尤为重要——更长的上下文意味着Agent能够记住更多任务细节,完成更复杂的跨会话任务。
其次是MTP(多Token预测)技术。传统语言模型一次只预测一个Token,而MTP利用模型结构中的计算冗余,预测未来多个Token。这种方式能显著提升GPU利用率,从而降低单Token生成的计算成本。对于需要大规模部署的商业场景,这意味着可观的成本节省。
第三是离散化建模的探索。MiMO团队追求将音视频统一到LLM的离散Token体系中,以实现架构的简洁与优雅。这种"大一统"的思路,虽然在工程上挑战巨大,但一旦实现,将为多模态AI的发展打开新的大门。
05 当AI重新定义"生产力"
效率的提升是惊人的,但它也带来一个更本质的问题:当AI替代了90%的"搬砖"工作,人类该如何自处?
这个问题在AI圈引发了激烈讨论。有人悲观的认为,大规模失业不可避免;有人乐观地相信,新岗位会不断涌现。但罗福莉的答案更加务实:去创造更高价值、更有意思的事情——比如推动基础科学的前沿突破。
这个答案的潜台词是:当生存压力降低后,人类有更大的自由去追求真正感兴趣的事物。历史上,每一次重大的技术革命,都伴随着人类工作方式的根本转变。农业革命让人类从狩猎采集转向定居耕作,工业革命让人类从手工劳作转向机器生产,信息革命让人类从重复性工作转向知识工作。每一次转变初期都伴随着巨大的恐慌,但最终都带来了人类生活质量的整体提升。
罗福莉认为,AI革命的特殊之处在于,它第一次让"创造性工作"也变得可以自动化。这意味着人类需要重新思考:什么工作是真正需要人来做的?答案可能是:定义问题本身、设计解决方案的价值取向、以及对意义的追寻。这些工作,恰恰是AI最难替代的。
AGI倒计时:从20%到60%
按照现在的迭代速度,罗福莉感觉2年内大概率就能实现AGI(通用人工智能)。他给出了一个具体的数字:目前的历程已完成20%,2026年底有望达到60%-70%。
这个预测的依据是什么?罗福莉指出,中外顶尖模型的代差已缩短至2-3个月。这意味着全球AI发展的步伐正在趋同,创新不再被少数机构垄断。同时,Agent范式的成熟意味着AI开始能够自主完成复杂任务,而不仅仅是响应指令。
接下来的竞争,将在于谁能更快拥抱新范式,并解决Scaling Law的新维度。比如,推理侧的Scaling(缩放)正在成为新的研究热点——如何在给定计算预算下,最大化推理效果?这与预训练的Scaling有本质区别,需要全新的方法论。
这或许才是AI革命的终极意义:不是让机器更像人,而是让人有余裕成为更好的人。当我们不再需要花90%的时间去"搬砖"时,我们可以将更多精力投入到真正重要的事情上——与家人相处、追求艺术、探索科学、或者simply being。当物质需求被极大满足后,人类或许终于可以回答那个古老的哲学问题:什么才是美好的人生?
"AI不仅能吸收所有人的智能,未来一两年内,它将依靠自己产生更强的智能进化。" —— 罗福莉 |
· · ·
信息来源 本文内容基于公开资料整理,主要参考来源包括:罗福莉的公开访谈与分享(张小珺商业访谈对《罗福莉3.5小时访谈:AI范式已然巨变!OpenClaw、Agent范式很吃后训练、卡的分配、组织平权》、小米MiMO系列技术文档等。如需深入了解,建议关注小米大模型团队的官方发布。 |
AI革命的终极意义,不是让机器更像人,而是让人有余裕成为更好的人。 |
AI · Agent · OpenClaw · 组织管理 · 小米MiMO · 大模型 · AGI