VLA端到端模型能力很强,但它"紧急刹车"处理不了 - 延迟 > 200ms → 检测到危险来不及停 - 概率性输出 → "99%会刹车" ≠ "会刹车" - 目标是完成任务 → 安全不是第一优先级问题:机器人必须既"聪明"又"安全",但端到端VLA只有"聪明",没有"安全"答案:分层架构 —— 把"聪明"和"安全"分到不同层,各司其职
Helix架构是什么?——一张图看懂 Helix是Figure AI提出的双系统人形机器人架构,核心思想:把"想"和"做"分开,各跑各的速度。┌─────────────────────────────────────────────────┐│ System 2(慢脑) System 1(快脑) ││ ││ 负责:理解指令、规划策略 负责:实时控制、应急反应││ 模型:VLM(视觉-语言模型) 模型:轻量MLP ││ 频率:5-10 Hz 频率:200 Hz ││ 延迟:100-200ms 延迟:5ms ││ ││ 输入:摄像头+语言指令 输入:潜向量z+关节状态 ││ 输出:潜向量z(意图) 输出:35个关节的动作 ││ ││ 像将军:想清楚做什么 像士兵:照着做就行 │└─────────────────────────────────────────────────┘
1. 潜向量通信 S2不说话给S1听,而是把全部想法压成64个数字直接喂给S1 信息比语言丰富得多,且S1不需要花时间理解2. 端到端联合训练 z的含义不是人设计的,是S2和S1训练时自己磨合出来的"暗号" 梯度从S1回传到S2 → S2被迫生成"对S1有用"的z3. 多机零样本协调 同一套权重控制两台Figure 02机器人 通过交换潜向量实现协作(递东西、搬大件、分工整理) 不用专门训练协调策略 → 协调是涌现出来的
Helix是第一个证明"慢想+快做"分层架构在真实人形机器人上可行的工作: - S1跑200Hz → 满足实时控制 - S2提供语义理解 → 能听懂自然语言指令 - 双机协调 → 同一模型控制多个机器人 - 单GPU训练 → 不需要海量算力发布时间:2025年3月(arXiv: 2503.12633)硬件平台:Figure 02人形机器人(35自由度)
Daniel Kahneman《思考,快与慢》:System 1(快思考): - 反射式、自动、快速 - 例子:接住飞来的球、紧急刹车、躲避障碍 - 特点:不需要"想",直接"做" - 频率:毫秒级响应System 2(慢思考): - 深思熟虑、逻辑推理、缓慢 - 例子:规划路线、理解复杂指令、做数学题 - 特点:需要"想清楚"再"做" - 频率:秒级响应关键洞察: 人脑不是"全靠System 2"或"全靠System 1" 而是两者协同:System 2规划"做什么",System 1执行"怎么做" 遇到紧急情况,System 1直接接管,不等System 2
端到端VLA的问题: 只有一个"大脑" → 要同时负责理解和执行 理解需要慢(语言推理、场景理解) 执行需要快(实时控制、紧急反应) 一个系统同时满足两个矛盾需求 → 妥协、都不够好分层架构的解决方案: System 2 = "慢脑":负责理解指令、规划策略(低频、高智能) System 1 = "快脑":负责实时执行、应急反应(高频、高可靠) 两者通过"潜空间通道"通信,而非语言类比: VLA端到端 = 一个人边想边做,想到哪做到哪 分层架构 = 将军(S2)制定战略,士兵(S1)执行战术 将军不需要告诉士兵每一步怎么走 只需要传达意图,士兵自己应对战场变化
┌──────────────────────────────────────────────────────────┐│ ││ 端到端VLA(路线1) 分层架构(路线2) ││ ────────────── ────────────── ││ ││ 一个模型搞定一切 两个系统各司其职 ││ ││ ┌─────────────┐ ┌─────────────┐ ││ │ VLM + 动作头 │ │ S2: VLM │ ← 慢、聪明 ││ │ (一体化) │ │ (规划推理) │ ││ │ │ └──────┬──────┘ ││ │ 输出: 动作 │ │ 潜向量 ││ │ 频率: 5-50Hz │ ┌──────▼──────┐ ││ │ │ │ S1: 快速策略 │ ← 快、可靠 ││ │ │ │ (实时控制) │ ││ └─────────────┘ └─────────────┘ ││ 频率: 5-50Hz 频率: 200Hz+ ││ 安全: 无保障 安全: S1直接保障 ││ 上限: 高(端到端优化) 上限: 受限于分层接口 ││ ││ 最佳场景: 泛化任务 最佳场景: 实时安全场景 ││ ││ ──────────────────────────────────────────────────── ││ ││ 最终形态:两者融合 = VLA端到端(S2)+ 快速策略层(S1) ││ + 安全约束层(CBF) ││ │└──────────────────────────────────────────────────────────┘
问题1:两层之间如何通信? 方案A:语言通信(S2输出文字指令→S1解析)→ 信息损失大 方案B:潜向量通信(S2输出连续向量→S1直接用)→ 信息保留好 ← Helix选择 方案C:动作通信(S2输出目标动作→S1跟踪)→ 灵活性低问题2:两层如何训练? 方案A:分别训练 → 简单但接口可能不匹配 方案B:端到端联合训练 → 接口最优但训练复杂 ← Helix选择 方案C:先分别预训练再联合微调 → 折中方案问题3:两层如何处理冲突? 场景:S2说"向前走",S1检测到前方有危险 方案A:S2优先 → 可能不安全 方案B:S1优先 → 可能完不成任务 方案C:安全约束层仲裁 → CBF安全过滤器 ← 最优方案
2.1 Helix双系统的数学框架
System 2(慢系统): 输入:语言指令 l、视觉观测 v 输出:潜向量 z ∈ ℝ^d(d维连续向量) z = f_S2(l, v; θ_S2) 频率:5-10 Hz(每100-200ms更新一次) 作用:将"理解"压缩为一个意图向量System 1(快系统): 输入:潜向量 z、本体感知 p(关节角度、力矩) 输出:关节动作 a ∈ ℝ^n(n个自由度的动作) a = f_S1(z, p; θ_S1) 频率:200 Hz(每5ms更新一次) 作用:根据意图和当前状态,输出实时控制指令两系统的协同: S2每100-200ms发送一次意图向量 z S1每5ms用最新的 z + 当前本体感知 p 输出动作 a → S2慢但聪明,S1快但只负责执行 类比: S2 = GPS导航,每隔一段路更新路线 S1 = 驾驶员,根据路况实时调整方向盘 GPS不需要告诉驾驶员"方向盘转15度" 只需要说"前方200米左转"→ 驾驶员自己处理细节
方式1:用语言 你说:"把桌上那个红色的苹果拿起来放进碗里" 朋友听到了 → 自己判断苹果在哪、碗在哪、手怎么伸 问题: - 一句话信息量有限——你没法用语言精确描述"手应该以什么角度伸过去" - 朋友理解有偏差——"红色"是哪个红?"碗里"是碗的哪个位置? - 交流有延迟——说完话、听懂话、再行动,每步都要时间方式2:如果能"直接传想法"呢? 假设你和朋友之间有一根"脑电波线" 你脑子里关于"怎么拿苹果"的全部理解,瞬间传到朋友脑中 朋友不需要"听懂你的话",直接就知道该怎么动 这就是潜向量通信——S2把"全部想法"压缩成一个向量,直接塞给S1
语言通信: S2输出:一句文字 "把苹果放进碗里" S1接收:先要"读懂"这句话 → 再判断苹果在哪 → 再规划动作 → 信息损失大(一句话说不清手该怎么动) → 多了一步"理解语言"的延迟潜向量通信: S2输出:z = [0.23, -1.45, 0.78, 2.31, -0.56, ...] (d=64个数字) S1接收:直接把z和本体感知拼在一起,送进MLP → 输出动作 → 不需要"理解",直接用 → 信息保留完整(64个数字比一句话能装更多信息)假设任务:把红色杯子移到桌子左边 语言通信(信息少): S2 → "把红杯子移到左边" S1要自己判断:红杯子在哪?左边是多左?手怎么伸?抓哪里? → S1需要很强的"独立判断能力" 潜向量通信(信息多): S2 → z = [0.23, -1.45, 0.78, ...] 这64个数字里可能同时编码了: - 杯子的3D位置 - 应该抓杯子的把手还是杯身 - 移动的轨迹形状 - 移动速度 - 任务进度(刚开始/快完成) → S1不需要自己判断,直接"照着z的意思做" 类比: 语言 = "去北京"(大方向,细节自己想) 潜向量 = 一份详细的GPS路线图+速度建议+注意事项
答案是:没有人预先规定它们是什么意思! 这64个数字的含义,是S2和S1在训练过程中"自己商量出来的" 类比: 两个陌生人在一间黑屋子里合作搬家具 一开始他们无法用语言沟通(不同语言) 但慢慢摸索出一种"暗号": 拍两下桌子 = 往左移 拍三下 = 往右移 ... 这个"暗号"不是任何人设计的,是两个人磨合出来的 Helix的潜向量也是这样: z的第1个数字可能编码了"目标在左边还是右边" z的第2个数字可能编码了"应该抓还是放" z的第3个数字可能编码了"任务进行到第几步" ... 但具体每个数字编码什么,是训练时S2和S1自己协商出来的 不是程序员写死的
训练过程: 初始状态:S2随机输出z,S1随机输出a → 动作完全不对 → 损失很大 梯度回传(链式法则): 损失大 → 告诉S1"你输出的动作错了" → S1发现"是z给我的信息不对" → 通过链式法则,这个"信息不对"的信号传回S2 S2收到信号:"我输出的z让S1犯了错,我需要调整z" 多轮训练后: S2学会了输出"对S1有用的"z S1学会了"正确解读"S2的z 两者的"暗号"逐渐对齐 对比分别训练: 如果S2先训练好(不管S1能不能读懂)→ z可能全是S1用不上的信息 如果S1先训练好(不管S2输出什么z)→ S1可能不会正确解读z 端到端训练:两者一起学 → z的含义是双方"共同发明"的
d太小(比如d=4): S2只能传4个数字 → 信息装不下 → S1经常猜不准 类比:只给你4个字描述一幅画 → 信息远远不够d太大(比如d=512): S2能传512个数字 → 信息够多,但S1的MLP要处理更多输入 → MLP更大 → 推理更慢 → 可能达不到200Hz 类比:给你一本500页的操作手册 → 信息够了,但读完就要5分钟d=64(Helix的选择): 折中——既能装下足够的意图信息,又不让S1变慢 类比:一页纸的操作指南——简洁但够用
一句话总结:潜向量通信就是S2不再"说话"给S1听,而是把全部想法压缩成一串数字直接"喂"给S1,这串数字的含义是训练时两者自己磨合出来的,比语言信息量大得多,且不需要S1额外花时间理解。训练目标: 最小化 S1 输出动作与专家演示之间的差异 L = E[||a_pred - a_expert||²] = E[||f_S1(f_S2(l, v; θ_S2), p; θ_S1) - a_expert||²] 同时优化 θ_S1 和 θ_S2: θ_S1, θ_S2 = argmin L(θ_S1, θ_S2)关键设计——梯度流过潜向量: 训练时,梯度从 S1 的损失函数反向传播到 S2: ∂L/∂θ_S2 = ∂L/∂a × ∂a/∂z × ∂z/∂θ_S2 ↑ ↑ S1对z的敏感度 S2如何生成z 这使得: S2 学会生成"对S1最有用的"意图向量 S1 学会"正确解读"S2的意图向量 两者协同优化,不需要人工设计通信协议与分别训练的对比: 分别训练:S2先训练好(可能生成"对S1不友好"的z) S1再训练(只能适应S2给的z) 联合训练:z 的含义是两者共同进化的结果 → 通信效率更高、信息损失更少
2.4 Control Barrier Function(CBF)—— 安全的数学保证核心问题:如何数学地保证"机器人永远不会进入危险状态"?直觉:定义一个"安全度量函数"h(x),满足: h(x) > 0 → 安全 h(x) = 0 → 安全边界 h(x) < 0 → 危险CBF条件: ḣ(x) = ∂h/∂x · ẋ ≥ -α·h(x) 其中: ḣ(x) = h的变化率(h是在变好还是变差) α > 0 是一个常数(控制安全边界的收敛速度) 直觉解读: 如果 h(x) > 0(当前安全),则 ḣ 只要不下降太快就行 如果 h(x) ≈ 0(接近边界),则 ḣ 必须 ≥ 0(必须停止靠近边界) 如果 h(x) < 0(已经危险),则 ḣ 必须 > 0(必须回到安全区)
场景:机器人手臂与人保持安全距离安全度量:h(x) = distance(robot, human) - d_safe h > 0 → 距离大于安全距离 → 安全 h = 0 → 正好在安全距离边界 h < 0 → 距离小于安全距离 → 危险CBF安全过滤器(QP求解): VLA输出候选动作 a_VLA CBF检查: 如果 a_VLA 满足 CBF条件 → 放行:a_safe = a_VLA 如果 a_VLA 违反 CBF条件 → 修正: a_safe = argmin ||a_safe - a_VLA||² ← 最小修正 s.t. ḣ(x, a_safe) ≥ -α·h(x) ← 安全约束 这就是"在保持安全的前提下,尽量少改VLA的动作"数值例子: 机器人离人 0.3m,安全距离 0.5m → h = 0.3 - 0.5 = -0.2 < 0(危险!) VLA输出:a_VLA = [向前走0.1m] → 离人更近 → ḣ < 0(违反CBF) CBF修正:求解 QP 最小化 ||a_safe - a_VLA||² 约束:a_safe 使得机器人至少不靠近人 可能结果:a_safe = [向右走0.05m] → 绕开人 → ḣ > 0(满足CBF)
三层安全架构的频率与延迟: ┌─────────────────────────────────────────────────────┐ │ Layer 3: S2 语言推理层 │ │ 频率: 5-10 Hz │ │ 延迟: 100-200ms │ │ 职责: 理解指令、规划策略、输出意图向量 │ │ 安全性: 不负责安全 │ ├─────────────────────────────────────────────────────┤ │ Layer 2: S1 快速策略层 │ │ 频率: 200 Hz │ │ 延迟: 5ms │ │ 职责: 实时控制、轨迹执行、简单避障 │ │ 安全性: 反射式避障(但不是数学保证) │ ├─────────────────────────────────────────────────────┤ │ Layer 1: CBF 安全约束层 │ │ 频率: 1000 Hz │ │ 延迟: 1ms │ │ 职责: 数学保证安全、紧急制动 │ │ 安全性: 形式化安全保证(证明性的) │ └─────────────────────────────────────────────────────┘ 关键:紧急刹车走 Layer 1,延迟仅 1ms 不经过S2(200ms)也不经过S1(5ms) → 从检测到危险到停机 < 10ms → 安全!
┌──────────┬──────────────┬──────────────┬──────────────┐│ │ 端到端VLA │ S1反射式避障 │ CBF安全过滤 │├──────────┼──────────────┼──────────────┼──────────────┤│ 延迟 │ >200ms │ ~5ms │ ~1ms ││ 保证类型 │ 无保证 │ 概率性 │ 数学证明 ││ 覆盖范围 │ 训练数据范围内 │ 训练数据范围内 │ 所有情况 ││ 对付未知 │ 可能失效 │ 可能失效 │ 保证安全 ││ 实现难度 │ 低 │ 中 │ 高 ││ 计算成本 │ 低 │ 中 │ 高(QP求解) │└──────────┴──────────────┴──────────────┴──────────────┘投资判断: CBF是"安全关键场景"(人机协作、医疗)的必选项 S1反射式避障是"工业场景"的性价比之选 纯端到端VLA在"无安全风险场景"(仿真、远程操作)可行
第三层:代码级原理 —— Helix架构详解
3.1 Helix完整架构
┌──────────────────────────────────────────────────────────────┐│ Helix 架构 ││ ││ ┌──────────────────────────────────────────────────────┐ ││ │ System 2 (S2) — 慢系统 │ ││ │ │ ││ │ ┌────────────┐ ┌────────────┐ │ ││ │ │ 视觉编码器 │ │ 语言编码器 │ │ ││ │ │ ViT-Large │ │ LLM骨干 │ │ ││ │ └─────┬──────┘ └─────┬──────┘ │ ││ │ │ │ │ ││ │ └───────┬───────┘ │ ││ │ ▼ │ ││ │ ┌──────────────────────┐ │ ││ │ │ Transformer融合层 │ │ ││ │ │ (交叉注意力) │ │ ││ │ └──────────┬───────────┘ │ ││ │ │ │ ││ │ ▼ │ ││ │ ┌──────────────────────┐ │ ││ │ │ 潜向量投影层 │ │ ││ │ │ z = Linear(head) │ ← 输出d维意图向量 │ ││ │ │ z ∈ ℝ^d │ │ ││ │ └──────────┬───────────┘ │ ││ │ │ │ ││ │ 频率: 5-10 Hz (每100-200ms) │ ││ │ 计算量: 大(VLM推理) │ ││ └──────────────┼───────────────────────────────────────┘ ││ │ 潜向量 z ││ ▼ ││ ┌──────────────────────────────────────────────────────┐ ││ │ System 1 (S1) — 快系统 │ ││ │ │ ││ │ 输入: z (S2意图) + p (本体感知: 关节角度/速度) │ ││ │ │ ││ │ ┌──────────────────────────────────────┐ │ ││ │ │ 轻量级MLP策略网络 │ │ ││ │ │ │ │ ││ │ │ [z, p] → Linear(512) → ReLU │ │ ││ │ │ → Linear(256) → ReLU │ │ ││ │ │ → Linear(n_joints) │ │ ││ │ └──────────────────────────────────────┘ │ ││ │ │ │ ││ │ ▼ │ ││ │ 输出: a ∈ ℝ^n (n=35 DOF for Figure 02) │ ││ │ │ ││ │ 频率: 200 Hz (每5ms) │ ││ │ 计算量: 小(单次MLP前向传播 < 1ms) │ ││ └──────────────────────────────────────────────────────┘ ││ ││ 可选:CBF安全层 ││ ┌──────────────────────────────────────────────────────┐ ││ │ 输入: a (S1输出) + x (当前状态) │ ││ │ 处理: QP求解器 │ ││ │ 输出: a_safe (修正后的安全动作) │ ││ │ 频率: 1000 Hz │ ││ └──────────────────────────────────────────────────────┘ │└──────────────────────────────────────────────────────────────┘
3.2 Helix的关键设计决策
决策1:为什么S1用MLP而不是Transformer? 原因:速度 - MLP前向传播 < 1ms → 可以跑200Hz - Transformer即使1层也 > 5ms → 只能跑200Hz以下 - S1不需要"理解",只需要"执行" → MLP够用 类比:S1是脊髓反射,不需要经过大脑皮层 脊髓 = 简单的信号通路(MLP),但速度极快决策2:潜向量z的维度d应该多大? 实践:d = 32-128 太小(d=8):信息瓶颈,S2无法充分传达意图 太大(d=512):S1需要更多计算来处理,降低频率 Helix实践值:d ≈ 64 类比:z像一条"加密指令" d太小 = 指令太简短,S1猜不准 d太大 = 指令太冗长,S1处理慢决策3:S2和S1的频率比是多少? Helix实践:S2 : S1 = 1 : 20~40 S2 = 5-10 Hz S1 = 200 Hz 意味着:S2每更新一次意图,S1执行20-40步动作 → S1在S2两次更新之间,自主处理实时变化 → 即使S2暂时"卡住",S1也能保持控制 类比:将军每5分钟下达一次命令 士兵每5秒执行一步 中间的60步都是士兵自己判断
3.3 Helix的多机器人协调
突破性能力:两个机器人用同一套权重协调工作架构: ┌─────────────────┐ ┌─────────────────┐ │ Robot A │ │ Robot B │ │ │ │ │ │ S2: 共享权重 │ │ S2: 共享权重 │ │ S1: 共享权重 │ │ S1: 共享权重 │ │ │ │ │ │ 视觉: 独立观测 │ │ 视觉: 独立观测 │ │ 本体感知: 独立 │ │ 本体感知: 独立 │ │ │ │ │ │ └──z_A ─────────┼─────┼──z_B ──────────┘│ │ │ │ │ │ │ │ ▼ │ │ ▼ │ │ 潜向量交换 │ │ 潜向量交换 │ │ (10 Hz) │ │ (10 Hz) │ └─────────────────┘ └─────────────────┘关键:两个机器人共享同一套神经网络权重 - 不需要"机器人A的策略"和"机器人B的策略" - 模型通过视觉观测和潜向量交换自动区分"我是谁" - 协调行为是从训练数据中涌现的,不是手工编程的潜向量交换的作用: z_A 发送给 Robot B → B 知道 A 的意图 z_B 发送给 Robot A → A 知道 B 的意图 交换频率:10 Hz(比S2还高) → 两个机器人的S1可以实时感知对方意图已验证的能力: ✅ 传递物体(A递给B) ✅ 协作搬运大件(两人抬桌子) ✅ 分工整理(A收左边,B收右边) ✅ 零样本泛化到新物体和新场景
第四层:分层架构意味着什么?【个人思考】
4.1 技术路线思考
问题:分层架构会不会取代端到端VLA?我的判断:不会取代,而是"分层+端到端"融合融合的逻辑: VLA端到端 → 做S2(慢推理层) 快速策略 → 做S1(快执行层) CBF → 做安全层 三者不矛盾: π₀.5 的VLM部分 = S2 π₀.5 的Flow Matching Action Head ≈ S1(但它不够快,200Hz需要额外优化) + CBF安全层 = 完整方案 当前差距: π₀.5 还没有明确的 S1/S2 分离 → 所有推理都在同一个频率 Helix 已经做了分离 → 但S2的语言能力不如π₀.5 最终谁先做出"π₀.5级别S2 + Helix级别S1 + CBF安全层" → 谁领先时间判断: 2026: 分层架构成为工业部署的标配(安全刚需) 2027: VLA+分层融合架构成为主流(兼顾智能和安全) 2028+: 标准化为"三明治"架构(S2-VLA / S1-策略 / CBF安全)
4.2 公司竞争力思考
分层架构赛道的壁垒:壁垒1:S1策略的实时性 - 200Hz控制频率需要 <5ms 推理延迟 - 只有轻量级架构(MLP/小型CNN)能做到 - 但轻量级架构的表达能力有限 → 折中是核心挑战 - 判断标准:S1频率能到多少Hz?壁垒2:S1-S2接口设计 - 潜向量维度、含义、更新频率都需要精心设计 - Helix的端到端训练是当前最优解,但训练不稳定 - 判断标准:是否实现了端到端联合训练?壁垒3:CBF安全层的工程化 - CBF理论成熟,但工程化有三个难点: 1. 安全度量函数h(x)的定义(需要领域知识) 2. QP求解器的实时性(1ms内完成) 3. CBF与VLA的兼容性(修正后的动作是否合理) - 判断标准:CBF安全层是否通过了真实场景验证?壁垒4:多机器人协调 - Helix首次实现了零样本双机器人协调 - 但从2个机器人扩展到10个、100个仍是开放问题 - 判断标准:验证过几个机器人的协调?
4.3 Helix vs π₀.5 vs Gemini Robotics:架构维度对比
Helix π₀.5 Gemini Robotics ───── ──── ───────────────架构类型: 双系统分层 单系统端到端 单系统端到端S2(推理): 自研VLM 自研VLM 7-10B Gemini 2.0S1(执行): MLP 200Hz Flow Matching 自回归Token安全层: S1内置避障 无(需外接) 无(需外接)控制频率: 200Hz ~50Hz 按形态变化多机器人: ✅ 零样本双机协调 ❌ ❌潜向量通信: ✅ 端到端训练 N/A N/A训练数据量: 相对较小(单GPU) 大规模 海量(Gemini预训练)语言理解深度: 中等 中等 最强动作精度: 高(200Hz控制) 高(流匹配) 中(离散化损失)部署成本: 低(嵌入式GPU) 中(消费级GPU) 高(需TPU级算力)核心差异的本质: Helix:为"实时安全控制"而设计 → 快、安全、但语言理解有限 π₀.5:为"动作生成质量"而设计 → 精确、泛化、但实时性有限 Gemini:为"语言理解深度"而设计 → 聪明、但控制弱三者不是零和博弈,最终会融合: "Gemini级S2 + π₀.5级Flow Matching + Helix级S1 + CBF安全层"
4.4 核心指标思考
评估一家做分层架构的VLA公司时,问这5个问题:1. 你的S1频率是多少? → < 50Hz:不够实时,和安全控制层差距大 → 50-100Hz:可用但不算快 → > 200Hz:优秀,能满足大多数实时场景2. S2和S1如何通信? → 语言/文本通信:信息损失大,不推荐 → 动作目标通信:灵活性低 → 潜向量通信+端到端训练:当前最优3. 你有安全层吗? → 无:只能用于无安全风险的场景 → 启发式避障:比没有好,但不是数学保证 → CBF安全过滤:数学保证,适合人机协作4. 验证过几个机器人的协调? → 1个:没有利用分层架构的多机优势 → 2个:Helix级别 → >2个:前沿,但技术挑战大5. S1的计算需求是多少? → 需要外接GPU:部署成本高 → 嵌入式GPU即可:部署成本低 ← Helix方案 → CPU即可:理想但尚未实现
本路线关键概念总结
| | |
|---|
| | |
| | |
| | |
| S2慢(5Hz)<S1快(200Hz)<CBF极快(1kHz) | |
| | |
| | |