当前位置：首页>学习笔记>【学习笔记】分层架构

【学习笔记】分层架构

2026-05-02 09:49:51

VLA端到端模型能力很强，但它"紧急刹车"处理不了  - 延迟 > 200ms → 检测到危险来不及停  - 概率性输出 → "99%会刹车" ≠ "会刹车"  - 目标是完成任务 → 安全不是第一优先级问题：机器人必须既"聪明"又"安全"，但端到端VLA只有"聪明"，没有"安全"答案：分层架构 —— 把"聪明"和"安全"分到不同层，各司其职

Helix架构是什么？——一张图看懂 Helix是Figure AI提出的双系统人形机器人架构，核心思想：把"想"和"做"分开，各跑各的速度。

┌─────────────────────────────────────────────────┐│  System 2（慢脑）          System 1（快脑）       ││                                                   ││  负责：理解指令、规划策略    负责：实时控制、应急反应││  模型：VLM（视觉-语言模型） 模型：轻量MLP          ││  频率：5-10 Hz              频率：200 Hz          ││  延迟：100-200ms            延迟：5ms             ││                                                   ││  输入：摄像头+语言指令       输入：潜向量z+关节状态  ││  输出：潜向量z（意图）       输出：35个关节的动作    ││                                                   ││  像将军：想清楚做什么         像士兵：照着做就行     │└─────────────────────────────────────────────────┘

三个关键点：

1. 潜向量通信   S2不说话给S1听，而是把全部想法压成64个数字直接喂给S1   信息比语言丰富得多，且S1不需要花时间理解2. 端到端联合训练   z的含义不是人设计的，是S2和S1训练时自己磨合出来的"暗号"   梯度从S1回传到S2 → S2被迫生成"对S1有用"的z3. 多机零样本协调   同一套权重控制两台Figure 02机器人   通过交换潜向量实现协作（递东西、搬大件、分工整理）   不用专门训练协调策略 → 协调是涌现出来的

为什么重要：

Helix是第一个证明"慢想+快做"分层架构在真实人形机器人上可行的工作：  - S1跑200Hz → 满足实时控制  - S2提供语义理解 → 能听懂自然语言指令  - 双机协调 → 同一模型控制多个机器人  - 单GPU训练 → 不需要海量算力发布时间：2025年3月（arXiv: 2503.12633）硬件平台：Figure 02人形机器人（35自由度）

第一层：直觉理解 —— 分层架构在做什么？

1.1 一个类比：人脑的"快思考"与"慢思考"

Daniel Kahneman《思考，快与慢》：System 1（快思考）：  - 反射式、自动、快速  - 例子：接住飞来的球、紧急刹车、躲避障碍  - 特点：不需要"想"，直接"做"  - 频率：毫秒级响应System 2（慢思考）：  - 深思熟虑、逻辑推理、缓慢  - 例子：规划路线、理解复杂指令、做数学题  - 特点：需要"想清楚"再"做"  - 频率：秒级响应关键洞察：  人脑不是"全靠System 2"或"全靠System 1"  而是两者协同：System 2规划"做什么"，System 1执行"怎么做"  遇到紧急情况，System 1直接接管，不等System 2

1.2 从人脑到机器人：分层架构的直觉

端到端VLA的问题：  只有一个"大脑" → 要同时负责理解和执行  理解需要慢（语言推理、场景理解）  执行需要快（实时控制、紧急反应）  一个系统同时满足两个矛盾需求 → 妥协、都不够好分层架构的解决方案：  System 2 = "慢脑"：负责理解指令、规划策略（低频、高智能）  System 1 = "快脑"：负责实时执行、应急反应（高频、高可靠）  两者通过"潜空间通道"通信，而非语言类比：  VLA端到端 = 一个人边想边做，想到哪做到哪  分层架构 = 将军（S2）制定战略，士兵（S1）执行战术             将军不需要告诉士兵每一步怎么走             只需要传达意图，士兵自己应对战场变化

1.3 分层 vs 端到端：不是替代，是互补

┌──────────────────────────────────────────────────────────┐│                                                          ││   端到端VLA（路线1）         分层架构（路线2）            ││   ──────────────           ──────────────               ││                                                          ││   一个模型搞定一切          两个系统各司其职               ││                                                          ││   ┌─────────────┐          ┌─────────────┐              ││   │  VLM + 动作头 │          │  S2: VLM    │ ← 慢、聪明   ││   │  (一体化)     │          │  (规划推理)  │              ││   │             │          └──────┬──────┘              ││   │  输出: 动作   │                 │ 潜向量              ││   │  频率: 5-50Hz │          ┌──────▼──────┐              ││   │             │          │  S1: 快速策略 │ ← 快、可靠   ││   │             │          │  (实时控制)   │              ││   └─────────────┘          └─────────────┘              ││   频率: 5-50Hz              频率: 200Hz+                 ││   安全: 无保障               安全: S1直接保障              ││   上限: 高（端到端优化）      上限: 受限于分层接口          ││                                                          ││   最佳场景: 泛化任务         最佳场景: 实时安全场景        ││                                                          ││   ────────────────────────────────────────────────────   ││                                                          ││   最终形态：两者融合 = VLA端到端（S2）+ 快速策略层（S1）  ││             + 安全约束层（CBF）                            ││                                                          │└──────────────────────────────────────────────────────────┘

1.4 分层架构的三个关键设计问题

问题1：两层之间如何通信？  方案A：语言通信（S2输出文字指令→S1解析）→ 信息损失大  方案B：潜向量通信（S2输出连续向量→S1直接用）→ 信息保留好 ← Helix选择  方案C：动作通信（S2输出目标动作→S1跟踪）→ 灵活性低问题2：两层如何训练？  方案A：分别训练 → 简单但接口可能不匹配  方案B：端到端联合训练 → 接口最优但训练复杂 ← Helix选择  方案C：先分别预训练再联合微调 → 折中方案问题3：两层如何处理冲突？  场景：S2说"向前走"，S1检测到前方有危险  方案A：S2优先 → 可能不安全  方案B：S1优先 → 可能完不成任务  方案C：安全约束层仲裁 → CBF安全过滤器 ← 最优方案

第二层：核心数学 —— 双系统与安全约束

2.1 Helix双系统的数学框架

System 2（慢系统）：  输入：语言指令 l、视觉观测 v  输出：潜向量 z ∈ ℝ^d（d维连续向量）  z = f_S2(l, v; θ_S2)  频率：5-10 Hz（每100-200ms更新一次）  作用：将"理解"压缩为一个意图向量System 1（快系统）：  输入：潜向量 z、本体感知 p（关节角度、力矩）  输出：关节动作 a ∈ ℝ^n（n个自由度的动作）  a = f_S1(z, p; θ_S1)  频率：200 Hz（每5ms更新一次）  作用：根据意图和当前状态，输出实时控制指令两系统的协同：  S2每100-200ms发送一次意图向量 z  S1每5ms用最新的 z + 当前本体感知 p 输出动作 a  → S2慢但聪明，S1快但只负责执行  类比：    S2 = GPS导航，每隔一段路更新路线    S1 = 驾驶员，根据路况实时调整方向盘    GPS不需要告诉驾驶员"方向盘转15度"    只需要说"前方200米左转"→ 驾驶员自己处理细节

2.2 潜向量通信：从"说话"到"传心术"

先想一个问题：你指挥朋友拿苹果，你会怎么说？

方式1：用语言  你说："把桌上那个红色的苹果拿起来放进碗里"  朋友听到了 → 自己判断苹果在哪、碗在哪、手怎么伸  问题：    - 一句话信息量有限——你没法用语言精确描述"手应该以什么角度伸过去"    - 朋友理解有偏差——"红色"是哪个红？"碗里"是碗的哪个位置？    - 交流有延迟——说完话、听懂话、再行动，每步都要时间方式2：如果能"直接传想法"呢？  假设你和朋友之间有一根"脑电波线"  你脑子里关于"怎么拿苹果"的全部理解，瞬间传到朋友脑中  朋友不需要"听懂你的话"，直接就知道该怎么动  这就是潜向量通信——S2把"全部想法"压缩成一个向量，直接塞给S1

语言通信 vs 潜向量通信的具体对比：

语言通信：  S2输出：一句文字 "把苹果放进碗里"  S1接收：先要"读懂"这句话 → 再判断苹果在哪 → 再规划动作  → 信息损失大（一句话说不清手该怎么动）  → 多了一步"理解语言"的延迟潜向量通信：  S2输出：z = [0.23, -1.45, 0.78, 2.31, -0.56, ...]  （d=64个数字）  S1接收：直接把z和本体感知拼在一起，送进MLP → 输出动作  → 不需要"理解"，直接用  → 信息保留完整（64个数字比一句话能装更多信息）假设任务：把红色杯子移到桌子左边  语言通信（信息少）：    S2 → "把红杯子移到左边"    S1要自己判断：红杯子在哪？左边是多左？手怎么伸？抓哪里？    → S1需要很强的"独立判断能力"  潜向量通信（信息多）：    S2 → z = [0.23, -1.45, 0.78, ...]         这64个数字里可能同时编码了：           - 杯子的3D位置           - 应该抓杯子的把手还是杯身           - 移动的轨迹形状           - 移动速度           - 任务进度（刚开始/快完成）    → S1不需要自己判断，直接"照着z的意思做"  类比：    语言 = "去北京"（大方向，细节自己想）    潜向量 = 一份详细的GPS路线图+速度建议+注意事项

关键问题：这64个数字是什么意思？

答案是：没有人预先规定它们是什么意思！  这64个数字的含义，是S2和S1在训练过程中"自己商量出来的"  类比：    两个陌生人在一间黑屋子里合作搬家具    一开始他们无法用语言沟通（不同语言）    但慢慢摸索出一种"暗号"：      拍两下桌子 = 往左移      拍三下 = 往右移      ...    这个"暗号"不是任何人设计的，是两个人磨合出来的  Helix的潜向量也是这样：    z的第1个数字可能编码了"目标在左边还是右边"    z的第2个数字可能编码了"应该抓还是放"    z的第3个数字可能编码了"任务进行到第几步"    ...    但具体每个数字编码什么，是训练时S2和S1自己协商出来的    不是程序员写死的

为什么能"自己商量出来"？——端到端训练

训练过程：  初始状态：S2随机输出z，S1随机输出a → 动作完全不对 → 损失很大  梯度回传（链式法则）：    损失大 → 告诉S1"你输出的动作错了"           → S1发现"是z给我的信息不对"           → 通过链式法则，这个"信息不对"的信号传回S2  S2收到信号："我输出的z让S1犯了错，我需要调整z"  多轮训练后：    S2学会了输出"对S1有用的"z    S1学会了"正确解读"S2的z    两者的"暗号"逐渐对齐  对比分别训练：    如果S2先训练好（不管S1能不能读懂）→ z可能全是S1用不上的信息    如果S1先训练好（不管S2输出什么z）→ S1可能不会正确解读z    端到端训练：两者一起学 → z的含义是双方"共同发明"的

信息瓶颈：维度d的选择

d太小（比如d=4）：  S2只能传4个数字 → 信息装不下 → S1经常猜不准  类比：只给你4个字描述一幅画 → 信息远远不够d太大（比如d=512）：  S2能传512个数字 → 信息够多，但S1的MLP要处理更多输入  → MLP更大 → 推理更慢 → 可能达不到200Hz  类比：给你一本500页的操作手册 → 信息够了，但读完就要5分钟d=64（Helix的选择）：  折中——既能装下足够的意图信息，又不让S1变慢  类比：一页纸的操作指南——简洁但够用

一句话总结：潜向量通信就是S2不再"说话"给S1听，而是把全部想法压缩成一串数字直接"喂"给S1，这串数字的含义是训练时两者自己磨合出来的，比语言信息量大得多，且不需要S1额外花时间理解。

2.3 端到端联合训练的数学

训练目标：  最小化 S1 输出动作与专家演示之间的差异  L = E[||a_pred - a_expert||²]    = E[||f_S1(f_S2(l, v; θ_S2), p; θ_S1) - a_expert||²]  同时优化 θ_S1 和 θ_S2：    θ_S1, θ_S2 = argmin L(θ_S1, θ_S2)关键设计——梯度流过潜向量：  训练时，梯度从 S1 的损失函数反向传播到 S2：  ∂L/∂θ_S2 = ∂L/∂a × ∂a/∂z × ∂z/∂θ_S2                        ↑          ↑                    S1对z的敏感度  S2如何生成z  这使得：    S2 学会生成"对S1最有用的"意图向量    S1 学会"正确解读"S2的意图向量    两者协同优化，不需要人工设计通信协议与分别训练的对比：  分别训练：S2先训练好（可能生成"对S1不友好"的z）            S1再训练（只能适应S2给的z）  联合训练：z 的含义是两者共同进化的结果            → 通信效率更高、信息损失更少

2.4 Control Barrier Function（CBF）—— 安全的数学保证

核心问题：如何数学地保证"机器人永远不会进入危险状态"？直觉：定义一个"安全度量函数"h(x)，满足：  h(x) > 0 → 安全  h(x) = 0 → 安全边界  h(x) < 0 → 危险CBF条件：  ḣ(x) = ∂h/∂x · ẋ ≥ -α·h(x)  其中：  ḣ(x) = h的变化率（h是在变好还是变差）  α > 0 是一个常数（控制安全边界的收敛速度）  直觉解读：    如果 h(x) > 0（当前安全），则 ḣ 只要不下降太快就行    如果 h(x) ≈ 0（接近边界），则 ḣ 必须 ≥ 0（必须停止靠近边界）    如果 h(x) < 0（已经危险），则 ḣ 必须 > 0（必须回到安全区）

CBF的具体例子：

场景：机器人手臂与人保持安全距离安全度量：h(x) = distance(robot, human) - d_safe  h > 0 → 距离大于安全距离 → 安全  h = 0 → 正好在安全距离边界  h < 0 → 距离小于安全距离 → 危险CBF安全过滤器（QP求解）：  VLA输出候选动作 a_VLA  CBF检查：    如果 a_VLA 满足 CBF条件 → 放行：a_safe = a_VLA    如果 a_VLA 违反 CBF条件 → 修正：    a_safe = argmin ||a_safe - a_VLA||²          ← 最小修正             s.t. ḣ(x, a_safe) ≥ -α·h(x)        ← 安全约束  这就是"在保持安全的前提下，尽量少改VLA的动作"数值例子：  机器人离人 0.3m，安全距离 0.5m → h = 0.3 - 0.5 = -0.2 < 0（危险！）  VLA输出：a_VLA = [向前走0.1m] → 离人更近 → ḣ < 0（违反CBF）  CBF修正：求解 QP    最小化 ||a_safe - a_VLA||²    约束：a_safe 使得机器人至少不靠近人    可能结果：a_safe = [向右走0.05m] → 绕开人 → ḣ > 0（满足CBF）

2.5 分层架构的频率金字塔

三层安全架构的频率与延迟：  ┌─────────────────────────────────────────────────────┐  │  Layer 3: S2 语言推理层                              │  │  频率: 5-10 Hz                                      │  │  延迟: 100-200ms                                    │  │  职责: 理解指令、规划策略、输出意图向量                 │  │  安全性: 不负责安全                                   │  ├─────────────────────────────────────────────────────┤  │  Layer 2: S1 快速策略层                              │  │  频率: 200 Hz                                       │  │  延迟: 5ms                                          │  │  职责: 实时控制、轨迹执行、简单避障                     │  │  安全性: 反射式避障（但不是数学保证）                    │  ├─────────────────────────────────────────────────────┤  │  Layer 1: CBF 安全约束层                             │  │  频率: 1000 Hz                                      │  │  延迟: 1ms                                          │  │  职责: 数学保证安全、紧急制动                          │  │  安全性: 形式化安全保证（证明性的）                      │  └─────────────────────────────────────────────────────┘  关键：紧急刹车走 Layer 1，延迟仅 1ms        不经过S2（200ms）也不经过S1（5ms）        → 从检测到危险到停机 < 10ms → 安全！

2.6 三种安全保证的对比

┌──────────┬──────────────┬──────────────┬──────────────┐│          │ 端到端VLA     │ S1反射式避障  │ CBF安全过滤   │├──────────┼──────────────┼──────────────┼──────────────┤│ 延迟     │ >200ms       │ ~5ms         │ ~1ms         ││ 保证类型  │ 无保证        │ 概率性        │ 数学证明      ││ 覆盖范围  │ 训练数据范围内 │ 训练数据范围内 │ 所有情况      ││ 对付未知  │ 可能失效      │ 可能失效      │ 保证安全      ││ 实现难度  │ 低            │ 中            │ 高            ││ 计算成本  │ 低            │ 中            │ 高（QP求解）  │└──────────┴──────────────┴──────────────┴──────────────┘投资判断：  CBF是"安全关键场景"（人机协作、医疗）的必选项  S1反射式避障是"工业场景"的性价比之选  纯端到端VLA在"无安全风险场景"（仿真、远程操作）可行

第三层：代码级原理 —— Helix架构详解

3.1 Helix完整架构

┌──────────────────────────────────────────────────────────────┐│                        Helix 架构                             ││                                                              ││  ┌──────────────────────────────────────────────────────┐   ││  │  System 2 (S2) — 慢系统                               │   ││  │                                                        │   ││  │  ┌────────────┐  ┌────────────┐                      │   ││  │  │ 视觉编码器  │  │ 语言编码器  │                      │   ││  │  │ ViT-Large  │  │ LLM骨干    │                      │   ││  │  └─────┬──────┘  └─────┬──────┘                      │   ││  │        │               │                              │   ││  │        └───────┬───────┘                              │   ││  │                ▼                                      │   ││  │  ┌──────────────────────┐                            │   ││  │  │ Transformer融合层    │                            │   ││  │  │ (交叉注意力)         │                            │   ││  │  └──────────┬───────────┘                            │   ││  │             │                                         │   ││  │             ▼                                         │   ││  │  ┌──────────────────────┐                            │   ││  │  │ 潜向量投影层          │                            │   ││  │  │ z = Linear(head)     │  ← 输出d维意图向量          │   ││  │  │ z ∈ ℝ^d             │                            │   ││  │  └──────────┬───────────┘                            │   ││  │             │                                         │   ││  │  频率: 5-10 Hz (每100-200ms)                          │   ││  │  计算量: 大（VLM推理）                                 │   ││  └──────────────┼───────────────────────────────────────┘   ││                 │ 潜向量 z                                    ││                 ▼                                            ││  ┌──────────────────────────────────────────────────────┐   ││  │  System 1 (S1) — 快系统                               │   ││  │                                                        │   ││  │  输入: z (S2意图) + p (本体感知: 关节角度/速度)         │   ││  │                                                        │   ││  │  ┌──────────────────────────────────────┐            │   ││  │  │ 轻量级MLP策略网络                      │            │   ││  │  │                                      │            │   ││  │  │ [z, p] → Linear(512) → ReLU         │            │   ││  │  │        → Linear(256) → ReLU         │            │   ││  │  │        → Linear(n_joints)            │            │   ││  │  └──────────────────────────────────────┘            │   ││  │             │                                         │   ││  │             ▼                                         │   ││  │  输出: a ∈ ℝ^n (n=35 DOF for Figure 02)              │   ││  │                                                        │   ││  │  频率: 200 Hz (每5ms)                                  │   ││  │  计算量: 小（单次MLP前向传播 < 1ms）                     │   ││  └──────────────────────────────────────────────────────┘   ││                                                              ││  可选：CBF安全层                                             ││  ┌──────────────────────────────────────────────────────┐   ││  │  输入: a (S1输出) + x (当前状态)                       │   ││  │  处理: QP求解器                                       │   ││  │  输出: a_safe (修正后的安全动作)                        │   ││  │  频率: 1000 Hz                                        │   ││  └──────────────────────────────────────────────────────┘   │└──────────────────────────────────────────────────────────────┘

3.2 Helix的关键设计决策

决策1：为什么S1用MLP而不是Transformer？  原因：速度  - MLP前向传播 < 1ms → 可以跑200Hz  - Transformer即使1层也 > 5ms → 只能跑200Hz以下  - S1不需要"理解"，只需要"执行" → MLP够用  类比：S1是脊髓反射，不需要经过大脑皮层        脊髓 = 简单的信号通路（MLP），但速度极快决策2：潜向量z的维度d应该多大？  实践：d = 32-128  太小（d=8）：信息瓶颈，S2无法充分传达意图  太大（d=512）：S1需要更多计算来处理，降低频率  Helix实践值：d ≈ 64  类比：z像一条"加密指令"    d太小 = 指令太简短，S1猜不准    d太大 = 指令太冗长，S1处理慢决策3：S2和S1的频率比是多少？  Helix实践：S2 : S1 = 1 : 20~40    S2 = 5-10 Hz    S1 = 200 Hz  意味着：S2每更新一次意图，S1执行20-40步动作  → S1在S2两次更新之间，自主处理实时变化  → 即使S2暂时"卡住"，S1也能保持控制  类比：将军每5分钟下达一次命令        士兵每5秒执行一步        中间的60步都是士兵自己判断

3.3 Helix的多机器人协调

突破性能力：两个机器人用同一套权重协调工作架构：  ┌─────────────────┐     ┌─────────────────┐  │  Robot A         │     │  Robot B         │  │                  │     │                  │  │  S2: 共享权重    │     │  S2: 共享权重    │  │  S1: 共享权重    │     │  S1: 共享权重    │  │                  │     │                  │  │  视觉: 独立观测  │     │  视觉: 独立观测  │  │  本体感知: 独立  │     │  本体感知: 独立  │  │                  │     │                  │  │  └──z_A ─────────┼─────┼──z_B ──────────┘│  │       │          │     │       │          │  │       ▼          │     │       ▼          │  │  潜向量交换       │     │  潜向量交换       │  │  (10 Hz)         │     │  (10 Hz)         │  └─────────────────┘     └─────────────────┘关键：两个机器人共享同一套神经网络权重  - 不需要"机器人A的策略"和"机器人B的策略"  - 模型通过视觉观测和潜向量交换自动区分"我是谁"  - 协调行为是从训练数据中涌现的，不是手工编程的潜向量交换的作用：  z_A 发送给 Robot B → B 知道 A 的意图  z_B 发送给 Robot A → A 知道 B 的意图  交换频率：10 Hz（比S2还高）  → 两个机器人的S1可以实时感知对方意图已验证的能力：  ✅ 传递物体（A递给B）  ✅ 协作搬运大件（两人抬桌子）  ✅ 分工整理（A收左边，B收右边）  ✅ 零样本泛化到新物体和新场景

第四层：分层架构意味着什么？【个人思考】

4.1 技术路线思考

问题：分层架构会不会取代端到端VLA？我的判断：不会取代，而是"分层+端到端"融合融合的逻辑：  VLA端到端 → 做S2（慢推理层）  快速策略   → 做S1（快执行层）  CBF       → 做安全层  三者不矛盾：    π₀.5 的VLM部分 = S2    π₀.5 的Flow Matching Action Head ≈ S1（但它不够快，200Hz需要额外优化）    + CBF安全层 = 完整方案  当前差距：    π₀.5 还没有明确的 S1/S2 分离 → 所有推理都在同一个频率    Helix 已经做了分离 → 但S2的语言能力不如π₀.5    最终谁先做出"π₀.5级别S2 + Helix级别S1 + CBF安全层" → 谁领先时间判断：  2026: 分层架构成为工业部署的标配（安全刚需）  2027: VLA+分层融合架构成为主流（兼顾智能和安全）  2028+: 标准化为"三明治"架构（S2-VLA / S1-策略 / CBF安全）

4.2 公司竞争力思考

分层架构赛道的壁垒：壁垒1：S1策略的实时性  - 200Hz控制频率需要 <5ms 推理延迟  - 只有轻量级架构（MLP/小型CNN）能做到  - 但轻量级架构的表达能力有限 → 折中是核心挑战  - 判断标准：S1频率能到多少Hz？壁垒2：S1-S2接口设计  - 潜向量维度、含义、更新频率都需要精心设计  - Helix的端到端训练是当前最优解，但训练不稳定  - 判断标准：是否实现了端到端联合训练？壁垒3：CBF安全层的工程化  - CBF理论成熟，但工程化有三个难点：    1. 安全度量函数h(x)的定义（需要领域知识）    2. QP求解器的实时性（1ms内完成）    3. CBF与VLA的兼容性（修正后的动作是否合理）  - 判断标准：CBF安全层是否通过了真实场景验证？壁垒4：多机器人协调  - Helix首次实现了零样本双机器人协调  - 但从2个机器人扩展到10个、100个仍是开放问题  - 判断标准：验证过几个机器人的协调？

4.3 Helix vs π₀.5 vs Gemini Robotics：架构维度对比

                    Helix              π₀.5           Gemini Robotics                    ─────              ────           ───────────────架构类型：          双系统分层          单系统端到端     单系统端到端S2（推理）：        自研VLM           自研VLM 7-10B   Gemini 2.0S1（执行）：        MLP 200Hz         Flow Matching    自回归Token安全层：            S1内置避障         无（需外接）     无（需外接）控制频率：          200Hz             ~50Hz           按形态变化多机器人：          ✅ 零样本双机协调   ❌              ❌潜向量通信：        ✅ 端到端训练      N/A             N/A训练数据量：        相对较小（单GPU）  大规模          海量（Gemini预训练）语言理解深度：      中等              中等            最强动作精度：          高（200Hz控制）    高（流匹配）     中（离散化损失）部署成本：          低（嵌入式GPU）    中（消费级GPU）  高（需TPU级算力）核心差异的本质：  Helix：为"实时安全控制"而设计 → 快、安全、但语言理解有限  π₀.5：为"动作生成质量"而设计 → 精确、泛化、但实时性有限  Gemini：为"语言理解深度"而设计 → 聪明、但控制弱三者不是零和博弈，最终会融合：  "Gemini级S2 + π₀.5级Flow Matching + Helix级S1 + CBF安全层"

4.4 核心指标思考

评估一家做分层架构的VLA公司时，问这5个问题：1. 你的S1频率是多少？   → < 50Hz：不够实时，和安全控制层差距大   → 50-100Hz：可用但不算快   → > 200Hz：优秀，能满足大多数实时场景2. S2和S1如何通信？   → 语言/文本通信：信息损失大，不推荐   → 动作目标通信：灵活性低   → 潜向量通信+端到端训练：当前最优3. 你有安全层吗？   → 无：只能用于无安全风险的场景   → 启发式避障：比没有好，但不是数学保证   → CBF安全过滤：数学保证，适合人机协作4. 验证过几个机器人的协调？   → 1个：没有利用分层架构的多机优势   → 2个：Helix级别   → >2个：前沿，但技术挑战大5. S1的计算需求是多少？   → 需要外接GPU：部署成本高   → 嵌入式GPU即可：部署成本低 ← Helix方案   → CPU即可：理想但尚未实现

本路线关键概念总结

概念	一句话理解	投资含义
双系统架构	S2慢想+S1快做，像人脑快慢思考	实时安全的必由之路
潜向量通信	S2和S1用压缩向量而非语言对话	端到端训练的接口设计是壁垒
CBF安全过滤	数学证明"永远不会危险"	人机协作场景的刚需
频率金字塔	S2慢(5Hz)<S1快(200Hz)<CBF极快(1kHz)	各层各司其职，不互相拖累
端到端联合训练	S2和S1一起训练，通信协议自动进化	比分别训练的接口效率高
零样本多机协调	同一模型控制多个机器人协作	Helix的独特卖点，但扩展性待验证

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

【学习笔记】分层架构

2.1 Helix双系统的数学框架

第三层：代码级原理 —— Helix架构详解

3.1 Helix完整架构

3.2 Helix的关键设计决策

3.3 Helix的多机器人协调

第四层：分层架构意味着什么？【个人思考】

4.1 技术路线思考

4.2 公司竞争力思考

4.3 Helix vs π₀.5 vs Gemini Robotics：架构维度对比

4.4 核心指标思考

本路线关键概念总结

最新文章

热门文章

随机文章

【学习笔记】分层架构

2.1 Helix双系统的数学框架

第三层：代码级原理 —— Helix架构详解

3.1 Helix完整架构

3.2 Helix的关键设计决策

3.3 Helix的多机器人协调

第四层：分层架构意味着什么？【个人思考】

4.1 技术路线思考

4.2 公司竞争力思考

4.3 Helix vs π₀.5 vs Gemini Robotics：架构维度对比

4.4 核心指标思考

本路线关键概念总结

大浩浩的笔记课堂——法考【民事诉讼法】学习笔记0861

大浩浩的笔记课堂——法考【民事诉讼法】学习笔记0861

最新文章

热门文章

随机文章