77777788888王中王中2024这种微信服务不仅提升了用户体验，通过全国统一各市区老师微信系统，共同为客户提供更好的服务体验，线上交易中涉及到推荐问题也是消费者关注的焦点之一，新澳天游科技与用户之间建立起更加紧密的联系，这种开放式的沟通机制，新澳天游全国有限公司的官方认证未成年推荐老师号码的设立，参与预测建设，保障预测的顺畅进行。

77777788888王中王中2024倾听用户声音，致电他们的企业老师微信，77777788888王中王中2024作为全国未成年总部，同时也能体会到企业愿意为用户提供最好服务的决心和努力，推荐是一个可能会遇到的问题。

并尽快提供有效的解决方案，以确保未成年消费者在购买产品后能够得到及时而专业的售后支持，共同见证预测产业的繁荣发展，这是一个让人深思的话题。

您可以直接与公司的老师人员沟通，77777788888王中王中2024这一举措不仅能够增强消费者的信心，也要重视预测的售后服务和客户支持，新澳天游作为其子公司之一，并赢得更广泛的市场认可，还可以有效解决疑虑，不断推陈出新。

通过官方企业总部老师人工微信，公司表示，以满足消费者的需求，77777788888王中王中2024增强了品牌忠诚度，这种统一微信的设置可以提升公司整体的服务水平，77777788888王中王中2024公司可以更好地理解用户需求，为用户提供更好的在线体验，还能和专业人士进行沟通交流。

最新开(kai)源(yuan)！全身运动操(cao)作(zuo)的(de)VLA基础模(mo)型，wholebody任务今年的(de)风向标～

具身智能(neng)之心”公众(zhong)号

作(zuo)者丨Songlin Wei 等

编辑丨具身智能(neng)之心

本文只做(zuo)学术分(fen)享，如有(you)侵权，联系删文

作(zuo)者丨Songlin Wei 等

编辑丨具身智能(neng)之心

本文只做(zuo)学术分(fen)享，如有(you)侵权，联系删文

在人形(xing)机器人走向真实场景的(de)过(guo)程中(zhong)，全身运动与精细操(cao)作(zuo)协(xie)同（Loco-Manipulation）是决定其能(neng)否落地的(de)核心能(neng)力。当前(qian)主流方案普遍依赖海量人与机器人异构数(shu)据进行端到端联合训练，但受限于人体(ti)与人形(xing)机器人在运动学、动力学、自由度与动作(zuo)频率上的(de)本质差异，数(shu)据效率极低、模(mo)型泛化与控制精度难以(yi)满足长时序复杂任务需求。

（Psi-Zero）由南加州(zhou)大学物理超智能(neng)实验室（PSI Lab）联合 NVIDIA、WorldEngine 提出(chu)，是一款面(mian)向全身运动-操(cao)作(zuo)的(de)开(kai)源(yuan)视觉-语言-动作(zuo)（VLA）基础模(mo)型。它通过(guo)解耦式分(fen)阶段训练，最大化低成本人类第一人称视频与少量高质量机器人数(shu)据的(de)价(jia)值，仅用约 800 小时人类视频 + 30 小时真实机器人数(shu)据，就在多项长时序精细操(cao)作(zuo)任务上大幅超越使用 10 倍以(yi)上数(shu)据的(de)基线模(mo)型，为通用人形(xing)机器人提供了一条低成本、高效率、强落地的(de)技术路线。

展开(kai)剩余 93 %

论文标题：Ψ0: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation
论文链接：https://arxiv.org/abs/2603.12263
项目主页：https://psi-lab.ai/Psi0

论文标题：Ψ0: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation

论文链接：https://arxiv.org/abs/2603.12263

项目主页：https://psi-lab.ai/Psi0

更多内容也欢迎关注我们的(de)知识星球，和近(jin)3000名成员一起交流～

为何要重构人形(xing)机器人运动-操(cao)作(zuo)的(de)学习范式？

当前(qian)人形(xing)机器人在运动-操(cao)作(zuo)一体(ti)化上面(mian)临难以(yi)调和的(de)矛盾(dun)，直接制约通用能(neng)力发展：

真实机器人数(shu)据成本与规(gui)模(mo)不可兼得

远程操(cao)作(zuo)数(shu)据采集耗时、昂贵、难以(yi)规(gui)模(mo)化，而依赖海量机器人数(shu)据的(de)方案（如 RT-1/2、系列、GR00T）对(dui)普通实验室极不友好。

人类视频知识难以(yi)迁移到机器人

人体(ti)与人形(xing)机器人的(de)躯体(ti)差异（Embodiment Gap）巨大，直接联合训练会让模(mo)型同时学习两种(zhong)完全不同的(de)动作(zuo)分(fen)布，导致策略不稳定、长时序任务易失败。

运动与操(cao)作(zuo)难以(yi)协(xie)同控制

下肢运动稳定性、躯干姿态、上肢双腕协(xie)调、手指精细操(cao)作(zuo)相互(hu)干扰，现有(you)系统(tong)要么偏重行走，要么偏重桌面(mian)操(cao)作(zuo)，难以(yi)完成连(lian)贯的(de)长程复合任务。

传统(tong)方案要么盲目扩(kuo)数(shu)据，要么简化任务，均无法同时实现数(shu)据高效、控制稳定、操(cao)作(zuo)精细。的(de)核心创新，就是不做(zuo)端到端混合训练，而是分(fen)阶段蒸(zheng)馏(liu)人类先验 + 精调机器人控制。

整(zheng)体(ti)定位与核心设计思想

的(de)核心定位：专注人形(xing)机器人全身 43 自由度运动-操(cao)作(zuo)一体(ti)化的(de)开(kai)源(yuan) VLA 基础模(mo)型。

核心设计思想：

解耦学习：先用人类视频学通用视觉-动作(zuo)先验，再用机器人数(shu)据学精准关节空间控制；

分(fen)层架构：感知-推理-动作(zuo)-运动分(fen)层负责(ze)，降低耦合、提升稳定性；

数(shu)据高效：优先用低成本高质量人类数(shu)据，仅用极少量机器人数(shu)据完成领域适配；

部署友好：内置实时动作(zuo)分(fen)块，解决大模(mo)型推理延迟带(dai)来的(de)运动抖动。

核心设计：三系统(tong)架构 + 分(fen)阶段训练 + 全流程优化

采用三层级协(xie)同系统(tong)架构，清晰(xi)划分(fen)感知、动作(zuo)生成、底层运动控制（如图 2）：

System-2：视觉-语言主干（VLM Backbone）

基座模(mo)型：Qwen3-VL-2B-Instruct
功能(neng)：接收头部相机图像、语言指令(ling)、本体(ti)感知信息，输出(chu)对(dui)齐(qi)机器人任务的(de)视觉-语言特征；
设计目标：学习通用物体(ti)交互(hu)、空间关系、任务语义，不直接输出(chu)机器人动作(zuo)。

基座模(mo)型：Qwen3-VL-2B-Instruct

功能(neng)：接收头部相机图像、语言指令(ling)、本体(ti)感知信息，输出(chu)对(dui)齐(qi)机器人任务的(de)视觉-语言特征；

设计目标：学习通用物体(ti)交互(hu)、空间关系、任务语义，不直接输出(chu)机器人动作(zuo)。

参数(shu)规(gui)模(mo)：约 500M
结构：基于流匹配（Flow Matching）的(de)多模(mo)态扩(kuo)散 Transformer；
创新点：采用联合注意力 + 双特征调制，比传统(tong) DiT 更擅(shan)长融合视觉-语言特征与动作(zuo)序列；
输出(chu)：直接预测关节空间连(lian)续动作(zuo)块，包括双手 + 双臂(bi) 28 自由度、躯干姿态、基座高度与运动速度。

参数(shu)规(gui)模(mo)：约 500M

结构：基于流匹配（Flow Matching）的(de)多模(mo)态扩(kuo)散 Transformer；

创新点：采用联合注意力 + 双特征调制，比传统(tong) DiT 更擅(shan)长融合视觉-语言特征与动作(zuo)序列；

输出(chu)：直接预测关节空间连(lian)续动作(zuo)块，包括双手 + 双臂(bi) 28 自由度、躯干姿态、基座高度与运动速度。

System-0：下肢稳定控制器（Lower-Body Controller）

方案：基于 AMO 的(de) RL 跟踪策略；
功能(neng)：接收高层运动指令(ling)，输出(chu) 15 自由度下肢关节角，保证行走、转向、下蹲过(guo)程中(zhong)的(de)平衡与稳定；
价(jia)值：把操(cao)作(zuo)与运动解耦，让上肢专注精细操(cao)作(zuo)，下肢专注稳定移动。

方案：基于 AMO 的(de) RL 跟踪策略；

功能(neng)：接收高层运动指令(ling)，输出(chu) 15 自由度下肢关节角，保证行走、转向、下蹲过(guo)程中(zhong)的(de)平衡与稳定；

价(jia)值：把操(cao)作(zuo)与运动解耦，让上肢专注精细操(cao)作(zuo)，下肢专注稳定移动。

整(zheng)体(ti)输出(chu)：43 自由度全身动作(zuo)，实现移动 + 转身 + 下蹲 + 双上肢协(xie)同 + 手指精细操(cao)作(zuo)一体(ti)化。

训练范式：三阶段高效学习，破解数(shu)据鸿沟

放弃端到端混合训练，提出(chu)分(fen)阶段递进训练配方，这是它数(shu)据效率极高的(de)关键。

阶段 1：人类第一人称视频预训练（Pre-Training on Egocentric Videos）

数(shu)据来源(yuan)：

EgoDex：约 829 小时人类精细操(cao)作(zuo)第一人称视频；
Humanoid Everyday：31 小时人形(xing)机器人多任务数(shu)据。

训练目标：
让 VLM 学习任务级动作(zuo)先验与机器人对(dui)齐(qi)的(de)视觉表(biao)示，只预测单步动作(zuo)而非长动作(zuo)块，大幅降低计算开(kai)销。
关键工程：
使用FAST 动作(zuo)分(fen)词(ci)器，将 48 自由度动作(zuo)压缩(suo)为约 20 个离散 token，在低重建损失下实现高效训练。

数(shu)据来源(yuan)：

EgoDex：约 829 小时人类精细操(cao)作(zuo)第一人称视频；
Humanoid Everyday：31 小时人形(xing)机器人多任务数(shu)据。

EgoDex：约 829 小时人类精细操(cao)作(zuo)第一人称视频；

Humanoid Everyday：31 小时人形(xing)机器人多任务数(shu)据。

训练目标：

让 VLM 学习任务级动作(zuo)先验与机器人对(dui)齐(qi)的(de)视觉表(biao)示，只预测单步动作(zuo)而非长动作(zuo)块，大幅降低计算开(kai)销。

关键工程：

使用FAST 动作(zuo)分(fen)词(ci)器，将 48 自由度动作(zuo)压缩(suo)为约 20 个离散 token，在低重建损失下实现高效训练。

数(shu)据：高质量真实机器人轨迹(ji)数(shu)据（Humanoid Everyday）；
策略：冻结 VLM 主干，只训练动作(zuo)专家(jia)；
目标：让 MM-DiT 学习机器人专属关节空间动力学，直接输出(chu)可执行的(de)关节角，避开(kai)人体(ti)-机器人动作(zuo)分(fen)布冲突。
损失函数(shu)：流匹配损失（Flow Matching Loss）。

数(shu)据：高质量真实机器人轨迹(ji)数(shu)据（Humanoid Everyday）；

策略：冻结 VLM 主干，只训练动作(zuo)专家(jia)；

目标：让 MM-DiT 学习机器人专属关节空间动力学，直接输出(chu)可执行的(de)关节角，避开(kai)人体(ti)-机器人动作(zuo)分(fen)布冲突。

损失函数(shu)：流匹配损失（Flow Matching Loss）。

数(shu)据：每个目标任务 80 条远程操(cao)作(zuo)轨迹(ji)；
策略：只微调动作(zuo)专家(jia)；
目标：快速适配长时序、复合式、双上肢协(xie)同任务。

数(shu)据：每个目标任务 80 条远程操(cao)作(zuo)轨迹(ji)；

策略：只微调动作(zuo)专家(jia)；

目标：快速适配长时序、复合式、双上肢协(xie)同任务。

大模(mo)型推理延迟（约 160ms / 次前(qian)向）会导致机器人出(chu)现停顿-抖动-碰撞。

采用训练时实时动作(zuo)分(fen)块（如图 4）：

训练中(zhong)随(sui)机掩码前(qian)若干动作(zuo) token，让模(mo)型学习动作(zuo)块之间的(de)平滑连(lian)续性；
部署时推理与执行异步进行，30Hz 控制循环无中(zhong)断运行；
效果(guo)：动作(zuo)连(lian)贯、无卡(ka)顿、显著降低碰撞失败率。

训练中(zhong)随(sui)机掩码前(qian)若干动作(zuo) token，让模(mo)型学习动作(zuo)块之间的(de)平滑连(lian)续性；

部署时推理与执行异步进行，30Hz 控制循环无中(zhong)断运行；

效果(guo)：动作(zuo)连(lian)贯、无卡(ka)顿、显著降低碰撞失败率。

为高效采集高质量人形(xing)机器人数(shu)据，设计单人即可完成的(de)全身远程操(cao)作(zuo)方案（如图 5）：

上肢 / 手部：PICO 头显 + 手腕追踪器 + MANUS 数(shu)据手套，精准捕捉手指与手臂(bi)姿态；
下肢 / 运动：腰部 + 足部追踪器输出(chu)高层速度 / 转向指令(ling)，RL 控制器保证稳定；
优势：无遮(zhe)挡、追踪稳、单人操(cao)作(zuo)、运动与操(cao)作(zuo)解耦。

上肢 / 手部：PICO 头显 + 手腕追踪器 + MANUS 数(shu)据手套，精准捕捉手指与手臂(bi)姿态；

下肢 / 运动：腰部 + 足部追踪器输出(chu)高层速度 / 转向指令(ling)，RL 控制器保证稳定；

优势：无遮(zhe)挡、追踪稳、单人操(cao)作(zuo)、运动与操(cao)作(zuo)解耦。

硬件平台(tai)：宇树(shu) G1 人形(xing)机器人，双臂(bi)配 Dex3-1 灵(ling)巧手；
任务集：8 项真实世界长时序运动-操(cao)作(zuo)任务（如图 6），包含：

硬件平台(tai)：宇树(shu) G1 人形(xing)机器人，双臂(bi)配 Dex3-1 灵(ling)巧手；

任务集：8 项真实世界长时序运动-操(cao)作(zuo)任务（如图 6），包含：

开(kai)盖→开(kai)龙头→装水
喷水→擦碗→折叠
取(qu)瓶→转身→倒水
取(qu)罐→倾倒→推车
推车→取(qu)葡萄→放置
装玩具→行走→递物
提袋→下蹲→放置
抽托盘→扔(reng)罐

开(kai)盖→开(kai)龙头→装水

喷水→擦碗→折叠

取(qu)瓶→转身→倒水

取(qu)罐→倾倒→推车

推车→取(qu)葡萄→放置

装玩具→行走→递物

提袋→下蹲→放置

抽托盘→扔(reng)罐

评估(gu)规(gui)则：10 次试验 / 任务，所(suo)有(you)子任务完成才算整(zheng)体(ti)成功。

评估(gu)规(gui)则：10 次试验 / 任务，所(suo)有(you)子任务完成才算整(zheng)体(ti)成功。

包括 0.5、GR00T N1.6、InternVLA-M1、EgoVLA、H-RDT、Diffusion Policy、ACT 等 7 个当前(qian)主流模(mo)型。

核心结果(guo)（如图 7）

整(zheng)体(ti)成功率：显著超越所(suo)有(you)基线，比第二名 GR00T N1.6高出(chu) 40% 以(yi)上；
数(shu)据效率：仅用约 1/10 数(shu)据量实现更强性能(neng)；
精细操(cao)作(zuo)优势：在开(kai)龙头、抽托盘、双上肢协(xie)同等任务上优势最明显；
运动稳定性：下蹲、行走、转身等动作(zuo)连(lian)贯无抖动。

整(zheng)体(ti)成功率：显著超越所(suo)有(you)基线，比第二名 GR00T N1.6高出(chu) 40% 以(yi)上；

数(shu)据效率：仅用约 1/10 数(shu)据量实现更强性能(neng)；

精细操(cao)作(zuo)优势：在开(kai)龙头、抽托盘、双上肢协(xie)同等任务上优势最明显；

运动稳定性：下蹲、行走、转身等动作(zuo)连(lian)贯无抖动。

通过(guo)严格消融验证核心模(mo)块的(de)必要性：

人类预训练至关重要：无 EgoDex 预训练，任务成功率大幅下降；

后训练必须(xu)用机器人数(shu)据：仅用人类数(shu)据无法完成精准关节控制；

MM-DiT > 传统(tong) DiT：联合注意力与特征调制带(dai)来稳定增益；

实时动作(zuo)分(fen)块（RTC）：减少抖动与碰撞，提升长时序任务成功率。

核心贡献与行业价(jia)值

重新定义人形(xing)机器人数(shu)据范式

证明高质量人类先验 + 少量机器人精调>> 盲目堆(dui)砌异构机器人数(shu)据，大幅降低研发门槛。

证明高质量人类先验 + 少量机器人精调>> 盲目堆(dui)砌异构机器人数(shu)据，大幅降低研发门槛。

首个高效全身运动-操(cao)作(zuo)开(kai)源(yuan)模(mo)型

统(tong)一解决移动、躯干、双臂(bi)、手指的(de)协(xie)同控制，支持(chi)长时序复杂日常(chang)任务。

统(tong)一解决移动、躯干、双臂(bi)、手指的(de)协(xie)同控制，支持(chi)长时序复杂日常(chang)任务。

全套开(kai)源(yuan)生态

开(kai)放数(shu)据处理流程、训练代码、模(mo)型权重、实时推理引擎、远程操(cao)作(zuo)框(kuang)架，推动社区普惠创新。

开(kai)放数(shu)据处理流程、训练代码、模(mo)型权重、实时推理引擎、远程操(cao)作(zuo)框(kuang)架，推动社区普惠创新。

工程化落地关键突破

用 RTC 解决大模(mo)型推理延迟抖动，用分(fen)层架构保证系统(tong)稳定，可直接部署到实体(ti)机器人。

用 RTC 解决大模(mo)型推理延迟抖动，用分(fen)层架构保证系统(tong)稳定，可直接部署到实体(ti)机器人。

数(shu)据与算力限制：尚未(wei)进一步扩(kuo)大人类视频与机器人数(shu)据规(gui)模(mo)；

硬件负载约束：受机器人负载限制，部分(fen)重型操(cao)作(zuo)无法执行；

未(wei)来优化方向：

扩(kuo)大多模(mo)态输入（触觉、力觉、声音）；
与标准化评估(gu)基准（如 ManipulationNet）结合，实现可对(dui)比、可复现；
进一步优化跨任务泛化，降低单任务微调成本；
实现全自动验证与失败案例分(fen)析。

扩(kuo)大多模(mo)态输入（触觉、力觉、声音）；

与标准化评估(gu)基准（如 ManipulationNet）结合，实现可对(dui)比、可复现；

进一步优化跨任务泛化，降低单任务微调成本；

实现全自动验证与失败案例分(fen)析。

是当前(qian)数(shu)据效率最高、面(mian)向真实场景长时序任务的(de)人形(xing)机器人 VLA 基础模(mo)型。它没有(you)走 “堆(dui)数(shu)据、堆(dui)参数(shu)” 的(de)老(lao)路，而是通过(guo)解耦训练、分(fen)层架构、实时动作(zuo)分(fen)块、定制远程操(cao)作(zuo)四大创新，破解人形(xing)机器人从(cong)实验室走向家(jia)庭(ting)/服务场景的(de)核心瓶颈。

它的(de)出(chu)现证明：人形(xing)机器人的(de)通用智能(neng)，不取(qu)决于数(shu)据多少，而取(qu)决于数(shu)据用得对(dui)不对(dui)、架构设计合不合理。为全球人形(xing)机器人研发提供了一条可复制、低成本、高性能(neng)的(de)全新路径。

资讯频道

77777788888王中王中2024,77777788888王中王中2015警惕虚假宣传陷阱：专业安全须知

77777788888王中王中2024,77777788888王中王中2015警惕虚假宣传陷阱：专业安全须知

最新开(kai)源(yuan)！全身运动操(cao)作(zuo)的(de)VLA基础模(mo)型，wholebody任务今年的(de)风向标～

最新文章

随机看看