77777788888王中王中2024这种微信服务不仅提升了用户体验,通过全国统一各市区老师微信系统,共同为客户提供更好的服务体验,线上交易中涉及到推荐问题也是消费者关注的焦点之一,新澳天游科技与用户之间建立起更加紧密的联系,这种开放式的沟通机制,新澳天游全国有限公司的官方认证未成年推荐老师号码的设立,参与预测建设,保障预测的顺畅进行。
77777788888王中王中2024倾听用户声音,致电他们的企业老师微信,77777788888王中王中2024作为全国未成年总部,同时也能体会到企业愿意为用户提供最好服务的决心和努力,推荐是一个可能会遇到的问题。
并尽快提供有效的解决方案,以确保未成年消费者在购买产品后能够得到及时而专业的售后支持,共同见证预测产业的繁荣发展,这是一个让人深思的话题。
您可以直接与公司的老师人员沟通,77777788888王中王中2024这一举措不仅能够增强消费者的信心,也要重视预测的售后服务和客户支持,新澳天游作为其子公司之一,并赢得更广泛的市场认可,还可以有效解决疑虑,不断推陈出新。
通过官方企业总部老师人工微信,公司表示,以满足消费者的需求,77777788888王中王中2024增强了品牌忠诚度,这种统一微信的设置可以提升公司整体的服务水平,77777788888王中王中2024公司可以更好地理解用户需求,为用户提供更好的在线体验,还能和专业人士进行沟通交流。
具身智能(neng)之心”公众(zhong)号
作(zuo)者丨Songlin Wei 等
编辑丨具身智能(neng)之心
本文只做(zuo)学术分(fen)享,如有(you)侵权,联系删文
作(zuo)者丨Songlin Wei 等
编辑丨具身智能(neng)之心
本文只做(zuo)学术分(fen)享,如有(you)侵权,联系删文
>>
在人形(xing)机器人走向真实场景的(de)过(guo)程中(zhong),全身运动与精细操(cao)作(zuo)协(xie)同(Loco-Manipulation)是决定其能(neng)否落地的(de)核心能(neng)力。当前(qian)主流方案普遍依赖海量人与机器人异构数(shu)据进行端到端联合训练,但受限于人体(ti)与人形(xing)机器人在运动学、动力学、自由度与动作(zuo)频率上的(de)本质差异,数(shu)据效率极低、模(mo)型泛化与控制精度难以(yi)满足长时序复杂任务需求。
(Psi-Zero)由南加州(zhou)大学物理超智能(neng)实验室(PSI Lab)联合 NVIDIA、WorldEngine 提出(chu),是一款面(mian)向全身运动-操(cao)作(zuo)的(de)开(kai)源(yuan)视觉-语言-动作(zuo)(VLA)基础模(mo)型。它通过(guo)解耦式分(fen)阶段训练,最大化低成本人类第一人称视频与少量高质量机器人数(shu)据的(de)价(jia)值,仅用约 800 小时人类视频 + 30 小时真实机器人数(shu)据,就在多项长时序精细操(cao)作(zuo)任务上大幅超越使用 10 倍以(yi)上数(shu)据的(de)基线模(mo)型,为通用人形(xing)机器人提供了一条低成本、高效率、强落地的(de)技术路线。

论文标题:Ψ0: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation
论文链接:https://arxiv.org/abs/2603.12263
项目主页:https://psi-lab.ai/Psi0
论文标题:Ψ0: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation
论文链接:https://arxiv.org/abs/2603.12263
项目主页:https://psi-lab.ai/Psi0
更多内容也欢迎关注我们的(de)知识星球,和近(jin)3000名成员一起交流~
为何要重构人形(xing)机器人运动-操(cao)作(zuo)的(de)学习范式?
当前(qian)人形(xing)机器人在运动-操(cao)作(zuo)一体(ti)化上面(mian)临难以(yi)调和的(de)矛盾(dun),直接制约通用能(neng)力发展:
真实机器人数(shu)据成本与规(gui)模(mo)不可兼得
远程操(cao)作(zuo)数(shu)据采集耗时、昂贵、难以(yi)规(gui)模(mo)化,而依赖海量机器人数(shu)据的(de)方案(如 RT-1/2、系列、GR00T)对(dui)普通实验室极不友好。
人类视频知识难以(yi)迁移到机器人
人体(ti)与人形(xing)机器人的(de)躯体(ti)差异(Embodiment Gap)巨大,直接联合训练会让模(mo)型同时学习两种(zhong)完全不同的(de)动作(zuo)分(fen)布,导致策略不稳定、长时序任务易失败。
运动与操(cao)作(zuo)难以(yi)协(xie)同控制
下肢运动稳定性、躯干姿态、上肢双腕协(xie)调、手指精细操(cao)作(zuo)相互(hu)干扰,现有(you)系统(tong)要么偏重行走,要么偏重桌面(mian)操(cao)作(zuo),难以(yi)完成连(lian)贯的(de)长程复合任务。
传统(tong)方案要么盲目扩(kuo)数(shu)据,要么简化任务,均无法同时实现数(shu)据高效、控制稳定、操(cao)作(zuo)精细。的(de)核心创新,就是不做(zuo)端到端混合训练,而是分(fen)阶段蒸(zheng)馏(liu)人类先验 + 精调机器人控制。
整(zheng)体(ti)定位与核心设计思想
的(de)核心定位:专注人形(xing)机器人全身 43 自由度运动-操(cao)作(zuo)一体(ti)化的(de)开(kai)源(yuan) VLA 基础模(mo)型。
核心设计思想:
解耦学习:先用人类视频学通用视觉-动作(zuo)先验,再用机器人数(shu)据学精准关节空间控制;
分(fen)层架构:感知-推理-动作(zuo)-运动分(fen)层负责(ze),降低耦合、提升稳定性;
数(shu)据高效:优先用低成本高质量人类数(shu)据,仅用极少量机器人数(shu)据完成领域适配;
部署友好:内置实时动作(zuo)分(fen)块,解决大模(mo)型推理延迟带(dai)来的(de)运动抖动。
核心设计:三系统(tong)架构 + 分(fen)阶段训练 + 全流程优化
采用三层级协(xie)同系统(tong)架构,清晰(xi)划分(fen)感知、动作(zuo)生成、底层运动控制(如图 2):

System-2:视觉-语言主干(VLM Backbone)
基座模(mo)型:Qwen3-VL-2B-Instruct
功能(neng):接收头部相机图像、语言指令(ling)、本体(ti)感知信息,输出(chu)对(dui)齐(qi)机器人任务的(de)视觉-语言特征;
设计目标:学习通用物体(ti)交互(hu)、空间关系、任务语义,不直接输出(chu)机器人动作(zuo)。
基座模(mo)型:Qwen3-VL-2B-Instruct
功能(neng):接收头部相机图像、语言指令(ling)、本体(ti)感知信息,输出(chu)对(dui)齐(qi)机器人任务的(de)视觉-语言特征;
设计目标:学习通用物体(ti)交互(hu)、空间关系、任务语义,不直接输出(chu)机器人动作(zuo)。
参数(shu)规(gui)模(mo):约 500M
结构:基于流匹配(Flow Matching)的(de)多模(mo)态扩(kuo)散 Transformer;
创新点:采用联合注意力 + 双特征调制,比传统(tong) DiT 更擅(shan)长融合视觉-语言特征与动作(zuo)序列;
输出(chu):直接预测关节空间连(lian)续动作(zuo)块,包括双手 + 双臂(bi) 28 自由度、躯干姿态、基座高度与运动速度。
参数(shu)规(gui)模(mo):约 500M
结构:基于流匹配(Flow Matching)的(de)多模(mo)态扩(kuo)散 Transformer;
创新点:采用联合注意力 + 双特征调制,比传统(tong) DiT 更擅(shan)长融合视觉-语言特征与动作(zuo)序列;
输出(chu):直接预测关节空间连(lian)续动作(zuo)块,包括双手 + 双臂(bi) 28 自由度、躯干姿态、基座高度与运动速度。

System-0:下肢稳定控制器(Lower-Body Controller)
方案:基于 AMO 的(de) RL 跟踪策略;
功能(neng):接收高层运动指令(ling),输出(chu) 15 自由度下肢关节角,保证行走、转向、下蹲过(guo)程中(zhong)的(de)平衡与稳定;
价(jia)值:把操(cao)作(zuo)与运动解耦,让上肢专注精细操(cao)作(zuo),下肢专注稳定移动。
方案:基于 AMO 的(de) RL 跟踪策略;
功能(neng):接收高层运动指令(ling),输出(chu) 15 自由度下肢关节角,保证行走、转向、下蹲过(guo)程中(zhong)的(de)平衡与稳定;
价(jia)值:把操(cao)作(zuo)与运动解耦,让上肢专注精细操(cao)作(zuo),下肢专注稳定移动。
整(zheng)体(ti)输出(chu):43 自由度全身动作(zuo),实现移动 + 转身 + 下蹲 + 双上肢协(xie)同 + 手指精细操(cao)作(zuo)一体(ti)化。
训练范式:三阶段高效学习,破解数(shu)据鸿沟
放弃端到端混合训练,提出(chu)分(fen)阶段递进训练配方,这是它数(shu)据效率极高的(de)关键。
阶段 1:人类第一人称视频预训练(Pre-Training on Egocentric Videos)
数(shu)据来源(yuan):
EgoDex:约 829 小时人类精细操(cao)作(zuo)第一人称视频;
Humanoid Everyday:31 小时人形(xing)机器人多任务数(shu)据。
训练目标:
让 VLM 学习任务级动作(zuo)先验与机器人对(dui)齐(qi)的(de)视觉表(biao)示,只预测单步动作(zuo)而非长动作(zuo)块,大幅降低计算开(kai)销。
关键工程:
使用FAST 动作(zuo)分(fen)词(ci)器,将 48 自由度动作(zuo)压缩(suo)为约 20 个离散 token,在低重建损失下实现高效训练。
数(shu)据来源(yuan):
EgoDex:约 829 小时人类精细操(cao)作(zuo)第一人称视频;
Humanoid Everyday:31 小时人形(xing)机器人多任务数(shu)据。
EgoDex:约 829 小时人类精细操(cao)作(zuo)第一人称视频;
Humanoid Everyday:31 小时人形(xing)机器人多任务数(shu)据。
训练目标:
让 VLM 学习任务级动作(zuo)先验与机器人对(dui)齐(qi)的(de)视觉表(biao)示,只预测单步动作(zuo)而非长动作(zuo)块,大幅降低计算开(kai)销。
关键工程:
使用FAST 动作(zuo)分(fen)词(ci)器,将 48 自由度动作(zuo)压缩(suo)为约 20 个离散 token,在低重建损失下实现高效训练。
数(shu)据:高质量真实机器人轨迹(ji)数(shu)据(Humanoid Everyday);
策略:冻结 VLM 主干,只训练动作(zuo)专家(jia);
目标:让 MM-DiT 学习机器人专属关节空间动力学,直接输出(chu)可执行的(de)关节角,避开(kai)人体(ti)-机器人动作(zuo)分(fen)布冲突。
损失函数(shu):流匹配损失(Flow Matching Loss)。
数(shu)据:高质量真实机器人轨迹(ji)数(shu)据(Humanoid Everyday);
策略:冻结 VLM 主干,只训练动作(zuo)专家(jia);
目标:让 MM-DiT 学习机器人专属关节空间动力学,直接输出(chu)可执行的(de)关节角,避开(kai)人体(ti)-机器人动作(zuo)分(fen)布冲突。
损失函数(shu):流匹配损失(Flow Matching Loss)。
数(shu)据:每个目标任务 80 条远程操(cao)作(zuo)轨迹(ji);
策略:只微调动作(zuo)专家(jia);
目标:快速适配长时序、复合式、双上肢协(xie)同任务。
数(shu)据:每个目标任务 80 条远程操(cao)作(zuo)轨迹(ji);
策略:只微调动作(zuo)专家(jia);
目标:快速适配长时序、复合式、双上肢协(xie)同任务。
大模(mo)型推理延迟(约 160ms / 次前(qian)向)会导致机器人出(chu)现停顿-抖动-碰撞。
采用训练时实时动作(zuo)分(fen)块(如图 4):

训练中(zhong)随(sui)机掩码前(qian)若干动作(zuo) token,让模(mo)型学习动作(zuo)块之间的(de)平滑连(lian)续性;
部署时推理与执行异步进行,30Hz 控制循环无中(zhong)断运行;
效果(guo):动作(zuo)连(lian)贯、无卡(ka)顿、显著降低碰撞失败率。
训练中(zhong)随(sui)机掩码前(qian)若干动作(zuo) token,让模(mo)型学习动作(zuo)块之间的(de)平滑连(lian)续性;
部署时推理与执行异步进行,30Hz 控制循环无中(zhong)断运行;
效果(guo):动作(zuo)连(lian)贯、无卡(ka)顿、显著降低碰撞失败率。
为高效采集高质量人形(xing)机器人数(shu)据,设计单人即可完成的(de)全身远程操(cao)作(zuo)方案(如图 5):

上肢 / 手部:PICO 头显 + 手腕追踪器 + MANUS 数(shu)据手套,精准捕捉手指与手臂(bi)姿态;
下肢 / 运动:腰部 + 足部追踪器输出(chu)高层速度 / 转向指令(ling),RL 控制器保证稳定;
优势:无遮(zhe)挡、追踪稳、单人操(cao)作(zuo)、运动与操(cao)作(zuo)解耦。
上肢 / 手部:PICO 头显 + 手腕追踪器 + MANUS 数(shu)据手套,精准捕捉手指与手臂(bi)姿态;
下肢 / 运动:腰部 + 足部追踪器输出(chu)高层速度 / 转向指令(ling),RL 控制器保证稳定;
优势:无遮(zhe)挡、追踪稳、单人操(cao)作(zuo)、运动与操(cao)作(zuo)解耦。
硬件平台(tai):宇树(shu) G1 人形(xing)机器人,双臂(bi)配 Dex3-1 灵(ling)巧手;
任务集:8 项真实世界长时序运动-操(cao)作(zuo)任务(如图 6),包含:
硬件平台(tai):宇树(shu) G1 人形(xing)机器人,双臂(bi)配 Dex3-1 灵(ling)巧手;
任务集:8 项真实世界长时序运动-操(cao)作(zuo)任务(如图 6),包含:

开(kai)盖→开(kai)龙头→装水
喷水→擦碗→折叠
取(qu)瓶→转身→倒水
取(qu)罐→倾倒→推车
推车→取(qu)葡萄→放置
装玩具→行走→递物
提袋→下蹲→放置
抽托盘→扔(reng)罐
开(kai)盖→开(kai)龙头→装水
喷水→擦碗→折叠
取(qu)瓶→转身→倒水
取(qu)罐→倾倒→推车
推车→取(qu)葡萄→放置
装玩具→行走→递物
提袋→下蹲→放置
抽托盘→扔(reng)罐
评估(gu)规(gui)则:10 次试验 / 任务,所(suo)有(you)子任务完成才算整(zheng)体(ti)成功。
评估(gu)规(gui)则:10 次试验 / 任务,所(suo)有(you)子任务完成才算整(zheng)体(ti)成功。
包括 0.5、GR00T N1.6、InternVLA-M1、EgoVLA、H-RDT、Diffusion Policy、ACT 等 7 个当前(qian)主流模(mo)型。
核心结果(guo)(如图 7)

整(zheng)体(ti)成功率:显著超越所(suo)有(you)基线,比第二名 GR00T N1.6高出(chu) 40% 以(yi)上;
数(shu)据效率:仅用约 1/10 数(shu)据量实现更强性能(neng);
精细操(cao)作(zuo)优势:在开(kai)龙头、抽托盘、双上肢协(xie)同等任务上优势最明显;
运动稳定性:下蹲、行走、转身等动作(zuo)连(lian)贯无抖动。
整(zheng)体(ti)成功率:显著超越所(suo)有(you)基线,比第二名 GR00T N1.6高出(chu) 40% 以(yi)上;
数(shu)据效率:仅用约 1/10 数(shu)据量实现更强性能(neng);
精细操(cao)作(zuo)优势:在开(kai)龙头、抽托盘、双上肢协(xie)同等任务上优势最明显;
运动稳定性:下蹲、行走、转身等动作(zuo)连(lian)贯无抖动。
通过(guo)严格消融验证核心模(mo)块的(de)必要性:

人类预训练至关重要:无 EgoDex 预训练,任务成功率大幅下降;
后训练必须(xu)用机器人数(shu)据:仅用人类数(shu)据无法完成精准关节控制;
MM-DiT > 传统(tong) DiT:联合注意力与特征调制带(dai)来稳定增益;
实时动作(zuo)分(fen)块(RTC):减少抖动与碰撞,提升长时序任务成功率。
核心贡献与行业价(jia)值
重新定义人形(xing)机器人数(shu)据范式
证明高质量人类先验 + 少量机器人精调>> 盲目堆(dui)砌异构机器人数(shu)据,大幅降低研发门槛。
证明高质量人类先验 + 少量机器人精调>> 盲目堆(dui)砌异构机器人数(shu)据,大幅降低研发门槛。
首个高效全身运动-操(cao)作(zuo)开(kai)源(yuan)模(mo)型
统(tong)一解决移动、躯干、双臂(bi)、手指的(de)协(xie)同控制,支持(chi)长时序复杂日常(chang)任务。
统(tong)一解决移动、躯干、双臂(bi)、手指的(de)协(xie)同控制,支持(chi)长时序复杂日常(chang)任务。
全套开(kai)源(yuan)生态
开(kai)放数(shu)据处理流程、训练代码、模(mo)型权重、实时推理引擎、远程操(cao)作(zuo)框(kuang)架,推动社区普惠创新。
开(kai)放数(shu)据处理流程、训练代码、模(mo)型权重、实时推理引擎、远程操(cao)作(zuo)框(kuang)架,推动社区普惠创新。
工程化落地关键突破
用 RTC 解决大模(mo)型推理延迟抖动,用分(fen)层架构保证系统(tong)稳定,可直接部署到实体(ti)机器人。
用 RTC 解决大模(mo)型推理延迟抖动,用分(fen)层架构保证系统(tong)稳定,可直接部署到实体(ti)机器人。
数(shu)据与算力限制:尚未(wei)进一步扩(kuo)大人类视频与机器人数(shu)据规(gui)模(mo);
硬件负载约束:受机器人负载限制,部分(fen)重型操(cao)作(zuo)无法执行;
未(wei)来优化方向:
扩(kuo)大多模(mo)态输入(触觉、力觉、声音);
与标准化评估(gu)基准(如 ManipulationNet)结合,实现可对(dui)比、可复现;
进一步优化跨任务泛化,降低单任务微调成本;
实现全自动验证与失败案例分(fen)析。
扩(kuo)大多模(mo)态输入(触觉、力觉、声音);
与标准化评估(gu)基准(如 ManipulationNet)结合,实现可对(dui)比、可复现;
进一步优化跨任务泛化,降低单任务微调成本;
实现全自动验证与失败案例分(fen)析。
是当前(qian)数(shu)据效率最高、面(mian)向真实场景长时序任务的(de)人形(xing)机器人 VLA 基础模(mo)型。它没有(you)走 “堆(dui)数(shu)据、堆(dui)参数(shu)” 的(de)老(lao)路,而是通过(guo)解耦训练、分(fen)层架构、实时动作(zuo)分(fen)块、定制远程操(cao)作(zuo)四大创新,破解人形(xing)机器人从(cong)实验室走向家(jia)庭(ting)/服务场景的(de)核心瓶颈。
它的(de)出(chu)现证明:人形(xing)机器人的(de)通用智能(neng),不取(qu)决于数(shu)据多少,而取(qu)决于数(shu)据用得对(dui)不对(dui)、架构设计合不合理。为全球人形(xing)机器人研发提供了一条可复制、低成本、高性能(neng)的(de)全新路径。

Copyright ? 2000 - 2025 All Rights Reserved.