纯视觉VLA解决方案学习有限数据的空间概括的强大特征

纯视觉VLA解决方案学习有限数据的空间概括的强大特征

想象一下您学会开车的情况。在培训领域,您可以反复练习某些运动。当您到达特定位置时,请按制动器并打开方向盘,转动特定点。随着时间的流逝,这些动作形成“有条件记忆”,并随着环境的变化而注意。最近,Chihiro的聪明研究人员注意到,基于模仿学习的视觉运动策略中存在类似的现象,并且在一篇有关“视觉运动政策是否需要本体感知状态”的文章中?纸质链接:https://arxiv.org/abs/2509.18644项目主页:https://statefreepolicy.github.io,研究人员提出了一种称为Apátraste政策的策略。与州政策相比,即使在桌子高度,机器人的位置和对象标准咳嗽的位置,机器人也可以表现出强大的空间泛化功能,并严格固定了训练数据。例如,羽毛夹任务将具有概括的能力在桌面高度(标准表的高度为80 cm)中:在服装堆叠任务中,如果机器人手臂的位置显着从标准位置或在收集机器人的完整身体机器人的选择过程中显着转移,无论是环境位置还是在收集完整机器人的收集过程中。基于机器人操纵和模仿学习的视觉运动策略被广泛使用。但是,为了实现精确和可靠的控制,这些模型通常会引入SO被称为“状态”信息,以及对任务环境的视觉观察。该状态信息可以提供策略的紧凑和精确机器人姿势的描述,但提出了问题。 TheSodels倾向于克服记忆训练轨迹,这严重限制了空间概括能力。特别是,在当前环境中,获取大量真实机器数据非常昂贵,我挑战位置的位置是关键的瓶颈,它限制了视觉运动策略的发展。没有状态的国家解决不良空间概括能力问题的工作条件完全消除了视觉运动策略进入的状态信息,并且仅取决于视觉观察。该策略称为“没有国家的政策”。该方法基于两个重要条件:首先,在相对效应器空间中表示动作。另一个是允许视觉输入涵盖任务所需的完整观察范围,即观察范围任务。 1。相对最终的动作空间:在此动作表示空间中,该模型预测了基于入口的相对运动,例如在X方向上移动1 cm,而不是直接预测最终效应子在与机器人身体相关的特定位置。这个表达不是基于全球位置的确切信息,这可以使策略更加特别,而是考虑到动作的相对变化。 2。对任务的完整观察:在常规进入状态的实践中,状态输入可以为其策略提供近似的任务信息。例如,在达到一定状态后,该模型知道需要多少移动才能到达客观位置,而无需关注复杂的图像进入环境。为了改善政治的概括,没有国家的政策消除了国家的进入,通过视觉进入必须提供任务中所有对象的信息。本文中的摄像头系统由机器人头上的主室和手腕相机的机制组成。如前图所示,在正常配置中,传统摄像机安装在最终效应器上。在双眼构型中,研究人员放置了大角度凸轮在最终效应子上方和下方的时代,在最终执行下提供了更广阔的视野和视野。但是,应考虑到这种配置即使在最复杂的环境中也可以获得完整任务的观察。简单环境中的传统配置也可以满足观察完整任务的需求。真实机器的实验结果是广泛的实验,尤其是在实际机器任务中,以检查没有状态的策略的骨骼概括能力。这些实验涵盖了各种任务,包括简单的收集和安置任务,堆叠困难的衣服的任务以及使用完整的机器人在冰箱中收集饮料的任务。这些任务的数据有严格的收集标准。也就是说,严格控制对象在数据中的放置。我在这里。例如,在将笔支撑笔支撑的任务中,桌面高度具有并没有严格改变,笔支撑的位置不会严格改变。这种配置可确保从模型本身获得空间概括功能而不是通用数据。此外,除了更好的空间概括能力外,研究人员还发现,Unpáreas政策还具有更大的数据应用效率和Bosnology的Afaster概括。据此,研究人员也有有趣的发现。这意味着消除上镜头可以进一步提高空间概括能力。如前图所示,在选择和地点的简单任务中,Unpárea政策显着提高了空间概括功能,包括与州进入策略相比,包括高和水平的概括能力。例如,在将笔保持笔持有者的任务中,高度概括的测试的成功率从0增加到0.98,而S广泛水平测试的UCCESS速率从0增加到0.58。与传统摄像机的配置相比,具有完整任务观察的配置将高度概括的测试的成功率从0.87提高到0.98,而Prhorizo​​ntal Permerizatization Ears的成功率从0.27增加到0.58。另一方面,在更艰巨的任务中,例如使用完整的机器人(由于硬件限制)获得冰箱饮料(由于硬件的限制),在没有状态的策略的水平概括能力大于具有状态输入模型的策略,在执行传统摄像头的水平通用能力测试之后。先前的实验表明,没有状态的策略可以在空间概括函数明显更强并且数据的多样性受到限制时获得空间概括的强大函数。除了没有S的空间概括函数之外Tates,没有状态的政策的额外好处也显示出更高的数据使用效率。相反,基于州的策略通常需要大量的演示式牵引力,以避免克服特定的轨迹,从而增加数据收集成本。没有状态的政策在此问题上不容易抓住,即使数据有限,也可以保持良好的性能。研究人员通过铅笔夹的任务进行了研究:各种尺寸(300,使用200、100、50个演示数据的数据),基于状态的策略很快被夸大了,这导致绩效的退化,随着数据量减少,策略却没有吸引力始终保持更高的成功率。此外,没有状态的政策还显示出对物质的调整的好处。与依赖于要求对状态空间进行重组的状态进入的政策相比,没有状态的政策必须适应SMALL图像补偿具有相似的腔室配置,并且必须更有效地完成迁移式迁移。在折叠任务中,研究人员首先接受了两个臂ARX5训练,然后适用于双双类臂机器人,并使用100个演示数据进行了调整。上表中的结果表明,没有状态的策略会更快地收敛,并具有更高的成功率。这验证了功能更强大的跨平台的适应性。在消除了限制空间概括的国家的贡献之后,研究人员更多地反映了是否还有其他潜在的瓶颈,这表明空中室也可能构成问题。如果对象重新定位,则在极端情况下(随着桌子增加到100厘米的增加),图像的分布将以上视图的角度进行补偿,这对性能产生了严重影响。娃娃摄像机可以与最终效应器一起移动,但始终获得相对的视角。训练。由于双角双娃娃摄像头能够涵盖对任务的完整观察,因此上摄像头不仅是多余的,而且甚至会产生负面影响。为了验证这一点,研究人员设计了另外三个具有挑战性的方案,即将笔固定在笔的头上。桌子增加到100厘米,笔支撑额加倍,笔支架水平移动20厘米。上表中的结果表明,在三种情况下,没有空气室状态的政策表现较低,但是仅使用双角腕相机的策略始终保持很高的成功率。这一发现鼓励应检查传感器设计,并在将来消除虚拟摄像机。总结本研究中,研究人员是一项自由政策,以效应器的两个条件为基础,并通过井(Well -Compres)获得对任务的完整观察Sive的视觉信息。如果不依赖国家的贡献,该策略不仅保持了域的完整绩效,而且还提供了空间概括的重大改进。同时,没有国家的政策有效地减少了对昂贵的真实数据的需求,支持更有效的乘法适应,为未来的传感器设计提供新的想法,并提供新的灵感来构建更普遍的机器人学习系统。
特殊声明:先前的内容(包括照片和视频(如果有),如有)已由网络自我媒体平台的用户收费和发布。该平台仅提供信息存储服务。
请注意:以前的内容(如果您有摄影或视频)将由社交媒体平台NetEase Hao的用户收取和发布,仅提供信息存储服务。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注