https://www.yunlianauto.com

美国研究人员开发开源通用模型 帮助机器人进行物体操控

盖世汽车讯 随着ChatGPT和其他大语言模型(LLM)的公开发布,世界各地的开发人员开始尝试利用这些模型来增强自己系统的交互能力。然而,类似的可通用机器人操控模型仍然很少。据外媒报道,最近,加州大学伯克利分校(UC Berkeley)、斯坦福大学(Stanford University)和芝加哥大学(CMU)的研究人员推出开源机器人操作通用模型(generalist model)——Octo,可以让不同的机器人系统有效地操控各种对象。这一模型是在arXiv服务器上预先发布的一篇论文中提出的,或将为开发可以处理手动任务的机器人开辟新的途径。

图片1.png

(图片来源:arxiv.org)

该团队表示,目前人工智能领域的大部分进展均由大型数据集和大模型推动。在机器人社区,团队研究人员近期组装了Open X-Embodiment数据集,这是一个汇集了许多研究机构的数据的大型操作数据集。虽然该新数据集资源令人激动,但当时可以利用它的模型还不是很多。

最近,该团队主要有两个工作目标。首先是开发良好的通用机器人模型,使其可以应用于各种机器人,其次是创建开放源代码,以便其他研究人员将来可以构建类似的模型。

研究人员表示,Octo即是‘通用型’机器人模型。这是一个神经网络,可以控制许多不同类型的机器人,让它们完成‘拿起勺子’、‘关上抽屉’和‘擦桌子’等要求。关键是使其通用且可以在多种机器人上运行。看看世界各地的研究实验室,人们会发现他们中有很多都使用不同的机器人。因此,要确保Octo被许多研究人员使用,唯一的方法是使其能够支持多种机器人。

在技术研究和开发社区中,可以跨多个系统应用的高性能计算工具通常被称为基础模型。举例来说,ChatGPT可以用来为各种代理和系统配备自然语言处理(NLP)功能。研究人员希望建立类似的基础模型,以用于机器人控制。换句话说,这些模型可以控制许多机器人,让它们解决许多不同的任务。

Octo是朝着这一目标迈出的第一步,其训练看起来与ChatGPT等模型非常相似。研究人员整理出庞大而多样化的数据集(在该案例中是机器人数据而不是文本),并训练大模型来预测机器人在当前机器人状态和任务指令下应该执行的下一步动作。

此次开发的Octo模型基于与ChatGPT相同类型的神经网络(即transformer)。与之前开发的其他机器人模型相比,Octo的关键优势是用于训练它的数据规模及其灵活性。

该模型在迄今汇编的最大的机器人操作轨迹数据集Open X-Embodiment上进行训练。Octo还可以处理各种感官输入,包括不同类型的图像、机器人关节读数、语言指令,以及与目标相关的图像等。

免责声明:本站登载此文仅出于信息分享,并不意味着赞同其观点及其描述,不承担侵权行为的连带责任。如涉及版权等问题,请与我们联系(联系QQ:26887486),我们将及时删除处理。
本文链接:https://www.yunlianauto.com/article/49/48182.html