新算法助力!机器人即将实现“直觉行动”

赫特福德郡大学的研究人员开发了一种新算法,该算法能让机器人的运行更具直观性——也就是说,利用其环境来指导决策。

原理在于,借助该算法,机器人代理能自行创建目标。

该算法首次把不同的目标设定方法统一在一个与物理学直接相关的概念之下,并且还让这种计算变得透明,以便其他人能够进行研究和采用。

该算法的原理与著名的混沌理论有关,因为这种方法让代理成为“系统动态混沌的主宰者”。

该研究已在《PRX Life》杂志上发表。来自赫特福德郡的研究人员探索了机器人“动机模型”,这些模型即使在没有明确奖励信号的情况下,也能模仿人类和动物的决策过程。

该研究引入了人工智能(AI)公式,这些公式能为机器人计算出一种在没有直接指令或人类输入时决定未来行动的办法。

计算机科学教授兼资深作者丹尼尔·波拉尼(Daniel Polani)解释说:“从应用的角度来讲,这可能意味着,比如说,让机器人在没有被告知的情况下自行玩耍和操作物体。

“它可以通过鼓励更‘自然’的行为和互动来改进机器人学习与人类和其他机器人互动的方式。

“这有更多的应用——例如放置在人类操作员无法触及的情况下(如地下或星际位置)的半自主机器人的生存能力表现。”

在人类和动物中,有一种理论假定存在一种“内在动机”,在这种情况下,行为是由生物与其环境之间的相互作用驱动,而不是由特定的学习奖励(如食物)驱动。本文成功地把这种“内在动机”理论转化成机器人代理可以使用的理论。

波拉尼教授补充说:“这项工作令人感到兴奋,因为我们如今能够在机器人里落实一种机制,这种机制类似于帮助人类和动物在毫无先前经验的状况下解决新问题的那些机制。

我们期望能以这项工作为基础,在未来研发出流程更直观的更像人的机器人。它为有着和我们类似决策过程的更复杂机器人创造了巨大的机遇。

这篇论文所依据的理论,被称作‘赋能最大化’,在赫特福德大学已经发展好些年了。它指出,通过扩大未来结果的范围,机器人在更长远的未来也能有更优的选择。关键在于,这种方法替代了传统的奖励系统(比如食物信号),并且有可能因此将其排除掉了。

虽然赋权最大化已展现出良好的发展前景,但它尚未得到充分理解或广泛应用。过去大多数研究依赖于模拟,在精心计算复杂系统所需信息的同时,该理论仍颇具挑战性。

然而,这项最新的创新性研究旨在阐释为何基于赋权的动机能够催生出类似于生物体的行为,从而有可能造就更多内在驱动型的机器人;并且它还提供了一种得到显著改进的计算这些动机的方法。

波拉尼教授称,接下来的步骤是运用这种突破性算法,让机器人能更多地了解世界,发展直接学习的能力,并识别和锤炼在现实场景中能够提升其价值的新技能。