专注于可以从失败中学习的强化学习算法
来自OpenAI人员的最新消息都是奖金三人组。他们正在发布新的健身房环境 - 一套基于真实机器人平台的模拟机器人环境 - 包括Shadow手和Fetch研究机器人,IEEE Spectrum表示。
除了该工具包,他们还发布了Hindsight Experience Replay(HER)的开源版本。顾名思义,它可以帮助机器人从后见之明中学习基于目标的机器人任务。
最后但同样重要的是,他们发布了一系列机器人研究请求。“如果你是一个雄心勃勃的人,” IEEE Spectrum的 Evan Ackerman表示,“OpenAI还发布了一系列与HER相关研究的请求。”
“虽然HER是一种很有前途的方法,可以用像我们在这里提出的机器人环境这样的稀疏奖励来学习复杂的基于目标的任务,但仍然有很大的改进空间,”他们在博客中写道。“与我们最近发表的研究报告2.0类似,我们对如何具体改善HER以及强化学习提出了一些想法。”
OpenAI是一家人工智能研究公司。他们在机器学习会议上发布,他们的博客文章传达他们的研究。
Elon Musk是联合创始人。它由个人和公司赞助,他们的目标是发现并制定“安全的人工智能通路”。
他们展示了完成的不同任务。ShadowHand 机器人操纵一个物体(显示一个手操纵,包括弯曲手指,一个孩子的字母块,一个蛋形物体,并将手指穿过一根小棍子)。他们还推出了一个机器人“轻推”机器人机制,可以滑动冰球以及抓住一个小球并提起它
具体来说,这些是展示的各种专长:ShadowHand必须用拇指和选定的手指到达,直到它们在手掌上方的目标位置相遇。ShadowHand必须操纵一个块,直到它达到所需的目标位置和旋转。ShadowHand必须操纵一个蛋,直到它达到所需的目标位置和旋转。ShadowHand必须操纵笔直到它达到所需的目标位置和旋转。
总而言之,“最新的环境模拟了一个Fetch机器人手臂来推动周围的东西,以及一个ShadowHand用机器人的手指抓住和操纵东西,”Katyanna Quach在The Register中说。
OpenAI HER产品特别有趣; 训练和强化得到重新思考。HER允许代理人从失败中吸取教训。正如阿克曼所写的那样,她“将失败重新定义为成功,以帮助机器人更像人类学习。”
麻省理工学院技术评论中的 Jackie Snow 观察到“通过研究如何将一项任务的每次尝试都应用于其他任务来实现这一目标。”
斯诺添加说:“她不会给机器人带来任何正确的任务奖励 - 如果整个事情做得恰到好处,它只会把它们交出去。”
重塑失败是否成功?阿克曼提出了这样的解释:“为了理解她是如何工作的,想象一下你是在棒球比赛中击球。你的目标是击出本垒打。在第一个球场上,你击中一个犯规的球。你还学会了如何击中一个犯规球......凭借后见之明的经验重播,你决定学习你刚刚做了什么,主要是说,'你知道,如果我想打一个犯规球,那本来是完美的!'“
HER的实施有多好?“我们的研究结果表明,她可以从稀疏的奖励中学习大多数新机器人问题的成功政策。”
玩盲人游戏的孩子经常告诉玩家,“你变得温暖,温暖。” 欣赏他们的研究的关键词是稀疏和密集的奖励。
“大多数强化学习算法使用'密集奖励',Ackerman解释说,”机器人根据完成任务的距离来获取不同大小的cookie ...稀疏奖励意味着机器人只有在成功时才获得一个cookie ,就是这样:更容易测量,更容易编程,更容易实现。“