期刊论文

学界 DeepMind新论文提出神经情景控制:可显著提速深度强化学习

内容摘要:burberry的读音,burkitt的读音,bus driver的读音,buses的读音,cafe的读音,cake的读音,camera的英文读音,candy的读音...

  DeepMind近日在arXiv上发布了一篇新论文介绍了一种名叫「神经情景控制(NeuralEpisodicControl)」的新方法。DeepMind创始人兼CEODemisHassabis也是该论文的作者之一。机器对该论文进行了摘要介绍,论文原文可点击文末「阅读原文」查看。

  深度强化学习方法能在广泛的中实现超越人类的表现。这样的方法常低效的,要想实现合理程度的表现,所需的数据量往往比人类所需的多几个数量级。我们提出了神经情景控制(NeuralEpisodicControl/NEC):一种能够快速吸收新经验和基于此采取行动的深度强化学习代理。我们的代理使用了一种价值函数的半值表示(semi-tabularrepresentation):一种过去经验的缓冲器,其包含了该价值函数的缓慢变化的状态表示和快速更新的估计。我们通过在广泛中的研究表明:我们的代理的学习速度可以显著快于当前最佳的通用深度强化学习代理。

  神经情景控制(NeuralEpisodicControl)

  我们的代理由三个组分构成:一个处理像素图像的卷积神经网络,一个记忆模块集合(每个动作一个模块)和一个将动作记忆的读出转换成Q(s,a)值的最终的网络。这里的卷积神经网络使用了和DQN(Mnihetal.,2015)所使用的一样的架构。

  算法1:神经情景控制(NeuralEpisodicControl)

  图1:在一个可微分神经词典(DifferentiableNeuralDictionary)上的操作的图示

  图2:对单个动作a的情景记忆模块(episodicmemorymodule)的架构。表示当前状态的像素进入通过左下方的一个卷积神经网络,然后在右上方输出Q(s,a)的一个估计。梯度会流过这整个架构。

  图3~图8:不同算法在不同游戏上的学习曲线,上图为不同算法在Ms.Pac-Man上的学习曲线:人类标准化的游戏分数,按算法排序,y轴上表示的分位数(quantiles)


分享到:

关键词:
Copyright © 版权所有 - 网站标签 - 网站地图 - 联系我们 -