2018级硕士生韩帅在数据挖掘领域重要国际期刊Information Sciences上发表论文

发布日期：2021-02-24 发布人：点击量：

吕帅副教授指导的伟德BETVlCTOR19462018级硕士生韩帅同学的论文“Recruitment-imitation mechanism for evolutionary reinforcement learning”被数据挖掘领域重要国际期刊Information Sciences（CCF-B）录用。论文第一作者为吕帅副教授，第二作者为2018级硕士生韩帅，其他作者为2017级博士生周文博、2020级硕士生张峻伟。

强化学习、进化算法和模仿学习是处理连续控制任务的三种主要方法。强化学习具有较高的样本效率，但对超参数设置敏感，需要有效地探索；进化算法稳定，但样本效率较低；模仿学习具有较好的样本效率和稳定性，但需要专家数据的指导。本文提出了进化强化学习的招募-模仿机制RIM（recruitment-imitation mechanism），是一种结合了上述三种方法优势的可扩展框架。该框架的核心是一个双行动者、单评论家的强化学习Agent。该Agent从种群中招募高适应度的个体，指导自身从经验池中学习。同时，种群中低适应度的个体模仿强化学习Agent的行为模式，提高其适应度。RIM框架中的强化学习和模仿学习可以分别使用任意离策略的行动者-评论家型强化学习和数据驱动的模仿学习替代。本文利用Mujoco的若干连续控制任务评估RIM框架。实验结果表明：RIM优于以往的进化学习和强化学习方法。RIM的组件性能明显优于以往进化强化学习算法的组件，采用软更新的招募方式使强化学习Agent的学习比硬更新的方式更快。

上一篇：2019级硕士生尚龙康在计算机网络领域重要国际期刊Computer Networks上发表论文下一篇：2017级硕士生李明在并行与分布计算领域重要国际期刊Journal of Parallel and Distributed Computing上发表论文