增强学习的基本组成部分:

agent

环境

policy:定义了agent在给定时间如何学习。

激励信号:定义了增强学习的目标。

环境模型


增强学习的三大类

  • 基于策略的增强学习
  • 基于最优值的增强学习
  • 基于模型的增强学习

results matching ""

    No results matching ""