跳转到内容

近端策略优化

维基百科,自由的百科全书

近端策略優化(英語:Proximal Policy OptimizationPPO[1]OpenAI公司于2017年开发的一系列无模型强化学习算法。该算法采用了策略梯度算法,这意味着它们的做法是搜索策略空间而非状态-动作对的值。

近端策略优化包含了置信域方法的一些优点,如更易于实现,更通用,并且具有更好的样本复杂度。[2]该算法是通过使用不同的目标函数来完成的。[3]

另见

[编辑]

参考文献

[编辑]
  1. ^ 郭子聖. 事後近端策略優化於增強式學習之演算法 (碩士论文). 國立交通大學. 2018. 
  2. ^ Schulman, John; Wolski, Filip; Dhariwal, Prafulla; Radford, Alec; Klimov, Oleg. Proximal Policy Optimization Algorithms. 2017. arXiv:1707.06347可免费查阅. 
  3. ^ Proximal Policy Optimization. OpenAI. 2017 [2023-05-13]. (原始内容存档于2023-02-23). 

外部链接

[编辑]