> 自媒体 > AI人工智能 > 如何理解看待 OpenAI 公布PPO算法?
如何理解看待 OpenAI 公布PPO算法?
来源:等保测评
2023-08-20
152
管理

回答一:

TRPO得到的结果是PPO(trustregionpolicyoptimization)类似的解决方案。TRPO规定解一个constrainedoptimization(KLdivergence低于某个值),而PPO则直接将constraints放入objective中。

在TRPO中,这个optimization需要使用conjugategradient的近似解决方案,并且需要规定constraint的二次导向KLdivergence,所以当问题很大时,它会花费大量的资源。而且PPO只需要一次导的信息,这样就大大节省了资源,可以应用到规模较大的问题上(自然需要添加一些细节,这样结果就不会和TRPO差太多了)。Deepmind最近的一篇文章EmergenceofLocomotiotiotionBen(DPPO)).

现在openai已经把PPO当作默认算法,deepmind也在最近的几篇文章中使用过,所以我认为有什么问题可以深入加强学习,那就勇敢地使用这个算法吧。

Azure OpenAI 企业API接口开通申请:https://forms.office.com/r/7Y4wFaqAxV

回答二:

事实上,PPO的本质应该是:

对于likelihood-ratiopolicygradient算法,本质上是提高“好”样本的可能性,降低“差”样本的可能性。那普通的策略梯度是怎样的呢?这是关于一种取样,如果它的return恰好很高,那么它的可能性就会迅速增加,相反,如果return是负的,那么它的可能性就会迅速降低。这实际上是不稳定的,因为策略梯度方差本来就很大。所以,PPO从更新中忽略了这种样本。仅此而已。

回答三:

PPO算法这个太专业了,我尽量简单一点。

在加强学习算法的突破中,两个指标非常重要,一个是你能得到多少关于你最终改进的对策,另一个是你的样本效率。

第一个标准很容易理解,就是看你使用的最终效果。第二个标准的原因来自一个客观事实。互动获取数据往往非常昂贵。我们应该尽可能少地使用互动来实现可用的情况。PPO算法就是解决这些问题。

回答四:

OpenAI发布的PPO算法是一种基于概率的策略优化算法,它可以升级对策参数,以满足环境的变化。

它可以在更低的步骤中获得更多的利润,并更快地学习改变的环境。PPO算法可以帮助研究人员更好地了解机器人行为,帮助他们处理机器人行为控制问题。

也可用于无人驾驶、机器人操作、空中制导技术等机器人领域的任务。

1
点赞
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与华威派无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非华威派)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@goodmaoning.com
关于作者
婆罗花开(普通会员)
点击领取今天的签到奖励!
签到排行
1
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索