如何理解看待 OpenAI 公布PPO算法？-华威派

> 自媒体 > AI人工智能 > 如何理解看待 OpenAI 公布PPO算法？

如何理解看待 OpenAI 公布PPO算法？

来源：等保测评

2023-08-20

182

管理

回答一:

TRPO得到的结果是PPO(trustregionpolicyoptimization)类似的解决方案。TRPO规定解一个constrainedoptimization(KLdivergence低于某个值)，而PPO则直接将constraints放入objective中。

在TRPO中，这个optimization需要使用conjugategradient的近似解决方案，并且需要规定constraint的二次导向KLdivergence，所以当问题很大时，它会花费大量的资源。而且PPO只需要一次导的信息，这样就大大节省了资源，可以应用到规模较大的问题上(自然需要添加一些细节，这样结果就不会和TRPO差太多了)。Deepmind最近的一篇文章EmergenceofLocomotiotiotionBen(DPPO)）.

现在openai已经把PPO当作默认算法，deepmind也在最近的几篇文章中使用过，所以我认为有什么问题可以深入加强学习，那就勇敢地使用这个算法吧。

Azure OpenAI 企业API接口开通申请：https://forms.office.com/r/7Y4wFaqAxV

事实上，PPO的本质应该是：

对于likelihood-ratiopolicygradient算法，本质上是提高“好”样本的可能性，降低“差”样本的可能性。那普通的策略梯度是怎样的呢？这是关于一种取样，如果它的return恰好很高，那么它的可能性就会迅速增加，相反，如果return是负的，那么它的可能性就会迅速降低。这实际上是不稳定的，因为策略梯度方差本来就很大。所以，PPO从更新中忽略了这种样本。仅此而已。

PPO算法这个太专业了，我尽量简单一点。

在加强学习算法的突破中，两个指标非常重要，一个是你能得到多少关于你最终改进的对策，另一个是你的样本效率。

第一个标准很容易理解，就是看你使用的最终效果。第二个标准的原因来自一个客观事实。互动获取数据往往非常昂贵。我们应该尽可能少地使用互动来实现可用的情况。PPO算法就是解决这些问题。

OpenAI发布的PPO算法是一种基于概率的策略优化算法，它可以升级对策参数，以满足环境的变化。

它可以在更低的步骤中获得更多的利润，并更快地学习改变的环境。PPO算法可以帮助研究人员更好地了解机器人行为，帮助他们处理机器人行为控制问题。

也可用于无人驾驶、机器人操作、空中制导技术等机器人领域的任务。

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

从OpenAI VPT，看视频预训练

2023-08-20 18:14

OpenAI 官方解密 ! AI 打Dota，你也可以

2023-08-20 18:13

相关文章

怎么和喜欢的人聊天？做到这几点，可以聊上一整天

担心泄密！苹果限制员工使用ChatGPT 内部已开启自研

阿里回应正在研发类ChatGPT对话机器人：目前处于内测阶段..

绍兴警方侦破利用ChatGPT技术团伙制作虚假视频案

微软CEO：ChatGPT将重塑几乎所有软件，聊天或将加入广告以商业化 | 最前线..

科大讯飞类ChatGPT技术最快5月落地副总裁刘聪：有信心实现技术阶跃进步..

如何使用GPT-3在10分钟内构建惊人的AI应用程序？

基于 ChatGPT 海外工具站的变现模式：卖流量和卖产品

逆天魔法正式解禁，GPT-4以来最强应用“代码解释器”.....

关于作者

婆罗花开(普通会员)

点击领取今天的签到奖励!

猜你喜欢

01

抛妻弃女31年，李连杰再次遇到前妻黄秋燕，泪点却在合影的位置上..

2022/09/12

02

豆瓣评分9.0以上的国产剧排行榜豆瓣评分9.0以上的国产剧前十..

2022/09/24

03

盘古和女娲（中国神话故事）

2022/08/27

04

2022离世的11位名人：有人患癌，有人突发意外，有人元旦当天离世..

2022/09/11

05

巨蟹座：一生最旺的颜色，能旺你一生，可以不喜欢，但必须爱上它..

6个月前

06

30个暖心睡前小故事，很甜很撩的睡前小故事

2022/08/26

07

香蕉是如何种出来的？从育苗到收获，揭秘香蕉种植的全过程..

2022/06/02

08

“没有好奇心，人就死了”！喜马拉雅鬼王——杨湃的鬼故事哲学..

2022/08/27

标签云

1

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索