GPT-2 在 Winograd Schema,LAMBADA 和其他语言建模任务上达到了最先进的水平。
在前面提到的文章中,新浪微博资深算法专家张俊林表示,对于 GPT 2.0 的改进方向来说,如何加入情节约束,产生特别好的生成文章,这是个很有前途的方向。而在这点上,GPT 2.0 的贡献是给我们指出了一条路,就是 Transformer 刷数据量,省心省力费机器的一条路。另外,Transformer 之前在语言模型上通常做不过 RNN,虽然有后续研究表明它可以达到 RNN 类似的效果,但是 GPT 2.0 无疑进一步突破了这个障碍,为 Transformer 的进一步攻城略地打下了坚实的基础。
从这一角度来说,GPT 2.0 的性能不能被认为是过度赞誉。
问题 3:OpenAI 是否在炒作?
那么,OpenAI 不公开数据和源码究竟是不是如上文 Anima Anandkumar 所说是一场炒作呢?一方面,OpenAI 经常谈到他们对“AI”技术落入坏人手中的担忧,结合这个模型生成的假文章,他们的担忧似乎合理。另一方面,OpenAI 向来喜欢哗众取宠,经常通过官博将不成熟的工作推向公众视野以博取关注。
这些例子包括诱导《纽约时报》报道了其本质上平平无奇的发现,即如果强化学习用了错误的目标函数,就学不到让你满意的策略(https://www.nytimes.com/2017/08/13/technology/artificial-intelligence-safety-training.html)。
毕竟,这些重大故事与 OpenAI 博客上的新闻稿一脉相承,OpenAI 可能会故意策划了这么一出,让媒体大肆报道。
对此,AI 前线询问了 Jack Clark 的看法,他并未正面回应,而是给出了官方博客的文章链接和部分 GitHub 开放地址。
实际上,这项工作似乎是主流 NLP 研究的中间阶段,这是一项很好的工作,也很可能会被公布,在未来一两个月内,同样强大的 NLP 实验室可能会出现同样的成果。
也许,这篇博客会在媒体上形成病毒式传播与当今新闻的供需生产模式有关,按需生产的新闻已经非常常见,官方 PR 博客已经成为新闻生产的可靠消息源,从而广为传播。
但笔者认为,即使是使用了一些 PR 的手段,也掩盖不了 GPT 2.0 出色的语言生成性能,一项好的研究成果首先应该被人所知,才能发挥应有的作用,而不是默默躲在黑暗的角落等待被发掘。
参考链接:
http://approximatelycorrect.com/2019/02/17/openai-trains-language-model-mass-hysteria-ensues/
相关文章
猜你喜欢