近日,原 FAIR(Facebook AI 研究院)研究员诺姆·布朗(Noam Brown)发推特称:“我很高兴与大家分享一件事:我加入了 OpenAI。多年来,我一直在研究扑克(Poker)和外交(Diplomacy)等游戏中的 AI 自对弈和推理。现在我将研究如何使这些方法真正变得通用。如果成功,我们可能有一天会看到比 GPT-4 好 1000 倍的大型语言模型。”
图 | Libratus 的相关论文(来源:Science)
Pluribus 的相关论文则于 2019 年登上 Science 的封面,论文题为《多人扑克的超人人工智能》(Superhuman AI for multiplayer poker),依然由布朗和桑德霍尔姆教授担任共同作者 [2]。该成果还入选 2019 年“科学年度突破奖”的候选名单。
图 | CICERO 的相关论文(来源:Science)
研发 CICERO 的原因在于,尽管人们在训练 AI 系统模仿人类语言方面取得了很大进展,但是构建使用自然语言的、并能在互动环境中有意义地与人类交流的智能体,仍然是一个重大挑战。
图 | CICERO 的架构图(来源:Science)
CICERO 则能将语言模型与计划和强化学习算法相结合,通过从对话中推断玩家的想法和意图,并在推进自己的计划的过程中生成对话。
在一场匿名游戏中,CICERO 在 40 场比赛中的平均得分是人类玩家的两倍多,在玩过一场以上比赛的参与者中排名位于前 10%。
名校背景、三篇 Science 论文加持、并在 Meta 工作过,而且有过金融领域的从业经验。布朗的履历已经相当不错,而从他的个人首页可知,除了研究人工智能和机器学习之外,分布式计算技术和算法博弈论也是他的研究方向。后两项专长毫无疑问可以给OpenAI 这一新东家锦上添花。至于他能否研发出“比 GPT-4 好 1000 倍的大型语言模型”,相信不远的将来就能见分晓。
参考资料:
1.Brown, N., & Sandholm, T. (2018). Superhuman AI for heads-up no-limit poker: Libratus beats top professionals.Science, 359(6374), 418-424.
2.Brown, N., & Sandholm, T. (2019). Superhuman AI for multiplayer poker.Science, 365(6456), 885-890.
3.Meta Fundamental AI Research Diplomacy Team (FAIR)†, Bakhtin, A., Brown, N., Dinan, E., Farina, G., Flaherty, C., ... & Zijlstra, M. (2022). Human-level play in the game of Diplomacy by combining language models with strategic reasoning.Science, 378(6624), 1067-1074.
https://noambrown.github.io/downloads/diplomacy_science_all.pdf
https://en.wikipedia.org/wiki/Libratus
https://twitter.com/polynoamial/status/1676971503261454340
https://www.nytimes.com/2019/07/11/science/poker-robot-ai-artificial-intelligence.html
相关文章
猜你喜欢