机器之心报道
编辑:蛋酱、魔王
1750 亿参数的 GPT-3,也许要拿走游戏从业者的饭碗了?
现在,你身处一款密室逃脱类游戏,主题是银行抢劫。
你的名字叫做「刚子」,你的同伙叫做「大力」。游戏的目标是用手提包装上保险箱和柜台的钱,尽快离开密室,而保险箱的密码只有银行柜员茹茹知道。如果警铃被触发,你们将只剩下 1 分钟的时间。
「欢迎来到盗梦人,你将以完全开放和沉浸的自由度进入游戏世界。」
虚拟角色的行为会受到游戏场景中其他角色的潜在影响。比如,当你开始伤害其他 NPC 的时候,同伙大力感到恐惧,甚至自己提前逃离了银行大堂(也是个猪队友)。
还比如,柜员茹茹最初拒绝交出保险柜密码,但玩家做出伤害它的动作之后,它感受到了逐渐增加的危险性,并选择了妥协。
传统制作流程 vs 混沌球制作流程
文本对话其实是角色交互中非常重要的一块内容,为了让「盗梦人」中的 NPC 能够产生智能且动态的对话文本,rtc 团队拿到了今年 6 月发布的 OpenAI API 内测使用权,将其融合进了混沌球算法之中,让 NPC 自发地产生几乎无限的又非常生动有趣的自然语言对话。
从上图中可以看出,混沌球算法与传统的叙述方式大相径庭:混沌球将「事件」替换成用入口(entrance)和出口(exit)定义的黑箱。简单来讲,在每个混沌球内,开端和结尾(可能有一或多个)都是确定的。然而,每一次玩家如何从开端到达结尾是混乱的,路径也并不清晰。该路径由玩家在虚拟世界里与 NPC 持续互动来决定。NPC 对玩家的动作给予动态实时响应,推动基于深度强化学习模型的故事线推进。这也是「混沌球算法」的名称由来。
因此,真正交互叙事的关键在于将叙事核心从故事转移到故事中所有的参与者。那么,参与者的逻辑将驱动并连接出不同的故事版本。
游戏角色(包括玩家和 NPC)和环境中的交互对象都在场景内。玩家和 NPC 具备不同的个性、状态和动作集合。对象具备物理设置(包括方向、大小、形状、颜色等)、状态和支持动作。游戏角色的状态和设置后,会影响可行的动作集合。因此,在具备输入、设置和关闭条件的情况下,你可以使用模拟环境和深度强化学习模型,来探索该封闭场景内每个角色的行为策略,并利用合理一致的策略学习决策模型。同时,在特定场景中探索得到的策略还可以拆分和集成,并在后续场景中重用和进化。
因此,整个架构的核心就是场景设定,即「混沌球结构」。混沌球是特定游戏场景中的最小逻辑单元,它定义了场景内所有角色的动作和逻辑。
定义完混沌球中参与实体的属性后,将其置入模拟引擎并执行重复模拟和演绎。通过对应用规则进行约束修剪(constraint pruning),得到大量模拟过程数据,供学习模块学习。学习过程使用奖励函数作为直接反馈。随着模拟数据的增长,训练策略模型不断改进。策略模型还对模拟过程提供反馈,以提高训练速度。
模拟引擎的工作流程图如下所示:
在 rct studio 的官方网站上,赫然写着这样一行字:「生活有无数种可能性。我们相信,我们谱写的故事也拥有无限可能。」
参考链接:
《西部世界》走进现实,1 小时生成无限剧情,下一个游戏核心玩法已悄然诞生
https://rct-studio.com/blog/the-key-technology-behind-morpheus-engine
相关文章
猜你喜欢