> 自媒体 > AI人工智能 > “怪胎”ChatGPT的前世今生,以及未来
“怪胎”ChatGPT的前世今生,以及未来
来源:中科院物理所
2023-04-04
206
管理

编者按

自美国时间12月2日上线以来,美国硅谷的初创公司OpenAI推出的ChatGPT,已经拥有超过一百万的用户,受到热烈的讨论。它既能完成包括写代码,修bug(代码改错),翻译文献,写小说,写商业文案,创作菜谱,做作业,评价作业等一系列常见文字输出型任务,而且在和用户对话时,能记住对话的上下文,反应非常逼真。

尽管业内人士认为,ChatGPT仍存在数据训练集不够新、全等问题,但在人类制造人工智能,终点将在哪里结束?人类与会思考的机器之间的关系,将会如何发展?这些问题,我们无法停止思考。

撰 文 | 孙睿晨

审 阅 | 张 峥

责 编 | 陈晓雪

GPT-3可以根据用户给的提示语(类似于例子)而更好的回答问题(图片来源:[4])

GPT-3模型面世时,未提供广泛的用户交互界面,并且要求用户提交申请、申请批准后才能注册,所以直接体验过GPT-3模型的人数并不多。根据体验过的人们在网上分享的体验,我们可以知道GPT-3可以根据简单的提示自动生成完整的、文从字顺的长文章,让人几乎不能相信这是机器的作品。GPT-3还会写程序代码、创作菜谱等几乎所有的文本创作类的任务。早期测试结束后,OpenAI公司对GPT-3模型进行了商业化:付费用户可以通过应用程序接口(API)连上GPT-3,使用该模型完成所需语言任务。2020年9月,微软公司获得了GPT-3模型的独占许可,意味着微软公司可以独家接触到GPT-3的源代码。该独占许可不影响付费用户通过API继续使用GPT-3模型。

2022年3月,OpenAI再次发表论文“Training language models to follow instructions with human feedback”(结合人类反馈信息来训练语言模型使其能理解指令),并推出了他们基于GPT-3模型并进行了进一步的微调的InstructGPT模型。InstructGPT的模型训练中加入了人类的评价和反馈数据,而不仅仅是事先准备好的数据集。

GPT-3公测期间用户提供了大量的对话和提示语数据,而OpenAI公司内部的数据标记团队也生成了不少人工标记数据集。这些标注过的数据(labelled data),可以帮助模型在直接学习数据的同时学习人类对这些数据的标记(例如某些句子、词组是不好的,应尽量少使用)。

OpenAI公司第一步先用这些数据对GPT-3用监督式训练(supervised learning)进行了微调。

第二步,他们收集了微调过的模型生成的答案样本。一般来说,对于每一条提示语,模型可以给出无数个答案,而用户一般只想看到一个答案(这也是符合人类交流的习惯),模型需要对这些答案排序,选出最优。所以,数据标记团队在这一步对所有可能的答案进行人工打分排序,选出最符合人类思考交流习惯的答案。这些人工打分的结果可以进一步建立奖励模型——奖励模型可以自动给语言模型奖励反馈,达到鼓励语言模型给出好的答案、抑制不好的答案的目的,帮助模型自动寻出最优答案。

第三步,该团队使用奖励模型和更多的标注过的数据继续优化微调过的语言模型,并且进行迭代。最终得到的模型被称为InstructGPT。

3. ChatGPT的诞生

我们今天的主角是ChatGPT及其前身,所以无法避免以OpenAI公司为主线来讲述。从GPT-1到InstructGPT,如果我们只关注OpenAI公司,难免会忽视掉其他人工智能公司和团队其实在同期也在进行与OpenAI公司同样的尝试。在GPT-3推出后的两年内,有不少类似的大型语言模型涌现,但不得不说的是,名气最大的模型还是GPT-3。

GPT-3的部分竞品(图片来源:gpt3demo.com)

时间线回到今天。在今年神经信息处理系统大会会议期间,OpenAI公司在社交网络上向世界宣布他们最新的大型语言预训练模型:ChatGPT。

与InstructGPT模型类似,ChatGPT是OpenAI对GPT-3模型(又称为GPT-3.5)微调后开发出来的对话机器人。OpenAI官网信息显示,ChatGPT模型与InstructGPT模型是姐妹模型。由于最大的InstructGPT模型的参数数目为1750亿(与GPT-3模型相同),所以有理由相信ChatGPT参数量也是在这个数量级。但是,根据文献,在对话任务上表现最优的InstructGPT模型的参数数目为15亿,所以ChatGPT的参数量也有可能相当[5]。

自美国时间12月2日上线以来,ChatGPT已经拥有超过一百万的用户。用户们在社交媒体上晒出来的对话例子表明ChatGPT这款模型与GPT-3类似,能完成包括写代码,修bug(代码改错),翻译文献,写小说,写商业文案,创作菜谱,做作业,评价作业等一系列常见文字输出型任务。ChatGPT比GPT-3的更优秀的一点在于,前者在回答时更像是在与你对话,而后者更善于产出长文章,欠缺口语化的表达。有人利用ChatGPT与客服对话,要回了多交了的款项(这或许意味着ChatGPT在某种意义上通过了图灵测试),或许ChatGPT能成为社恐人士的好伙伴。

4. 问题警告

OpenAI的研发团队在推出ChatGPT时,警告用户该款模型存在一些问题,而经过全球网民们的反复试探,大家也已证实了这些问题的存在。

首先,ChatGPT背后的大型语言模型的训练集最近数据截止于2021年底,所以任何关于过去一年里发生的事件,它无法给出准确的答案。其次,当用户想利用ChatGPT获取准确信息(例如写代码,查菜谱)时,ChatGPT回答的准确度是不稳定的,用户需要具有鉴别回答质量与准确性的能力。由于准确性问题,代码交流网站StackOverflow已经禁止用户在其网站上引用ChatGPT生成的代码。

对此,亚马逊AWS上海人工智能研究院院长张峥老师评价道:ChatGPT模型的训练方法有个致命的问题,训练好的模型在回答问题时,对于各种可能的答案的打分机制用的是排序,也就是说第二步是粗打分。这就造成了模型瞎想的错误被混入(例如(排名更靠前的)A句比(排名靠后的)B句好不等于A句里没有犯常识或事实错误)。问答不仅因为场景是开放性的,更重要的是每一步无理还是有理可以是灰色的,需要细分。这问题并不是无解了,这里还有很多基础性的工作要做。

最后,提问者对于问题的描述也会影响ChatGPT回答的准确性。这个问题可能会产生意想不到的影响。今年早些时候,OpenAI推出了最新的人工智能绘画系统DALL·E 2(同期还有不少类似的产品,例如Midjourney等)。用户只需要提供语言描述,DALL·E 2 就能够根据该描述生成一幅画。不夸张地说,这些图画的质量、风格、均可与专业画家创作的作品媲美。

DALL·E 2 生成的一副现代画(图片来源:openai.com)

于是,在美术界为此感到震惊的同时,提示语生意(prompt engineering)悄然升起:好的提示语能引导人工智能模型生成更符合要求、更赏心悦目的作品;而不够好的提示语,则往往导致不伦不类的学生习作级别(甚至更糟糕)的作品。所以,如何写好提示语、与人工智能模型高质量的进行对话,成了新的创业热点。美国旧金山的初创公司PromptBase推出了$1.99美元一条提示语的服务,主要用于针对DALL·E 2,GPT-3等内容创作模型。或许他们很快也会把ChatGPT也加到自己的业务范畴里。

根据之前提到的小样本学习和引入人类反馈的原理,我们已经知道,如果我们先给ChatGPT模型提供几个例子,然后再提出语言任务,或者通过不断给出反馈而引导ChatGPT,ChatGPT的回答会更符合我们的要求。所以,写一个好的提示语,能让ChatGPT给你更多的惊喜。

5. 人工智能进化,终点在哪里?

从2017年的Transformer到今天的ChatGPT,大型语言模型经历了如此多的迭代,一代比一代性能更强。未来,OpenAI会继续给我们带来GPT-4、GPT-5,甚至GPT-100。而我们此时与ChatGPT火热的、奇葩的、脑洞大开的聊天记录,也会全部变成下一代模型的训练数据。

2016年,OpenAI公司创立时初衷是要开发对人类有益的人工智能技术。在过去的六年里,没有任何线索显示他们违背了初衷——相反,ChatGPT及其背后的大型语言模型看起来就是一项面向未来的先进生产力。我们有理由相信,以大型语言模型为例子的人工智能技术能帮助我们更好的完成学习与工作,过上更美好的生活;我们也有理由相信,我们应该继续支持、开发、推广人工智能,使其能惠及大众。但是,我们已经无法忽视人工智能技术进化、迭代的速度远高于人类、生物体的进化速度。

OpenAI联合创始人马斯克在意识到人工智能的巨大潜能时,曾经就OpenAI的创始初衷谈到:“我们要怎样做才能保证人工智能带给我们的未来是友好的?在尝试开发友好的人工智能技术的过程中会一直存在一种风险,那就是我们可能会创造出让我们担忧的事物来。不过,最好的壁垒可能是让更多的人尽可能多的接触并且拥有人工智能技术。如果每个人都能利用人工智能技术,那么由于不会存在某一小部分人由于独自拥有过于强大的人工智能技术而导致危险后果的可能性。”

但马斯克没有谈到的是,就算人人都能拥有使用人工智能技术的机会与能力,若人工智能技术本身发展到了人类不可控制的地步,我们要如何建立自己的堡垒。像《沙丘》故事里所影射的人类与会思考的机器的世界大战,要如何避免?ChatGPT的存在,还远远未到人们需要担心的那步,但人工智能进化的终点,将在哪里结束?

在创造人工智能的途中,人类很难停止发问——高速发展的人工智能技术,有一天会逼迫我们去不得不选择沙丘一样原始的未来吗?

ChatGPT也不知道。

参考资料:

1.https://arxiv.org/abs/1706.03762

2.https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf

3.https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf

4.https://arxiv.org/abs/2005.14165v4

5.https://arxiv.org/abs/2203.02155

制版编辑 | 小毛

转载内容仅代表作者观点

不代表中科院物理所立场

如需转载请联系原公众号

来源:赛先生

编辑:小范

1
点赞
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与华威派无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非华威派)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@goodmaoning.com
关于作者
秋叶无痕(普通会员)
点击领取今天的签到奖励!
签到排行
1
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索