(文/贺喜格 编辑/吕栋)
今年初以来,以AI大模型GPT3.5为基础的聊天机器人ChatGPT引发大量关注,股市上相关概念遭到热炒。正当ChatGPT的热度有所下降时,微软投资的OpenAI又推出了GPT-4,号称功能比GPT3.5更强大。
北京时间3月15日凌晨,OpenAI正式发布大型多模态模型GPT-4。据介绍,与ChatGPT只能接收文字不同,GPT-4能接收图像和文本输入来输出文本内容;扩写能力得到增强,能处理超过2.5万个单词的文本;更具创造力,回答准确性显著提高;能够生成歌词、创意文本,实现风格变化;并且能够处理更细微的指令。
“这是我们迄今为止功能最强大的模型!”OpenAI的高管和工程师在介绍视频里直言:“GPT-4是世界第一款高体验、强能力的先进AI系统,我们希望很快把它推向所有人。”
新的大模型一经发布,便受到网友们的热捧。但仍然值得的一提的是,虽然GPT-4的功能进一步增强,但仍然不完全可靠。OpenAI坦言,GPT-4仍然会产生幻觉、生成错误答案,并出现推理错误。
自去年11月推出以来,ChatGPT已经能够根据用户提示生成原创文章、故事和歌词,但它也引发了一些担忧。最近几周,人工智能聊天机器人(包括来自微软和谷歌的工具)因情绪反应过激、犯事实错误和完全“幻觉”而受到指责。
除了在文本输入的基础上进一步接受了图像输入外,GPT-4还升级成为了一个“学霸”,基准测试表现远远优于现有模型。OpenAI表示,如果是随意聊天,用户可能不太能感受出GPT-3.5与GPT-4之间的区别。但当任务的复杂性达到足够的阈值时,GPT-4将明显比GPT-3.5更可靠、更有创意,并且能够处理更细微的指令。“在我们的内部评估中,它产生正确回应的可能性比GPT-3.5高40%。”
根据测试,在“美国高考”SAT中,GPT-4的分数增加了150分,现在能拿到1600分中的1410分。它还通过了模拟律师考试,且分数在应试者的前10%左右;相比之下,GPT-3.5的得分在倒数10%左右。
此外,GPT-4对于英语以外的语种支持也得到了大大的优化。许多现有的机器学习基准测试都是用英语编写的。为了初步了解GPT-4在其他语言中的性能,OpenAI使用Azure Translate将MMLU基准测试(一套涵盖57个主题的14000个多项选择题)翻译成各种语言。在测试的26种语言中,有24种语言,GPT-4优于GPT-3.5和其他大语言模型的英语语言性能。
OpenAI请GPT-4模型以苏格拉底风格教学,绝对不能给学生答案;相反地,还要不断提出好问题帮助学生思考。ChatGPT果真循循善诱,以提问代替直接回答。取自OpenAI官网
仍然不完全可靠
在体验ChatGPT之时,不少用户会发现ChatGPT时不时会“一本正经地胡说八道”,而GPT-4尽管号称功能更全面,但会出现幻觉、胡说八道的毛病还是没能完全改掉。
OpenAI介绍,尽管功能已经非常强大,但GPT-4仍与早期的GPT模型具有相似的局限性,其中最重要的一点是它仍然不完全可靠。GPT-4仍然会生成错误答案,并出现推理错误。
也就说,在GPT-4身上依然可以看到之前版本“一本正经地胡说八道”的情形。OpenAI强调,仍然推荐在使用它的时候要附加诸如人工审查、或者附加上下文,甚至在高风险情境中,要避免使用它。
不过OpenAI也提到,该系统已经接受了六个月的安全培训,在内部对抗性真实性评估中,GPT-4的得分比最新的GPT-3.5高:“响应不允许内容的请求的可能性降低了82%,产生真实事实的可能性提高了40%,优于GPT-3.5。”
网传GPT-3和GPT-4参数对比图,但此次OpenAI没有给出GPT-4参数量
“它仍然存在缺陷,仍然有限,但它有明显的改进。它比以前的模型更有创意,它的幻觉明显减少,而且它的偏见也更少。”OpenAI公司CEO奥特曼在Twitter上称,GPT-4是其模型“最有能力且最符合”人类价值观和意图的模型。
这也意味着,相较之前的模型来说,GPT-4虽然仍可能“一本正经地胡说八道”,但频率有所减小。
不过频率的减小还是不能让人们放松警惕。在GPT-4发布后,微软营销主管表示,“如果你在过去六周内的任何时候使用过新的Bing预览版,你就已经提前了解了OpenAI最新模型的强大功能。”
这似乎可以理解为,微软的新必应早就已经用上了GPT-4。而结合前段时间对新必应的争议来看,已经用上了GPT-4的新必应还是出现了不少“发疯”行为。
此外,与前一代一样,GPT-4是基于2021年9月之前的数据训练的,所以GPT-4对于2021年9月之后发生的事件仍然缺乏有效理解,也不会从其经验中进行学习。OpenAI表示:“GPT-4仍有许多已知的局限性,我们正在努力解决,例如社会偏见、幻觉和对抗性提示。”
本文系观察者网独家稿件,未经授权,不得转载。
相关文章
猜你喜欢