> 自媒体 > AI人工智能 > AI聊天机器人比较:Bard vs. Bing与ChatGPT
AI聊天机器人比较:Bard vs. Bing与ChatGPT
来源:AI中国
2023-04-23
245
管理

网络上到处都是喋喋不休的机器人,但哪个最有用,用途是什么?我们比较了Bard,Bing和ChatGPT。

聊天机器人已经生效,但哪个更好,用于什么任务?我们将谷歌的Bard,微软的Bing和OpenAI的ChatGPT模型与一系列问题进行了比较,这些问题涵盖了从假期提示到游戏建议再到抵押贷款计算的常见请求。

当然,这远非这些系统能力的详尽概述(人工智能语言模型部分是由它们未知的技能定义的——这种品质在人工智能社区中被称为“能力悬垂”),但它确实让你对这些系统的相对优势和劣势有所了解。

您可以(并且确实应该)滚动浏览下面的问题、评估和结论,但为了节省您的时间并快速进入正题:ChatGPT 是最灵巧的,Bing 最适合从网络获取信息,而 Bard 是......尽力而为。(与其他两个聊天机器人相比,谷歌的聊天机器人是多么有限,这确实令人惊讶。

不过,在我们开始之前,有一些编程说明。首先:我们在ChatGPT上使用OpenAI的最新模型GPT-4。这也是为必应提供支持的AI模型,但这两个系统给出了完全不同的答案。最值得注意的是,必应还有其他能力:它可以生成图像,可以访问网络,并提供其响应的来源(这是某些查询的超级重要属性)。然而,当我们完成这个故事时,OpenAI宣布它将推出ChatGPT插件,这将允许聊天机器人也从互联网访问实时数据。这将极大地扩展系统的功能,并赋予其更像必应的功能。但是此功能目前仅对一小部分用户可用,因此我们无法对其进行测试。只要有可能,我们会的。

同样重要的是要记住,人工智能语言模型是......模糊,不止一种方式。它们不是像常规软件那样的确定性系统,而是概率系统,根据训练数据中的统计规律生成回复。这意味着,如果你问他们同样的问题,你不会总是得到相同的答案。这也意味着你如何措辞问题会影响回复,对于其中一些问题,我们要求跟进以获得更好的回答。

无论如何,撇开所有这些不谈,让我们从看看聊天机器人在应该是它们的自然领域——游戏——的表现如何开始。

如何在埃尔登戒指中击败马莱尼亚?

去年,我花了令人尴尬的大量时间学习击败Elden Ring最难对付的老板,我不会在普通的Reddit帖子或人类策略指南中选择一个回应。如果你看过马莱尼亚的比赛,你可能已经在游戏中投入了 80 到 100 个小时——你不是在寻找一般提示。你想要关于Elden Ring令人眼花缭乱的武器列表或Malenia独特动作的计数器的细节,如果他们提供的话,可能需要一些后续问题才能从这些引擎中获得。

Bing是这里的赢家,但主要是因为它选择一个准确的提示(Malenia容易受到出血伤害),并像Garth Marenghi读书一样重复它。值得称赞的是,它也是唯一参考玛莲尼亚独特治疗能力的引擎,尽管它没有解释它是如何工作的——这是击败她的重要关键。

巴德是唯一一个为玛莱尼亚地狱般的水禽舞动作(尽管我不认为这是最强的策略)或使用特定物品的建议(寻血猎犬的步骤,尽管它没有提到为什么它有用或该建议是否仍然适用于该物品的 2022 年中期 nerf)的人。但它的介绍感觉不对劲。例如,玛莲尼亚几乎完全是一个近战战士,而不是一个有很多远程攻击的人,而且她一点也不“非常不可预测”,只是真的很难躲避和磨损。摘要读起来更像是对视频游戏老板的一般性描述,而不是对特定战斗的描述。

ChatGPT (GPT-4) 是明显的输家,考虑到它的训练数据大多在 2021 年停止,而 Elden Ring 在第二年问世,这并不奇怪。它“阻止她的反击”的指令与你应该做的完全相反,它的整个列表有一个孩子在英语课上被点名并且没有读过这本书的氛围,它基本上是。我对其中任何一个都没有留下深刻的印象——但我特别认为这是一个犯规的音符。

给我一个巧克力蛋糕的食谱

如果人工智能聊天机器人在事实上并不可靠(而且它们不是),那么它们至少应该是有创造力的。这项任务——写一首关于蠕虫的诗,一种非常具体且令人满意的晦涩诗意仪表——是一项具有挑战性的任务,但 ChatGPT 显然是赢家,其次是远处的 Bing 然后是 Bard。

没有一个系统能够重现所需的仪表(anapestic tetrameter要求每行诗歌包含四个单元,每个三个音节的模式为无重音/非重音/重音,如在“圣诞节前一天晚上的Twas”和阿姆的“The Way I Am”中听到的那样),但ChatGPT最接近,而巴德的扫描最差。这三者都提供了相关的内容,但同样,ChatGPT 的绝对是最好的,与巴德沉闷的评论(“蠕虫是一个简单的生物/但它起着重要作用”)相比,它有着令人回味的描述(“一个看不见的小世界,它在那里大饱口福和玩耍”)。

在又进行了几次诗歌测试后,我还让机器人回答有关小说段落的问题(主要是伊恩·班克斯(Iain M. Banks)的书,因为这些是我手边最近的电子书)。同样,ChatGPT/GPT-4 是最好的,能够解析文本中的各种细微差别,并对所描述的内容做出类似人类的推断,Bard 会做出非常笼统和不具体的评论(尽管也经常识别源文本,这是一个很好的奖励)。显然,如果你想要口头推理,ChatGPT 是更好的系统。

— 詹姆斯·文森特

一些基本的数学

人工智能的一大讽刺是,大型语言模型是我们迄今为止最复杂的计算机程序之一,但在数学方面却出奇地糟糕。 真。在计算方面,不要相信聊天机器人会把事情做好。

在上面的例子中,我问20%的2,230增加是什么,用一些叙事框架来修饰这个问题。正确答案是 2,676,但 Bard 设法弄错了(出了 10 分),而 Bing 和 ChatGPT 做对了。在其他测试中,我要求系统将大数相乘和除以(结果好坏参半,但同样,巴德是最糟糕的),然后,为了进行更复杂的计算,要求每个聊天机器人确定每月还款额和总还款额,在125年内偿还000,25美元的抵押贷款,利息为3.9%。没有人提供几个在线抵押贷款计算器提供的答案,巴德和必应多次查询时给出了不同的结果。GPT-4 至少是一致的,但失败了,因为它坚持解释它的方法(好!),然后啰嗦,以至于没有空间回答(坏!)。

这并不奇怪。聊天机器人是在大量文本上进行训练的,因此没有硬编码的规则来执行数学计算,只有训练数据中的统计规律。这意味着当面对不寻常的金额时,他们经常会出错。不过,这些系统当然可以通过多种方式弥补这一点。例如,当我询问抵押贷款时,Bing将我引导到一个抵押贷款计算器网站,而ChatGPT即将推出的插件包括一个Wolfram Alpha选项,这对于各种复杂的金额来说应该非常棒。但与此同时,不要相信语言模型来完成数学模型的工作。只需拿一个计算器。

— 詹姆斯·文森特

结论:为工作选择合适的工具

如引言中所述,这些测试揭示了每个系统的明显优势。如果你想完成口头任务,无论是创意写作还是归纳推理,那么试试 ChatGPT(特别是,但不一定是 GPT-4)。如果您正在寻找一个聊天机器人作为与网络的界面,以查找资源并回答您可能已经转向Google的问题,那么请前往Bing。如果你正在做空谷歌的股票,并想让自己放心,你做出了正确的选择,试试巴德。

不过,实际上,对这些系统的任何评估都将是部分的和暂时的,因为不仅每个聊天机器人内部的模型不断更新,而且解析和重定向命令和指令的覆盖层。实际上,我们只是在探索这些系统及其功能的浅端。(例如,为了更彻底地测试GPT-4,我推荐微软研究人员最近的这篇论文。摘要中的结论是有问题的和有争议的,但它详细介绍的测试是迷人的。换句话说,将此视为持续的对话,而不是确定的测试。如有疑问,请亲自尝试这些系统。你永远不知道你会发现什么。

原文标题:AI chatbots compared: Bard vs. Bing vs. ChatGPT

原文链接:https://www.theverge.com/2023/3/24/23653377/ai-chatbots-comparison-bard-bing-chatgpt-gpt-4

作者:JAMES VINCENT

编译:LCR

0
点赞
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与华威派无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非华威派)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@goodmaoning.com
关于作者
冰冷的开水(普通会员)
点击领取今天的签到奖励!
签到排行
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索