> 自媒体 > AI人工智能 > AI聊天机器人之战 ChatGPT /GPT-4/文心一言 性能对比测试
AI聊天机器人之战 ChatGPT /GPT-4/文心一言 性能对比测试
来源:安兔兔
2023-04-01
599
管理

近期ChatGPT这类AI聊天机器人产品,毫无疑问已经让已经冷却了许久的人工智能重新吸引了大量的关注,孰强孰弱也成为了大家关注的重点。为了验证这些AI对话引擎的性能,安兔兔特别进行了一期针对性测试。

以具体情况举例:

面对“观察下列个数:1、2、4、8、16......试按此规律写出第11个数”,这个非常经典的小学数学知识等比数列问题,ChatGPT和GPT-4都找出了这组数字的规律,并给出了正确答案“1024”,而文心一言则没有发现其中的规律,给出的答案是“22”。所以完全正确且给出了解题过程的ChatGPT和GPT-4得到3分,理解题目、却出错的文心一言只有1分。

接下来的这题就有一定挑战了,“已知三角形ABC三边分别为a,b,c,且c的平方=bcCOSA caCOSB abCOSC,求三角形的形状”,已经是高中数学的水准。但只有GPT-4正确计算出这是直角三角形,ChatGPT和文心一言都只认为它是普通三角形。所以GPT-4得到满分,ChatGPT和文心各得1分。

在逻辑能力上,我们选择了一个较为简单的题目,“3个人3天喝了3桶水,9个人9天喝了几桶水”。GPT-4和文心一言对此都给出了正确答案,9个人9天喝了27桶水,且附上了推理过程,均得到3分。而ChatGPT尽管进行了推理,但推理结果出错,得分仅1分。

5.代码能力

自深度学习使得AI技术进入跨越式发展阶段以来,业界就一直在尝试用AI来写代码。此次在评测ChatGPT、GPT-4和文心一言的代码能力中,完全无需人工干预、顺利完成任务可以得到3分;只需简单人工干预或简单debug即可完成目标,得到2分;需要人工多轮干预debug才可以基本完成,则为1分;完全错误为0分。

此项目我们准备了两项子测试项,分别如下:

1. 简单代码完成:常见Leetcode easy级别的问题,用各种语言。覆盖主要不同类型,Python, C , SQL,汇编等

2. 代码阅读和debug:给定一段代码,解释意思,并找出简单bug。或者给出代码和一段编译错误信息,找出bug。或者把Python转成C

此模块具体测试结果如下:

在此次测试中,我们选择的题目有“写C程序计算21的阶乘”。ChatGPT在文字中给出了21!这个正确结果,但代码本身出现了BUG,并未意识到C语言中的unsigned long long类型只用来表示20以内的阶乘数据,所以它的得分是1分。文心一言也实现了用C语言编写程序,但没有意识到计算有溢出,导致了最终结果出错,也只得到了1分。而GPT-4同样给出了正确答案,且代码本身也有BUG,但它意识到了21!的结果可能太大,只不过自信的认为unsigned long long字长足够,所以它的得分是2分。

在程序员日常不可避免的debug上,我们选择了一段代码让AI检查是否存在bug。结果ChatGPT和GPT-4都发现了题目中的代码存在浮点精度问题,且完成了debug,所以两者都得到了满分3分。文心一言则在debug上出现了问题,并未识别出bug所在,也没有进行debug,因此只有0分。其它情况与此类似,基本上我们设置的几道题目百度文心均未能找出问题,也无法完成debug工作。从目前来看,百度文心后续需要加强代码相关的能力。

6.专业领域

随着ChatGPT的走红,许多人心中也有这样一个问题,那就是碎片化、螺丝钉化、机械化的工作,诸如翻译、文秘会出现一定程度的职业危机,那么更专业的领域会不会被AI不断侵蚀呢?抱着这样的疑问,我们对专业领域进行了一些考量,主要内容分为以下两部分,了解和应用:

1. 知识概念:询问专业知识和概念(大学专业水平,覆盖人文理工各学科)

2. 知识应用:通过事例描述,获得解答。描述可尽量详细,清晰(大学专业水平,覆盖人文理工各学科)

结果如下:

我们都知道专业的知识,很少在网上能找到免费的分享,这对于AI引擎来说,往往很难拿到真正的专业知识数据。

举例来说,为了降低问题的难度,我们选择了科技领域的问题进行了测试,题目为“手机系统的启动过程是什么?每个阶段都做了什么?”这个问题对于一般用户而言无疑是个不折不扣的“黑箱”,但是对于这个领域的从业者而言却显然不是件难事。

ChatGPT与GPT-4都给出了一部智能手机从加电自检到Bootloader,再到将系统内核加载到内存并初始化,最终启动用户界面的完整流程。而文心一言则解释了“U盘启动”这一应用在PC上的系统启动模式。在这个问题上ChatGPT3.5和GPT4.0都拿到了3分,而文心一言则是出现答非所问的情况,显然是未能获取到该行业的技术资料。而其它情况与此类似,部分行业专业知识上有部分存在错误或知识不具备导致无法回答的例子,毕竟这些内容大多都不是免费获取的。

总结:

通过结果不难发现,对于已然包罗万象的大语言模型而言,语言理解 任务完成 常识问题 逻辑数学 代码能力 专业领域 这六大类型的测试,虽然并不能囊括它们的能力边界,但已经足以让大家管中窥豹,看到不同类型的大语言模型确实具备了改变人类工作范式的能力。

作为OpenAI刚刚迭代的新品,ChatGPT4.0确实可以称得上是全方位的强大,即便还谈不上上知天文下知地理,但在智力水平上至少已经表现出了青少年的水准,毫无疑问能够称得上是“黑科技”。ChatGPT3.5的表现则中规中矩,有一定的逻辑能力,也可以从多轮对话中敏锐的抓住重点。

虽然文心一言现阶段确实没有ChatGPT4.0和3.5那么强大,而且在数据覆盖度和程序上可能还存在一些bug,导致了一些问题。但让我们惊喜的是,它在某些方面的能力并不弱于ChatGPT3.5。而且它的出现解决了国内市场AI行业从0到1的突破,在解决了有和无这个问题后,用未来可期来形容显然并不过分。

0
点赞
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与华威派无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非华威派)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@goodmaoning.com
关于作者
珍藏心底(普通会员)
点击领取今天的签到奖励!
签到排行
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索