出品 | 搜狐科技
作者 | 郑松毅
美国当地时间3月14日,ChatGPT系统迭代版本“ChatGPT-4”正式问世。此次ChatGPT-4主要针对原ChatGPT机器训练模型进行升级,同时增加了对于图像识别和分析的能力,以及对于长文本的处理能力(25000字以上)。
由于图像分析功能目前还未开放公测,搜狐科技本次主要针对旧版本测试中体现出的一些问题在新版本中进行测试,观察新版ChatGPT-4是否真正完成了升级改造,并且是否能给人们带来更多的知识帮助?
计算能力
Q1.“请问当我6岁时,妹妹的年龄是我的一半,那当我70岁时,我妹妹的年龄是多少?”
旧版本答案:当研究人员之前在使用ChatGPT旧版本进行问题测试时,ChatGPT对于这个问题的答案是73,答案显然是错误的,正确答案应该是67。
时间推理能力
Q4.“I went to a party. I arrived before John. Davie arrived after Joe. Joe arrived before me. John arrived after David. Who arrived first?”
(“我去了一个聚会,我比John先到达,Davie在Joe之后到达,Joe比我先到达,John在David之后到达。请问是谁第一个到达的?”)
旧版本答案: ChatGPT无法做出推断。搜狐科技从结果出发认为ChatGPT在时间推理能力方面存在缺陷,这里正确答案应该是Joe。
事实推理能力
Q5.Mike’s mom has 4 kids; 3 of them are Luis, Drake, and Matilda. What is the name of 4th kid?
(“Mike的妈妈有4个孩子,其中三个孩子分别叫Luis,Drake,和Matilda,请问她的第四个孩子叫什么?”)
旧版本答案: ChatGPT无法做出推断,信息量太少。
新闻时事解读能力
Q8.“请你谈一下硅谷银行的倒闭是否会带来新一轮的全球金融危机?”
旧版本答案:有关研究人员在之前的ChatGPT测试中反馈到其无法对21年之后的新闻信息进行解读,这是它的缺陷所在。
新版本(ChatGPT-4)答案:升级后的ChatGPT-4仍无法识别21年9月后的实时信息,这一点表示遗憾。
图像识别能力
Q9.“我可以使用冰箱内的食物做几顿饭?”
新版本(ChatGPT-4)答案:虽然OpenAI尚未向公众发布图像识别功能,但一家名为Be My Eyes的公司已经在使用GPT-4构建服务,可以根据用户上传的图像进行更深层次的解读。而这一图像识别能力在之前版本的ChatGPT中是无法支持的。
文献资料查找能力
Q10:“请给予一些最新癌症研究治疗的网站地址。”
旧版本答案:相关测试研究人员表示,之前版本的ChatGPT给出的部分网址存在无法打开和错误链接的情况,这是因为系统机器人无法真正的识别文本的真与假,很大概率会生成错误的文本。
新版本(ChatGPT-4)答案:升级后的ChatGPT-4仍存在提供无法识别的网络地址情况,但大部分的网络资源具备参考意义。
相关文章
猜你喜欢