> 自媒体 > AI人工智能 > 首发评测丨阿里版 ChatGPT 来了!我们问了 100 多道题,它得了 90 分
首发评测丨阿里版 ChatGPT 来了!我们问了 100 多道题,它得了 90 分
来源:爱范儿
2023-04-09
336
管理

——你是谁?

——我是一个能够回答问题、创作文字,还能表达观点、撰写代码的超大规模语言模型。可以用于各种自然语言处理任务,如语言翻译、文本生成、问答系统等。

这是阿里云今天开启企业邀测的大语言模型 “通义千问” 对自己的定义,是的,阿里入局了。

在爱范儿小红书首发上手「鸟鸟分鸟」后,APPSO 又在第一时间拿到了通义千问的测试机会,表现如何,能否满足国内用户对大语言模型的需求?我们对它进行了全面测试。

申请内测的链接在这里

https://tongyi.aliyun.com/

品牌、服务、产品、营销,虽然内容提的很全,但没有太多可实际操作的方法论,所以我进行了追问。

产品终于研发上线,就可以使用「商品描述生成」来写一段产品的介绍语。

其他功能更偏娱乐性,好玩是它们最主要的作用。比如知乎上经常会看到「如何以 XXX 开头写一个故事」,那就可以使用「然后呢」工具来写故事。

许多大语言模型都因写出了「油炸螺丝钉」的做法而成为笑料,通义千问则带着一种既然暂时无法改变,那就大方拿出来给大家笑的态度,把它做成了「会放飞的菜谱」功能。

比如做饭这个大语言模型永远过不去的坎,从红烧螺丝钉到油炸奥特曼,大语言模型总能为中华美食画上浓墨重彩的一笔又一笔。

可以看出,刚刚开启公测的通义千问,已经在解决大语言模型会存在的各种问题,但在语言逻辑、数学计算上,它距离好用依然有不小的距离。

▲ 诗文讲的是弹箜篌

但我对通义千问的还是充满信心的,因为第一次测试 110 道题目时,通义千问的成绩是 65 分(35/23/7),但第二天再测,它一下子考到了 90,这模型难道是以天为单位进化的?好奇心驱使我找阿里的朋友问了问,他们说,他们什么也不知道。

无论如何,大语言模型的发展,和我们从学渣到学霸的努力可不一样。

还记得你当年嘲笑的 Siri 吗

记得第一次在 iPhone 上使用 Siri 时,我和身边的朋友七嘴八舌,不为用它解决什么问题,只想听到「我好像听不明白」,然后哄堂大笑。而今天,大家七嘴八舌的内容,变成了贴吧里的脑筋急转弯。

对大语言模型来说,它很难承认自己对某些知识的无知,所以就会闹出「麻辣螺丝钉的做法」、「香蕉的平方根是根号 3」的笑话。这并不是处于某种目的被有意编造,而是纯粹因算法导致的「无中生有」。这种不能理解知识边界的无心之过,是目前神经网络难以克服的缺点。

我问通义千问要如何有效的利用它,它很谦虚的告诉我,它的知识是通过大量的数据和算法训练而成的,但这些知识并不是全部都正确。因此,如果发现回答有误,请不要吝啬专业知识和见解,这将有助于它不断改进和提高。

「通义」代表着知识的广泛与普世,「千问」说明了问题复杂与独特,通义千问不够完美,还需要我们给它更好的 Prompt,与它一同进步。

对了,本文中不少段落都是由通义千问完成的,你能发现是哪部分吗?

1
点赞
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与华威派无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非华威派)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@goodmaoning.com
关于作者
快乐的老范(普通会员)
点击领取今天的签到奖励!
签到排行
1
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索