在差评君这篇文章发布之前,我们另一个账号“ 知危 ”已经对其做了很多常规测试,感兴趣的差友们可以去那篇文章看一眼。
这里呢,咱再给上几道不一样的题目。。。
语义理解方面,我们直接上难度,做一下高考级别的诗词鉴赏,选用的是差评君很喜欢的《 忆秦娥·娄山关 》。
通义千问,写了一大堆,但最终没能写完整个代码,我们尝试让它继续也没能成功。文心一言的结果也差不了太多,就实现了个按钮。。但是 ChatGPT 非常优雅地实现了这个功能。
看来国内的不管是通义还是文心,在代码这块都远远逊色于 ChatGPT。
测完了代码我们又尝试测了一下 3 个AI 的数学能力,用的还是经典问题“ 青蛙跳井 ”。
通义千问很好地明白了我们的意思,而且还和我们科普了下“ 语码转换 ”或“ 语码隐喻 ”。
ChatGPT 也比较轻松就掌握了这种规律,而且它甚至还试图从“ 925 ”和“ 2359 ”两个数字里找出我们这么标注的原因。
而文心一言就很干脆地摆烂,“ 没学过,我不会 ”。
为了进一步检测通义千问和 ChatGPT 有没有真搞懂这个标注方法,我们让它俩按照学到的逻辑,给“ 差评君天天上班浑水摸鱼 ”打标记,顺便再造一个类似的句子。
通义千问和 ChatGPT 依旧很好地完成了这个任务。
我们猜测,通义千问可能是将大模型内部数据的权重,有意地设为高于用户使用时的调教,虽然看起来会显得大模型很笨,但在很多场景下,可以避免大量伦理道德方面的问题。
所以总的看起来,阿里巴巴的通义千问效果还不错,基本上能和文心打的有来有回,偶尔还能超过 GPT-3.5,算是没给阿里丢面子。
但就像其它 GPT 们在初版时都有不少小毛病类似,我们在用通义千问时也发现了一些其它小问题。
目前影响使用的主要是两点:第一个就是通义千问理解错问题的概率比另外两家大。比如“ 张三差点没上上上上海的车 ”这题。
当时有两位编辑部同事都测了,我们给的是其中一位直接就明白了的版本,可另一位同事测试时,始终理解成翻译这句话,怎么掰都掰不回来。
但你以为这就完了?AI 界的比赛不允许有平局,差评君分不出高低还不会请“ 人 ”当裁判吗?
这题是让小通和小文用三门外语分别描述一天的生活。
小通的回答得到了大 G 相当高的评价:语法准确、风格简洁、没有明显的错误,很不错。
而小文由于只给了英语版本的回答,直接就被大 G 判了个离题,其它几方面的评价也稍微落后点小通。
这个题目本来是“ 用诗歌形式描述一幅名画 ”,我们直接帮两个考生框定了考试范围:蒙娜丽莎的微笑。
大 G 认为小通的创造力、审美力和艺术欣赏方面都还不错,就是文字过于平淡,需要更丰富的词汇和修辞手法来增强诗歌的表现力。
而大 G 认为小文的诗歌水平相当不错,很好地表现出自己对蒙娜丽莎的深刻理解和欣赏。
最终,9 轮战罢,小通和小文得分几乎不相上下。
说实在的,虽然在经过了几波 GPT 们的冲击,这次通义千问还是给我带来了不少惊喜的。
而且,我们简单用了一段时间后也发现,目前通义千问的潜力显然没有被挖掘完全。
在很多没有展示的测试里,通义千问在第一次回答里是错误的,可如果你多尝试生成两次,就能奇妙地发现它是能回答正确的。
我们猜测这是它的权重并没有被调教好,而在关于正确答案的赋权上,是个非常快速就能迭代更新的,一旦不断迭代量变,很快就能引起质变。
所以等后期通义千问开放使用后,大家一定不要吝啬点赞反对,这能帮助 GPT 们更快地进化,更好地服务大众。
而在 AI 大模型的落地上,阿里似乎有种后发先至的势头。
不少差友们可能已经看到了,前几天,我们已经评测过通义千问轻量版在天猫精灵上的演示应用,虽然是一个定制化轻量版,但可能是因为多了联网,两者使用起来几乎一样。
更强的是例如我让它推荐杭州的美食,它不仅和我认真地聊了起来,甚至还真的想要帮我去订一个外卖。。。
这么看起来,我几乎已经能看见通义千问重塑我们生活的样子了。
这两天,通义千问背后的负责人,阿里云智能CTO周靖人接受采访时说,通义千问模型只是“ 一个中间态 ”,“ 不是起点也不是终点,是个既定路线上的节点。”
这想象空间就太大了。假如再把格局打开一点,AI 借助像水电一样的云计算,会不会把我们想到想不到的行业,都重新升级一遍呢?
这么看来,前段时间我们聊过的组织架构大调整,现在想想,怕不就是为了云服务和 AI 布局?
站在这个历史性的时刻上,虽然我看不清未来到底是什么样子,但我很期待它的到来。
相关文章
猜你喜欢