其实,Claude 2 的聊天机器和 OpenAI 也颇有渊源,因为它是 OpenAI 前高级成员 Daniela Amodei 和 Dario Amodei 在离职后创立的 Anthropic 公司开发的。
今年 3 月,创立仅 2 年的 Anthropic 便推出了 Claude 的初版,彼时在申请测试之后,有不少媒体直接将其定位为“ChatGPT 最强劲的竞争对手”。
为什么这么说?
从最新的 Claude 2 来看,用户可以直接通过 Anthropic 网站使用上 Claude 2,而不需要等待漫长的“候选名单”。不过,目前仅限美国和英国地区用户使用 。
同时,需要花 20 美元付费购买 ChatGPT Plus 服务才能用上的一些功能,如上传文件自动总结 PDF 文档,可以在 Claude 2 上免费就能用上。
而且,Anthropic 声称 Claude 2 在三个关键领域展示了进步:编码、数学和推理。他们在博客中写道:“我们最新的模型在律师考试多项选择部分的得分为 76.5%,高于 Claude 1.3 的 73.0%。与申请研究生院的大学生相比,Claude 2 在 GRE 阅读和写作考试中的得分高于 90%,在定量推理方面与申请者的中位数类似。”
那么,Claude 2 和 ChatGPT 相比,真实能力究竟如何?是否能赶超 ChatGPT?CSDN 也在第一时间上手体验了一下!
稍微尖锐一些的话题,当问及 Claude 2 ,它和 ChatGPT 相比有何优势时,Claude 2 直白地拒绝做比较。同时,不知道是不是中文能力不太好,在回答问题的过程中出现了一些不明所以的数字内容。当问及它时,它也进行了解释,“数字就是一段无意义的数字串。”
编码
根据Anthropic官方表述,在编码能力方面,Claude 2 表现出熟练程度的提高。它在Python 编程测试 Codex HumanEval上的得分从 56% 上升到 71.2%。
先来一道简单的编码问题。
问:用 Python 实现冒泡排序
Claude 2 最终会对代码思路进一步讲解,方便即使不太精通代码的用户也能了解。
数学问题
同样,根据官方评测,Claude 2 在 GSM8k(一项包含小学数学问题的测试)上,它的得分从 85.2% 提高到 88%。
那我们便以经典的鸡兔同笼问题来检测一下 Claude 2 的能力。
有些出乎意料的是,Claude 2 给出的思路是对的,但是在计算时出现了错误。当告诉它“算错了”时,它也会及时明白错误,并在重新输出后给出了正确的答案:
闲聊
虽然 Claude 2 说自己的中文理解能力还有限制,但是我们还是忍不住地试了一下:
通过这个示例,Claude 2 表现让我们感到了惊喜。
再试一次:
还不错!
最后
整体而言,像 Claude 2 这样的人工智能模型可以分析长而复杂的作品,但 Anthropic 仍然意识到它的局限性。毕竟,语言模型有时会凭空捏造一些东西,也会像计算数学题一样出错。
而且整体体验下来,如果说其能力超过了 ChatGPT,其实还为时尚早。具体在使用时候,还是建议大家需要对输出内容自行验证,工具只能作为辅助。
最后,如果对 Claude 2 感兴趣的小伙伴,也可以通过:https://www.anthropic.com/index/claude-2 申请注册体验。
相关文章
猜你喜欢