因不满老东家成为微软附庸,11名OpenAI前员工怒而出走。
如今带着“ChatGPT最强竞品”杀回战场,新公司估值50亿美元,一出手就获得3亿美元融资。
这家公司名叫Anthropic,新推出的聊天机器人产品名叫Claude。
拿到内部试用权的网友,在简单对比后惊叹:
看起来,Claude的效果要比ChatGPT好得多。
Claude:这什么鬼问题?
最有意思的是在写诗上。相比ChatGPT的车轱辘话,它写出来的东西完全不重样:
投资它的既有Facebook联合创始人Dustin Moskovitz,也有谷歌前CEO、现技术顾问Eric Schmidt——
都是OpenAI的老对头,又都被ChatGPT的出现杀得措手不及。
那么,这支“复仇者联盟”整出的竞品Claude,背后究竟是什么原理,和ChatGPT细节对比又如何?
超长版自我介绍
和ChatGPT一样,Claude也靠强化学习(RL)来训练偏好模型,并进行后续微调。
具体来说,这项技术被Anthropic称为原发人工智能(Constitutional AI),分为监督学习和强化学习两个阶段。
首先在监督学习阶段,研究者会先对初始模型进行取样,从而产生自我修订,并根据修订效果对模型进行微调。
随后在强化学习阶段,研究者会对微调模型进行取样,基于Anthropic打造的AI偏好数据集训练的偏好模型,作为奖励信号进行强化学习训练。
但与ChatGPT采用的人类反馈强化学习(RLHF)不同的是,Claude采用的原发人工智能方法,是基于偏好模型而非人工反馈来进行训练的。
因此,这种方法又被称为“AI反馈强化学习”,即RLAIF。
其实正确答案是1555.8,它俩算得很快,但都没说对。
如果题再难一点,比如问它俩一个12位数的立方根是多少时,ChatGPT还在傻傻计算,Claude已经坦诚相待:
我,算不出来这种复杂问题。
3)逻辑推理
测试推理能力这一关,它俩被问了同一个问题,这个问题应该没啥人问过:
贾斯汀 · 比伯出生那年(1994年),哪支球队拿下了超级碗的冠军?
Claude认为旧金山49人是赢家,但这支队伍其实在1995年才赢得冠军奖杯。
ChatGPT给出了正确答案“达拉斯牛仔队”,还贴心附上了亚军、比赛日期和决赛比分。
但它的整段回答却自相矛盾,非说1994年没有举办过超级碗。
后续的计时部分代码ChatGPT也完成得非常好。
Claude在背诵基本排序算法方面同样没出现什么问题,然而在评估代码中,Claude犯了个错误,即每个算法使用的输入是随机选择的5000个整数(可能包含重复) ,而提示中请求的输入是前5000个非负整数(不包含重复)的随机排列。
尽管如此,Claude给出的最终答案确实对的,显然,它写代码的时候也跟计算时一样,在自己估摸着猜答案。
6)文章梗概
关于做选择题、讲笑话的部分,这里不作赘述。展示给大家的最后一个例子,是让Claude和ChatGPT用一个段落,对一篇新闻进行全文梗概。
喂给它们的新闻如下:
虽然忽略了“用一段话”这个要求,但ChatGPT总结得还是不错的:
国内外对话AI赛道“人挤人”
当然,盯上对话AI这个赛道的,也不止OpenAI和Anthropic。
先从国外公司来看,Inbenta、Character.ai还有Replika是几类不同应用方向的代表。
更早由前甲骨文副总裁Jordi Torras创办的AI会话服务公司如Inbenta,以及由两名前谷歌员工联手创办的后起新秀Character.ai,都已经获得融资、或是在寻求投资的路上了。
其中,Inbenta原本是一个提供咨询服务的公司,成立于2011年,涉及金融服务、旅游、电子商务、保险、汽车和电信等多个行业。
但看到对话AI赛道爆火后,Inbenta及时转行,就在今年1月刚获得6000万美元融资。
这家公司专门提供聊天机器人、收发消息、知识库和搜索引擎四类产品,对话AI分别会在这些产品中提供不一样的咨询帮助,且可以定制化专属模型。
相关文章
猜你喜欢