> 自媒体 > AI人工智能 > 讯飞版大模型来了!首发通用人工智能评测体系,三大能力不输ChatGPT
讯飞版大模型来了!首发通用人工智能评测体系,三大能力不输ChatGPT
来源:智东西
2023-05-24
273
管理

科大讯飞董事长刘庆峰

刘庆峰认为,当下认知大模型已经成为通用人工智能的曙光,这一技术的出现产生的影响不亚于PC或互联网的诞生。

一、七大通用能力现场演示,语音输入、实时互动

刘庆峰谈道,从ChatGPT关注的48个主要任务方向和讯飞开放平台上400多万开发者团队的需求分析,通用人工智能应该具备七大维度能力,分别是文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力等。

因此,现场星火认知大模型基于这七大维度进行了演示,并且现场输入完全通过语音转写文字键入需求,无需打字输入。

1、多风格多任务长文本生成

首先,星火认知大模型为这场发布会生成了一篇欢迎词,“今天是讯飞星火认知大模型的发布会,现场高朋满座,我们也特别希望和各位朋友们精诚合作,共同建设美好世界。请帮我写一篇欢迎词”。

刘庆峰说,经过评测,讯飞星火认知大模型的中文语言理解能力已经超过ChatGPT,在英文理解能力上,ChatGPT的能力达到4.48分,星火认知大模型为4.29分。

2、多层次跨语种语言理解

针对英文文案,星火还可以快速对其进行语法检查和纠错。刘庆峰透露,对于英文语法、句式的纠错能力,星火认知大模型已经做到业界最强。

当面对一些模棱两可的话语需要大模型更高层次的理解能力时,星火认知大模型也可以准确剖析其不同含义。如“俗话说男子汉大丈夫要宁死不屈,俗话又说,男子汉大丈夫能屈能伸,这两种说法应该怎么理解”。

对于一些文字表意一样,但含义不同的词语,如“今天小明参加比赛拿到冠军,他拿着奖杯默默地站了一分钟,今天我被老师批评了,走出教室后我默默地站了一分钟,请问上面这两个‘默默地站了一分钟’,分别表达了什么样的心情?”

在科技领域,星火也能应对“量子科技主要有哪些应用领域?”的问题。

当将两个不同的概念放到一起,如“量子纠缠和心灵感应是不是一回事”,星火也没有被绕晕。刘庆峰透露,在中国科学院的支持下,星火仍在持续学习科技领域的知识。

当追问“能不能马上把他扶到床上去休息”,星火也提出了专业的建议。

5、多题型可解析数学能力

在一些容易混淆的数字问题上,如“某个公司的股票昨天涨了10%,今天又跌了10%,请问到底是涨了还是跌了”,星火也没有被难倒。

几何问题中,但问到“等腰三角形的底角是顶角的两倍,这一三角形的角度是多少”,星火给出了下面的答案:

文字输出方面,星火以立夏为主题,生成了一篇200字左右的散文。同时,星火还支持用语音、虚拟人合成输出音频和视频。在视频中,不仅有女生的虚拟人形象,还有相对应的背景画面、虚拟人手势随着文字内容变化。

刘庆峰透露,多模态输入和表达目前还没有开放,这一能力将在8月份开放给VIP客户使用。

演示现场还有现场随机抽取问题回答环节,针对于一些奇奇怪怪的问题,星火认知大模型也没有被难到。包括外星人感冒了需要戴口罩吗?我想把四十平的房子装修成七十平的感觉等。

在输出的答案中,星火大模型会对问题场景进行一些限制,考虑到多个场景来使得回答更为准确。刘庆峰说,星火大模型在不断的进步过程中,很多答案也会超出他们的预期。

二、落地四大应用领域,星星之火“燎原”教育、办公、汽车、数字员工

除了强大的通用能力外,星火认知大模型也已经在实实在在的产业场景中实现了应用落地,包括教育、办公、汽车和数字员工四大领域。

1、教育:批改中英文作文能力升级,形成批改、修订、学习闭环

讯飞AI学习机已经可以精准分析每个学生的薄弱环节,并在五万多所中小学校实现应用。此次,星火大模型也再次将学习机的语言学习能力升级。

此前,老师对一个学生的作文进行精批大概要花费半个小时时间,批改完一个班的学生会付出大量的时间成本。

在演示中,星火认知大模型针对小学四年级上册第八单元的作文“我的心儿怦怦跳”的写作要素和写作要求进行批改。

学习机批改的过程包括错别字、语句、内容,最后会生成批改评价以及写作建议,并且用户点击错别字还能看到相应的知识卡片。

批改修订建议还会用不同颜色区分,红色代表不符合某一条写作要求,绿色代表符合写作要求,此外,学习机还给出了优化参考内容。

刘庆峰说,现在登陆讯飞听见的官网可以马上运用这些功能。除此以外,讯飞智能录音笔SR702和讯飞智能麦克风M2也升级了会议纪要、语篇调整、一键成稿功能。

3、汽车:人车对话更加智能,汽车上也能订餐、购票

科大讯飞汽车座舱人机交互系统可以提供多轮、多人、多区域、多模态的智能汽车人机交互范式,在星火大模型的加持下,这一交互模式可以让用户在车上的对话更加自由、更人性化、更懂汽车、更加开放。

同时,星火大模型还支持各种插件在汽车场景下与之行结合,如汽车的导航、餐饮、购票等功能都可以用星火大模型实现。

在演示视频中,用户可以和汽车上的人机交互系统对话,询问旅游计划、避开节假日人流密集的旅游路线、生成故事、接听电话等。

刘庆峰说,这样一来,汽车上的体验和原来会完全不同,人们在汽车里生活、工作的效率也会上一个台阶。

4、数字员工:生成式自动RPA,自然语言自动生成业务流程

此前,科大讯飞虚拟人智能交互机可以通过虚拟形象,以对话的形式扮演导游、虚拟客服、医院导诊、志愿者服务等角色,这些更人性化的交互机也大幅提高了各行业的工作效率。

在演示过程中,基于星火认知大模型的生成式RPA能够让工作人员通过自然语言输入,大模型去理解员工通过自然语言描述的需求,自动生成业务流程和可执行的RPA能力清单,并调度RPA的执行能力实现流程自动化的运行。

这一能力在人力资源领域的应用也已经在讯飞内部实现场景落地。

刘庆峰透露,下一步,讯飞星火认知大模型还会赋能城市、工业等各个行业。

三、应用落地引领者,用评测体系指明大模型发展前路

作为国内人工智能领域国家队,科大讯飞早在2011年就肩负起语音及语言处理国家工程实验室的重任。

2014年,科大讯飞推出“讯飞超脑计划”,明确提出要让机器像人一样具备能理解会思考的能力,2022年,这一计划升级为“讯飞超脑2030计划”,提出让懂知识、善学习、能进化的通用人工智能技术成为每个人未来发展的重要机会,让机器人走进家庭。

星火认知智能大模型也是这一计划的重要一环。刘庆峰谈道,在科学常识推理能力中,单模型已经超过了人类平均水平。

事实上,去年11月30日ChatGPT发布会,科大讯飞就迅速进行了相关技术和研发体系验证,12月15日启动了认知智能大模型的“1 N”专项攻关。

他认为,想要让这一次智慧涌现的认知智能真的解决社会刚需,要建立一套实实在在的科学系统的评测体系,来告诉这个行业“技术发展到了什么程度、下一个发展趋势应该往哪边走?”

因此,科大讯飞与中科院人工智能产学研创新联盟和长三角人工智能产业链联盟共同探讨形成了覆盖7大类481个细分任务类型的科学系统评测体系。

当下,刘庆峰也谈道,纯大模型技术有很多待攻克的技术缺陷,如对新知识难以及时更新、事实类问题容易发生张冠李戴的现象等。

但对于这些,讯飞都有非常明确的解决方案。他透露在科大讯飞成立24周年之际,星火大模型要突破开放式问答,类搜索插件可以全部知道新知识,通过多轮对话进行升级,数学能力再上一个新的台阶。

这都得益于科大讯飞此前在人工智能领域的技术积累,以及在认知智能领域取得的领先成果。如2017年科大讯飞让机器在全球首次通过国家职业医师资格考试、超过了96.3%参加考试的医生,并且在SQuAD机器阅读理解中全球首次超过人类平均水平,2022年在OpenBookQA科学知识推理中,单模型也超过人类平均水平。

作为将大模型率先应用落地的玩家,科大讯飞还通过讯飞开放平台开放了560项AI能力,并且有首批来自36个行业的3000余家企业开发者将接入星火大模型。基于此,科大讯飞将联合行业合作伙伴共建大模型“星火”生态,让大模型能真正落地到行业中去。

结语:讯飞打响大模型应用落地“第一枪”!

大模型的真正价值在于成为生产力工具,使得产业应用真正与前沿技术相结合。当下,大模型也已经进入产业落地的关键期。

科大讯飞此前在认知智能领域的技术积累优势,以及在教育、办公等场景下的深耕使得其成为大模型应用落地的率先突破者。

同时,AI新的技术革命已经到来,正在对各行各业产生深远影响,讯飞星火大模型的应用成果发布将进一步助攻大模型AI技术在各行各业的规模化普及。

0
点赞
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与华威派无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非华威派)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@goodmaoning.com
关于作者
婆罗花开(普通会员)
点击领取今天的签到奖励!
签到排行
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索