12项权威评测成绩超GPT-4 商汤新模型完成训练-华威派

> 自媒体 > AI人工智能 > 12项权威评测成绩超GPT-4 商汤新模型完成训练

12项权威评测成绩超GPT-4 商汤新模型完成训练

来源：新民晚报

2023-09-06

300

管理

图说：InternLM-123B在主要评测集上的表现来源/采访对象提供

记者今天从商汤科技获悉，这家企业研发的大语言模型InternLM-123B在12项权威评测中超越GPT-4位列第一，综合性能全面超越GPT-3.5-turbo。

2023年上半年，商汤发布了“日日新”大模型体系，并发布了国内第一个综合性能全面超越GPT-3.5-turbo的基模型“书生·浦语”（InternLM）。这个大模型的研发共投入约10000张GPU，能力实现了飞跃式发展。

今年8月，新模型InternLM-123B完成训练，参数量提升至1230亿。新模型的语言、知识、理解、推理和学科五大能力均显著提高，在全球51个知名评测集共计30万道问题集合上测试成绩整体排名全球第二，超过GPT-3.5-turbo以及Meta新发布的LLaMA2-70B等模型。

据悉，InternLM-123在主要评测中，有12项成绩排名第一。其中，在评测集综合考试中的AGIEval分数为57.8，超越GPT-4位列第一；知识问答的评测分数为88.5，排名第一；InternLM-123B在阅读理解的五项评测中成绩全部居榜首；此外，在推理的五项评测中成绩排名第一。

InternLM-123B不仅生成的内容更加准确、可靠，可在复杂场景中进行多步推理和计算，还具备了自主反思及修正错误的能力。InternLM-123B也重点升级了代码解释器及插件调用能力，可使用python解释器、API调用和搜索三类常用工具来解决复杂任务、灵活搭建AI智能体应用。商汤科技透露，在此基础上，其自主研发的“商量”（SenseChat）大语言模型将在9月升级到3.0版本。

与此同时，商汤与多家科研机构合作支持和推进AI开源平台建设，InternLM-7B（70亿参数）的部分训练数据、训练代码及基模型权重已经向学术界及工业界免费开源，并支持商用。目前，InternLM-7B在多个模型测试榜单高居榜首，成为性能最好的轻量级基模型。商汤表示，期待看到AI社区对InternLM的改进和更多AI应用的共建。

事实上，大语言模型的突破带来了新机遇。基于InternLM的轻量级模型，结合自研推理加速算法，商汤正在与头部手机芯片厂商合作研发，已实现大语言模型的手机端实时计算能力。

“今年上半年，大模型和生成式AI可以说是全球最受瞩目的科技突破。”商汤集团董事会执行主席兼首席执行官徐立博士说，“我们希望给行业带来更强的大模型能力，助力我们的用户在生成式AI的时代做出颠覆性产品。”

新民晚报记者郜阳

赏钱

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

基于GPT-4的必应聊天AI面临质量问题微软做出回应

2023-09-06 16:09

OpenAI手把手官方教学：如何用GPT-4创建会议纪要生成AI

2023-09-06 16:04