小米上新二代大模型！窗口长度翻至50倍，平均性能提升超45%-华威派

> 自媒体 > 手机 > 小米上新二代大模型！窗口长度翻至50倍，平均性能提升超45%

小米上新二代大模型！窗口长度翻至50倍，平均性能提升超45%

来源：量子位

2024-11-21

272

管理

小米大模型团队投稿

量子位 | 公众号 QbitAI

小米大模型第二代来了！

相比第一代，训练数据规模更大、品质更高，训练策略与微调机制上也进行了深入打磨。

不仅窗口长度增长到了原来的50倍，在10大能力维度上表现相比于第一代平均提升超过45%。

而且家族成员丰富，有从0.3B到30B多个参数规模，分别适配云边端各侧设备。

此外，第二代大语言模型在端侧部署上还支持3种推理加速方案，包括大小模型投机、BiTA、Medusa，相比于业界标准高通方案，量化损失降低78%。

INTRADoc

论文地址：https://arxiv.org/abs/2402.13991

INTRADoc是一种新的注意力机制。

它通过屏蔽无关文档，让每个token的概率仅取决于同一文档中的上文信息，进而消除了来自之前无关文档的潜在干扰信息。

结果，INTRADoc显著地提高了模型上下文学习、知识记忆、上下文利用能力。

Mixture of Diverse Size Experts

论文地址：https://arxiv.org/abs/2409.12210

这是一种新的MoE结构，简称为MoDSE。

它在每一层中设计大小不同的专家结构，并同时引入了一种专家对分配策略，以在多个GPU之间均匀分配工作负载。

在多个基准测试中，MoDSE通过自适应地将参数预算分配给专家，在保持总参数量和专家个数相同的情况下，表现优于传统MoE结构。

性能平均提升45%

小米第二代模型MiLM2系列融合多项前沿技术模型效果全面超越了第一代。

小米大模型团队采用自主构建的通用能力评测集Mi-LLMBM2.0，对最新一代的MiLM2模型进行了全方位评估。

该评测集涵盖了广泛的应用场景，包括生成、脑暴、对话、问答、改写、摘要、分类、提取、代码处理以及安全回复等10个大类，共计170个细分测试项。

以MiLM2-1.3B模型和MiLM2-6B模型为例，对比去年发布的一代模型，在十大能力上的效果均有大幅提升，平均提升幅度超过45%。

4B 30B，云端协同运行

特别地，对于端侧，小米第二代大模型的部署技术也有了新的突破，新的4B模型将在端侧发挥更重要的作用。

小米大模型团队创新性地提出了“TransAct大模型结构化剪枝方法”，仅用8%的训练计算量即从6B模型剪枝了4B模型，训练效率大大提升；

同时小米大模型团队自研了“基于权重转移的端侧量化方法”和“基于Outliers分离的端侧量化方法”，大幅降低了端侧量化的精度损失，对比业界标准高通方案，量化损失下降78%。

MiLM2-4B模型总共40层，实际总参数量为3.5B，目前已经实现在端侧部署落地。

同时，在云端运行的MiLM2-30B模型是小米二代大模型系列中参数量级最大的模型。

在云端环境中，大模型面临着多样化和高难度的挑战，需要更高效地遵从并执行用户的复杂指令，深入分析多维度任务，并在长上下文中精准定位信息。

针对这些重点目标，大模型团队选择了一系列开源的评测集，对MiLM2-30B模型的专项能力进行评估。

结果表明，MiLM2-30B模型在指令遵循、常识推理和阅读理解能力方面均有超越主流竞品的出色表现，具体的评测集和评测结果如下：

△指令遵循及常规能力测试结果

△长文本能力测试结果

— 完—

投稿请发邮件到：

ai@qbitai.com

标题注明【投稿】，告诉我们：

你是谁，从哪来，投稿内容

附上论文/项目主页链接，以及联系方式哦

我们会（尽量）及时回复你

科技前沿进展日日相见 ~

0

点赞

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

深度剖析豆包AI耳机Ola friend

换侧边指纹，Mate 70真机现身|明年才有魅族22 |骁龙8至尊版2爆料

相关文章

高清4K | iPhone 高质量壁纸

全球首款i9 Evo的轻薄本，华为 MateBook 16s将办公体验拉满..

华为WATCH GT 3 Pro评测：高端智能表的匠心设计演绎

华为智慧屏 V Pro 官宣 4 月 28 日发布：搭载鸿鹄 SuperMiniLED..

iPhone 13深度使用半年，体验虽然流畅，但两个缺点却让人无奈..

究竟该买哪款MacBook？2020年5月全系对比\u0026购买推荐

没有更新只因过于完美？Apple Watch S7有点“骚”

苹果再次降价天猫平台iPhone 16全系降1000元

堪称专业的私人教练！华为手环4e篮球精灵体验

关于作者

冰冷的开水(普通会员)

点击领取今天的签到奖励!

猜你喜欢

01

抛妻弃女31年，李连杰再次遇到前妻黄秋燕，泪点却在合影的位置上..

2022/09/12

02

豆瓣评分9.0以上的国产剧排行榜豆瓣评分9.0以上的国产剧前十..

2022/09/24

03

盘古和女娲（中国神话故事）

2022/08/27

04

2022离世的11位名人：有人患癌，有人突发意外，有人元旦当天离世..

2022/09/11

05

巨蟹座：一生最旺的颜色，能旺你一生，可以不喜欢，但必须爱上它..

6个月前

06

30个暖心睡前小故事，很甜很撩的睡前小故事

2022/08/26

07

香蕉是如何种出来的？从育苗到收获，揭秘香蕉种植的全过程..

2022/06/02

08

“没有好奇心，人就死了”！喜马拉雅鬼王——杨湃的鬼故事哲学..

2022/08/27

标签云

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索