智源“悟道”智能模型:大模型 大平台 大生态
尤其值得⼀提的是,这个由智源副院⻓、清华⼤学教授唐杰率领中国科学家团队联合攻关的万亿模型,首次100%基于国产超算平台打造、运⽤中国技术,打破原来只能用GPU训练模型的问题。
智源研究院还与新华社战略合作,将悟道模型应用于新闻数字化转型;并合作智谱AI、微软小冰公司,联合培养准备进入清华唐杰实验室的中国首位原创虚拟学生“华智冰”。
CogView:精度最高的通用领域文图模型
在MS COCO文本生成图像任务权威指标FID上,CogView打败OpenAI拥有130亿参数的DALL·E模型,获得世界第一。
给一段符合现实场景或者天马行空的话,比如“金发女郎打电话”、“素描房子”,或者“老虎踢足球”、“一个人在月球上骑自行车”,CogView都能创作出相应的图像。
生成符合句子含义的图像
CogView也能直接实现类似于OpenAI CLIP模型的⾃评分功能,且画风多元,中国画、卡通画、轮廓画、油画等等都能生成。
生成各种风格的“东方明珠”
CogView还能充当设计师。比如,通过与阿⾥巴巴达摩院智能计算组合作,CogView经过GAN的增强后,应⽤到阿⾥的服饰设计业务。
将CogView经过GAN增强后应用到阿里的服饰设计业务
或许,你的购物⻋里,就躺着“悟道”的设计。
如果说CogView展现了AI的最佳实际作画能⼒,神经元可视化技术,则突破想象地描绘出AI的梦境——对于⼀个给定的文本概念,得到与其特征表示最为接近的图像可视化。
从如下图示,多模态预训练后的神经⽹络已经能“看到”抽象的人类概念。
理解图像信息并提炼关键标签
目前,悟道多项应用正在逼近突破图灵测试。
“悟道”攻关团队由智源副院⻓、清华⼤学教授唐杰领衔,清华、北大、⼈大、中科院等100余位科学家联合攻关,形成了AI的特战团队。
今年3月20日,智源研究院发布我国首个超大规模智能模型“悟道1.0”,包含中文、多模态、认知、蛋白质预测在内的系列模型,取得了多项国际领先的AI技术突破。
“悟道2.0”超大规模预训练模型阵容及最新成果
这一项目的启动,要追溯到2020年6月。当时OpenAI拥有1750亿个参数的超大规模语言模型GPT-3横空出世,火速红遍全球AI圈。
在接受智东西专访时,智源研究院理事长张宏江评价说:“GPT-3的诞生,标志着AI已经从过去15年发展中的算法突破,进入大系统的突破。”
预见到大模型的里程碑意义后,智源的核心成员迅速做了一番研究,判断这对中国AI产业至关重要。经过与产学政多方交流,智源随即做出决策并组建团队,专攻大模型。
研发大模型绝非易事,超大规模算力、足质足量的数据、算法根基深厚的学者缺一不可。
而介乎于产学政之间的智源研究院,恰恰具备高效整合这些资源的能力。这也是为什么,智源团队在短短几个月内,即创下“悟道”巨模型的新纪录。
开创性的FastMoE技术,是打破国外技术瓶颈,实现“万亿模型”基石的关键。
此前因谷歌万亿模型的核心参数MoE(Mixture of Experts)和其昂贵的硬件强绑定,绝⼤多数⼈无法得到使用与研究机会。
MoE是⼀个在神经网络中引入若⼲专家⽹络(Expert Network)的技术,能直接推动预训练模型经从亿级参数到万亿级参数的跨越,但它离不开对谷歌分布式训练框架mesh-tensorflow和谷歌定制硬件TPU的依赖。
而FastMoE打破了这⼀限制:作为首个支持PyTorch框架的MoE系统,它简单易用、灵活、⾼性能,且⽀持大规模并行训练。
FastMoE由“悟道文汇”和“悟道文溯”两个研究小组联合攻关,可在不同规模的计算机或集群上支持探索不同的MoE模型在不同领域的应用,相比直接使用PyTorch实现的版本,提速47倍。
单GPU多experts情况下,FastMoE相比普通PyTorch实现的加速比
新一代FastMoE支持Switch、GShard等复杂均衡策略,⽀持不同专家不同模型,最大测试了几万个专家的MoE训练。
FastMoE已基于阿里PAI平台,探索在支付宝智能化服务体系中的应用;亦在国产神威众核超算平台成功部署。
目前该技术已经开源,这为万亿模型实现⽅案补上了最后⼀块短板。
此外,智源提出FewNLU小样本学习系统,在小样本学习自然语言理解任务上实现新SOTA,极大缩小了与全监督学习条件下微调性能的差距。
其中包含的P-tuning 2.0算法,历史上首次实现自回归模型在理解任务上超越自编码模型,极大拉近少样本学习和全监督学习的差距,少样本学习能力遥遥领先。
“悟道”攻关团队成员
三、高效易用,全部开源“⾼效易用”是“悟道2.0”巨模型的另⼀张标签。
⼤规模预训练模型的参数规模,通常远超传统的专⽤AI模型,在算⼒资源、训练时间等⽅面消耗巨⼤。
为了提升⼤规模预训练模型的产业普适性和易用性,悟道团队搭建高效预训练框架,实现了全链路的原创突破或迭代优化,预训练效率⼤幅提升,并且全部开源。
悟道生态战略合作伙伴
同时,智源发起组建“悟道”⼤模型技术创新⽣态联盟的倡议,吸引更多企业加入,将以联盟为枢纽,以企业需求为导向,推动模型研发,共同开发基于“悟道”⼤模型的智能应用,从而促进产业集聚。
围绕“悟道”⼤模型产业生态建设,后续,智源研究院将⾯向个⼈开发者、中小创新企业、行业应⽤企业、IT领军企业等不同主体,分别提供模型开源、API调⽤、“专业版”⼤模型开发、大模型开发许可授权等多种形态的模型能⼒服务,赋能AI技术开发。
同时,智源研究院拟通过成⽴创业投资基⾦、举办“悟道之巅”模型应⽤创新大赛等⽅式,不断发掘和培育基于超⼤规模智能模型的创新企业,推动AI产业可持续发展。
五、智源最新进展:已遴选94位智源学者,建设8个智源创新中心除了发布悟道2.0外,在智源大会开幕式上,智源研究院院长、北京大学教授黄铁军还分享了智源研究院的最新进展。
1、持续实施智源学者计划,引进培养优秀科学家
截至目前,智源学者计划已遴选智源学者94人,分别来自北大、清华、中科院等高校院所与旷视、京东等优势企业。
他们的研究覆盖人工智能的数理基础、人工智能的认知神经基础、机器学习、自然语言处理、智能信息检索与挖掘、智能系统架构与芯片等重大研究方向。
2、建设“超大规模人工智能模型训练平台”
智源研究院加紧部署通用智能发展,推动建设“超大规模人工智能模型训练平台”,研制“信息、生命、物质”领域超大规模智能模型,以及搭建模型训练及运行所需的大规模算力资源及软件环境。
相关文章
猜你喜欢