> 自媒体 > AI人工智能 > 中国人牛,60亿中文大模型ChatGLM6B也支持AMD显卡和手机了
中国人牛,60亿中文大模型ChatGLM6B也支持AMD显卡和手机了
来源:安逸远山滔哥
2023-08-21
147
管理

ChatGLM6B是目前国内使用最多的大模型了。之前必须在英伟达的显卡上跑。

现在支持AMD显卡和手机,中国人厉害

虽然还是比较慢,但是好歹可以跑了。

实测AMD显卡跑的还是比较快的,手机速度目前还惨不忍睹。期待作者继续优化

项目地址

https://github.com/wangzhaode/ChatGLM-MNN

impl

GPU CPU

CPU only

MNN

0.292

0.877

Pytorch

out of memory

1.344

优化过程

该项目将模型ChatGLM-6B转换到MNN并使用C 进行推理。 在实现上做了如下优化:

对其中的词表做了部分删减,删除了模型中未使用的前20000个图片词;将vocab, embedding, lm_head的大小从150528缩小到130528;Embedding操作调用次数较少,使用fseek, fread加载的方式降低内存;lm_head操作为[num, 4096] @ [4096, 130528],转换为[130528, 4096] @ [4096, 1];原模型对显存要求较高;将模型按层拆分成28个模型,可以根据用户显存大小动态将计算任务分配给GPU和CPU,充分利用GPU与CPU内存与算力; 即使小显存显卡也可以加速生成。针对端侧设备可以逐次加载计算,2G内存的Android设备也可以执行推理(速度较慢)。现已提供ONNX导出方法和模型,可以使用其他框架部署;点击下载
0
点赞
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与华威派无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非华威派)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@goodmaoning.com
关于作者
轻随风之舞(普通会员)
点击领取今天的签到奖励!
签到排行
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索