浪潮信息源2.0-M32量化版发布！23GB运行显存挑战LLaMA3性能【科技it吧】

科技it吧关注：12,654贴子：2,549

1回复贴，共1页

浪潮信息源2.0-M32量化版发布！23GB运行显存挑战LLaMA3性能

近期，浪潮信息正式推出源2.0-M32大模型的革命性4bit与8bit量化版本。该量化版不仅实现了与700亿参数巨擘LLaMA3相当的卓越性能，更是在资源消耗上实现了惊人的飞跃，其中4bit版本仅需23.27GB显存即可流畅运行，每token算力消耗低至1.9 GFLOPs，相较于LLaMA3-70B的160GB显存需求与140GFLOPs算力消耗，展现了其非凡的算力效率与成本效益。

送TA礼物

IP属地:湖北

1楼2024-09-29 20:41回复

源2.0-M32量化版是“源”大模型团队为进一步提高模算效率，降低大模型部署运行的计算资源要求而推出的版本，通过采用领先的量化技术，将原模型精度量化至int4和int8级别，并保持模型性能基本不变。源2.0-M32量化版提高了模型部署加载速度和多线程推理效率，在不同硬件和软件环境中均能高效运行，降低了模型移植和部署门槛，让用户使用更少的计算资源，就能获取源2.0-M32大模型的强大能力。
源2.0-M32大模型是浪潮信息“源2.0”系列大模型的最新版本，其创新性地提出和采用了“基于注意力机制的门控网络”技术，构建包含32个专家（Expert）的混合专家模型（MoE），模型运行时激活参数为37亿，在业界主流基准评测中性能全面对标700亿参数的LLaMA3开源大模型，大幅提升了模型算力效率。

模型量化（Model Quantization）是优化大模型推理的一种主流技术，它显著减少了模型的内存占用和计算资源消耗，从而加速推理过程。然而，模型量化可能会影响模型的性能。如何在压缩模型的同时维持其精度，是量化技术面临的核心挑战。

IP属地:湖北

2楼2024-09-29 21:02

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

1回复贴，共1页

<返回科技it吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

浪潮信息源2.0-M32量化版发布！23GB运行显存挑战LLaMA3性能

登录百度账号

扫二维码下载贴吧客户端