扬州市网站建设_网站建设公司_论坛网站_seo优化
2026/1/16 23:36:47 网站建设 项目流程

昇腾服务器大模型量化方法

本文介绍如何使用量化工具在昇腾服务器上做量化,量化工具使用msModelSlim,推理框架使用MindIE,昇腾卡为Atlas300I Duo卡,以量化多模型模型Qwen2.5-VL-7B-Instruct为例。

准备mindie镜像

镜像版本:2.2.RC1-300I-Duo-py311-openeuler24.03-lts

创建容器

dockerrun -it -u root --ipc=host --net=host\--name mindie22\--privileged\--device=/dev/davinci_manager\--device=/dev/devmm_svm\--device=/dev/hisi_hdc\-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi\-v /usr/local/Ascend/driver/lib64/common:/usr/local/Ascend/driver/lib64/common\-v /usr/local/Ascend/driver/lib64/driver:/usr/local/Ascend/driver/lib64/driver\-v /etc/ascend_install.info:/etc/ascend_install.info\-v /etc/vnpu.cfg:/etc/vnpu.cfg\-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info\-v /data:/data\ca41f88c275c /bin/bash

在容器内安装量化工具

gitclone https://gitcode.com/Ascend/msit.gitcdmsmodelslimbashinstall.sh


模型量化

#还需要执行以下命令安装qwen_vl_utils依赖pipinstallqwen_vl_utilscdmsit/msmodelslim/example/multimodal_vlm/ Qwen2.5-VL python quant_qwen2_5vl.py --model_path /data/models/Qwen/Qwen2.5-VL-7B-Instruct --calib_images../calibImages --save_directory /data/models/Qwen/Qwen2.5-VL-7B-Instruct-w8a8 --w_bit8--a_bit8--device_type npu --trust_remote_code True --anti_method m2 --mindie_format

在Duo卡上量化会遇到“System Direct Memory Access (DMA) hardware execution error”报错
使用NPU多卡量化(特别是Qwen2.5-VL-72B这种大模型),先配置多卡环境变量(Atlas 300I Duo 系列产品不支持多卡量化):

exportASCEND_RT_VISIBLE_DEVICES=0,1exportPYTORCH_NPU_ALLOC_CONF=expandable_segments:False

设置完上述环境变量后可正常量化


MindIE 推理验证

curl-X POST"http://127.0.0.1:1025/v1/chat/completions"\-H"Content-Type: application/json"\-d'{ "model": "qwen2.5-vl", "messages": [ { "role": "user", "content": [ {"type": "text", "text": "描述这张图"}, { "type": "image_url", "image_url": {"url": "/data/VL/bus.jpg"} } ] } ], "max_tokens": 1024 }'

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询