LMDeploy 是一个开源的轻量级模型部署工具,它可以将预训练的语言模型(LLM)部署到边缘设备上。量化是模型部署中的一个重要步骤,它通过减少模型参数的精度来减小模型的大小和加速推理速度,同时尽量保持模型的性能。以下是使用 LMDeploy 量化部署 L
摘要:书生浦语大模型实战营第二期第5节作业 本页面包括实战营第二期第五节作业的全部操作步骤。如果需要知道模型量化部署的相关知识请访问学习笔记。 作业要求 基础作业 完成以下任务,并将实现过程记录截图: 配置lmdeploy运行环境 下载inter
书生浦语大模型实战营第二期第5节作业
本页面包括实战营第二期第五节作业的全部操作步骤。如果需要知道模型量化部署的相关知识请访问学习笔记。
作业要求
基础作业
完成以下任务,并将实现过程记录截图:
配置lmdeploy运行环境
下载internlm-chat-1.8b模型
以命令行方式与模型对话
进阶作业
完成以下任务,并将实现过程记录截图:
设置KV Cache最大占用比例为0.4,开启W4A16量化,以命令行方式与模型对话。
以API Server方式启动 lmdeploy,开启 W4A16量化,调整KV Cache的占用比例为0.4,分别使用命令行客户端与Gradio网页客户端与模型对话。
使用W4A16量化,调整KV Cache的占用比例为0.4,使用Python代码集成的方式运行internlm2-chat-1.8b模型。
使用 LMDeploy 运行视觉多模态大模型 llava gradio demo
将 LMDeploy Web Demo 部署到 OpenXLab (OpenXLab cuda 12.2 的镜像还没有 ready,可先跳过,一周之后再来做)
LMDeploy量化LLM
新建环境
因为cuda11.7-conda的镜像与新版本的lmdeploy会出现兼容性问题。所以我们需要新建镜像为cuda12.2-conda的开发机,选择10% A100的GPU。
同时与之前的作业不同,这里使用studio-conda搭建的环境是基于“预制环境”pytorch-2.1.2的,而不是之前的internlm-base。这个环境是一个空环境,这意味着如果需要在本地使用直接创建一个python=3.10的空conda环境就ok。
