RDK-OE-LLM工具链量化SigLip全流程如何为?
摘要:作者:SkyXZ CSDN:SkyXZ~-CSDN博客 博客园:SkyXZ - 博客园 LLM工具链工具包:wget https:d-robotics-aitoolchain.oss-cn-beijing.aliyuncs.comll
作者:SkyXZ
CSDN:SkyXZ~-CSDN博客
博客园:SkyXZ - 博客园
LLM工具链工具包:wget https://d-robotics-aitoolchain.oss-cn-beijing.aliyuncs.com/llm_s100/1.0.0/D-Robotics_LLM_S100_1.0.0_SDK.tar.gz
LLM工具链开发文档:wget https://d-robotics-aitoolchain.oss-cn-beijing.aliyuncs.com/llm_s100/1.0.0/D-Robotics_LLM_S100_1.0.0_Doc.zip
所有代码已传至:https://github.com/xiongqi123123/RDK_OE_LLM_ZOO
随着多模态大模型、VLM 乃至 VLA 的快速发展,越来越多的模型在视觉编码器部分采用了 SigLip 这一类结构。相比传统 CNN,SigLip 这类以 Transformer 为核心的视觉骨干在跨模态任务中表现更强,但也正因为其结构更复杂、对数值分布更敏感,直接沿用 RDK 传统 PTQ 量化流程时,往往会出现较明显的精度掉点。此前我也写过一篇基于传统工具链量化 ViT 的教程,虽然整体流程能够跑通,但从最终效果来看,精度损失仍然偏大,并不算是一个足够理想的部署方案。而超哥之前写过一个文档,但是并没有给出量化的参考仅给出了可下载的量化后的权重。
而本文则基于地瓜机器人推出的 OE-LLM 大模型工具链,以 siglip-so400m-patch14-384 为例,完整记录我是如何从模型结构分析出发,一步步完成 SigLip 在 Leap 框架下的网络重构、模型注册、校准编译以及PC 与板端验证的。相较于传统 PTQ 方法,OE-LLM 更适合处理这类面向大模型时代的 Transformer 视觉编码器,也更有机会在保证可部署性的同时,取得更稳定的量化效果。希望这篇文章不仅能够帮助大家在 RDK 平台上跑通 SigLip 的量化部署流程,也能为后续适配更多视觉编码器或多模态模型提供一个可复用的参考。
一、环境配置(按照开发手册配置即可)
开发机配置(PC电脑)
# Step1:下载D-Robotics_LLM_{version}.tar.gz安装包并正确解压。
