Unsloth Qwen1.5如何成为LLM微调加速的利器？

摘要：本文主要是使用unsloth框架针对Qwen1.5的高效微调实验，提供了详细的对比代码以及不同维度的对比分析结果。

1. 背景上一篇介绍了基于训练加速框架Unsloth，微调训练Llama3的显卡资源占用及训练时间对比。近期Unsloth新增了Qwen1.5的模型适配，因此本qiang~马不停蹄地又进行了一次实验对比。对Unsloth的简介，感兴趣的客观可以查阅上一篇《LLM微调加速神器：Unsloth + LLama3》。 2. 实战本着眼过千遍不如手过一遍的宗旨，本qiang~针对Unsloth做了一个对比实现。对比的实验环境为： A800，模型为Qwen1.5-32B-Chat。可以使用如下命令进行更新unsloth。 pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git" 2.1 比对维度维度说明显卡是否支持bf16 最大文本长度 max_seq_length 批次大小 per_device_train_batch_size 梯度累加步长 gradient_accumulation_steps 秩 LoRA的rank dropout lora_droput 2.2 源码源码请见地址，由于Qwen1.5和Llama3的prompt模板不一致，因此源码层面上也稍加了改动。 3 实验结果 3.1 A800 3.2 结论针对于Qwen1.5-32B-Chat进行unsloth训练，与基于transformers框架训练进行比对，结论如下：集成unsloth后，显卡占用确实更少，平均减少20%-25%，训练效率确实更快，不管是哪种维度，平均训练时间减少了27%-41%。使用40G显存的单卡如A40，即可进行微调训练。 4. 总结一句话足矣~ 本文主要是使用unsloth框架针对Qwen1.5的高效微调实验，提供了详细的对比代码以及不同维度的对比分析结果。之后会研读一遍unsloth的底层源码，具体是如何使用triton语言实现加速的，以及如何手写的前馈网络和反向传播的实现~ 5. 参考 1. unsloth: https://github.com/unslothai/unsloth

Unsloth Qwen1.5如何成为LLM微调加速的利器？

相关推荐