正在尝试用verlLLM,有何高见?
摘要:主要参考资料: verl 的 GitHub:https:github.comvolcengineverl verl 的文档:verl documentation 安装 verl:verl documentation | Instal
主要参考资料:
verl 的 GitHub:https://github.com/volcengine/verl
verl 的文档:verl documentation
安装 verl:verl documentation | Installation
官方 quick start:verl documentation | Quickstart: PPO training on GSM8K dataset
简单记录(目前)配置 verl 的流程:
目录1 配置 verl2 跑官方的 quick start,用 gsm8K 数据集 PPO 微调 0.5B 模型3 下一步可能做的事情
1 配置 verl
直接使用了之前 配置 llama factory 的环境,然后,直接按照 官方 install 文档 来配置。
官方文档中,要求 python >= 3.10、CUDA >= 12.8,我的 cuda 版本是 12.2,也没事()
我没有使用 docker 来安装,而是直接用 pip 安装的。主要执行了以下命令:
# 0. 新建 conda 环境
conda create -n verl python=3.10
# 1. 安装 FSDP backend
USE_MEGATRON=0 bash scripts/install_vllm_sglang_mcore.sh
# 如果希望安装 Megatron-LM backend,则可以执行 bash scripts/install_vllm_sglang_mcore.sh
# (我也不懂 backend 是什么)
# 2. 安装 verl
git clone https://github.com/volcengine/verl.git
cd verl
pip install --no-deps -e .
# 3. 安装 flash attention
pip install https://github.com/Dao-AILab/flash-attention/releases/download/v2.8.3/flash_attn-2.8.3%2Bcu12torch2.8cxx11abiFALSE-cp311-cp311-linux_x86_64.whl
# 直接 pip install flash-attn 是装不上的,需要从 wheel 装
# 这个命令对应 python 3.11、pytorch 2.8、cuda 12.2。对于其他环境,需要使用以下的网址,寻找对应的命令:
# Find Your Compatible Flash Attention Wheel - https://flashattn.dev/#finder
2 跑官方的 quick start,用 gsm8K 数据集 PPO 微调 0.5B 模型
官方 quick start:verl documentation | Quickstart: PPO training on GSM8K dataset
需要显卡有 20G 30G 左右的显存。
