正在尝试用verlLLM,有何高见?

摘要:主要参考资料: verl 的 GitHub:https:github.comvolcengineverl verl 的文档:verl documentation 安装 verl:verl documentation | Instal
主要参考资料: verl 的 GitHub:https://github.com/volcengine/verl verl 的文档:verl documentation 安装 verl:verl documentation | Installation 官方 quick start:verl documentation | Quickstart: PPO training on GSM8K dataset 简单记录(目前)配置 verl 的流程: 目录1 配置 verl2 跑官方的 quick start,用 gsm8K 数据集 PPO 微调 0.5B 模型3 下一步可能做的事情 1 配置 verl 直接使用了之前 配置 llama factory 的环境,然后,直接按照 官方 install 文档 来配置。 官方文档中,要求 python >= 3.10、CUDA >= 12.8,我的 cuda 版本是 12.2,也没事() 我没有使用 docker 来安装,而是直接用 pip 安装的。主要执行了以下命令: # 0. 新建 conda 环境 conda create -n verl python=3.10 # 1. 安装 FSDP backend USE_MEGATRON=0 bash scripts/install_vllm_sglang_mcore.sh # 如果希望安装 Megatron-LM backend,则可以执行 bash scripts/install_vllm_sglang_mcore.sh # (我也不懂 backend 是什么) # 2. 安装 verl git clone https://github.com/volcengine/verl.git cd verl pip install --no-deps -e . # 3. 安装 flash attention pip install https://github.com/Dao-AILab/flash-attention/releases/download/v2.8.3/flash_attn-2.8.3%2Bcu12torch2.8cxx11abiFALSE-cp311-cp311-linux_x86_64.whl # 直接 pip install flash-attn 是装不上的,需要从 wheel 装 # 这个命令对应 python 3.11、pytorch 2.8、cuda 12.2。对于其他环境,需要使用以下的网址,寻找对应的命令: # Find Your Compatible Flash Attention Wheel - https://flashattn.dev/#finder 2 跑官方的 quick start,用 gsm8K 数据集 PPO 微调 0.5B 模型 官方 quick start:verl documentation | Quickstart: PPO training on GSM8K dataset 需要显卡有 20G 30G 左右的显存。
阅读全文