正在尝试用verlLLM，有何高见？

摘要：主要参考资料： verl 的 GitHub：https:github.comvolcengineverl verl 的文档：verl documentation 安装 verl：verl documentation | Instal

主要参考资料： verl 的 GitHub：https://github.com/volcengine/verl verl 的文档：verl documentation 安装 verl：verl documentation | Installation 官方 quick start：verl documentation | Quickstart: PPO training on GSM8K dataset 简单记录（目前）配置 verl 的流程：目录1 配置 verl2 跑官方的 quick start，用 gsm8K 数据集 PPO 微调 0.5B 模型3 下一步可能做的事情 1 配置 verl 直接使用了之前配置 llama factory 的环境，然后，直接按照官方 install 文档来配置。官方文档中，要求 python >= 3.10、CUDA >= 12.8，我的 cuda 版本是 12.2，也没事（）我没有使用 docker 来安装，而是直接用 pip 安装的。主要执行了以下命令： # 0. 新建 conda 环境 conda create -n verl python=3.10 # 1. 安装 FSDP backend USE_MEGATRON=0 bash scripts/install_vllm_sglang_mcore.sh # 如果希望安装 Megatron-LM backend，则可以执行 bash scripts/install_vllm_sglang_mcore.sh # （我也不懂 backend 是什么） # 2. 安装 verl git clone https://github.com/volcengine/verl.git cd verl pip install --no-deps -e . # 3. 安装 flash attention pip install https://github.com/Dao-AILab/flash-attention/releases/download/v2.8.3/flash_attn-2.8.3%2Bcu12torch2.8cxx11abiFALSE-cp311-cp311-linux_x86_64.whl # 直接 pip install flash-attn 是装不上的，需要从 wheel 装 # 这个命令对应 python 3.11、pytorch 2.8、cuda 12.2。对于其他环境，需要使用以下的网址，寻找对应的命令： # Find Your Compatible Flash Attention Wheel - https://flashattn.dev/#finder 2 跑官方的 quick start，用 gsm8K 数据集 PPO 微调 0.5B 模型官方 quick start：verl documentation | Quickstart: PPO training on GSM8K dataset 需要显卡有 20G 30G 左右的显存。

正在尝试用verlLLM，有何高见？

相关推荐