有哪些可以描述好用的GPU资源可视化工具?

摘要:在训练模型的时候, 我们需要试试监控nvidia显卡状态 包含显存使用状态和核心运行占用的情况 传统方式是使用nvidia-smi工具来显示显卡使用情况. 但是这个方式只能展示当前的情况 即使使用-l 1指令来循环展示, 也是不断地输出在终
在训练模型的时候, 我们需要试试监控nvidia显卡状态 包含显存使用状态和核心运行占用的情况 传统方式是使用nvidia-smi工具来显示显卡使用情况. 但是这个方式只能展示当前的情况 即使使用-l 1指令来循环展示, 也是不断地输出在终端, 会把终端日志拉的很长 哪怕是使用watch diff这样的执行来监控变化的部分也不够好, 不能交互 nvitop 一个为了监控显卡的状态的类top的工具 可以交互 占用栏可视化(不是纯文本) 效果 这里是4卡, 所以有4个条目 可以通过选中一个任务检查具体的执行情况 安装 pip install nvitop 可以使用pip指令直接安装程序 使用 nvitop 直接使用执行即可启动, 类似htop操作方式