2025年3月修改的论文速读记录是关于什么主题的?
摘要:目录Enhancing Autonomous Vehicle Training with Language Model Integration and Critical Scenario Generation Enhancing Auton
目录Enhancing Autonomous Vehicle Training with Language Model Integration and Critical Scenario Generation
Enhancing Autonomous Vehicle Training with Language Model Integration and Critical Scenario Generation
arxiv:https://arxiv.org/abs/2404.08570
GitHub:https://github.com/zachtian/CRITICAL
来源:随机看到的文章。
主要内容:
highway-env + LLM。
背景:这篇文章声称,为了增强自动驾驶的 RL 策略的安全性,需要在关键驾驶场景(如高风险、低出现频率的边缘案例)进行训练,这样可以提升策略在复杂动态环境中的安全性和适应性。
相关工作:生成多样化的自动驾驶场景,可以使用生成模型(如 diffusion)、进化算法和贝叶斯网络。识别关键场景,可以使用进化算法之类的方法。
method:这篇工作使用 LLM 来生成多样化的关键场景,然后让 RL 策略在这些关键场景中训练,以增强 RL 策略的能力和安全性。
首先,整理了 HighD 数据集,并分类为不同的驾驶场景;
然后,对于一段时间的 RL 训练,提取这段时间 rollout 数据的特征,并将这些特征与 HighD 数据集中的信息 concat 起来,送给 LLM,让它生成一组新的 RL 训练环境的参数。
实验结果:相比于没有增强 RL 训练环境的 PPO 算法,和使用传统方法(?)增强训练环境的算法,碰撞次数和(自定义的)风险指标都更低。
(感觉没有很看懂这篇文章的具体 method。
