近两年PbRL相关论文，有哪些不完整的阅读总结值得探讨？

摘要：（其实是博士生资格考试需要介绍的 20 篇文献… （选了比较熟悉的 20 篇，拼尽全力读完 10 篇，就读不动了… 读文献真是太难了…… 目录[&#127861; PbRL] Deep reinforcement learn

（其实是博士生资格考试需要介绍的 20 篇文献… （选了比较熟悉的 20 篇，拼尽全力读完 10 篇，就读不动了… 读文献真是太难了…… 目录[🍵 PbRL] Deep reinforcement learning from human preferences (Christiano 2017)[🍵 PbRL] PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training[🍵 PbRL] SURF: Semi-supervised reward learning with data augmentation for feedback-efficient preference-based reinforcement learning[🍵 PbRL] Reward uncertainty for exploration in preference-based reinforcement learning (RUNE)[🍵 PbRL] B-Pref: Benchmarking Preference-Based Reinforcement Learning[🍵 PbRL] Benchmarks and Algorithms for Offline Preference-Based Reward Learning (OPRL)[🍵 PbRL] RIME: Robust Preference-based Reinforcement Learning with Noisy Preferences[🍵 PbRL] [🍯 offline] Listwise Reward Estimation for Offline Preference-based Reinforcement Learning (LiRE)[🍵 PbRL] Query-Policy Misalignment in Preference-Based Reinforcement Learning (QPA)[🍵 PbRL] [🍯 offline] Preference Transformer: Modeling Human Preferences using Transformers for RL[🍯 offline] Decision Transformer: Reinforcement Learning via Sequence Modeling[🍯 offline] Generalized Decision Transformer for Offline Hindsight Information Matching (HIM)[🍵 PbRL] [🍯 offline] Beyond Reward: Offline Preference-guided Policy Optimization (OPPO)[🍯 offline] A Minimalist Approach to Offline Reinforcement Learning (TD3+BC)[🥑 multi-objective] A Generalized Algorithm for Multi-Objective Reinforcement Learning and Policy Adaptation (EQL)[🍇 exploration] Exploration by Random Network Distillation (RND）[🍇 exploration] Episodic Novelty Through Temporal Distance (ETD)[🍄 skill discovery] Do's and Don'ts: Learning Desirable Skills with Instruction Videos基于事件的优化方法简介及其在能源互联网中的应用面向数据中心绿色可靠运行的强化学习方法 [🍵 PbRL] Deep reinforcement learning from human preferences (Christiano 2017) 信息：PbRL 开山之作，NeurIPS 2017，提出了 PrefPPO。

近两年PbRL相关论文，有哪些不完整的阅读总结值得探讨？

相关推荐