强化学习基础(RL)中,策略如何优化决策过程?

摘要:RL 简介 (1) 定义 强化学习(Reinforcement Learning)是一种机器学习方法,用于解决需要在一定环境下通过与环境交互来学习最有行为策略的问题。其核心思想是通过试错和奖励机制来指导智能体(Agent)学习如何在不同情境
RL 简介 (1) 定义 强化学习(Reinforcement Learning)是一种机器学习方法,用于解决需要在一定环境下通过与环境交互来学习最有行为策略的问题。其核心思想是通过试错和奖励机制来指导智能体(Agent)学习如何在不同情境下采取行动,以最大化长期累积奖励 (2) 强化学习流程 强化学习中的 agent 用来表示做决策的机器,相比于传统的模型,agent 可以感知周围的环境并通过做决策来直接改变这个环境。一般来说,在经典的强化学习中 agent 的实现可以用一些简单的 MLP、RNN、CNN 等神经网络实现,与现在流行的 LLM-based Agent 有区别 最终目标是:找到一个策略,这个策略根据当前观测到的环境状态和奖励反馈,来选择最佳的动作 (3) 强化学习的独特性 一般的有监督学习任务,目标是找到一个最优的模型函数,使其在训练数据集上最小化一个给定的损失函数;相比之下,强化学习的最终优化目标是最大化智能体策略在和动态环境交互过程中的价值。策略的价值可以等价转换成奖励函数在策略的占用度量(这里简单理解策略的占用度量就是策略的分布即可)上的期望 二者优化的途径是不同的,有监督学习直接通过优化模型对于数据特征的输出来优化目标,即修改目标函数而数据分布不变;强化学习则通过该改变策略来调整智能体与环境交互数据的分布,即修改数据分布而目标函数不变(一个学模型,一个学策略) (4) 强化学习的分类 以数据来划分: Online:agent 一边与环境交互收集轨迹样本一边学习策略 Offline:agent 学习用到的轨迹样本是提前收集好的,作为一个 offline dataset 提供给 agent,学习策略过程不涉及环境交互 以采样策略和更新策略划分 On-Policy:用来采样的行为策略和用这些数据更新的目标策略是同一个策略,例如 SARSA Off-Policy:用来采样的行为策略和用这些数据更新的目标策略不是同一个策略,例如 Q-learning 以需不需要环境动态划分 Model-based:环境动态已知,可以得到环境状态转移方程、奖励函数的模型,Agent 不需要真正的和环境交互学习策略 Model-free:环境动态未知,不需要学习状态转移,通过 Agent 与环境交互学习策略 以如何学习策略划分(Value-based and Policy-based 见后述) RL 基础概念 (1) 马尔可夫决策过程 强化学习解决实际问题的第一步就是把实际问题抽象成一个 Markov Decision Process(MDP) 马尔可夫决策过程由五元组 \(<S,A,P,r,\gamma>\) 构成,其中 \(S\) 是状态的集合,\(A\) 是智能体动作的集合,\(P(s'|s,a)\) 是状态转移函数在状态 \(s\) 执行动作 \(a\) 之后转移到状态 \(s'\) 的概率,\(r(s,a)\) 是即时奖励函数取决于状态和动作,\(\gamma\) 是折扣因子(未来第 t 步的奖励需要乘上 \(\gamma^t\) 来降低影响) 策略用 \(\pi\) 表示,其相当于在输入状态情况下采取不同动作的概率。当一个动作是确定性策略时,它在每个状态时只输出一个确定性的动作;当一个策略是随机性策略时,它在每个状态的输出是关于动作的概率分布,然后根据该分布进行采样就可以得到一个动作 (2) 价值函数 状态价值函数 \(V(s)\):从一个 state 出发,对各个 trajectory 的回报求期望。
阅读全文