Actor-Critic 是一种结合了策略梯度方法和值函数方法的强化学习算法。它通过同时学习策略和价值两个网络,既能够像策略梯度方法一样直接优化策略,又能利用值函数降低梯度估计的方差。以下是关于 Actor-Critic 算法的详细分析。 Actor-Critic 算法的核心思想是将 ...