· Actor Actor是Actor模型中的核心概念,每个Actor独立管理自己的资源,与其他Actor之间通信通过Message。 这里的每个Actor由单线程驱动,相当于Skynet中的服务。 … 深度强化学习中critic的loss下降,actor的loss上升,reward在波动这是为什么? 我用的是ddpg算法。 按理说奖励应该整体趋势在不断增长,但结果并没有,附件是loss曲线和reward曲线奖励的 … 如果你对 Actor-Critic 这个经典的 RL 框架有所了解,那就很容易理解了,PPO 就是采用了 Actor-Critic 框架的一种算法,其中 Critic 的作用就是计算 优势函数 (Advantage Function),从而 减少 …