Derivatives of Logarithmic Stationary Distributions for Policy Gradient Reinforcement Learning

Derivatives of Logarithmic Stationary Distributions for Policy Gradient Reinforcement Learning | MIT Press Journals & Magazine | IEEE Xplore