Off-OAB: Off-Policy Policy Gradient Method With Optimal Action-Dependent Baseline

Off-OAB: Off-Policy Policy Gradient Method With Optimal Action-Dependent Baseline | IEEE Journals & Magazine | IEEE Xplore