Instance-optimality in optimal value estimation: Adaptivity via variance-reduced <i>Q</i>-learning

Instance-optimality in optimal value estimation: Adaptivity via variance-reduced Q-learning | IEEE Journals & Magazine | IEEE Xplore