Instance-Dependent ℓ<sub>∞</sub>-Bounds for Policy Evaluation in Tabular Reinforcement Learning

Instance-Dependent ℓ∞-Bounds for Policy Evaluation in Tabular Reinforcement Learning | IEEE Journals & Magazine | IEEE Xplore