Delayed Reward Bernoulli Bandits: Optimal Policy and Predictive Meta-Algorithm PARDI

Delayed Reward Bernoulli Bandits: Optimal Policy and Predictive Meta-Algorithm PARDI | IEEE Journals & Magazine | IEEE Xplore