Imitating play from game trajectories: Temporal difference learning versus preference learning

Imitating play from game trajectories: Temporal difference learning versus preference learning | IEEE Conference Publication | IEEE Xplore