The policy gradient estimation of continuous-time hidden Markov decision processes

The policy gradient estimation of continuous-time hidden Markov decision processes | IEEE Conference Publication | IEEE Xplore