Random Balance between Monte Carlo and Temporal Difference in off-policy Reinforcement Learning for Less Sample-Complexity (오프 폴리시 강화학습에서 몬테 칼로와 시간차 학습의 균형을 사용한 적은 샘플 복잡도)
-
- Journal of Internet Computing and Services
- /
- v.21 no.5
- /
- pp.1-7
- /
- 2020