Acknowledgement
이 논문은 2020년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임(No. NRF-2020R1I1A3065610).
DOI QR Code
심층강화학습에 완전 연결 신경망과 합성곱 신경망은 잘 활용되는 것에 반해 순환 신경망은 잘 활용되지 않는다. 이는 강화학습이 마르코프 속성을 전제로 하기 때문이다. 지금까지의 강화학습은 환경이 마르코프 속성을 만족하도록 사전 작업이 필요했다, 본 논문에서는 마르코프 속성을 따르지 않는 환경에서 이러한 사전 작업 없이도 순환 신경망의 은닉 상태를 통해 마르코프 속성을 학습함으로써 학습 성능을 개선할 수 있다는 것을 소개한다.
이 논문은 2020년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임(No. NRF-2020R1I1A3065610).