DOI QR코드

DOI QR Code

Explainable Deep Reinforcement Learning Knowledge Distillation for Global Optimal Solutions

글로벌 최적 솔루션을 위한 설명 가능한 심층 강화 학습 지식 증류

  • Fengjun Li (Dept. of Computer Science, Hanyang University) ;
  • Inwhee Joe (Dept. of Computer Science, Hanyang University)
  • 이봉준 (한양대학교 컴퓨터소프트웨어학과 ) ;
  • 조인휘 (한양대학교 컴퓨터소프트웨어학과 )
  • Published : 2023.11.02

Abstract

설명 가능한 심층 강화 학습 지식 증류 방법(ERL-KD)이 제안하였다. 이 방법은 모든 하위 에이전트로부터 점수를 수집하며, 메인 에이전트는 주 교사 네트워크 역할을 하고 하위 에이전트는 보조 교사 네트워크 역할을 한다. 글로벌 최적 솔루션은 샤플리 값과 같은 해석 가능한 방법을 통해 얻어진다. 또한 유사도 제약이라는 개념을 도입하여 교사 네트워크와 학생 네트워크 간의 유사도를 조정함으로써 학생 네트워크가 자유롭게 탐색할 수 있도록 유도한다. 실험 결과, 학생 네트워크는 아타리 2600 환경에서 대규모 교사 네트워크와 비슷한 성능을 달성하는 것으로 나타났다.

Keywords