DOI QR코드

DOI QR Code

Experimental Analysis of A3C and PPO in the OpenAI Gym Environment

OpenAI Gym 환경에서 A3C와 PPO의 실험적 분석

  • Hwang, Gyu-Young (Dept. of Computer Science and Engineering, KoreaTech University) ;
  • Lim, Hyun-Kyo (Interdisciplinary Program in Creative Engineering, KoreaTech University) ;
  • Heo, Joo-Seong (Interdisciplinary Program in Creative Engineering, KoreaTech University) ;
  • Han, Youn-Hee (Dept. of Computer Science and Engineering, KoreaTech University)
  • 황규영 (한국기술교육대학교 컴퓨터공학과) ;
  • 임현교 (한국기술교육대학교 창의융합공학협동과정) ;
  • 허주성 (한국기술교육대학교 창의융합공학협동과정) ;
  • 한연희 (한국기술교육대학교 컴퓨터공학과)
  • Published : 2019.05.10

Abstract

Policy Gradient 방식의 학습은 최근 강화학습 분야에서 많이 연구되고 있는 주제로, 본 논문에서는 강화학습을 적용시킬 수 있는 OpenAi Gym 의 'CartPole-v0' 와 'Pendulum-v0' 환경에서 Policy Gradient 방식의 Asynchronous Advantage Actor-Critic (A3C) 알고리즘과 Proximal Policy Optimization (PPO) 알고리즘의 학습 성능을 비교 분석한 결과를 제시한다. 딥러닝 모델 등 두 알고리즘이 동일하게 지닐 수 있는 조건들은 가능한 동일하게 맞추면서 Episode 진행에 따른 Score 변화 과정을 실험하였다. 본 실험을 통해서 두 가지 서로 다른 환경에서 PPO 가 A3C 보다 더 나은 성능을 보임을 확인하였다.

Keywords