Annual Conference of KIPS (한국정보처리학회:학술대회논문집)
- 2019.05a
- /
- Pages.545-547
- /
- 2019
- /
- 2005-0011(pISSN)
- /
- 2671-7298(eISSN)
DOI QR Code
Experimental Analysis of A3C and PPO in the OpenAI Gym Environment
OpenAI Gym 환경에서 A3C와 PPO의 실험적 분석
- Hwang, Gyu-Young (Dept. of Computer Science and Engineering, KoreaTech University) ;
- Lim, Hyun-Kyo (Interdisciplinary Program in Creative Engineering, KoreaTech University) ;
- Heo, Joo-Seong (Interdisciplinary Program in Creative Engineering, KoreaTech University) ;
- Han, Youn-Hee (Dept. of Computer Science and Engineering, KoreaTech University)
- 황규영 (한국기술교육대학교 컴퓨터공학과) ;
- 임현교 (한국기술교육대학교 창의융합공학협동과정) ;
- 허주성 (한국기술교육대학교 창의융합공학협동과정) ;
- 한연희 (한국기술교육대학교 컴퓨터공학과)
- Published : 2019.05.10
Abstract
Policy Gradient 방식의 학습은 최근 강화학습 분야에서 많이 연구되고 있는 주제로, 본 논문에서는 강화학습을 적용시킬 수 있는 OpenAi Gym 의 'CartPole-v0' 와 'Pendulum-v0' 환경에서 Policy Gradient 방식의 Asynchronous Advantage Actor-Critic (A3C) 알고리즘과 Proximal Policy Optimization (PPO) 알고리즘의 학습 성능을 비교 분석한 결과를 제시한다. 딥러닝 모델 등 두 알고리즘이 동일하게 지닐 수 있는 조건들은 가능한 동일하게 맞추면서 Episode 진행에 따른 Score 변화 과정을 실험하였다. 본 실험을 통해서 두 가지 서로 다른 환경에서 PPO 가 A3C 보다 더 나은 성능을 보임을 확인하였다.
Keywords