Robot Locomotion via RLS-based Actor-Critic Learning

RLS 기반 Actor-Critic 학습을 이용한 로봇이동

  • Kim, Jong-Ho (Dept. of Control & Instrumentation Engineering, Korea University) ;
  • Kang, Dae-Sung (Dept. of Control & Instrumentation Engineering, Korea University) ;
  • Park, Joo-Young (Dept. of Control & Instrumentation Engineering, Korea University)
  • 김종호 (고려대학교 제어계측공학과) ;
  • 강대성 (고려대학교 제어계측공학과) ;
  • 박주영 (고려대학교 제어계측공학과)
  • Published : 2005.11.01

Abstract

강화학습을 위한 많은 방법 중 정책 반복을 이용한 actor-critic 학습 방법이 많은 적용 사례를 통해서 그 가능성을 인정받고 있다. Actor-critic 학습 방법은 제어입력 선택 전략을 위한 actor 학습과 가치 함수 근사를 위한 critic 학습이 필요하다. 본 논문은 critic의 학습을 위해 빠른 수렴성을 보장하는 RLS(recursive least square)를 사용하고, actor의 학습을 위해 정책의 기울기(policy gradient)를 이용하는 새로운 알고리즘을 제안하였다. 그리고 이를 실험적으로 확인하여 제안한 논문의 성능을 확인해 보았다.

Keywords