• 제목/요약/키워드: Natural actor-critic method

검색결과 3건 처리시간 0.019초

액터-크리틱 퍼지 강화학습을 이용한 기는 로봇의 제어 (Control of Crawling Robot using Actor-Critic Fuzzy Reinforcement Learning)

  • 문영준;이재훈;박주영
    • 한국지능시스템학회논문지
    • /
    • 제19권4호
    • /
    • pp.519-524
    • /
    • 2009
  • 최근에 강화학습 기법은 기계학습 분야에서 많은 관심을 끌어왔다. 강화학습 관련 연구에서 가장 유력하게 사용되어 온 방법들로는 가치함수를 활용하는 기법, 제어규칙(policy) 탐색 기법 및 액터-크리틱 기법 등이 있는데, 본 논문에서는 이들 중 연속 상태 및 연속 입력을 갖는 문제를 위하여 액터-크리틱 기법의 틀에서 제안된 알고리즘들과 관련된 내용을 다룬다. 특히 본 논문은 퍼지 이론에 기반을 둔 액터-크리틱 계열 강화학습 기법인 ACFRL 알고리즘과, RLS 필터와 NAC(natural actor-critic) 기법에 기반을 둔 RLS-NAC 기법을 접목하는 방안을 집중적으로 고찰한다. 고찰된 방법론은 기는 로봇의 제어문제에 적용되고, 학습 성능의 비교로부터 얻어진 몇 가지 결과가 보고된다.

강화학습에 의한 현가장치의 제어 (Suspension Control using Reinforcement Learning)

  • 정규백;문영준;박주영
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국지능시스템학회 2007년도 추계학술대회 학술발표 논문집
    • /
    • pp.163-166
    • /
    • 2007
  • 최근에 국내외의 인공지능 분야에서는, 강화학습(reinforcement learning)에 관한 연구가 활발히 진행되고 있다. 본 논문에서는 능동형 현가장치(active-suspension)의 제어를 위하여 RLS 기반 NAC(natural actor-critic)을 활용한 강화학습 기법을 적용해보고, 그 성능을 시뮬레이션을 통해 확인해본다.

  • PDF

RLS 기반의 Natural Actor-Critic 알고리즘을 이용한 터널 환기제어기 설계 (Tunnel Ventilation Controller Design Employing RLS-Based Natural Actor-Critic Algorithm)

  • 주백석;김동남;홍대희;박주영;정진택;권태형
    • 한국정밀공학회:학술대회논문집
    • /
    • 한국정밀공학회 2006년도 춘계학술대회 논문집
    • /
    • pp.53-54
    • /
    • 2006
  • The main purpose of tunnel ventilation system is to maintain CO pollutant and VI (visibility index) under an adequate level to provide drivers with safe driving condition. Moreover, it is necessary to minimize power consumption used to operate ventilation system. To achieve the objectives, the control algorithm used in this research is reinforcement teaming (RL) method. RL is a goal-directed teaming of a mapping from situations to actions. The goal of RL is to maximize a reward which is an evaluative feedback from the environment. Constructing the reward of the tunnel ventilation system, two objectives listed above are included. RL algorithm based on actor-critic architecture and natural gradient method is adopted to the system. Also, the recursive least-squares (RLS) is employed to the learning process to improve the efficiency of the use of data. The simulation results performed with real data collected from existing tunnel are provided in this paper. It is confirmed that with the suggested controller, the pollutant level inside the tunnel was well maintained under allowable limit and the performance of energy consumption was improved compared to conventional control scheme.

  • PDF