• 제목/요약/키워드: 역강화학습

검색결과 3건 처리시간 0.017초

역강화학습 기술 동향 (Research Trends on Inverse Reinforcement Learning)

  • 이상광;김대욱;장시환;양성일
    • 전자통신동향분석
    • /
    • 제34권6호
    • /
    • pp.100-107
    • /
    • 2019
  • Recently, reinforcement learning (RL) has expanded from the research phase of the virtual simulation environment to a wide range of applications, such as autonomous driving, natural language processing, recommendation systems, and disease diagnosis. However, RL is less likely to be used in these complex real-world environments. In contrast, inverse reinforcement learning (IRL) can obtain optimal policies in various situations; furthermore, it can use expert demonstration data to achieve its target task. In particular, IRL is expected to be a key technology for artificial general intelligence research that can successfully perform human intellectual tasks. In this report, we briefly summarize various IRL techniques and research directions.

강건한 스케줄링을 위한 마코프 의사결정 프로세스 추론 및 역강화 학습 기반 일상 행동 학습 (Robust Scheduling based on Daily Activity Learning by using Markov Decision Process and Inverse Reinforcement Learning)

  • 이상우;곽동현;온경운;허유정;강우영;재이다;장병탁
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권10호
    • /
    • pp.599-604
    • /
    • 2017
  • 유저의 일상 스케쥴을 제안하고 예측하는 서비스는 스마트 비서의 흥미로운 응용이다. 전통적인 방법에서는 유저의 행동을 예측하기 위하여, 유저가 직접 자신의 행동을 기록하거나, e-mail 혹은 SNS 등에서 명시적인 일정 정보를 추출하여 사용해왔다. 하지만, 유저가 모든 정보를 기록할 수 없기에, 스마트 비서가 얻을 수 있는 정보는 제한적이며, 유저는 유저의 일상의 routine한 정보를 기록하지 않는 경향이 있다. 본 논문에서는 스케줄러에 적히는 정형화된 일정인 스케줄과 비정형화된 일정을 만드는 일상 행동 패턴들을 동시에 고려하는 접근 방법을 제안한다. 이를 위하여 마코프 의사 결정 프로세스 (MDP)를 기반으로 하는 추론 방법과 역강화 학습 (IRL)을 통한 보상 함수 학습 방법을 제안한다. 실험 결과는 우리가 6주간 모은 실제 생활을 기록한 데이터 셋에서 우리의 방법이 기존 방법들보다 우수한 성능을 보임을 논증한다.

Virtual-Constructive 시뮬레이션 연동을 활용한 공중전 전투 실험 (Virtual-Constructive Simulation Interoperation for Aircombat Battle Experiment)

  • 김동준;신용진;안경수;김영곤;문일철;배장원
    • 한국시뮬레이션학회논문지
    • /
    • 제30권1호
    • /
    • pp.139-152
    • /
    • 2021
  • 시뮬레이션을 통하여 경험하기 어려운 사건을 가상적으로 체험할 수도 있으며, 분석을 수행할 수도 있다. 국방시뮬레이션 분야에서 이런 체험을 기반으로 Virtual 시뮬레이션이 연구 개발되고 있으며, 분석을 위하여 Constructive 시뮬레이션이 연구 개발되고 있다. 이런 시뮬레이션을 연동하여, VC(Virtual-Constructive) 시뮬레이션 환경을 구성할 수 있고, VC 시뮬레이션 환경은 전투 환경의 가상적인 경험과 교전개체의 지능적인 전술을 동시에 시험할 수 있는 환경이다. 또한, 최근의 인공지능 연구를 위해, 사람의 행동을 학습하는 이미테이션 학습 혹은 역강화학습 분야는 VC 환경에서 수집된 인간 행동 데이터를 필요로 한다. 제시된 연구는 공중전 분야에 VC 시뮬레이션 환경의 사례를 보여주며, 이를 통해 수집된 인간 행동 데이터의 특징을 분석하고 있다. 본 논문을 통하여, 공중전 분야 VC 시뮬레이션 환경이 어떻게 구축될 수 있으며, 인공지능 학습을 위하여 어떻게 활용될 수 있는지 보여준다.