• Title/Summary/Keyword: 학습강화

Search Result 1,581, Processing Time 0.029 seconds

The Improvement of Convergence Rate in n-Queen Problem Using Reinforcement learning (강화학습을 이용한 n-Queen 문제의 수렴속도 향상)

  • Lim SooYeon;Son KiJun;Park SeongBae;Lee SangJo
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.15 no.1
    • /
    • pp.1-5
    • /
    • 2005
  • The purpose of reinforcement learning is to maximize rewards from environment, and reinforcement learning agents learn by interacting with external environment through trial and error. Q-Learning, a representative reinforcement learning algorithm, is a type of TD-learning that exploits difference in suitability according to the change of time in learning. The method obtains the optimal policy through repeated experience of evaluation of all state-action pairs in the state space. This study chose n-Queen problem as an example, to which we apply reinforcement learning, and used Q-Learning as a problem solving algorithm. This study compared the proposed method using reinforcement learning with existing methods for solving n-Queen problem and found that the proposed method improves the convergence rate to the optimal solution by reducing the number of state transitions to reach the goal.

Optimal Path Search using Reinforcement Learning Technique (강화학습 기법을 이용한 최적경로 탐색)

  • Gu, Da-Sol;Lee, Tae-Kyung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.11a
    • /
    • pp.886-889
    • /
    • 2014
  • 본 논문에서는 사용자로부터 실시간으로 전송 받은 교통정보 이용하여 강화학습에 의한 최적 경로탐색을 제안한다. ITS(Intelligent Transportation Systems)를 서비스하기 위한 시스템을 구축하기에는 많은 시간적 비용과 물질적 비용이 소모된다. 이를 보완하기 위해 사용자의 단말기로부터 실시간으로 수집한 교통 정보를 이용하여 강화학습기법을 적용한다. 강화학습의 목표는 환경 내에서의 에이전트가 행동에 대한 보상의 총합을 최대화 하는 것이다. 본 논문에서는 실시간으로 사용자의 단말기로부터 획득한 교통 정보를 이용하여 강화학습기법을 적용하고, 최단경로탐색 알고리즘을 분석하여 비교한다.

Design of Rotary Inverted Pendulum System Using Reinforcement Learning (강화학습을 이용한 회전식 도립진자 시스템 설계)

  • Kim, Ju-Bong;Kwon, Do-Hyung;Hong, Yong-Geun;Kim, Min-Suk;Han, Youn-Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.10a
    • /
    • pp.705-707
    • /
    • 2018
  • Rotary Inverted Pendulum 은 제어분야에서 비선형 제어 시스템을 설명하기 위해 자주 사용되어왔다. 본 논문은 강화학습 에이전트의 환경으로써 Rotary Inverted Pendulum 을 도입하였다. 이를 통해서 강화학습이 실제 세계에서의 복합적인 문제를 해결할 수 있음을 보인다. 강화학습 에이전트의 가상 환경과 실제 환경을 맵핑시키기 위해서 Ethernet 연결 위에 MQTT 프로토콜을 사용하였으며 이를 통해서 경량화된 IoT 분야에서의 강화학습의 활용도를 조명한다.

A Reinforcement Learning Design for Control Automation in Heat-up Mode of a Nuclear Plant (원전의 고온대기 운전 자동화를 위한 강화학습 설계)

  • Park, JaeKwan;Kim, TaekKyu;Seong, SeungHwan;Koo, SeoRyong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.11a
    • /
    • pp.1010-1013
    • /
    • 2020
  • 차세대 원전의 계측제어 기술 분야에서는 운영시스템의 자동화 수준을 높이고 운전원의 부담은 낮추기 위한 다양한 연구개발이 진행되고 있다. 최근, 인공지능 기술을 활용하여 원전의 운전에 기여하기 위한 연구가 수행되고 있다. 이 논문은 원전 자동화를 위한 기초 연구로써, 원전 고온대기 모드에서의 자동 제어를 고안하기 위한 강화학습 설계 방법을 소개한다. 기존 원전 시뮬레이터를 강화학습이 가능하도록 확장하였고 강화학습 핵심 요소를 원전 운전에 적합하도록 설계하였다. 실험 결과는 강화학습 기술이 차세대 원전 자동 제어에 적용할 수 있음을 보여준다.

A Study of Solving the Generalized Vehicle Routing Problem Using Reinforcement Learning (강화학습 기반의 차량 경로 문제 일반화 방안 연구)

  • Jung, Chul-Hwan;Kim, Kwang-Su;Kim, Han-Sol
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.07a
    • /
    • pp.705-707
    • /
    • 2022
  • 본 연구에서는 기존 차량 경로 문제(Vehicle Routing Problem)의 범위를 확장시켜 일반화된 차량 경로문제(Generalized Vehicle Routing Problem)를 제시하고, 이 문제를 해결하기 위한 강화학습 모델을 제안한다. 기존의 차량 경로 문제는 depot에서 각 node(또는 각 node에서 depot)의 단방향만 존재해 제한된 문제만을 해결할 수 있었다. 이 한계점을 극복하기 위해 depot을 제외한 모든 node가 서로 연결된 형태의 일반화된 차량 경로 문제를 정의하고 이를 해결하고자 한다. 차량 경로 문제는 NP-hard 문제로 최근에는 강화학습을 이용해 이를 해결하고자 하는 모델이 연구되고 있다. 본 연구에서는 새로 정의한 일반화된 차량 경로 문제를 해결하기 위한 강화학습 모델을 제안한다.

  • PDF

Analysis of Reinforcement Learning Methods for BS Switching Operation (기지국 상태 조정을 위한 강화 학습 기법 분석)

  • Park, Hyebin;Lim, Yujin
    • Asia-pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology
    • /
    • v.8 no.2
    • /
    • pp.351-358
    • /
    • 2018
  • Reinforcement learning is a machine learning method which aims to determine a policy to get optimal actions in dynamic and stochastic environments. But reinforcement learning has high computational complexity and needs a lot of time to get solution, so it is not easily applicable to uncertain and continuous environments. To tackle the complexity problem, AC (actor-critic) method is used and it separates an action-value function into a value function and an action decision policy. Also, in transfer learning method, the knowledge constructed in one environment is adapted to another environment, so it reduces the time to learn in a reinforcement learning method. In this paper, we present AC method and transfer learning method to solve the problem of a reinforcement learning method. Finally, we analyze the case study which a transfer learning method is used to solve BS(base station) switching problem in wireless access networks.

The study on environmental adaptation and expansion of the intelligent agent (지능형 에이전트의 환경 적응성 및 확장성에 대한 연구)

  • 백혜정;박영택
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.136-138
    • /
    • 2003
  • 로봇이나 가상 캐릭터와 같은 지능형 에이전트가 자율적으로 살아가기 위해서는 주어진 환경을 인식하고, 그에 맞는 최적의 행동을 선택하는 능력을 가지고 있어야 한다. 본 논문은 이러한 지능형 에이전트를 구현하기 위하여, 외부 환경에 적응하면서 최적의 행동을 배우고 선택하는 방법을 연구하였다. 본 논문에서 제안한 방식은 강화 학습을 이용한 행동기반 학습 방법과 기호 학습을 이용한 인지 학습 방법을 통합한 방식으로 다음과 같은 특징을 가진다. 첫째, 외부 환경의 적응성을 수행하기 위하여 강화 학습을 이용하였으며. 이는 지능형 에이전트가 변화하는 환경에 대한 유연성을 가지도록 하였다. 둘째. 경험들에서 귀납적 기계학습과 연관 규칙을 이용하여 규칙을 추출하여 에이전트의 목적에 맞는 환경 요인을 학습함으로 주어진 환경에서 보다 빠르게, 확장된 환경에서 보다 효율적으로 행동을 선택을 하도록 하였다. 제안한 통합방식은 기존의 강화 학습만을 고려한 학습 알고리즘에 비하여 학습 속도를 향상 시킬수 있으며, 기호 학습만을 고려한 학습 알고리즘에 비하여 환경에 유연성을 가지고 행동을 적용할 수 있는 장점을 가진다.

  • PDF

Performance Comparison of Crawling Robots Trained by Reinforcement Learning Methods (강화학습에 의해 학습된 기는 로봇의 성능 비교)

  • Park, Ju-Yeong;Jeong, Gyu-Baek;Mun, Yeong-Jun
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2007.04a
    • /
    • pp.33-36
    • /
    • 2007
  • 최근에 인공지능 분야에서는, 국내외적으로 강화학습(reinforcement learning)에 관한 관심이 크게 증폭되고 있다. 강화학습의 최근 경향을 살펴보면, 크게 가치함수를 직접 활용하는 방법(value function-based methods), 제어 전략에 대한 탐색을 활용하는 방법(policy search methods), 그리고 액터-크리틱 방법(actor-critic methods)의 세가지 방향으로 발전하고 있음을 알 수 있다. 본 논문에서는 이중 세 번째 부류인 액터-크리틱 방법 중 NAC(natural actor-critic) 기법의 한 종류인 RLS-NAC(recursive least-squares based natural actor-critic) 알고리즘을 다양한 트레이스 감쇠계수를 사용하여 연속제어입력(real-valued control inputs)으로 제어되는 Kimura의 기는 로봇에 대해 적용해보고, 그 성능을 기존의 SGA(stochastic gradient ascent) 알고리즘을 이용하여 학습한 경우와 비교해보도록 한다.

  • PDF

Potential-based Reinforcement Learning Combined with Case-based Decision Theory (사례 기반 결정 이론을 융합한 포텐셜 기반 강화 학습)

  • Kim, Eun-Sun;Chang, Hyeong-Soo
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.15 no.12
    • /
    • pp.978-982
    • /
    • 2009
  • This paper proposes a potential-based reinforcement learning, called "RLs-CBDT", which combines multiple RL agents and case-base decision theory designed for decision making in uncertain environment as an expert knowledge in RL. We empirically show that RLs-CBDT converges to an optimal policy faster than pre-existing RL algorithms through a Tetris experiment.

Game Test Automation with Reinforce Learning (강화학습을 이용한 게임 테스트 자동화)

  • Lee, Suk-ki;Kwak, Ho-Young
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2018.01a
    • /
    • pp.25-28
    • /
    • 2018
  • 본 논문에서는 강화학습을 통한 게임 테스트 자동화를 제안한다. 게임 테스트의 일부가 게임을 플레이라는 것과 강화학습에 기반을 둔 인공 신경망 모델들이 게임플레이에 많은 성과를 거둔 것에 착안하여 테스트 케이스 자동 생셩 및 기계학습을 통한 테스트 자동화를 연구하였다. 테스트 관리자를 두어 게임 요소에 필수적인 테스트 케이스를 데이터 조합으로 생성하고, 테스트 케이스를 수행할 인공지능을 기계학습으로 작성하여 자동화 유지비용을 절감한다. 이 모델을 소형 게임에 시험적으로 적용하였고, 정상 작동을 확인하였다.

  • PDF