• 제목/요약/키워드: Q-learning algorithm

검색결과 155건 처리시간 0.035초

다수 로봇의 목표물 탐색을 위한 Area-Based Q-learning 알고리즘 (Area-Based Q-learning Algorithm to Search Target Object of Multiple Robots)

  • 윤한얼;심귀보
    • 한국지능시스템학회논문지
    • /
    • 제15권4호
    • /
    • pp.406-411
    • /
    • 2005
  • 본 논문에서는 다수 로봇의 목표물 탐색을 위한 area-based Q-learning 알고리즘에 대해 논한다. 선험적 정보가 없는 공간내의 목표물을 탐색하기 위해, 로봇들은 주위의 환경을 인식하고 스스로 다음 행동에 대한 결정을 내릴 수 있어야 한다. Area-based Q-learning에서, 먼저 각 로봇은 정육각형을 이루도록 배치된 6개의 적외선 센서를 통해 자신과 주변 환경 사이의 거리를 구한다. 다음으로 이 거리데이터들로부터 6방향의 면적(area)을 계산하여, 보다 넓은 행동반경을 보장해주는 영역으로 이동(action)한다. 이동 후 다시 6방향의 면적을 계산, 이전 상태에서의 이동에 대한 Q-value를 업데이트 한다. 본 논문의 실험에서는 5대의 로봇을 이용하여 선험적 지식이 없고, 장애물이 놓여 있는 공간에서의 목표물 탐색을 시도하였다. 결론에서는 3개의 제어 알고리즘-랜덤 탐색, area-based action making (ABAM), hexagonal area-based Q-learning - 을 이용하여 목표물 탐색을 시도한 결과를 보인다.

분포 기여도를 이용한 퍼지 Q-learning (Fuzzy Q-learning using Distributed Eligibility)

  • 정석일;이연정
    • 한국지능시스템학회논문지
    • /
    • 제11권5호
    • /
    • pp.388-394
    • /
    • 2001
  • 강화학습은 에이전트가 환경과의 상호작용을 통해 획득한 경험으로부터 제어 규칙을 학습하는 방법이다. 강화학습의 중요한 문제 중의 하나인 신뢰 할당 문제를 해결하기 위해 기여도가 사용되는데, 누적 기여도나 대체 기여도와 같은 기존의 기여도를 이용한 방법은 방문한 상태에서 수행된 행위만을 학습시키기 때문에 학습 자정에서 획득된 보답 신호를 효과적으로 사용하지 못한다. 본 논문에서는 방문한 상태에서 수행된 행위뿐만 아니라 인접 행위들도 학습될 수 있도록 하는 새로운 기여도로써 분포 기여도를 제안한다. 제안된 기여도를 이용한 퍼지 Q-learning 알고리즘을 역진자 시스템에 적용하여 학습 속도면에서 기존의 방법에 비해 우수함을 보인다.

  • PDF

스마트 제어알고리즘 개발을 위한 강화학습 리워드 설계 (Reward Design of Reinforcement Learning for Development of Smart Control Algorithm)

  • 김현수;윤기용
    • 한국공간구조학회논문집
    • /
    • 제22권2호
    • /
    • pp.39-46
    • /
    • 2022
  • Recently, machine learning is widely used to solve optimization problems in various engineering fields. In this study, machine learning is applied to development of a control algorithm for a smart control device for reduction of seismic responses. For this purpose, Deep Q-network (DQN) out of reinforcement learning algorithms was employed to develop control algorithm. A single degree of freedom (SDOF) structure with a smart tuned mass damper (TMD) was used as an example structure. A smart TMD system was composed of MR (magnetorheological) damper instead of passive damper. Reward design of reinforcement learning mainly affects the control performance of the smart TMD. Various hyper-parameters were investigated to optimize the control performance of DQN-based control algorithm. Usually, decrease of the time step for numerical simulation is desirable to increase the accuracy of simulation results. However, the numerical simulation results presented that decrease of the time step for reward calculation might decrease the control performance of DQN-based control algorithm. Therefore, a proper time step for reward calculation should be selected in a DQN training process.

애드혹 센서 네트워크 수명 연장을 위한 Q-러닝 기반 에너지 균등 소비 라우팅 프로토콜 기법 (Equal Energy Consumption Routing Protocol Algorithm Based on Q-Learning for Extending the Lifespan of Ad-Hoc Sensor Network)

  • 김기상;김승욱
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제10권10호
    • /
    • pp.269-276
    • /
    • 2021
  • 최근 스마트 센서는 다양한 환경에서 사용되고 있으며, 애드혹 센서 네트워크 (ASN) 구현에 대한 연구가 활발하게 진행되고 있다. 그러나 기존 센서 네트워크 라우팅 알고리즘은 특정 제어 문제에 초점을 맞추며 ASN 작업에 직접 적용할 수 없는 문제점이 있다. 본 논문에서는 Q-learning 기술을 이용한 새로운 라우팅 프로토콜을 제안하는데, 제안된 접근 방식의 주요 과제는 균형 잡힌 시스템 성능을 확보하면서 효율적인 에너지 할당을 통해 ASN의 수명을 연장하는 것이다. 제안된 방법의 특징은 다양한 환경적 요인을 고려하여 Q-learning 효과를 높이며, 특히 각 노드는 인접 노드의 Q 값을 자체 Q 테이블에 저장하여 데이터 전송이 실행될 때마다 Q 값이 업데이트되고 누적되어 최적의 라우팅 경로를 선택하는 것이다. 시뮬레이션 결과 제안된 방법이 에너지 효율적인 라우팅 경로를 선택할 수 있으며 기존 ASN 라우팅 프로토콜에 비해 우수한 네트워크 성능을 얻을 수 있음을 확인하였다.

Q-Learning을 ol용한 Intelligent Transportation System (Intelligent Transportation System using Q-Learning)

  • 박명수;김표재;최진영
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 Ⅲ
    • /
    • pp.1299-1302
    • /
    • 2003
  • In this paper, we propose new method which can provide user the path to the target place efficiently. It stores the state of roads to target place as the form of Q-table and finds the proper path using Q-table.0-table is updated by the information about real traffic which is reported by users. This method can provides the proper path, using less storage and less computation time than the conventional method which stores entire road traffic information and finds the path by graph search algorithm.

  • PDF

예측 정보를 이용한 Q-학습의 성능 개선 기법 (A Strategy for improving Performance of Q-learning with Prediction Information)

  • 이충현;엄기현;조경은
    • 한국게임학회 논문지
    • /
    • 제7권4호
    • /
    • pp.105-116
    • /
    • 2007
  • 게임 환경에서의 학습은 다양한 분야에서 유용하게 활용될 수 있다. 그러나, 학습이 게임에서 만족스러운 결과를 산출하기까지는 많은 학습 시간이 요구된다. 이러한 점을 개선하기 위하여 학습시간을 단축시킬 수 있는 방법론들이 필요하다. 본 논문에서는 예측 정보를 이용한 Q-학습의 성능개선 방안을 제안한다. Q-학습 알고리즘에서는 Q-테이블의 각 상태별 선택된 액션을 참조한다. 참조한 값은 예측 모듈의 P-테이블에 저장되고, 이 테이블에서 출연 빈도가 가장 높은 값을 찾아 2차 보상 값을 갱신할 때 활용한다. 본 연구에서 제시한 방법은 상태내의 전이가 가능한 액션의 수가 많을수록 성능이 높아짐을 확인하였다. 또한 실험결과로 실험 중반 이후부터 제안한 방식이 기존 방식보다 평균 9%의 성능 향상을 보였다.

  • PDF

Traffic Offloading in Two-Tier Multi-Mode Small Cell Networks over Unlicensed Bands: A Hierarchical Learning Framework

  • Sun, Youming;Shao, Hongxiang;Liu, Xin;Zhang, Jian;Qiu, Junfei;Xu, Yuhua
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제9권11호
    • /
    • pp.4291-4310
    • /
    • 2015
  • This paper investigates the traffic offloading over unlicensed bands for two-tier multi-mode small cell networks. We formulate this problem as a Stackelberg game and apply a hierarchical learning framework to jointly maximize the utilities of both macro base station (MBS) and small base stations (SBSs). During the learning process, the MBS behaves as a leader and the SBSs are followers. A pricing mechanism is adopt by MBS and the price information is broadcasted to all SBSs by MBS firstly, then each SBS competes with other SBSs and takes its best response strategies to appropriately allocate the traffic load in licensed and unlicensed band in the sequel, taking the traffic flow payment charged by MBS into consideration. Then, we present a hierarchical Q-learning algorithm (HQL) to discover the Stackelberg equilibrium. Additionally, if some extra information can be obtained via feedback, we propose an improved hierarchical Q-learning algorithm (IHQL) to speed up the SBSs' learning process. Last but not the least, the convergence performance of the proposed two algorithms is analyzed. Numerical experiments are presented to validate the proposed schemes and show the effectiveness.

강화 학습에서의 탐색과 이용의 균형을 통한 범용적 온라인 Q-학습이 적용된 에이전트의 구현 (Implementation of the Agent using Universal On-line Q-learning by Balancing Exploration and Exploitation in Reinforcement Learning)

  • 박찬건;양성봉
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권7_8호
    • /
    • pp.672-680
    • /
    • 2003
  • shopbot이란 온라인상의 판매자로부터 상품에 대한 가격과 품질에 관한 정보를 자동적으로 수집함으로써 소비자의 만족을 최대화하는 소프트웨어 에이전트이다 이러한 shopbot에 대응해서 인터넷상의 판매자들은 그들에게 최대의 이익을 가져다 줄 수 있는 에이전트인 pricebot을 필요로 할 것이다. 본 논문에서는 pricebot의 가격결정 알고리즘으로 비 모델 강화 학습(model-free reinforcement learning) 방법중의 하나인 Q-학습(Q-learning)을 사용한다. Q-학습된 에이전트는 근시안적인 최적(myopically optimal 또는 myoptimal) 가격 결정 전략을 사용하는 에이전트에 비해 이익을 증가시키고 주기적 가격 전쟁(cyclic price war)을 감소시킬 수 있다. Q-학습 과정 중 Q-학습의 수렴을 위해 일련의 상태-행동(state-action)을 선택하는 것이 필요하다. 이러한 선택을 위해 균일 임의 선택방법 (Uniform Random Selection, URS)이 사용될 경우 최적 값의 수렴을 위해서 Q-테이블을 접근하는 회수가 크게 증가한다. 따라서 URS는 실 세계 환경에서의 범용적인 온라인 학습에는 부적절하다. 이와 같은 현상은 URS가 최적의 정책에 대한 이용(exploitation)의 불확실성을 반영하기 때문에 발생하게 된다. 이에 본 논문에서는 보조 마르코프 프로세스(auxiliary Markov process)와 원형 마르코프 프로세스(original Markov process)로 구성되는 혼합 비정적 정책 (Mixed Nonstationary Policy, MNP)을 제안한다. MNP가 적용된 Q-학습 에이전트는 original controlled process의 실행 시에 Q-학습에 의해 결정되는 stationary greedy 정책을 사용하여 학습함으로써 auxiliary Markov process와 original controlled process에 의해 평가 측정된 최적 정책에 대해 1의 확률로 exploitation이 이루어질 수 있도록 하여, URS에서 발생하는 최적 정책을 위한 exploitation의 불확실성의 문제를 해결하게 된다. 다양한 실험 결과 본 논문에서 제한한 방식이 URS 보다 평균적으로 약 2.6배 빠르게 최적 Q-값에 수렴하여 MNP가 적용된 Q-학습 에이전트가 범용적인 온라인 Q-학습이 가능함을 보였다.

시뮬레이션 환경에서의 DQN을 이용한 강화 학습 기반의 무인항공기 경로 계획 (Path Planning of Unmanned Aerial Vehicle based Reinforcement Learning using Deep Q Network under Simulated Environment)

  • 이근형;김신덕
    • 반도체디스플레이기술학회지
    • /
    • 제16권3호
    • /
    • pp.127-130
    • /
    • 2017
  • In this research, we present a path planning method for an autonomous flight of unmanned aerial vehicles (UAVs) through reinforcement learning under simulated environment. We design the simulator for reinforcement learning of uav. Also we implement interface for compatibility of Deep Q-Network(DQN) and simulator. In this paper, we perform reinforcement learning through the simulator and DQN, and use Q-learning algorithm, which is a kind of reinforcement learning algorithms. Through experimentation, we verify performance of DQN-simulator. Finally, we evaluated the learning results and suggest path planning strategy using reinforcement learning.

  • PDF

비안정적인 Rework 확률이 존재하는 제조공정을 위한 적응형 스케줄링 알고리즘 (An Adaptive Scheduling Algorithm for Manufacturing Process with Non-stationary Rework Probabilities)

  • 신현준;유재필
    • 한국산학기술학회논문지
    • /
    • 제11권11호
    • /
    • pp.4174-4181
    • /
    • 2010
  • 본 논문은 비안정적인 재작업 발생확률이 존재하는 제조공정을 위한 적응형 스케줄링 알고리즘을 제시한다. 본 논문에서 제안하는 하이브리드 Q-학습 알고리즘은 강화학습 기반의 Q-학습과 인공신경망을 결합한 알고리즘으로써 재작업확률이 불안정한 상황의 제조공정에 대해 학습을 통해 적응력을 가질 수 있도록 고안되었다. 제안 알고리즘은 평균지연시간을 척도로 그 성능을 평가하였고, 기존의 작업할당 알고리즘들과 다양한 실험 시나리오를 기반으로 비교함으로써 그 우수성을 보이도록 한다.