• 제목/요약/키워드: Q-Learning algorithm

검색결과 152건 처리시간 0.029초

Ant-Q 학습을 이용한 Gale-Shapley 문제 해결에 관한 연구 (Solving the Gale-Shapley Problem by Ant-Q learning)

  • 김현;정태충
    • 정보처리학회논문지B
    • /
    • 제18B권3호
    • /
    • pp.165-172
    • /
    • 2011
  • 본 논문에서는 생물학의 개미들이 학습을 통해 목표를 획득하는 방법을 응용한 Ant-Q 알고리즘(Ant Q learning System)[1]을 Gale-Shapley[2]알고리즘을 통해 제시되었던 안정된 결혼문제(SMP: Stable Marriage Problem)[3]의 새로운 해법을 찾기 위해 적용 하였다. SMP는 남성($m_i$)들과 여성($w_j$)들은 각자 자신이 좋아하는 이상형에 대한 선호도(PL: preference list)를 바탕으로 안정이면서도 최선의 짝을 찾는 것을 목표로 하고 있다. Gale-Shapley 알고리즘은 남성(혹은 여성) 위주로 안정적(stability)인 짝(Matching)을 성사시키므로 다양한 조건을 수용하지 못한다. 본 논문에 적용된 Ant-Q는 개미(Ant)의 페로몬을 활용한 학습인 ACS(Ant colony system)에 강화학습의 일종인 Q-학습[9]을 추가한 방법으로, SMP의 새로운 해법을 찾을 수 있었다.

Applying Deep Reinforcement Learning to Improve Throughput and Reduce Collision Rate in IEEE 802.11 Networks

  • Ke, Chih-Heng;Astuti, Lia
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권1호
    • /
    • pp.334-349
    • /
    • 2022
  • The effectiveness of Wi-Fi networks is greatly influenced by the optimization of contention window (CW) parameters. Unfortunately, the conventional approach employed by IEEE 802.11 wireless networks is not scalable enough to sustain consistent performance for the increasing number of stations. Yet, it is still the default when accessing channels for single-users of 802.11 transmissions. Recently, there has been a spike in attempts to enhance network performance using a machine learning (ML) technique known as reinforcement learning (RL). Its advantage is interacting with the surrounding environment and making decisions based on its own experience. Deep RL (DRL) uses deep neural networks (DNN) to deal with more complex environments (such as continuous state spaces or actions spaces) and to get optimum rewards. As a result, we present a new approach of CW control mechanism, which is termed as contention window threshold (CWThreshold). It uses the DRL principle to define the threshold value and learn optimal settings under various network scenarios. We demonstrate our proposed method, known as a smart exponential-threshold-linear backoff algorithm with a deep Q-learning network (SETL-DQN). The simulation results show that our proposed SETL-DQN algorithm can effectively improve the throughput and reduce the collision rates.

강화학습을 이용한 n-Queen 문제의 수렴속도 향상 (The Improvement of Convergence Rate in n-Queen Problem Using Reinforcement learning)

  • 임수연;손기준;박성배;이상조
    • 한국지능시스템학회논문지
    • /
    • 제15권1호
    • /
    • pp.1-5
    • /
    • 2005
  • 강화학습(Reinforcement-Learning)의 목적은 환경으로부터 주어지는 보상(reward)을 최대화하는 것이며, 강화학습 에이전트는 외부에 존재하는 환경과 시행착오를 통하여 상호작용하면서 학습한다 대표적인 강화학습 알고리즘인 Q-Learning은 시간 변화에 따른 적합도의 차이를 학습에 이용하는 TD-Learning의 한 종류로서 상태공간의 모든 상태-행동 쌍에 대한 평가 값을 반복 경험하여 최적의 전략을 얻는 방법이다. 본 논문에서는 강화학습을 적용하기 위한 예를 n-Queen 문제로 정하고, 문제풀이 알고리즘으로 Q-Learning을 사용하였다. n-Queen 문제를 해결하는 기존의 방법들과 제안한 방법을 비교 실험한 격과, 강화학습을 이용한 방법이 목표에 도달하기 위한 상태전이의 수를 줄여줌으로써 최적 해에 수련하는 속도가 더욱 빠름을 알 수 있었다.

강화학습의 학습 가속을 위한 함수 근사 방법 (Function Approximation for accelerating learning speed in Reinforcement Learning)

  • 이영아;정태충
    • 한국지능시스템학회논문지
    • /
    • 제13권6호
    • /
    • pp.635-642
    • /
    • 2003
  • 강화학습은 제어, 스케쥴링 등 많은 응용분야에서 성공적인 학습 결과를 얻었다. 기본적인 강화학습 알고리즘인 Q-Learning, TD(λ), SARSA 등의 학습 속도의 개선과 기억장소 등의 문제를 해결하기 위해서 여러 함수 근사방법(function approximation methods)이 연구되었다. 대부분의 함수 근사 방법들은 가정을 통하여 강화학습의 일부 특성을 제거하고 사전지식과 사전처리가 필요하다. 예로 Fuzzy Q-Learning은 퍼지 변수를 정의하기 위한 사전 처리가 필요하고, 국소 최소 자승법은 훈련 예제집합을 이용한다. 본 논문에서는 온-라인 퍼지 클러스터링을 이용한 함수 근사 방법인 Fuzzy Q-Map을 제안하다. Fuzzy Q-Map은 사전 지식이 최소한으로 주어진 환경에서, 온라인으로 주어지는 상태를 거리에 따른 소속도(membership degree)를 이용하여 분류하고 행동을 예측한다. Fuzzy Q-Map과 다른 함수 근사 방법인 CMAC와 LWR을 마운틴 카 문제에 적용하여 실험 한 결과 Fuzzy Q-Map은 훈련예제를 사용하지 않는 CMAC보다는 빠르게 최고 예측율에 도달하였고, 훈련 예제를 사용한 LWR보다는 낮은 예측율을 보였다.

단말간 직접 통신 네트워크를 위한 심층 강화학습 기반 분산적 스케쥴링 알고리즘 (A Distributed Scheduling Algorithm based on Deep Reinforcement Learning for Device-to-Device communication networks)

  • 정무웅;김륜우;반태원
    • 한국정보통신학회논문지
    • /
    • 제24권11호
    • /
    • pp.1500-1506
    • /
    • 2020
  • 본 논문에서는 오버레이 단말 간 직접 (Device-to-Device : D2D) 통신 네트워크를 위한 강화학습 기반 스케쥴링 문제를 연구한다. 강화학습 모델 중 하나인 Q-learning을 이용한 D2D 통신 기술들이 연구되었지만, Q-learning은 상태와 행동의 개수가 증가함에 따라서 높은 복잡도를 유발한다. 이러한 문제를 해결하기 위하여 Deep Q Network (DQN) 기반 D2D 통신 기술들이 연구되었다. 본 논문에서는 무선 통신 시스템 특성을 고려한 DQN 모델을 디자인하고, 피드백 및 시그널링 오버헤드를 줄일 수 있는 DQN 기반 분산적 스케쥴링 방식을 제안한다. 제안 방식은 중앙집중식으로 변수들을 학습시키고, 최종 학습된 파라미터를 모든 단말들에게 전달한다. 모든 단말들은 최종 학습된 파라미터를 이용하여 각자의 행동을 개별적으로 결정한다. 제안 방식의 성능을 컴퓨터 시뮬레이션을 통하여 분석하고, 최적방식, 기회주의적 선택 방식, 전체 전송 방식과 비교한다.

Hexagon-Based Q-Learning Algorithm and Applications

  • Yang, Hyun-Chang;Kim, Ho-Duck;Yoon, Han-Ul;Jang, In-Hun;Sim, Kwee-Bo
    • International Journal of Control, Automation, and Systems
    • /
    • 제5권5호
    • /
    • pp.570-576
    • /
    • 2007
  • This paper presents a hexagon-based Q-leaning algorithm to find a hidden targer object with multiple robots. An experimental environment was designed with five small mobile robots, obstacles, and a target object. Robots went in search of a target object while navigating in a hallway where obstacles were strategically placed. This experiment employed two control algorithms: an area-based action making (ABAM) process to determine the next action of the robots and hexagon-based Q-learning to enhance the area-based action making process.

Application of reinforcement learning to hyper-redundant system Acquisition of locomotion pattern of snake like robot

  • Ito, K.;Matsuno, F.
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2001년도 The Pacific Aisan Confrence On Intelligent Systems 2001
    • /
    • pp.65-70
    • /
    • 2001
  • We consider a hyper-redundant system that consists of many uniform units. The hyper-redundant system has many degrees of freedom and it can accomplish various tasks. Applysing the reinforcement learning to the hyper-redundant system is very attractive because it is possible to acquire various behaviors for various tasks automatically. In this paper we present a new reinforcement learning algorithm "Q-learning with propagation of motion". The algorithm is designed for the multi-agent systems that have strong connections. The proposed algorithm needs only one small Q-table even for a large scale system. So using the proposed algorithm, it is possible for the hyper-redundant system to learn the effective behavior. In this algorithm, only one leader agent learns the own behavior using its local information and the motion of the leader is propagated to another agents with time delay. The reward of the leader agent is given by using the whole system information. And the effective behavior of the leader is learned and the effective behavior of the system is acquired. We apply the proposed algorithm to a snake-like hyper-redundant robot. The necessary condition of the system to be Markov decision process is discussed. And the computer simulation of learning the locomotion is demonstrated. From the simulation results we find that the task of the locomotion of the robot to the desired point is learned and the winding motion is acquired. We can conclude that our proposed system and our analysis of the condition, that the system is Markov decision process, is valid.

  • PDF

The Application of Industrial Inspection of LED

  • 왕숙;정길도
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2009년도 정보 및 제어 심포지움 논문집
    • /
    • pp.91-93
    • /
    • 2009
  • In this paper, we present the Q-learning method for adaptive traffic signal control on the basis of In this paper, we present the Q-learning method for adaptive traffic signal control on the basis of multi-agent technology. The structure is composed of sixphase agents and one intersection agent. Wireless communication network provides the possibility of the cooperation of agents. As one kind of reinforcement learning, Q-learning is adopted as the algorithm of the control mechanism, which can acquire optical control strategies from delayed reward; furthermore, we adopt dynamic learning method instead of static method, which is more practical. Simulation result indicates that it is more effective than traditional signal system.

  • PDF

SVM과 다각형 기반의 Q-learning 알고리즘을 이용한 군집로봇의 목표물 추적 알고리즘 (Object tracking algorithm of Swarm Robot System for using SVM and Polygon based Q-learning)

  • 서상욱;양현창;심귀보
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국지능시스템학회 2008년도 춘계학술대회 학술발표회 논문집
    • /
    • pp.143-146
    • /
    • 2008
  • 본 논문에서는 군집로봇시스템에서 목표물 추적을 위하여 SVM을 이용한 12각형 기반의 Q-learning 알고리즘을 제안한다. 제안한 알고리즘의 유효성을 보이기 위해 본 논문에서는 여러대의 로봇과 장애물 그리고 하나의 목표물을 정하고, 각각의 로봇이 숨겨진 목표물을 찾아내는 실험을 가정하여 무작위, DBAM과 ABAM의 융합 모델, 그리고 마지막으로 본 논문에서 제안한 SVM과 12각형 기반의 Q-learning 알고리즘을 이용하여 실험을 수행하고, 이 3가지 방법을 비교하여 본 논문의 유효성을 검증하였다.

  • PDF

Q 학습을 이용한 교통 제어 시스템 (Traffic Control using Q-Learning Algorithm)

  • 장정;승지훈;김태영;정길도
    • 한국산학기술학회논문지
    • /
    • 제12권11호
    • /
    • pp.5135-5142
    • /
    • 2011
  • 이 논문에서는 도심 지역의 교통 제어 시스템의 동적 응답 성능 향상을 위하여 적응형 Q-Learning 강화 학습 메커니즘을 설계 하였다. 도로, 자동차, 교통 제어 시스템을 지능 시스템으로 모델링 하고, 자동차와 도로 사이는 무선 통신을 이용한 네트워크가 구성된다. 도로와 대로변에 필요한 센터네트워크가 설치되고 Q-Learning 강화 학습은 제안한 메커니즘의 구현을 위해 핵심 알고리즘으로 채택하였다. 교통 신호 제어 규칙은 자동차와 도로에서 매 시간 업데이트된 정보에 따라서 결정되며, 이러한 방법은 기존의 교통 제어 시스템에 비하여 도로를 효율적으로 활용하며 결과적으로 교통 흐름을 개선 한다. 알고리즘을 활용한 최적의 신호 체계는 온라인상에서 자동으로 학습함으로서 구현된다. 시뮬레이션을 통하여 제안한 알고리즘이 기존 시스템에 비하여 효율성 개선과 차량의 대개 시간에 대한 성능 지수가 모두 30% 이상 향상되었다. 실험 결과를 통하여 제안한 시스템이 교통 흐름을 최적화함을 확인하였다.