• 제목/요약/키워드: Q-Learning algorithm

검색결과 152건 처리시간 0.022초

Generating Cooperative Behavior by Multi-Agent Profit Sharing on the Soccer Game

  • Miyazaki, Kazuteru;Terada, Takashi;Kobayashi, Hiroaki
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 ISIS 2003
    • /
    • pp.166-169
    • /
    • 2003
  • Reinforcement learning if a kind of machine learning. It aims to adapt an agent to a given environment with a clue to a reward and a penalty. Q-learning [8] that is a representative reinforcement learning system treats a reward and a penalty at the same time. There is a problem how to decide an appropriate reward and penalty values. We know the Penalty Avoiding Rational Policy Making algorithm (PARP) [4] and the Penalty Avoiding Profit Sharing (PAPS) [2] as reinforcement learning systems to treat a reward and a penalty independently. though PAPS is a descendant algorithm of PARP, both PARP and PAPS tend to learn a local optimal policy. To overcome it, ion this paper, we propose the Multi Best method (MB) that is PAPS with the multi-start method[5]. MB selects the best policy in several policies that are learned by PAPS agents. By applying PS, PAPS and MB to a soccer game environment based on the SoccerBots[9], we show that MB is the best solution for the soccer game environment.

  • PDF

A Study of Unmanned Aerial Vehicle Path Planning using Reinforcement Learning

  • Kim, Cheong Ghil
    • 반도체디스플레이기술학회지
    • /
    • 제17권1호
    • /
    • pp.88-92
    • /
    • 2018
  • Currently drone industry has become one of the fast growing markets and the technology for unmanned aerial vehicles are expected to continue to develop at a rapid rate. Especially small unmanned aerial vehicle systems have been designed and utilized for the various field with their own specific purposes. In these fields the path planning problem to find the shortest path between two oriented points is important. In this paper we introduce a path planning strategy for an autonomous flight of unmanned aerial vehicles through reinforcement learning with self-positioning technique. We perform Q-learning algorithm, a kind of reinforcement learning algorithm. At the same time, multi sensors of acceleraion sensor, gyro sensor, and magnetic are used to estimate the position. For the functional evaluation, the proposed method was simulated with virtual UAV environment and visualized the results. The flight history was based on a PX4 based drones system equipped with a smartphone.

심층 큐 신경망을 이용한 게임 에이전트 구현 (Deep Q-Network based Game Agents)

  • 한동기;김명섭;김재윤;김정수
    • 로봇학회논문지
    • /
    • 제14권3호
    • /
    • pp.157-162
    • /
    • 2019
  • The video game Tetris is one of most popular game and it is well known that its game rule can be modelled as MDP (Markov Decision Process). This paper presents a DQN (Deep Q-Network) based game agent for Tetris game. To this end, the state is defined as the captured image of the Tetris game board and the reward is designed as a function of cleared lines by the game agent. The action is defined as left, right, rotate, drop, and their finite number of combinations. In addition to this, PER (Prioritized Experience Replay) is employed in order to enhance learning performance. To train the network more than 500000 episodes are used. The game agent employs the trained network to make a decision. The performance of the developed algorithm is validated via not only simulation but also real Tetris robot agent which is made of a camera, two Arduinos, 4 servo motors, and artificial fingers by 3D printing.

QoE 향상을 위한 Deep Q-Network 기반의 지능형 비디오 스트리밍 메커니즘 (An Intelligent Video Streaming Mechanism based on a Deep Q-Network for QoE Enhancement)

  • 김이슬;홍성준;정성욱;임경식
    • 한국멀티미디어학회논문지
    • /
    • 제21권2호
    • /
    • pp.188-198
    • /
    • 2018
  • With recent development of high-speed wide-area wireless networks and wide spread of highperformance wireless devices, the demand on seamless video streaming services in Long Term Evolution (LTE) network environments is ever increasing. To meet the demand and provide enhanced Quality of Experience (QoE) with mobile users, the Dynamic Adaptive Streaming over HTTP (DASH) has been actively studied to achieve QoE enhanced video streaming service in dynamic network environments. However, the existing DASH algorithm to select the quality of requesting video segments is based on a procedural algorithm so that it reveals a limitation to adapt its performance to dynamic network situations. To overcome this limitation this paper proposes a novel quality selection mechanism based on a Deep Q-Network (DQN) model, the DQN-based DASH ABR($DQN_{ABR}$) mechanism. The $DQN_{ABR}$ mechanism replaces the existing DASH ABR algorithm with an intelligent deep learning model which optimizes service quality to mobile users through reinforcement learning. Compared to the existing approaches, the experimental analysis shows that the proposed solution outperforms in terms of adapting to dynamic wireless network situations and improving QoE experience of end users.

심층 강화학습을 이용한 디지털트윈 및 시각적 객체 추적 (Digital Twin and Visual Object Tracking using Deep Reinforcement Learning)

  • 박진혁;;최필주;이석환;권기룡
    • 한국멀티미디어학회논문지
    • /
    • 제25권2호
    • /
    • pp.145-156
    • /
    • 2022
  • Nowadays, the complexity of object tracking models among hardware applications has become a more in-demand duty to complete in various indeterminable environment tracking situations with multifunctional algorithm skills. In this paper, we propose a virtual city environment using AirSim (Aerial Informatics and Robotics Simulation - AirSim, CityEnvironment) and use the DQN (Deep Q-Learning) model of deep reinforcement learning model in the virtual environment. The proposed object tracking DQN network observes the environment using a deep reinforcement learning model that receives continuous images taken by a virtual environment simulation system as input to control the operation of a virtual drone. The deep reinforcement learning model is pre-trained using various existing continuous image sets. Since the existing various continuous image sets are image data of real environments and objects, it is implemented in 3D to track virtual environments and moving objects in them.

퍼지 로직을 적용한 로봇축구 전략 및 전술 (A Robot Soccer Strategy and Tactic Using Fuzzy Logic)

  • 이정준;지동민;이원창;강근택;주문갑
    • 한국지능시스템학회논문지
    • /
    • 제16권1호
    • /
    • pp.79-85
    • /
    • 2006
  • 본 논문은 인접한 두 로봇의 위치와 역할에 따라 로봇의 행동을 결정하는 퍼지 로직 중계자를 사용한 로봇 축구의 전략 및 전술을 제안한다. 기존의 Q 학습 알고리즘은 로봇의 수에 따라 상태의 수가 기하급수적으로 증가하여, 많은 연산을 필요로 하기 때문에 실시간 연산을 필요로 하는 로봇 축구 시스템에 알맞지 않다. Modular Q 학습 알고리즘은 해당 지역을 분할하는 방법으로 상태수를 줄였는데, 여기에는 로봇들 간의 협력을 위하여 따로 중재자 알고리즘이 사용되었다. 제안된 방법은 퍼지 규칙을 사용하여 로봇들 간의 협력을 위한 중재자 알고리즘을 구현하였고, 사용된 퍼지 규칙이 간단하기 때문에 계산 량이 작아 실시간 로봇 축구에 적합하다. MiroSot 시뮬레이션을 통하여 제안된 방법의 가능성을 보인다.

Q Learning MDP Approach to Mitigate Jamming Attack Using Stochastic Game Theory Modelling With WQLA in Cognitive Radio Networks

  • Vimal, S.;Robinson, Y. Harold;Kaliappan, M.;Pasupathi, Subbulakshmi;Suresh, A.
    • Journal of Platform Technology
    • /
    • 제9권1호
    • /
    • pp.3-14
    • /
    • 2021
  • Cognitive Radio network (CR) is a promising paradigm that helps the unlicensed user (Secondary User) to analyse the spectrum and coordinate the spectrum access to support the creation of common control channel (CCC). The cooperation of secondary users and broadcasting between them is done through transmitting messages in CCC. In case, if the control channels may get jammed and it may directly degrade the network's performance and under such scenario jammers will devastate the control channels. Hopping sequences may be one of the predominant approaches and it may be used to fight against this problem to confront jammer. The jamming attack can be alleviated using one of the game modelling approach and in this proposed scheme stochastic games has been analysed with more single users to provide the flexible control channels against intrusive attacks by mentioning the states of each player, strategies ,actions and players reward. The proposed work uses a modern player action and better strategic view on game theoretic modelling is stochastic game theory has been taken in to consideration and applied to prevent the jamming attack in CR network. The selection of decision is based on Q learning approach to mitigate the jamming nodes using the optimal MDP decision process

강화학습을 기반으로 하는 열사용자 기계실 설비의 열효율 향상에 대한 연구 (A Study on the Improvement of Heat Energy Efficiency for Utilities of Heat Consumer Plants based on Reinforcement Learning)

  • 김영곤;허걸;유가은;임현서;최중인;구기동;엄재식;전영신
    • 에너지공학
    • /
    • 제27권2호
    • /
    • pp.26-31
    • /
    • 2018
  • 이 논문은 강화학습기반으로 지역난방 열사용자 기계실 설비의 열효율 향상을 시도하는 연구를 소개하며, 한 예시로서 모델을 특정하지 않는 강화학습 알고리즘인 딥큐러닝(deep Q learning)을 활용하는 학습 네트워크(DQN)를 구성하는 일반적인 방법을 제시한다. 또한 복수의 열에너지 기계실에 설치된 IoT 센서로부터 유입되는 방대한양의 데이터 처리에 있어 에너지 분야에 특화된 빅데이터 플랫폼 시스템과 열수요 통합관리시스템에 대하여 소개 한다.

다중 교차로에서 협력적 교통신호제어에 대한 연구 (A Study on Cooperative Traffic Signal Control at multi-intersection)

  • 김대호;정옥란
    • 전기전자학회논문지
    • /
    • 제23권4호
    • /
    • pp.1381-1386
    • /
    • 2019
  • 도시의 교통 혼잡 문제가 심각해지면서 지능형 교통신호제어가 활발하게 연구되고 있다. 강화학습은 교통신호제어에 가장 활발하게 사용되고 있는 알고리즘으로 최근에는 심층 강화학습 알고리즘이 관심을 끌고 있다. 또한 심층 강화학습 알고리즘이 다양한 분야에서 높은 성능을 보이면서 심층 강화학습의 확장 버전들이 빠른 속도로 등장했다. 하지만 기존 교통신호제어 연구들은 대부분 단일 교차로 환경에서 진행되었으며, 단일 교차로의 교통 혼잡만 완화하는 방법은 도시 전체의 교통 상황을 고려하지 못한다는 한계가 있다. 본 논문에서는 다중 교차로 환경에서 협력적 교통신호제어를 제안한다. 신호제어 알고리즘에는 심층 강화학습의 확장 버전들이 결합된 알고리즘을 적용했으며 다중 교차로를 효율적으로 제어하기 위해 인접한 교차로의 교통 상황을 고려하였다. 실험에서는 제안하는 알고리즘과 기존 심층 강화학습 알고리즘을 비교하였으며, 더 나아가 협력적 방법이 적용된 모델과 적용되지 않은 모델의 실험 결과를 보여줌으로써 높은 성능을 증명한다.

LoRa 망 기반의 주차 지명 시스템 : 큐잉 이론과 큐러닝 접근 (LoRa Network based Parking Dispatching System : Queuing Theory and Q-learning Approach)

  • 조영호;서영건;정대율
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권7호
    • /
    • pp.1443-1450
    • /
    • 2017
  • 본 연구는 지역축제 시 갑자기 증가하는 주차병목문제를 해결하기 위해 IoT(Internet of Things)의 센서네트워크 중 저전력, 장거리 무선망인 LoRa 네트워크 기반으로 한 인공지능 주차시스템을 개발하는데 주 목적이 있다. 지리적 범위와 시간의 제한을 특징으로 하는 지역 축제에서는 관광객들이 짧은 시간에 최대한 많은 것들을 누리려 하는 욕구를 가지는데, 이때 발생하는 교통체증에 대한 효과적인 주차 공간 분배 문제가 필수적이다. 축제전용 주차장의 용량이 각기 제한적이므로 각 주차장의 수용가능규모의 임계값을 넘기 전에 다른 축제장으로 유도하는 것이 필요하다. 이를 위해 주차 대기시간 및 주차서비스에 성공하기까지의 확률분포는 큐잉이론의 쁘아송 분포를 따르며, 가장 빠른 길을 찾기 위해 Q-learning 알고리즘을 적용한다. 본 연구는 이 두 가지의 알고리즘을 융합하여 축제 장소에서 적용 가능한 지능형 주차시스템을 제안하고 실험한다.