• 제목/요약/키워드: Markov Decision Process (MDP)

검색결과 35건 처리시간 0.028초

정책 기울기 값 강화학습을 이용한 적응적인 QoS 라우팅 기법 연구 (A Study of Adaptive QoS Routing scheme using Policy-gradient Reinforcement Learning)

  • 한정수
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권2호
    • /
    • pp.93-99
    • /
    • 2011
  • 본 논문에서는 강화학습(RL : Reinforcement Learning) 환경 하에서 정책 기울기 값 기법을 사용하는 적응적인 QoS 라우팅 기법을 제안하였다. 이 기법은 기존의 강화학습 환경 하에 제공하는 기법에 비해 기대 보상값의 기울기 값을 정책에 반영함으로써 빠른 네트워크 환경을 학습함으로써 보다 우수한 라우팅 성공률을 제공할 수 있는 기법이다. 이를 검증하기 위해 기존의 기법들과 비교 검증함으로써 그 우수성을 확인하였다.

다종 장사정포 공격에 대한 강화학습 기반의 동적 무기할당 (Reinforcement Learning-based Dynamic Weapon Assignment to Multi-Caliber Long-Range Artillery Attacks)

  • 김현호;김정훈;공주회;경지훈
    • 산업경영시스템학회지
    • /
    • 제45권4호
    • /
    • pp.42-52
    • /
    • 2022
  • North Korea continues to upgrade and display its long-range rocket launchers to emphasize its military strength. Recently Republic of Korea kicked off the development of anti-artillery interception system similar to Israel's "Iron Dome", designed to protect against North Korea's arsenal of long-range rockets. The system may not work smoothly without the function assigning interceptors to incoming various-caliber artillery rockets. We view the assignment task as a dynamic weapon target assignment (DWTA) problem. DWTA is a multistage decision process in which decision in a stage affects decision processes and its results in the subsequent stages. We represent the DWTA problem as a Markov decision process (MDP). Distance from Seoul to North Korea's multiple rocket launchers positioned near the border, limits the processing time of the model solver within only a few second. It is impossible to compute the exact optimal solution within the allowed time interval due to the curse of dimensionality inherently in MDP model of practical DWTA problem. We apply two reinforcement-based algorithms to get the approximate solution of the MDP model within the time limit. To check the quality of the approximate solution, we adopt Shoot-Shoot-Look(SSL) policy as a baseline. Simulation results showed that both algorithms provide better solution than the solution from the baseline strategy.

POMDP와 Exploration Bonus를 이용한 지역적이고 적응적인 QoS 라우팅 기법 (A Localized Adaptive QoS Routing Scheme Using POMDP and Exploration Bonus Techniques)

  • 한정수
    • 한국통신학회논문지
    • /
    • 제31권3B호
    • /
    • pp.175-182
    • /
    • 2006
  • 본 논문에서는 Localized Aptive QoS 라우팅을 위해 POMDP(Partially Observable Markov Decision Processes)와 Exploration Bonus 기법을 사용하는 방법을 제안하였다. 또한, POMDP 문제를 해결하기 위해 Dynamic Programming을 사용하여 최적의 행동을 찾는 연산이 매우 복잡하고 어렵기 때문에 CEA(Certainty Equivalency Approximation) 기법을 통한 기댓값 사용으로 문제를 단순하였으며, Exploration Bonus 방식을 사용해 현재 경로보다 나은 경로를 탐색하고자 하였다. 이를 위해 다중 경로 탐색 알고리즘(SEMA)을 제안했다. 더욱이 탐색의 횟수와 간격을 정의하기 위해 $\phi$와 k 성능 파라미터들을 사용하여 이들을 통해 탐색의 횟수 변화를 통한 서비스 성공률과 성공 시 사용된 평균 홉 수에 대한 성능을 살펴보았다. 결과적으로 $\phi$ 값이 증가함에 따라 현재의 경로보다 더 나은 경로를 찾게 되며, k 값이 증가할수록 탐색이 증가함을 볼 수 있다.

근사적 동적계획을 활용한 요격통제 및 동시교전 효과분석 (Approximate Dynamic Programming Based Interceptor Fire Control and Effectiveness Analysis for M-To-M Engagement)

  • 이창석;김주현;최봉완;김경택
    • 한국항공우주학회지
    • /
    • 제50권4호
    • /
    • pp.287-295
    • /
    • 2022
  • 저고도 궤적의 장사정포 위협이 대두됨에 따라 이를 방어할 요격 시스템의 개발이 시작될 예정이다. 이러한 장사정포의 공격을 방어하는 문제는 전형적인 동적 무기 표적 할당 문제다. 동적 무기 표적 할당 문제에서는 한 시점에서의 의사결정 결과가 이후 시점의 의사결정 과정에 영향을 주며, 이는 마코브 의사결정 모형의 특징이기도 하다. 장사정포의 공격을 방어하기 위한 의사결정 과정에 허용되는 시간은 공격자와 방어자의 거리를 고려할 때 저고도 궤적의 동시 다발성 발사체에 대한 대응은 수 초 이내에 결정되어야 하나, 짧은 시간 내에 마코브 의사결정 과정으로 최적해를 구하는 것은 불가능하다. 본 논문에서는 장사정포 공격을 방어하는 동적 무기 표적 할당 문제를 마코브 의사결정 문제로 나타내고, 3가지 시나리오를 작성한 후 근사적 동적계획 방법을 적용하여 요격이 가능 시간 안에 해의 도출이 가능한지를 시뮬레이션을 통하여 확인하였다. 도출된 해의 품질을 검증하기 위하여 각 시나리오에 대하여 근사적 동적계획을 적용한 결과와 Shoot-Shoot-Look 방법을 적용한 결과를 비교하였다. 시뮬레이션 결과, 장사정포의 방어 시나리오에 대하여 근사적 동적계획의 결과가 Shoot-Shoot-Look 방법을 이용한 결과보다 우수함을 보였다.

R-Trader: 강화 학습에 기반한 자동 주식 거래 시스템 (R-Trader: An Automatic Stock Trading System based on Reinforcement learning)

  • 이재원;김성동;이종우;채진석
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권11호
    • /
    • pp.785-794
    • /
    • 2002
  • 자동 주식 거래 시스템은 시장 추세의 예측, 투자 종목의 선정, 거래 전략 등 매우 다양한 최적화 문제를 통합적으로 해결할 수 있어야 한다. 그러나 기존의 감독 학습 기법에 기반한 거래 시스템들은 이러한 최적화 요소들의 효과적인 결합에는 큰 비중을 두지 않았으며, 이로 인해 시스템의 궁극적인 성능에 한계를 보인다. 이 논문은 주가의 변동 과정이 마르코프 의사결정 프로세스(MDP: Markov Decision Process)라는 가정 하에, 강화 학습에 기반한 자동 주식 거래 시스템인 R-Trader를 제안한다. 강화 학습은 예측과 거래 전략의 통합적 학습에 적합한 학습 방법이다. R-Trader는 널리 알려진 두 가지 강화 학습 알고리즘인 TB(Temporal-difference)와 Q 알고리즘을 사용하여 종목 선정과 기타 거래 인자의 최적화를 수행한다. 또한 기술 분석에 기반하여 시스템의 입력 속성을 설계하며, 가치도 함수의 근사를 위해 인공 신경망을 사용한다. 한국 주식 시장의 데이타를 사용한 실험을 통해 제안된 시스템이 시장 평균을 초과하는 수익을 달성할 수 있고, 수익률과 위험 관리의 두 가지 측면 모두에서 감독 학습에 기반한 거래 시스템에 비해 우수한 성능 보임을 확인한다.

A Study on Deep Reinforcement Learning Framework for DME Pulse Design

  • Lee, Jungyeon;Kim, Euiho
    • Journal of Positioning, Navigation, and Timing
    • /
    • 제10권2호
    • /
    • pp.113-120
    • /
    • 2021
  • The Distance Measuring Equipment (DME) is a ground-based aircraft navigation system and is considered as an infrastructure that ensures resilient aircraft navigation capability during the event of a Global Navigation Satellite System (GNSS) outage. The main problem of DME as a GNSS back up is a poor positioning accuracy that often reaches over 100 m. In this paper, a novel approach of applying deep reinforcement learning to a DME pulse design is introduced to improve the DME distance measuring accuracy. This method is designed to develop multipath-resistant DME pulses that comply with current DME specifications. In the research, a Markov Decision Process (MDP) for DME pulse design is set using pulse shape requirements and a timing error. Based on the designed MDP, we created an Environment called PulseEnv, which allows the agent representing a DME pulse shape to explore continuous space using the Soft Actor Critical (SAC) reinforcement learning algorithm.

강건한 스케줄링을 위한 마코프 의사결정 프로세스 추론 및 역강화 학습 기반 일상 행동 학습 (Robust Scheduling based on Daily Activity Learning by using Markov Decision Process and Inverse Reinforcement Learning)

  • 이상우;곽동현;온경운;허유정;강우영;재이다;장병탁
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권10호
    • /
    • pp.599-604
    • /
    • 2017
  • 유저의 일상 스케쥴을 제안하고 예측하는 서비스는 스마트 비서의 흥미로운 응용이다. 전통적인 방법에서는 유저의 행동을 예측하기 위하여, 유저가 직접 자신의 행동을 기록하거나, e-mail 혹은 SNS 등에서 명시적인 일정 정보를 추출하여 사용해왔다. 하지만, 유저가 모든 정보를 기록할 수 없기에, 스마트 비서가 얻을 수 있는 정보는 제한적이며, 유저는 유저의 일상의 routine한 정보를 기록하지 않는 경향이 있다. 본 논문에서는 스케줄러에 적히는 정형화된 일정인 스케줄과 비정형화된 일정을 만드는 일상 행동 패턴들을 동시에 고려하는 접근 방법을 제안한다. 이를 위하여 마코프 의사 결정 프로세스 (MDP)를 기반으로 하는 추론 방법과 역강화 학습 (IRL)을 통한 보상 함수 학습 방법을 제안한다. 실험 결과는 우리가 6주간 모은 실제 생활을 기록한 데이터 셋에서 우리의 방법이 기존 방법들보다 우수한 성능을 보임을 논증한다.

동적 계획법을 이용한 LNG 현물시장에서의 포트폴리오 구성방법 (Optimal LNG Procurement Policy in a Spot Market Using Dynamic Programming)

  • 류종현
    • 대한산업공학회지
    • /
    • 제41권3호
    • /
    • pp.259-266
    • /
    • 2015
  • Among many energy resources, natural gas has recently received a remarkable amount of attention, particularly from the electrical generation industry. This is in part due to increasing shale gas production, providing an environment-friendly fossil fuel, and high risk of nuclear power. Because South Korea, the world's second largest LNG importing nation after Japan, has no international natural gas pipelines and relies on imports in the form of LNG, the natural gas has been traditionally procured by long term LNG contracts at relatively high price. Thus, there is a need of developing an Asian LNG trading hub, where LNG can be traded at more competitive spot prices. In a natural gas spot market, the amount of natural gas to be bought should be carefully determined considering a limited storage capacity and future pricing dynamics. In this work, the problem to find the optimal amount of natural gas in a spot market is formulated as a Markov decision process (MDP) in risk neutral environment and the optimal base stock policy which depends on a stage and price is established. Taking into account price and demand uncertainties, the basestock target levels are simply approximated from dynamic programming. The simulation results show that the basestock policy can be one of effective ways for procurement of LNG in a spot market.

심층 큐 신경망을 이용한 게임 에이전트 구현 (Deep Q-Network based Game Agents)

  • 한동기;김명섭;김재윤;김정수
    • 로봇학회논문지
    • /
    • 제14권3호
    • /
    • pp.157-162
    • /
    • 2019
  • The video game Tetris is one of most popular game and it is well known that its game rule can be modelled as MDP (Markov Decision Process). This paper presents a DQN (Deep Q-Network) based game agent for Tetris game. To this end, the state is defined as the captured image of the Tetris game board and the reward is designed as a function of cleared lines by the game agent. The action is defined as left, right, rotate, drop, and their finite number of combinations. In addition to this, PER (Prioritized Experience Replay) is employed in order to enhance learning performance. To train the network more than 500000 episodes are used. The game agent employs the trained network to make a decision. The performance of the developed algorithm is validated via not only simulation but also real Tetris robot agent which is made of a camera, two Arduinos, 4 servo motors, and artificial fingers by 3D printing.

제어 장벽함수를 이용한 안전한 행동 영역 탐색과 제어 매개변수의 실시간 적응 (Online Adaptation of Control Parameters with Safe Exploration by Control Barrier Function)

  • 김수영;손흥선
    • 로봇학회논문지
    • /
    • 제17권1호
    • /
    • pp.76-85
    • /
    • 2022
  • One of the most fundamental challenges when designing controllers for dynamic systems is the adjustment of controller parameters. Usually the system model is used to get the initial controller, but eventually the controller parameters must be manually adjusted in the real system to achieve the best performance. To avoid this manual tuning step, data-driven methods such as machine learning were used. Recently, reinforcement learning became one alternative of this problem to be considered as an agent learns policies in large state space with trial-and-error Markov Decision Process (MDP) which is widely used in the field of robotics. However, on initial training step, as an agent tries to explore to the new state space with random action and acts directly on the controller parameters in real systems, MDP can lead the system safety-critical system failures. Therefore, the issue of 'safe exploration' became important. In this paper we meet 'safe exploration' condition with Control Barrier Function (CBF) which converts direct constraints on the state space to the implicit constraint of the control inputs. Given an initial low-performance controller, it automatically optimizes the parameters of the control law while ensuring safety by the CBF so that the agent can learn how to predict and control unknown and often stochastic environments. Simulation results on a quadrotor UAV indicate that the proposed method can safely optimize controller parameters quickly and automatically.