DOI QR코드

DOI QR Code

지형정보 기반 조난자 행동예측을 위한 마코프 의사결정과정 모형

MDP(Markov Decision Process) Model for Prediction of Survivor Behavior based on Topographic Information

  • 손진호 (국방대학교 국방과학학과) ;
  • 김수환 (국방대학교 국방과학학과)
  • Jinho Son (Department of Military Science, Korea National Defense University) ;
  • Suhwan Kim (Department of Military Science, Korea National Defense University)
  • 투고 : 2022.12.27
  • 심사 : 2023.04.17
  • 발행 : 2023.06.30

초록

유사시 종심 깊숙한 곳에서 적을 타격하는 임무를 수행하는 항공기의 경우 격추될 위험에 항시 노출되어 있다. 현대전의 핵심 전투력으로써 최첨단의 무기체계를 운용하는 공중근무 요원은 양성하는데 많은 시간과 노력, 국가 예산이 소요되며 그들이 가진 작전 능력과 군사기밀이 매우 중요하기에 공중근무 요원의 생환은 매우 중요한 문제이다. 따라서, 본 연구에서는 적지에서 비상탈출한 조난자가 장애물을 피해 목표지점까지 도피·탈출을 시행할 경로를 예측하는 경로 문제를 연구하였으며 이를 통해 비상탈출한 조난자의 무사 생환 가능성을 높이고자 하였다. 본 연구 주제와 관련된 기존 연구들은 경로 문제를 네트워크 기반 문제로 접근하여 TSP, VRP, Dijkstra 알고리즘 등으로 문제를 변형하여 최적화 기법으로 접근한 연구가 있었다. 본 연구에서는 동적 환경을 모델링 하기에 적합한 MDP(마코프 의사결정과정)를 적용하여 연구하였다. 또한 GIS를 이용하여 지형정보 데이터를 추출하여 활용함으로써 모형의 객관성을 높였으며, MDP의 보상구조를 설계하는 과정에서 기존 연구 대비 모형이 좀 더 현실성을 가질 수 있도록 보다 상세히 지형정보를 반영하였다. 본 연구에서는 조난자가 지형적 이점을 최대한 이용함과 동시에 최단거리로 이동할 수 있는 경로를 도출하기 위하여 가치 반복법 알고리즘, 결정론적 방법론을 사용하였으며 실제 지형정보와 조난자가 도피·탈출 과정에서 만날 수 있는 장애요소들을 추가하여 모형의 현실성을 더하고자 하였다. 이를 통해 조난자가 조난 상황에서 어떠한 경로를 통해 도피·탈출을 수행할지 예측해 볼 수 있었다. 본 연구에서 제시한 모형은 보상구조의 재설계를 통해 여러 가지 다양한 작전 상황에 응용이 가능하며 실제 상황에서 조난자의 도피·탈출 경로를 예측하고 전투 탐색구조 작전을 진행시키는 데 있어 다양한 요소가 반영된 과학적인 기법에 근거한 의사결정 지원이 가능할 것이다.

In the wartime, aircraft carrying out a mission to strike the enemy deep in the depth are exposed to the risk of being shoot down. As a key combat force in mordern warfare, it takes a lot of time, effot and national budget to train military flight personnel who operate high-tech weapon systems. Therefore, this study studied the path problem of predicting the route of emergency escape from enemy territory to the target point to avoid obstacles, and through this, the possibility of safe recovery of emergency escape military flight personnel was increased. based problem, transforming the problem into a TSP, VRP, and Dijkstra algorithm, and approaching it with an optimization technique. However, if this problem is approached in a network problem, it is difficult to reflect the dynamic factors and uncertainties of the battlefield environment that military flight personnel in distress will face. So, MDP suitable for modeling dynamic environments was applied and studied. In addition, GIS was used to obtain topographic information data, and in the process of designing the reward structure of MDP, topographic information was reflected in more detail so that the model could be more realistic than previous studies. In this study, value iteration algorithms and deterministic methods were used to derive a path that allows the military flight personnel in distress to move to the shortest distance while making the most of the topographical advantages. In addition, it was intended to add the reality of the model by adding actual topographic information and obstacles that the military flight personnel in distress can meet in the process of escape and escape. Through this, it was possible to predict through which route the military flight personnel would escape and escape in the actual situation. The model presented in this study can be applied to various operational situations through redesign of the reward structure. In actual situations, decision support based on scientific techniques that reflect various factors in predicting the escape route of the military flight personnel in distress and conducting combat search and rescue operations will be possible.

키워드

참고문헌

  1. 공군본부 편. (2018). 공군 지침서 3-15-2 공중근무자 생환법. 국군인쇄창.
  2. 공군본부 편. (2022). 공군 교범 3-7 전투탐색구조작전. 국군인쇄창
  3. 국방지형정보단 편. (2011). 군 GIS 길라잡이. 국군인쇄창.
  4. 권기덕, 김인철. (2007). 효율적인 멀티 에이전트 강화학습을 위한 RBFN 기반 정책 모델. 한국지능정보시스템학회 추계 학술대회 논문집, 294-302.
  5. 김동호, 이재송, 최재득, 김기웅. (2011). 복수 무인기를 위한 POMDP 기반 동적 임무 할당 및 정찰임무 최적화 기법. 정보과학회지, 39, 453-463.
  6. 김영화, 김수환. (2015) MGIS 및 유전자 알고리즘을 활용한 정보자산 최적배치에 관한 연구. 대한산업공학회지, 41(4), 396-407.
  7. 노승은. (2020). 바닥부터 배우는 강화학습. 영진닷컴.
  8. 손홍규, 허준, 방수남. (2014). 지형공간정보를 활용한 최적침투경로 분석 기법. 대한공간정보학회 학술대회, 11-22.
  9. 신내호, 오명호, 최호림, 정동윤, 이용웅. (2009). 지형공간정보 기반의 침투위험도 예측 모델을 이용한 최적 침투지역 분석. 한국군사과학기술학회지, 12(2), 199-205.
  10. 우창윤, 김도희, 배혜림. (2022). 강화학습을 이용한 신발 생산계획 최적화 연구. 한국지능정보시스템학회 추계학술대회 초록집, 33-34.
  11. 육군본부 편. (2015). 야전 교범 15-3-9 야간 작전. 국군인쇄창.
  12. 윤정미. (2009). ArgGIS 이해와 활용. 기문당.
  13. 이웅원, 양혁렬, 김건우, 이영무, 이의령. (2020). 파이썬과 케라스로 배우는 강화학습. 위키북스.
  14. 이현재, 이홍주. (2020). 강화학습 주식투자 수익률 비교에 대한 연구. 한국지능정보시스템학회 춘계학술대회 초록집, 69-70.
  15. 이희연. (2011). GIS 지리정보학. 법문사.
  16. 조성진, 이문걸. (2019). 지형공간정보 및 경로탐색 알고리즘을 이용한 최적 강하지역 선정 모형. 경영과학, 36(3), 31-45.
  17. 진효원, 김수환, 정치정, 이문걸. (2015). 폐쇄공간에서의 에이전트 행동 예측을 위한 MDP 모형. 한국경영과학회지, 40(3), 63-72. https://doi.org/10.7737/JKORMS.2015.40.3.063
  18. 최용찬, 박성수. (2022) 강화학습 기반 적대적 위협 환경하에서의 정찰드론 경로 계획. 차세대융합기술학회논문지, 624-631.
  19. 한동윤, 이동현, 백민석, 반재필. (2022). 아군 충돌 회피를 위한 강화학습 기반 지대공 유도 미사일 제어 방안. 한국정보기술학회 추계종합 학술대회 논문집, 742-745.
  20. Rudiger Thiede 외 3 인. (2014) 실전 Q-GIS 무작정 따라하기. 한국오픈소스 GIS 포럼.
  21. Bonet, B and H Geffner, "Solving Stochastic ShortestPath Problem with RTDP", Technical report, University of Califonia, Los Angeles. (2002)
  22. Puterman M. L. Markov Decision Process discrete stochastic (2005) dynamic programming, WILEY.
  23. Sutton, Richard S., and Andrew G. Barto. Introduction to reinforcement learning. (1988) Vol. 2. No.4. Cambridge: MIT press.
  24. Schaefer, A. J., M. D. Bailey, S. M. Schechter and M. S. Roberts. Modeling Medical Treatment using Markov Decision Process, (2004) Handbook of Operations Research/Management Science Applications in Health Care. Kluwer Academic Publisher.
  25. Swarup, S., G. Eubank and M. V. Marathe, Computational Epidemiology as Challenge Domain for Multiagent Systems, Proceeding of International Conference on Autonomous Agents and Multi-agent System. (2014) International Foundation for Autunomous Agents and Multi-agent System.
  26. Yu, X.-H. and W.W. Recker Stochastic Adaptive Control Model for Traffic Signal Systems, Transportation Research Part C, V, 14, (2006) 4:263-282 https://doi.org/10.1016/j.trc.2006.08.002