DOI QR코드

DOI QR Code

Case Studies on Planning and Learning for Large-Scale CGFs with POMDPs through Counterfire and Mechanized Infantry Scenarios

대화력전 및 기계화 보병 시나리오를 통한 대규모 가상군의 POMDP 행동계획 및 학습 사례연구

  • 이종민 (한국과학기술원 전산학부) ;
  • 홍정표 (한국과학기술원 전산학부) ;
  • 박재영 (한국과학기술원 전산학부) ;
  • 이강훈 (한국과학기술원 전산학부) ;
  • 김기응 (한국과학기술원 전산학부) ;
  • 문일철 (한국과학기술원 산업 및 시스템 공학과) ;
  • 박재현 (국방과학연구소 국방과학연구소)
  • Received : 2016.11.09
  • Accepted : 2017.03.09
  • Published : 2017.06.15

Abstract

Combat modeling and simulation (M&S) of large-scale computer generated forces (CGFs) enables the development of even the most sophisticated strategy of combat warfare and the efficient facilitation of a comprehensive simulation of the upcoming battle. The DEVS-POMDP framework is proposed where the DEVS framework describing the explicit behavior rules in military doctrines, and POMDP model describing the autonomous behavior of the CGFs are hierarchically combined to capture the complexity of realistic world combat modeling and simulation. However, it has previously been well documented that computing the optimal policy of a POMDP model is computationally demanding. In this paper, we show that not only can the performance of CGFs be improved by an efficient POMDP tree search algorithm but CGFs are also able to conveniently learn the behavior model of the enemy through case studies in the scenario of counterfire warfare and the scenario of a mechanized infantry brigade's offensive operations.

대규모 가상군의 전투 모델링 및 시뮬레이션에서 자율적으로 행동하는 이성적 전투 개체의 행동 묘사는 향후 발생할 전투의 작전을 고도화하고 효율적인 모의 훈련을 가능하게 하는 핵심 요소이다. DEVS-POMDP 계층적 프레임워크는 전투 행동 교범에 따른 상위 단계 의사결정 및 구체적 서술이 어려운 하위 단계 자율 행동계획을 각각 DEVS 및 POMDP로 모델링함으로써 대규모 가상군을 모의하였으나, POMDP 최적 행동정책 계산에 있어서 많은 컴퓨팅 자원을 필요로 하는 단점이 있었다. 본 논문에서는 DEVS-POMDP로 모델링된 대화력전 모의 시나리오 및 기계화 보병여단 공격작전 모의 시나리오의 사례연구를 통해 효율적인 POMDP 트리 탐색 알고리즘을 제안하고 적군 행동 양상 모델의 학습을 통한 가상군 전투 개체의 성능 향상을 확인한다.

Keywords

Acknowledgement

Supported by : 국방과학연구소

References

  1. K. Lee, H. Lim, and K. Kim, "A Case Study on Modeling Computer Generated Forces based on Factored POMDPs," Proc. of Korea Computer Congress 2012, Vol. 39, No. 1(B), 2012. (in Korean)
  2. J. Bae, K. Lee, H. Kim, J. Lee, B. Goh, B. Nam, I, Moon, K. Kim, and J. Park, “Modeling Combat Entity with POMDP and DEVS,” Journal of the Korean Institute of Industrial Engineers, Vol. 39, No. 6, pp. 498-516, Dec. 2013. (in Korean) https://doi.org/10.7232/JKIIE.2013.39.6.498
  3. E. J. Sondik, "The optimal control of partially observable Markov processes," Ph.D. thesis, Stanford University, 1971.
  4. B. P. Zeigler, H. Praehofer, and T. Kim, "Theory of modeling and simulation: integrating discrete event and continuous complex dynamic systems," Academic press, 2000.
  5. D. Silver, and J. Veness, "Monte-Carlo planning in large POMDPs," Proc. of Advances in Neural Information Processing Systems, 2010.
  6. S. Ross, B. Chaib-draa, and J. Pineau, "Bayes- Adaptive POMDPs," Proc. of Advances in Neural Information Processing Systems, 2007.
  7. A. Guez, D. Silver, and P. Dayan, "Efficient Bayes-Adaptive Reinforcement Learning using Sample-Based Search," Proc. of Advances in Neural Information Processing Systems, 2012.