• 제목/요약/키워드: 추격-회피 게임

검색결과 4건 처리시간 0.019초

유전 프로그래밍을 이용한 추격-회피 문제에서의 게임 에이전트 학습 (Game Agent Learning with Genetic Programming in Pursuit-Evasion Problem)

  • 권오광;박종구
    • 정보처리학회논문지B
    • /
    • 제15B권3호
    • /
    • pp.253-258
    • /
    • 2008
  • 최근의 게임 플레이어들은 단순한 반복적인 조작을 벗어나 복잡한 환경 하에서 다양한 전략과 전술을 구사하여야 하는 게임을 요구하고 있다. 이러한 환경에서 게임 캐릭터를 학습시키기 위해 다양한 인공지능 기법들이 제안되었으며, 최근에는 신경망과 유전 알고리즘을 이용한 학습 방법이 연구되고 있다. 본 논문에서는 게임이론에서 널리 사용되는 추격-회피 전략의 학습을 위해 유전 프로그래밍(GP)을 사용하였다. 제안된 유전 프로그래밍은 신경망과 같은 기존의 방법에 비해 수행 속도가 빠르고, 학습의 결과를 직관적으로 이해할 수 있으며, 진화된 염색체를 추론 규칙으로 변환 가능하므로 호환성이 높다는 장점을 가지고 있다.

급회전을 이용한 희생자의 추격 피하기 행동 분석 (Analysis of Behaviour of Prey to avoid Pursuit using Quick Rotation)

  • 이재문
    • 한국게임학회 논문지
    • /
    • 제13권6호
    • /
    • pp.27-34
    • /
    • 2013
  • 본 논문은 동물들의 집단행동에서 나타나는 포식자-희생자 관계에서 포식자에 대한 희생자의 추격회피 행동을 분석한다. 희생자가 포식자의 추격을 피하는 하나의 방법이 인접거리에서 급회전을 하는 것이다. 그때 희생자가 추격으로부터 살아남기 위해서는 임계거리와 회전각은 매우 중요하다. 여기서 임계거리는 회전 시작 직전 포식자와 희생자 사이의 거리이다. 이러한 임계거리와 회전각을 분석하기 위하여 본 논문은 추격의 시작에서 보유한 포식자의 에너지와 추격동안 소비한 포식자의 에너지를 이용한다. 시뮬레이션을 통하여, 임계거리가 짧을수록 희생자가 추격으로부터 살아남을 수 있는 회전각은 커진다는 것과 포식자의 질량에 대한 희생자의 질량의 비율이 작아지는 경우에도 역시 회전각 커진다는 것을 알 수 있었다. 시뮬레이션 결과는 자연에서 나타나는 현상과 유사하며, 따라서 이것은 본 논문에서 분석한 방법이 옳다는 것을 의미한다.

마르코프 게임 학습에 기초한 다수 캐릭터의 경쟁적 상호작용 애니메이션 합성 (Learning Multi-Character Competition in Markov Games)

  • 이강훈
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제15권2호
    • /
    • pp.9-17
    • /
    • 2009
  • 다수 캐릭터가 경쟁적으로 상호작용하는 애니메이션의 합성은 컴퓨터 게임, 애니메이션 등의 응용분야에서 종종 요구되는 중요한 문제이다. 하지만 상대의 예측하기 어려운 행동에 효과적으로 대응하는 전략적 경쟁 양상을 모사하는 것은 어려운 문제로 남아있다. 본 논문은 다수 에이전트 학습 분야에서 제안된 마르코프 게임 강화학습 알고리즘을 촬영된 동작 데이터로부터 생성된 행위 모델에 적용하여 사실적인 경쟁 애니메이션을 합성하는 방식을 제안한다. 추격-회피, 간격 유지, 총격전 등의 다양한 경쟁적 상황에 대하여 효과적인 전략을 학습하여 흥미로운 애니메이션을 합성하는 예제들을 통하여 본 논문이 제안하는 방법의 효용성을 보인다.

  • PDF

심층 강화학습을 이용한 시변 비례 항법 유도 기법 (Time-varying Proportional Navigation Guidance using Deep Reinforcement Learning)

  • 채혁주;이단일;박수정;최한림;박한솔;안경수
    • 한국군사과학기술학회지
    • /
    • 제23권4호
    • /
    • pp.399-406
    • /
    • 2020
  • In this paper, we propose a time-varying proportional navigation guidance law that determines the proportional navigation gain in real-time according to the operating situation. When intercepting a target, an unidentified evasion strategy causes a loss of optimality. To compensate for this problem, proper proportional navigation gain is derived at every time step by solving an optimal control problem with the inferred evader's strategy. Recently, deep reinforcement learning algorithms are introduced to deal with complex optimal control problem efficiently. We adapt the actor-critic method to build a proportional navigation gain network and the network is trained by the Proximal Policy Optimization(PPO) algorithm to learn an evasion strategy of the target. Numerical experiments show the effectiveness and optimality of the proposed method.