• 제목/요약/키워드: multiagent learning

검색결과 17건 처리시간 0.018초

효율적인 멀티 에이전트 강화 학습을 위한 나이브 베이지만 기반 상대 정책 모델 (A Naive Bayesian-based Model of the Opponent's Policy for Efficient Multiagent Reinforcement Learning)

  • 권기덕
    • 인터넷정보학회논문지
    • /
    • 제9권6호
    • /
    • pp.165-177
    • /
    • 2008
  • 멀티 에이전트 강화학습에서 중요한 이슈 중의 하나는 자신의 성능에 영향을 미칠 수 있는 다른 에이전트들이 존재하는 동적 환경에서 어떻게 최적의 행동 정책을 학습하느냐 하는 것이다. 멀티 에이전트 강화 학습을 위한 기존 연구들은 대부분 단일 에이전트 강화 학습기법들을 큰 변화 없이 그대로 적용하거나 비록 다른 에이전트에 관한 별도의 모델을 이용하더라도 현실적이지 못한 가정들을 요구한다. 본 논문에서는 상대 에이전트에 대한 나이브 베이지안 기반의 행동 정책 모델을 소개한 뒤, 이것을 이용한 강화 학습 방법을 설명한다. 본 논문에서 제안하는 멀티 에이전트 강화학습 방법은 기존의 멀티 에이전트 강화 학습 연구들과는 달리 상대 에이전트의 Q 평가 함수 모델이 아니라 나이브 베이지안 기반의 행동 정책 모델을 학습한다. 또한, 표현력은 풍부하나 학습에 시간과 노력이 많이 요구되는 유한 상태 오토마타나 마코프 체인과 같은 행동 정책 모델들에 비해 비교적 간단한 형태의 행동 정책 모델은 이용함으로써 학습의 효율성을 높였다. 본 논문에서는 대표적인 적대적 멀티 에이전트 환경인 고양이와 쥐게임을 소개한 뒤, 이 게임을 테스트 베드 삼아 실험들을 전개함으로써 제안하는 나이브 베이지안 기반의 정책 모델의 효과를 분석해본다.

  • PDF

적대적 멀티 에이전트 환경에서 효율적인 강화 학습을 위한 정책 모델링 (Policy Modeling for Efficient Reinforcement Learning in Adversarial Multi-Agent Environments)

  • 권기덕;김인철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권3호
    • /
    • pp.179-188
    • /
    • 2008
  • 멀티 에이전트 강화 학습에서 해결해야 할 중요한 문제는 자신의 작업 성능에 영향을 미칠 수 있는 다른 에이전트들이 존재하는 동적 환경에서 한 에이전트가 시행착오적 상호작용을 통해 어떻게 자신의 최적 행동 정책을 학습할 수 있느냐 하는 것이다. 멀티 에이전트 강화 학습을 위한 기존 연구들은 대부분 단일 에이전트 MDP 기반의 강화 학습기법들을 큰 변화 없이 그대로 적용하거나 비록 다른 에이전트에 관한 별도의 모델을 이용하더라도 다른 에이전트에 관해 요구되는 정보나 가정이 현실적이지 못하다는 한계점을 가지고 있다. 본 논문에서는 멀티 에이전트 강화 학습기술에 기초가 되는 기본 개념들을 정형화하고 이들을 기초로 기존 연구들의 특징과 한계점을 비교한다. 그리고 새로운 행동 정책 모델을 소개한 뒤, 이것을 이용한 강화 학습 방법을 설명한다. 본 논문에서 제안하는 멀티 에이전트 강화학습 방법은 상대 모델을 이용하는 기존의 멀티 에이전트 강화 학습 연구들에서 주로 시도되었던 상대 에이전트의 Q 평가 함수 모델 대신 상대 에이전트의 행동 정책 모델을 학습하며, 표현력은 풍부하나 학습에 시간과 노력이 많이 요구되는 유한 상태 오토마타나 마코프 체인과 같은 행동 정책 모델들에 비해 비교적 간단한 형태의 행동 정책 모델을 이용함으로써 학습의 효율성을 높였다. 또한, 본 논문에서는 대표적인 적대적 멀티 에이전트 환경인 고양이와 쥐게임을 소개하고, 이 게임을 테스베드삼아 비교 실험들을 수행하고 그 결과를 설명함으로써 본 논문에서 제안하는 정책 모델 기반의 멀티 에이전트 강화 학습의 효과를 분석해본다.

Two tales of platoon intelligence for autonomous mobility control: Enabling deep learning recipes

  • Soohyun Park;Haemin Lee;Chanyoung Park;Soyi Jung;Minseok Choi;Joongheon Kim
    • ETRI Journal
    • /
    • 제45권5호
    • /
    • pp.735-745
    • /
    • 2023
  • This paper surveys recent multiagent reinforcement learning and neural Myerson auction deep learning efforts to improve mobility control and resource management in autonomous ground and aerial vehicles. The multiagent reinforcement learning communication network (CommNet) was introduced to enable multiple agents to perform actions in a distributed manner to achieve shared goals by training all agents' states and actions in a single neural network. Additionally, the Myerson auction method guarantees trustworthiness among multiple agents to optimize rewards in highly dynamic systems. Our findings suggest that the integration of MARL CommNet and Myerson techniques is very much needed for improved efficiency and trustworthiness.

CORBA를 이용한 멀티에이전트 기반 원격 학습프레임워크 (Multiagent-based Distance Learning Framework using CORBA)

  • 정목동
    • 한국정보처리학회논문지
    • /
    • 제6권11호
    • /
    • pp.2989-3000
    • /
    • 1999
  • Until now, most Intelligent Tutoring Systems are lacking in the modularity, the extensibility of the system, and the flexibility in the dynamic environment due to the static exchanges of knowledge among modules. To overcome these flexibility in the dynamic due to the static exchanges of knowledge among modules. To overcome these problems, we will suggest, in this paper, a Distance Intelligent Tutoring Framework, called DELFOM, based on the multiagent to cope with the various and complicated learner's requests. We could make different types of learning systems by simply changing the contents of DELFOM External that is variant part of DELFOM. This framework, therefore, provides software reuse and the extensibility based on object-oriented paradigm. And we will propose two different distance learning systems using DELFOM. Therefore this framework gives the developer/the learner the effective and easy development/learning environment. DELFOM is implemented using CORBA and Java for the network transparency and platform independence.

  • PDF

멀티에이전트 강화학습 기술 동향: 분산형 훈련-분산형 실행 프레임워크를 중심으로 (Survey on Recent Advances in Multiagent Reinforcement Learning Focusing on Decentralized Training with Decentralized Execution Framework)

  • 신영환;서승우;유병현;김현우;송화전;이성원
    • 전자통신동향분석
    • /
    • 제38권4호
    • /
    • pp.95-103
    • /
    • 2023
  • The importance of the decentralized training with decentralized execution (DTDE) framework is well-known in the study of multiagent reinforcement learning. In many real-world environments, agents cannot share information. Hence, they must be trained in a decentralized manner. However, the DTDE framework has been less studied than the centralized training with decentralized execution framework. One of the main reasons is that many problems arise when training agents in a decentralized manner. For example, DTDE algorithms are often computationally demanding or can encounter problems with non-stationarity. Another reason is the lack of simulation environments that can properly handle the DTDE framework. We discuss current research trends in the DTDE framework.

멀티에이전트 강화학습을 위한 통신 기술 동향 (Survey on Communication Algorithms for Multiagent Reinforcement Learning)

  • 서승우;신영환;유병현;김현우;송화전;이성원
    • 전자통신동향분석
    • /
    • 제38권4호
    • /
    • pp.104-115
    • /
    • 2023
  • Communication for multiagent reinforcement learning (MARL) has emerged to promote understanding of an entire environment. Through communication for MARL, agents can cooperate by choosing the best action considering not only their surrounding environment but also the entire environment and other agents. Hence, MARL with communication may outperform conventional MARL. Many communication algorithms have been proposed to support MARL, but current analyses remain insufficient. This paper presents existing communication algorithms for MARL according to various criteria such as communication methods, contents, and restrictions. In addition, we consider several experimental environments that are primarily used to demonstrate the MARL performance enhanced by communication.

강화학습을 이용한 멀티 에이전트 시스템의 자동 협력 조정 모델 (An Automatic Cooperative coordination Model for the Multiagent System using Reinforcement Learning)

  • 정보윤;윤소정;오경환
    • 인지과학
    • /
    • 제10권1호
    • /
    • pp.1-11
    • /
    • 1999
  • 최근 에이전트 기반 시스템 기술은 소프트웨어 시스템의 개념화, 설계, 구현을 위한 새로운 패러다임을 제공하며 많은 기대를 받아왔다. 특히 멀티 에이전트 시스템은 분산적이고 개방적인 인터넷 환경에 잘 부합되는 특징을 가지고 있어서 많은 연구가 진행되고 있다. 멀티 에이전트 시스템에서는 각 에이전트들이 자신의 목적을 위해 행동하기 때문에 에이전트간 충돌이 발생하는 경우에 조정을 통해 협력할 수 있어야 한다. 그러나 기존의 멀티 에이전트 시스템에서의 에이전트 간 협력 방법에 관한 연구 방법들은 동적 환경에서 서로 다른 목적을 갖는 에이전트간의 협동 문제를 올바로 해결할 수 없다는 문제가 있었다. 본 논문에서는 강화학습을 이용한 자동 역할 조정 방법을 통하여 에이전트가 처한 동적 환경에서 서로 다른 목적을 갖는 에이전트간의 협력 문제를 해결한다. 이를 위하여 멀티 에이전트 시스템 분야의 전통적인 문제인 추적 문제에 동적 환경과 서로 다른 목표를 갖는 에이전트들을 모델 링 하여, 두 가지 수정된 추적 문제를 제안하고 이 문제의 해결을 통하여 제안한 방법이 타당함을 보였다.

  • PDF

C-COMA: 동적 다중 에이전트 환경을 위한 지속적인 강화 학습 모델 (C-COMA: A Continual Reinforcement Learning Model for Dynamic Multiagent Environments)

  • 정규열;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권4호
    • /
    • pp.143-152
    • /
    • 2021
  • 다양한 실세계 응용 분야들에서 공동의 목표를 위해 여러 에이전트들이 상호 유기적으로 협력할 수 있는 행동 정책을 배우는 것은 매우 중요하다. 이러한 다중 에이전트 강화 학습(MARL) 환경에서 기존의 연구들은 대부분 중앙-집중형 훈련과 분산형 실행(CTDE) 방식을 사실상 표준 프레임워크로 채택해왔다. 하지만 이러한 다중 에이전트 강화 학습 방식은 훈련 시간 동안에는 경험하지 못한 새로운 환경 변화가 실전 상황에서 끊임없이 발생할 수 있는 동적 환경에서는 효과적으로 대처하기 어렵다. 이러한 동적 환경에 효과적으로 대응하기 위해, 본 논문에서는 새로운 다중 에이전트 강화 학습 체계인 C-COMA를 제안한다. C-COMA는 에이전트들의 훈련 시간과 실행 시간을 따로 나누지 않고, 처음부터 실전 상황을 가정하고 지속적으로 에이전트들의 협력적 행동 정책을 학습해나가는 지속 학습 모델이다. 본 논문에서는 대표적인 실시간 전략게임인 StarcraftII를 토대로 동적 미니게임을 구현하고 이 환경을 이용한 다양한 실험들을 수행함으로써, 제안 모델인 C-COMA의 효과와 우수성을 입증한다.

강화학습을 이용한 다중 에이전트 제어 전략 (Multagent Control Strategy Using Reinforcement Learning)

  • 이형일;김병천
    • 정보처리학회논문지B
    • /
    • 제10B권3호
    • /
    • pp.249-256
    • /
    • 2003
  • 다중 에이전트 시스템에서 가장 중요한 문제는 여러 에이전트가 서로 효율적인 협동(coordination)을 통해서 목표(goal)를 성취하는 것과 다른 에이전트들과의 충돌(collision) 을 방지하는 것이다. 본 논문에서는 먹이 추적 문제의 목표를 효율적으로 성취하기 위해 새로운 전략 방법을 제안한다. 제안된 제어 전략은 다중 에이전트를 제어하기 위해 강화 학습을 이용하였고, 에이전트들간의 거리관계와 공간 관계를 고려하였다.

GENETIC PROGRAMMING OF MULTI-AGENT COOPERATION STRATEGIES FOR TABLE TRANSPORT

  • Cho, Dong-Yeon;Zhang, Byoung-Tak
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 1998년도 The Third Asian Fuzzy Systems Symposium
    • /
    • pp.170-175
    • /
    • 1998
  • Transporting a large table using multiple robotic agents requires at least two group behaviors of homing and herding which are to bo coordinated in a proper sequence. Existing GP methods for multi-agent learning are not practical enough to find an optimal solution in this domain. To evolve this kind of complex cooperative behavior we use a novel method called fitness switching. This method maintains a pool of basis fitness functions each of which corresponds to a primitive group behavior. The basis functions are then progressively combined into more complex fitness functions to co-evolve more complex behavior. The performance of the presented method is compared with that of two conventional methods. Experimental results show that coevolutionary fitness switching provides an effective mechanism for evolving complex emergent behavior which may not be solved by simple genetic programming.

  • PDF