• 제목/요약/키워드: 학습강화

검색결과 1,589건 처리시간 0.026초

강화학습을 이용한 다개체 시스템의 협조행동 구현 (Cooperative Behavior Using Reinforcement Learning for the Multi-Agent system)

  • 이창길;김민수;이승환;오학준;정찬수
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2001년도 합동 추계학술대회 논문집 정보 및 제어부문
    • /
    • pp.428-430
    • /
    • 2001
  • 다수의 자율이동로봇으로 구성되는 다개체 시스템에서의 협조행동을 위해서 각 개체는 주변환경의 인식뿐만 아니라 환경변화에 적응할 수 있는 추론능력이 요구된다. 이에 본 논문에서는 강화학습을 이용하여 동적으로 변화하는 환경 하에서 개체들이 스스로 학습하고 대처할 수 있는 협조행동 방법을 제시한다. 제안한 방법을 먹이와 포식자 문제에 적용하여 포식자 로봇간의 협조행동을 구현하였다. 여러 대로 구성된 포식자 로봇은 회피가 목적인 먹이로봇을 추적하여 포획하는 것이 임무이며 포식자 로봇들 간의 협조행동을 위해 각 상태에 따른 최적의 행동방식을 찾는데 강화학습을 이용한다.

  • PDF

Match-3 Game 스테이지 구성을 위한 PPO 기반 강화학습 에이전트 설계 (Design of PPO-based Reinforcement Learning Agents for Match-3 Game Stage Configuration)

  • 홍자민;정재화
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.648-651
    • /
    • 2022
  • Match-3 Game 은 스테이지 구성 및 난이도 설정이 중요한 게임이나 다양한 밸런스 요소로 인해 스테이지 구성에 중요한 요소인 난이도 설정에 많은 시간이 소요된다. 특히 게임을 플레이하는 유저가 재미를 느끼는 수준으로 난이도를 설정하는 것이 중요하며, 이를 자동화하기 위해 실제 유저의 플레이 데이터를 활용하여 사람과 유사한 수준의 자동 플레이 에이전트 개발이 진행되었다. 하지만 플레이 데이터의 확보는 쉽지 않기에 연구 방향은 플레이 데이터가 없는 강화학습으로 확장되고 있다. 스테이지 구성에 중요한 요소인 난이도를 설정하기 위함이라면 각 스테이지 간의 상대적인 난이도 차이를 파악하는 것으로 가능하다. 이를 위해 게임의 규칙을 학습한 강화학습 에이전트로 밸런스 요소의 변화에 따른 다양한 난이도의 스테이지를 50 회씩 플레이하여, 평균 획득 점수를 기준으로 스테이지 구성에 필요한 각 스테이지들의 난이도를 파악할 수 있었다.

멀티에이전트 강화학습에서 견고한 지식 전이를 위한 확률적 초기 상태 랜덤화 기법 연구 (Stochastic Initial States Randomization Method for Robust Knowledge Transfer in Multi-Agent Reinforcement Learning)

  • 김도현;배정호
    • 한국군사과학기술학회지
    • /
    • 제27권4호
    • /
    • pp.474-484
    • /
    • 2024
  • Reinforcement learning, which are also studied in the field of defense, face the problem of sample efficiency, which requires a large amount of data to train. Transfer learning has been introduced to address this problem, but its effectiveness is sometimes marginal because the model does not effectively leverage prior knowledge. In this study, we propose a stochastic initial state randomization(SISR) method to enable robust knowledge transfer that promote generalized and sufficient knowledge transfer. We developed a simulation environment involving a cooperative robot transportation task. Experimental results show that successful tasks are achieved when SISR is applied, while tasks fail when SISR is not applied. We also analyzed how the amount of state information collected by the agents changes with the application of SISR.

학습자중심 소통 강화 스페인어 수업이 학업성취도에 미치는 영향 (Effect of Spanish Classes on Academic Achievement on Strengthening Learner-centered Communication)

  • 강필운
    • 디지털융복합연구
    • /
    • 제20권4호
    • /
    • pp.443-447
    • /
    • 2022
  • 본 연구의 목적은 교양 스페인어 과정 속에서 의사소통을 통해 소통 강화 능력을 기르기 위하여 문제기반학습 교수 학습방법으로 학업성취도와 협동능력의 변화를 알아보고자 했다. A대학에서 2021년 9월부터 2021년 12월까지 스페인어를 교양으로 수강하는 학습자 70명을 대상으로 학습자중심 문제기반 교수방법으로 수업을 실시한 실험반과 전통적 방식으로 수업을 실시한 통제반으로 나누어 두 집단 간의 학업성취도 및 실험반의 사전사후 협동능력에 관해 살펴보았다. 연구 결과 두 집단 간의 학업성취도는 통계적으로 유의미하지 않았지만 하위영역이 의사소통 영역에서로 유의미한 결과, 0.031(*p<.05)로 나타났다. 실험반의 협동능력에 관한 사전 사후 비교 결과 평균은 향상되었지만 통계적으로 유의미하지는 않았다. 그러나 문제기반학습에 있어서 협동능력은 문제해결에 도움이 되었음을 알 수 있었다. 본 연구 결과로 학습자 중심의 문제기반 학습활동은 분명히 전통적인 수업방식보다 스페인어 학습자들에게 원활한 소통을 할 수 있는 적합한 교수학습 방법임을 알 수 있다. 본 연구를 바탕으로 다양한 학습자중심 융합교수법으로 스페인어 소통 강화에 적합한 교수법 개발과 교수학습 모델 개발을 위한 지속적인 후속 연구는 21세기가 원하는 인재양성에 기여할 것으로 판단된다.

로보컵 공 뺏기 테스트베드를 이용한 적대적 학습 에이전트들에 대한 실험적 분석 (Empirical Analysis of Adversarial Learning Agents Using the RoboCup Keepaway Test-bed)

  • 권기덕;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 추계학술발표대회
    • /
    • pp.15-18
    • /
    • 2006
  • 강화 학습은 시행착오를 통해 동적 환경과 상호작용하면서 학습을 수행하는 학습 방법으로 본 논문에서 테스트 환경으로 사용하는 Keepaway와 같은 동적인 환경에서 주로 사용하는 학습 방법이다. 본 논문에서는 학습을 통한 에이전트가 다른 정책을 사용하는 에이전트보다 성능이 더 높다는 것을 보이고자 한다. 학습 초기에는 다양한 전략을 평가하기 위해 최적이 아닌 행동을 선택하지만 시간이 지남에 따라 최적의 행동 선택에 수렴해 가는 것을 보이기 위한 실험을 수행한다. 이 실험을 통해 고정된 행동 양식을 가지는 정책보다 강화 학습을 이용한 에이전트들의 성능이 더 효과적인 것을 알 수 있었다.

  • PDF

의료능력을 고려한 대량전상자 환자분류 강화학습 모델 (Reinforcement Learning Model for Mass Casualty Triage Taking into Account the Medical Capability)

  • 박병호;조남석
    • 한국재난정보학회 논문집
    • /
    • 제19권1호
    • /
    • pp.44-59
    • /
    • 2023
  • 연구목적: 대량전상자 발생 시 신속하고 정확한 환자분류가 진행되어야 최대한 많은 환자를 회복시켜 전장으로 돌려보낼 수 있다. 그러나 복잡한 전투현장에서 적은 의료인력으로 대량전상자의 환자분류를 시행하기란 임무는 과다하고 환경은 불확실하다. 따라서, 전투현장에서 의료인력을 보조하고 대체할 수 있는 인공지능 모델에 대해 논의하고자 한다. 연구방법:인공지능의 한 분야인 강화학습을 활용하여 환자분류 모델을 제시한다. 모델의 학습은 무작위로 설정된 환자의 상태와 병원시설의 의료능력을 고려하여 최대 다수의 환자가 치료받을 수 있는 정책을 찾도록 진행된다. 연구결과:강화학습 모델이 정상적으로 학습되었음은 누적 보상 값 등을 통하여 확인하였고, 학습된 모델이 정확하게 환자를 분류하는 것은 생존자 수를 통해 확인하였다. 또한, 규칙 기반 모델과 비교하여 성능을 검증하였으며, 강화학습 모델이 규칙 기반 모델에 비해 약 10%만큼 더 많은 환자를 생존시킬 수 있었다. 결론:강화학습을 이용한 환자분류 모델은 의료인력의 대량전상자 환자분류 의사결정을 보조하고 대체하는 대안으로 활용 가능하다.

강화 학습을 이용한 전자 상거래 에이전트 ((e-commerce Agents using Reinforcement Learning))

  • 윤지현;김일곤
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권5_6호
    • /
    • pp.579-586
    • /
    • 2003
  • 에이전트는 동적인 환경과 상호 작용하고 자치성을 추구하기 때문에 전자상거래 적용 분야로 적합하다. 본 논문은 강화 학습을 이용한 전자상거래 에이전트를 제안한다. 에이전트가 지능적인 특성을 가지고 사람을 대신하여 전자상거래에서 거래의 실질적 객체로써 거래를 담당하도록 하기 위해 강화학습 알고리즘을 적용하였다. 이러한 접근방식의 타당성을 입증하기 위해 본 논문에서는 구매 에이전트와 판매 에이전트로 구분하고, 학습과 통신의 정도에 따라 단계적 특성을 부여하여 에이전트 프레임워크를 구현하였고 그 결과를 보인다. 본 논문은 학습 알고리즘에 기초한 전자상거래 에이전트의 디자인을 보이고, 이 에이전트들은 실제 전자상거래에서 거래 처리 역할의 가능성이 충분함을 보인다.

강화 학습을 통한 자동 반주 생성 (Automatic Generation of Music Accompaniment Using Reinforcement Learning)

  • 김나리;권지용;유민준;이인권
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 1부
    • /
    • pp.739-743
    • /
    • 2008
  • 본 연구에서는 사용자가 입력한 멜로디에 따른 반주 음악을 자동으로 생성하는 방법을 제시한다. 시작되는 코드는 사용자의 멜로디에 의해서 생성이 되며, 그 다음 코드들은 코드들간의 전이확률이 정의되어있는 마르코프 체인(markov chain)의 확률 테이블을 이용하여 연속적으로 생성된다. 확률 테이블은 기존 음악의 샘플 데이터를 강화학습(reinforcement learning)을 이용하여 학습된다. 또한 실시간으로 재생되는 반주 코드는 매 상태 마다 주어지는 보상 값을 통해 더 나은 행동을 취할 수 있도록 학습해 나간다. 멜로디와 각 코드들간의 유사성은 피치 클래스 히스토그램을 이용하여 계산된다. 본 기술을 사용하여 주어진 사용자 입력에 조화로운 반주 코드의 자동 생성이 가능하다.

  • PDF

게임 인공지능에 사용되는 강화학습 알고리즘 비교 (Comparison of Reinforcement Learning Algorithms used in Game AI)

  • 김덕형;정현준
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 추계학술대회
    • /
    • pp.693-696
    • /
    • 2021
  • 강화학습에는 다양한 알고리즘이 있으며 분야에 따라 사용되는 알고리즘이 다르다. 게임 분야에서도 강화학습을 사용하여 인공지능을 개발할 때 특정 알고리즘이 사용된다. 알고리즘에 따라 학습 방식이 다르고 그로 인해 만들어지는 인공지능도 달라진다. 그러므로 개발자는 목적에 맞는 인공지능을 구현하기 위해 적절한 알고리즘을 선택해야 한다. 그러기 위해서 개발자는 알고리즘의 학습 방식과 어떤 종류의 인공지능 구현에 적용되는 것이 효율적인지 알고 있어야 한다. 따라서 이 논문에서는 게임 인공지능 구현에 사용되는 알고리즘인 SAC, PPO, POCA 세 가지 알고리즘의 학습 방식과 어떤 종류의 인공지능 구현에 적용되는 것이 효율적인지 비교한다.

  • PDF

강화 이론을 적용한 효과적인 이러닝 학습 시스템 연구 (A Study of the Effective e-Learning System Applied the Reinforcement Theory)

  • 김진영;우종정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.263-264
    • /
    • 2009
  • 인터넷을 이용한 이러닝 시스템은 시간과 공간의 제약을 받지 않기 때문에 최근 교육 분야에서 각광 받고 있다. 그러나 교수자의 통제가 없기에 학습자들의 의지가 부족할 경우 불성실하게 학습에 임할 가능성이 농후하고, 면대면 수업에 비하여 교수자-학습자간의 상호작용이 어렵다는 점 등이 문제점으로 지적되고 있다. 이에 본 논문에서는 이러한 문제점을 완화시키고자 스키너의 강화이론을 적용하여 교수자-학습자간 상호작용을 증진시켜 학생들의 학습 몰입을 돕고, 궁극적으로 보다 효과적인 이러닝이 이루어 질 수 있는 학습시스템을 설계하고 구현했다.