• Title/Summary/Keyword: 최적행동

Search Result 214, Processing Time 0.025 seconds

Planning Capability of Action Selection Network for Generating Optimal Behaviors of Agent (에이전트의 최적 행동 생성을 위한 행동선택 네트워크의 계획 기능)

  • 민현정;김경중;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.473-475
    • /
    • 2003
  • 최근 빠른 시간에 행동을 표현할 수 있는 장점을 가진 반응형 시스템과 최적화된 시퀀스를 생성할 수 있는 계획에 기반만 시스템을 통합하기 위한 하이브리드 시스템의 연구가 활발히 진행되고 있다. 행동 네트워크 구조는 센서와 목적에 대한 외부연결과 행동들 사이의 내부연결을 통해 수동적으로 설계되지만. 자동적으로 행동을 생성할 수 있고 복잡한 문제에 적용할 수 있는 장점이 있다. 본 논문에서는 이동 에이전트의 행동을 생성하기 위한 최적화된 방법을 찾는 문제에 대해 이 행동 네트워크에 계획 기능을 부가함으로 행동 시퀀스를 최적화하는 방법을 제안한다. 행동 네트워크는 입력된 정보와 목적 정보를 가지고 다음에 수행할 행동을 선택하여 각 상황에 가장 높은 우선순위를 가지는 행동만을 선택한다. 이 행동 네트워크에서 선택된 모든 행동들을 몇 단계 앞서 수행시켜 가장 좋은 결과를 가져올 행동으로 다음의 행동을 선택하는 방법을 통하여 복잡하고 불확실한 환경에서 주어진 목표를 달성하기 위한 전체적인 최적 행동 시퀀스를 생성할 수 있다. Khepera 이동 로봇을 이용한 실험을 통해 제안한 행동 네트워크에 계획을 이용한 방법이 행동 네트워크 구조에서보다 더 적은 행동 시퀀스로 목적을 달성함을 알 수 있었다.

  • PDF

Behavior Strategies of Robot Soccer Agent by Reinforcement Learning (강화 학습에 의한 로봇축구 에이전트 행동 전략)

  • Choe, So-Ra;Lee, Seung-Gwan;Lee, Young-Ah;Chung, Tae-Choong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.11a
    • /
    • pp.465-468
    • /
    • 2005
  • 강화 학습이란 개체가 동적인 환경에서 시행착오를 통해 자신의 최적 행동을 찾아내는 기법이다. 특히 Q-learning과 같은 비(非)모델 기반의 강화학습은 사전에 환경에 대한 모델을 필요로 하지 않으며, 다양한 상태와 행동들을 충분히 경험한다면 최적의 행동 전략에 도달할 수 있으므로 여러 분야에 적용되고 있다. 본 논문에서는 로봇의 행동을 효율적으로 제어하기 위하여 Q-learning을 이용하였다. 로봇 축구 시스템은 공과 여러 대의 로봇이 시시각각 움직이는 시변 환경이므로 모델링이 상당히 복잡하다. 공을 골대 가까이 보내는 것이 로봇 축구의 목표지만 때로는 공을 무조건 골대 방향으로 보내는 것보다 더 효율적인 전략이 있을 수도 있다. 어떤 상황에서 어떤 행동을 하여야 장기적으로 보았을 때 더 우수한지 학습을 통해 로봇 스스로가 판단해가도록 시스템을 구현하고, 학습된 결과를 분석한다.

  • PDF

퍼지-베이지안 방법에 대한 연구

  • Gye, Tae-Hwa;Son, Jung-Gwon
    • Proceedings of the Korean Statistical Society Conference
    • /
    • 2003.10a
    • /
    • pp.21-26
    • /
    • 2003
  • 퍼지-베이즈 의사 결정시에 사전 분포 함수와 멤버십 함수에 파라서 퍼지-베이즈 의사 결정이 얼마나 민감하게 반응하는지 알기 위하여 연구를 진행하였다. 두 가지 퍼지 조건과 행동에서 ${\theta}$ 의 사전 분포가 정규분포와 균등분포인 경우와 표본분포가 정규분포인 경우에 대하여 민감성을 조사했다.

  • PDF

The study on environmental adaptation and expansion of the intelligent agent (지능형 에이전트의 환경 적응성 및 확장성에 대한 연구)

  • 백혜정;박영택
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.136-138
    • /
    • 2003
  • 로봇이나 가상 캐릭터와 같은 지능형 에이전트가 자율적으로 살아가기 위해서는 주어진 환경을 인식하고, 그에 맞는 최적의 행동을 선택하는 능력을 가지고 있어야 한다. 본 논문은 이러한 지능형 에이전트를 구현하기 위하여, 외부 환경에 적응하면서 최적의 행동을 배우고 선택하는 방법을 연구하였다. 본 논문에서 제안한 방식은 강화 학습을 이용한 행동기반 학습 방법과 기호 학습을 이용한 인지 학습 방법을 통합한 방식으로 다음과 같은 특징을 가진다. 첫째, 외부 환경의 적응성을 수행하기 위하여 강화 학습을 이용하였으며. 이는 지능형 에이전트가 변화하는 환경에 대한 유연성을 가지도록 하였다. 둘째. 경험들에서 귀납적 기계학습과 연관 규칙을 이용하여 규칙을 추출하여 에이전트의 목적에 맞는 환경 요인을 학습함으로 주어진 환경에서 보다 빠르게, 확장된 환경에서 보다 효율적으로 행동을 선택을 하도록 하였다. 제안한 통합방식은 기존의 강화 학습만을 고려한 학습 알고리즘에 비하여 학습 속도를 향상 시킬수 있으며, 기호 학습만을 고려한 학습 알고리즘에 비하여 환경에 유연성을 가지고 행동을 적용할 수 있는 장점을 가진다.

  • PDF

Hybrid of Reinforcement Learning and Bayesian Inference for Effective Target Tracking of Reactive Agents (반응형 에이전트의 효과적인 물체 추적을 위한 베이지 안 추론과 강화학습의 결합)

  • 민현정;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10a
    • /
    • pp.94-96
    • /
    • 2004
  • 에이전트의 '물체 따라가기'는 전통적으로 자동운전이나 가이드 등의 다양한 서비스를 제공할 수 있는 기본적인 기능이다. 여러 가지 물체가 있는 환경에서 '물체 따라가기'를 하기 위해서는 목적하는 대상이 어디에 있는지 찾을 수 있어야 하며, 실제 환경에는 사람이나 차와 같이 움직이는 물체들이 존재하기 때문에 다른 물체들을 피할 수 있어야 한다. 그런데 에이전트의 최적화된 피하기 행동은 장애물의 모양과 크기에 따라 다르게 생성될 수 있다. 본 논문에서는 다양한 모양과 크기의 장애물이 있는 환경에서 최적의 피하기 행동을 생성하면서 물체를 추적하기 위해 반응형 에이전트의 행동선택을 강화학습 한다. 여기에서 정확하게 상태를 인식하기 위하여 상태를 추론하고 목표물과 일정거리를 유지하기 위해 베이지안 추론을 이용한다 베이지안 추론은 센서정보를 이용해 확률 테이블을 생성하고 가장 유력한 상황을 추론하는데 적합한 방법이고, 강화학습은 실시간으로 장애물 종류에 따른 상태에서 최적화된 행동을 생성하도록 평가함수를 제공하기 때문에 베이지안 추론과 강화학습의 결합모델로 장애물에 따른 최적의 피하기 행동을 생성할 수 있다. Webot을 이용한 시뮬레이션을 통하여 다양한 물체가 존재하는 환경에서 목적하는 대상을 따라가면서 이종의 움직이는 장애물을 최적화된 방법으로 피할 수 있음을 확인하였다.

  • PDF

Reinforcement Learning based Dynamic Positioning of Robot Soccer Agents (강화학습에 기초한 로봇 축구 에이전트의 동적 위치 결정)

  • 권기덕;김인철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.55-57
    • /
    • 2001
  • 강화학습은 한 에이전트가 자신이 놓여진 환경으로부터의 보상을 최대화할 수 있는 최적의 행동 전략을 학습하는 것이다. 따라서 강화학습은 입력(상태)과 출력(행동)의 쌍으로 명확한 훈련 예들이 제공되는 교사 학습과는 다르다. 특히 Q-학습과 같은 비 모델 기반(model-free)의 강화학습은 사전에 환경에 대한 별다른 모델을 설정하거나 학습할 필요가 없으며 다양한 상태와 행동들을 충분히 자주 경험할 수만 있으면 최적의 행동전략에 도달할 수 있어 다양한 응용분야에 적용되고 있다. 하지만 실제 응용분야에서 Q-학습과 같은 강화학습이 겪는 최대의 문제는 큰 상태 공간을 갖는 문제의 경우에는 적절한 시간 내에 각 상태와 행동들에 대한 최적의 Q값에 수렴할 수 없어 효과를 거두기 어렵다는 점이다. 이런 문제점을 고려하여 본 논문에서는 로봇 축구 시뮬레이션 환경에서 각 선수 에이전트의 동적 위치 결정을 위해 효과적인 새로운 Q-학습 방법을 제안한다. 이 방법은 원래 문제의 상태공간을 몇 개의 작은 모듈들로 나누고 이들의 개별적인 Q-학습 결과를 단순히 결합하는 종래의 모듈화 Q-학습(Modular Q-Learning)을 개선하여, 보상에 끼친 각 모듈의 기여도에 따라 모듈들의 학습결과를 적응적으로 결합하는 방법이다. 이와 같은 적응적 중재에 기초한 모듈화 Q-학습법(Adaptive Mediation based Modular Q-Learning, AMMQL)은 종래의 모듈화 Q-학습법의 장점과 마찬가지로 큰 상태공간의 문제를 해결할 수 있을 뿐 아니라 보다 동적인 환경변화에 유연하게 적응하여 새로운 행동 전략을 학습할 수 있다는 장점을 추가로 가질 수 있다. 이러한 특성을 지닌 AMMQL 학습법은 로봇축구와 같이 끊임없이 실시간적으로 변화가 일어나는 다중 에이전트 환경에서 특히 높은 효과를 볼 수 있다. 본 논문에서는 AMMQL 학습방법의 개념을 소개하고, 로봇축구 에이전트의 동적 위치 결정을 위한 학습에 어떻게 이 학습방법을 적용할 수 있는지 세부 설계를 제시한다.

  • PDF

The Psychological Structure and Characteristic of Hasteful Behaviors: Understanding the Relation between Hasteful Behaviors, Omission of Checking and Achievement Striving (서두름 행동의 심리적 구조 및 특성 파악: 서두름 행동, 확인생략행동, 성취욕구 간의 관계 이해)

  • Soon Chul Lee;Sun Jin Park
    • Korean Journal of Culture and Social Issue
    • /
    • v.14 no.2
    • /
    • pp.63-81
    • /
    • 2008
  • Hasteful behavior means choosing the best suited methods while behaving fast and quickly. We can't conclude whether hasteful behavior is totally bad or good. Striving for achievement of own certain purpose reflects achievement motivation or need for achievement. However, this striving also has potentiality of missing confirmation, therefore the potentiality may cause errors. The aim of this study is to investigate the psychological structure and characteristic of the hasteful behavior. One hundred ninety-one students conducted Hasteful Behavior Questionnaire, Achievement Motivation Measuring Scale, and NEO Personality Inventory. We analyzed data of 188 respondents, because of missing value. The result of factor analysis showed that hasteful behavior consisted of 5 factors- 「Uncomfortableness」, 「Time Pressure」, 「Isolation」, 「Boring Condition」, and 「Expecting Rewards」. According to correlations among the hasteful behavior factors and the relationship between hasteful behavior and achievement motivation, we found that hasteful behavior had two aspects, one was "Missing Confirmation(MC)" and the other was "Need for Achievement(NA)". We also found that 「Time Pressure」 was related to the both aspects. MC had a positive relation to Neuroticism, whereas MC correlated negatively with Conscientiousness. On the other hand, NA had a positive relationship with Extraversion and Achievement Striving.

  • PDF

A Study on the Estimation of Optimal Probability Distribution Function for Seafarers' Behavior Error (선원 행동오류에 대한 최적 확률분포함수 추정에 관한 연구)

  • Park, Deuk-Jin;Yang, Hyeong-Seon;Yim, Jeong-Bin
    • Journal of Navigation and Port Research
    • /
    • v.43 no.1
    • /
    • pp.1-8
    • /
    • 2019
  • Identifying behavioral errors of seafarers that have led to marine accidents is a basis for research into prevention or mitigation of marine accidents. The purpose of this study is to estimate the optimal probability distribution function needed to model behavioral errors of crew members into three behaviors (i.e., Skill-, Rule-, Knowledge-based). Through use of behavioral data obtained from previous accidents, we estimated the optimal probability distribution function for the three behavioral errors and verified the significance between the probability values derived from the probability distribution function. Maximum Likelihood Estimation (MLE) was applied to the probability distribution function estimation and variance analysis (ANOVA) used for the significance test. The obtained experimental results show that the probability distribution function with the smallest error can be estimated for each of the three behavioral errors for eight types of marine accidents. The statistical significance of the three behavioral errors for eight types of marine accidents calculated using the probability distribution function was observed. In addition, behavioral errors were also found to significantly affect marine accidents. The results of this study can be applied to predicting marine accidents caused by behavioral errors.

Empirical Analysis of Adversarial Learning Agents Using the RoboCup Keepaway Test-bed (로보컵 공 뺏기 테스트베드를 이용한 적대적 학습 에이전트들에 대한 실험적 분석)

  • Kwon, Ki-Duk;Kim, In-Cheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.11a
    • /
    • pp.15-18
    • /
    • 2006
  • 강화 학습은 시행착오를 통해 동적 환경과 상호작용하면서 학습을 수행하는 학습 방법으로 본 논문에서 테스트 환경으로 사용하는 Keepaway와 같은 동적인 환경에서 주로 사용하는 학습 방법이다. 본 논문에서는 학습을 통한 에이전트가 다른 정책을 사용하는 에이전트보다 성능이 더 높다는 것을 보이고자 한다. 학습 초기에는 다양한 전략을 평가하기 위해 최적이 아닌 행동을 선택하지만 시간이 지남에 따라 최적의 행동 선택에 수렴해 가는 것을 보이기 위한 실험을 수행한다. 이 실험을 통해 고정된 행동 양식을 가지는 정책보다 강화 학습을 이용한 에이전트들의 성능이 더 효과적인 것을 알 수 있었다.

  • PDF

Prey-predator Problem in the Reinforcement Learning of Autonomous Mobile Robots for Cooperative Behavior (협조행동을 위한 자율이동로봇의 강화학습에서의 먹이와 포식자 문제)

  • Kim, Seo-Kwang;Kim, Min-Soo;Yoon, Yong-Seock;Kong, Seong-Gon
    • Proceedings of the KIEE Conference
    • /
    • 2000.11d
    • /
    • pp.809-811
    • /
    • 2000
  • 협조행동이 요구되는 다수의 자율이동로봇 시스템에서 각 개체는 주변환경의 인식뿐만 아니라 지속적인 환경변화에 적응할 수 있는 고도의 추론능력을 요구하고 있다. 이에 본 논문에서는 강화학습을 이용하여 동적으로 변화하는 환경에서 스스로 학습하여 대처할 수 있는 협조행동 방법을 제시하였다. 강화학습은 동물의 학습방법 연구에서 비롯되었으며, 주어진 목표를 수행하는 과정에서 개체의 행동이 목표를 성취하도록 하였을 때는 그 행동에 보상을 주어 환경의 상태에 따른 최적의 행동방법을 찾아내도록 학습하는 방법이다. 따라서 본 논문에서는 포식자들이 협조행동을 통하여 능동적으로 움직이는 먹이를 잡는 까다로운 문제에 제안한 방법을 적용하여 그 성능을 검증하였다.

  • PDF