• 제목/요약/키워드: 최적행동

검색결과 214건 처리시간 0.026초

에이전트의 최적 행동 생성을 위한 행동선택 네트워크의 계획 기능 (Planning Capability of Action Selection Network for Generating Optimal Behaviors of Agent)

  • 민현정;김경중;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.473-475
    • /
    • 2003
  • 최근 빠른 시간에 행동을 표현할 수 있는 장점을 가진 반응형 시스템과 최적화된 시퀀스를 생성할 수 있는 계획에 기반만 시스템을 통합하기 위한 하이브리드 시스템의 연구가 활발히 진행되고 있다. 행동 네트워크 구조는 센서와 목적에 대한 외부연결과 행동들 사이의 내부연결을 통해 수동적으로 설계되지만. 자동적으로 행동을 생성할 수 있고 복잡한 문제에 적용할 수 있는 장점이 있다. 본 논문에서는 이동 에이전트의 행동을 생성하기 위한 최적화된 방법을 찾는 문제에 대해 이 행동 네트워크에 계획 기능을 부가함으로 행동 시퀀스를 최적화하는 방법을 제안한다. 행동 네트워크는 입력된 정보와 목적 정보를 가지고 다음에 수행할 행동을 선택하여 각 상황에 가장 높은 우선순위를 가지는 행동만을 선택한다. 이 행동 네트워크에서 선택된 모든 행동들을 몇 단계 앞서 수행시켜 가장 좋은 결과를 가져올 행동으로 다음의 행동을 선택하는 방법을 통하여 복잡하고 불확실한 환경에서 주어진 목표를 달성하기 위한 전체적인 최적 행동 시퀀스를 생성할 수 있다. Khepera 이동 로봇을 이용한 실험을 통해 제안한 행동 네트워크에 계획을 이용한 방법이 행동 네트워크 구조에서보다 더 적은 행동 시퀀스로 목적을 달성함을 알 수 있었다.

  • PDF

강화 학습에 의한 로봇축구 에이전트 행동 전략 (Behavior Strategies of Robot Soccer Agent by Reinforcement Learning)

  • 최소라;이승관;이영아;정태충
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.465-468
    • /
    • 2005
  • 강화 학습이란 개체가 동적인 환경에서 시행착오를 통해 자신의 최적 행동을 찾아내는 기법이다. 특히 Q-learning과 같은 비(非)모델 기반의 강화학습은 사전에 환경에 대한 모델을 필요로 하지 않으며, 다양한 상태와 행동들을 충분히 경험한다면 최적의 행동 전략에 도달할 수 있으므로 여러 분야에 적용되고 있다. 본 논문에서는 로봇의 행동을 효율적으로 제어하기 위하여 Q-learning을 이용하였다. 로봇 축구 시스템은 공과 여러 대의 로봇이 시시각각 움직이는 시변 환경이므로 모델링이 상당히 복잡하다. 공을 골대 가까이 보내는 것이 로봇 축구의 목표지만 때로는 공을 무조건 골대 방향으로 보내는 것보다 더 효율적인 전략이 있을 수도 있다. 어떤 상황에서 어떤 행동을 하여야 장기적으로 보았을 때 더 우수한지 학습을 통해 로봇 스스로가 판단해가도록 시스템을 구현하고, 학습된 결과를 분석한다.

  • PDF

퍼지-베이지안 방법에 대한 연구

  • 계태화;손중권
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2003년도 추계 학술발표회 논문집
    • /
    • pp.21-26
    • /
    • 2003
  • 퍼지-베이즈 의사 결정시에 사전 분포 함수와 멤버십 함수에 파라서 퍼지-베이즈 의사 결정이 얼마나 민감하게 반응하는지 알기 위하여 연구를 진행하였다. 두 가지 퍼지 조건과 행동에서 ${\theta}$ 의 사전 분포가 정규분포와 균등분포인 경우와 표본분포가 정규분포인 경우에 대하여 민감성을 조사했다.

  • PDF

지능형 에이전트의 환경 적응성 및 확장성에 대한 연구 (The study on environmental adaptation and expansion of the intelligent agent)

  • 백혜정;박영택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.136-138
    • /
    • 2003
  • 로봇이나 가상 캐릭터와 같은 지능형 에이전트가 자율적으로 살아가기 위해서는 주어진 환경을 인식하고, 그에 맞는 최적의 행동을 선택하는 능력을 가지고 있어야 한다. 본 논문은 이러한 지능형 에이전트를 구현하기 위하여, 외부 환경에 적응하면서 최적의 행동을 배우고 선택하는 방법을 연구하였다. 본 논문에서 제안한 방식은 강화 학습을 이용한 행동기반 학습 방법과 기호 학습을 이용한 인지 학습 방법을 통합한 방식으로 다음과 같은 특징을 가진다. 첫째, 외부 환경의 적응성을 수행하기 위하여 강화 학습을 이용하였으며. 이는 지능형 에이전트가 변화하는 환경에 대한 유연성을 가지도록 하였다. 둘째. 경험들에서 귀납적 기계학습과 연관 규칙을 이용하여 규칙을 추출하여 에이전트의 목적에 맞는 환경 요인을 학습함으로 주어진 환경에서 보다 빠르게, 확장된 환경에서 보다 효율적으로 행동을 선택을 하도록 하였다. 제안한 통합방식은 기존의 강화 학습만을 고려한 학습 알고리즘에 비하여 학습 속도를 향상 시킬수 있으며, 기호 학습만을 고려한 학습 알고리즘에 비하여 환경에 유연성을 가지고 행동을 적용할 수 있는 장점을 가진다.

  • PDF

반응형 에이전트의 효과적인 물체 추적을 위한 베이지 안 추론과 강화학습의 결합 (Hybrid of Reinforcement Learning and Bayesian Inference for Effective Target Tracking of Reactive Agents)

  • 민현정;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.94-96
    • /
    • 2004
  • 에이전트의 '물체 따라가기'는 전통적으로 자동운전이나 가이드 등의 다양한 서비스를 제공할 수 있는 기본적인 기능이다. 여러 가지 물체가 있는 환경에서 '물체 따라가기'를 하기 위해서는 목적하는 대상이 어디에 있는지 찾을 수 있어야 하며, 실제 환경에는 사람이나 차와 같이 움직이는 물체들이 존재하기 때문에 다른 물체들을 피할 수 있어야 한다. 그런데 에이전트의 최적화된 피하기 행동은 장애물의 모양과 크기에 따라 다르게 생성될 수 있다. 본 논문에서는 다양한 모양과 크기의 장애물이 있는 환경에서 최적의 피하기 행동을 생성하면서 물체를 추적하기 위해 반응형 에이전트의 행동선택을 강화학습 한다. 여기에서 정확하게 상태를 인식하기 위하여 상태를 추론하고 목표물과 일정거리를 유지하기 위해 베이지안 추론을 이용한다 베이지안 추론은 센서정보를 이용해 확률 테이블을 생성하고 가장 유력한 상황을 추론하는데 적합한 방법이고, 강화학습은 실시간으로 장애물 종류에 따른 상태에서 최적화된 행동을 생성하도록 평가함수를 제공하기 때문에 베이지안 추론과 강화학습의 결합모델로 장애물에 따른 최적의 피하기 행동을 생성할 수 있다. Webot을 이용한 시뮬레이션을 통하여 다양한 물체가 존재하는 환경에서 목적하는 대상을 따라가면서 이종의 움직이는 장애물을 최적화된 방법으로 피할 수 있음을 확인하였다.

  • PDF

강화학습에 기초한 로봇 축구 에이전트의 동적 위치 결정 (Reinforcement Learning based Dynamic Positioning of Robot Soccer Agents)

  • 권기덕;김인철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.55-57
    • /
    • 2001
  • 강화학습은 한 에이전트가 자신이 놓여진 환경으로부터의 보상을 최대화할 수 있는 최적의 행동 전략을 학습하는 것이다. 따라서 강화학습은 입력(상태)과 출력(행동)의 쌍으로 명확한 훈련 예들이 제공되는 교사 학습과는 다르다. 특히 Q-학습과 같은 비 모델 기반(model-free)의 강화학습은 사전에 환경에 대한 별다른 모델을 설정하거나 학습할 필요가 없으며 다양한 상태와 행동들을 충분히 자주 경험할 수만 있으면 최적의 행동전략에 도달할 수 있어 다양한 응용분야에 적용되고 있다. 하지만 실제 응용분야에서 Q-학습과 같은 강화학습이 겪는 최대의 문제는 큰 상태 공간을 갖는 문제의 경우에는 적절한 시간 내에 각 상태와 행동들에 대한 최적의 Q값에 수렴할 수 없어 효과를 거두기 어렵다는 점이다. 이런 문제점을 고려하여 본 논문에서는 로봇 축구 시뮬레이션 환경에서 각 선수 에이전트의 동적 위치 결정을 위해 효과적인 새로운 Q-학습 방법을 제안한다. 이 방법은 원래 문제의 상태공간을 몇 개의 작은 모듈들로 나누고 이들의 개별적인 Q-학습 결과를 단순히 결합하는 종래의 모듈화 Q-학습(Modular Q-Learning)을 개선하여, 보상에 끼친 각 모듈의 기여도에 따라 모듈들의 학습결과를 적응적으로 결합하는 방법이다. 이와 같은 적응적 중재에 기초한 모듈화 Q-학습법(Adaptive Mediation based Modular Q-Learning, AMMQL)은 종래의 모듈화 Q-학습법의 장점과 마찬가지로 큰 상태공간의 문제를 해결할 수 있을 뿐 아니라 보다 동적인 환경변화에 유연하게 적응하여 새로운 행동 전략을 학습할 수 있다는 장점을 추가로 가질 수 있다. 이러한 특성을 지닌 AMMQL 학습법은 로봇축구와 같이 끊임없이 실시간적으로 변화가 일어나는 다중 에이전트 환경에서 특히 높은 효과를 볼 수 있다. 본 논문에서는 AMMQL 학습방법의 개념을 소개하고, 로봇축구 에이전트의 동적 위치 결정을 위한 학습에 어떻게 이 학습방법을 적용할 수 있는지 세부 설계를 제시한다.

  • PDF

서두름 행동의 심리적 구조 및 특성 파악: 서두름 행동, 확인생략행동, 성취욕구 간의 관계 이해 (The Psychological Structure and Characteristic of Hasteful Behaviors: Understanding the Relation between Hasteful Behaviors, Omission of Checking and Achievement Striving)

  • 이순철;박선진
    • 한국심리학회지 : 문화 및 사회문제
    • /
    • 제14권2호
    • /
    • pp.63-81
    • /
    • 2008
  • 서두름 행동은 행동의 속도를 높여 최적의 목표를 달성하는 것을 말한다. 따라서 현재 하고 있는 행동의 속도를 높이면서 목표달성을 위해 최적의 방법을 사용하는 특성을 가진다. 서두름 행동은 전적으로 좋다 혹은 나쁘다고 단정질 수 없으며, 자신의 목표를 빨리 달성하고자 하는 의지는 성취동기를 반영한다. 그러나 동시에 이러한 의지는 어떤 행동을 생략함으로써 오류행동을 발생시킬 수도 있다. 서두름 행동의 심리적 구조 및 그 특성을 살펴보고자 191명을 대상으로 서두름 행동 질문지와 성취동기척도, 성격 5요인 검사를 실시하였으며, 결측치가 많은 응답자를 제외한 188명의 자료를 분석하였다. 서두름 행동 문항을 분석한 결과, 서두름 행동은 불편함, 시간압력, 고립, 지루함, 보상기대라는 5개의 상황 요인 아래에서 발생하는 것으로 밝혀졌다. 서두름 행동을 구성하는 5요인들의 상관분석 및 서두름 행동과 성취동기의 관계를 분석한 결과, 서두름 행동은 크게 속도를 높임으로써 발생하는 '확인생략행동'과 자신의 과업을 잘하려고 하는 '성취욕구'로 이루어져 있었다. 그리고 서두름 행동을 구성하는 5요인 가운데 시간압력이 '확인생략행동'과 '성취욕구'에 공통으로 작용하고 있었다. 서두름 행동의 특성을 살펴보고자 서두름 행동의 2개 영역과 성격 5요인의 관계를 분석하였다. 그 결과, '확인생략행동'은 성격 5요인의 신경증과 정적 상관이 있는데 반해, 성실성과는 부적 상관이 있었다. 한편, '성취욕구'는 성격 5요인의 외향성과 정적 상관을 보였다.

  • PDF

선원 행동오류에 대한 최적 확률분포함수 추정에 관한 연구 (A Study on the Estimation of Optimal Probability Distribution Function for Seafarers' Behavior Error)

  • 박득진;양형선;임정빈
    • 한국항해항만학회지
    • /
    • 제43권1호
    • /
    • pp.1-8
    • /
    • 2019
  • 해양사고를 야기한 선원의 행동오류를 식별하는 것은 해양사고의 예방 또는 저감에 관한 연구의 기초가 된다. 본 연구의 목적은 선원들의 행동오류를 세 가지 행동(즉, Skill, Rule, Knowledge)으로 모델링하는데 필요한 최적의 확률분포함수를 추정하는데 있다. 본 저자들의 사전 연구에서 획득한 해양사고 종류별 행동오류 데이터를 이용하여 세 가지 행동오류에 최적인 확률분포함수를 추정하고, 확률분포함수에서 도출한 확률 값들 사이의 유의성을 검증하였다. 확률분포함수 추정에는 최우추정법(Maximum Likelihood Estimation, MLE)을 적용하고, 유의성 검증에는 분산분석(ANOVA)를 이용하였다. 실험결과 여덟 가지 해양사고 종류별 세 가지 행동으로 각각에 대해서 최소의 오차를 갖는 확률분포함수를 추정할 수 있었다. 이를 이용하여 계산한 여덟 가지의 해양사고 종류에 대한 세 가지 행동오류들의 확률 값들은 통계적인 유의성이 관측 되었다. 또한, 행동오류가 해양사고에 영향을 미치는 것으로 관측되었다.

로보컵 공 뺏기 테스트베드를 이용한 적대적 학습 에이전트들에 대한 실험적 분석 (Empirical Analysis of Adversarial Learning Agents Using the RoboCup Keepaway Test-bed)

  • 권기덕;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 추계학술발표대회
    • /
    • pp.15-18
    • /
    • 2006
  • 강화 학습은 시행착오를 통해 동적 환경과 상호작용하면서 학습을 수행하는 학습 방법으로 본 논문에서 테스트 환경으로 사용하는 Keepaway와 같은 동적인 환경에서 주로 사용하는 학습 방법이다. 본 논문에서는 학습을 통한 에이전트가 다른 정책을 사용하는 에이전트보다 성능이 더 높다는 것을 보이고자 한다. 학습 초기에는 다양한 전략을 평가하기 위해 최적이 아닌 행동을 선택하지만 시간이 지남에 따라 최적의 행동 선택에 수렴해 가는 것을 보이기 위한 실험을 수행한다. 이 실험을 통해 고정된 행동 양식을 가지는 정책보다 강화 학습을 이용한 에이전트들의 성능이 더 효과적인 것을 알 수 있었다.

  • PDF

협조행동을 위한 자율이동로봇의 강화학습에서의 먹이와 포식자 문제 (Prey-predator Problem in the Reinforcement Learning of Autonomous Mobile Robots for Cooperative Behavior)

  • 김서광;김민수;윤용석;공성곤
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2000년도 추계학술대회 논문집 학회본부 D
    • /
    • pp.809-811
    • /
    • 2000
  • 협조행동이 요구되는 다수의 자율이동로봇 시스템에서 각 개체는 주변환경의 인식뿐만 아니라 지속적인 환경변화에 적응할 수 있는 고도의 추론능력을 요구하고 있다. 이에 본 논문에서는 강화학습을 이용하여 동적으로 변화하는 환경에서 스스로 학습하여 대처할 수 있는 협조행동 방법을 제시하였다. 강화학습은 동물의 학습방법 연구에서 비롯되었으며, 주어진 목표를 수행하는 과정에서 개체의 행동이 목표를 성취하도록 하였을 때는 그 행동에 보상을 주어 환경의 상태에 따른 최적의 행동방법을 찾아내도록 학습하는 방법이다. 따라서 본 논문에서는 포식자들이 협조행동을 통하여 능동적으로 움직이는 먹이를 잡는 까다로운 문제에 제안한 방법을 적용하여 그 성능을 검증하였다.

  • PDF