• 제목/요약/키워드: 행동 선택/학습

검색결과 137건 처리시간 0.027초

Q-learning과 Cascade SVM을 이용한 군집로봇의 행동학습 및 진화 (Behavior Learning and Evolution of Swarm Robot System using Q-learning and Cascade SVM)

  • 서상욱;양현창;심귀보
    • 한국지능시스템학회논문지
    • /
    • 제19권2호
    • /
    • pp.279-284
    • /
    • 2009
  • 군집 로봇시스템에서 개개의 로봇은 스스로 주위의 환경과 자신의 상태를 스스로 판단하여 행동하고, 필요에 따라서는 다른 로봇과 협조를 통하여 어떤 주어진 일을 수행할 수 있어야 한다. 따라서 개개의 로봇은 동적으로 변화하는 환경에 잘 적응할 수 있는 학습과 진화능력을 갖는 것이 필수적이다. 본 논문에서는 SVM을 여러 개 이용한 강화학습과 분산유전알고리즘을 이용한 새로운 자율이동로봇의 행동학습 및 진화학습을 제안한다. 또한 개개의 로봇이 통신을 통하여 염색체를 교환하는 분산유전알고리즘은 각기 다른 환경에서 학습한 우수한 염색체로부터 자신의 능력을 향상시킨다. 특히 본 논문에서는 진화의 성능을 향상시키기 위하여 Cascade SVM을 기반으로 한 강화학습의 특성을 이용한 선택 교배방법을 채택하였다.

군집 로봇의 협조 행동을 위한 로봇 개체의 행동학습과 진화 (Behavior Learning and Evolution of Individual Robot for Cooperative Behavior of Swarm Robot System)

  • 심귀보;이동욱
    • 한국지능시스템학회논문지
    • /
    • 제16권2호
    • /
    • pp.131-137
    • /
    • 2006
  • 군집 로봇시스템에서 개개의 로봇은 스스로 주위의 환경과 자신의 상태를 스스로 판단하여 행동하고, 필요에 따라서는 다른 로봇과 협조를 통하여 어떤 주어진 일을 수행할 수 있어야 한다. 따라서 개개의 로봇은 동적으로 변화하는 환경에 잘 적응할 수 있는 학습과 진화능력을 갖는 것이 필수적이다. 이를 위하여 본 논문에서는 지연된 보상능력이 있는 강화학습과 분산유전알고리즘을 이용한 새로운 자율이동로봇의 행동학습 및 진화방법을 제안한다. 지연 보상능력이 있는 강화학습은 로봇이 취한 행동에 대하여 즉각적인 보상을 가할 수 없는 경우에도 학습이 가능한 방법이다. 또한 개개의 로봇이 통신을 통하여 염색체를 교환하는 분산유전알고리즘은 각기 다른 환경에서 학습한 우수한 염색체로부터 자신의 능력을 향상시킨다. 특히 본 논문에서는 진화의 성능을 향상시키기 위하여 강화학습의 특성을 이용한 선택 교배방법을 채택하였다. 제안된 방법은 협조탐색 문제에 적용하여 컴퓨터 시뮬레이션을 통하여 그 유효성을 검증한다.

SVM을 이용한 군집로봇의 행동학습 및 진화 (Behavior Learning and Evolution of Swarm Robot System using Support Vector Machine)

  • 서상욱;양현창;심귀보
    • 한국지능시스템학회논문지
    • /
    • 제18권5호
    • /
    • pp.712-717
    • /
    • 2008
  • 군집 로봇시스템에서 개개의 로봇은 스스로 주위의 환경과 자신의 상태를 스스로 판단하여 행동하고, 필요에 따라서는 다른 로봇과 협조를 통하여 어떤 주어진 일을 수행할 수 있어야 한다. 따라서 개개의 로봇은 동적으로 변화하는 환경에 잘 적응할 수 있는 학습과 진화능력을 갖는 것이 필수적이다. 본 논문에서는 구조적 위험 최소화를 기반으로 한 SVM을 이용 한 강화학습과 분산유전알고리즘을 이용한 새로운 자율이동로봇의 행동학습 및 진화방법을 제안한다. 또한 개개의 로봇이 통신을 통하여 염색체를 교환하는 분산유전알고리즘은 각기 다른 환경에서 학습한 우수한 염색체로부터 자신의 능력을 향상시킨다. 특히 본 논문에서는 진화의 성능을 향상시키기 위하여 SVM을 기반으로 한 강화학습의 특성을 이용한 선택 교배 방법을 채택하였다.

물체 조작 정책의 효율적 습득을 위한 모방 학습과 강화 학습의 결합 (Combining Imitation Learning with Reinforcement Learning for Efficient Manipulation Policy Acquisition)

  • 정은진;이상준;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.759-762
    • /
    • 2018
  • 최근 들어 점차 지능형 서비스 로봇들이 인간의 실생활 속으로 들어옴에 따라, 로봇 스스로 다양한 물체들을 효과적으로 조작할 수 있는 지식을 습득하는 기계 학습 기술들이 매우 주목을 받고 있다. 전통적으로 로봇 행위 학습 분야에는 강화 학습 혹은 심층 강화 학습 기술들이 주로 많이 적용되어 왔으나, 이들은 대부분 물체 조작 작업과 같이 다차원 연속 상태 공간과 행동 공간에서 최적의 행동 정책을 학습하는데 여러가지 한계점을 가지고 있다. 따라서 본 논문에서는 전문가의 데모 데이터를 활용해 보다 효율적으로 물체 조작 행위들을 학습할 수 있는 모방 학습과 강화 학습의 통합 프레임워크를 제안한다. 이 통합 프레임워크는 학습의 효율성을 향상시키기 위해, 기존의 GAIL 학습 체계를 토대로 PPO 기반 강화 학습 단계의 도입, 보상 함수의 확장, 상태 유사도 기반 데모 선택 전략의 채용 등을 새롭게 시도한 것이다. 다양한 성능 비교 실험들을 통해, 본 논문에서 제안한 통합 학습 프레임워크인 PGAIL의 우수성을 확인할 수 있었다.

개미 집단 시스템에서 TD-오류를 이용한 강화학습 기법 (A Reinforcement Loaming Method using TD-Error in Ant Colony System)

  • 이승관;정태충
    • 정보처리학회논문지B
    • /
    • 제11B권1호
    • /
    • pp.77-82
    • /
    • 2004
  • 강화학습에서 temporal-credit 할당 문제 즉, 에이전트가 현재 상태에서 어떤 행동을 선택하여 상태전이를 하였을 때 에이전트가 선택한 행동에 대해 어떻게 보상(reward)할 것인가는 강화학습에서 중요한 과제라 할 수 있다. 본 논문에서는 조합최적화(hard combinational optimization) 문제를 해결하기 위한 새로운 메타 휴리스틱(meta heuristic) 방법으로, greedy search뿐만 아니라 긍정적 반응의 탐색을 사용한 모집단에 근거한 접근법으로 Traveling Salesman Problem(TSP)를 풀기 위해 제안된 Ant Colony System(ACS) Algorithms에 Q-학습을 적용한 기존의 Ant-Q 학습방범을 살펴보고 이 학습 기법에 다양화 전략을 통한 상태전이와 TD-오류를 적용한 학습방법인 Ant-TD 강화학습 방법을 제안한다. 제안한 강화학습은 기존의 ACS, Ant-Q학습보다 최적해에 더 빠르게 수렴할 수 있음을 실험을 통해 알 수 있었다.

동물 행동학 기반 행동 선택 메커니즘하에서의 교시 기반 행동 학습 방법 (Teaching-based Perception-Action Learning under an Ethology-based Action Selection Mechanism)

  • 문지섭;이상형;서일홍
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2008년도 하계종합학술대회
    • /
    • pp.1147-1148
    • /
    • 2008
  • In this paper, we propose action-learning method based on teaching. By adopting this method, we can handle an exception case which cannot be handled in an Ethology-based Action SElection mechanism. Our proposed method is verified by employing AIBO robot as well as EASE platform.

  • PDF

연속적인 전신 제스처에서 강인한 행동 적출 및 인식 (Robust Gesture Spotting and Recognition in Continuous Full Body Gesture)

  • 박아연;신호근;이성환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.898-900
    • /
    • 2005
  • 강인한 행동 인식을 하기 위해서는 연속적인 전신 제스처 입력에서부터 의미 있는 부분만을 분할하는 기술이 필요하다. 하지만 의미 없는 행동을 정의하고, 모델링 하기 어렵기 때문에, 연속적인 행동에서 중요한 행동만을 분할한다는 것은 어려운 문제이다. 본 논문에서는 연속적인 전신 행동의 입력으로부터 의미있는 부분을 분할하고, 동시에 인식하는 방법을 제안한다. 의미 없는 행동을 제거하고, 의미 있는 행동만을 적출하기 위해 garbage 모델을 제안한다. 이 garbage 모델에 의해 의미 있는 부분만 HMM의 입력으로 사용되어지며, 학습되어진 HMM 중에서 가장 높은 확률 값을 가지는 모델을 선택하여. 행동으로 인식한다. 제안된 방법은 20명의 3D motion capture data와 Principal Component Analysis를 이용하여 생성된 80개의 행동 데이터를 이용하여 평가하였으며, 의미 있는 행동과, 의미 없는 행동을 포함하는 연속적인 제스처 입력열에 대해 $98.3\%$의 인식률과 $94.8\%$의 적출률을 얻었다.

  • PDF

웹 기반 실천적 문제 해결 학습을 위한 교수$\cdot$학습 과정안 개발 -중학교 1학년 기술$\cdot$가정 과목 "청소년의 영양과 식사"단원을 중심으로- (The Development of Teaching Plans for Web-Based Practical Problem-Solving Lesson - focused on "Food nutrition and diet of adolescents" unit in Technology and Home Economics of middle school -)

  • 김해선;이혜숙;김영남
    • 한국가정과교육학회지
    • /
    • 제16권4호
    • /
    • pp.43-56
    • /
    • 2004
  • 본 연구는 제7차 교육과정에 의한 중학교 1학년 기술 $\cdot$ 가정과 $\ulcorner$청소년의 영양과 식사$\lrcorner$단원의 학습 효과를 높일 수 있는 웹 기반 실천적 문제 해결 학습을 위한 교수 $\cdot$학습 과정안을 개발하였다. 식생활 영역 관련 선행연구를 고찰한 후, 영양, 식품자원, 식품 선택의 3개의 영역에서 비만 음식쓰레기. 가공식품. 유전자조작식품. 수입식품의 5개 학습 주제를 선정하여 교수 $\cdot$ 학습 과정안과 학습 자료를 개발하였다. 웹 기반 실천적 문제 해결 학습을 위한 교수 $\cdot$ 학습 과정안은 문제인식. 정보수집 및 평가, 대안 및 최선의 행동 선택, 행동하기, 그리고 행동평가의 5단계로 구성되었다. 그리고 효과적인 수업을 위한 보조 학습자료로 개별 학습지, 협동학습지, 비만도 검사, 애니메이션, 관련 사진자료, 모듈을 개발하여 함께 제공하였다. 본 연구에서 개발한 교수 $\cdot$학습 과정안은 현장 수업에서 직접 활용이 가능하여 가정과 교사들에게 도움이 될 것으로 기대된다.

  • PDF

시각-언어 이동 에이전트를 위한 모방 학습과 강화 학습의 결합 (Combining Imitation Learning and Reinforcement Learning for Visual-Language Navigation Agents)

  • 오선택;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.559-562
    • /
    • 2020
  • 시각-언어 이동 문제는 시각 이해와 언어 이해 능력을 함께 요구하는 복합 지능 문제이다. 본 논문에서는 시각-언어 이동 에이전트를 위한 새로운 학습 모델을 제안한다. 이 모델은 데모 데이터에 기초한 모방 학습과 행동 보상에 기초한 강화 학습을 함께 결합한 복합 학습을 채택하고 있다. 따라서 이 모델은 데모 데이타에 편향될 수 있는 모방 학습의 문제와 상대적으로 낮은 데이터 효율성을 갖는 강화 학습의 문제를 상호 보완적으로 해소할 수 있다. 또한, 제안 모델은 서로 다른 두 학습 간에 발생 가능한 학습 불균형도 고려하여 손실 정규화를 포함하고 있다. 또, 제안 모델에서는 기존 연구들에서 사용되어온 목적지 기반 보상 함수의 문제점을 발견하고, 이를 해결하기 위해 설계된 새로은 최적 경로 기반 보상 함수를 이용한다. 본 논문에서는 Matterport3D 시뮬레이션 환경과 R2R 벤치마크 데이터 집합을 이용한 다양한 실들을 통해, 제안 모델의 높은 성능을 입증하였다.

지능형 에이전트의 모호한 목적을 처리하기 위한 FuzzyQ-Learning (FuzzyQ-Learning to Process the Vague Goals of Intelligent Agent)

  • 서호섭;윤소정;오경환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.271-273
    • /
    • 2000
  • 일반적으로, 지능형 에이전트는 사용자의 목적과 주위 환경으로부터 최적의 행동을 스스로 찾아낼 수 있어야 한다. 만약 에이전트의 목적이나 주위 환경이 불확실성을 포함하는 경우, 에이전트는 적절한 행동을 선택하기 어렵다. 그러나, 사용자의 목적이 인간 지식의 불확실성을 포함하는 언어값으로 표현되었을 경우, 이를 처리하려는 연구는 없었다. 본 논문에서는 모호한 사용자의 의도를 퍼지 목적으로 나타내고, 에이전트가 인지하는 불확실한 환경을 퍼지 상태로 표현하는 방법을 제안한다. 또, 퍼지 목적과 상태를 이용하여 확장한 펴지 강화 함수와를 이용하여, 기존 강화 학습 알고리즘 중 하나인 Q-Learning을 FuzzyQ-Learning으로 확장하고, 이에 대한 타당성을 검증한다.

  • PDF