• 제목/요약/키워드: 최적행동

검색결과 215건 처리시간 0.022초

시간 제약적인 환경에서 컴파일 기법을 사용한 실질적이며 유연한 의사결정 방법 (Practical and Flexible Decision-Making Using Compilation in Time-Critical Environments)

  • 노상욱
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권12호
    • /
    • pp.1220-1227
    • /
    • 2003
  • 여러 에이전트가 존재하는(multiagent) 환경에서 자율적인 에이전트들은 복잡하고 불확실한 환경뿐만 아니라 다른 에이전트들도 고려하여 자신의 결정을 수행하여야 하기 때문에 제한된 시간 내에 의사결정(decision-making)을 완료한다는 것은 실질적으로 불가능하다. 이러한 문제점을 극복하고 긴급한 상황에서 최적의 행동을 수행하기 위하여 자율적인 에이전트들에게 다양하고 유연한 의사결정 방법들을 제공한다. 이 방법들은 의사결정의 질적인 수준과 의사결정 소요시간을 고려하여 실질적인 에이전트의 의사결정을 가능하도록 한다. 유연한 의사결정 방법의 하나로 컴파일된 규칙의 사용을 제안하며, 자율적인 에이전트는 복잡한 실시간 환경에서 가능한 행동의 범위를 제한하기 위하여 조건-행동 규칙을 사용한다. 지대공 방어 환경에서 주어진 상황의 긴박한 정도에 따라 이에 적절한 행동을 자율적으로 수행하는 유연한 에이전트를 실험적으로 보인다.

괴롭힘 가해자의 환경적 요인, 괴롭힘 행동유형, 가해자의 심리.행동적 결과에 대한 연구 (Environmental Factors, Types of Bullying Behavior, and Psychological and Behavioral Outcomes for the Bullies)

  • 이명신
    • 한국사회복지학
    • /
    • 제51권
    • /
    • pp.29-61
    • /
    • 2002
  • 청소년들의 괴롭힘행동에 영향을 미치는 요인 및 괴롭힘 행동으로 인해 가해자에게 나타나는 결과를 조사하고자, 괴롭힘 가해자의 환경적 요인(부모와의 갈등, 부모의 지지결여, 교사의 지지결여, 친구로부터의 소외, 따돌림 및 괴롭힘에의 노출정도), 괴롭힘 행동의 유형(따돌림, 사회적, 언어적, 신체적, 도구적 괴롭힘)과 괴롭힘 행동으로 인해 가해자에게 나타나는 결과(쾌감, 죄책감, 피해자에 대한 비난적 태도, 자아존중감, 괴롭힘 행동의 정도)간의 상호작용을 조사할 수 있는 포괄적인 연구모델을 개발하였다. 본 연구에서 개발된 모델은 괴롭힘 가해의 경험이 있는 177명의 학생들로부터 수직된 설문조사 자료를 통하여 검증되었다. 경로분석(path analysis)을 사용하여 변인들간의 구조관계를 설명할 수 있는 최적의 이론구조모델이 선정되었다.(df=78, chi-square=57.266, RMSR=0.0514, GFI=0.953, CFI=1.00). 자료분석 결과, 의미 있는 인간관계(부모, 친구)에서 지지를 받지 못하거나 갈등을 경험할 때, 지속적으로 공격적 행동에 노출되어 있을 때 괴롭힘행동이 증가하는 것으로 나타났다. 부모의 지지결여 정도가 높을수록 사회적 괴롭힘과 신체적 괴롭힘이 증가되며, 부모와의 갈등이 클수록 언어적 괴롭힘과 도구적 괴롭힘이 증가되는 것으로 나타났다. 친구로부터 소외된다고 느낄수록 따돌림행동이 감소되는 것으로 나타났다. 아울러, 따돌림에의 노출정도가 클수록 신체적 괴롭힘이 증가되며, 괴롭힘에의 노출정도가 클수록 따돌림, 신체적 괴롭힘과 사회적 괴롭힘이 증가되는 것으로 나타났다. 한편, 괴롭힘 행동유형에 따라 가해자에게 나타나는 결과를 살펴볼 때, 따돌림은 가해자의 쾌감을 증대시키는 반면, 죄책감을 감소시키고, 피해자에 대한 비난적 태도를 증가시키는 것으로 나타났다. 언어적 괴롭힘과 신체적 괴롭힘은 쾌감을 증가시킨 반면, 도구적 괴롭힘은 쾌감을 감소시키는 것으로 나타났다. 신체적 괴롭힘은 죄책감을 증대시킨 반면, 도구적 괴롭힘은 죄책감을 감소시키는 것으로 나타났다. 아울러, 따돌림과 도구적 괴롭힘은 자아존중감을 증대시키는 반면, 사회적 괴롭힘은 자아존중감을 감소시키는 것으로 나타났다. 한편, 언어적 괴롭힘은 괴롭힘 행동의 정도를 증대시킨 반면, 도구적 괴롭힘은 괴롭힘행동 정도를 감소시키는 것으로 나타났다. 환경적 요인 중에서 부코의 지지결여와 친구로부터의 소외는 가해자의 자아존중감을 감소시키며, 부모의 지지결여는 가해자의 죄책감을 감소시키는 것으로 나타났다. 아울러, 따돌림과 괴롭힘에 노출되는 정도가 클수록 괴롭힘 행동의 정도가 증대되는 것으로 나타났다. 본 연구 결과를 바탕으로, 개인적 차원에서 가해자의 감정 및 태도의 변화를 위한 개입방안, 의미 있는 인간관계 개선 및 사회적지지 증진을 위한 대인관계 개선방안, 괴롭힘행동의 감소 및 예방을 위해 학교환경을 총체적으로 재조직하기 위해 필요한 다양한 개입전략이 제시되었다.

  • PDF

함수근사와 규칙추출을 위한 클러스터링을 이용한 강화학습 (Reinforcement Learning with Clustering for Function Approximation and Rule Extraction)

  • 이영아;홍석미;정태충
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권11호
    • /
    • pp.1054-1061
    • /
    • 2003
  • 강화학습의 대표적인 알고리즘인 Q-Learning은 상태공간의 모든 상태-행동 쌍(state-action pairs)의 평가값이 수렴할 때까지 반복해서 경험하여 최적의 전략(policy)을 얻는다. 상태공간을 구성하는 요소(feature)들이 많거나 요소의 데이타 형태가 연속형(continuous)인 경우, 상태공간은 지수적으로 증가하게 되어, 모든 상태들을 반복해서 경험해야 하고 모든 상태-행동 쌍의 Q값을 저장하는 것은 시간과 메모리에 있어서 어려운 문제이다. 본 논문에서는 온라인으로 학습을 진행하면서 비슷한 상황의 상태들을 클러스터링(clustering)하고 새로운 경험에 적응해서 클러스터(cluster)의 수정(update)을 반복하여, 분류된 최적의 전략(policy)을 얻는 새로운 함수근사(function approximation)방법인 Q-Map을 소개한다. 클러스터링으로 인해 정교한 제어가 필요한 상태(state)는 규칙(rule)으로 추출하여 보완하였다. 미로환경과 마운틴 카 문제를 제안한 Q-Map으로 실험한 결과 분류된 지식을 얻을 수 있었으며 가시화된(explicit) 지식의 형태인 규칙(rule)으로도 쉽게 변환할 수 있었다.

기지국 상태 조정을 위한 강화 학습 기법 분석 (Analysis of Reinforcement Learning Methods for BS Switching Operation)

  • 박혜빈;임유진
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제8권2호
    • /
    • pp.351-358
    • /
    • 2018
  • 강화 학습은 변화하는 환경에서의 최적의 보상을 얻을 수 있는 행동을 결정하기 위한 정책을 얻는 기계 학습 기법이다. 하지만 기존에 연구되어 온 강화 학습은 불확실하고 연속적인 실제 환경에서 최적의 행동을 얻기 위해 발생되는 높은 계산 복잡도 문제와 학습된 결과를 얻기 위해서는 많은 시간이 소요 된다는 문제점을 가지고 있다. 앞에서 언급한 문제를 해결하기 위해, 높은 계산 복잡도 문제를 해결을 위해서는 강화 학습을 구성하는 가치 함수와 정책을 독립적으로 구성하는 AC(actor-critic) 기법이 제안되었다. 그리고 빠른 학습 결과를 얻기 위해 기 학습된 지식을 새로운 환경에서 이용하여 기존 학습보다 빠르게 학습 결과를 얻을 수 있는 전이 학습(transfer learning) 기법이 제안되었다. 본 논문에서는 기존에 연구되어 왔던 기계 학습 기법의 향상 기법인 AC 기법과 전이 학습 기법에 대해 소개하고, 이를 무선 액세스 네트워크 환경에서 기지국 상태 조정을 위해 적용되고 있는 사례를 소개한다.

강화학습을 사용한 실시간 이동 물체 추적에 관한 연구 (A Study of Real Time Object Tracking using Reinforcement Learning)

  • 김상헌;이동명;정재영;운학수;박민욱;김관형
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 추계 학술대회 학술발표 논문집
    • /
    • pp.87-90
    • /
    • 2003
  • 과거의 이동로봇 시스템은 완전한 자율주행이 주된 목표였으며 그때의 영상정보는 단지 모니터링을 하는 보조적인 수단으로 사용되었다. 그러나 지금은 이동 물체의 추적, 대상 물체의 인식과 판별, 특징 추출과 같은 다양한 응용분야에서 영상정보를 이용하는 연구가 활발히 진행되고 있다 또한 제어 측면에서는 전통적인 제어기법으로는 해결하기 힘들었던 여러 가지 비선형적인 제어를 지능제어 방법을 통하여 많이 해결하곤 하였다. 그러한 지능제어에서 신경망을 많이 사용하기도 한다. 최근에는 신경망의 학습에 많이 사용하는 방법 중 강화학습이 많이 사용되고 있다. 강화학습이란 동적인 제어평면에서 시행착오를 통해, 목적을 이루기 위해 각 상황에서 행동을 학습하는 방법이다. 그러므로 이러한 강화학습은 수많은 시행착오를 거쳐 그 대응 관계를 학습하게 된다. 제어에 사용되는 제어 파라메타는 어떠한 상태에 처할 수 있는 상태와 행동들, 그리고 상태의 변화, 또한 최적의 해를 구할 수 있는 포상알고리즘에 대해 다양하게 연구되고 있다. 본 논문에서 연구한 시스템은 비젼시스템과 Strong Arm 보드를 이용하여 대상물체의 색상과 형태를 파악한 후 실시간으로 물체를 추적할 수 있게 구성하였으며, 또한 물체 이동의 비선형적인 경향성을 강화학습을 통하여 물체이동의 비선형성을 보다 유연하게 대처하여 보다 안정하고 빠르며 정확하게 물체를 추적하는 방법을 실험을 통하여 제안하였다.

  • PDF

시공간 온톨로지를 이용한 능동 마이닝 프레임워크 설계 (An Active Mining Framework Design using Spatial-Temporal Ontology)

  • 황정희;노시춘
    • 한국산학기술학회논문지
    • /
    • 제11권9호
    • /
    • pp.3524-3531
    • /
    • 2010
  • 유비쿼터스 컴퓨팅 환경에서 사용자에게 최적의 서비스를 제공하기 위해서는 객체 그리고 사용자의 행위와 밀접한 연관이 있는 시공간 정보를 고려하는 것이 중요하다. 이를 위해 이 논문에서는 사용자의 상황을 고려하기 위한 시공간 온톨로지를 설계하고 이를 이용하여 사용자의 행동 및 서비스 패턴을 능동적으로 마이닝할 수 있는 시스템 구조를 제안한다. 제안된 시스템은 사용자의 시간에 따른 위치 및 객체와의 연관성을 고려하여 사용자의 행동과 서비스 패턴을 지능적으로 마이닝 하기 위한 프레임워크이고 트리거 시스템을 기반으로 한다.

초.중등 학생의 독서 플로우 성향과 요인 분석에 관한 연구 (An Analysis on the Affecting Factors, Reading Disposition of Reading Flow of Elementary and Second Students)

  • 이병기
    • 한국도서관정보학회지
    • /
    • 제41권4호
    • /
    • pp.51-72
    • /
    • 2010
  • 플로우는 칙센트미하이가 처음 사용한 용어로 특정 활동이나 행동에 완전히 몰두할 때 느끼는 최적의 경험 상태를 말한다. 기존의 연구 결과에 의하면 플로우 현상은 암벽 등반, 예술 활동, 댄스, 모터사이클, 생산적 업무 등 많은 행동을 통해서 체험할 수 있으나 독서를 통해서 가장 많은 사람들이 공통적으로 플로우를 경험하는 것으로 알려져 있다. 이에 본 연구에서는 우리나라 초.중등학생들의 독서 플로우에 대한 성향을 파악하고, 독서 플로우에 미치는 요인을 분석하였다. 본 연구에 사용한 설문지는 독서자료, 독서목적, 독서방법 등 6개 영역의 36개 항목으로 구성하였고, 40개 초.중등학교로부터 1,836명의 학생이 참여하였다. 수집한 데이터는 SPSS18을 사용하여 카이자승, 교차분석, 요인분석을 실시하였다.

  • PDF

오스뮴-쿠페론의 전기화학적 행동 및 응용 (Electrochemical behavior and Application of Osmium-Cupferron Complex)

  • 권영순;정미영
    • 분석과학
    • /
    • 제16권3호
    • /
    • pp.198-205
    • /
    • 2003
  • 쿠페론은 nitrosophenylhydroxylamine의 ammonium salt로서 흡착촉매 벗김법 (AdCtSV)에서 리간드의 역할을 하고 동시에 촉매 역할을 한다고 알려져 있다. 순환 전압전류법을 이용하여, 1 mM 인산염 완충용액에서 오스뮴-쿠페론 착물의 전기화학적 행동을 살펴보았다. 오스뮴 정량의 최적 조건은 1 mM 인산염 완충용액 (pH 6.0), 0.1 mM 쿠페론의 용액에서 주사속도는 100 mV/s 이었다. 이 조건에서 농도 변화에 따른 선형 주사 전압곡선의 환원 봉우리 전류변화를 이용하여 얻은 오스뮴의 검출 한계 ($3{\sigma}$)는 $1.0{\times}10^{-7}M$이다.

물체 조작 정책의 효율적 습득을 위한 모방 학습과 강화 학습의 결합 (Combining Imitation Learning with Reinforcement Learning for Efficient Manipulation Policy Acquisition)

  • 정은진;이상준;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.759-762
    • /
    • 2018
  • 최근 들어 점차 지능형 서비스 로봇들이 인간의 실생활 속으로 들어옴에 따라, 로봇 스스로 다양한 물체들을 효과적으로 조작할 수 있는 지식을 습득하는 기계 학습 기술들이 매우 주목을 받고 있다. 전통적으로 로봇 행위 학습 분야에는 강화 학습 혹은 심층 강화 학습 기술들이 주로 많이 적용되어 왔으나, 이들은 대부분 물체 조작 작업과 같이 다차원 연속 상태 공간과 행동 공간에서 최적의 행동 정책을 학습하는데 여러가지 한계점을 가지고 있다. 따라서 본 논문에서는 전문가의 데모 데이터를 활용해 보다 효율적으로 물체 조작 행위들을 학습할 수 있는 모방 학습과 강화 학습의 통합 프레임워크를 제안한다. 이 통합 프레임워크는 학습의 효율성을 향상시키기 위해, 기존의 GAIL 학습 체계를 토대로 PPO 기반 강화 학습 단계의 도입, 보상 함수의 확장, 상태 유사도 기반 데모 선택 전략의 채용 등을 새롭게 시도한 것이다. 다양한 성능 비교 실험들을 통해, 본 논문에서 제안한 통합 학습 프레임워크인 PGAIL의 우수성을 확인할 수 있었다.

강화 학습에 기초한 로봇 축구 에이전트의 설계 및 구현 (Design and implementation of Robot Soccer Agent Based on Reinforcement Learning)

  • 김인철
    • 정보처리학회논문지B
    • /
    • 제9B권2호
    • /
    • pp.139-146
    • /
    • 2002
  • 로봇 축구 시뮬레이션 게임은 하나의 동적 다중 에이전트 환경이다. 본 논문에서는 그러한 환경 하에서 각 에이전트의 동적 위치 결정을 위한 새로운 강화학습 방법을 제안한다. 강화학습은 한 에이전트가 환경으로부터 받는 간접적 지연 보상을 기초로 누적 보상값을 최대화할 수 있는 최적의 행동 전략을 학습하는 기계학습 방법이다. 따라서 강화학습은 입력-출력 쌍들이 훈련 예로 직접 제공되지 않는 다는 점에서 교사학습과 크게 다르다. 더욱이 Q-학습과 같은 비-모델 기반의 강화학습 알고리즘들은 주변 환경에 대한 어떤 모델도 학습하거나 미리 정의하는 것을 요구하지 않는다. 그럼에도 불구하고 이 알고리즘들은 에이전트가 모든 상태-행동 쌍들을 충분히 반복 경험할 수 있다면 최적의 행동전략에 수렴할 수 있다. 하지만 단순한 강화학습 방법들의 가장 큰 문제점은 너무 큰 상태 공간 때문에 보다 복잡한 환경들에 그대로 적용하기 어렵다는 것이다. 이런 문제점을 해결하기 위해 본 연구에서는 기존의 모듈화 Q-학습방법(MQL)을 개선한 적응적 중재에 기초한 모듈화 Q-학습 방법(AMMQL)을 제안한다. 종래의 단순한 모듈화 Q-학습 방법에서는 각 학습 모듈들의 결과를 결합하는 방식이 매우 단순하고 고정적이었으나 AMMQL학습 방법에서는 보상에 끼친 각 모듈의 기여도에 따라 모듈들에 서로 다른 가중치를 부여함으로써 보다 유연한 방식으로 각 모듈의 학습결과를 결합한다. 따라서 AMMQL 학습 방법은 큰 상태공간의 문제를 해결할 수 있을 뿐 아니라 동적인 환경변화에 보다 높은 적응성을 제공할 수 있다. 본 논문에서는 로봇 축구 에이전트의 동적 위치 결정을 위한 학습 방법으로 AMMQL 학습 방법을 사용하였고 이를 기초로 Cogitoniks 축구 에이전트 시스템을 구현하였다.