• 제목/요약/키워드: Model based reinforcement learning

검색결과 150건 처리시간 0.026초

동적 환경에서 자율 이동 로봇군의 이동을 위한 신경 회로망 기반 인공 생명 모델 (An Artificial Life Model Based on Neural Networks for Navigation of Multiple Autonomous Mobile Robots in the Dynamic Environment)

  • 민석기;강훈
    • 제어로봇시스템학회논문지
    • /
    • 제5권2호
    • /
    • pp.180-188
    • /
    • 1999
  • The objective of this paper is, based upon the principles of artificial life, to induce emergent behaviors of multiple autonomous mobile robots which complex global intelligence form from simple local interactions. Here, we propose an architecture of neural network learning with reinforcement signals which perceives the neighborhood information and decides the direction and the velocity of movement as mobile robots navigate in a group. As the results of the simulations, the optimum weight is obtained in real time, which not only prevent the collisions between agents and obstacles in the dynamic environment, but also have the mobile robots move and keep in various patterns.

  • PDF

목표지향적 학습과 기억 (Goal-Directed Learning and Memory)

  • 신연순;한상훈
    • 감성과학
    • /
    • 제16권3호
    • /
    • pp.319-332
    • /
    • 2013
  • 그동안 학습과 기억이 과거의 경험에 의해 구성된다는 측면이 강조되어왔으나, 최근의 연구들은 이들 인지과정이 미래의 보상물을 최대화하는 목표를 달성하기 위해 이루어짐을 조명하였다. 본 개관 논문은 이와 관련된 연구를 소개하고 목표지향적 학습과 기억에 대하여 논의하고자 한다. 먼저 강화 학습에서 내적 모형 기반 학습, 즉 상위 차원의 목표를 달성하기 위해 즉각적인 보상을 가져오지 않음에도 불구하고 특정한 행동을 취하는 과정이 이루어지고, 또한 직접적 강화를 받지 않은 대상으로의 일반화 및 유추가 일어나 미래의 적응적 행동을 가져옴을 보여준 연구들을 소개한다. 또한 위와 같은 목표지향적 학습 과정의 신경학적 기제를 탐색한 연구들을 개관하고, 선조체의 도파민 신호를 기반으로 한 과정이 기억 과정에 역시 영향을 미칠 수 있음을 논의한다. 특히, 기억이 과거의 경험을 모두 동일한 수준으로 부호화하고 인출하는 과정이 아니라, 상위 수준의 목표에 맞춘 의사결정과정의 결과임을 보여주는 연구들을 소개한다. 이러한 연구들은 미래에 얻게 될 보상 정보가 역향적으로 현재의 인지처리에 영향을 줄 수 있음을 시사한다.

  • PDF

전술제대 결심수립 지원 인공지능 학습방법론 연구: 워게임 모델을 중심으로 (A Study of Artificial Intelligence Learning Model to Support Military Decision Making: Focused on the Wargame Model)

  • 김준성;김영수;박상철
    • 한국시뮬레이션학회논문지
    • /
    • 제30권3호
    • /
    • pp.1-9
    • /
    • 2021
  • 전장에 있는 지휘관과 참모들은 상황을 인식하고 그 결과를 바탕으로 지휘결심을 통해 군사 활동을 수행하는데, 최근 정보기술의 발달과 함께 지휘결심을 지원하는 인공지능에 대한 요구가 증가하였다. 인공지능을 활용하기 위해서는 강화학습에 필요한 학습 data set의 식별, 수집 그리고 전처리가 필수적이다. 그러나 전술 C4I 체계에 저장된 적 data는 정확성, 적시성, 충분성 측면에서 인공지능 학습 data로 사용하기에 적절하지 않기 때문에 학습 data를 수집하고 훈련 시킬 수 있는 대안이 필요하다. 본 논문에서는 육군의 워게임 훈련 모델인 '창조 21 모델 훈련 data'를 활용하여 인공지능을 학습시키는 방법론을 제시하였다. 연구 범위는 군사결심수립과정과 연계하여 인공지능의 역할과 범위를 구체화하고, 그 역할에 맞추어 인공지능을 훈련 시키기 위해 창조 21 모델 연습 data를 활용하는 모델을 제시하였다. 공개가 제한되는 군사자료의 특성을 고려하여 가상의 sample data를 제작하였고, 공개가 제한되는 대한민국 육군의 교리는 인터넷에서 수집 가능한 미군 교리를 활용하였다.

QoE 향상을 위한 Deep Q-Network 기반의 지능형 비디오 스트리밍 메커니즘 (An Intelligent Video Streaming Mechanism based on a Deep Q-Network for QoE Enhancement)

  • 김이슬;홍성준;정성욱;임경식
    • 한국멀티미디어학회논문지
    • /
    • 제21권2호
    • /
    • pp.188-198
    • /
    • 2018
  • With recent development of high-speed wide-area wireless networks and wide spread of highperformance wireless devices, the demand on seamless video streaming services in Long Term Evolution (LTE) network environments is ever increasing. To meet the demand and provide enhanced Quality of Experience (QoE) with mobile users, the Dynamic Adaptive Streaming over HTTP (DASH) has been actively studied to achieve QoE enhanced video streaming service in dynamic network environments. However, the existing DASH algorithm to select the quality of requesting video segments is based on a procedural algorithm so that it reveals a limitation to adapt its performance to dynamic network situations. To overcome this limitation this paper proposes a novel quality selection mechanism based on a Deep Q-Network (DQN) model, the DQN-based DASH ABR($DQN_{ABR}$) mechanism. The $DQN_{ABR}$ mechanism replaces the existing DASH ABR algorithm with an intelligent deep learning model which optimizes service quality to mobile users through reinforcement learning. Compared to the existing approaches, the experimental analysis shows that the proposed solution outperforms in terms of adapting to dynamic wireless network situations and improving QoE experience of end users.

웹 탐색 성능 향상을 위한 강화학습 이용과 기준 페이지 선택 기법 (The Use of Reinforcement Learning and The Reference Page Selection Method to improve Web Spidering Performance)

  • 이기철;이선애
    • 한국컴퓨터산업학회논문지
    • /
    • 제3권3호
    • /
    • pp.331-340
    • /
    • 2002
  • 웹의 세계는 하루가 다르게 확장되고 있다. 이에 따라, 지능형 정보추출 기능이 없다면 우리는 넘쳐나는 데이터 앞에서 더욱 무기력해 질 수밖에 없다. 범용 탐색 엔진을 위한 기존의 웹 검색 기법은 특정 영역이나 특정 키워드에만 집중해야하는 특정 검색 엔진에는 너무 느린 경향이 있다. 본 논문에서는 웹 검색 능력을 개선하는 새 모델을 제시하고 실험하였다. 특정 영역과 관련된 초기의 관련 웹 페이지 집합에서 적절한 웹 페이지들을 선택하는 문제는 웹 검색 속도를 향상시키기 위해 매우 중요할 수 있다. 기준 웹 페이지 선택 기법 DOPS는 선택된 웹 페이지들이 가능한 한 직교성을 갖도록 동적으로 웹 페이지를 선택한다. 또한 새로 정의된 메져를 이용하여 적합한 기준 페이지들의 수도 결정해줄 수 있다. 매우 특화된 영역에 대한 실험을 통해서도, 본 방법은 거의 전문가 수준에 가까이 동작하였다. 전문가들이 초대형 초기 페이지 집합에 대해 일할 수 없다는 점과 그들도 기준 페이지 수의 최적치를 결정하기에 어려움을 느낀 다는 점을 고려하면, 본 방법은 매우 유망하다 할 수 있다. 또한 웹 환경에 강화학습도 적용하도록 하였고, DOPS에 기반을 둔 강화학습 실험을 통해 본 방법이 하이퍼링크 수나 시간 면에서 매우 양호한 결과를 보임을 알 수 있었다.

  • PDF

Cost-based optimization of shear capacity in fiber reinforced concrete beams using machine learning

  • Nassif, Nadia;Al-Sadoon, Zaid A.;Hamad, Khaled;Altoubat, Salah
    • Structural Engineering and Mechanics
    • /
    • 제83권5호
    • /
    • pp.671-680
    • /
    • 2022
  • The shear capacity of beams is an essential parameter in designing beams carrying shear loads. Precise estimation of the ultimate shear capacity typically requires comprehensive calculation methods. For steel fiber reinforced concrete (SFRC) beams, traditional design methods may not accurately predict the interaction between different parameters affecting ultimate shear capacity. In this study, artificial neural network (ANN) modeling was utilized to predict the ultimate shear capacity of SFRC beams using ten input parameters. The results demonstrated that the ANN with 30 neurons had the best performance based on the values of root mean square error (RMSE) and coefficient of determination (R2) compared to other ANN models with different neurons. Analysis of the ANN model has shown that the clear shear span to depth ratio significantly affects the predicted ultimate shear capacity, followed by the reinforcement steel tensile strength and steel fiber tensile strength. Moreover, a Genetic Algorithm (GA) was used to optimize the ANN model's input parameters, resulting in the least cost for the SFRC beams. Results have shown that SFRC beams' cost increased with the clear span to depth ratio. Increasing the clear span to depth ratio has increased the depth, height, steel, and fiber ratio needed to support the SFRC beams against shear failures. This study approach is considered among the earliest in the field of SFRC.

그래디언트 부스팅을 활용한 암호화폐 가격동향 예측 (Prediction of Cryptocurrency Price Trend Using Gradient Boosting)

  • 허주성;권도형;김주봉;한연희;안채헌
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권10호
    • /
    • pp.387-396
    • /
    • 2018
  • 과거부터 주식시장의 주가 예측은 풀리지 않는 난제이다. 이를 과학적으로 예측하기 위해 다양한 시도 및 연구들이 있어왔지만 정확한 가격을 예측하는 것은 불가능하다. 최근 분산 원장이라는 개념을 기술적으로 구현한 최초의 암호화폐인 비트코인을 시작으로 다양한 종류의 암호화폐가 개발되면서 암호화폐 시장이 형성되었고, 그 가격을 예측하기 위해 다양한 접근들이 시도되고 있다. 특히, 기존의 전통적인 주식시장에서의 주가 예측 기법들을 적용하려는 시도부터 딥러닝과 강화학습을 적용하려는 시도까지 다양하다. 하지만 암호화폐 시장은 기존 주식 시장에는 없던 여러 가지 새로운 특징을 가지는 시장으로서 전통적인 주식 시장 분석 기술뿐만 아니라 암호화폐 시장에 적합한 새로운 분석 기술에 관한 수요가 증가하고 있는 상황이다. 본 연구에서는 우선 빗썸의 API를 통하여 7개의 암호화폐 가격 데이터를 수집 및 가공하였다. 이후, Data-Driven 방식의 지도학습 기반 기계학습 모델인 그래디언트 부스팅 모델을 채택하여 암호화폐 가격 데이터 변화를 학습하고, 검증단계에서 가장 최적의 모델 파라미터를 산출하고, 최종적으로 테스트 데이터를 활용하여 암호화폐 가격동향 예측 성능을 평가한다.

강화학습과 감정모델 기반의 지능적인 가상 캐릭터의 구현 (Implementation of Intel1igent Virtual Character Based on Reinforcement Learning and Emotion Model)

  • 우종하;박정은;오경환
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2005년도 추계학술대회 학술발표 논문집 제15권 제2호
    • /
    • pp.431-435
    • /
    • 2005
  • 학습과 감정은 지능형 시스템을 구현하는데 있어 가장 중요한 요소이다. 본 논문에서는 강화학습을 이용하여 사용자와 상호작용을 하면서 학습을 수행하고 내부적인 감정모델을 가지고 있는 지능적인 가상 캐릭터를 구현하였다. 가상 캐릭터는 여러 가지 사물들로 이루어진 3D의 가상 환경 내에서 내부상태에 의해 자율적으로 동작하며, 또한 사용자는 가상 캐릭터에게 반복적인 명령을 통해 원하는 행동을 학습시킬 수 있다. 이러한 명령은 인공신경망을 사용하여 마우스의 제스처를 인식하여 수행할 수 있고 감정의 표현을 위해 Emotion-Mood-Personality 모델을 새로 제안하였다. 그리고 실험을 통해 사용자와 상호작용을 통한 감정의 변화를 살펴보았고 가상 캐릭터의 훈련에 따른 학습이 올바르게 수행되는 것을 확인하였다.

  • PDF

로봇을 위한 인공 두뇌 개발 (Artificial Brain for Robots)

  • 이규빈;권동수
    • 로봇학회논문지
    • /
    • 제1권2호
    • /
    • pp.163-171
    • /
    • 2006
  • This paper introduces the research progress on the artificial brain in the Telerobotics and Control Laboratory at KAIST. This series of studies is based on the assumption that it will be possible to develop an artificial intelligence by copying the mechanisms of the animal brain. Two important brain mechanisms are considered: spike-timing dependent plasticity and dopaminergic plasticity. Each mechanism is implemented in two coding paradigms: spike-codes and rate-codes. Spike-timing dependent plasticity is essential for self-organization in the brain. Dopamine neurons deliver reward signals and modify the synaptic efficacies in order to maximize the predicted reward. This paper addresses how artificial intelligence can emerge by the synergy between self-organization and reinforcement learning. For implementation issues, the rate codes of the brain mechanisms are developed to calculate the neuron dynamics efficiently.

  • PDF

효율적인 멀티 에이전트 강화학습을 위한 RBFN 기반 정책 모델 (RBFN-based Policy Model for Efficient Multiagent Reinforcement Learning)

  • 권기덕;김인철
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2007년도 추계학술대회
    • /
    • pp.294-302
    • /
    • 2007
  • 멀티 에이전트 강화학습에서 중요한 이슈 중의 하나는 자신의 성능에 영향을 미칠 수 있는 다른 에이전트들이 존재하는 동적 환경에서 어떻게 최적의 행동 정책을 학습하느냐 하는 것이다. 멀티 에이전트 강화 학습을 위한 기존 연구들은 대부분 단일 에이전트 강화 학습기법들을 큰 변화 없이 그대로 적용하거나 비록 다른 에이전트에 관한 별도의 모델을 이용하더라도 현실적이지 못한 가정들을 요구한다. 본 논문에서는 상대 에이전트에 대한RBFN기반의 행동 정책 모델을 소개한 뒤, 이것을 이용한 강화 학습 방법을 설명한다. 본 논문에서는 제안하는 멀티 에이전트 강화학습 방법은 기존의 멀티 에이전트 강화 학습 연구들과는 달리 상대 에이전트의 Q 평가 함수 모델이 아니라 RBFN 기반의 행동 정책 모델을 학습한다. 또한, 표현력은 풍부하나 학습에 시간과 노력이 많이 요구되는 유한 상태 오토마타나 마코프 체인과 같은 행동 정책 모델들에 비해 비교적 간단한 형태의 행동 정책 모델을 이용함으로써 학습의 효율성을 높였다. 본 논문에서는 대표적이 절대적 멀티 에이전트 환경인 고양이와 쥐 게임을 소개한 뒤, 이 게임을 테스트 베드 삼아 실험들을 전개함으로써 제안하는 RBFN 기반의 정책 모델의 효과를 분석해본다.

  • PDF