• 제목/요약/키워드: Model based reinforcement learning

검색결과 155건 처리시간 0.027초

Cost-based optimization of shear capacity in fiber reinforced concrete beams using machine learning

  • Nassif, Nadia;Al-Sadoon, Zaid A.;Hamad, Khaled;Altoubat, Salah
    • Structural Engineering and Mechanics
    • /
    • 제83권5호
    • /
    • pp.671-680
    • /
    • 2022
  • The shear capacity of beams is an essential parameter in designing beams carrying shear loads. Precise estimation of the ultimate shear capacity typically requires comprehensive calculation methods. For steel fiber reinforced concrete (SFRC) beams, traditional design methods may not accurately predict the interaction between different parameters affecting ultimate shear capacity. In this study, artificial neural network (ANN) modeling was utilized to predict the ultimate shear capacity of SFRC beams using ten input parameters. The results demonstrated that the ANN with 30 neurons had the best performance based on the values of root mean square error (RMSE) and coefficient of determination (R2) compared to other ANN models with different neurons. Analysis of the ANN model has shown that the clear shear span to depth ratio significantly affects the predicted ultimate shear capacity, followed by the reinforcement steel tensile strength and steel fiber tensile strength. Moreover, a Genetic Algorithm (GA) was used to optimize the ANN model's input parameters, resulting in the least cost for the SFRC beams. Results have shown that SFRC beams' cost increased with the clear span to depth ratio. Increasing the clear span to depth ratio has increased the depth, height, steel, and fiber ratio needed to support the SFRC beams against shear failures. This study approach is considered among the earliest in the field of SFRC.

그래디언트 부스팅을 활용한 암호화폐 가격동향 예측 (Prediction of Cryptocurrency Price Trend Using Gradient Boosting)

  • 허주성;권도형;김주봉;한연희;안채헌
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권10호
    • /
    • pp.387-396
    • /
    • 2018
  • 과거부터 주식시장의 주가 예측은 풀리지 않는 난제이다. 이를 과학적으로 예측하기 위해 다양한 시도 및 연구들이 있어왔지만 정확한 가격을 예측하는 것은 불가능하다. 최근 분산 원장이라는 개념을 기술적으로 구현한 최초의 암호화폐인 비트코인을 시작으로 다양한 종류의 암호화폐가 개발되면서 암호화폐 시장이 형성되었고, 그 가격을 예측하기 위해 다양한 접근들이 시도되고 있다. 특히, 기존의 전통적인 주식시장에서의 주가 예측 기법들을 적용하려는 시도부터 딥러닝과 강화학습을 적용하려는 시도까지 다양하다. 하지만 암호화폐 시장은 기존 주식 시장에는 없던 여러 가지 새로운 특징을 가지는 시장으로서 전통적인 주식 시장 분석 기술뿐만 아니라 암호화폐 시장에 적합한 새로운 분석 기술에 관한 수요가 증가하고 있는 상황이다. 본 연구에서는 우선 빗썸의 API를 통하여 7개의 암호화폐 가격 데이터를 수집 및 가공하였다. 이후, Data-Driven 방식의 지도학습 기반 기계학습 모델인 그래디언트 부스팅 모델을 채택하여 암호화폐 가격 데이터 변화를 학습하고, 검증단계에서 가장 최적의 모델 파라미터를 산출하고, 최종적으로 테스트 데이터를 활용하여 암호화폐 가격동향 예측 성능을 평가한다.

강화학습과 감정모델 기반의 지능적인 가상 캐릭터의 구현 (Implementation of Intel1igent Virtual Character Based on Reinforcement Learning and Emotion Model)

  • 우종하;박정은;오경환
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2005년도 추계학술대회 학술발표 논문집 제15권 제2호
    • /
    • pp.431-435
    • /
    • 2005
  • 학습과 감정은 지능형 시스템을 구현하는데 있어 가장 중요한 요소이다. 본 논문에서는 강화학습을 이용하여 사용자와 상호작용을 하면서 학습을 수행하고 내부적인 감정모델을 가지고 있는 지능적인 가상 캐릭터를 구현하였다. 가상 캐릭터는 여러 가지 사물들로 이루어진 3D의 가상 환경 내에서 내부상태에 의해 자율적으로 동작하며, 또한 사용자는 가상 캐릭터에게 반복적인 명령을 통해 원하는 행동을 학습시킬 수 있다. 이러한 명령은 인공신경망을 사용하여 마우스의 제스처를 인식하여 수행할 수 있고 감정의 표현을 위해 Emotion-Mood-Personality 모델을 새로 제안하였다. 그리고 실험을 통해 사용자와 상호작용을 통한 감정의 변화를 살펴보았고 가상 캐릭터의 훈련에 따른 학습이 올바르게 수행되는 것을 확인하였다.

  • PDF

로봇을 위한 인공 두뇌 개발 (Artificial Brain for Robots)

  • 이규빈;권동수
    • 로봇학회논문지
    • /
    • 제1권2호
    • /
    • pp.163-171
    • /
    • 2006
  • This paper introduces the research progress on the artificial brain in the Telerobotics and Control Laboratory at KAIST. This series of studies is based on the assumption that it will be possible to develop an artificial intelligence by copying the mechanisms of the animal brain. Two important brain mechanisms are considered: spike-timing dependent plasticity and dopaminergic plasticity. Each mechanism is implemented in two coding paradigms: spike-codes and rate-codes. Spike-timing dependent plasticity is essential for self-organization in the brain. Dopamine neurons deliver reward signals and modify the synaptic efficacies in order to maximize the predicted reward. This paper addresses how artificial intelligence can emerge by the synergy between self-organization and reinforcement learning. For implementation issues, the rate codes of the brain mechanisms are developed to calculate the neuron dynamics efficiently.

  • PDF

효율적인 멀티 에이전트 강화학습을 위한 RBFN 기반 정책 모델 (RBFN-based Policy Model for Efficient Multiagent Reinforcement Learning)

  • 권기덕;김인철
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2007년도 추계학술대회
    • /
    • pp.294-302
    • /
    • 2007
  • 멀티 에이전트 강화학습에서 중요한 이슈 중의 하나는 자신의 성능에 영향을 미칠 수 있는 다른 에이전트들이 존재하는 동적 환경에서 어떻게 최적의 행동 정책을 학습하느냐 하는 것이다. 멀티 에이전트 강화 학습을 위한 기존 연구들은 대부분 단일 에이전트 강화 학습기법들을 큰 변화 없이 그대로 적용하거나 비록 다른 에이전트에 관한 별도의 모델을 이용하더라도 현실적이지 못한 가정들을 요구한다. 본 논문에서는 상대 에이전트에 대한RBFN기반의 행동 정책 모델을 소개한 뒤, 이것을 이용한 강화 학습 방법을 설명한다. 본 논문에서는 제안하는 멀티 에이전트 강화학습 방법은 기존의 멀티 에이전트 강화 학습 연구들과는 달리 상대 에이전트의 Q 평가 함수 모델이 아니라 RBFN 기반의 행동 정책 모델을 학습한다. 또한, 표현력은 풍부하나 학습에 시간과 노력이 많이 요구되는 유한 상태 오토마타나 마코프 체인과 같은 행동 정책 모델들에 비해 비교적 간단한 형태의 행동 정책 모델을 이용함으로써 학습의 효율성을 높였다. 본 논문에서는 대표적이 절대적 멀티 에이전트 환경인 고양이와 쥐 게임을 소개한 뒤, 이 게임을 테스트 베드 삼아 실험들을 전개함으로써 제안하는 RBFN 기반의 정책 모델의 효과를 분석해본다.

  • PDF

2-stage 마르코프 의사결정 상황에서 Successor Representation 기반 강화학습 알고리즘 성능 평가 (Evaluating a successor representation-based reinforcement learning algorithm in the 2-stage Markov decision task)

  • 김소현;이지항
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.910-913
    • /
    • 2021
  • Successor representation (SR) 은 두뇌 내 해마의 공간 세포가 인지맵을 구성하여 환경을 학습하고, 이를 활용하여 변화하는 환경에서 유연하게 최적 전략을 수립하는 기전을 모사한 강화학습 방법이다. 특히, 학습한 환경 정보를 활용, 환경 구조 안에서 목표가 변화할 때 강인하게 대응하여 일반 model-free 강화학습에 비해 빠르게 보상 변화에 적응하고 최적 전략을 찾는 것으로 알려져 있다. 본 논문에서는 SR 기반 강화학습 알고리즘이 보상의 변화와 더불어 환경 구조, 특히 환경의 상태 천이 확률이 변화하여 보상의 변화를 유발하는 상황에서 어떠한 성능을 보이는 지 확인하였다. 벤치마크 알고리즘으로 SR 의 특성을 목적 기반 강화학습으로 통합한 SR-Dyna 를 사용하였고, 환경 상태 천이 불확실성과 보상 변화가 동시에 나타나는 2-stage 마르코프 의사결정 과제를 실험 환경으로 사용하였다. 시뮬레이션 결과, SR-Dyna 는 환경 내 상태 천이 확률 변화에 따른 보상 변화에는 적절히 대응하지 못하는 결과를 보였다. 본 결과를 통해 두뇌의 강화학습과 알고리즘 강화학습의 차이를 이해하여, 환경 변화에 강인한 강화학습 알고리즘 설계를 기대할 수 있다.

Emotion Recognition Method for Driver Services

  • Kim, Ho-Duck;Sim, Kwee-Bo
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제7권4호
    • /
    • pp.256-261
    • /
    • 2007
  • Electroencephalographic(EEG) is used to record activities of human brain in the area of psychology for many years. As technology developed, neural basis of functional areas of emotion processing is revealed gradually. So we measure fundamental areas of human brain that controls emotion of human by using EEG. Hands gestures such as shaking and head gesture such as nodding are often used as human body languages for communication with each other, and their recognition is important that it is a useful communication medium between human and computers. Research methods about gesture recognition are used of computer vision. Many researchers study Emotion Recognition method which uses one of EEG signals and Gestures in the existing research. In this paper, we use together EEG signals and Gestures for Emotion Recognition of human. And we select the driver emotion as a specific target. The experimental result shows that using of both EEG signals and gestures gets high recognition rates better than using EEG signals or gestures. Both EEG signals and gestures use Interactive Feature Selection(IFS) for the feature selection whose method is based on the reinforcement learning.

Contextual Bandit에 기반한 비디오 월 컨트롤러의 로그레벨 (Contextual-Bandit Based Log Level Setting for Video Wall Controller)

  • 김성진
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.633-635
    • /
    • 2022
  • 비디오 월 컨트롤러의 운용 중에 오류가 발생하면 제어 시스템은 로그 파일을 생성하고 로그를 기록한다. 로그 기록으로 인한 시스템의 부하를 줄이기 위해 로그레벨을 사용하는데, 평상시에는 로그레벨을 낮게 설정하여 가급적 로그를 기록하지 않고 오류가 발생하였을 때 로그레벨을 변경하여 상세한 로그를 기록하도록 운용하고 있다. 이로 인해 오류를 인지하더라도 즉각적인 원인 분석 및 대처가 불가능하고 로그레벨을 변경하기 위해서는 운영자의 개입이 불가피하다. 따라서 본 논문에서는 Contextual Bandit을 이용하여 운용 상황에 따라 로그레벨을 자동으로 설정하는 모델을 제안한다.

  • PDF

인공지능(AI)을 활용한 드론방어체계 성능향상 방안에 관한 연구 (A study on Improving the Performance of Anti - Drone Systems using AI)

  • 마해철;문종찬;박재영;이수한;권혁진
    • 시스템엔지니어링학술지
    • /
    • 제19권2호
    • /
    • pp.126-134
    • /
    • 2023
  • Drones are emerging as a new security threat, and the world is working to reduce them. Detection and identification are the most difficult and important parts of the anti-drone systems. Existing detection and identification methods each have their strengths and weaknesses, so complementary operations are required. Detection and identification performance in anti-drone systems can be improved through the use of artificial intelligence. This is because artificial intelligence can quickly analyze differences smaller than humans. There are three ways to utilize artificial intelligence. Through reinforcement learning-based physical control, noise and blur generated when the optical camera tracks the drone may be reduced, and tracking stability may be improved. The latest NeRF algorithm can be used to solve the problem of lack of enemy drone data. It is necessary to build a data network to utilize artificial intelligence. Through this, data can be efficiently collected and managed. In addition, model performance can be improved by regularly generating artificial intelligence learning data.

공무원 대상 모의법정을 통한 갈등관리 상황학습 경험에 관한 연구 (A Study on the Experience of Conflict Management Situation Learning Through Mock Court for Civil Servants)

  • 한상미;박세환
    • 한국콘텐츠학회논문지
    • /
    • 제21권3호
    • /
    • pp.400-409
    • /
    • 2021
  • 교육훈련은 전인적 차원에서의 교육과는 달리, 한정된 특정 영역에서의 지식, 기술 습득을 통해 개인차원에서의 지식·기술 등 업무역량의 잠재력 뿐만 아니라, 조직적 차원에서의 직무성과에 영향을 미친다. 수원시 시민배심법정 모의상황학습에 참여한 공무원 교육훈련 프로그램에 대한 효과성 검증은 CIPP모형을 활용하여 분석하였다. 학습참여자는 교육프로그램에서 어떤 해결책을 도출하는 결과보다는 과정(process)에 대한 중요도를 높게 생각하는 것으로 나타났으며, 사전·사후평가를 비교·분석한 결과, 모의법정 실습을 통한 교육효과 및 향후 업무활용도에 도움정도가 교육 전에 비해 높게 나타나 그 효과가 입증되었다. 학습기획자 평가 결과와 더불어 학습프로그램에 대한 함의점으로, 다양한 학습자 상호간의 학습 상호작용을 위한 성별, 근무기간 등을 고려한 참여자 구성이 필요하며, 다양한 지역문제와 갈등상황에 대한 정보습득 교육 및 숙의학습 병행이 필요하다. 또한 학습의 실효성을 위한 현안사업과 관련된 맞춤형 갈등관리 교육을 통해 보완할 수 있다.