• Title/Summary/Keyword: 학습강화

Search Result 1,581, Processing Time 0.025 seconds

멀티 에이전트 강화학습 시나리오를 위한 해상교통환경 고려요소 도출에 관한 기초 연구

  • 김니은;김소라;이명기;김대원;박영수
    • Proceedings of the Korean Institute of Navigation and Port Research Conference
    • /
    • 2022.06a
    • /
    • pp.165-166
    • /
    • 2022
  • 최근 전세계적으로 자율운항선박(Maritime Autonomous Surface Ship, 이하 MASS)의 기술 개발 및 시험 항해가 본격적으로 추진되고 있다. 하지만 MASS의 출현과 별개로 운항 방식, 제어 방식, 관제 방식 등 명확한 지침은 부재한 상태이다. 육상에서는 머신 러닝을 통하여 자율주행차에 대한 다양한 제어 방식을 연구하고 있으며, 이에 따라서 MASS도 제어 또는 통항 방식에 대한 기초 틀을 마련할 필요성이 있다. 하지만 육상과 달리 해상은 기상, 조종성능, 수심, 장애물 등 다양한 변수들이 존재하고 있어 접근 방식이 복잡하여, 머신 러닝을 적용할 때 환경에 대한 요소를 적절하게 설정해야 한다. 따라서 본 연구는 멀티 에이전트 강화학습을 통하여 MASS의 자율적인 통항 방식을 제안하기 위하여 강화학습의 해상교통환경 설정을 위한 요소를 도출하고자 하였다.

  • PDF

A Study about Efficient Method for Training the Reward Model in RLHF (인간 피드백 기반 강화학습 (RLHF)에서 보상 모델의 효과적인 훈련 방법에 관한 연구)

  • Jeongwook Kim;Imatitikua Danielle Aiyanyo;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.245-250
    • /
    • 2023
  • RLHF(Reinforcement Learning from Human Feedback, 인간 피드백 기반 강화학습) 방법론이 최근 고성능 언어 모델에 많이 적용되고 있다. 이 방법은 보상 모델과 사람의 피드백을 활용하여 언어 모델로 하여금 사람이 선호할 가능성이 높은 응답을 생성하도록 한다. 하지만 상업용 언어 모델에 적용된 RLHF의 경우 구현 방법에 대하여 정확히 밝히고 있지 않다. 특히 강화학습에서 환경(environment)을 담당하는 보상 모델을 어떻게 설정하는지가 가장 중요하지만 그 부분에 대하여 오픈소스 모델들의 구현은 각각 다른 실정이다. 본 연구에서는 보상 모델을 훈련하는 큰 두 가지 갈래인 '순위 기반 훈련 방법'과 '분류 기반 훈련 방법'에 대하여 어떤 방법이 더 효율적인지 실험한다. 또한 실험 결과 분석을 근거로 효율성의 차이가 나는 이유에 대하여 추정한다.

  • PDF

Reinforcement learning portfolio optimization based on portfolio theory (강화학습을 이용한 포트폴리오 투자 프로세스 최적화에 대한 연구)

  • Hyeong-Jin Son;Lim Donhui;Young-Woo Han
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.961-962
    • /
    • 2023
  • 포트폴리오 구성문제는 과거부터 현재까지 많은 연구가 이루어지고 있다. 현재는 강화학습을 통해 포트폴리오를 구성하는 연구가 많이 진행되고있다. 포트폴리오를 구성함에 있어 종목선택과 각 종목을 얼만큼 투자할 것인지는 둘 다 중요한 문제이다. 본 연구에서는 과거부터 많이 사용해오던 방식을 차용하여 강화학습 방법과 접목시켰고 이를 통해 설명력이 높은 모델을 만들려고 노력하였다. 강화학습에 사용한 모델은 PPO(Proximal Policy Optimization)을 기본으로 하였고 인공신경망은 LSTM을 활용하였다. 실험결과 실험 기간 동안(2023년 3월 30일 부터 108 영업일 까지)의 코스피 수익률은 5%인데 반해 본 연구에서 제시한 모델의 수익률은 평균 약 9%를 기록했다.

User A Study on Sustainable Edge and Cloud Computing Paradigm based on Federated Reinforcement Learning (엣지 및 클라우드 컴퓨팅 패러다임에 대한 지속 가능한 연합 강화 학습 연구)

  • Jung-Hyun Woo;Sung-Won Kim;Byung-seok Seo;Kwang-Man Ko
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2024.05a
    • /
    • pp.902-904
    • /
    • 2024
  • 엣지-클라우드 통신네트워크에서의 지속 가능한 사이버 보안 솔루션을 개발하기 위한 연구는 중요성을 갖는다. 최근의 기술 발전으로 인해 엣지 디바이스와 클라우드 서비스 간의 통신이 활발해지면서 보안 위협이 증가하고 있다. 이에 따라 연합 강화 학습과 같은 첨단 기술을 활용하여 보안 취약점을 탐지하고 대응하는 것이 중요하다. 본 논문에서는 엣지-클라우드 환경에서의 보안 취약점을 식별하고 대응하기 위해 연합 강화 학습을 기반으로 한 솔루션을 제안한다. 이를 통해 네트워크의 안전성을 보장하고 사이버 공격에 대응할 수 있는 기술을 개발하기 위해, 엣지-클라우드 환경에서의 보안 취약점을 식별하고 대응하기 위해 연합 강화 학습 기반으로 한 솔루션을 소개한다.

  • PDF

AQ-NAV: Reinforced Learning Based Channel Access Method Using Distance Estimation in Underwater Communication (AQ-NAV: 수중통신에서 거리 추정을 이용한 강화 학습 기반 채널 접속 기법)

  • Park, Seok-Hyeon;Shin, Kyungseop;Jo, Ohyun
    • Journal of Convergence for Information Technology
    • /
    • v.10 no.7
    • /
    • pp.33-40
    • /
    • 2020
  • This work tackles the problem of conventional reinforcement learning scheme which has a relatively long training time to reduce energy consumption in underwater network. The enhanced scheme adjusts the learning range of reinforcement learning based on distance estimation. It can be reduce the scope of learning. To take account the fact that the distance estimation may not be accurate due to the underwater wireless network characteristics. this research added noise in consideration of the underwater environment. In simulation result, the proposed AQ-NAV scheme has completed learning much faster than existing method. AQ-NAV can finish the training process within less than 40 episodes. But the existing method requires more than 120 episodes. The result show that learning is possible with fewer attempts than the previous one. If AQ-NAV will be applied in Underwater Networks, It will affect energy efficiency. and It will be expected to relieved existing problem and increase network efficiency.

A Reinforcement Learning Approach to Collaborative Filtering Considering Time-sequence of Ratings (평가의 시간 순서를 고려한 강화 학습 기반 협력적 여과)

  • Lee, Jung-Kyu;Oh, Byong-Hwa;Yang, Ji-Hoon
    • The KIPS Transactions:PartB
    • /
    • v.19B no.1
    • /
    • pp.31-36
    • /
    • 2012
  • In recent years, there has been increasing interest in recommender systems which provide users with personalized suggestions for products or services. In particular, researches of collaborative filtering analyzing relations between users and items has become more active because of the Netflix Prize competition. This paper presents the reinforcement learning approach for collaborative filtering. By applying reinforcement learning techniques to the movie rating, we discovered the connection between a time sequence of past ratings and current ratings. For this, we first formulated the collaborative filtering problem as a Markov Decision Process. And then we trained the learning model which reflects the connection between the time sequence of past ratings and current ratings using Q-learning. The experimental results indicate that there is a significant effect on current ratings by the time sequence of past ratings.

C-COMA: A Continual Reinforcement Learning Model for Dynamic Multiagent Environments (C-COMA: 동적 다중 에이전트 환경을 위한 지속적인 강화 학습 모델)

  • Jung, Kyueyeol;Kim, Incheol
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.10 no.4
    • /
    • pp.143-152
    • /
    • 2021
  • It is very important to learn behavioral policies that allow multiple agents to work together organically for common goals in various real-world applications. In this multi-agent reinforcement learning (MARL) environment, most existing studies have adopted centralized training with decentralized execution (CTDE) methods as in effect standard frameworks. However, this multi-agent reinforcement learning method is difficult to effectively cope with in a dynamic environment in which new environmental changes that are not experienced during training time may constantly occur in real life situations. In order to effectively cope with this dynamic environment, this paper proposes a novel multi-agent reinforcement learning system, C-COMA. C-COMA is a continual learning model that assumes actual situations from the beginning and continuously learns the cooperative behavior policies of agents without dividing the training time and execution time of the agents separately. In this paper, we demonstrate the effectiveness and excellence of the proposed model C-COMA by implementing a dynamic mini-game based on Starcraft II, a representative real-time strategy game, and conducting various experiments using this environment.

UAV Path Planning based on Deep Reinforcement Learning using Cell Decomposition Algorithm (셀 분해 알고리즘을 활용한 심층 강화학습 기반 무인 항공기 경로 계획)

  • Kyoung-Hun Kim;Byungsun Hwang;Joonho Seon;Soo-Hyun Kim;Jin-Young Kim
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.24 no.3
    • /
    • pp.15-20
    • /
    • 2024
  • Path planning for unmanned aerial vehicles (UAV) is crucial in avoiding collisions with obstacles in complex environments that include both static and dynamic obstacles. Path planning algorithms like RRT and A* are effectively handle static obstacle avoidance but have limitations with increasing computational complexity in high-dimensional environments. Reinforcement learning-based algorithms can accommodate complex environments, but like traditional path planning algorithms, they struggle with training complexity and convergence in higher-dimensional environment. In this paper, we proposed a reinforcement learning model utilizing a cell decomposition algorithm. The proposed model reduces the complexity of the environment by decomposing the learning environment in detail, and improves the obstacle avoidance performance by establishing the valid action of the agent. This solves the exploration problem of reinforcement learning and improves the convergence of learning. Simulation results show that the proposed model improves learning speed and efficient path planning compared to reinforcement learning models in general environments.

Comparison of Reinforcement Learning Algorithms for a 2D Racing Game Learning Agent (2D 레이싱 게임 학습 에이전트를 위한 강화 학습 알고리즘 비교 분석)

  • Lee, Dongcheul
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.20 no.1
    • /
    • pp.171-176
    • /
    • 2020
  • Reinforcement learning is a well-known method for training an artificial software agent for a video game. Even though many reinforcement learning algorithms have been proposed, their performance was varies depending on an application area. This paper compares the performance of the algorithms when we train our reinforcement learning agent for a 2D racing game. We defined performance metrics to analyze the results and plotted them into various graphs. As a result, we found ACER (Actor Critic with Experience Replay) achieved the best rewards than other algorithms. There was 157% gap between ACER and the worst algorithm.

Design of a Motivation Model for Reinforcing Evaluation on Mobile Learning Environments (모바일 학습 환경에서 평가를 강화한 동기 모형 설계)

  • Kim, Chang-Gyu;Jun, Woo-Chun
    • 한국정보교육학회:학술대회논문집
    • /
    • 2006.08a
    • /
    • pp.143-148
    • /
    • 2006
  • 정보 통신 기술의 발달과 학습자의 다양한 요구에 따라 온라인을 통한 웹기반 학습에 이어 휴대인터넷 (WiBro)과 UMPC (Ultra Mobile PC)를 비롯한 모바일 환경에서의 학습 시대가 열리게 되었다. 본 연구에서는 학습자의 특성을 고려하여 자기 주도적 학습 형태인 모바일 학습에서 학습자의 학습동기를 유발, 지속시키기 위한 방안으로써 Keller의 동기 유발 이론에 기초하여 학생들이 흥미를 잃지 않고 스스로 학습할 수 있도록 모바일 학습에 적합한 새로운 동기 모형을 제시하고자 한다. 본 동기 모형의 특징은 다음과 같다. 첫째, 교사들이 현장에서 이 모형을 바로 사용할 수 있도록 현실적이고 꼭 필요한 절차만 거치도록 하였다. 둘째, 다양한 평가 과정을 절차에 삽입함으로써 학습활동에 대한 보상과 강화를 학습중에 얻도록 하였다. 셋째, 개발된 콘텐츠를 수업안에 바로 적용시킴으로써 자연스러운 수업이 될 수 있도록 구성하였다. 넷째, 개별화에 중점을 두어 자기주도적인 학습이 가능하도록 하였다.

  • PDF