• Title/Summary/Keyword: 모델 기반 강화 학습

Search Result 164, Processing Time 0.034 seconds

Study on Multi-Cluster based Collaborative Edge Networks (멀티클러스터 기반 지능형 협업 엣지 네트워크 연구)

  • Youn, Joosang
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.07a
    • /
    • pp.277-278
    • /
    • 2021
  • 본 논문에서는 멀티클러스터 기반 협업 엣지 네트워크 모델과 지능형 협업 엣지 자원 할당을 위한 정책 생성기 모델을 제안한다. 최근 K8s 기반 클러스터 엣지 시스템 개발이 활발히 진행 중이다. 본 논문에서는 이런 클러스터 기반 엣지 시스템을 네트워크를 통해 멀티클러스터 기반 엣지 시스템으로 구성하는 모델을 제시하고 이 네트워크 모델에서 협업으로 엣지 자원을 할당 할 수 있는 지능형 자원 할당 정책 생성기 구조 및 방법 등을 제안한다.

  • PDF

Multi Behavior Learning of Lamp Robot based on Q-learning (강화학습 Q-learning 기반 복수 행위 학습 램프 로봇)

  • Kwon, Ki-Hyeon;Lee, Hyung-Bong
    • Journal of Digital Contents Society
    • /
    • v.19 no.1
    • /
    • pp.35-41
    • /
    • 2018
  • The Q-learning algorithm based on reinforcement learning is useful for learning the goal for one behavior at a time, using a combination of discrete states and actions. In order to learn multiple actions, applying a behavior-based architecture and using an appropriate behavior adjustment method can make a robot perform fast and reliable actions. Q-learning is a popular reinforcement learning method, and is used much for robot learning for its characteristics which are simple, convergent and little affected by the training environment (off-policy). In this paper, Q-learning algorithm is applied to a lamp robot to learn multiple behaviors (human recognition, desk object recognition). As the learning rate of Q-learning may affect the performance of the robot at the learning stage of multiple behaviors, we present the optimal multiple behaviors learning model by changing learning rate.

Zero-shot Text Classification based on Reinforced Learning (강화학습 기반의 제로샷 텍스트 분류)

  • Zhang Songming;Inwhee Joe
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.439-441
    • /
    • 2023
  • 전통적인 텍스트 분류 방법은 상당량의 라벨링된 데이터와 미리 정의된 클래스가 필요해서 그 적용성과 확장성이 제한된다. 그래서 이런 한계를 극복하기 위해 제로샷 러닝(Zero-shot Learning)이 등장했다. 텍스트 분류 분야에서 제로샷 텍스트 분류는 모델이 대상 클래스의 샘플을 미리 접하지 않고도 인스턴스를 분류할 수 있도록 하는 중요한 주제이다. 이 문제를 해결하기 위해 정책 네트워크를 활용한 심층 강화 학습(DRL) 기반 접근법을 제안한다. 이러한 방법을 통해 모델이 새로운 의미 공간에 효과적으로 적응하면서, 다른 모델들과 비교하여 제로샷 텍스트 분류의 정확도를 향상시킬 수 있었다. XLM-R 과 비교하면 최대 15.9%의 정확도 향상이 나타났다.

Learning User Profile with Reinforcement Learning (강화학습 기반 사용자 프로파일 학습)

  • 김영란;한현구
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.325-327
    • /
    • 2002
  • 정보검색 태스크에서 사용자 모델링의 목적은 관련정보 검색을 용이하게 해주기 위하여 사용자의 관심도 또는 필요정보의 모델을 학습하는 것으로 시간적인 속성(temporal characteristics)을 가지며 관심 이동을 적절하게 반영하여야 한다. 강화학습은 정답이 주어지지 않고 사용자의 평가만이 수치적으로 주어지는 환경에서 평가를 최대화 한다는 목표를 가지므로 사용자 프로파일 학습에 적용할 수 있다. 본 논문에서는 사용자가 문서에 대해 행하는 일련의 행위를 평가값으로 하여 사용자가 선호하는 용어를 추출한 후, 사용자 프로파일을 강화학습 알고리즘으로 학습하는 방법을 제안한다. 사용자의 선호도에 적응하는 능력을 유지하기 위하여 지역 최대값들을 피할 수 있고, 가장 좋은 장기간 최적정책에 수렴하는 R-Learning을 적용한다. R-learning은 할인된 보상값의 최적화보다 평균 보상값을 최적화하기 때문에 장기적인 사용자 모델링에 적합하다는 것을 제시한다.

  • PDF

DeNERT: Named Entity Recognition Model using DQN and BERT

  • Yang, Sung-Min;Jeong, Ok-Ran
    • Journal of the Korea Society of Computer and Information
    • /
    • v.25 no.4
    • /
    • pp.29-35
    • /
    • 2020
  • In this paper, we propose a new structured entity recognition DeNERT model. Recently, the field of natural language processing has been actively researched using pre-trained language representation models with a large amount of corpus. In particular, the named entity recognition, which is one of the fields of natural language processing, uses a supervised learning method, which requires a large amount of training dataset and computation. Reinforcement learning is a method that learns through trial and error experience without initial data and is closer to the process of human learning than other machine learning methodologies and is not much applied to the field of natural language processing yet. It is often used in simulation environments such as Atari games and AlphaGo. BERT is a general-purpose language model developed by Google that is pre-trained on large corpus and computational quantities. Recently, it is a language model that shows high performance in the field of natural language processing research and shows high accuracy in many downstream tasks of natural language processing. In this paper, we propose a new named entity recognition DeNERT model using two deep learning models, DQN and BERT. The proposed model is trained by creating a learning environment of reinforcement learning model based on language expression which is the advantage of the general language model. The DeNERT model trained in this way is a faster inference time and higher performance model with a small amount of training dataset. Also, we validate the performance of our model's named entity recognition performance through experiments.

Learning Behavior of Virtual Robot using Compensation Signal (보상신호를 수반하는 가상로봇의 학습행위 연구)

  • Hwang, Su-Chul
    • 전자공학회논문지 IE
    • /
    • v.44 no.3
    • /
    • pp.35-41
    • /
    • 2007
  • In this paper we suggest a model that the virtual robot based on artificial intelligence performs learning with compensation signals and compare the leaning speed of the virtual robot according to the compensation method after applying it to three type environments. As a result our model has showed that positive compensation is superior to hybrid one mixed positive and negative if there are enough time for learning in case of more or less complicated environment with the numerous foods, obstacles and robots. Otherwise hybrid method is better than positive one.

Luxo character control using deep reinforcement learning (심층 강화 학습을 이용한 Luxo 캐릭터의 제어)

  • Lee, Jeongmin;Lee, Yoonsang
    • Journal of the Korea Computer Graphics Society
    • /
    • v.26 no.4
    • /
    • pp.1-8
    • /
    • 2020
  • Motion synthesis using physics-based controllers can generate a character animation that interacts naturally with the given environment and other characters. Recently, various methods using deep neural networks have improved the quality of motions generated by physics-based controllers. In this paper, we present a control policy learned by deep reinforcement learning (DRL) that enables Luxo, the mascot character of Pixar animation studio, to run towards a random goal location while imitating a reference motion and maintaining its balance. Instead of directly training our DRL network to make Luxo reach a goal location, we use a reference motion that is generated to keep Luxo animation's jumping style. The reference motion is generated by linearly interpolating predetermined poses, which are defined with Luxo character's each joint angle. By applying our method, we could confirm a better Luxo policy compared to the one without any reference motions.

Implementation of Intelligent Virtual Character Based on Reinforcement Learning and Emotion Model (강화학습과 감정모델 기반의 지능적인 가상 캐릭터의 구현)

  • Woo Jong-Ha;Park Jung-Eun;Oh Kyung-Whan
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.16 no.3
    • /
    • pp.259-265
    • /
    • 2006
  • Learning and emotions are very important parts to implement intelligent robots. In this paper, we implement intelligent virtual character based on reinforcement learning which interacts with user and have internal emotion model. Virtual character acts autonomously in 3D virtual environment by internal state. And user can learn virtual character specific behaviors by repeated directions. Mouse gesture is used to perceive such directions based on artificial neural network. Emotion-Mood-Personality model is proposed to express emotions. And we examine the change of emotion and learning behaviors when virtual character interact with user.

Motion Generation of a Single Rigid Body Character Using Deep Reinforcement Learning (심층 강화 학습을 활용한 단일 강체 캐릭터의 모션 생성)

  • Ahn, Jewon;Gu, Taehong;Kwon, Taesoo
    • Journal of the Korea Computer Graphics Society
    • /
    • v.27 no.3
    • /
    • pp.13-23
    • /
    • 2021
  • In this paper, we proposed a framework that generates the trajectory of a single rigid body based on its COM configuration and contact pose. Because we use a smaller input dimension than when we use a full body state, we can improve the learning time for reinforcement learning. Even with a 68% reduction in learning time (approximately two hours), the character trained by our network is more robust to external perturbations tolerating an external force of 1500 N which is about 7.5 times larger than the maximum magnitude from a previous approach. For this framework, we use centroidal dynamics to calculate the next configuration of the COM, and use reinforcement learning for obtaining a policy that gives us parameters for controlling the contact positions and forces.

Fast Navigation in Dynamic 3D Game Environment Using Reinforcement Learning (강화 학습을 사용한 동적 게임 환경에서의 빠른 경로 탐색)

  • Yi, Seung-Joon;Zhang, Byoung-Tak
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.703-705
    • /
    • 2005
  • 연속적이고 동적인 실세계에서의 경로 탐색 문제는 이동 로봇 분야에서 주된 문제 중 하나였다. 최근 컴퓨터 성능이 크게 발전하면서 컴퓨터 게임들이 실제에 가까운 연속적인 3차원 환경 모델을 사용하기 시작하였고, 그에 따라 보다 복잡하고 동적인 환경 모델 하에서 경로 탐색을 할 수 있는 능력이 요구되고 있다. 강화 학습 기반의 경로 탐색 알고리즘인 평가치 반복(Value iteration) 알고리즘은 실시간 멀티에이전트 환경에 적합한 여러 장점들을 가지고 있으나, 문제가 커질수록 속도가 크게 느려진다는 단점을 가지고 있다. 본 논문에서는 연속적인 3차원 상황에서 빠르게 동적 변화에 적응할 수 있도록 하기 위하여 작은 세상 네트웍 모델을 사용한 환경 모델 및 경로 탐색 알고리즘을 제안한다. 3차원 게임 환경에서의 실험을 통해 제안된 알고리즘이 연속적이고 복잡한 실시간 환경 하에서 우수한 경로를 찾아낼 수 있으며, 환경의 변화가 관측될 경우 이에 빠르게 적응할 수 있음을 확인할 수 있었다.

  • PDF