• 제목/요약/키워드: TD-learning

검색결과 29건 처리시간 0.029초

목표지향적 강화학습 시스템 (Goal-Directed Reinforcement Learning System)

  • 이창훈
    • 한국인터넷방송통신학회논문지
    • /
    • 제10권5호
    • /
    • pp.265-270
    • /
    • 2010
  • 강화학습(reinforcement learning)은 동적 환경과 시행-착오를 통해 상호 작용하면서 학습을 수행한다. 그러므로 동적 환경에서 TD-학습과 TD(${\lambda}$)-학습과 같은 강화학습 방법들은 전통적인 통계적 학습 방법보다 더 빠르게 학습을 할 수 있다. 그러나 제안된 대부분의 강화학습 알고리즘들은 학습을 수행하는 에이전트(agent)가 목표 상태에 도달하였을 때만 강화 값(reinforcement value)이 주어지기 때문에 최적 해에 매우 늦게 수렴한다. 본 논문에서는 미로 환경(maze environment)에서 최단 경로를 빠르게 찾을 수 있는 강화학습 방법(GORLS : Goal-Directed Reinforcement Learning System)을 제안하였다. GDRLS 미로 환경에서 최단 경로가 될 수 있는 후보 상태들을 선택한다. 그리고 나서 최단 경로를 탐색하기 위해 후보 상태들을 학습한다. 실험을 통해, GDRLS는 미로 환경에서 TD-학습과 TD(${\lambda}$)-학습보다 더 빠르게 최단 경로를 탐색할 수 있음을 알 수 있다.

오프 폴리시 강화학습에서 몬테 칼로와 시간차 학습의 균형을 사용한 적은 샘플 복잡도 (Random Balance between Monte Carlo and Temporal Difference in off-policy Reinforcement Learning for Less Sample-Complexity)

  • 김차영;박서희;이우식
    • 인터넷정보학회논문지
    • /
    • 제21권5호
    • /
    • pp.1-7
    • /
    • 2020
  • 강화학습에서 근사함수로써 사용되는 딥 인공 신경망은 이론적으로도 실제와 같은 근접한 결과를 나타낸다. 다양한 실질적인 성공 사례에서 시간차 학습(TD) 은 몬테-칼로 학습(MC) 보다 더 나은 결과를 보여주고 있다. 하지만, 일부 선행 연구 중에서 리워드가 매우 드문드문 발생하는 환경이거나, 딜레이가 생기는 경우, MC 가 TD 보다 더 나음을 보여주고 있다. 또한, 에이전트가 환경으로부터 받는 정보가 부분적일 때에, MC가 TD보다 우수함을 나타낸다. 이러한 환경들은 대부분 5-스텝 큐-러닝이나 20-스텝 큐-러닝으로 볼 수 있는데, 이러한 환경들은 성능-퇴보를 낮추는데 도움 되는 긴 롤-아웃 없이도 실험이 계속 진행될 수 있는 환경들이다. 즉, 긴롤-아웃에 상관없는 노이지가 있는 네트웍이 대표적인데, 이때에는 TD 보다는 시간적 에러에 견고한 MC 이거나 MC와 거의 동일한 학습이 더 나은 결과를 보여주고 있다. 이러한 해당 선행 연구들은 TD가 MC보다 낫다고 하는 기존의 통념에 위배되는 것이다. 다시 말하면, 해당 연구들은 TD만의 사용이 아니라, MC와 TD의 병합된 사용이 더 나음을 이론적이기 보다 경험적 예시로써 보여주고 있다. 따라서, 본 연구에서는 선행 연구들에서 보여준 결과를 바탕으로 하고, 해당 연구들에서 사용했던 특별한 리워드에 의한 복잡한 함수 없이, MC와 TD의 밸런스를 랜덤하게 맞추는 좀 더 간단한 방법으로 MC와 TD를 병합하고자 한다. 본 연구의 MC와 TD의 랜덤 병합에 의한 DQN과 TD-학습만을 사용한 이미 잘 알려진 DQN과 비교하여, 본 연구에서 제안한 MC와 TD의 랜덤 병합이 우수한 학습 방법임을 OpenAI Gym의 시뮬레이션을 통하여 증명하였다.

목표상태 값 전파를 이용한 강화 학습 (Reinforcement Learning using Propagation of Goal-State-Value)

  • 김병천;윤병주
    • 한국정보처리학회논문지
    • /
    • 제6권5호
    • /
    • pp.1303-1311
    • /
    • 1999
  • In order to learn in dynamic environments, reinforcement learning algorithms like Q-learning, TD(0)-learning, TD(λ)-learning have been proposed. however, most of them have a drawback of very slow learning because the reinforcement value is given when they reach their goal state. In this thesis, we have proposed a reinforcement learning method that can approximate fast to the goal state in maze environments. The proposed reinforcement learning method is separated into global learning and local learning, and then it executes learning. Global learning is a learning that uses the replacing eligibility trace method to search the goal state. In local learning, it propagates the goal state value that has been searched through global learning to neighboring sates, and then searches goal state in neighboring states. we can show through experiments that the reinforcement learning method proposed in this thesis can find out an optimal solution faster than other reinforcement learning methods like Q-learning, TD(o)learning and TD(λ)-learning.

  • PDF

멀티-스텝 누적 보상을 활용한 Max-Mean N-Step 시간차 학습 (Max-Mean N-step Temporal-Difference Learning Using Multi-Step Return)

  • 황규영;김주봉;허주성;한연희
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제10권5호
    • /
    • pp.155-162
    • /
    • 2021
  • n-스텝 시간차 학습은 몬테카를로 방법과 1-스텝 시간차 학습을 결합한 것으로, 적절한 n을 선택할 경우 몬테카를로 방법과 1-스텝 시간차 학습보다 성능이 좋은 알고리즘으로 알려져 있지만 최적의 n을 선택하는 것에 어려움이 있다. n-스텝 시간차 학습에서 n값 선택의 어려움을 해소하기 위해, 본 논문에서는 Q의 과대평가가 초기 학습의 성능을 높일 수 있다는 특징과 Q ≈ Q* 경우, 모든 n-스텝 누적 보상이 비슷한 값을 가진다는 성질을 이용하여 1 ≤ k ≤ n에 대한 모든 k-스텝 누적 보상의 최댓값과 평균으로 구성된 새로운 학습 타겟인 Ω-return을 제안한다. 마지막으로 OpenAI Gym의 Atari 게임 환경에서 n-스텝 시간차 학습과의 성능 비교 평가를 진행하여 본 논문에서 제안하는 알고리즘이 n-스텝 시간차 학습 알고리즘보다 성능이 우수하다는 것을 입증한다.

개미 집단 시스템에서 TD-오류를 이용한 강화학습 기법 (A Reinforcement Loaming Method using TD-Error in Ant Colony System)

  • 이승관;정태충
    • 정보처리학회논문지B
    • /
    • 제11B권1호
    • /
    • pp.77-82
    • /
    • 2004
  • 강화학습에서 temporal-credit 할당 문제 즉, 에이전트가 현재 상태에서 어떤 행동을 선택하여 상태전이를 하였을 때 에이전트가 선택한 행동에 대해 어떻게 보상(reward)할 것인가는 강화학습에서 중요한 과제라 할 수 있다. 본 논문에서는 조합최적화(hard combinational optimization) 문제를 해결하기 위한 새로운 메타 휴리스틱(meta heuristic) 방법으로, greedy search뿐만 아니라 긍정적 반응의 탐색을 사용한 모집단에 근거한 접근법으로 Traveling Salesman Problem(TSP)를 풀기 위해 제안된 Ant Colony System(ACS) Algorithms에 Q-학습을 적용한 기존의 Ant-Q 학습방범을 살펴보고 이 학습 기법에 다양화 전략을 통한 상태전이와 TD-오류를 적용한 학습방법인 Ant-TD 강화학습 방법을 제안한다. 제안한 강화학습은 기존의 ACS, Ant-Q학습보다 최적해에 더 빠르게 수렴할 수 있음을 실험을 통해 알 수 있었다.

미로 환경에서 최단 경로 탐색을 위한 실시간 강화 학습 (Online Reinforcement Learning to Search the Shortest Path in Maze Environments)

  • 김병천;김삼근;윤병주
    • 정보처리학회논문지B
    • /
    • 제9B권2호
    • /
    • pp.155-162
    • /
    • 2002
  • 강화 학습(reinforcement teaming)은 시행-착오(trial-and-er개r)를 통해 동적 환경과 상호작용하면서 학습을 수행하는 학습 방법으로, 실시간 강화 학습(online reinforcement learning)과 지연 강화 학습(delayed reinforcement teaming)으로 분류된다. 본 논문에서는 미로 환경에서 최단 경로를 빠르게 탐색할 수 있는 실시간 강화 학습 시스템(ONRELS : Outline REinforcement Learning System)을 제안한다. ONRELS는 현재 상태에서 상태전이를 하기 전에 선택 가능한 모든 (상태-행동) 쌍에 대한 평가 값을 갱신하고 나서 상태전이를 한다. ONRELS는 미로 환경의 상태 공간을 압축(compression)하고 나서 압축된 환경과 시행-착오를 통해 상호 작용하면서 학습을 수행한다. 실험을 통해 미로 환경에서 ONRELS는 TD -오류를 이용한 Q-학습과 $TD(\lambda{)}$를 이용한 $Q(\lambda{)}$-학습보다 최단 경로를 빠르게 탐색할 수 있음을 알 수 있었다.

Human Adaptive Device Development based on TD method for Smart Home

  • Park, Chang-Hyun;Sim, Kwee-Bo
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2005년도 ICCAS
    • /
    • pp.1072-1075
    • /
    • 2005
  • This paper presents that TD method is applied to the human adaptive devices for smart home with context awareness (or recognition) technique. For smart home, the very important problem is how the appliances (or devices) can adapt to user. Since there are many humans to manage home appliances (or devices), managing the appliances automatically is difficult. Moreover, making the users be satisfied by the automatically managed devices is much more difficult. In order to do so, we can use several methods, fuzzy controller, neural network, reinforcement learning, etc. Though the some methods could be used, in this case (in dynamic environment), reinforcement learning is appropriate. Among some reinforcement learning methods, we select the Temporal Difference learning method as a core algorithm for adapting the devices to user. Since this paper assumes the environment is a smart home, we simply explained about the context awareness. Also, we treated with the TD method briefly and implement an example by VC++. Thereafter, we dealt with how the devices can be applied to this problem.

  • PDF

뉴로-퍼지 추론을 적용한 포석 바둑 (Applying Neuro-fuzzy Reasoning to Go Opening Games)

  • 이병두
    • 한국게임학회 논문지
    • /
    • 제9권6호
    • /
    • pp.117-125
    • /
    • 2009
  • 본 논문은 포석 바둑을 위해, 패턴 지식을 근간으로 바둑 용어 지식을 수행할 수 있는 뉴로-퍼지 추론에 대한 실험 결과를 설명하였다. 즉, 포석 시 최선의 착점을 결정하기 위한 뉴로-퍼지 추론 시스템의 구현을 논하였다. 또한 추론 시스템의 성능을 시험하기 위하여 시차 학습(TD($\lambda$) learning) 시스템과의 대결을 벌였다. 대결 결과에 의하면 단순한 뉴로-퍼지 추론 시스템조차 시차 학습 모델과 충분히 대결할 만하며, 뉴로-퍼지 추론 시스템이 실제 바둑 게임에도 적용될 수 있는 잠재력을 보였다.

  • PDF

TD(${\lambda}$) 기법을 사용한 지역적이며 적응적인 QoS 라우팅 기법 (A Localized Adaptive QoS Routing using TD(${\lambda}$) method)

  • 한정수
    • 한국통신학회논문지
    • /
    • 제30권5B호
    • /
    • pp.304-309
    • /
    • 2005
  • 본 논문에서는 TD(temporal differences) 기법을 사용한 localized QoS 라우팅 기법을 제안하였다. 이 기법은 이웃노드로부터 얻어지는 성공 기댓값을 통해 라우팅 정책을 결정하는 기법이다. 이에 본 논문에서는 라우팅 성공 기댓값을 기반으로 한 다양한 탐색기법으로 경로 선택 시 라우팅 성능을 비교 평가하였으며, 특히 Exploration Bonus를 적용한 탐색 기법이 다른 탐색 기법에 비해 더욱 우수한 성능을 보여주고 있는데, 이는 다른 탐색 기법에 비해 네트워크 상황에 더 적응적으로 경로를 선택할 수 있기 때문이다.

Dynamic power and bandwidth allocation for DVB-based LEO satellite systems

  • Satya Chan;Gyuseong Jo;Sooyoung Kim;Daesub Oh;Bon-Jun Ku
    • ETRI Journal
    • /
    • 제44권6호
    • /
    • pp.955-965
    • /
    • 2022
  • A low Earth orbit (LEO) satellite constellation could be used to provide network coverage for the entire globe. This study considers multi-beam frequency reuse in LEO satellite systems. In such a system, the channel is time-varying due to the fast movement of the satellite. This study proposes an efficient power and bandwidth allocation method that employs two linear machine learning algorithms and take channel conditions and traffic demand (TD) as input. With the aid of a simple linear system, the proposed scheme allows for the optimum allocation of resources under dynamic channel and TD conditions. Additionally, efficient projection schemes are added to the proposed method so that the provided capacity is best approximated to TD when TD exceeds the maximum allowable system capacity. The simulation results show that the proposed method outperforms existing methods.