• 제목/요약/키워드: Path of Reinforcement

검색결과 133건 처리시간 0.023초

효율적인 경로 선택을 위한 Q-Learning 정책 및 보상 설계 (Q-Learning Policy and Reward Design for Efficient Path Selection)

  • 용성중;박효경;유연휘;문일영
    • 한국항행학회논문지
    • /
    • 제26권2호
    • /
    • pp.72-77
    • /
    • 2022
  • 강화학습의 기법 중 Q-Learning은 주어진 상태에서 행동을 수행하면서 미래의 효율적인 기댓값을 예측하는 Q 함수를 학습하면서 최적의 정책을 학습하는 것이다. Q-Learning은 강화학습의 기본적인 알고리즘으로 많이 활용하고 있다. 본 논문에서는 Q-Learning을 바탕으로 정책과 보상을 설계하여 효율적인 경로를 선택하고 학습하는 효용성에 대하여 연구하였다. 또한 Frozen Lake 게임의 8x8 그리드 환경에 동일한 학습 횟수를 적용하여 기존 알고리즘 및 처벌 보상 정책과 제시한 처벌강화 정책의 결과를 비교하였다. 해당 비교를 통해 본 논문에서 제시한 Q-Learning의 처벌강화 정책이 통상적인 알고리즘의 적용보다 학습 속도를 상당히 높일 수 있는 것으로 분석되었다.

A Motivation-Based Action-Selection-Mechanism Involving Reinforcement Learning

  • Lee, Sang-Hoon;Suh, Il-Hong;Kwon, Woo-Young
    • International Journal of Control, Automation, and Systems
    • /
    • 제6권6호
    • /
    • pp.904-914
    • /
    • 2008
  • An action-selection-mechanism(ASM) has been proposed to work as a fully connected finite state machine to deal with sequential behaviors as well as to allow a state in the task program to migrate to any state in the task, in which a primitive node in association with a state and its transitional conditions can be easily inserted/deleted. Also, such a primitive node can be learned by a shortest path-finding-based reinforcement learning technique. Specifically, we define a behavioral motivation as having state-dependent value as a primitive node for action selection, and then sequentially construct a network of behavioral motivations in such a way that the value of a parent node is allowed to flow into a child node by a releasing mechanism. A vertical path in a network represents a behavioral sequence. Here, such a tree for our proposed ASM can be newly generated and/or updated whenever a new behavior sequence is learned. To show the validity of our proposed ASM, experimental results of a mobile robot performing the task of pushing- a- box-in to- a-goal(PBIG) will be illustrated.

지능로봇을 위한 행동선택 및 학습구조 (An Action Selection Mechanism and Learning Algorithm for Intelligent Robot)

  • 윤영민;이상훈;서일홍
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2004년도 학술대회 논문집 정보 및 제어부문
    • /
    • pp.496-498
    • /
    • 2004
  • An action-selection-mechanism is proposed to deal with sequential behaviors, where associations between some of stimulus and behaviors will be learned by a shortest-path-finding-based reinforcement team ins technique. To be specific, we define behavioral motivation as a primitive node for action selection, and then sequentially construct a network with behavioral motivations. The vertical path of the network represents a behavioral sequence. Here, such a tree fur our proposed ASM can be newly generated and/or updated. whenever a new sequential behaviors is learned. To show the validity of our proposed ASM, some experimental results on a "pushing-box-into-a-goal task" of a mobile robot will be illustrated.

  • PDF

강화학습 기반의 지역 경로 탐색 및 장애물 회피 시스템 (Local Path Planning and Obstacle Avoidance System based on Reinforcement Learning)

  • 이세훈;염대훈;김풍일
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제59차 동계학술대회논문집 27권1호
    • /
    • pp.59-60
    • /
    • 2019
  • WCS에서 AGV의 스케줄링과 동적, 정적 장애물 인식 및 충돌 회피문제는 오래전부터 다뤄져 온 중요한 문제이다. 본 논문에서는 위의 문제를 해결하기 위해 Lidar 센서를 중심으로 다양한 데이터를 기반으로 한 강화학습 시스템을 제안한다. 제안하는 시스템은 기본의 명시적인 알고리즘에 비해 다양하고 유동적인 환경에서 경로 계획과 동적 정적 장애물을 인식하고 안정적으로 회피하는 것을 확인하였으며 산업 현장에 도입 가능성을 확인하였다. 또한 강화학습의 적용 범위, 적용 방안과 한계에 대해서 시사한다.

  • PDF

An autonomous radiation source detection policy based on deep reinforcement learning with generalized ability in unknown environments

  • Hao Hu;Jiayue Wang;Ai Chen;Yang Liu
    • Nuclear Engineering and Technology
    • /
    • 제55권1호
    • /
    • pp.285-294
    • /
    • 2023
  • Autonomous radiation source detection has long been studied for radiation emergencies. Compared to conventional data-driven or path planning methods, deep reinforcement learning shows a strong capacity in source detection while still lacking the generalized ability to the geometry in unknown environments. In this work, the detection task is decomposed into two subtasks: exploration and localization. A hierarchical control policy (HC) is proposed to perform the subtasks at different stages. The low-level controller learns how to execute the individual subtasks by deep reinforcement learning, and the high-level controller determines which subtasks should be executed at the current stage. In experimental tests under different geometrical conditions, HC achieves the best performance among the autonomous decision policies. The robustness and generalized ability of the hierarchy have been demonstrated.

다중경로 통신 시스템에서 톰슨 샘플링을 이용한 경로 선택 기법 (Thompson sampling based path selection algorithm in multipath communication system)

  • Chung, Byung Chang
    • 한국정보통신학회논문지
    • /
    • 제25권12호
    • /
    • pp.1960-1963
    • /
    • 2021
  • In this paper, we propose a multiplay Thompson sampling algorithm in multipath communication system. Multipath communication system has advantages on communication capacity, robustness, survivability, and so on. It is important to select appropriate network path according to the status of individual path. However, it is hard to obtain the information of path quality simultaneously. To solve this issue, we propose Thompson sampling which is popular in machine learning area. We find some issues when the algorithm is applied directly in the proposal system and suggested some modifications. Through simulation, we verified the proposed algorithm can utilize the entire network paths. In summary, our proposed algorithm can be applied as a path allocation in multipath-based communications system.

이중 심층 Q 네트워크 기반 장애물 회피 경로 계획 (Path Planning with Obstacle Avoidance Based on Double Deep Q Networks)

  • 자오 용지앙;첸센폰;성승제;허정규;임창균
    • 한국전자통신학회논문지
    • /
    • 제18권2호
    • /
    • pp.231-240
    • /
    • 2023
  • 심층 강화 학습(Deep Reinforcement Learning)을 사용한 경로 계획에서 장애물을 자동으로 회피하기 위해 로봇을 학습시키는 일은 쉬운 일이 아니다. 많은 연구자가 DRL을 사용하여 주어진 환경에서 로봇 학습을 통해 장애물 회피하여 경로 계획을 수립하려는 가능성을 시도하였다. 그러나 다양한 환경에서 로봇과 장착된 센서의 오는 다양한 요인 때문에 주어진 시나리오에서 로봇이 모든 장애물을 완전히 회피하여 이동하는 것을 실현하는 일은 흔치 않다. 이러한 문제 해결의 가능성과 장애물을 회피 경로 계획 실험을 위해 테스트베드를 만들었고 로봇에 카메라를 장착하였다. 이 로봇의 목표는 가능한 한 빨리 벽과 장애물을 피해 시작점에서 끝점까지 도달하는 것이다. 본 논문에서는 벽과 장애물을 회피하기 위한 DRL의 가능성을 검증하기 위해 이중 심층 Q 네트워크(DDQN)를 제안하였다. 실험에 사용된 로봇은 Jetbot이며 자동화된 경로 계획에서 장애물 회피가 필요한 일부 로봇 작업 시나리오에 적용할 수 있을 것이다.

산업용 자율 주행 로봇에서의 격자 지도를 사용한 강화학습 기반 회피 경로 생성기 개발 (Development of Reinforcement Learning-based Obstacle Avoidance toward Autonomous Mobile Robots for an Industrial Environment)

  • 양정연
    • 한국콘텐츠학회논문지
    • /
    • 제19권3호
    • /
    • pp.72-79
    • /
    • 2019
  • 자율 주행은 이동 로봇의 핵심적 기술로써, 측정된 센서 정보를 토대로 불확실한 위치 정보를 이용한 지도 작성 및 수정 기능과, 불확실한 지도 및 센서 정보를 이용한 로봇의 위치 인식 기능으로 구성된다. 자율주행은 이러한 주행 위치의 불확실성에 기반한 확률론적 방법론과 함께 주행 시 장애물의 감지 및 회피 경로의 생성, 반복적 주행 패턴에 따른 경로 관리 기능이 필수적 요소이다. 거리 기반의 스캐너를 통해 관측된 센서 입력은, 지도 구성에 사용된 벽과 같은 정적 물체와 주행 시의 사람처럼 움직이는 동적 물체와의 구별이 필요하기 ?문에 장애물 감지에 어려움이 있다. 본 논문에서는, 이러한 자율 주행 환경에서 기존의 정적, 동적 개체의 판별 방식과 비교하여, 장애물 회피를 위한 저해상도 격자 공간의 생성 및 강화학습을 이용한 경로 생성을 다루고자 한다. 최종적으로 실험을 통해 제안된 방법론의 실효성을 검증하고자 한다.

강화학습 기반 피난 알고리즘 개발과 성능평가에 관한 기초연구 (A Basic Research on the Development and Performance Evaluation of Evacuation Algorithm Based on Reinforcement Learning)

  • 황광일;김별
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2023년도 춘계학술대회
    • /
    • pp.132-133
    • /
    • 2023
  • 재난 상황에서 사람을 안전하게 피난시키는 것은 매우 중요하다. 인명 안전을 위한 다양한 피난 시뮬레이션 툴이 개발되어 사용되고 있지만, 대부분의 툴에 적용된 방식은 Map을 분석하여 최단 경로를 추출해 Agent를 결정된 경로를 따라 이동시키는 알고리즘으로 구현되었다. 이 방법은 재난 환경에 변화가 없는 조건에서 피난경로를 빠른 시간에 예측하기에 적합하다. 그러나 재난상황은 시시각각으로 변화하기 때문에 피난알고리즘은 이에 대응할 수 있어야 하지만 기존 알고리즘으로는 대응이 곤란한 실정이다. 강화학습을 기반으로 한 인공지능 기술을 활용하면 변화하는 재난에 대응 가능한 피난경로 알고리즘의 개발 가능할 것으로 예상된다. 이에 본 연구에서는 알고리즘 개발의 기초단계로서, 강화학습 기법으로 개발된 피난 알고리즘이 IMO MSC.1/Circ1533에서 요구하는 피난시뮬레이션 툴의 성능조건을 만족하는지 여부를 평가하였다.

  • PDF

SDN에서 심층강화학습 기반 라우팅 알고리즘 (A Routing Algorithm based on Deep Reinforcement Learning in SDN)

  • 이성근
    • 한국전자통신학회논문지
    • /
    • 제16권6호
    • /
    • pp.1153-1160
    • /
    • 2021
  • 본 논문은 소프트웨어 정의 네트워크에서 심층강화학습을 활용하여 최적의 경로를 결정하는 라우팅 알고리즘을 제안한다. 학습을 위한 심층강화학습 모델은 DQN 을 기반으로 하고, 입력은 현재 네트워크 상태, 발신지, 목적지 노드이고, 출력은 발신지에서 목적지까지의 경로 리스트를 반환한다. 라우팅 작업을 이산 제어 문제로 정의하며, 라우팅을 위한 서비스 품질 파라미터는 지연, 대역폭, 손실률을 고려하였다. 라우팅 에이전트는 사용자의 서비스 품질 프로파일에 따라 적절한 서비스 등급으로 분류하고, SDN에서 수집된 현재 네트워크 상태로부터 각 링크 별로 제공할 수 있는 서비스 등급을 변환한다. 이러한 변환된 정보를 토대로 발신지에서부터 목적지까지 요구되는 서비스 등급을 만족시키는 경로를 선택하도록 학습을 한다. 시뮬레이션 결과는 제안한 알고리즘이 일정한 에피소드를 진행하게 되면 올바른 경로를 선택하게 되고, 학습이 성공적으로 수행됨을 나타냈다.