• 제목/요약/키워드: 심층 강화학습

검색결과 108건 처리시간 0.023초

심층 강화학습을 이용한 모바일 로봇의 맵 기반 장애물 회피 알고리즘 (Map-Based Obstacle Avoidance Algorithm for Mobile Robot Using Deep Reinforcement Learning)

  • 선우영민;이원창
    • 전기전자학회논문지
    • /
    • 제25권2호
    • /
    • pp.337-343
    • /
    • 2021
  • 심층 강화학습은 학습자가 가공되지 않은 고차원의 입력 데이터를 기반으로 최적의 행동을 선택할 수 있게 하는 인공지능 알고리즘이며, 이를 이용하여 장애물들이 존재하는 환경에서 모바일 로봇의 최적 이동 경로를 생성하는 연구가 많이 진행되었다. 본 논문에서는 복잡한 주변 환경의 이미지로부터 모바일 로봇의 이동 경로를 생성하기 위하여 우선 순위 경험 재사용(Prioritized Experience Replay)을 사용하는 Dueling Double DQN(D3QN) 알고리즘을 선택하였다. 가상의 환경은 로봇 시뮬레이터인 Webots를 사용하여 구현하였고, 시뮬레이션을 통해 모바일 로봇이 실시간으로 장애물의 위치를 파악하고 회피하여 목표 지점에 도달하는 것을 확인하였다.

자율사물을 위한 심층학습 인공지능 기술 적용 동향 (Application Trends of Deep Learning Artificial Intelligence in Autonomous Things)

  • 조준면
    • 전자통신동향분석
    • /
    • 제35권6호
    • /
    • pp.1-11
    • /
    • 2020
  • Recently, autonomous things, which are pieces of equipment or devices that grasp the context of circumstances on their own and perform actions appropriate for the situation in the surrounding environment, are attracting much research interest. This is because autonomous things are expected to be able to interact with humans more naturally, supersede humans in many tasks, and further solve problems by themselves by collaborating with each other without human intervention. This prospect leans heavily on AI as deep learning has delivered astonishing breakthroughs recently and broadened its range of applications. This paper surveys application trends in deep learning-based AI techniques for autonomous things, especially autonomous driving vehicles, because they present a wide range of problems involving perception, decision, and actions that are very common in other autonomous things.

심층 강화학습을 이용한 지능형 빗물펌프장 운영 시스템 개발 (A Development of Intelligent Pumping Station Operation System Using Deep Reinforcement Learning)

  • 강승호;박정현;주진걸
    • 융합보안논문지
    • /
    • 제20권1호
    • /
    • pp.33-40
    • /
    • 2020
  • 하천 인근에 위치한 빗물펌프장은 유수지를 대상으로 적절한 규칙에 따라 펌프를 가동함으로써 도심지 및 농경지 침수 피해를 예방하는 기능을 수행한다. 현재 대부분의 빗물펌프장은 유수지의 수위를 기준으로 단순한 규칙 기반의 펌프운영 정책을 사용하고 있다. 최근 지구온난화로 인한 기후 변화가 예측하기 어려운 강우량의 변화를 발생시키고 있다. 따라서 단순한 펌프정책으로는 지구온난화로 인한 갑작스러운 유수지 변화에 적절하게 대처하기 어렵다. 본 논문은 강우량과 저수량, 유수지 수위 등의 정보를 이용해 시스템이 적정 유수지 수위을 유지할 수 있도록 펌프 가동을 선택할 수 있는 심층 강화학습 기반의 자동 빗물펌프 운용 방법을 제시한다. 제안한 방법의 타당성을 검증하기 위해 강우-유출 모의 모델인 Storm Water Management Model(SWMM)을 이용해 모의실험을 수행하고 현장에서 사용되고 있는 기존 펌프 정책과 성능을 비교하였다.

이중 심층 Q 네트워크 기반 장애물 회피 경로 계획 (Path Planning with Obstacle Avoidance Based on Double Deep Q Networks)

  • 자오 용지앙;첸센폰;성승제;허정규;임창균
    • 한국전자통신학회논문지
    • /
    • 제18권2호
    • /
    • pp.231-240
    • /
    • 2023
  • 심층 강화 학습(Deep Reinforcement Learning)을 사용한 경로 계획에서 장애물을 자동으로 회피하기 위해 로봇을 학습시키는 일은 쉬운 일이 아니다. 많은 연구자가 DRL을 사용하여 주어진 환경에서 로봇 학습을 통해 장애물 회피하여 경로 계획을 수립하려는 가능성을 시도하였다. 그러나 다양한 환경에서 로봇과 장착된 센서의 오는 다양한 요인 때문에 주어진 시나리오에서 로봇이 모든 장애물을 완전히 회피하여 이동하는 것을 실현하는 일은 흔치 않다. 이러한 문제 해결의 가능성과 장애물을 회피 경로 계획 실험을 위해 테스트베드를 만들었고 로봇에 카메라를 장착하였다. 이 로봇의 목표는 가능한 한 빨리 벽과 장애물을 피해 시작점에서 끝점까지 도달하는 것이다. 본 논문에서는 벽과 장애물을 회피하기 위한 DRL의 가능성을 검증하기 위해 이중 심층 Q 네트워크(DDQN)를 제안하였다. 실험에 사용된 로봇은 Jetbot이며 자동화된 경로 계획에서 장애물 회피가 필요한 일부 로봇 작업 시나리오에 적용할 수 있을 것이다.

A3C를 활용한 블록체인 기반 금융 자산 포트폴리오 관리 (Blockchain Based Financial Portfolio Management Using A3C)

  • 김주봉;허주성;임현교;권도형;한연희
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제8권1호
    • /
    • pp.17-28
    • /
    • 2019
  • 금융투자 관리 전략 중에서 여러 금융 상품을 선택하고 조합하여 분산 투자하는 것을 포트폴리오 관리 이론이라 부른다. 최근, 블록체인 기반 금융 자산, 즉 암호화폐들이 몇몇 유명 거래소에 상장되어 거래가 되고 있으며, 암호화폐 투자자들이 암호화폐에 대한 투자 수익을 안정적으로 올리기 위하여 효율적인 포트폴리오 관리 방안이 요구되고 있다. 한편 딥러닝이 여러 분야에서 괄목할만한 성과를 보이면서 심층 강화학습 알고리즘을 포트폴리오 관리에 적용하는 연구가 시작되었다. 본 논문은 기존에 발표된 심층강화학습 기반 금융 포트폴리오 투자 전략을 바탕으로 대표적인 비동기 심층 강화학습 알고리즘인 Asynchronous Advantage Actor-Critic (A3C)를 적용한 효율적인 금융 포트폴리오 투자 관리 기법을 제안한다. 또한, A3C를 포트폴리오 투자 관리에 접목시키는 과정에서 기존의 Cross-Entropy 함수를 그대로 적용할 수 없기 때문에 포트폴리오 투자 방식에 적합하게 기존의 Cross-Entropy를 변형하여 그 해법을 제시한다. 마지막으로 기존에 발표된 강화학습 기반 암호화폐 포트폴리오 투자 알고리즘과의 비교평가를 수행하여, 본 논문에서 제시하는 Deterministic Policy Gradient based A3C 모델의 성능이 우수하다는 것을 입증하였다.

심층강화학습 기반 분산형 전력 시스템에서의 수요와 공급 예측을 통한 전력 거래시스템 (Power Trading System through the Prediction of Demand and Supply in Distributed Power System Based on Deep Reinforcement Learning)

  • 이승우;선준호;김수현;김진영
    • 한국인터넷방송통신학회논문지
    • /
    • 제21권6호
    • /
    • pp.163-171
    • /
    • 2021
  • 본 논문은 분산형 전력 시스템에서 심층강화학습 기반의 전력 생산 환경 및 수요와 공급을 예측하며 자원 할당 알고리즘을 적용해 전력거래 시스템 연구의 최적화된 결과를 보여준다. 전력 거래시스템에 있어서 기존의 중앙집중식 전력 시스템에서 분산형 전력 시스템으로의 패러다임 변화에 맞추어 전력거래에 있어서 공동의 이익을 추구하며 장기적인 거래의 효율을 증가시키는 전력 거래시스템의 구축을 목표로 한다. 심층강화학습의 현실적인 에너지 모델과 환경을 만들고 학습을 시키기 위해 날씨와 매달의 패턴을 분석하여 데이터를 생성하며 시뮬레이션을 진행하는 데 있어서 가우시안 잡음을 추가해 에너지 시장 모델을 구축하였다. 모의실험 결과 제안된 전력 거래시스템은 서로 협조적이며 공동의 이익을 추구하며 장기적으로 이익을 증가시킨 것을 확인하였다.

교차로에서 자율주행을 위한 심층 강화 학습 활성화 함수 비교 분석 (Comparison of Activation Functions using Deep Reinforcement Learning for Autonomous Driving on Intersection)

  • 이동철
    • 한국인터넷방송통신학회논문지
    • /
    • 제21권6호
    • /
    • pp.117-122
    • /
    • 2021
  • 자율주행은 자동차가 사람 없이 운전할 수 있도록 해 주며 최근 인공지능 기술의 발전에 힘입어 매우 활발히 연구되고 있다. 인공지능 기술 중에서도 특히 심층 강화 학습이 가장 효과적으로 사용되는데 이를 위해서는 적절한 활성화 함수를 이용한 신경망 구축이 필수적이다. 여태껏 많은 활성화 함수가 제시됐으나 적용 분야에 따라 서로 다른 성능을 보여주었다. 본 논문은 교차로에서 자율주행을 학습하기 위해 심층 강화 학습을 사용할 때 어떤 활성화 함수를 사용하는 것이 효과적인지 성능을 비교 평가한다. 이를 위해 평가에서 사용할 성능 메트릭을 정의하고 각 활성화 함수에 따른 메트릭의 값을 그래프로 비교하였다. 그 결과 Mish를 사용할 경우 보상이 다른 활성화 함수보다 평균적으로 높은 것을 알 수 있었고 보상이 가장 낮은 활성화 함수와의 차이는 9.8%였다.

셀 분해 알고리즘을 활용한 심층 강화학습 기반 무인 항공기 경로 계획 (UAV Path Planning based on Deep Reinforcement Learning using Cell Decomposition Algorithm)

  • 김경훈;황병선;선준호;김수현;김진영
    • 한국인터넷방송통신학회논문지
    • /
    • 제24권3호
    • /
    • pp.15-20
    • /
    • 2024
  • 무인 항공기의 경로 계획은 고정 및 동적 장애물을 포함하는 복합 환경에서 장애물 충돌을 회피하는 것이 중요하다. RRT나 A*와 같은 경로 계획 알고리즘은 고정된 장애물 회피를 효과적으로 수행하지만, 고차원 환경일수록 계산 복잡도가 증가하는 한계점을 가진다. 강화학습 기반 알고리즘은 복합적인 환경 반영이 가능하지만, 기존 경로 계획 알고리즘과 같이 고차원 환경일수록 훈련 복잡도가 증가하여 수렴성을 기대하기 힘들다. 본 논문은 셀 분해 알고리즘을 활용한 강화학습 모델을 제안한다. 제안한 모델은 학습 환경을 세부적으로 분해하여 환경의 복잡도를 감소시킨다. 또한, 에이전트의 유효한 행동을 설정하여 장애물 회피 성능을 개선한다. 이를 통해 강화학습의 탐험 문제를 해결하고, 학습의 수렴성을 높인다. 시뮬레이션 결과는 제안된 모델이 일반적인 환경의 강화학습 모델과 비교하여 학습 속도를 개선하고 효율적인 경로를 계획할 수 있음을 보여준다.

글로벌 최적 솔루션을 위한 설명 가능한 심층 강화 학습 지식 증류 (Explainable Deep Reinforcement Learning Knowledge Distillation for Global Optimal Solutions)

  • 이봉준 ;조인휘
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.524-525
    • /
    • 2023
  • 설명 가능한 심층 강화 학습 지식 증류 방법(ERL-KD)이 제안하였다. 이 방법은 모든 하위 에이전트로부터 점수를 수집하며, 메인 에이전트는 주 교사 네트워크 역할을 하고 하위 에이전트는 보조 교사 네트워크 역할을 한다. 글로벌 최적 솔루션은 샤플리 값과 같은 해석 가능한 방법을 통해 얻어진다. 또한 유사도 제약이라는 개념을 도입하여 교사 네트워크와 학생 네트워크 간의 유사도를 조정함으로써 학생 네트워크가 자유롭게 탐색할 수 있도록 유도한다. 실험 결과, 학생 네트워크는 아타리 2600 환경에서 대규모 교사 네트워크와 비슷한 성능을 달성하는 것으로 나타났다.

단말간 직접 통신 네트워크를 위한 심층 강화학습 기반 분산적 스케쥴링 알고리즘 (A Distributed Scheduling Algorithm based on Deep Reinforcement Learning for Device-to-Device communication networks)

  • 정무웅;김륜우;반태원
    • 한국정보통신학회논문지
    • /
    • 제24권11호
    • /
    • pp.1500-1506
    • /
    • 2020
  • 본 논문에서는 오버레이 단말 간 직접 (Device-to-Device : D2D) 통신 네트워크를 위한 강화학습 기반 스케쥴링 문제를 연구한다. 강화학습 모델 중 하나인 Q-learning을 이용한 D2D 통신 기술들이 연구되었지만, Q-learning은 상태와 행동의 개수가 증가함에 따라서 높은 복잡도를 유발한다. 이러한 문제를 해결하기 위하여 Deep Q Network (DQN) 기반 D2D 통신 기술들이 연구되었다. 본 논문에서는 무선 통신 시스템 특성을 고려한 DQN 모델을 디자인하고, 피드백 및 시그널링 오버헤드를 줄일 수 있는 DQN 기반 분산적 스케쥴링 방식을 제안한다. 제안 방식은 중앙집중식으로 변수들을 학습시키고, 최종 학습된 파라미터를 모든 단말들에게 전달한다. 모든 단말들은 최종 학습된 파라미터를 이용하여 각자의 행동을 개별적으로 결정한다. 제안 방식의 성능을 컴퓨터 시뮬레이션을 통하여 분석하고, 최적방식, 기회주의적 선택 방식, 전체 전송 방식과 비교한다.