• 제목/요약/키워드: deep reinforcement learning

검색결과 208건 처리시간 0.03초

Deep Learning based Loss Recovery Mechanism for Video Streaming over Mobile Information-Centric Network

  • Han, Longzhe;Maksymyuk, Taras;Bao, Xuecai;Zhao, Jia;Liu, Yan
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권9호
    • /
    • pp.4572-4586
    • /
    • 2019
  • Mobile Edge Computing (MEC) and Information-Centric Networking (ICN) are essential network architectures for the future Internet. The advantages of MEC and ICN such as computation and storage capabilities at the edge of the network, in-network caching and named-data communication paradigm can greatly improve the quality of video streaming applications. However, the packet loss in wireless network environments still affects the video streaming performance and the existing loss recovery approaches in ICN does not exploit the capabilities of MEC. This paper proposes a Deep Learning based Loss Recovery Mechanism (DL-LRM) for video streaming over MEC based ICN. Different with existing approaches, the Forward Error Correction (FEC) packets are generated at the edge of the network, which dramatically reduces the workload of core network and backhaul. By monitoring network states, our proposed DL-LRM controls the FEC request rate by deep reinforcement learning algorithm. Considering the characteristics of video streaming and MEC, in this paper we develop content caching detection and fast retransmission algorithm to effectively utilize resources of MEC. Experimental results demonstrate that the DL-LRM is able to adaptively adjust and control the FEC request rate and achieve better video quality than the existing approaches.

적층방향에 따른 3D프린팅 콘크리트의 면내 및 면외 구조 성능 평가 연구 (In-Plane and Out-of-Plane Test and FEM Analysis of 3D Printing Concrete Specimens According to Stacking Direction)

  • 안효서;이가윤;이성민;신동원;이기학
    • 한국지진공학회논문집
    • /
    • 제27권6호
    • /
    • pp.321-330
    • /
    • 2023
  • In this study, the structural performance of the specimen fabricated through 3D printing was evaluated through monotonic loading experiments analysis to apply to 3D printed structures. The compression and flexural experiments were carried out, and the experimental results were compared to the finite element model results. The loading directions of specimens were investigated to consider the capacity of specimens with different curing periods, such as 7 and 28 days. As a result, the strength tended to increase slightly depending on the stacking direction. Also, between the 3D-printed panel composite and the non-reinforced panel, the bending performance depended on the presence or absence of composite reinforcement.

A3C를 활용한 블록체인 기반 금융 자산 포트폴리오 관리 (Blockchain Based Financial Portfolio Management Using A3C)

  • 김주봉;허주성;임현교;권도형;한연희
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제8권1호
    • /
    • pp.17-28
    • /
    • 2019
  • 금융투자 관리 전략 중에서 여러 금융 상품을 선택하고 조합하여 분산 투자하는 것을 포트폴리오 관리 이론이라 부른다. 최근, 블록체인 기반 금융 자산, 즉 암호화폐들이 몇몇 유명 거래소에 상장되어 거래가 되고 있으며, 암호화폐 투자자들이 암호화폐에 대한 투자 수익을 안정적으로 올리기 위하여 효율적인 포트폴리오 관리 방안이 요구되고 있다. 한편 딥러닝이 여러 분야에서 괄목할만한 성과를 보이면서 심층 강화학습 알고리즘을 포트폴리오 관리에 적용하는 연구가 시작되었다. 본 논문은 기존에 발표된 심층강화학습 기반 금융 포트폴리오 투자 전략을 바탕으로 대표적인 비동기 심층 강화학습 알고리즘인 Asynchronous Advantage Actor-Critic (A3C)를 적용한 효율적인 금융 포트폴리오 투자 관리 기법을 제안한다. 또한, A3C를 포트폴리오 투자 관리에 접목시키는 과정에서 기존의 Cross-Entropy 함수를 그대로 적용할 수 없기 때문에 포트폴리오 투자 방식에 적합하게 기존의 Cross-Entropy를 변형하여 그 해법을 제시한다. 마지막으로 기존에 발표된 강화학습 기반 암호화폐 포트폴리오 투자 알고리즘과의 비교평가를 수행하여, 본 논문에서 제시하는 Deterministic Policy Gradient based A3C 모델의 성능이 우수하다는 것을 입증하였다.

DDPG 알고리즘을 이용한 양팔 매니퓰레이터의 협동작업 경로상의 특이점 회피 경로 계획 (Singularity Avoidance Path Planning on Cooperative Task of Dual Manipulator Using DDPG Algorithm)

  • 이종학;김경수;김윤재;이장명
    • 로봇학회논문지
    • /
    • 제16권2호
    • /
    • pp.137-146
    • /
    • 2021
  • When controlling manipulator, degree of freedom is lost in singularity so specific joint velocity does not propagate to the end effector. In addition, control problem occurs because jacobian inverse matrix can not be calculated. To avoid singularity, we apply Deep Deterministic Policy Gradient(DDPG), algorithm of reinforcement learning that rewards behavior according to actions then determines high-reward actions in simulation. DDPG uses off-policy that uses 𝝐-greedy policy for selecting action of current time step and greed policy for the next step. In the simulation, learning is given by negative reward when moving near singulairty, and positive reward when moving away from the singularity and moving to target point. The reward equation consists of distance to target point and singularity, manipulability, and arrival flag. Dual arm manipulators hold long rod at the same time and conduct experiments to avoid singularity by simulated path. In the learning process, if object to be avoided is set as a space rather than point, it is expected that avoidance of obstacles will be possible in future research.

Performance Improvement of Fuzzy C-Means Clustering Algorithm by Optimized Early Stopping for Inhomogeneous Datasets

  • Chae-Rim Han;Sun-Jin Lee;Il-Gu Lee
    • Journal of information and communication convergence engineering
    • /
    • 제21권3호
    • /
    • pp.198-207
    • /
    • 2023
  • Responding to changes in artificial intelligence models and the data environment is crucial for increasing data-learning accuracy and inference stability of industrial applications. A learning model that is overfitted to specific training data leads to poor learning performance and a deterioration in flexibility. Therefore, an early stopping technique is used to stop learning at an appropriate time. However, this technique does not consider the homogeneity and independence of the data collected by heterogeneous nodes in a differential network environment, thus resulting in low learning accuracy and degradation of system performance. In this study, the generalization performance of neural networks is maximized, whereas the effect of the homogeneity of datasets is minimized by achieving an accuracy of 99.7%. This corresponds to a decrease in delay time by a factor of 2.33 and improvement in performance by a factor of 2.5 compared with the conventional method.

가상 환경과 실제 환경의 병행 강화학습을 통한 실내 자율주행 (Indoor Autonomous Driving through Parallel Reinforcement Learning of Virtual and Real Environments)

  • 정유석;이창우
    • 한국산업정보학회논문지
    • /
    • 제26권4호
    • /
    • pp.11-18
    • /
    • 2021
  • 강화 학습을 통한 실내 자율주행을 위해 가상 환경과 실제 환경에서 학습을 병행하는 방법을 제안한다. 실제 환경에서만 학습을 진행했을 경우 80시간 정도의 소요 시간이 필요하지만, 실제 환경과 가상 환경을 병행하며 학습을 진행했을 경우 50시간의 소요 시간이 필요하다. 가상 환경과 실제 환경에서 학습을 병행하면서 빠른 학습으로 다양한 실험을 거쳐 최적화된 파라미터를 얻을 수 있는 이점이 있다. 실내복도 이미지를 이용하여 가상 환경을 구성한 후 데스크톱으로 선행학습을 진행하였고 실제 환경에서의 학습은 Jetson Xavier를 기반으로 다양한 센서와 연결하여 학습을 진행하였다. 또한, 실내복도 환경의 반복되는 텍스처에 따른 정확도 문제를 해결하기 위해 복도 벽의 아랫선을 강조하는 특징점 검출을 학습하여 복도 벽 객체를 판단하고 정확도를 높일 수 있었다. 학습을 진행할수록 실험 차량은 실내복도 환경에서 복도 중앙을 기준으로 주행하며 평균 70회의 조향명령을 통해 움직인다.

다양한 자율주행 이동체에 적용하기 위한 장애물 회피의사 결정 시스템 연구 (Decision Support System of Obstacle Avoidance for Mobile Vehicles)

  • 강병준;김종원
    • 한국산학기술학회논문지
    • /
    • 제19권6호
    • /
    • pp.639-645
    • /
    • 2018
  • 본 논문은 자율주행 자동차 및 자율주행이 가능한 이동체를 대상으로 광범위하게 적용 가능한 지능형 의사결정 모델을 개발하기 위한 연구이다. 개발된 모듈은 다양한 주행환경에 적용하기 위하여 독립적인 모듈 구성형태를 갖추고 이를 유기적으로 운영하기 위한 플랫폼을 기반으로 각 모듈을 Deep Learning 기법을 이용한 강화학습을 통해 이동체의 차선변경 의사 결정 및 안전 확보에 관하여 연구하였다. 운행 중인 자율주행 이동체는 주행상태의 변경을 위하여 기능별로 속도결정 모델과 차선변경 의사결정이 반드시 선행되어야 이동체의 다음 행동이 이루어 질 수 있는 특징을 갖고 있다. 또한, 일반 도로상에 주행 중인 이동체들이 모두 자율주행 기능을 갖춘 상태라면 특정 이동체의 돌발적인 변화 및 주변 환경의 변화가 발생하면 그에 따른 각각의 이동체들 사이에 발생할 수 있는 연쇄반응 요소는 고려되기 어려운 특징을 갖고 있다. 이런 부분을 함께 고려하여 자율주행 플랫폼에 적용하고 이를 위한 개별 이동체의 차선변경 의사결정 시스템 연구와 모듈형 학습 방법을 이용하여 시스템 복잡도를 줄이고 학습시간의 단축과 향후 모델의 교체를 할 수 있는 의사결정 모델을 연구하였다.

무인이동체와 딥러닝 기반 이미지 분석 기술을 활용한 철도교량 자동 손상 분석 방법 연구 (A Study of Railway Bridge Automatic Damage Analysis Method Using Unmanned Aerial Vehicle and Deep Learning-based Image Analysis Technology)

  • 나용현;박미연
    • 한국재난정보학회 논문집
    • /
    • 제17권3호
    • /
    • pp.556-567
    • /
    • 2021
  • 연구목적: 본 연구에서는 무인이동체를 활용한 철도교량의 외관조사 점검을 보다 효율적이고 신뢰성 있게 점검을 위하여 무인이동체를 통해 촬영된 이미지를 바탕으로 다양한 방식의 딥러닝 기반 자동 손상 분석기술을 검토하였다. 연구방법: 취득된 이미지를 바탕으로 손상항목을 정의하고 학습데이터로 추출하여 딥러닝 분석 모델을 생성하였다. 그리고 철도교량의 외관 손상 중 균열, 콘크리트 박리·박락, 누수, 철근노출에 대한 손상 이미지를 학습한 모델을 적용하여 자동 손상 분석 결과로 테스트하였다. 연구결과: 분석 결과 평균 95%이상 검측 재현율을 도출하는 분석 기법을 검토할 수 있었다. 이와 같은 분석 기술은 기존 육안점검 결과 대비 보다 객관적이고 정밀한 손상 검측이 가능하다. 결론: 본 연구를 통해 개발된 기술을 통해 철도 유지관리 분야에서 무인이동체를 활용한 정기점검 시 자동손상분석을 통한 객관적인 결과도출과 기존 대비 소요시간, 비용저감이 가능할 것으로 기대된다.

강화학습 기반 주식 투자 웹 서비스 (An Implementation of Stock Investment Service based on Reinforcement Learning)

  • 박정연;홍승식;박민규;이현
    • 문화기술의 융합
    • /
    • 제7권4호
    • /
    • pp.807-814
    • /
    • 2021
  • 코로나-19로 인해 경제 활동이 낮아지고 주식 시장이 침체하면서 주식 투자를 통해 또 다른 소득을 마련하기 위해 많은 사람이 주식 시장에 뛰어들고 있다. 사람들의 관심이 높아지면서 더 많은 수익을 얻기 위한 주가 분석 연구가 많이 진행되고 있다. 주가는 종목별 변동의 흐름이 다르므로 각 주가 종목별로 독립적이며 일관적으로 분석할 필요가 있다. 이러한 문제를 해결하고자 본 논문에서는 강화학습 기법 중 하나인 Asynchronous Advantage Actor-Critic(A3C)를 이용하여 주가를 분석할 수 있는 모델 및 서비스를 설계 및 구현하였다. 주식 시장 데이터로 종목별 주가 및 국채, 코스피와 같은 외부 요인들을 반영하였다. 또한 웹페이지 제작을 통해 시각화한 정보를 제공하여 투자자들이 투자 기업에 대한 재무제표를 비롯하여 국내외 경제 및 정치의 흐름을 모두 분석하지 않고도 안전한 투자를 할 수 있도록 서비스를 제공한다.

심층 신경망 기반 대화처리 기술 동향 (Trends in Deep-neural-network-based Dialogue Systems)

  • 권오욱;홍택규;황금하;노윤형;최승권;김화연;김영길;이윤근
    • 전자통신동향분석
    • /
    • 제34권4호
    • /
    • pp.55-64
    • /
    • 2019
  • In this study, we introduce trends in neural-network-based deep learning research applied to dialogue systems. Recently, end-to-end trainable goal-oriented dialogue systems using long short-term memory, sequence-to-sequence models, among others, have been studied to overcome the difficulties of domain adaptation and error recognition and recovery in traditional pipeline goal-oriented dialogue systems. In addition, some research has been conducted on applying reinforcement learning to end-to-end trainable goal-oriented dialogue systems to learn dialogue strategies that do not appear in training corpora. Recent neural network models for end-to-end trainable chit-chat systems have been improved using dialogue context as well as personal and topic information to produce a more natural human conversation. Unlike previous studies that have applied different approaches to goal-oriented dialogue systems and chit-chat systems respectively, recent studies have attempted to apply end-to-end trainable approaches based on deep neural networks in common to them. Acquiring dialogue corpora for training is now necessary. Therefore, future research will focus on easily and cheaply acquiring dialogue corpora and training with small annotated dialogue corpora and/or large raw dialogues.