• 제목/요약/키워드: Model based reinforcement learning

검색결과 155건 처리시간 0.028초

DQN 기반 비디오 스트리밍 서비스에서 세그먼트 크기가 품질 선택에 미치는 영향 (The Effect of Segment Size on Quality Selection in DQN-based Video Streaming Services)

  • 김이슬;임경식
    • 한국멀티미디어학회논문지
    • /
    • 제21권10호
    • /
    • pp.1182-1194
    • /
    • 2018
  • The Dynamic Adaptive Streaming over HTTP(DASH) is envisioned to evolve to meet an increasing demand on providing seamless video streaming services in the near future. The DASH performance heavily depends on the client's adaptive quality selection algorithm that is not included in the standard. The existing conventional algorithms are basically based on a procedural algorithm that is not easy to capture and reflect all variations of dynamic network and traffic conditions in a variety of network environments. To solve this problem, this paper proposes a novel quality selection mechanism based on the Deep Q-Network(DQN) model, the DQN-based DASH Adaptive Bitrate(ABR) mechanism. The proposed mechanism adopts a new reward calculation method based on five major performance metrics to reflect the current conditions of networks and devices in real time. In addition, the size of the consecutive video segment to be downloaded is also considered as a major learning metric to reflect a variety of video encodings. Experimental results show that the proposed mechanism quickly selects a suitable video quality even in high error rate environments, significantly reducing frequency of quality changes compared to the existing algorithm and simultaneously improving average video quality during video playback.

순서 의존적 작업 준비시간을 갖는 단일기계 작업장을 위한 강화학습 기반 작업 배정 모형 (Reinforcement Learning based Job Dispatching Model for Single Machine with Sequence Dependent Setup Time)

  • 박진성;김준우
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제67차 동계학술대회논문집 31권1호
    • /
    • pp.327-329
    • /
    • 2023
  • 순서 의존적 준비시간을 갖는 단일기계 생산라인에서 주어진 작업들을 효율적으로 수행하기 위해서는 최대한 동일하거나 유사한 유형의 작업물들을 연속적으로 처리하여 다음 번 작업물의 처리를 시작하기 전에 발생하는 준비시간을 최소화하여야 한다. 따라서, 대기 중인 것들 중 기계에 투입할 작업물을 적절히 선택하는 것이 중요하며, 이를 위해 작업 배정 규칙과 같은 휴리스틱을 사용할 수도 있지만, 이러한 해법들은 일반적으로 다양한 상황을 동적으로 고려하지 못하는 한계점을 갖는다. 따라서, 본 논문에서는 상용 3D 시뮬레이션 소프트웨어인 FlexSim을 사용하여 모형을 구성한 다음, 강화학습을 적용하여 대기 중인 작업물 중 최적의 후보를 선택하기 위한 작업 배정 모형을 개발하고자 한다. 세부적으로는 강화학습의 상태 및 보상을 달리 설정하면서 학습된 모형의 성능을 비교하고자 한다. 실험 결과를 통해 적절한 시뮬레이션 모형 구성과 강화학습의 파라미터 변수들을 적절히 조합하여 적절한 작업 배정 모형의 개발이 가능하다는 점을 알 수 있었다.

  • PDF

자율이동로봇의 동적 편대 헝성과 장애물 회피를 위한 신경망 구조 및 강화학습 (A Neural Network Model and Reinforcement Learning for Dynamic Formation Moving and Obstacle Avoidance of Autonomous Mobile Robot)

  • 민석기;신석영;강훈
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1998년도 하계학술대회 논문집 G
    • /
    • pp.2189-2192
    • /
    • 1998
  • The objective of this paper is, based upon the principles of artificial life, to induce emergent behaviors of multiple autonomous mobile robots which form from simple local rules to complex global intelligence. Here, we propose an architecture of neural network learing with reinforcement signals which perceives the neighborhood information and decides the direction and the velocity of movement as mobile robots navigates in a group. As results of the simulations, the optimum weights are obtained in real time, which not only prevent from the collisions between agents and obstacles in the dynamic environment, but also have the mobile robots move and keep in various patterns.

  • PDF

복잡계망 모델을 사용한 강화 학습 상태 공간의 효율적인 근사 (Efficient Approximation of State Space for Reinforcement Learning Using Complex Network Models)

  • 이승준;엄재홍;장병탁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권6호
    • /
    • pp.479-490
    • /
    • 2009
  • 여러 가지 실세계 문제들은 마르코프 결정 문제(Markov decision problem) 들로 형식화하여 풀 수 있으나, 풀이 과정의 높은 계산 복잡도 때문에 실세계 문제들을 직접적으로 다루는 데 많은 어려움이 있다. 이를 해결하기 위해 많은 시간적 추상화(Temporal abstraction) 방법들이 제안되어 왔고 이를 자동화하기 위한 여러 방법들 또한 연구되어 왔으나, 이들 방법들은 명시적인 효율성 척도를 갖고 있지 않아 이론적인 성능 보장을 하지 못하는 문제가 있었다. 본 연구에서는 문제의 크기가 커지더라도 좋은 성능이 보장되는 자동적인 시간적 추상화 구현 방법에 대해 제안한다. 이를 위하여 네트워크 척도(Network measurements)를 이용하여 마르코프 결정 문제의 풀이 효율과 상태 궤적 그래프(State trajectory graph)의 위상 특성간의 관계를 분석하고, 네트워크 척도들 중 평균 측지 거리(Mean geodesic distance)가 마르코프 결정 문제의 풀이 성능과 밀접한 관계가 있다는 사실을 알아내었다. 이 사실을 기반으로 하여, 낮은 평균 측지 거리를 보장하는 복잡계망 모델(Complex network model)을 사용하여 시간적 추상화를 만들어 나가는 알고리즘을 제안한다. 제안된 알고리즘은 사실적인 3차원 게임 환경을 비롯한 여러 문제에 대해 테스트되었고, 문제 크기의 증가에도 불구하고 효율적인 풀이 성능을 보여 주었다.

A Neurofuzzy Algorithm-Based Advanced Bilateral Controller for Telerobot Systems

  • Cha, Dong-hyuk;Cho, Hyung-Suck
    • Transactions on Control, Automation and Systems Engineering
    • /
    • 제4권1호
    • /
    • pp.100-107
    • /
    • 2002
  • The advanced bilateral control algorithm, which can enlarge a reflected force by combining force reflection and compliance control, greatly enhances workability in teleoperation. In this scheme the maximum boundaries of a compliance controller and a force reflection gain guaranteeing stability and good task performance greatly depend upon characteristics of a slave arm, a master arm, and an environment. These characteristics, however, are generally unknown in teleoperation. It is, therefore, very difficult to determine such maximum boundary of the gain. The paper presented a novel method for design of an advanced bilateral controller. The factors affecting task performance and stability in the advanced bilateral controller were analyzed and a design guideline was presented. The neurofuzzy compliance model (NFCM)-based bilateral control proposed herein is an algorithm designed to automatically determine the suitable compliance for a given task or environment. The NFCM, composed of a fuzzy logic controller (FLC) and a rule-learning mechanism, is used as a compliance controller. The FLC generates compliant motions according to contact forces. The rule-learning mechanism, which is based upon the reinforcement learning algorithm, trains the rule-base of the FLC until the given task is done successfully. Since the scheme allows the use of large force reflection gain, it can assure good task performance. Moreover, the scheme does not require any priori knowledge on a slave arm dynamics, a slave arm controller and an environment, and thus, it can be easily applied to the control of any telerobot systems. Through a series of experiments effectiveness of the proposed algorithm has been verified.

무인이동체와 딥러닝 기반 이미지 분석 기술을 활용한 철도교량 자동 손상 분석 방법 연구 (A Study of Railway Bridge Automatic Damage Analysis Method Using Unmanned Aerial Vehicle and Deep Learning-based Image Analysis Technology)

  • 나용현;박미연
    • 한국재난정보학회 논문집
    • /
    • 제17권3호
    • /
    • pp.556-567
    • /
    • 2021
  • 연구목적: 본 연구에서는 무인이동체를 활용한 철도교량의 외관조사 점검을 보다 효율적이고 신뢰성 있게 점검을 위하여 무인이동체를 통해 촬영된 이미지를 바탕으로 다양한 방식의 딥러닝 기반 자동 손상 분석기술을 검토하였다. 연구방법: 취득된 이미지를 바탕으로 손상항목을 정의하고 학습데이터로 추출하여 딥러닝 분석 모델을 생성하였다. 그리고 철도교량의 외관 손상 중 균열, 콘크리트 박리·박락, 누수, 철근노출에 대한 손상 이미지를 학습한 모델을 적용하여 자동 손상 분석 결과로 테스트하였다. 연구결과: 분석 결과 평균 95%이상 검측 재현율을 도출하는 분석 기법을 검토할 수 있었다. 이와 같은 분석 기술은 기존 육안점검 결과 대비 보다 객관적이고 정밀한 손상 검측이 가능하다. 결론: 본 연구를 통해 개발된 기술을 통해 철도 유지관리 분야에서 무인이동체를 활용한 정기점검 시 자동손상분석을 통한 객관적인 결과도출과 기존 대비 소요시간, 비용저감이 가능할 것으로 기대된다.

자율운항기술 기반의 선박 통항 안전성 평가 방법론 개선 연구 (Study on Improving the Navigational Safety Evaluation Methodology based on Autonomous Operation Technology)

  • 박준모
    • 해양환경안전학회지
    • /
    • 제30권1호
    • /
    • pp.74-81
    • /
    • 2024
  • 곧 다가올 미래에는 자율운항선박, 육상 원격제어센터에서 제어되는 선박, 그리고 항해사가 탑승하여 운항하는 선박이 함께 공존하며 해상을 운항할 것이며, 이러한 상황이 도래했을 때 해상 교통 환경의 안전을 평가할 수 있는 방법이 필요할 것으로 사료된다. 이에 본 연구에서는 자율운항기술을 사용하여 항해사가 직접 조종하는 선박과 자율운항선박이 공존하는 해상환경 하에서 선박조종시뮬레이션을 통해 통항 안전성을 평가하기 위한 방안을 제시하였다. 자선은 6-자유도 운동 기반의 MMG 모델을 심층 강화학습기법 중 하나인 PPO 알고리즘으로 학습하여 자율운항 기능을 갖출 수 있도록 설계하였다. 타선은 평가 대상 해역의 해상 교통 모델링 자료로부터 선박이 생성되도록 하였고, 기 학습된 선박모델을 기반으로 자율운항 기능을 구현되도록 하였다. 그리고 해양기상 자료 데이터베이스로부터 조위, 파랑, 조류, 바람에 대한 자료를 수집하여 수치 모델을 수립하고 이를 기반으로 해양기상 모델을 생성하여 시뮬레이터 상에서 해양 기상이 재현되도록 설계하였다. 마지막으로 안전성 평가는 기존의 평가 방법을 그대로 유지하되, 선박조종시뮬레이션에서 해상교통류 시뮬레이션을 통한 충돌 위험성 평가가 가능하도록 하는 시스템을 제안하였다.

An Adaptive Multi-Echelon Inventory Control Model for Nonstationary Demand Process

  • Na, Sung-Soo;Jun, Jin;Kim, Chang-Ouk
    • 한국경영과학회:학술대회논문집
    • /
    • 대한산업공학회/한국경영과학회 2004년도 춘계공동학술대회 논문집
    • /
    • pp.441-445
    • /
    • 2004
  • In this paper, we deal with an inventory model of a multi-stage, serial supply chain system where a single product type and nonstationary customer demand pattern are considered. The retailer and suppliers place their orders according to an echelon-stock based replenishment control policy. We assume that the suppliers can access online information on the demand history and use this information when making their replenishment decisions. Using a reinforcement learning technique, the inventory control parameters are designed to adaptively change as the customer demand pattern is altered, in order to maintain a given target service level. Through a simulation based experiment, we verified that our approach is good for maintaining the target service level.

  • PDF

Short Term Spectrum Trading in Future LTE Based Cognitive Radio Systems

  • Singh, Hiran Kumar;Kumar, Dhananjay;Srilakshmi, R.
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제9권1호
    • /
    • pp.34-49
    • /
    • 2015
  • Market means of spectrum trading have been utilized as a vital method of spectrum sharing and access in future cognitive radio system. In this paper, we consider the spectrum trading with multiple primary carrier providers (PCP) leasing the spectrum to multiple secondary carrier providers (SCP) for a short period of time. Several factors including the price of the resource, duration of leasing, and the spectrum quality guides the proposed model. We formulate three trading policies based on the game theory for dynamic spectrum access in a LTE based cognitive radio system (CRS). In the first, we consider utility function based resource sharing (UFRS) without any knowledge of past transaction. In the second policy, each SCP deals with PCP using a non-cooperative resource sharing (NCRS) method which employs optimal strategy based on reinforcement learning. In variation of second policy, third policy adopts a Nash bargaining while incorporating a recommendation entity in resource sharing (RERS). The simulation results suggest overall increase in throughput while maintaining higher spectrum efficiency and fairness.

초등학생의 정보통신윤리 실천력 강화를 위한 지(知)·정(情)·의(意) 통합 교수·학습 모형 개발 및 적용 (Development and Application of a Teaching-learning Model Integrating Cognitive, Affective and Conative Dimensions for the Reinforcement of Practice of Elementary School's Information Technology Ethics)

  • 이맹화;정복문;김영식
    • 컴퓨터교육학회논문지
    • /
    • 제11권4호
    • /
    • pp.13-21
    • /
    • 2008
  • 본 연구에서는 "알지만 행하지 않는다."는 정보통신윤리교육의 근본적인 문제점을 해결하고 실천력을 강화시킬 수 있는 방법을 모색해 보았다. 인지 중심의 편향된 교육이 실천으로 자연스럽게 이어지지 못한다는 점을 생각하여 인지 정의 행동이 통합된 교육 방법을 제시하였다. 먼저 선행 연구들을 분석하여 실천력을 강화시킬 수 있는 전략들을 조사 분석하고 실천력 강화를 위한 지(知) 정(情) 의(意) 통합 교수 학습 모형을 개발하였다. 개발된 지(知) 정(情) 의(意) 통합 교수 학습 모형을 초등학교 현장에 적용하여 학업성취도와 실천력 측면에서 효과성을 검증하였다. 이 때, 실천력은 사전, 사후 관찰 결과를 정량화하여 나타내었는데, 연구의 신뢰성을 높이기 위하여 교사의 참여 관찰, 수업 녹화 후 비디오 자료 분석, 홈페이지와 학습지 등 다양한 학습 결과물 분석, 면담 등의 방법을 이용하였다.

  • PDF