• 제목/요약/키워드: Model based reinforcement learning

검색결과 150건 처리시간 0.028초

Resource Allocation Strategy of Internet of Vehicles Using Reinforcement Learning

  • Xi, Hongqi;Sun, Huijuan
    • Journal of Information Processing Systems
    • /
    • 제18권3호
    • /
    • pp.443-456
    • /
    • 2022
  • An efficient and reasonable resource allocation strategy can greatly improve the service quality of Internet of Vehicles (IoV). However, most of the current allocation methods have overestimation problem, and it is difficult to provide high-performance IoV network services. To solve this problem, this paper proposes a network resource allocation strategy based on deep learning network model DDQN. Firstly, the method implements the refined modeling of IoV model, including communication model, user layer computing model, edge layer offloading model, mobile model, etc., similar to the actual complex IoV application scenario. Then, the DDQN network model is used to calculate and solve the mathematical model of resource allocation. By decoupling the selection of target Q value action and the calculation of target Q value, the phenomenon of overestimation is avoided. It can provide higher-quality network services and ensure superior computing and processing performance in actual complex scenarios. Finally, simulation results show that the proposed method can maintain the network delay within 65 ms and show excellent network performance in high concurrency and complex scenes with task data volume of 500 kbits.

유사 이미지 분류를 위한 딥 러닝 성능 향상 기법 연구 (Research on Deep Learning Performance Improvement for Similar Image Classification)

  • 임동진;김태홍
    • 한국콘텐츠학회논문지
    • /
    • 제21권8호
    • /
    • pp.1-9
    • /
    • 2021
  • 딥 러닝을 활용한 컴퓨터 비전 연구는 여전히 대규모의 학습 데이터와 컴퓨팅 파워가 필수적이며, 최적의 네트워크 구조를 도출하기 위해 많은 시행착오가 수반된다. 본 연구에서는 네트워크 최적화나 데이터를 보강하는 것과 무관하게 데이터 자체의 특성만을 고려한 CR(Confusion Rate)기반의 유사 이미지 분류 성능 향상 기법을 제안한다. 제안 방법은 유사한 이미지 데이터를 정확히 분류하기 위해 CR을 산출하고 이를 손실 함수의 가중치에 반영함으로서 딥 러닝 모델의 성능을 향상시키는 기법을 제안한다. 제안 방법은 네트워크 최적화 결과와 독립적으로 이미지 분류 성능의 향상을 가져올 수 있으며, 클래스 간의 유사성을 고려해 유사도가 높은 이미지 식별에 적합하다. 제안 방법의 평가결과 HanDB에서는 0.22%, Animal-10N에서는 3.38%의 성능향상을 보였다. 제안한 방법은 다양한 Noisy Labeled 데이터를 활용한 인공지능 연구에 기반이 될 것을 기대한다.

심층 강화학습을 이용한 지능형 빗물펌프장 운영 시스템 개발 (A Development of Intelligent Pumping Station Operation System Using Deep Reinforcement Learning)

  • 강승호;박정현;주진걸
    • 융합보안논문지
    • /
    • 제20권1호
    • /
    • pp.33-40
    • /
    • 2020
  • 하천 인근에 위치한 빗물펌프장은 유수지를 대상으로 적절한 규칙에 따라 펌프를 가동함으로써 도심지 및 농경지 침수 피해를 예방하는 기능을 수행한다. 현재 대부분의 빗물펌프장은 유수지의 수위를 기준으로 단순한 규칙 기반의 펌프운영 정책을 사용하고 있다. 최근 지구온난화로 인한 기후 변화가 예측하기 어려운 강우량의 변화를 발생시키고 있다. 따라서 단순한 펌프정책으로는 지구온난화로 인한 갑작스러운 유수지 변화에 적절하게 대처하기 어렵다. 본 논문은 강우량과 저수량, 유수지 수위 등의 정보를 이용해 시스템이 적정 유수지 수위을 유지할 수 있도록 펌프 가동을 선택할 수 있는 심층 강화학습 기반의 자동 빗물펌프 운용 방법을 제시한다. 제안한 방법의 타당성을 검증하기 위해 강우-유출 모의 모델인 Storm Water Management Model(SWMM)을 이용해 모의실험을 수행하고 현장에서 사용되고 있는 기존 펌프 정책과 성능을 비교하였다.

Q-NAV: 수중 무선 네트워크에서 강화학습 기반의 NAV 설정 방법 (Q-NAV: NAV Setting Method based on Reinforcement Learning in Underwater Wireless Networks)

  • 박석현;조오현
    • 융합정보논문지
    • /
    • 제10권6호
    • /
    • pp.1-7
    • /
    • 2020
  • 수중 자원 탐색 및 해양 탐사, 환경 조사 등 수중 통신에 대한 수요가 급격하게 증가하고 있다. 하지만 수중 무선 통신을 사용하기 앞서 많은 문제점을 가지고 있다. 특히 수중 무선 네트워크에서 환경적 요인으로 인해 불가피하게 발생하는 불필요한 지연 시간과 노드 거리에 따른 공간적 불평등 문제가 존재한다. 본 논문은 이러한 문제를 해결하기 위해 ALOHA-Q를 기반으로 한 새로운 NAV 설정 방법을 제안한다. 제안 방법은 NAV 값을 랜덤하게 사용하고 통신 성공, 실패 유무에 따라 보상을 측정한다. 이후 보상 값에 따라 NAV 값을 설정 한다. 수중 무선 네트워크에서 에너지와 컴퓨팅 자원을 최대한 낮게 사용하면서 NAV 값을 강화 학습을 통하여 학습하고 한다. 시뮬레이션 결과 NAV 값이 해당 환경에 적응하고 최선의 값을 선택하여 불필요한 지연 시간문제와 공간적 불평등 문제를 해결할 수 있음을 보여준다. 시뮬레이션 결과 설정한 환경 내에서 기존 NAV 설정 시간 대비 약 17.5%의 시간을 감소하는 것을 보여준다.

Research on Developing a Conversational AI Callbot Solution for Medical Counselling

  • Won Ro LEE;Jeong Hyon CHOI;Min Soo KANG
    • 한국인공지능학회지
    • /
    • 제11권4호
    • /
    • pp.9-13
    • /
    • 2023
  • In this study, we explored the potential of integrating interactive AI callbot technology into the medical consultation domain as part of a broader service development initiative. Aimed at enhancing patient satisfaction, the AI callbot was designed to efficiently address queries from hospitals' primary users, especially the elderly and those using phone services. By incorporating an AI-driven callbot into the hospital's customer service center, routine tasks such as appointment modifications and cancellations were efficiently managed by the AI Callbot Agent. On the other hand, tasks requiring more detailed attention or specialization were addressed by Human Agents, ensuring a balanced and collaborative approach. The deep learning model for voice recognition for this study was based on the Transformer model and fine-tuned to fit the medical field using a pre-trained model. Existing recording files were converted into learning data to perform SSL(self-supervised learning) Model was implemented. The ANN (Artificial neural network) neural network model was used to analyze voice signals and interpret them as text, and after actual application, the intent was enriched through reinforcement learning to continuously improve accuracy. In the case of TTS(Text To Speech), the Transformer model was applied to Text Analysis, Acoustic model, and Vocoder, and Google's Natural Language API was applied to recognize intent. As the research progresses, there are challenges to solve, such as interconnection issues between various EMR providers, problems with doctor's time slots, problems with two or more hospital appointments, and problems with patient use. However, there are specialized problems that are easy to make reservations. Implementation of the callbot service in hospitals appears to be applicable immediately.

DQN 기반 비디오 스트리밍 서비스에서 세그먼트 크기가 품질 선택에 미치는 영향 (The Effect of Segment Size on Quality Selection in DQN-based Video Streaming Services)

  • 김이슬;임경식
    • 한국멀티미디어학회논문지
    • /
    • 제21권10호
    • /
    • pp.1182-1194
    • /
    • 2018
  • The Dynamic Adaptive Streaming over HTTP(DASH) is envisioned to evolve to meet an increasing demand on providing seamless video streaming services in the near future. The DASH performance heavily depends on the client's adaptive quality selection algorithm that is not included in the standard. The existing conventional algorithms are basically based on a procedural algorithm that is not easy to capture and reflect all variations of dynamic network and traffic conditions in a variety of network environments. To solve this problem, this paper proposes a novel quality selection mechanism based on the Deep Q-Network(DQN) model, the DQN-based DASH Adaptive Bitrate(ABR) mechanism. The proposed mechanism adopts a new reward calculation method based on five major performance metrics to reflect the current conditions of networks and devices in real time. In addition, the size of the consecutive video segment to be downloaded is also considered as a major learning metric to reflect a variety of video encodings. Experimental results show that the proposed mechanism quickly selects a suitable video quality even in high error rate environments, significantly reducing frequency of quality changes compared to the existing algorithm and simultaneously improving average video quality during video playback.

순서 의존적 작업 준비시간을 갖는 단일기계 작업장을 위한 강화학습 기반 작업 배정 모형 (Reinforcement Learning based Job Dispatching Model for Single Machine with Sequence Dependent Setup Time)

  • 박진성;김준우
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제67차 동계학술대회논문집 31권1호
    • /
    • pp.327-329
    • /
    • 2023
  • 순서 의존적 준비시간을 갖는 단일기계 생산라인에서 주어진 작업들을 효율적으로 수행하기 위해서는 최대한 동일하거나 유사한 유형의 작업물들을 연속적으로 처리하여 다음 번 작업물의 처리를 시작하기 전에 발생하는 준비시간을 최소화하여야 한다. 따라서, 대기 중인 것들 중 기계에 투입할 작업물을 적절히 선택하는 것이 중요하며, 이를 위해 작업 배정 규칙과 같은 휴리스틱을 사용할 수도 있지만, 이러한 해법들은 일반적으로 다양한 상황을 동적으로 고려하지 못하는 한계점을 갖는다. 따라서, 본 논문에서는 상용 3D 시뮬레이션 소프트웨어인 FlexSim을 사용하여 모형을 구성한 다음, 강화학습을 적용하여 대기 중인 작업물 중 최적의 후보를 선택하기 위한 작업 배정 모형을 개발하고자 한다. 세부적으로는 강화학습의 상태 및 보상을 달리 설정하면서 학습된 모형의 성능을 비교하고자 한다. 실험 결과를 통해 적절한 시뮬레이션 모형 구성과 강화학습의 파라미터 변수들을 적절히 조합하여 적절한 작업 배정 모형의 개발이 가능하다는 점을 알 수 있었다.

  • PDF

자율이동로봇의 동적 편대 헝성과 장애물 회피를 위한 신경망 구조 및 강화학습 (A Neural Network Model and Reinforcement Learning for Dynamic Formation Moving and Obstacle Avoidance of Autonomous Mobile Robot)

  • 민석기;신석영;강훈
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1998년도 하계학술대회 논문집 G
    • /
    • pp.2189-2192
    • /
    • 1998
  • The objective of this paper is, based upon the principles of artificial life, to induce emergent behaviors of multiple autonomous mobile robots which form from simple local rules to complex global intelligence. Here, we propose an architecture of neural network learing with reinforcement signals which perceives the neighborhood information and decides the direction and the velocity of movement as mobile robots navigates in a group. As results of the simulations, the optimum weights are obtained in real time, which not only prevent from the collisions between agents and obstacles in the dynamic environment, but also have the mobile robots move and keep in various patterns.

  • PDF

복잡계망 모델을 사용한 강화 학습 상태 공간의 효율적인 근사 (Efficient Approximation of State Space for Reinforcement Learning Using Complex Network Models)

  • 이승준;엄재홍;장병탁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권6호
    • /
    • pp.479-490
    • /
    • 2009
  • 여러 가지 실세계 문제들은 마르코프 결정 문제(Markov decision problem) 들로 형식화하여 풀 수 있으나, 풀이 과정의 높은 계산 복잡도 때문에 실세계 문제들을 직접적으로 다루는 데 많은 어려움이 있다. 이를 해결하기 위해 많은 시간적 추상화(Temporal abstraction) 방법들이 제안되어 왔고 이를 자동화하기 위한 여러 방법들 또한 연구되어 왔으나, 이들 방법들은 명시적인 효율성 척도를 갖고 있지 않아 이론적인 성능 보장을 하지 못하는 문제가 있었다. 본 연구에서는 문제의 크기가 커지더라도 좋은 성능이 보장되는 자동적인 시간적 추상화 구현 방법에 대해 제안한다. 이를 위하여 네트워크 척도(Network measurements)를 이용하여 마르코프 결정 문제의 풀이 효율과 상태 궤적 그래프(State trajectory graph)의 위상 특성간의 관계를 분석하고, 네트워크 척도들 중 평균 측지 거리(Mean geodesic distance)가 마르코프 결정 문제의 풀이 성능과 밀접한 관계가 있다는 사실을 알아내었다. 이 사실을 기반으로 하여, 낮은 평균 측지 거리를 보장하는 복잡계망 모델(Complex network model)을 사용하여 시간적 추상화를 만들어 나가는 알고리즘을 제안한다. 제안된 알고리즘은 사실적인 3차원 게임 환경을 비롯한 여러 문제에 대해 테스트되었고, 문제 크기의 증가에도 불구하고 효율적인 풀이 성능을 보여 주었다.

A Neurofuzzy Algorithm-Based Advanced Bilateral Controller for Telerobot Systems

  • Cha, Dong-hyuk;Cho, Hyung-Suck
    • Transactions on Control, Automation and Systems Engineering
    • /
    • 제4권1호
    • /
    • pp.100-107
    • /
    • 2002
  • The advanced bilateral control algorithm, which can enlarge a reflected force by combining force reflection and compliance control, greatly enhances workability in teleoperation. In this scheme the maximum boundaries of a compliance controller and a force reflection gain guaranteeing stability and good task performance greatly depend upon characteristics of a slave arm, a master arm, and an environment. These characteristics, however, are generally unknown in teleoperation. It is, therefore, very difficult to determine such maximum boundary of the gain. The paper presented a novel method for design of an advanced bilateral controller. The factors affecting task performance and stability in the advanced bilateral controller were analyzed and a design guideline was presented. The neurofuzzy compliance model (NFCM)-based bilateral control proposed herein is an algorithm designed to automatically determine the suitable compliance for a given task or environment. The NFCM, composed of a fuzzy logic controller (FLC) and a rule-learning mechanism, is used as a compliance controller. The FLC generates compliant motions according to contact forces. The rule-learning mechanism, which is based upon the reinforcement learning algorithm, trains the rule-base of the FLC until the given task is done successfully. Since the scheme allows the use of large force reflection gain, it can assure good task performance. Moreover, the scheme does not require any priori knowledge on a slave arm dynamics, a slave arm controller and an environment, and thus, it can be easily applied to the control of any telerobot systems. Through a series of experiments effectiveness of the proposed algorithm has been verified.