• 제목/요약/키워드: Q learning

검색결과 426건 처리시간 0.031초

IRSML: An intelligent routing algorithm based on machine learning in software defined wireless networking

  • Duong, Thuy-Van T.;Binh, Le Huu
    • ETRI Journal
    • /
    • 제44권5호
    • /
    • pp.733-745
    • /
    • 2022
  • In software-defined wireless networking (SDWN), the optimal routing technique is one of the effective solutions to improve its performance. This routing technique is done by many different methods, with the most common using integer linear programming problem (ILP), building optimal routing metrics. These methods often only focus on one routing objective, such as minimizing the packet blocking probability, minimizing end-to-end delay (EED), and maximizing network throughput. It is difficult to consider multiple objectives concurrently in a routing algorithm. In this paper, we investigate the application of machine learning to control routing in the SDWN. An intelligent routing algorithm is then proposed based on the machine learning to improve the network performance. The proposed algorithm can optimize multiple routing objectives. Our idea is to combine supervised learning (SL) and reinforcement learning (RL) methods to discover new routes. The SL is used to predict the performance metrics of the links, including EED quality of transmission (QoT), and packet blocking probability (PBP). The routing is done by the RL method. We use the Q-value in the fundamental equation of the RL to store the PBP, which is used for the aim of route selection. Concurrently, the learning rate coefficient is flexibly changed to determine the constraints of routing during learning. These constraints include QoT and EED. Our performance evaluations based on OMNeT++ have shown that the proposed algorithm has significantly improved the network performance in terms of the QoT, EED, packet delivery ratio, and network throughput compared with other well-known routing algorithms.

한국 신용카드기업의 역량과 차별성 : 신용카드기업 종사자에 대한 Q 분석결과를 중심으로 (The Core Capabilities and Differences of Korean Credit Card Companies: Based on Q Analysis Results of Employers in Credit Card Companies)

  • 고형면
    • 한국조사연구학회지:조사연구
    • /
    • 제9권2호
    • /
    • pp.85-118
    • /
    • 2008
  • 이 연구는 한국의 신용카드기얼 종사자들에게 Q 방법을 접목시켜, 해당 기업의 역량과 차별성을 검증하려는 목적 하에 이루어졌다. 사회과학 내에서 제도의 진화에 초점을 두는 이론 진영은, 기업 구성원들의 가장 일상적인 활동 속에 기업의 경쟁력이 배태돼(embedded) 있음을 강조한다. 즉 암묵적이면서도 비공식화된 방식으로 이루어지는 매일의 학습, 의사소통, 의사결정이 조직의 동태적 역량(dynamic capabilities)을 결정짓는다. 기업 구성원들의 내적, 잠재적 활동을 객관적으로 측정하고자 이 연구는, 계량화가 어려운 인간의 질적.주관적 속성들을 수치화시키는데 장점을 지닌 Q 방법을 활용한다. 분석결과에 의하면, 다수의 응답자들이 기업역량과 경쟁력의 질적 수준이 향상되어야 함을 강조한다. 하지만 응답자들 중 은행계의 경우 주로 성장 지향적 정책과 기업발전을 중시하며, 기업계는 정책으로부터의 독립성을 강조하나 기업조직 우선적 사고에 갇혀 있다. 2000년 이후 고착화된 한국 신용카드산업의 주기적인 부침은, 신용카드기업의 역량(경쟁력), 산업환경, 정책의 개선에 대한 기업현장의 기대나 요구가 충분히 반영되지 않은 것과 결코 무관하지 않다.

  • PDF

On the Radial Basis Function Networks with the Basis Function of q-Normal Distribution

  • Eccyuya, Kotaro;Tanaka, Masaru
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 ITC-CSCC -1
    • /
    • pp.26-29
    • /
    • 2002
  • Radial Basis Function (RBF) networks is known as efficient method in classification problems and function approximation. The basis function of RBF networks is usual adopted normal distribution like the Gaussian function. The output of the Gaussian function has the maximum at the center and decrease as increase the distance from the center. For learning of neural network, the method treating the limited area of input space is sometimes more useful than the method treating the whole of input space. The q-normal distribution is the set of probability density function include the Gaussian function. In this paper, we introduce the RBF networks with the basis function of q-normal distribution and actually approximate a function using the RBF networks.

  • PDF

개방형 액체추진제로켓엔진의 추력 및 혼합비 제어 (Thrust and Propellant Mixture Ratio Control of Open Type Liquid Propellant Rocket Engine)

  • 정영석;이정호;오승협
    • 대한기계학회:학술대회논문집
    • /
    • 대한기계학회 2007년도 춘계학술대회A
    • /
    • pp.1143-1148
    • /
    • 2007
  • LRE(Liquid propellant Rocket Engine) is one of the important parts to control the motion of rocket. For operation of rocket in error boundary of the set-up trajectory, it is necessarily to control the thrust of LRE according to the required thrust profile and control the mixture ratio of propellants fed into combustor for the constant mixture ratio. It is not easy to control thrust and mixture ratio of propellants since there are co-interferences among the components of LRE. In this study, the dynamic model of LRE was constructed and the dynamic characteristics were analyzed with control system as PID control and PID+Q-ILC(Iterative Learning Control with Quadratic Criterion) control. From the analysis, it could be observed that PID+Q-ILC control logic is more useful than standard PID control system for control of LRE.

  • PDF

Actor-Critic Reinforcement Learning System with Time-Varying Parameters

  • Obayashi, Masanao;Umesako, Kosuke;Oda, Tazusa;Kobayashi, Kunikazu;Kuremoto, Takashi
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2003년도 ICCAS
    • /
    • pp.138-141
    • /
    • 2003
  • Recently reinforcement learning has attracted attention of many researchers because of its simple and flexible learning ability for any environments. And so far many reinforcement learning methods have been proposed such as Q-learning, actor-critic, stochastic gradient ascent method and so on. The reinforcement learning system is able to adapt to changes of the environment because of the mutual action with it. However when the environment changes periodically, it is not able to adapt to its change well. In this paper we propose the reinforcement learning system that is able to adapt to periodical changes of the environment by introducing the time-varying parameters to be adjusted. It is shown that the proposed method works well through the simulation study of the maze problem with aisle that opens and closes periodically, although the conventional method with constant parameters to be adjusted does not works well in such environment.

  • PDF

온라인 대학영문법 강의에서 상호작용과 정의적 요인이 교육효과에 미치는 영향 (Effects of Interactions and Affective Factors in On-line English Grammar Courses of High Education)

  • 박덕재
    • 한국콘텐츠학회논문지
    • /
    • 제12권4호
    • /
    • pp.510-519
    • /
    • 2012
  • 본 연구는 온라인 대학영문법 강의에서 의사소통을 통한 상호작용과 정의적 요소가 어떤 영향을 주고 있는지 알아보고자 하였다. 연구를 위하여 다음 두 가지 연구 질문을 갖는데 첫째, 온라인 영문법 강의에서는 상호작용이 어떻게 진행되고 있는가? 둘째, 정의적 요소가 온라인 영문법 강의의 교육효과에 영향을 주고 있는가? 이다. 이 문제를 알아보기 위해서 K 대학교 영문법 온라인 강의 수강생 170명에게 설문조사를 실시하였고, 300명 수강생의 강의에 대한 평가 답변을 분석하였다. 그 결과 긍정적인 면과 부정적인 부분을 발견할 수 있었다. 부정적인 답변이 17%이고 반면에 긍정적인 견해는 49.3%, 중간입장은 33.3% 였다. 면대면 수업이 아니기 때문에 발생하는 온라인 강의의 한계점을 극복하기 위해서는 즉각적인 피드백과 Q&A 게시판을 통하여 상호작용을 활성화시킬 수 있고 정의적 거리감도 해결할 수 있다는 가능성을 알 수 있었다. 온라인 강의로 인한 부정적인 문제는 단지 혼합교육(blended learning)이라는 새로운 방법으로 대치하기보다는 이론적인 기반과 잘 계획된 프로그램의 온라인 강의가 최대의 효과를 얻을 수 있다고 예상할 수 있었다.

적대적 멀티 에이전트 환경에서 효율적인 강화 학습을 위한 정책 모델링 (Policy Modeling for Efficient Reinforcement Learning in Adversarial Multi-Agent Environments)

  • 권기덕;김인철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권3호
    • /
    • pp.179-188
    • /
    • 2008
  • 멀티 에이전트 강화 학습에서 해결해야 할 중요한 문제는 자신의 작업 성능에 영향을 미칠 수 있는 다른 에이전트들이 존재하는 동적 환경에서 한 에이전트가 시행착오적 상호작용을 통해 어떻게 자신의 최적 행동 정책을 학습할 수 있느냐 하는 것이다. 멀티 에이전트 강화 학습을 위한 기존 연구들은 대부분 단일 에이전트 MDP 기반의 강화 학습기법들을 큰 변화 없이 그대로 적용하거나 비록 다른 에이전트에 관한 별도의 모델을 이용하더라도 다른 에이전트에 관해 요구되는 정보나 가정이 현실적이지 못하다는 한계점을 가지고 있다. 본 논문에서는 멀티 에이전트 강화 학습기술에 기초가 되는 기본 개념들을 정형화하고 이들을 기초로 기존 연구들의 특징과 한계점을 비교한다. 그리고 새로운 행동 정책 모델을 소개한 뒤, 이것을 이용한 강화 학습 방법을 설명한다. 본 논문에서 제안하는 멀티 에이전트 강화학습 방법은 상대 모델을 이용하는 기존의 멀티 에이전트 강화 학습 연구들에서 주로 시도되었던 상대 에이전트의 Q 평가 함수 모델 대신 상대 에이전트의 행동 정책 모델을 학습하며, 표현력은 풍부하나 학습에 시간과 노력이 많이 요구되는 유한 상태 오토마타나 마코프 체인과 같은 행동 정책 모델들에 비해 비교적 간단한 형태의 행동 정책 모델을 이용함으로써 학습의 효율성을 높였다. 또한, 본 논문에서는 대표적인 적대적 멀티 에이전트 환경인 고양이와 쥐게임을 소개하고, 이 게임을 테스베드삼아 비교 실험들을 수행하고 그 결과를 설명함으로써 본 논문에서 제안하는 정책 모델 기반의 멀티 에이전트 강화 학습의 효과를 분석해본다.

강화학습을 이용한 줄고누게임의 인공엔진개발 (Artificial Engine Development through Reinforcement Learning on Jul-Gonu Game)

  • 신용우
    • 인터넷정보학회논문지
    • /
    • 제10권1호
    • /
    • pp.93-99
    • /
    • 2009
  • 게임프로그램 제작이 단순히 3D 또는 온라인게임 등으로 분류하여 엔진과 게임프로그래밍을 하던 시기를 지나 이제는 게임프로그래밍의 종류를 세분화하여 인공지능 게임프로그래머의 역할이 게임을 좀 더 재미있게 할 수 있는 시점이라 하겠다. 본 논문에서는 강화학습 알고리즘을 이용하여 보상 값을 받아 줄고누 보드게임 말이 학습하게 하여 지능적으로 움직이게 하였다. 구현된 게임 말이 지능적으로 잘 움직이는지 확인하기위해, 보드게임을 제작하여 상대방 말과 승부를 하게 하였다. 실험결과 일정횟수 학습한 이후, 임의로 움직이는 말보다 성능이 월등히 향상됨을 알 수 있었다.

  • PDF

Agar 그래프트 폴리아크릴산 겔의 흡수능 최적화 (Optimization of the Water Absorption by Crosslinked Agar-g-Poly(acrylic acid))

  • Wuttisela, Karntarat;Panijpan, Bhinyo;Triampo, Wannapong;Triampo, Darapond
    • 폴리머
    • /
    • 제32권6호
    • /
    • pp.537-543
    • /
    • 2008
  • Crosslinked agar-g-poly(acrylic acid) (x-agar-g-PAA) super absorbent with a water absorbency ($Q_{H2O}$) of approximately 660 g/g was synthesized by the copolymerization of agar with an acrylic acid monomer. KPS and MBA were used as the initiator and crosslinker, respectively. Grafting was performed in air. Infrared spectroscopy was used to identify the product of copolymerization. The optimum conditions to synthesize the x-agar-g-PAA superabsorbent were 0.1 g of agar, 0.1 g of the KPS initiator, for 15 min; 50% AA monomer, 0.005 g of the MBA crosslinker, for a propagation time of 5 min; and 1 M NaOH for 15 min to allow for saponification. The reaction temperature was $80{^\circ}C$.

Edge Impulse 기계 학습 기반의 임베디드 시스템 설계 (Edge Impulse Machine Learning for Embedded System Design)

  • 홍선학
    • 디지털산업정보학회논문지
    • /
    • 제17권3호
    • /
    • pp.9-15
    • /
    • 2021
  • In this paper, the Embedded MEMS system to the power apparatus used Edge Impulse machine learning tools and therefore an improved predictive system design is implemented. The proposed MEMS embedded system is developed based on nRF52840 system and the sensor with 3-Axis Digital Magnetometer, I2C interface and magnetic measurable range ±120 uT, BM1422AGMV which incorporates magneto impedance elements to detect magnetic field and the ARM M4 32-bit processor controller circuit in a small package. The MEMS embedded platform is consisted with Edge Impulse Machine Learning and system driver implementation between hardware and software drivers using SensorQ which is special queue including user application temporary sensor data. In this paper by experimenting, TensorFlow machine learning training output is applied to the power apparatus for analyzing the status such as "Normal, Warning, Hazard" and predicting the performance at level of 99.6% accuracy and 0.01 loss.