• 제목/요약/키워드: learning function

검색결과 2,295건 처리시간 0.036초

多入力 시스템의 자율학습제어를 위한 차등책임 적응비평학습 (Differentially Responsible Adaptive Critic Learning ( DRACL ) for the Self-Learning Control of Multiple-Input System)

  • 김형석
    • 전자공학회논문지S
    • /
    • 제36S권2호
    • /
    • pp.28-37
    • /
    • 1999
  • 재 강화 학습 방법을 다수의 제어입력을 가진 시스템에 대한 자율적 제어 기법 습득에 활용하기 위해서 차등책임 적응비평 학습구조를 제안하였다. 재 강화 학습은 여러 단계의 제어동작 끝에 얻어지는 최종 비평값을 활용하여 그 전에 행해졌던 제어 동작을 강화 혹은 약화 학습하는 자율적 학습방법이다. 대표적인 재강화학습 방법은 적응비평학습 구조를 이용하는 방법인데 비평모듈과 동작모듈을 이용하여 외부 비평 값을 최대로 활용함으로써 학습효과를 극대화시키는 방법이다. 이 학습방법에서는 단일한 제어입력을 갖는 시스템으로만 적용이 제한된다는 단점이 있다. 제안한 차등책임 적응비평 학습 구조에서는 비평함수를 제어 입력 인자의 함수로 구축한 다음 제어인자에 대한 차별 화된 비평 값을 부분미분을 통하여 산출함으로써 다수의 제어입력을 가진 시스템의 제어기술 학습이 가능하게 하였다. 제안한 학습제어 구조는 학습속도가 빠른 CMAC 신경회로망을 이용하여 구축하였으며 2개의 제어입력을 갖는 2-D Cart-Pole 시스템과 3 개의 제어입력을 갖는 인간구조 로봇시스템의 앉는 동작의 학습제어 시뮬레이션을 통하여 효용성을 확인하였다.

  • PDF

카트-폴 균형 문제를 위한 실시간 강화 학습 (On-line Reinforcement Learning for Cart-pole Balancing Problem)

  • 김병천;이창훈
    • 한국인터넷방송통신학회논문지
    • /
    • 제10권4호
    • /
    • pp.157-162
    • /
    • 2010
  • Cart-pole 균형 문제는 유전자 알고리즘, 인공신경망, 강화학습 등을 이용한 제어 전략 분야의 표준 문제이다. 본 논문에서는 cart-pole 균형문제를 해결하기 위해 실시간 강화 학습을 이용한 접근 방법을 제안하였다. 본 논문의 목적은 cart-pole 균형 문제에서 OREL 학습 시스템의 학습 방법을 분석하는데 있다. 실험을 통해, 본 논문에서 제안한 OREL 학습 방법은 Q-학습보다 최적 값 함수에 더 빠르게 접근함을 알 수 있었다.

DOA 기반 학습률 조절을 이용한 다채널 음성개선 알고리즘 (Multi-Channel Speech Enhancement Algorithm Using DOA-based Learning Rate Control)

  • 김수환;이영재;김영일;정상배
    • 말소리와 음성과학
    • /
    • 제3권3호
    • /
    • pp.91-98
    • /
    • 2011
  • In this paper, a multi-channel speech enhancement method using the linearly constrained minimum variance (LCMV) algorithm and a variable learning rate control is proposed. To control the learning rate for adaptive filters of the LCMV algorithm, the direction of arrival (DOA) is measured for each short-time input signal and the likelihood function of the target speech presence is estimated to control the filter learning rate. Using the likelihood measure, the learning rate is increased during the pure noise interval and decreased during the target speech interval. To optimize the parameter of the mapping function between the likelihood value and the corresponding learning rate, an exhaustive search is performed using the Bark's scale distortion (BSD) as the performance index. Experimental results show that the proposed algorithm outperforms the conventional LCMV with fixed learning rate in the BSD by around 1.5 dB.

  • PDF

Deep Learning 기반의 DGA 개발에 대한 연구 (A Study on the Development of DGA based on Deep Learning)

  • 박재균;최은수;김병준;장범
    • 한국인공지능학회지
    • /
    • 제5권1호
    • /
    • pp.18-28
    • /
    • 2017
  • Recently, there are many companies that use systems based on artificial intelligence. The accuracy of artificial intelligence depends on the amount of learning data and the appropriate algorithm. However, it is not easy to obtain learning data with a large number of entity. Less data set have large generalization errors due to overfitting. In order to minimize this generalization error, this study proposed DGA which can expect relatively high accuracy even though data with a less data set is applied to machine learning based genetic algorithm to deep learning based dropout. The idea of this paper is to determine the active state of the nodes. Using Gradient about loss function, A new fitness function is defined. Proposed Algorithm DGA is supplementing stochastic inconsistency about Dropout. Also DGA solved problem by the complexity of the fitness function and expression range of the model about Genetic Algorithm As a result of experiments using MNIST data proposed algorithm accuracy is 75.3%. Using only Dropout algorithm accuracy is 41.4%. It is shown that DGA is better than using only dropout.

딥러닝 모형의 복잡도에 관한 연구 (A study on complexity of deep learning model)

  • 김동하;백규승;김용대
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권6호
    • /
    • pp.1217-1227
    • /
    • 2017
  • 딥러닝은 영상 인식, 음성 인식 등 기존의 머신 러닝 기법들로 해결이 어려웠던 분야에서 매우 우수한 성능을 보였고, 그로 인해 딥러닝의 폭발적인 연구의 증가가 있었다. 좋은 성능을 보이는 모형 및 모수 추정 방법에 대한 연구들이 주를 이루고 있는 현 흐름 속에서 딥러닝의 이론적인 연구 또한 조심스럽게 진행되고 있다. 본 논문에서는 딥러닝의 성공을 딥러닝 함수가 복잡한 함수를 효율적으로 잘 표현할 수 있음에 해답을 찾고, 이에 관련된 이론적인 연구들을 조사하여 분석하고자 한다.

딥러닝을 위한 경사하강법 비교 (Comparison of Gradient Descent for Deep Learning)

  • 강민제
    • 한국산학기술학회논문지
    • /
    • 제21권2호
    • /
    • pp.189-194
    • /
    • 2020
  • 본 논문에서는 신경망을 학습하는 데 가장 많이 사용되고 있는 경사하강법에 대해 분석하였다. 학습이란 손실함수가 최소값이 되도록 매개변수를 갱신하는 것이다. 손실함수는 실제값과 예측값의 차이를 수치화 해주는 함수이다. 경사하강법은 오차가 최소화되도록 매개변수를 갱신하는데 손실함수의 기울기를 사용하는 것으로 현재 최고의 딥러닝 학습알고리즘을 제공하는 라이브러리에서 사용되고 있다. 그러나 이 알고리즘들은 블랙박스형태로 제공되고 있어서 다양한 경사하강법들의 장단점을 파악하는 것이 쉽지 않다. 경사하강법에서 현재 대표적으로 사용되고 있는 확률적 경사하강법(Stochastic Gradient Descent method), 모멘텀법(Momentum method), AdaGrad법 그리고 Adadelta법의 특성에 대하여 분석하였다. 실험 데이터는 신경망을 검증하는 데 널리 사용되는 MNIST 데이터 셋을 사용하였다. 은닉층은 2개의 층으로 첫 번째 층은 500개 그리고 두 번째 층은 300개의 뉴런으로 구성하였다. 출력 층의 활성화함수는 소프트 맥스함수이고 나머지 입력 층과 은닉 층의 활성화함수는 ReLu함수를 사용하였다. 그리고 손실함수는 교차 엔트로피 오차를 사용하였다.

Q-learning 알고리즘이 성능 향상을 위한 CEE(CrossEntropyError)적용 (Applying CEE (CrossEntropyError) to improve performance of Q-Learning algorithm)

  • 강현구;서동성;이병석;강민수
    • 한국인공지능학회지
    • /
    • 제5권1호
    • /
    • pp.1-9
    • /
    • 2017
  • Recently, the Q-Learning algorithm, which is one kind of reinforcement learning, is mainly used to implement artificial intelligence system in combination with deep learning. Many research is going on to improve the performance of Q-Learning. Therefore, purpose of theory try to improve the performance of Q-Learning algorithm. This Theory apply Cross Entropy Error to the loss function of Q-Learning algorithm. Since the mean squared error used in Q-Learning is difficult to measure the exact error rate, the Cross Entropy Error, known to be highly accurate, is applied to the loss function. Experimental results show that the success rate of the Mean Squared Error used in the existing reinforcement learning was about 12% and the Cross Entropy Error used in the deep learning was about 36%. The success rate was shown.

비선형 함수 학습 근사화를 위한 퍼지 개념을 이용한 웨이브렛 신경망 (The wavelet neural network using fuzzy concept for the nonlinear function learning approximation)

  • 변오성;문성룡
    • 한국지능시스템학회논문지
    • /
    • 제12권5호
    • /
    • pp.397-404
    • /
    • 2002
  • 본 논문에서는 퍼지와 웨이브렛 변환의 다해상도 분해(MRA)를 가진 퍼지 개념을 이용한 웨이브렛 신경망을 제안하고, 또한 이 시스템을 이용하여 임의의 비선형 함수 학습 근사화를 개선하고자 한다. 여기에서 퍼지 개념은 벨(bell)형 퍼지 소속함수를 사용하였다. 그리고 웨이브렛의 구성은 단일 크기를 가지고 있으며, 퍼지 개념을 이용한 웨이브렛 신경망의 학습을 위해 역전파 알고리즘을 사용하였다. 웨이브렛 변환의 다해상도 분해, 벨형 퍼지 소속 함수 그리고 학습을 위한 역전파 알고리즘을 이용한 이 구조는 기존의 알고리즘보다 근사화 성능이 개선됨을 모의 실험을 통하여 1차원, 2차원 함수에서 확인하였다.

공 던지기 로봇의 정책 예측 심층 강화학습 (Deep Reinforcement Learning of Ball Throwing Robot's Policy Prediction)

  • 강영균;이철수
    • 로봇학회논문지
    • /
    • 제15권4호
    • /
    • pp.398-403
    • /
    • 2020
  • Robot's throwing control is difficult to accurately calculate because of air resistance and rotational inertia, etc. This complexity can be solved by using machine learning. Reinforcement learning using reward function puts limit on adapting to new environment for robots. Therefore, this paper applied deep reinforcement learning using neural network without reward function. Throwing is evaluated as a success or failure. AI network learns by taking the target position and control policy as input and yielding the evaluation as output. Then, the task is carried out by predicting the success probability according to the target location and control policy and searching the policy with the highest probability. Repeating this task can result in performance improvements as data accumulates. And this model can even predict tasks that were not previously attempted which means it is an universally applicable learning model for any new environment. According to the data results from 520 experiments, this learning model guarantees 75% success rate.

Back-Propagation방법의 수렴속도 및 학습정확도의 개선 (Acceleration the Convergence and Improving the Learning Accuracy of the Back-Propagation Method)

  • 이윤섭;우광방
    • 대한전기학회논문지
    • /
    • 제39권8호
    • /
    • pp.856-867
    • /
    • 1990
  • In this paper, the convergence and the learning accuracy of the back-propagation (BP) method in neural network are investigated by 1) analyzing the reason for decelerating the convergence of BP method and examining the rapid deceleration of the convergence when the learning is executed on the part of sigmoid activation function with the very small first derivative and 2) proposing the modified logistic activation function by defining, the convergence factor based on the analysis. Learning on the output patterns of binary as well as analog forms are tested by the proposed method. In binary output patter, the test results show that the convergence is accelerated and the learning accuracy is improved, and the weights and thresholds are converged so that the stability of neural network can be enhanced. In analog output patter, the results show that with extensive initial transient phenomena the learning error is decreased according to the convergence factor, subsequently the learning accuracy is enhanced.

  • PDF