• 제목/요약/키워드: Stochastic Gradient descent

검색결과 42건 처리시간 0.027초

딥러닝을 위한 경사하강법 비교 (Comparison of Gradient Descent for Deep Learning)

  • 강민제
    • 한국산학기술학회논문지
    • /
    • 제21권2호
    • /
    • pp.189-194
    • /
    • 2020
  • 본 논문에서는 신경망을 학습하는 데 가장 많이 사용되고 있는 경사하강법에 대해 분석하였다. 학습이란 손실함수가 최소값이 되도록 매개변수를 갱신하는 것이다. 손실함수는 실제값과 예측값의 차이를 수치화 해주는 함수이다. 경사하강법은 오차가 최소화되도록 매개변수를 갱신하는데 손실함수의 기울기를 사용하는 것으로 현재 최고의 딥러닝 학습알고리즘을 제공하는 라이브러리에서 사용되고 있다. 그러나 이 알고리즘들은 블랙박스형태로 제공되고 있어서 다양한 경사하강법들의 장단점을 파악하는 것이 쉽지 않다. 경사하강법에서 현재 대표적으로 사용되고 있는 확률적 경사하강법(Stochastic Gradient Descent method), 모멘텀법(Momentum method), AdaGrad법 그리고 Adadelta법의 특성에 대하여 분석하였다. 실험 데이터는 신경망을 검증하는 데 널리 사용되는 MNIST 데이터 셋을 사용하였다. 은닉층은 2개의 층으로 첫 번째 층은 500개 그리고 두 번째 층은 300개의 뉴런으로 구성하였다. 출력 층의 활성화함수는 소프트 맥스함수이고 나머지 입력 층과 은닉 층의 활성화함수는 ReLu함수를 사용하였다. 그리고 손실함수는 교차 엔트로피 오차를 사용하였다.

Nonlinear optimization algorithm using monotonically increasing quantization resolution

  • Jinwuk Seok;Jeong-Si Kim
    • ETRI Journal
    • /
    • 제45권1호
    • /
    • pp.119-130
    • /
    • 2023
  • We propose a quantized gradient search algorithm that can achieve global optimization by monotonically reducing the quantization step with respect to time when quantization is composed of integer or fixed-point fractional values applied to an optimization algorithm. According to the white noise hypothesis states, a quantization step is sufficiently small and the quantization is well defined, the round-off error caused by quantization can be regarded as a random variable with identically independent distribution. Thus, we rewrite the searching equation based on a gradient descent as a stochastic differential equation and obtain the monotonically decreasing rate of the quantization step, enabling the global optimization by stochastic analysis for deriving an objective function. Consequently, when the search equation is quantized by a monotonically decreasing quantization step, which suitably reduces the round-off error, we can derive the searching algorithm evolving from an optimization algorithm. Numerical simulations indicate that due to the property of quantization-based global optimization, the proposed algorithm shows better optimization performance on a search space to each iteration than the conventional algorithm with a higher success rate and fewer iterations.

심층 신경망 병렬 학습 방법 연구 동향 (A survey on parallel training algorithms for deep neural networks)

  • 육동석;이효원;유인철
    • 한국음향학회지
    • /
    • 제39권6호
    • /
    • pp.505-514
    • /
    • 2020
  • 심층 신경망(Deep Neural Network, DNN) 모델을 대량의 학습 데이터로 학습시키기 위해서는 많은 시간이 소요되기 때문에 병렬 학습 방법이 필요하다. DNN의 학습에는 일반적으로 Stochastic Gradient Descent(SGD) 방법이 사용되는데, SGD는 근본적으로 순차적인 처리가 필요하므로 병렬화하기 위해서는 다양한 근사(approximation) 방법을 적용하게 된다. 본 논문에서는 기존의 DNN 병렬 학습 알고리즘들을 소개하고 연산량, 통신량, 근사 방법 등을 분석한다.

두 이종 혼합 모형에서의 수정된 경사 하강법 (Adaptive stochastic gradient method under two mixing heterogenous models)

  • 문상준;전종준
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권6호
    • /
    • pp.1245-1255
    • /
    • 2017
  • 온라인 학습은 자료가 실시간으로 혹은 배치 단위로 축적되는 상황에서 주어진 목적함수의 해를 계산하는 방법을 말한다. 온라인 학습 알고리즘 중 배치를 이용한 확률적 경사 하강법 (stochastic gradient decent method)은 가장 많이 사용되는 방법 중 하나다. 이 방법은 구현이 쉬울 뿐만 아니라 자료가 동질적인 분포를 따른다는 가정 하에서 그 해의 성질이 잘 연구되어 있다. 하지만 자료에 특이값이 있거나 임의의 배치가 확률적으로 이질적 성질을 가질 때, 확률적 경사 하강법이 주는 해는 큰 편이를 가질 수 있다. 본 연구에서는 이러한 비정상 배치 (abnormal batch) 있는 자료 하에서 효과적으로 온라인 학습을 수행할 수 있는 수정된 경사 하강 알고리즘 (modified gradient decent algorithm)을 제안하고, 그 알고리즘을 통해 계산된 해의 수렴성을 밝혔다. 뿐만 아니라 간단한 모의실험을 통해 제안한 방법의 이론적 성질을 실증하였다.

Deep learning 이론을 이용한 증발접시 증발량 모형화 (Pan evaporation modeling using deep learning theory)

  • 서영민;김성원
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2017년도 학술발표회
    • /
    • pp.392-395
    • /
    • 2017
  • 본 연구에서는 일 증발접시 증발량 산정을 위한 딥러닝 (deep learning) 모형의 적용성을 평가하였다. 본 연구에서 적용된 딥러닝 모형은 deep belief network (DBN) 기반 deep neural network (DNN) (DBN-DNN) 모형이다. 모형 적용성 평가를 위하여 부산 관측소에서 측정된 기상자료를 활용하였으며, 증발량과의 상관성이 높은 기상변수들 (일사량, 일조시간, 평균지상온도, 최대기온)의 조합을 고려하여 입력변수집합 (Set 1, Set 2, Set 3)별 모형을 구축하였다. DBN-DNN 모형의 성능은 통계학적 모형성능 평가지표 (coefficient of efficiency, CE; coefficient of determination, $r^2$; root mean square error, RMSE; mean absolute error, MAE)를 이용하여 평가되었으며, 기존의 두가지 형태의 ANN (artificial neural network), 즉 모형학습 시 SGD (stochastic gradient descent) 및 GD (gradient descent)를 각각 적용한 ANN-SGD 및 ANN-GD 모형과 비교하였다. 효과적인 모형학습을 위하여 각 모형의 초매개변수들은 GA (genetic algorithm)를 이용하여 최적화하였다. 그 결과, Set 1에 대하여 ANN-GD1 모형, Set 2에 대하여 DBN-DNN2 모형, Set 3에 대하여 DBN-DNN3 모형이 가장 우수한 모형 성능을 나타내는 것으로 분석되었다. 비록 비교 모형들 사이의 모형성능이 큰 차이를 보이지는 않았으나, 모든 입력집합에 대하여 DBN-DNN3, DBN-DNN2, ANN-SGD3 순으로 모형 효율성이 우수한 것으로 나타났다.

  • PDF

새로운 성능지수 함수에 대한 직강하 적응필터 (Novel steepest descent adaptive filters derived from new performance function)

  • 전병을;박동조
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 1992년도 한국자동제어학술회의논문집(국내학술편); KOEX, Seoul; 19-21 Oct. 1992
    • /
    • pp.823-828
    • /
    • 1992
  • A novel steepest descent adaptive filter algorithm, which uses the instantaneous stochastic gradient for the steepest descent direction, is derived from a newly devised performance index function. The performance function for the new algorithm is improved from that for the LMS in consideration that the stochastic steepest descent method is utilized to minimize the performance index iterativly. Through mathematical analysis and computer simulations, it is verified that there are substantial improvements in convergence and misadjustments even though the computational simplicity and the robustness of the LMS algorithm are hardly sacrificed. On the other hand, the new algorithm can be interpreted as a variable step size adaptive filter, and in this respect a heuristic method is proposed in order to reduce the noise caused by the step size fluctuation.

  • PDF

앙상블 기법을 이용한 가뭄지수 예측 (Drought index forecast using ensemble learning)

  • 정지현;차상훈;김묘정;김광섭;임윤진;이경은
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권5호
    • /
    • pp.1125-1132
    • /
    • 2017
  • 가뭄의 심도와 빈도가 강해지는 상황에서 가뭄예측을 위한 연구가 지속적으로 이루어지고 있으나 가뭄현상의 시간적 변동이 비선형적이며 복잡하여 단일 모형만으로 예측하기에는 한계가 있다. 이 연구에서는 기상가뭄지수인 표준강수지수 (SPI)와 세계기후지수, 날씨 관련 변수 등과 같은 다양한 설명변수들 사이의 관계를 설명할 선행 모형과 가법 모형을 먼저 구축한 후 앙상블 기법 중 확률 기울기 하강 (stochastic gradient descent; SGD) 방법을 이용하여 가중치를 설정하는 결합모형을 구축하였다. 우리나라 14개 지역에 대한 1954년 ~ 2013년 자료를 이용하여 모형을 구축하고 2014년 ~ 2015년 자료를 이용하여 모형의 성능을 비교하였다. 그 결과 14개 지역 중 8개 지역에 대하여 개별 모형에 비해 결합모형의 성능이 좋았으며 가뭄 예측이 개선되었다.

확률적 근사법과 공액기울기법을 이용한 다층신경망의 효율적인 학습 (An Efficient Traning of Multilayer Neural Newtorks Using Stochastic Approximation and Conjugate Gradient Method)

  • 조용현
    • 한국지능시스템학회논문지
    • /
    • 제8권5호
    • /
    • pp.98-106
    • /
    • 1998
  • 본 논문에서는 신경망의 학습성능을 개선하기 위해 확룰적 근사법과 공액기울기법에 기초를 둔 새로운 학습방법을 제안하였다. 제안된 방법에서는 확률적 근사법과 공액기울기법을 조합 사용한 전역 최적화 기법의 역전파 알고리즘을 적용함으로써 학습성능을 최대한 개선할 수 있도록 하였다. 확률적 근사법은 국소최소점을 벗어나 전역최적점에 치우친 근사점을 결정해 주는 기능을 하도록 하며, 이점을 초기값으로 하여 결정론적 기법의 공액기울기법을 적용함으로써 빠른 수렴속도로 전역최적점으로의 수렴확률을 놓였다. 제안된 방법을 패리티 검사와 패턴 분류에 각각 적용하여 그 타당성과 성능을 확인한 결과 제안된 방법은 초기값을 무작위로 설정하는 기울기하강법에 기초를 둔 기존의 역전파 알고리즘이나 확률적 근사법과 기울기하강법에 기초를 둔 역전파 알고리즘에 비해 최적해로의 수렴 확률과 그 수렴속도가 우수함을 확인할 수 있었다.

  • PDF

A STOCHASTIC VARIANCE REDUCTION METHOD FOR PCA BY AN EXACT PENALTY APPROACH

  • Jung, Yoon Mo;Lee, Jae Hwa;Yun, Sangwoon
    • 대한수학회보
    • /
    • 제55권4호
    • /
    • pp.1303-1315
    • /
    • 2018
  • For principal component analysis (PCA) to efficiently analyze large scale matrices, it is crucial to find a few singular vectors in cheaper computational cost and under lower memory requirement. To compute those in a fast and robust way, we propose a new stochastic method. Especially, we adopt the stochastic variance reduced gradient (SVRG) method [11] to avoid asymptotically slow convergence in stochastic gradient descent methods. For that purpose, we reformulate the PCA problem as a unconstrained optimization problem using a quadratic penalty. In general, increasing the penalty parameter to infinity is needed for the equivalence of the two problems. However, in this case, exact penalization is guaranteed by applying the analysis in [24]. We establish the convergence rate of the proposed method to a stationary point and numerical experiments illustrate the validity and efficiency of the proposed method.

Stochastic Gradient Descent Optimization Model for Demand Response in a Connected Microgrid

  • Sivanantham, Geetha;Gopalakrishnan, Srivatsun
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권1호
    • /
    • pp.97-115
    • /
    • 2022
  • Smart power grid is a user friendly system that transforms the traditional electric grid to the one that operates in a co-operative and reliable manner. Demand Response (DR) is one of the important components of the smart grid. The DR programs enable the end user participation by which they can communicate with the electricity service provider and shape their daily energy consumption patterns and reduce their consumption costs. The increasing demands of electricity owing to growing population stresses the need for optimal usage of electricity and also to look out alternative and cheap renewable sources of electricity. The solar and wind energy are the promising sources of alternative energy at present because of renewable nature and low cost implementation. The proposed work models a smart home with renewable energy units. The random nature of the renewable sources like wind and solar energy brings an uncertainty to the model developed. A stochastic dual descent optimization method is used to bring optimality to the developed model. The proposed work is validated using the simulation results. From the results it is concluded that proposed work brings a balanced usage of the grid power and the renewable energy units. The work also optimizes the daily consumption pattern thereby reducing the consumption cost for the end users of electricity.