• 제목/요약/키워드: Weight initialization

검색결과 30건 처리시간 0.035초

Efficient weight initialization method in multi-layer perceptrons

  • Han, Jaemin;Sung, Shijoong;Hyun, Changho
    • 한국경영과학회:학술대회논문집
    • /
    • 한국경영과학회 1995년도 추계학술대회발표논문집; 서울대학교, 서울; 30 Sep. 1995
    • /
    • pp.325-333
    • /
    • 1995
  • Back-propagation is the most widely used algorithm for supervised learning in multi-layer feed-forward networks. However, back-propagation is very slow in convergence. In this paper, a new weight initialization method, called rough map initialization, in multi-layer perceptrons is proposed. To overcome the long convergence time, possibly due to the random initialization of the weights of the existing multi-layer perceptrons, the rough map initialization method initialize weights by utilizing relationship of input-output features with singular value decomposition technique. The results of this initialization procedure are compared to random initialization procedure in encoder problems and xor problems.

  • PDF

Comparison of Weight Initialization Techniques for Deep Neural Networks

  • Kang, Min-Jae;Kim, Ho-Chan
    • International Journal of Advanced Culture Technology
    • /
    • 제7권4호
    • /
    • pp.283-288
    • /
    • 2019
  • Neural networks have been reborn as a Deep Learning thanks to big data, improved processor, and some modification of training methods. Neural networks used to initialize weights in a stupid way, and to choose wrong type activation functions of non-linearity. Weight initialization contributes as a significant factor on the final quality of a network as well as its convergence rate. This paper discusses different approaches to weight initialization. MNIST dataset is used for experiments for comparing their results to find out the best technique that can be employed to achieve higher accuracy in relatively lower duration.

딥러닝의 가중치 초기화와 갱신에 의한 네트워크 침입탐지의 성능 개선에 대한 접근 (Approach to Improving the Performance of Network Intrusion Detection by Initializing and Updating the Weights of Deep Learning)

  • 박성철;김준태
    • 한국시뮬레이션학회논문지
    • /
    • 제29권4호
    • /
    • pp.73-84
    • /
    • 2020
  • 인터넷이 대중화되기 시작하면서 해킹 및 시스템과 네트워크에 대한 공격이 있어 왔고, 날로 그 기법들이 진화되면서 기업 및 사회에 위험과 부담감을 주었다. 그러한 위험과 부담감을 덜기 위해서는 조기에 해킹 및 공격을 탐지하여 적절하게 대응해야 하는데, 그에 앞서 반드시 네트워크 침입탐지의 신뢰성을 높일 필요가 있다. 본 연구에서는 네트워크 침입탐지 정확도를 향상시키기 위해 가중치 초기화와 가중치 최적화를 KDD'99 데이터셋에 적용하는 연구를 하였다. 가중치 초기화는 Xavier와 He 방법처럼 가중치 학습 구조와 관련된 초기화 방법이 정확도에 영향을 준다는 것을 실험을 통해 알 수 있었다. 또한 가중치 최적화는 현재 가중치를 학습률에 반영할 수 있도록 한 RMSProp와 이전 변화를 반영한 Momentum의 장점을 결합한 Adam 알고리즘이 정확도면에서 단연 돋보임을 네트워크 침입탐지 데이터셋의 실험을 통해 확인하였다.

가중치 초기화 및 매개변수 갱신 방법에 따른 컨벌루션 신경망의 성능 비교 (Performance Comparison of Convolution Neural Network by Weight Initialization and Parameter Update Method1)

  • 박성욱;김도연
    • 한국멀티미디어학회논문지
    • /
    • 제21권4호
    • /
    • pp.441-449
    • /
    • 2018
  • Deep learning has been used for various processing centered on image recognition. One core algorithms of the deep learning, convolutional neural network is an deep neural network that specialized in image recognition. In this paper, we use a convolutional neural network to classify forest insects and propose an optimization method. Experiments were carried out by combining two weight initialization and six parameter update methods. As a result, the Xavier-SGD method showed the highest performance with an accuracy of 82.53% in the 12 different combinations of experiments. Through this, the latest learning algorithms, which complement the disadvantages of the previous parameter update method, we conclude that it can not lead to higher performance than existing methods in all application environments.

절단된 분포를 이용한 인공신경망에서의 초기값 설정방법 (Initialization by using truncated distributions in artificial neural network)

  • 김민종;조성철;정혜린;이영섭;임창원
    • 응용통계연구
    • /
    • 제32권5호
    • /
    • pp.693-702
    • /
    • 2019
  • 딥러닝은 대용량의 데이터의 분류 및 예측하는 방법으로 각광받고 있다. 데이터의 양이 많아지면서 신경망의 구조는 더 깊어 지고 있다. 이때 초기값이 지나치게 클 경우 층이 깊어 질수록 활성화 함수의 기울기가 매우 작아지는 포화(Saturation)현상이 발생한다. 이러한 포화현상은 가중치의 학습능력을 저하시키는 현상을 발생시키기 때문에 초기값의 중요성이 커지고 있다.이런 포화현상 문제를 해결하기 위해 Glorot과 Bengio (2010)과 He 등 (2015) 층과 층 사이에 데이터가 다양하게 흘러야 효율적인 신경망학습이 가능하고 주장했다. 데이터가 다양하게 흐르기 위해서는 각 층의 출력에 대한 분산과 입력에 대한 분산이 동일해야 한다고 제안했다. Glorot과 Bengio (2010)과 He 등 (2015)는 각 층별 활성화 값의 분산이 같다고 가정해 초기값을 설정하였다. 본 논문에서는 절단된 코쉬 분포와 절단된 정규분포를 활용하여 초기값을 설정하는 방안을 제안한다. 출력에 대한 분산과 입력에 대한 분산의 값을 동일하게 맞춰주고 그 값이 절단된 확률분포의 분산과 같게 적용함으로써 큰 초기값이 나오는 걸 제한하고 0에 가까운 값이 나오도록 분포를 조정하였다. 제안된 방법은 MNIST 데이터와 CIFAR-10 데이터를 DNN과 CNN 모델에 각각 적용하여 실험함으로써 기존의 초기값 설정방법보다 모델의 성능을 좋게 한다는 것을 보였다.

순방향 2층 신경망의 연결강도 분포 특성 분석 및 연결강도 초기화에 적용 (Analysis of Weight Distribution of Feedforward Two-Layer Neural Networks and its Application to Weight Initialization)

  • 고진욱;박민용;홍대식;이철희
    • 전자공학회논문지CI
    • /
    • 제38권3호
    • /
    • pp.1-12
    • /
    • 2001
  • 본 논문에서는 순방향 2층 신경망의 연결강도(weight) 분포 특성을 분석한다. 일반적으로 신경망의 학습은 많은 시간이 소요되지만, 현재 학습 알고리즘으로는 새로운 문제가 주어질 때 이전에 수행된 학습 정보의 도움 없이 새로이 학습과정을 수행해야 하는 문제점이 있다. 본 논문에서는, 신경망의 학습을 주어진 문제를 해결할 수 있는 연결강도 공간(weight space)상의 한 점(point)을 찾는 과정으로 이해하고, 연결강도 공간에서 이러한 해(solution)가 되는 점들의 분포를 조사하여 이를 새로운 문제의 학습 시 초기 연결강도의 선정에 적용하는 방법을 제안한다, 제안된 연결강도 분포를 이용한 초기화 방법을 패턴분류 문제에 적용하였고, 기존의 무작위 초기화보다 학습 성능을 향상시킬 수 있음을 확인하였다.

  • PDF

시계열 예측의 변형된 ENSEMBLE ALGORITHM (Time Series Forecasting Based on Modified Ensemble Algorithm)

  • 김연형;김재훈
    • 응용통계연구
    • /
    • 제18권1호
    • /
    • pp.137-146
    • /
    • 2005
  • 신경망은 전통적인 시계열 기법들에 비해 대체적으로 예측성능의 우수함이 입증되었으나 계절성과 추세성을 갖는 시계열자료에 대해 예측력이 떨어지는 단점을 가지고 있다. 최근에는 Ensemble 기법인 Bagging Algorithm과 신경망의 혼합모형인 Bagging Neural Network이 개밭되었다. 이 기법은 분산과 편향을 많이 줄여줌으로써 더 좋은 예측을 할 수 있는 것으로 나타났다. 그러나 Ensemble 기법을 이용한 예측모형은 시계열자료를 적합 시키는데 있어 초기부여확률 및 예측자 선정시의 문제점을 가지고 있다. 이에 본 연구에서는 이러한 문제점을 해결하고 더불어 예측력을 향상시키기 위한 방법으로 초기부여확률이 균일분포가 아닌 순차적인 형태의 분포를 제시하고 신경망을 예측자로 활용한 변형된 Ensemble Algorithm을 제안한다. 또한 예측모형의 평가를 위해 실제자료를 가지고 기존 예측모형들과 제안한 방법을 이용하여 예측하고 각 MSE의 비교를 통하여 예측정확도를 알아보고자 한다.

CMOS 회로의 Stuck-open 고장검출을 위한 로보스트 테스트 생성 (Robust Test Generation for Stuck-Open Faults in CMOS Circuits)

  • 정준모;임인칠
    • 대한전자공학회논문지
    • /
    • 제27권11호
    • /
    • pp.42-48
    • /
    • 1990
  • 본 논문에서는 CMOS 회로의 stuck-open 고장 검출을 위한 로브스트(robust)테스트 생성방법을 제안한다. CMOS 회로에 대한 입력 벡터들간의 비트(bit)위치와 해밍중(Hamming weight)의 관계를 고려하여 초기화 패턴을 구함으로써 stuck-open 고장검출을 위한 테스트 생성 시간을 감소시킬 수 있으며, 고장검출을 어렵게하게 하는 입력변이지연(input transition skew)의 문제를 해결하고, 테스트 사이퀸스의 수를 최소화시킨다. 또한 회로에 인가할 초기화 패턴과 테스트 패턴간의 해밍거리(hamming distance)를 고려하여 테스트 사이퀸스를 배열하므로써 테스트 사이퀸스의 수를 감소시킨다.

  • PDF

DNN을 활용한 강도예측모델의 손실함수 최소화 기법 비교분석 (Comparison on of Minimization of Loos function for strength Prediction Model using DNN)

  • 한준희;김수호;백성진;한수환;김종;한민철
    • 한국건축시공학회:학술대회논문집
    • /
    • 한국건축시공학회 2022년도 봄 학술논문 발표대회
    • /
    • pp.182-183
    • /
    • 2022
  • In this study, compared and analyzed various loss function minimization techniques to present a methodology for developing a natural intelligence-based prediction system. As a result of the analysis, He Initialization was the best with RMSE: 3.78, R2: 0.94, and the error rate was 6%. However, it is considered desirable to construct a prediction system by combining each technique for optimization.

  • PDF

Effects of Hyper-parameters and Dataset on CNN Training

  • Nguyen, Huu Nhan;Lee, Chanho
    • 전기전자학회논문지
    • /
    • 제22권1호
    • /
    • pp.14-20
    • /
    • 2018
  • The purpose of training a convolutional neural network (CNN) is to obtain weight factors that give high classification accuracies. The initial values of hyper-parameters affect the training results, and it is important to train a CNN with a suitable hyper-parameter set of a learning rate, a batch size, the initialization of weight factors, and an optimizer. We investigate the effects of a single hyper-parameter while others are fixed in order to obtain a hyper-parameter set that gives higher classification accuracies and requires shorter training time using a proposed VGG-like CNN for training since the VGG is widely used. The CNN is trained for four datasets of CIFAR10, CIFAR100, GTSRB and DSDL-DB. The effects of the normalization and the data transformation for datasets are also investigated, and a training scheme using merged datasets is proposed.