• 제목/요약/키워드: Learning Curve Analysis

검색결과 138건 처리시간 0.023초

비지도학습 오토 엔코더를 활용한 네트워크 이상 검출 기술 (Network Anomaly Detection Technologies Using Unsupervised Learning AutoEncoders)

  • 강구홍
    • 정보보호학회논문지
    • /
    • 제30권4호
    • /
    • pp.617-629
    • /
    • 2020
  • 인터넷 컴퓨팅 환경의 변화, 새로운 서비스 출현, 그리고 지능화되어 가는 해커들의 다양한 공격으로 인한 규칙 기반 침입탐지시스템의 한계점을 극복하기 위해 기계학습 및 딥러닝 기술을 활용한 네트워크 이상 검출(NAD: Network Anomaly Detection)에 대한 관심이 집중되고 있다. NAD를 위한 대부분의 기존 기계학습 및 딥러닝 기술은 '정상'과 '공격'으로 레이블링된 훈련용 데이터 셋을 학습하는 지도학습 방법을 사용한다. 본 논문에서는 공격의 징후가 없는 일상의 네트워크에서 수집할 수 있는 레이블링이 필요 없는 데이터 셋을 이용하는 비지도학습 오토 엔코더(AE: AutoEncoder)를 활용한 NAD 적용 가능성을 제시한다. AE 성능을 검증하기 위해 NSL-KDD 훈련 및 시험 데이터 셋을 사용해 정확도, 정밀도, 재현율, f1-점수, 그리고 ROC AUC (Receiver Operating Characteristic Area Under Curve) 값을 보인다. 특히 이들 성능지표를 대상으로 AE의 층수, 규제 강도, 그리고 디노이징 효과 등을 분석하여 레퍼런스 모델을 제시하였다. AE의 훈련 데이터 셋에 대한 재생오류 82-th 백분위수를 기준 값으로 KDDTest+와 KDDTest-21 시험 데이터 셋에 대해 90.4%와 89% f1-점수를 각각 보였다.

강우량-지속시간-침수량 관계곡선과 자기조직화 지도의 연계를 통한 범람범위 추정 (Estimation of Inundation Area by Linking of Rainfall-Duration-Flooding Quantity Relationship Curve with Self-Organizing Map)

  • 김현일;금호준;한건연
    • 대한토목학회논문집
    • /
    • 제38권6호
    • /
    • pp.839-850
    • /
    • 2018
  • 집중호우에 의한 도시 유역의 침수 피해가 도시화에 따라 증가하는 추세이며, 이에 따라 정확하면서도 신속한 홍수예보 및 침수 예상도 표출이 필요하다. 특정 강우량에 따른 미지의 침수 범위를 예상하는 것은 도시 유역의 홍수에 대한 사전 대비에 매우 중요한 사안이며, 이를 위해 현재 홍수 예보와 관련된 정부기관에서 침수 피해 예상도를 주민들에게 제공하고자 하고 있다. 하지만, 특정 강우에 따른 정확한 침수 범위를 정량화하여 표출하는데 부족함이 있으며, 강우량과 지속시간에 따른 홍수의 크기에 대한 분석을 실시하고 수리학적 연계를 통한 준 실시간 침수범위 표출 방안을 고찰해야할 시기이다. 제시된 물리적 해석기반 자료를 이용하여 강우량-지속시간-침수량 관계곡선(Rainfall-Duration-Flooding quantity relationship curve, RDF)을 제시하고, 자율학습을 수행하는 자기조직화 특징 지도와 연계하여 미지의 침수 지도를 예측하였다. 예측한 침수 지도와 2차원 침수모형을 통한 결과를 비교하여, 제시된 방법론의 타당성을 검토하였다. 연구 결과를 통하여 중규모의 강우량 또는 빈도의 사상에 따른 미지의 침수범위를 제시하는데 용이할 것으로 판단된다. 더욱이 다양한 강우-월류량-홍수 양상을 내포하는 RDF 관계 곡선과 최적 침수예상도 데이터베이스를 구축함으로서 추후에 홍수예보의 기초자료로서 사용될 것이다.

A Case Study of an Activity Based Mathematical Education: A Kernel Density Estimation to Solve a Dilemma for a Missile Simulation

  • Kim, G. Daniel
    • 한국수학교육학회지시리즈E:수학교육논문집
    • /
    • 제16권
    • /
    • pp.139-147
    • /
    • 2003
  • While the statistical concept 'order statistics' has a great number of applications in our society ranging from industry to military analysis, it is not necessarily an easy concept to understand for many people. Adding some interesting simulation activities of this concept to the probability or statistics curriculum, however, can enhance the learning curve greatly. A hands-on and a graphic calculator based activities of a missile simulation were introduced by Kim(2003) in the context of order statistics. This article revisits the two activities in his paper and point out a dilemma that occurs from the violation of an assumption on two deviation parameters associated with the missile simulation. A third activity is introduced to resolve the dilemma in the terms of a kernel density estimation which is a nonparametric approach.

  • PDF

Noncontrast Computed Tomography-Based Radiomics Analysis in Discriminating Early Hematoma Expansion after Spontaneous Intracerebral Hemorrhage

  • Zuhua Song;Dajing Guo;Zhuoyue Tang;Huan Liu;Xin Li;Sha Luo;Xueying Yao;Wenlong Song;Junjie Song;Zhiming Zhou
    • Korean Journal of Radiology
    • /
    • 제22권3호
    • /
    • pp.415-424
    • /
    • 2021
  • Objective: To determine whether noncontrast computed tomography (NCCT) models based on multivariable, radiomics features, and machine learning (ML) algorithms could further improve the discrimination of early hematoma expansion (HE) in patients with spontaneous intracerebral hemorrhage (sICH). Materials and Methods: We retrospectively reviewed 261 patients with sICH who underwent initial NCCT within 6 hours of ictus and follow-up CT within 24 hours after initial NCCT, between April 2011 and March 2019. The clinical characteristics, imaging signs and radiomics features extracted from the initial NCCT images were used to construct models to discriminate early HE. A clinical-radiologic model was constructed using a multivariate logistic regression (LR) analysis. Radiomics models, a radiomics-radiologic model, and a combined model were constructed in the training cohort (n = 182) and independently verified in the validation cohort (n = 79). Receiver operating characteristic analysis and the area under the curve (AUC) were used to evaluate the discriminative power. Results: The AUC of the clinical-radiologic model for discriminating early HE was 0.766. The AUCs of the radiomics model for discriminating early HE built using the LR algorithm in the training and validation cohorts were 0.926 and 0.850, respectively. The AUCs of the radiomics-radiologic model in the training and validation cohorts were 0.946 and 0.867, respectively. The AUCs of the combined model in the training and validation cohorts were 0.960 and 0.867, respectively. Conclusion: NCCT models based on multivariable, radiomics features and ML algorithm could improve the discrimination of early HE. The combined model was the best recommended model to identify sICH patients at risk of early HE.

Prediction Model for unfavorable Outcome in Spontaneous Intracerebral Hemorrhage Based on Machine Learning

  • Shengli Li;Jianan Zhang;Xiaoqun Hou;Yongyi Wang;Tong Li;Zhiming Xu;Feng Chen;Yong Zhou;Weimin Wang;Mingxing Liu
    • Journal of Korean Neurosurgical Society
    • /
    • 제67권1호
    • /
    • pp.94-102
    • /
    • 2024
  • Objective : The spontaneous intracerebral hemorrhage (ICH) remains a significant cause of mortality and morbidity throughout the world. The purpose of this retrospective study is to develop multiple models for predicting ICH outcomes using machine learning (ML). Methods : Between January 2014 and October 2021, we included ICH patients identified by computed tomography or magnetic resonance imaging and treated with surgery. At the 6-month check-up, outcomes were assessed using the modified Rankin Scale. In this study, four ML models, including Support Vector Machine (SVM), Decision Tree C5.0, Artificial Neural Network, Logistic Regression were used to build ICH prediction models. In order to evaluate the reliability and the ML models, we calculated the area under the receiver operating characteristic curve (AUC), specificity, sensitivity, accuracy, positive likelihood ratio (PLR), negative likelihood ratio (NLR), diagnostic odds ratio (DOR). Results : We identified 71 patients who had favorable outcomes and 156 who had unfavorable outcomes. The results showed that the SVM model achieved the best comprehensive prediction efficiency. For the SVM model, the AUC, accuracy, specificity, sensitivity, PLR, NLR, and DOR were 0.91, 0.92, 0.92, 0.93, 11.63, 0.076, and 153.03, respectively. For the SVM model, we found the importance value of time to operating room (TOR) was higher significantly than other variables. Conclusion : The analysis of clinical reliability showed that the SVM model achieved the best comprehensive prediction efficiency and the importance value of TOR was higher significantly than other variables.

계통안정화를 위한 SMES의 모델링과 적정위치 선정 (A Modeling and Optimal Site of SMES for Power System Stabilization)

  • 김정훈;임재윤;이종필
    • 대한전기학회논문지:전력기술부문A
    • /
    • 제48권5호
    • /
    • pp.494-501
    • /
    • 1999
  • In this research, ANN modeling method of SMES unit is developed for stability analysis, and the optimal site is selected to maximize stabilization effect of SMES unit. The ANN is trained by learning data which is obtained through the application of complex test function into the traditional mathematical mode. In order to verify the validity of proposed modeling method, fault data of sample power system is applied to both the traditional and the ANN models. When the response of traditional and proposed models are compared, the average error for the active and reactive power are 2.51[%], and 0.24[%], respectively. From the comparison, the relevance of proposed method is validated. For the transient stability analysis, an application method of the proposed model is presented, and the transient stability performance index, which describes system stabilization effect of SMES at disturbance, is also suggested, and optimal site selection method of SMES is presented. In the viewpoint of the voltage stability, system stabilization criterion of local bus is presented from P­V curve, and then optimal site which can maximize the voltage stabilization of the whole power system, is decided from the proposed voltage stability performance index.

  • PDF

INSTABILITY OF THE BETTI SEQUENCE FOR PERSISTENT HOMOLOGY AND A STABILIZED VERSION OF THE BETTI SEQUENCE

  • JOHNSON, MEGAN;JUNG, JAE-HUN
    • Journal of the Korean Society for Industrial and Applied Mathematics
    • /
    • 제25권4호
    • /
    • pp.296-311
    • /
    • 2021
  • Topological Data Analysis (TDA), a relatively new field of data analysis, has proved very useful in a variety of applications. The main persistence tool from TDA is persistent homology in which data structure is examined at many scales. Representations of persistent homology include persistence barcodes and persistence diagrams, both of which are not straightforward to reconcile with traditional machine learning algorithms as they are sets of intervals or multisets. The problem of faithfully representing barcodes and persistent diagrams has been pursued along two main avenues: kernel methods and vectorizations. One vectorization is the Betti sequence, or Betti curve, derived from the persistence barcode. While the Betti sequence has been used in classification problems in various applications, to our knowledge, the stability of the sequence has never before been discussed. In this paper we show that the Betti sequence is unstable under the 1-Wasserstein metric with regards to small perturbations in the barcode from which it is calculated. In addition, we propose a novel stabilized version of the Betti sequence based on the Gaussian smoothing seen in the Stable Persistence Bag of Words for persistent homology. We then introduce the normalized cumulative Betti sequence and provide numerical examples that support the main statement of the paper.

중고령 노인의 개인적 가치에 따른 라이프스타일 분류: 머신러닝을 활용한 상대적 중요도 분석 (Identifying Personal Values Influencing the Lifestyle of Older Adults: Insights From Relative Importance Analysis Using Machine Learning)

  • 임승주;박지혁
    • 재활치료과학
    • /
    • 제13권2호
    • /
    • pp.69-84
    • /
    • 2024
  • 목적 : 노인의 건강한 삶의 방식으로서 라이프스타일에 대한 연구가 증가하고 있다. 라이프스타일이 개개인의 가치와 삶의 태도를 반영하는 개념임에도 불구하고, 아직까지 개인의 어떠한 가치가 라이프스타일을 건강하게 유도하는지 파악한 연구는 부족한 실정이다. 이에 본 연구는 노인의 라이프스타일 유형을 두 가지로 분류하고, 머신러닝을 활용하여 어떠한 개인적 가치가 건강한 라이프스타일에 우선적으로 작용하는지 파악하고자 한다. 연구방법 : 본 연구는 지역사회에 거주하는 55세 이상 중고령 노인 300명을 대상으로 횡단 연구를 수행하였다. 라이프스타일은 Yonsei Lifestyle Profile-Active, Balanced, Connected, Diverse (YLP-ABCD) 응답을 사용하여 잠재프로파일 분석을 통해 유형화하였다. 라이프스타일 유형을 예측하는 개인적 가치는 YLP-V (Values) 응답을 수집하여, 예측성능이 가장 높은 머신러닝 알고리즘을 선정한 후 상대적 중요도를 파악하였다. 결과 : 잠재프로파일 분석 결과, 라이프스타일은 건강한 라이프스타일 실천형(48.87%), 비실천형(51.13%)으로 분류되었다. 실천형에 속한 중고령 노인은 비실천형에 비해 사회관계가 활발한 특성을 나타내었다. 본 연구에 포함된 머신러닝 알고리즘 중 가장 우수한 성능을 보인 모델은 서포트 벡터 머신으로, 정확도 96%, Receiver Operating Characteristic (ROC) 영역 95%로 나타났다. 본 알고리즘을 바탕으로 개인적 가치의 상대적 중요도를 분석한 결과, 건강한 식단, 건강 매체, 여가활동, 건강 제품 및 머신러닝에 주의를 기울일수록, 해당 가치에 따라 중고령 노인은 건강한 라이프스타일을 실천하는 그룹에 속할 가능성이 큰 것으로 나타났다. 결론 : 본 연구는 중고령 노인의 사회적 관계망을 포함한 건강한 라이프스타일을 유도하기 위해, 건강 식단, 매체, 여가, 제품 및 습관에 대한 가치 향상을 중점적으로 다루는 종합적인 프로그램 및 서비스의 필요성을 시사한다.

새만금 풍력발전 시범단지의 경제성 평가 재검토 연구 (A study of revaluation for wind power systems in Saemangeum demonstration site)

  • 이유나;신희영
    • 한국태양에너지학회:학술대회논문집
    • /
    • 한국태양에너지학회 2012년도 춘계학술발표대회 논문집
    • /
    • pp.370-375
    • /
    • 2012
  • 국가개발연구원(KDI)에서는 새만금에 40MW 용량의 국산 풍력발전단지 조성을 위한 예비타당성 조사를 실시하였다. 본 사업에 대한 KDI의 비용편익 분석 결과 순 현재가치가 0보다 작고, B/C 비율은 0.73으로 경제적 타당성이 나타나지 않았다. 하지만 모든 비용과 편익을 화폐가치로 환산해 내는 비용편익분석은 여러 가지 외부효과로 인해 사업의 타당성 연구자들에 의해 주관적인 결과물이 나오기도 한다. 이에 따라 본 논문에서는 새만금 풍력발전 시범단지의 경제성 평가 재검토 연구를 실시하였다. 본 논문에서는 기존 경제성 평가 항목에 대하여 여러 가지 쟁점을 제시하고, 그 중에서 대기오염물질 저감 비용과 학습효과(learning effect)로 인한 비용 절감 편익을 추가적으로 산정하였다. 여기서 학습효과의 학습속도(learning rate) 를 세 가지 시나리오로 나누어 분석하였다. 두 가지의 추가 편익을 KDI의 기존 예비타당성 조사 분석에 추가한 순 현재가치는 상당한 양의 값이 나왔고, B/C 비율은 8.8 로 편익이 비용에 비해 크게 증가했다. 이러한 항목들의 포함 여부에 따라 타당성 결과가 현저하게 달라짐을 알 수 있다. 향 후 비용편익 분석이 정책 결정에 적절히 반영되기 위해서는 외부효과를 고려한 환경 비용, 그리고 학습효과와 같은 추가적인 사항들이 면밀히 검토되어야 한다. 시장에 기반하지 않은 이러한 외부효과로 인한 항목들은 대상과 시기에 따라 매우 다른 결과를 보여주기에 이에 대한 세부적인 연구가 필요한 시점이다.

  • PDF

Application of Statistical and Machine Learning Techniques for Habitat Potential Mapping of Siberian Roe Deer in South Korea

  • Lee, Saro;Rezaie, Fatemeh
    • Proceedings of the National Institute of Ecology of the Republic of Korea
    • /
    • 제2권1호
    • /
    • pp.1-14
    • /
    • 2021
  • The study has been carried out with an objective to prepare Siberian roe deer habitat potential maps in South Korea based on three geographic information system-based models including frequency ratio (FR) as a bivariate statistical approach as well as convolutional neural network (CNN) and long short-term memory (LSTM) as machine learning algorithms. According to field observations, 741 locations were reported as roe deer's habitat preferences. The dataset were divided with a proportion of 70:30 for constructing models and validation purposes. Through FR model, a total of 10 influential factors were opted for the modelling process, namely altitude, valley depth, slope height, topographic position index (TPI), topographic wetness index (TWI), normalized difference water index, drainage density, road density, radar intensity, and morphological feature. The results of variable importance analysis determined that TPI, TWI, altitude and valley depth have higher impact on predicting. Furthermore, the area under the receiver operating characteristic (ROC) curve was applied to assess the prediction accuracies of three models. The results showed that all the models almost have similar performances, but LSTM model had relatively higher prediction ability in comparison to FR and CNN models with the accuracy of 76% and 73% during the training and validation process. The obtained map of LSTM model was categorized into five classes of potentiality including very low, low, moderate, high and very high with proportions of 19.70%, 19.81%, 19.31%, 19.86%, and 21.31%, respectively. The resultant potential maps may be valuable to monitor and preserve the Siberian roe deer habitats.