• 제목/요약/키워드: unsupervised model

검색결과 241건 처리시간 0.026초

Interpretation of Data Mining Prediction Model Using Decision Tree

  • Kang, Hyuncheol;Han, Sang-Tae;Choi, Jong-Ho
    • Communications for Statistical Applications and Methods
    • /
    • 제7권3호
    • /
    • pp.937-943
    • /
    • 2000
  • Data mining usually deal with undesigned massive data containing many variables for which their characteristics and association rules are unknown, therefore it is actually not easy to interpret the results of analysis. In this paper, it is shown that decision tree can be very useful in interpreting data mining prediction model using two real examples.

  • PDF

추론 및 비교사학습 기법 기반 레이블링을 적용한 탐지 모델 (A Detection Model using Labeling based on Inference and Unsupervised Learning Method)

  • 홍성삼;김동욱;김병익;한명묵
    • 인터넷정보학회논문지
    • /
    • 제18권1호
    • /
    • pp.65-75
    • /
    • 2017
  • 탐지 모델은 인공지능 기법들이나 데이터 마이닝 기법, 또는 지능형 알고리즘들을 이용하여 어떠한 목적에 맞는 결과를 찾고자 하는 모델들이다. 사이버 보안에서는 주로 침입탐지, 악성코드 탐지, 침해사고 탐지, 공격 탐지로 활용되고 있다. 보안데이터와 같은 실제 환경에 수집되는 데이터들을 레이블이 되지 않은 데이터들이 많다. 클래스 레이블이 정해지지 않아 유형을 알 수 없는 데이터가 많아 정확한 탐지 및 분석을 하기 위해서는 레이블 결정과정이 필요하다. 본 논문에서 제안하는 방법은 레이블 결정을 위해 D-S 추론 알고리즘과 비교사 방법인 k-means 알고리즘을 적용하여 각 데이터의 레이블을 융합하여 결정할 수 있는 KDFL(K-means and D-S Fusion based Labeling)제안하였으며 이를 적용한 탐지 모델 구조를 제안하였다. 제안하는 방법은 실험을 통해 기존의 방법에 비해 탐지율, 정확도, F1-measure 성능 지표에서 우수한 성능을 나타냈다. 또한 오류율도 크게 개선된 결과를 나타내어 제안하는 방법의 성능을 검증할 수 있었다.

청소년 건강행태에 따른 정신건강 위험 예측: 하이브리드 머신러닝 방법의 적용 (Predicting Mental Health Risk based on Adolescent Health Behavior: Application of a Hybrid Machine Learning Method)

  • 고은경;전효정;박현태;옥수열
    • 한국학교보건학회지
    • /
    • 제36권3호
    • /
    • pp.113-125
    • /
    • 2023
  • Purpose: The purpose of this study is to develop a model for predicting mental health risk among adolescents based on health behavior information by employing a hybrid machine learning method. Methods: The study analyzed data of 51,850 domestic middle and high school students from 2022 Youth Health Behavior Survey conducted by the Korea Disease Control and Prevention Agency. Firstly, mental health risk levels (stress perception, suicidal thoughts, suicide attempts, suicide plans, experiences of sadness and despair, loneliness, and generalized anxiety disorder) were classified using the k-mean unsupervised learning technique. Secondly, demographic factors (family economic status, gender, age), academic performance, physical health (body mass index, moderate-intensity exercise, subjective health perception, oral health perception), daily life habits (sleep time, wake-up time, smartphone use time, difficulty recovering from fatigue), eating habits (consumption of high-caffeine drinks, sweet drinks, late-night snacks), violence victimization, and deviance (drinking, smoking experience) data were input to develop a random forest model predicting mental health risk, using logistic and XGBoosting. The model and its prediction performance were compared. Results: First, the subjects were classified into two mental health groups using k-mean unsupervised learning, with the high mental health risk group constituting 26.45% of the total sample (13,712 adolescents). This mental health risk group included most of the adolescents who had made suicide plans (95.1%) or attempted suicide (96.7%). Second, the predictive performance of the random forest model for classifying mental health risk groups significantly outperformed that of the reference model (AUC=.94). Predictors of high importance were 'difficulty recovering from daytime fatigue' and 'subjective health perception'. Conclusion: Based on an understanding of adolescent health behavior information, it is possible to predict the mental health risk levels of adolescents and make interventions in advance.

퍼지 성능 측정자를 이용한 적응 데이터 마이닝 모델 (Adaptive Data Mining Model using Fuzzy Performance Measures)

  • 이현숙
    • 정보처리학회논문지B
    • /
    • 제13B권5호
    • /
    • pp.541-546
    • /
    • 2006
  • 데이터 마이닝은 방대한 양의 데이터를 다루는 응용영역에서 학습과 함께 연구되어 실세계의 문제를 해결할 수 있는 구체적인 방법을 제시해 주고 있다. 데이터 마이닝을 위한 보편적인 방법으로 사용되어 온 클러스터 분석 방법은 데이터의 양이 많아질수록, 실세계에서 직접 얻은 데이터일수록 경계가 불분명하고 처리과정에서 많은 오차가 발생하게 되어 직접 적용하고자할 때 고려해야할 점이 많다. 이를 위하여 퍼지 개념이 도입된 퍼지 클러스터링 방법론은 클러스터 타당성문제와 함께 널리 연구되어왔다. 본 논문에서는 클러스터링의 결과가 만들어 내는 오류 값을 최소화하는 방향으로 학습하는 비교사 학습신경망에 의하여 클러스터링이 이루어지고 이를 퍼지 성능 측정자에 의하여 평가하면서 최적의 클러스터 수를 찾아가는 적응형 데이터 마이닝 모델을 제안하고자 한다 또한 뉴스그룹의 텍스트 데이터를 처리하여 문서분류에 활용할 수 있음을 보임으로 제안된 모델의 타당성을 확인하고자 한다.

LSTM-VAE를 활용한 기계시설물 장치의 이상 탐지 시스템 (Anomaly Detection System in Mechanical Facility Equipment: Using Long Short-Term Memory Variational Autoencoder)

  • 서재홍;박준성;유준우;박희준
    • 품질경영학회지
    • /
    • 제49권4호
    • /
    • pp.581-594
    • /
    • 2021
  • Purpose: The purpose of this study is to compare machine learning models for anomaly detection of mechanical facility equipment and suggest an anomaly detection system for mechanical facility equipment in subway stations. It helps to predict failures and plan the maintenance of facility. Ultimately it aims to improve the quality of facility equipment. Methods: The data collected from Daejeon Metropolitan Rapid Transit Corporation was used in this experiment. The experiment was performed using Python, Scikit-learn, tensorflow 2.0 for preprocessing and machine learning. Also it was conducted in two failure states of the equipment. We compared and analyzed five unsupervised machine learning models focused on model Long Short-Term Memory Variational Autoencoder(LSTM-VAE). Results: In both experiments, change in vibration and current data was observed when there is a defect. When the rotating body failure was happened, the magnitude of vibration has increased but current has decreased. In situation of axis alignment failure, both of vibration and current have increased. In addition, model LSTM-VAE showed superior accuracy than the other four base-line models. Conclusion: According to the results, model LSTM-VAE showed outstanding performance with more than 97% of accuracy in the experiments. Thus, the quality of mechanical facility equipment will be improved if the proposed anomaly detection system is established with this model used.

클라우드 컴퓨팅 환경에서 무감독학습 방법과 퍼지이론을 이용한 결합형 데이터 분류기법 (Coupled data classification method using unsupervised learning and fuzzy logic in Cloud computing environment)

  • 조규철;김재권
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권8호
    • /
    • pp.11-18
    • /
    • 2014
  • 본 논문은 무감독학습을 통한 데이터 분류기법인 ART에서 퍼지이론을 이용한 결합형 데이터 분류 방법을 제안한다. 무감독학습기법 기반의 데이터 분류 기술은 분류기술의 향상의 장점이 있지만, 처리성능이 저하된다는 단점이 있다. 민첩성 있는 대용량데이터 처리와 분류인식률을 만족하는 최적의 임계값 결정기법이 필요하지만, 이는 불확실성이 많이 따르기 때문에 두 가지를 고려하여 상호보완 할 수 있는 처리기법이 필요하다. 제안하는 기법은 무감독학습을 하기 위해 퍼지매개변수와 퍼지 규칙을 설계하여 최적의 임계값을 도출한다. 제안하는 기법의 성능평가를 위해 클라우드 컴퓨팅환경에서 G 단백질 연결 수용체(G protein coupled receptor, GPCR)데이터를 이용하여 실험하였으며, 실험결과는 높은 인식률과 낮은 처리시간을 통해 결합형 데이터 분류에 효과적임을 입증하였다.

시계열자료의 계층분리기법을 이용한 하천유역의 홍수위 예측 (Flood Stage Forecasting using Class Segregation Method of Time Series Data)

  • 김성원
    • 한국방재학회:학술대회논문집
    • /
    • 한국방재학회 2008년도 정기총회 및 학술발표대회
    • /
    • pp.669-673
    • /
    • 2008
  • In this study, the new methodology which combines Kohonen self-organizing map(KSOM) neural networks model and the conventional neural networks models such as feedforward neural networks model and generalized neural networks model is introduced to forecast flood stage in Nakdong river, Republic of Korea. It is possible to train without output data in KSOM neural networks model. KSOM neural networks model is used to classify the input data before it combines with the conventional neural networks model. Four types of models such as SOM-FFNNM-BP, SOM-GRNNM-GA, FFNNM-BP, and GRNNM-GA are used to train and test performances respectively. From the statistical analysis for training and testing performances, SOM-GRNNM-GA shows the best results compared with the other models such as SOM-FFNNM-BP, FFNNM-BP, and GRNNM-GA and FFNNM-BP shows vice-versa. From this study, we can suggest the new methodology to forecast flood stage and construct flood warning system in river basin.

  • PDF

생성 모형을 사용한 순항 항공기 향후 속도 예측 및 추론 (En-route Ground Speed Prediction and Posterior Inference Using Generative Model)

  • 백현진;이금진
    • 한국항공운항학회지
    • /
    • 제27권4호
    • /
    • pp.27-36
    • /
    • 2019
  • An accurate trajectory prediction is a key to the safe and efficient operations of aircraft. One way to improve trajectory prediction accuracy is to develop a model for aircraft ground speed prediction. This paper proposes a generative model for posterior aircraft ground speed prediction. The proposed method fits the Gaussian Mixture Model(GMM) to historical data of aircraft speed, and then the model is used to generates probabilistic speed profile of the aircraft. The performances of the proposed method are demonstrated with real traffic data in Incheon Flight Information Region(FIR).

코호넨 자기조직화함수를 이용한 홍수위 예측 (Flood Stage Forecasting using Kohonen Self-Organizing Map)

  • 김성원;김형수
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2007년도 학술발표회 논문집
    • /
    • pp.1427-1431
    • /
    • 2007
  • In this study, the new methodology which combines Kohonen self-organizing map(KSOM) neural networks model and the conventional neural networks models such as feedforward neural networks model and generalized neural networks model is introduced to forecast flood stage in Nakdong river, Republic of Korea. It is possible to train without output data in KSOM neural networks model. KSOM neural networks model is used to classify the input data before it combines with the conventional neural networks model. Four types of models such as SOM-FFNNM-BP, SOM-GRNNM-GA, FFNNM-BP, and GRNNM-GA are used to train and test performances respectively. From the statistical analysis for training and testing performances, SOM-GRNNM-GA shows the best results compared with the other models such as SOM-FFNNM-BP, FFNNM-BP, and GRNNM-GA and FFNNM-BP shows vice-versa. From this study, we can suggest the new methodology to forecast flood stage and construct flood warning system in river basin.

  • PDF

어절 내 형태소 출현 정보와 클러스터링 기법을 이용한 어휘지식 자동 획득 (The automatic Lexical Knowledge acquisition using morpheme information and Clustering techniques)

  • 유원희;서태원;임희석
    • 컴퓨터교육학회논문지
    • /
    • 제13권1호
    • /
    • pp.65-73
    • /
    • 2010
  • 본 논문은 자연어처리 연구를 위하여 지도학습(supervised learning)방식의 어휘지식(lexical knowledge) 수동 구축 방법의 한계점을 극복하기 위하여 비지도학습(unsupervised learning)방식의 자동 어휘지식 획득 모델을 제안한다. 제안하는 모델은 벡터화, 클러스터링, 어휘지식 획득 과정을 통하여 입력으로 주어지는 어휘목록에서 어휘지식을 자동으로 획득한다. 모델의 어휘지식 획득 과정에서 파라미터 변화에 따른 어휘지식 개수의 변화와 어휘지식의 특징이 나타나는 어휘 지식 사전의 일부 모습을 보인다. 실험결과 어휘지식 중 하나로 획득되는 어휘범주 지식의 클러스터가 일정한 개수에서 수렴하는 것이 관찰되어 어휘지식을 필요로 하는 전자사전 자동구축의 가능성을 확인하였다. 또한 한국어 특성이 반영되어 좌 우 통사정보가 포함된 어휘사전을 구축하였다.

  • PDF