• Title/Summary/Keyword: 이상치 모델

Search Result 491, Processing Time 0.026 seconds

Outlier Analysis of Learner's Learning Behaviors Data using k-NN Method (k-NN 기법을 이용한 학습자의 학습 행위 데이터의 이상치 분석)

  • Yoon, Tae-Bok;Jung, Young-Mo;Lee, Jee-Hyong;Cha, Hyun-Jin;Park, Seon-Hee;Kim, Yong-Se
    • 한국HCI학회:학술대회논문집
    • /
    • 2007.02a
    • /
    • pp.524-529
    • /
    • 2007
  • 지능형 학습 시스템은 학습자의 학습 과정에서 수집된 데이터를 분석하여 학습자에게 맞는 전략을 세우고 적합한 서비스를 제공하는 시스템이다. 학습자에게 적합한 서비스를 위해서는 학습자 모델링 작업이 우선시 되며, 이 모델 생성을 위해서 학습자의 학습 과정에서 발생한 데이터를 수집하고 분석하게 된다. 하지만, 수집된 데이터가 학습자의 일관되지 못한 행위나 비예측 학습 성향을 포함하고 있다면, 생성된 모델을 신뢰하기 어렵다. 본 논문에서는 학습자에게서 수집된 데이터를 거리기반 이상치 선별 방법인 k-NN을 이용하여 이상치를 선별한다. 실험에서는 홈 인테리어 컨텐츠 기반에 학습자의 학습 행위에 대한 학습 성향을 진단하기 위한 DOLLS-HI를 이용하여, 수집된 학습자의 데이터에서 이상치를 분류하고 학습 성향 진단을 위한 모델을 생성하였다. 생성된 모델은 이상치 분류전과 비교하여 신뢰가 향상된 것을 확인하였다.

  • PDF

Detection of outliers in pet sensor data through DASVDD (DASVDD 모형을 통한 반려동물 센서 데이터 이상치 탐지)

  • JeongHyeon Park;JunHyeok Go;SiUng Kim;Nammee Moon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.1208-1210
    • /
    • 2023
  • 이상치는 주로 저빈도로 발생하기 때문에, 이상치 탐지 분야에서는 정상 데이터만을 이용한 비지도 기반 학습 모델을 사용하는 방법들이 제안되었다. 따라서, 본 논문에서는 반려동물 센서 데이터를 이용해 비지도 기반 모델인 DASVDD을 활용하여 이상치를 탐지한다. 하지만 데이터셋에 이상치가 존재하지 않아 반려동물이 고빈도로 보여주는 A행동군(서다, 앉다, 엎드리다, 눕다, 걷다), 저빈도로 보여주는 B행동군(킁킁대다, 먹다)으로 분리하여 학습을 진행한다. 모델의 성능은 ROC-AUC을 기준으로 79.05%의 성능을 보여주는 것을 확인하였다.

Outlier Detection By Clustering-Based Ensemble Model Construction (클러스터링 기반 앙상블 모델 구성을 이용한 이상치 탐지)

  • Park, Cheong Hee;Kim, Taegong;Kim, Jiil;Choi, Semok;Lee, Gyeong-Hoon
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.7 no.11
    • /
    • pp.435-442
    • /
    • 2018
  • Outlier detection means to detect data samples that deviate significantly from the distribution of normal data. Most outlier detection methods calculate an outlier score that indicates the extent to which a data sample is out of normal state and determine it to be an outlier when its outlier score is above a given threshold. However, since the range of an outlier score is different for each data and the outliers exist at a smaller ratio than the normal data, it is very difficult to determine the threshold value for an outlier score. Further, in an actual situation, it is not easy to acquire data including a sufficient amount of outliers available for learning. In this paper, we propose a clustering-based outlier detection method by constructing a model representing a normal data region using only normal data and performing binary classification of outliers and normal data for new data samples. Then, by dividing the given normal data into chunks, and constructing a clustering model for each chunk, we expand it to the ensemble method combining the decision by the models and apply it to the streaming data with dynamic changes. Experimental results using real data and artificial data show high performance of the proposed method.

Effective Classification Method of Hierarchical CNN for Multi-Class Outlier Detection (다중 클래스 이상치 탐지를 위한 계층 CNN의 효과적인 클래스 분할 방법)

  • Kim, Jee-Hyun;Lee, Seyoung;Kim, Yerim;Ahn, Seo-Yeong;Park, Saerom
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.07a
    • /
    • pp.81-84
    • /
    • 2022
  • 제조 산업에서의 이상치 검출은 생산품의 품질과 운영비용을 절감하기 위한 중요한 요소로 최근 딥러닝을 사용하여 자동화되고 있다. 이상치 검출을 위한 딥러닝 기법에는 CNN이 있으며, CNN을 계층적으로 구성할 경우 단일 CNN 모델에 비해 상대적으로 성능의 향상을 보일 수 있다는 것이 많은 선행 연구에서 나타났다. 이에 MVTec-AD 데이터셋을 이용하여 계층 CNN이 다중 클래스 이상치 판별 문제에 대해 효과적인지를 탐구하고자 하였다. 실험 결과 단일 CNN의 정확도는 0.7715, 계층 CNN의 정확도는 0.7838로 다중 클래스 이상치 판별 문제에 있어 계층 CNN 방식 접근이 다중 클래스 이상치 탐지 문제에서 알고리즘의 성능을 향상할 수 있음을 확인할 수 있었다. 계층 CNN은 모델과 파라미터의 개수와 리소스의 사용이 단일 CNN에 비하여 기하급수적으로 증가한다는 단점이 존재한다. 이에 계층 CNN의 장점을 유지하며 사용 리소스를 절약하고자 하였고 K-means, GMM, 계층적 클러스터링 알고리즘을 통해 제작한 새로운 클래스를 이용해 계층 CNN을 구성하여 각각 정확도 0.7930, 0.7891, 0.7936의 결과를 얻을 수 있었다. 이를 통해 Clustering 알고리즘을 사용하여 적절히 물체를 분류할 경우 물체에 따른 개별 상태 판단 모델을 제작하는 것과 비슷하거나 더 좋은 성능을 내며 리소스 사용을 줄일 수 있음을 확인할 수 있었다.

  • PDF

Deep Learning-Based Outlier Detection and Correction for 3D Pose Estimation (3차원 자세 추정을 위한 딥러닝 기반 이상치 검출 및 보정 기법)

  • Ju, Chan-Yang;Park, Ji-Sung;Lee, Dong-Ho
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.11 no.10
    • /
    • pp.419-426
    • /
    • 2022
  • In this paper, we propose a method to improve the accuracy of 3D human pose estimation model in various move motions. Existing human pose estimation models have some problems of jitter, inversion, swap, miss that cause miss coordinates when estimating human poses. These problems cause low accuracy of pose estimation models to detect exact coordinates of human poses. We propose a method that consists of detection and correction methods to handle with these problems. Deep learning-based outlier detection method detects outlier of human pose coordinates in move motion effectively and rule-based correction method corrects the outlier according to a simple rule. We have shown that the proposed method is effective in various motions with the experiments using 2D golf swing motion data and have shown the possibility of expansion from 2D to 3D coordinates.

Anomaly Detection in printed patters using U-Net (U-Net 모델을 이용한 비정상 인쇄물 검출 방법)

  • Hong, Soon-Hyun;Nam, Hyeon-Gil;Park, Jong-Il
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.07a
    • /
    • pp.686-688
    • /
    • 2020
  • 본 논문에서는 U-Net 모델을 이용하여 정교하고 반복되는 패턴을 가진 인쇄물에 대한 비지도 학습을 통한 딥러닝 기반 이상치탐지(Anomaly Detection) 방법을 제안하였다. 인쇄물(카드)의 비정상 패턴 검출을 위하여 촬영한 영상으로부터 카드 영역을 분리한 이미지로 구성된 Dataset을 구축하였고 정상 이미지와 동일한 이미지를 출력하기 위해, 정상 이미지와 마스크 이미지 쌍의 Training dataset을 U-Net으로 학습하였다. Test dataset의 이미지를 입력으로 넣어 생성된 마스크 결과를 원본 마스크 이미지와 비교하여 이상 여부를 판단하는 본 논문의 방법이 정상, 비정상 인쇄물을 잘 구분하는 것을 확인하였다. 또한 정상과 비정상 이미지 각각을 학습한 지도학습 기반 CNN 분류 방법을 입력 영상과 복원 영상 간의 복원 오차를 비교하여 객체의 이상 여부를 판별하는 본 논문의 방법과 비교 평가하였다. 본 논문을 통해 U-Net을 사용하여 별도로 데이터에 대한 label 취득 없이 이상치를 검출할 수 있음을 확인할 수 있었다.

  • PDF

Development of a Stock Volatility Detection Model Using Artificial Intelligence (인공지능 기반 주식시장 변동성 이상탐지모델 개발)

  • HyunJung Kim;Heonchang Yu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2024.05a
    • /
    • pp.576-579
    • /
    • 2024
  • 경제 위기 대비를 위해 인공지능을 활용한 주식시장 변동성 이상을 탐지하는 목적을 가지고 있다. 글로벌 이슈와 경제 위기 대비를 위해 주식시장 변동성 예측의 중요성이 부각되고 있으며, 기존의 주식시장 변동성 지수인 VIX 의 한계로 인해 더 복잡한 모델 및 인공지능을 활용한 연구에 관심이 집중되고 있다. 기존의 주식시장 변동성 예측에 관한 연구들은 통계적인 방법을 사용했으며 인공지능을 이용한 연구 또한 대부분 이상치 구간을 표시하여 예측을 목표로 하고 있으나 이러한 접근법은 라벨이 있는 데이터 수집 어려움, 클래스 불균형 문제가 있다. 본 연구는 인공지능을 활용한 주식시장 변동성 탐지에 기여하고 지도 학습 방식 대신 비지도 학습 기반의 이상탐지모델을 사용하여 주식시장 변동성을 예측하는 새로운 방법론을 제안한다. 본 연구에서 개발한 인공지능 모델은 IsolationForest 모델을 활용하며, 시계열 데이터를 전처리한 후 정상성을 확보하는 등의 과정을 거친다. 실험 결과로 인공지능 모델이 주요 경제이슈를 이상치로 검출하는 성능을 확인하였으며 재현율 약 93.6%, 정밀도 100%로 높은 성능을 달성했다.

  • PDF

Comparative Analysis of Anomaly Detection Models using AE and Suggestion of Criteria for Determining Outliers

  • Kang, Gun-Ha;Sohn, Jung-Mo;Sim, Gun-Wu
    • Journal of the Korea Society of Computer and Information
    • /
    • v.26 no.8
    • /
    • pp.23-30
    • /
    • 2021
  • In this study, we present a comparative analysis of major autoencoder(AE)-based anomaly detection methods for quality determination in the manufacturing process and a new anomaly discrimination criterion. Due to the characteristics of manufacturing site, anomalous instances are few and their types greatly vary. These properties degrade the performance of an AI-based anomaly detection model using the dataset for both normal and anomalous cases, and incur a lot of time and costs in obtaining additional data for performance improvement. To solve this problem, the studies on AE-based models such as AE and VAE are underway, which perform anomaly detection using only normal data. In this work, based on Convolutional AE, VAE, and Dilated VAE models, statistics on residual images, MSE, and information entropy were selected as outlier discriminant criteria to compare and analyze the performance of each model. In particular, the range value applied to the Convolutional AE model showed the best performance with AUC PRC 0.9570, F1 Score 0.8812 and AUC ROC 0.9548, accuracy 87.60%. This shows a performance improvement of an accuracy about 20%P(Percentage Point) compared to MSE, which was frequently used as a standard for determining outliers, and confirmed that model performance can be improved according to the criteria for determining outliers.

Study on Lifelog Anomaly Detection using VAE-based Machine Learning Model (VAE(Variational AutoEncoder) 기반 머신러닝 모델을 활용한 체중 라이프로그 이상탐지에 관한 연구)

  • Kim, Jiyong;Park, Minseo
    • The Journal of the Convergence on Culture Technology
    • /
    • v.8 no.4
    • /
    • pp.91-98
    • /
    • 2022
  • Lifelog data continuously collected through a wearable device may contain many outliers, so in order to improve data quality, it is necessary to find and remove outliers. In general, since the number of outliers is less than the number of normal data, a class imbalance problem occurs. To solve this imbalance problem, we propose a method that applies Variational AutoEncoder to outliers. After preprocessing the outlier data with proposed method, it is verified through a number of machine learning models(classification). As a result of verification using body weight data, it was confirmed that the performance was improved in all classification models. Based on the experimental results, when analyzing lifelog body weight data, we propose to apply the LightGBM model with the best performance after preprocessing the data using the outlier processing method proposed in this study.

RPCA-GMM for Speaker Identification (화자식별을 위한 강인한 주성분 분석 가우시안 혼합 모델)

  • 이윤정;서창우;강상기;이기용
    • The Journal of the Acoustical Society of Korea
    • /
    • v.22 no.7
    • /
    • pp.519-527
    • /
    • 2003
  • Speech is much influenced by the existence of outliers which are introduced by such an unexpected happenings as additive background noise, change of speaker's utterance pattern and voice detection errors. These kinds of outliers may result in severe degradation of speaker recognition performance. In this paper, we proposed the GMM based on robust principal component analysis (RPCA-GMM) using M-estimation to solve the problems of both ouliers and high dimensionality of training feature vectors in speaker identification. Firstly, a new feature vector with reduced dimension is obtained by robust PCA obtained from M-estimation. The robust PCA transforms the original dimensional feature vector onto the reduced dimensional linear subspace that is spanned by the leading eigenvectors of the covariance matrix of feature vector. Secondly, the GMM with diagonal covariance matrix is obtained from these transformed feature vectors. We peformed speaker identification experiments to show the effectiveness of the proposed method. We compared the proposed method (RPCA-GMM) with transformed feature vectors to the PCA and the conventional GMM with diagonal matrix. Whenever the portion of outliers increases by every 2%, the proposed method maintains almost same speaker identification rate with 0.03% of little degradation, while the conventional GMM and the PCA shows much degradation of that by 0.65% and 0.55%, respectively This means that our method is more robust to the existence of outlier.