• Title/Summary/Keyword: outlier detecting

검색결과 48건 처리시간 0.023초

평균이동모형을 이용한 성장곡선모형의 이상점 진단에 관한 연구 (Outlier Detection in Growth Curve Model Using Mean-Shift Model)

  • 심규박
    • Journal of the Korean Data and Information Science Society
    • /
    • 제10권2호
    • /
    • pp.369-385
    • /
    • 1999
  • 성장곡선모형에서 다중 이상값들이나 영향관측값들을 탐지하는 문제는 선형회귀모형에서의 문제에 비해 매우 복잡하여 거의 이루어지지 않고 있는 실정이다. 본 연구에서는 이상점을 포함하고 있는 성장곡선모형에서 이들을 탐지하는 방법으로 평균이동모형을 이용하는 방법을 소개하였다. 이 방법을 이용하여 찾아낸 자료가 이상점인지의 여부를 예측표본재이용 의사 베이즈 우도 기준법을 이용한 등분산성의 검정을 통해 알아보았다. 끝으로 Potthoff(1964)등이 사용한 자료를 이용한 예제를 통해 이상점 탐지와 등분 산성 검정을 실시한 결과를 제시하였다.

  • PDF

정상 시계열에서의 이상치 발견과 시계열 모형구축 (Outlier detection and time series modelling in the stationary time series)

  • 이종협;최기헌
    • 응용통계연구
    • /
    • 제5권2호
    • /
    • pp.139-156
    • /
    • 1992
  • 최근에 시계열에서의 이상치 발견을 위한 여러 가지 반복적인 방법들이 소개되었으나 이들 대부분은 시계열의 기저모형이 알려져 있거나 식별될 수 있다는 가정하에서 개발되었다. 그 렇지만 실제로 이상치들이 모형식별을 왜곡 시키거나 심지어는 불가능하게 만드는 경우가 발생한다. 본 논문에서는 두 개의 시계열 관측치 사이의 거리에 근거한 새로운 척도를 이용 한 이상치 탐색 방법을 제시하였다. 특히 이방법은 이상치를 발견하는데 시계열 모형에 의 존하지 않는다. 제안된 통계량에 대한 여러 가지 성질을 밝혔으며 이상치의 형태를 구별하 기 위해 전이함수모형을 이용하였다. 그밖에 이상치를 포함하고 있는 시계열의 모형을 구축 하기 위한 반복적인 절차를 제안했다.

  • PDF

Adaptive boosting in ensembles for outlier detection: Base learner selection and fusion via local domain competence

  • Bii, Joash Kiprotich;Rimiru, Richard;Mwangi, Ronald Waweru
    • ETRI Journal
    • /
    • 제42권6호
    • /
    • pp.886-898
    • /
    • 2020
  • Unusual data patterns or outliers can be generated because of human errors, incorrect measurements, or malicious activities. Detecting outliers is a difficult task that requires complex ensembles. An ideal outlier detection ensemble should consider the strengths of individual base detectors while carefully combining their outputs to create a strong overall ensemble and achieve unbiased accuracy with minimal variance. Selecting and combining the outputs of dissimilar base learners is a challenging task. This paper proposes a model that utilizes heterogeneous base learners. It adaptively boosts the outcomes of preceding learners in the first phase by assigning weights and identifying high-performing learners based on their local domains, and then carefully fuses their outcomes in the second phase to improve overall accuracy. Experimental results from 10 benchmark datasets are used to train and test the proposed model. To investigate its accuracy in terms of separating outliers from inliers, the proposed model is tested and evaluated using accuracy metrics. The analyzed data are presented as crosstabs and percentages, followed by a descriptive method for synthesis and interpretation.

그럽 및 코크란 검정을 이용한 임상자료의 이상치 판단 (Outlier detection using Grubb test and Cochran test in clinical data)

  • 손기철;신임희
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권4호
    • /
    • pp.657-663
    • /
    • 2012
  • 많은 분야에서 수집된 자료 중 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값인 이상치가 종종 존재한다. 이런 이상치의 발생원인은 자료의 입력과정에서의 오류 또는 응답 과정에서 응답자의 특이한 답변 때문이다. 만약 자료에서 이상치가 존재할 경우 자료의 요약값인 평균과 분산에 많은 영향을 미쳐서 잘못된 정보가 산출된다는 문제점이 있다. 따라서 연구자는 자료에서 이상치가 존재하는지를 주의깊게 살펴보아야 한다. 특히 사람을 대상으로 실시한 임상자료의 경우 자료의 비용측면에서나 결과의 일관성 측면에서 이상치의 판단은 더욱 중요한 문제이다. 따라서 본 논문에서는 이상치를 판단하는 방법인 Grubb 검정과 Cochran 검정을 이용하여 임상자료에서의 이상치를 판단하는 방법을 소개하고자 한다.

LSTM 오토인코더를 활용한 축산 환경 시계열 데이터의 이상치 탐지: 경계값 설정에 따른 성능 비교 (Anomaly Detection in Livestock Environmental Time Series Data Using LSTM Autoencoders: A Comparison of Performance Based on Threshold Settings)

  • 정세연;김상철
    • 스마트미디어저널
    • /
    • 제13권4호
    • /
    • pp.48-56
    • /
    • 2024
  • 축산업에서 환경의 이상치 탐지와 데이터 예측은 매우 중요한 과제이다. 대부분 시계열 데이터로 수집되는 축산 환경 데이터의 이상치는 급격한 생육환경의 변화와 예상치 못한 전염병의 징후를 나타낼 수 있으므로 이상치를 빠르게 탐지하는 것이 중요하다. 이상치의 빠른 탐지와 효과적인 대응은 가축의 스트레스를 최소화하고 전염병 발생 환경을 조기에 발견하여 농가의 경제적인 손실을 감소시키는 역할을 할 수 있다. 본 연구에서는 축산환경 데이터의 이상치 탐지 분야에서 이상치를 규정하는 경계값(Threshold) 설정에서 두 가지 설정 방법을 이용하여 실험하고 성능을 비교하였다. Mean Squared Error(MSE)를 활용한 이상치 탐지 방법과 Dynamic Threshold를 이용한 이상치 탐지 방법을 이용하여 이를 통해 주어진 이전 데이터의 평균값과의 변동성을 분석하여 이상 상황을 식별하는 연구를 진행하였다. MSE를 활용한 이상치 탐지 방법은 94.98% 정확도를 보였고 표준편차를 활용한 Dynamic Threshold 방법은 99.66%정확도로 성능이 더 우수함을 확인할 수 있었다.

A Bayesian Approach to Detecting Outliers Using Variance-Inflation Model

  • Lee, Sangjeen;Chung, Younshik
    • Communications for Statistical Applications and Methods
    • /
    • 제8권3호
    • /
    • pp.805-814
    • /
    • 2001
  • The problem of 'outliers', observations which look suspicious in some way, has long been one of the most concern in the statistical structure to experimenters and data analysts. We propose a model for outliers problem and also analyze it in linear regression model using a Bayesian approach with the variance-inflation model. We will use Geweke's(1996) ideas which is based on the data augmentation method for detecting outliers in linear regression model. The advantage of the proposed method is to find a subset of data which is most suspicious in the given model by the posterior probability The sampling based approach can be used to allow the complicated Bayesian computation. Finally, our proposed methodology is applied to a simulated and a real data.

  • PDF

로버스트 추정에 근거한 수정된 다변량 $T^2$- 관리도 (Modified Multivariate $T^2$-Chart based on Robust Estimation)

  • 성웅현;박동련
    • 품질경영학회지
    • /
    • 제29권1호
    • /
    • pp.1-10
    • /
    • 2001
  • We consider the problem of detecting special variations in multivariate $T^2$-control chart when two or more multivariate outliers are present. Since a multivariate outlier may reflect slippage in mean, variance, or correlation, it can distort the sample mean vector and sample covariance matrix. Damaged sample mean vector and sample covariance matrix have difficulty in examining special variations clearly, An alternative to detection outliers or special variations is to use robust estimators of mean vector and covariance matrix that are less sensitive to extreme observations than are the standard estimators $\bar{x}$ and $\textbf{S}$. We applied popular minimum volume ellipsoid(MVE) and minimum covariance determinant(MCD) method to estimate mean vector and covariance matrix and compared its results with standard $T^2$-control chart using simulated multivariate data with outliers. We found that the modified $T^2$-control chart based on the above robust methods were more effective in detecting special variations clearly than the standard $T^2$-control chart.

  • PDF

An Effective Anomaly Detection Approach based on Hybrid Unsupervised Learning Technologies in NIDS

  • Kangseok Kim
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제18권2호
    • /
    • pp.494-510
    • /
    • 2024
  • Internet users are exposed to sophisticated cyberattacks that intrusion detection systems have difficulty detecting. Therefore, research is increasing on intrusion detection methods that use artificial intelligence technology for detecting novel cyberattacks. Unsupervised learning-based methods are being researched that learn only from normal data and detect abnormal behaviors by finding patterns. This study developed an anomaly-detection method based on unsupervised machines and deep learning for a network intrusion detection system (NIDS). We present a hybrid anomaly detection approach based on unsupervised learning techniques using the autoencoder (AE), Isolation Forest (IF), and Local Outlier Factor (LOF) algorithms. An oversampling approach that increased the detection rate was also examined. A hybrid approach that combined deep learning algorithms and traditional machine learning algorithms was highly effective in setting the thresholds for anomalies without subjective human judgment. It achieved precision and recall rates respectively of 88.2% and 92.8% when combining two AEs, IF, and LOF while using an oversampling approach to learn more unknown normal data improved the detection accuracy. This approach achieved precision and recall rates respectively of 88.2% and 94.6%, further improving the detection accuracy compared with the hybrid method. Therefore, in NIDS the proposed approach provides high reliability for detecting cyberattacks.

A New Forest Fire Detection Algorithm using Outlier Detection Method on Regression Analysis between Surface temperature and NDVI

  • Huh, Yong;Byun, Young-Gi;Son, Jeong-Hoon;Yu, Ki-Yun;Kim, Yong-Il
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2006년도 Proceedings of ISRS 2006 PORSEC Volume II
    • /
    • pp.574-577
    • /
    • 2006
  • In this paper, we developed a forest fire detection algorithm which uses a regression function between NDVI and land surface temperature. Previous detection algorithms use the land surface temperature as a main factor to discriminate fire pixels from non-fire pixels. These algorithms assume that the surface temperatures of non-fire pixels are intrinsically analogous and obey Gaussian normal distribution, regardless of land surface types and conditions. And the temperature thresholds for detecting fire pixels are derived from the statistical distribution of non-fire pixels’ temperature using heuristic methods. This assumption makes the temperature distribution of non-fire pixels very diverse and sometimes slightly overlapped with that of fire pixel. So, sometimes there occur omission errors in the cases of small fires. To ease such problem somewhat, we separated non-fire pixels into each land cover type by clustering algorithm and calculated the residuals between the temperature of a pixel under examination whether fire pixel or not and estimated temperature of the pixel using the linear regression between surface temperature and NDVI. As a result, this algorithm could modify the temperature threshold considering land types and conditions and showed improved detection accuracy.

  • PDF

2X2 생물학적 동등성 시험에서 이상치 검출을 위한 통계적 방법 (Detecting an Outlier in 2X2 Bioequivalence Trial)

  • 정규진;박상규;우화형
    • Communications for Statistical Applications and Methods
    • /
    • 제16권5호
    • /
    • pp.745-751
    • /
    • 2009
  • 생물학적 동등성 시험에서 피험자로부터 얻어진 생체 이용률 자료들 중 하나 혹은 일부가 다른 자료에 비해 크게 차이가 나는 자료를 이상치라 정의한다. 이러한 이상치의 존재는 소수의 피험자로 이루어지는 생물학적 동등성 시험의 결과에 큰 영향을 주는 것으로 알려져 있다. 생물학적 생동성 시험에서 이상치를 판별하는 통계적 방법 중 우도거리 혹은 추정량거리를 비교하는 통계적 검정이 많이 활용되고 있는데 본 연구논문에서는 이러한 통계적 방법을 보다 일반화하여 이상치를 판단하는데 보다 효율적인 검정 방법을 제안한다. 제안된 방법은 예제를 통해 자세하게 논의된다.