• 제목/요약/키워드: Conditional Outlier Detection

검색결과 7건 처리시간 0.018초

Identification of Incorrect Data Labels Using Conditional Outlier Detection

  • Hong, Charmgil
    • 한국멀티미디어학회논문지
    • /
    • 제23권8호
    • /
    • pp.915-926
    • /
    • 2020
  • Outlier detection methods help one to identify unusual instances in data that may correspond to erroneous, exceptional, or surprising events or behaviors. This work studies conditional outlier detection, a special instance of the outlier detection problem, in the context of incorrect data label identification. Unlike conventional (unconditional) outlier detection methods that seek abnormalities across all data attributes, conditional outlier detection assumes data are given in pairs of input (condition) and output (response or label). Accordingly, the goal of conditional outlier detection is to identify incorrect or unusual output assignments considering their input as condition. As a solution to conditional outlier detection, this paper proposes the ratio-based outlier scoring (ROS) approach and its variant. The propose solutions work by adopting conventional outlier scores and are able to apply them to identify conditional outliers in data. Experiments on synthetic and real-world image datasets are conducted to demonstrate the benefits and advantages of the proposed approaches.

OUTLIER DETECTION BASED ON A CHANGE OF LIKELIHOOD

  • Kim, Myung-Geun
    • Journal of applied mathematics & informatics
    • /
    • 제26권5_6호
    • /
    • pp.1133-1138
    • /
    • 2008
  • A general method of detecting outliers based on a change of likelihood by using the influence function is suggested. It can be applied to all kinds of distributions that are specified by parameters. For the multivariate normal case, specific computations are made to get the corresponding conditional influence function. A numerical example is provided for illustration.

  • PDF

Robust Estimation and Outlier Detection

  • Myung Geun Kim
    • Communications for Statistical Applications and Methods
    • /
    • 제1권1호
    • /
    • pp.33-40
    • /
    • 1994
  • The conditional expectation of a random variable in a multivariate normal random vector is a multiple linear regression on its predecessors. Using this fact, the least median of squares estimation method developed in a multiple linear regression is adapted to a multivariate data to identify influential observations. The resulting method clearly detect outliers and it avoids the masking effect.

  • PDF

Online condition assessment of high-speed trains based on Bayesian forecasting approach and time series analysis

  • Zhang, Lin-Hao;Wang, You-Wu;Ni, Yi-Qing;Lai, Siu-Kai
    • Smart Structures and Systems
    • /
    • 제21권5호
    • /
    • pp.705-713
    • /
    • 2018
  • High-speed rail (HSR) has been in operation and development in many countries worldwide. The explosive growth of HSR has posed great challenges for operation safety and ride comfort. Among various technological demands on high-speed trains, vibration is an inevitable problem caused by rail/wheel imperfections, vehicle dynamics, and aerodynamic instability. Ride comfort is a key factor in evaluating the operational performance of high-speed trains. In this study, online monitoring data have been acquired from an in-service high-speed train for condition assessment. The measured dynamic response signals at the floor level of a train cabin are processed by the Sperling operator, in which the ride comfort index sequence is used to identify the train's operation condition. In addition, a novel technique that incorporates salient features of Bayesian inference and time series analysis is proposed for outlier detection and change detection. The Bayesian forecasting approach enables the prediction of conditional probabilities. By integrating the Bayesian forecasting approach with time series analysis, one-step forecasting probability density functions (PDFs) can be obtained before proceeding to the next observation. The change detection is conducted by comparing the current model and the alternative model (whose mean value is shifted by a prescribed offset) to determine which one can well fit the actual observation. When the comparison results indicate that the alternative model performs better, then a potential change is detected. If the current observation is a potential outlier or change, Bayes factor and cumulative Bayes factor are derived for further identification. A significant change, if identified, implies that there is a great alteration in the train operation performance due to defects. In this study, two illustrative cases are provided to demonstrate the performance of the proposed method for condition assessment of high-speed trains.

ICT 인프라 이상탐지를 위한 조건부 멀티모달 오토인코더에 관한 연구 (A Study of Anomaly Detection for ICT Infrastructure using Conditional Multimodal Autoencoder)

  • 신병진;이종훈;한상진;박충식
    • 지능정보연구
    • /
    • 제27권3호
    • /
    • pp.57-73
    • /
    • 2021
  • ICT 인프라의 이상탐지를 통한 유지보수와 장애 예방이 중요해지고 있다. 장애 예방을 위해서 이상탐지에 대한 관심이 높아지고 있으며, 지금까지의 다양한 이상탐지 기법 중 최근 연구들에서는 딥러닝을 활용하고 있으며 오토인코더를 활용한 모델을 제안하고 있다. 이는 오토인코더가 다차원 다변량에 대해서도 효과적으로 처리가 가능하다는 것이다. 한편 학습 시에는 많은 컴퓨터 자원이 소모되지만 추론과정에서는 연산을 빠르게 수행할 수 있어 실시간 스트리밍 서비스가 가능하다. 본 연구에서는 기존 연구들과 달리 오토인코더에 2가지 요소를 가미하여 이상탐지의 성능을 높이고자 하였다. 먼저 다차원 데이터가 가지고 있는 속성별 특징을 최대한 부각하여 활용하기 위해 멀티모달 개념을 적용한 멀티모달 오토인코더를 적용하였다. CPU, Memory, network 등 서로 연관이 있는 지표들을 묶어 5개의 모달로 구성하여 학습 성능을 높이고자 하였다. 또한, 시계열 데이터의 특징을 데이터의 차원을 늘리지 않고 효과적으로 학습하기 위하여 조건부 오토인코더(conditional autoencoder) 구조를 활용하는 조건부 멀티모달 오토인코더(Conditional Multimodal Autoencoder, CMAE)를 제안하였다. 제안한 CAME 모델은 비교 실험을 통해 검증했으며, 기존 연구들에서 많이 활용된 오토인코더와 비교하여 AUC, Accuracy, Precision, Recall, F1-score의 성능 평가를 진행한 결과 유니모달 오토인코더(UAE)와 멀티모달 오토인코더(Multimodal Autoencoder, MAE)의 성능을 상회하는 결과를 얻어 이상탐지에 있어 효과적이라는 것을 확인하였다.

다항 위험함수에 근거한 NHPP 소프트웨어 신뢰모형에 관한 통계적 공정관리 접근방법 비교연구 (The Assessing Comparative Study for Statistical Process Control of Software Reliability Model Based on polynomial hazard function)

  • 김희철;신현철
    • 한국정보전자통신기술학회논문지
    • /
    • 제8권5호
    • /
    • pp.345-353
    • /
    • 2015
  • 소프트웨어 디버깅과정에서 오류의 발생 시간에 기초한 많은 소프트웨어 신뢰성 모형이 이미 연구되었다. 유한고장모형과 비동질적인 포아송과정을 이용하면 소프트웨어의 신뢰성 모형에 대한 모수 추정을 가능하게 한다. 소프트웨어를 사용자에게 인도하는 경우 인도시기를 결정할 때 조건부 고장률은 중요한 변수가 된다. 이러한 유한 고장 모형은 실제 다양한 상황에서 사용될 수 있다. 특성화 문제, 이상치의 검출, 선형 추정, 시스템 신뢰성 연구, 수명 시험, 생존 분석, 데이터 압축 및 많은 다른 분야의 연구에서 이들의 사용은 많은 연구에서 볼 수 있다. 통계 공정 관리(SPC)는 소프트웨어 오류의 예측을 모니터링 함으로써 소프트웨어의 신뢰성의 향상에 크게 기여할 수 있다. 관리도는 널리 소프트웨어 업계에서 소프트웨어 품질관리에 사용된다. 본 논문에서는 NHPP와 다항 위험 함수의 평균값을 기초한 관리 메카니즘을 제시하였다.

Musa-Okumoto와 Power-law형 NHPP 소프트웨어 신뢰모형에 관한 통계적 공정관리 접근방법 비교연구 (The Assessing Comparative Study for Statistical Process Control of Software Reliability Model Based on Musa-Okumo and Power-law Type)

  • 김희철
    • 한국정보전자통신기술학회논문지
    • /
    • 제8권6호
    • /
    • pp.483-490
    • /
    • 2015
  • 소프트웨어의 디버깅과정에서 오류 발생의 시간을 기반으로 하는 많은 소프트웨어 신뢰성 모델이 제안되어 왔다. 무한고장 모형과 비동질적인 포아송 과정에 의존한 소프트웨어 신뢰성 모형을 이용하면 모수 추정이 가능하다. 소프트웨어를 시장에 인도하는 결정을 내리기 위해서는 조건부 고장률이 중요한 변수가 된다. 무한 고장 모형은 실제 상황에서 다양한 분야에 사용된다. 특성화 문제, 특이점의 감지, 선형 추정, 시스템의 안정성 연구, 수명을 테스트, 생존 분석, 데이터 압축 및 기타 여러 분야에서의 사용이 점점 많아지고 있다. 통계적 공정 관리 (SPC)는 소프트웨어 고장의 예측을 모니터링 함으로써 소프트웨어 신뢰성의 향상에 크게 기여 할 수 있다. 컨트롤 차트는 널리 소프트웨어 산업의 소프트웨어 공정 관리에 사용되는 도구이다. 본 논문에서 NHPP에 근원을 둔 로그 포아송 실행시간 모형, 즉,Musa-Okumo 모형과 파우어 로우(Power-law) 모형의 평균값 함수를 이용한 통계적 공정관리 차트를 이용한 제어 메커니즘을 제안하였다.