• 제목/요약/키워드: Outlier Analysis

검색결과 234건 처리시간 0.022초

이상치 탐지법을 이용한 강건 이분산 검정 (Robust tests for heteroscedasticity using outlier detection methods)

  • 서한손;윤민
    • 응용통계연구
    • /
    • 제29권3호
    • /
    • pp.399-408
    • /
    • 2016
  • 회귀분석에서 이분산이 발생할 경우 표준적 추정절차에 따른 결과는 유효하지 않게 되므로 이를 확인하는 것이 필요하다. 이분산 문제와 더불어 이상치가 함께 존재하면 이분산에 관한 진단은 왜곡될 수 있다. 이상치가 존재할 때 이분산을 진단하는 기존의 방법들은 강건통계량을 이용하거나 이상치를 제거하는 접근법을 사용한다. 이분산 문제에서 이상치를 탐지하기 위하여 여러 가지 접근법이 제시되었다. 본 연구에서는 이분산 진단과정에서 이상치를 배제하기 위하여 기존의 이분산 검정과정에 순차적 이상치 탐지법을 적용하는 절차를 제시한다. 제시된 방법은 모의실험 및 예제를 통해 기존의 검정방법과 검정력을 비교한다.

비선형 최소화에 의한 F행렬 추정 및 정확도 분석 (Estimation of the Fundamental Matrix using a Non-linear Minimization Technique and Its Accuracy Analysis)

  • 엄성훈;이종수
    • 대한전자공학회논문지SP
    • /
    • 제38권6호
    • /
    • pp.657-664
    • /
    • 2001
  • 최근에 물체영상들로부터 3차원 물체 모델을 복원할 수 있는 셀프캘리브레이션 기술에 대한 연구가 활발히 진행되고 있다. 이 셀프캘리브레이션 기술의 핵심은 F행렬이며, 복원되는 3차원 물체 모델의 정확도는 물체영상들 사이에서 유도해내는 F행렬의 추정의 정확도에 좌우된다. F행렬을 추정하기 위해 일반적으로 선형최소화방법이 적용되고있다. 그러나 본 논문에서는 보다더 정확한 F행렬의 추정을 위해 비선형 최소화방법인 Levenberg-Marquardt 기법을 적용하였다. 또한 F행렬의 정확도를 감소시키는 부정확한 대응점들 (corresponding points)과 오차를 많이 포함하고 있는 대응점들, 즉 outliers를 Monte Carlo 기술을 적용하여 제거하였다. 본 논문에서 적용한 방법들로 추정한 F행렬의 정확도를 분석한 결과, outliers를 제거하기 전보다 제거한 후의 정확도가 31% 향상되었고, 선형적 추정 F행렬보다 비선형적 추정 F행렬이 22% 향상되었음을 알 수 있었다.

  • PDF

DEM 융합 기법을 이용한 다중영상스테레오 방법 (Multi-Image Stereo Method Using DEM Fusion Technique)

  • 임성민;우동민
    • 대한전기학회논문지:시스템및제어부문D
    • /
    • 제52권4호
    • /
    • pp.212-222
    • /
    • 2003
  • The ability to efficiently and robustly recover accurate 3D terrain models from sets of stereoscopic images is important to many civilian and military applications. A stereo matching has been an important tool for reconstructing three dimensional terrain. However, there exist many factors causing stereo matching error, such as occlusion, no feature or repetitive pattern in the correlation window, intensity variation, etc. Among them, occlusion can be only resolved by true multi-image stereo. In this paper, we present multi-image stereo method using DEM fusion as one of efficient and reliable true multi-image methods. Elevations generated by all pairs of images are combined by the fusion process which accepts an accurate elevation and rejects an outlier. We propose three fusion schemes: THD(Thresholding), BPS(Best Pair Selection) and MS(Median Selection). THD averages elevations after rejecting outliers by thresholding, while BPS selects the most reliable elevation. To determine the reliability of a elevation or detect the outlier, we employ the measure of self-consistency. The last scheme, MS, selects the median value of elevations. We test the effectiveness of the proposed methods with a quantitative analysis using simulated images. Experimental results indicate that all three fusion schemes showed much better improvement over the conventional binocular stereo in natural terrain of 29 Palms and urban site of Avenches.

고혈압 예측을 위한 이상치 탐지 알고리즘 및 데이터 통합 기법 (An Outlier Detection Algorithm and Data Integration Technique for Prediction of Hypertension)

  • 홍고르출;김미혜 ;송미화
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.417-419
    • /
    • 2023
  • Hypertension is one of the leading causes of mortality worldwide. In recent years, the incidence of hypertension has increased dramatically, not only among the elderly but also among young people. In this regard, the use of machine-learning methods to diagnose the causes of hypertension has increased in recent years. In this study, we improved the prediction of hypertension detection using Mahalanobis distance-based multivariate outlier removal using the KNHANES database from the Korean national health data and the COVID-19 dataset from Kaggle. This study was divided into two modules. Initially, the data preprocessing step used merged datasets and decision-tree classifier-based feature selection. The next module applies a predictive analysis step to remove multivariate outliers using the Mahalanobis distance from the experimental dataset and makes a prediction of hypertension. In this study, we compared the accuracy of each classification model. The best results showed that the proposed MAH_RF algorithm had an accuracy of 82.66%. The proposed method can be used not only for hypertension but also for the detection of various diseases such as stroke and cardiovascular disease.

공간적 상관도 측정을 위한 변이도 분석 : 태백지역의 지화학자료를 이용한 사례 연구 (Variogram Analysis for Spatial Similarity Measures : A Case Study using Geochemical Data Sets in the Taebaek Area)

  • 이기원;권병두
    • 자원환경지질
    • /
    • 제28권3호
    • /
    • pp.271-277
    • /
    • 1995
  • 공간통계를 바탕으로 한 지질정보의 정량적 처리및 분석을 위한 여러 응용방법들이 최근에 광물탐사문제와 관련되어 연구되고 있다. 본 연구에서는 지화학자료와 관련된 이상점판단(outlier detection)과 방향성 상호 변이도 측정의 적용성을 검토하였고, 아울러 태백지역내의 광물탐사를 위한 지화학자료에 에 대한 사례연구를 수행하였다. 이상점판단방법으로는 이동창(moving window)통계법이 이용되었다. 한편 상호 변이도는 공간적 연속성 측정을 위한 통계적 방법으로 알려져 있으나, 본 연구에서는 이 개념을 자료의 공간적 상관도 문제로 확장하였다. 한편 다섯가지 행태의 변이도 표현식을 이상점처리전후의 결과와 연관하여 비교하였다. 이러한 비교연구의 결과로 이 두가지 공간 통계법에 의한 자료처리과정및 분석방법은 실제의 결정판단단계에서 결정적인 영향을 미치는 것으로 나타났으며, 광역적 광물탐사에서 유용한 해석보조자료로 제공될 수 있을 것으로 생각된다.

  • PDF

Online condition assessment of high-speed trains based on Bayesian forecasting approach and time series analysis

  • Zhang, Lin-Hao;Wang, You-Wu;Ni, Yi-Qing;Lai, Siu-Kai
    • Smart Structures and Systems
    • /
    • 제21권5호
    • /
    • pp.705-713
    • /
    • 2018
  • High-speed rail (HSR) has been in operation and development in many countries worldwide. The explosive growth of HSR has posed great challenges for operation safety and ride comfort. Among various technological demands on high-speed trains, vibration is an inevitable problem caused by rail/wheel imperfections, vehicle dynamics, and aerodynamic instability. Ride comfort is a key factor in evaluating the operational performance of high-speed trains. In this study, online monitoring data have been acquired from an in-service high-speed train for condition assessment. The measured dynamic response signals at the floor level of a train cabin are processed by the Sperling operator, in which the ride comfort index sequence is used to identify the train's operation condition. In addition, a novel technique that incorporates salient features of Bayesian inference and time series analysis is proposed for outlier detection and change detection. The Bayesian forecasting approach enables the prediction of conditional probabilities. By integrating the Bayesian forecasting approach with time series analysis, one-step forecasting probability density functions (PDFs) can be obtained before proceeding to the next observation. The change detection is conducted by comparing the current model and the alternative model (whose mean value is shifted by a prescribed offset) to determine which one can well fit the actual observation. When the comparison results indicate that the alternative model performs better, then a potential change is detected. If the current observation is a potential outlier or change, Bayes factor and cumulative Bayes factor are derived for further identification. A significant change, if identified, implies that there is a great alteration in the train operation performance due to defects. In this study, two illustrative cases are provided to demonstrate the performance of the proposed method for condition assessment of high-speed trains.

유전자 연관성이 랜덤검정 P값과 유의 유전자군의 탐색에 미치는 영향 (Effect of Genetic Correlations on the P Values from Randomization Test and Detection of Significant Gene Groups)

  • 이미성;송혜향
    • 응용통계연구
    • /
    • 제22권4호
    • /
    • pp.781-792
    • /
    • 2009
  • 유전체 초기단계 연구에서는 비교적 소수의 마이크로어레이 샘플자료로서 실험을 진행하여 심도 깊게 연구해야 할 유전자 부분군(subsets)을 탐색하게 된다. 이러한 과정에서 요구되는 부분군 탐색에 사용되는 분석방법은 다수 샘플자료 분석의 경우와는 매우 다른 방법들이다. 유전자 극소수 샘플자료의 분석에 매우 적절한 방법인 랜덤검정법을 적용하여 정확한 P값(exact P value)의 이산형 분포가 얻어지고, 일양분포 귀무가설의 검정으로 유의 유전자가 존재하는지를 파악할 수 있다. 한 단계 더 나아가 Fuchs와 Kenett (1980)이 제시한 M 검정을 이용하여 이산형 P 값 다항분포에서 이상범주군(outlier cells)을 찾을 수 있으며 이로써 유의 유전자로서의 가능성이 있는 유전자군을 선정한다. 대다수의 마이크로어레이 유전체 연구에서 수 천 또는 수 만개의 유전자가 서로 독립이라고 가정하고 분석하는 것이 문제점이다. 그러나 본 논문에서는 유전자 연관성을 그대로 유지하는 순열에 기초한 랜덤검정법과 M 검정법으로서 유전자 연관성이 분석에 미치는 영향을 모의실험으로 알아보았으며, 그 영향이 결코 미약하지 않음을 확인할 수 있었다.

다양한 데이터 특성을 고려한 무기체계 비용추정관계식 개발 연구 (A Study On Developing Weapon System CERs With Considering Various Data Characteristics)

  • 정원일;김동규;강성진
    • 한국국방경영분석학회지
    • /
    • 제36권3호
    • /
    • pp.43-56
    • /
    • 2010
  • 최근 국방 무기체계 획득 환경의 변화는 무기체계 획득비용의 효율적 집행이라는 측면에서 비용분석의 중요성을 더욱 강조하고 있다. 그러나 정책 및 제도적 측면에서 비용분석이 강조되고 있는 반면 비용분석을 위한 국내 기반여건은 매우 부족한 실정이다. 국내에서의 비용추정은 주로 사업초기부터 국외에서 도입한 비용추정 전산모델을 사용하고 있으나 국내 방산환경에 적합하지 않은 많은 제약사항을 가지고 있다. 이러한 이유로 최근 한국형 비용분석 전산모델을 개발하고자 하는 공감대가 형성되었으며 체계적인 연구가 현재 진행되고 있다. 따라서 본 연구에서는 한국형 비용분석 전산모델의 핵심 논리인 비용추정관계식 개발 방법과 절차를 제안하고 있다. 특히 데이터가 가지는 각각의 회귀적 한계, 즉 다중공선성, 이상치, 이분산성 등을 식별하고 이에 적합한 회귀방법을 선택함으로서 데이터의 특성을 고려한 최선의 회귀모형을 구축하는 방법 및 절차를 제안하고자 한다. 제안한 방법은 국내 포병 무기체계 연구개발 자료를 기초로 비용추정관계식 개발방법 및 절차에 대한 이론적 적용가능성을 사례를 통해 검증하였다.

우리나라 과거 가뭄사상의 정량적 특성 분석 -강수량의 이상치 분석을 중심으로- (Quantitative characterization of historical drought events in Korea -focusing on outlier analysis of precipitation-)

  • 장호원;조형원;김태웅;이주헌
    • 한국수자원학회논문집
    • /
    • 제49권2호
    • /
    • pp.145-153
    • /
    • 2016
  • 본 연구에서는 우리나라에서 발생했던 과거 가뭄사상을 정량적으로 평가하기 위해 우리나라의 59개 기상관측소의 월강수량 자료를 이용하여 연강수량 및 계절별(봄철) 강수량에 대한 이상치($-1{\sigma}$)를 분석하였다. 연강수량을 통해 이상치 발생 빈도를 구하여 그 중 가장 유역별로 과우해($-1{\sigma}$) 발생빈도가 높은 이천, 거창, 정읍, 순천, 장흥 관측소를 선정하여 이상치를 분석한 결과 1988, 1994년이 동일하게 심한 과우해로 나타났다. 전체 이상치 기간 분석결과와 봄철 이상치 분석결과를 통해 2001년 가뭄은 심한 과우해로 분류되지는 않았지만 주로 섬진강 및 영산강 유역을 중심으로 심한 봄 가뭄이 발생하였으며, 농업용수 부족으로 인한 농작물 피해를 발생시킨 대표적인 농업적 가뭄연도로 분석되었다. 반면에 1981-1982년 및 1994-1995년과 같이 2년 이상 지속된 전국적 장기가뭄은 국가적으로 큰 가뭄피해를 야기하였다.

예외자가 공간 색인에 미치는 영향에 관한 분석 (An Analysis of Outlier Effect on Spatial Indices)

  • 김시완;정성훈;이기준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.208-210
    • /
    • 2001
  • 예외자는 공간색인의 성능을 떨어뜨리는 요소가 될 수 있다. 예를 들어, R-tree 계열의 색인 방법은 예외자 때문에 MBR의 넓이나, MBR사이의 겹치는 공간이 넓어져 성능이 떨어진다. 따라서, 공간색인을 구축할 때, 적절하게 예외자를 처리하면 성능을 향상시킬 수 있다. 본 논문에서는 예외자와 공간색인의 성능과 관계를 관찰하고 적절한 방법으로 예외자를 처리하여 공간색인의 성능을 향상시키는 방법을 확인한다. 실험의 결과에 따르면, 예외자를 적절하게 처리할 경우 성능을 평균적으로 15% 향상시킬 수 있다.

  • PDF