• 제목/요약/키워드: Outlier analysis

검색결과 239건 처리시간 0.027초

이상치를 이용한 관측적 침하예측기법의 개발 (Development of a Observational Settlement Analysis Method Using Outliers)

  • 우철웅;장병욱
    • 한국농공학회지
    • /
    • 제45권5호
    • /
    • pp.140-150
    • /
    • 2003
  • Observational methods such as the Asaoka's method and the hyperbolic method are widely applied on the settlement analysis using observed settlement. The most unreliable aspects in those methods is arose from the subjective discretion of initial non-linearity on linear regression. The initial non-linearity is inevitable due to the settlement behaviour itself. Therefore an objective method is essential to achieve more reliable results on settlement analysis. It was found that the initial non-linear data are statistical outliers. New automation algorithms of the hyperbolic and the Asaoka's method were developed based on outlier detection method. The methods are a successive detection of outliers and a searching method of suitable hyperbolic range for the Asaoka's and the hyperbolic method respectively. Applicability of the algorithms was verified through case studies.

공간 부호화 레인지 센서를 이용한 3차원 표면 파라미터의 에러분석에 관한 연구 (Error analysis of 3-D surface parameters from space encoding range imaging)

  • 정흥상;권인소;조태훈
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 1997년도 한국자동제어학술회의논문집; 한국전력공사 서울연수원; 17-18 Oct. 1997
    • /
    • pp.375-378
    • /
    • 1997
  • This research deals with a problem of reconstructing 3D surface structures from their 2D projections, which is an important research topic in computer vision. In order to provide robust reconstruction algorithm, that is reliable even in the presence of uncertainty in the range images, we first present a detailed model and analysis of several error sources and their effects on measuring three-dimensional surface properties using the space encoded range imaging technique. Our approach has two key elements. The first is the error modeling for the space encoding range sensor and its propagation to the 3D surface reconstruction problem. The second key element in our approach is the algorithm for removing outliers in the range image. Such analyses, to our knowledge, have never attempted before. Experimental results show that our approach is significantly reliable.

  • PDF

온실가루이의 공간시계열 분석 (Space Time Data Analysis for Greenhouse Whitefly)

  • 박진모;신기일
    • 응용통계연구
    • /
    • 제17권3호
    • /
    • pp.403-418
    • /
    • 2004
  • 시간에 따라 얻어진 공간 자료를 공간시계열 자료라 하며 이러한 자료를 분석하기 위해 사용되는 모형이 공간시계열 모형이다. 최근 곤충학과 생태학에서 공간시계열 모형을 이용한 연구가 활발히 진행되고 있다. 본 논문에서는 온실에 있는 곤충의 마리수를 ARMA 모형과 자기회귀 오차모형을 이용한 공간시계열 모형으로 분석하였다. 자료에 포함된 이상점은 분산도(Variogram) 추정에 많은 영향을 주기 때문에 Mugglestone (2000)의 이상점 수정법을 이용하여 수정하였다. 공간시계열 모형들과 시계열 요인을 배제한 공간모형을 MSE와 MAPE를 이용하여 비교하였다.

통계적 사전 처리방법을 통한 MT 전달함수 추정의 향상 기법 연구 (An improvement of MT transfer function estimates using by pre-screening scheme based on the statistical distribution of electromagnetic fields)

  • 양준모;권병두;이덕기;송윤호;윤용훈
    • 한국지구물리탐사학회:학술대회논문집
    • /
    • 한국지구물리탐사학회 2005년도 공동학술대회 논문집
    • /
    • pp.273-280
    • /
    • 2005
  • MT 전달함수의 추정과정에서 로버스트 방법의 적용은 현재 전자탐사 분야에서 일반적이다. 적절하게 고안되고 적용된 로버스트 방법은 출력 채널인 전기장에 포함되어 있는 외치의 영향을 감소시킬 수 있으나, HLP(High leverage point)라 불리 우는 자기장(입력 채널)의 외치에 종종 민감하지 못하다. 이 문제를 해결하기 위해 HLP의 영향을 최소화할 수 있는 BI(Bounded Influence) 추정이 제안되었고, 전통적인 로버스트 방법보다 신뢰성 있는 전달함수를 제공하는 것으로 보고되었다. 이는 BI 추정이 M-추정을 적용함과 동시에 자기장 성분만으로 결정되는 모자행렬의 통계적인 특성을 고려하여 가중치를 부여하는 방법이기 때문이다. 본 연구에서는 전달함수 추정과정에 BI 추정을 적용하고, 이와 더불어 전처리 단계로서 전자기장의 통계적 분포를 이용해 주파수 영역에서 극단적인 전기장과 자기장 자료의 영향을 감소시키는 기법을 개발하였다. 개발된 전처리 기법은 BI 추정으로 제거될 수 없는 자료를 주파수 영역에서 효과적으로 제거하는 것으로 생각된다. 본 연구에서 개발된 기법의 효율성과 장점은 합성 자료와 현장 자료를 이용하여 도시될 것이다.

  • PDF

KDRG를 이용한 건강보험 외래 진료비 분류 타당성 (On Feasibility of Ambulatory KDRGs for the Classification of Health Insurance Claims)

  • 박하영;박기동;신영수
    • 보건행정학회지
    • /
    • 제13권1호
    • /
    • pp.98-115
    • /
    • 2003
  • Concerns about growing health insurance expenditures became a national Issue in 2001 when the National Health Insurance went into a deficit. Increases in spending for ambulatory care shared the largest portion of the problem. Methods and systems to control the spending should be developed and a system to measure case mix of providers is one of core components of the control system. The objectives of this article is to examine the feasibility of applying Korean Diagnosis Related Groups (KDRGs) to classify health insurance claims for ambulatory care and to identify problem areas of the classification. A database of 11,586,270 claims for ambulatory care delivered during January 2002 was obtained for the study, and the final number of claims analyzed was 8,319,494 after KDRG numbers were assigned to the data and records with an error KDRG were excluded from the study. The unit of analysis was a claim and resource use was measured by the sum of charges incurred during a month at a department of a hospital of at a clinic. Within group variance was assessed by th coefficient of variation (CV), and the classification accuracy was evaluated by the variance reduction achieved by the KDRG classification. The analyses were performed on both all and non-outlier data, and on a subset of the database to examine the validity of study results. Data were assigned to 787 KDRGs among 1,244 KDRGs defined in the classification system. For non-outlier data, 77.4% of KDRGs had a CV of charges from tertiary care hospitals less than 100% and 95.43% of KDRGs for data from clinics. The variance reduction achieved by the KDRG classification was 40.80% for non-outlier claims from tertiary care hospitals, 51.98% for general hospitals, 40.89% for hospitals, and 54.99% for clinics. Similar results were obtained from the analyses performed on a subset of the study database. The study results indicated that KDRGs developed for a classification of inpatient care could be used for ambulatory care, although there were areas where the classification should be refined. Its power to predict tile resource utilization showed a potential for its application to measure case mix of providers for monitoring and managing delivery of ambulatory care. The issue concerning the quality of diagnostic information contained in insurance claims remains to be improved, and significance of future studies for other classification systems based on visits or episodes is guaranteed.

서울시 고밀도 지상강우자료 품질관리방안 도출 (Deduction of Data Quality Control Strategy for High Density Rain Gauge Network in Seoul Area)

  • 윤성심;이병주;최영진
    • 한국수자원학회논문집
    • /
    • 제48권4호
    • /
    • pp.245-255
    • /
    • 2015
  • 고해상도의 정량적 실황강우장을 산정하기 위해서는 양질의 고밀도 강우관측망 정보가 필요하다. 이를 위해 본 연구에서 정량적 실황강우장 산정을 위한 입력자료로 SK 플래닛의 고밀도 복합기상센서 관측망과 기존 기상청 관측망을 이용하고자 하였다. 이를 위해 서울지역에 위치한 SK 플래닛의 복합기상센서 관측망을 소개하고, 2013년 7~9월 3개월 동안의 관측자료의 품질을 분석하였다. 품질분석 결과, SK 플래닛 관측소가 일부 관측소를 제외하고 대부분 기존 관측망과 유사하게 강우를 관측하는 것을 확인할 수 있었다. 다만, 일시적인 기계 및 자료 전송 오류로 인해 발생할 수 있는 결측치 및 이상치가 미치는 영향을 최대한 저감하기 위해서 오자료를 실시간으로 보정할 수 있는 품질보정 기법을 개발하였으며, 개발된 기법이 적절히 강우를 보정하는 것을 확인하였다. 이를 통해 결측률이 20% 미만이면서 오자료의 영향이 최소가 되는 190개소(기상청 34개소, SK 플래닛 156 개소)를 정량적 실황강우장 산정에 활용하였다. 또한, 약 $3km^2$의 밀도를 갖는 고해상도 관측망을 이용하여 산정된 강우분포장의 재현성을 기존 기상청 관측망의 결과비교를 통해 평가한 결과, 고밀도 관측망을 통해 산정된 강우분포장의 빈도곡선이 레이더 공간분포장과 유사하며, 기존 기상청 관측망의 공백을 보완할 수 있음을 확인하였다. 특히, 이 결과를 통해 고밀도의 강우관측 결과를 활용한다면 레이더 참강우장에 근사한 공간분포된 강우를 산정할 수 있다는 것을 확인할 수 있었다.

효율적인 피어리뷰 학습을 위한 회귀 모델 기반 학습성과 예측 방법 (A Prediction Method of Learning Outcomes based on Regression Model for Effective Peer Review Learning)

  • 신효정;정혜욱;조광수;이지형
    • 한국지능시스템학회논문지
    • /
    • 제22권5호
    • /
    • pp.624-630
    • /
    • 2012
  • 피어리뷰(peer review)를 통한 학습은 학습자간 피드백을 주고받으며 다양한 정보를 관찰, 분석하는 과정을 통해 학습성과를 향상시키는 방법이다. 피어리뷰 시스템의 중요한 문제 중 하나는, 학습자의 여러 특징을 고려하여 학습자의 학습성과를 향상시키는데 적합한 평가자를 찾는 것이다. 그러나 기존 피어리뷰 시스템에서는 학습자들이 가지는 다양한 특징을 고려하지 않고 단순히 피어리뷰 평가자를 임의로 할당하거나 제한적인 학습 전략에 따라 피어리뷰 평가자를 편성하였다. 본 논문에서는 학습자와 평가자의 다양한 특징을 고려하여, 특정 학습자와 평가자의 조합으로 피어리뷰 학습이 이루어졌을 때 학습자에게 어느 정도의 학습성과 향상이 있을지 예측하는 방법을 제안한다. 제안하는 방법은 학습자와 평가자의 프로파일 정보로부터 대표 속성을 추출하고 다양한 회귀 모델을 적용하였다. 또한 학습자들의 다양한 특징으로 인하여 나타날 수 있는 이상치(outlier)가 학습성과 예측에 미치는 영향을 알아보기 위해, 회귀 모델에 다양한 이상치 제거 방법을 적용하여 학습성과 예측성능을 비교하였다. 실험 결과 이상치를 제거 하지 않은 SVR 모델이 평균 0.47%의 에러율을 보이며 가장 우수한 학습성과 예측결과를 보였다.

IoT환경에서 프라이버시를 보장하는 의료데이터 이상치 탐색 기법 (Privacy-Preserving Outlier Detection in Healthcare Services)

  • 이보영;최원석;이동훈
    • 정보보호학회논문지
    • /
    • 제25권5호
    • /
    • pp.1187-1199
    • /
    • 2015
  • 최근 다양한 기능을 가진 센서가 개발됨에 따라 여러 종류의 데이터를 간편하게 측정할 수 있게 되었다. 특히, 센서들이 인터넷에 연결되는 사물인터넷(Internet of Things: IoT)환경과 헬스 케어 서비스가 결합하면서 원격에서 심박수, 혈중 산소 농도, 체온, 혈압 등의 사용자 데이터를 수집하는 어플리케이션이 등장하고 있다. 사용자의 유전 정보를 이용하여 이상형을 찾거나 환자의 질병유무를 알려주는 어플리케이션 등이 대표적이 예이다. 이 때에 수집되는 사용자 데이터는 사용자의 프라이버시와 매우 밀접하기 때문에 이러한 정보는 반드시 보호되어야 한다. 즉, 사용자의 프라이버시를 보장하면서 서비스제공자는 적절한 서비스를 제공하여야 한다. 본 논문에서는 PhysioNet에서 제공하는 생체정보를 활용하여 헬스 케어 서비스를 제공하는 환경에서 프라이버시를 보장하며 서비스 제공자가 서비스를 제공할 수 있는 있는 기법을 제안한다.

로버스트추정에 바탕을 둔 주성분로지스틱회귀 (Principal Components Logistic Regression based on Robust Estimation)

  • 김부용;강명욱;장혜원
    • 응용통계연구
    • /
    • 제22권3호
    • /
    • pp.531-539
    • /
    • 2009
  • 로지스틱회귀분석은 고객관계관리를 위한 데이터마이닝 분야에서 많이 사용되는 기법인데, 이 분야의 모형설정 과정에서는 연관성이 매우 높은 설명변수들이 모형에 함께 포함되어 다중공선성의 문제를 유발하며, 더욱이 회귀자료에 이상점들이 포함되면 최우추정량은 심각한 결함을 갖게 된다. 두 가지 문제점을 동시에 해결하기 위하여 로버스트주성분로지스틱회귀를 적용할 수 있는데, 본 논문에서는 주성분의 선정기준을 결정하는 모형을 개발하고, 주성분모형에서의 추정치에 미치는 이상점의 영향을 축소하기 위한 로버스트추정법을 제안하였다. 제안된 추정법은 다중공선성과 이상점이 유발하는 문제들을 적절히 해결해 준다는 사실이 모의실험을 통하여 확인되었다.

A Novel Network Anomaly Detection Method based on Data Balancing and Recursive Feature Addition

  • Liu, Xinqian;Ren, Jiadong;He, Haitao;Wang, Qian;Sun, Shengting
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권7호
    • /
    • pp.3093-3115
    • /
    • 2020
  • Network anomaly detection system plays an essential role in detecting network anomaly and ensuring network security. Anomaly detection system based machine learning has become an increasingly popular solution. However, due to the unbalance and high-dimension characteristics of network traffic, the existing methods unable to achieve the excellent performance of high accuracy and low false alarm rate. To address this problem, a new network anomaly detection method based on data balancing and recursive feature addition is proposed. Firstly, data balancing algorithm based on improved KNN outlier detection is designed to select part respective data on each category. Combination optimization about parameters of improved KNN outlier detection is implemented by genetic algorithm. Next, recursive feature addition algorithm based on correlation analysis is proposed to select effective features, in which a cross contingency test is utilized to analyze correlation and obtain a features subset with a strong correlation. Then, random forests model is as the classification model to detection anomaly. Finally, the proposed algorithm is evaluated on benchmark datasets KDD Cup 1999 and UNSW_NB15. The result illustrates the proposed strategies enhance accuracy and recall, and decrease the false alarm rate. Compared with other algorithms, this algorithm still achieves significant effects, especially recall in the small category.