• Title/Summary/Keyword: 이상치 분석

Search Result 2,464, Processing Time 0.029 seconds

An Outlier Data Analysis using Support Vector Regression (Support Vector Regression을 이용한 이상치 데이터분석)

  • Jun, Sung-Hae
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.18 no.6
    • /
    • pp.876-880
    • /
    • 2008
  • Outliers are the observations which are very larger or smaller than most observations in the given data set. These are shown by some sources. The result of the analysis with outliers may be depended on them. In general, we do data analysis after removing outliers. But, in data mining applications such as fraud detection and intrusion detection, outliers are included in training data because they have crucial information. In regression models, simple and multiple regression models need to eliminate outliers from given training data by standadized and studentized residuals to construct good model. In this paper, we use support vector regression(SVR) based on statistical teaming theory to analyze data with outliers in regression. We verify the improved performance of our work by the experiment using synthetic data sets.

Development of Integrated Outlier Analysis System for Construction Monitoring Data (건설 계측 데이터에 대한 통합 이상치 분석 시스템 개발)

  • Jeon, Jesung
    • Journal of the Korean GEO-environmental Society
    • /
    • v.21 no.5
    • /
    • pp.5-11
    • /
    • 2020
  • Outliers detection and elimination included in field monitoring datum are essential for effective foundation of unusual movement, long and short range forecast of stability and future behavior to various structures. Integrated outlier analysis system for assessing long term time series data was developed in this study. Outlier analysis could be conducted in two step of primary analysis targeted at single dataset and second multi datasets analysis using synthesis value. Integrated outlier analysis system presents basic information for evaluating stability and predicting movement of structure combined with real-time safety management platform. Field application results showed increased correlation between synthesis value including similar sort of sensor showing constant trend and each single dataset. Various monitoring data in case of showing different trend can be used to analyse outlier through correlation-weighted value.

Outlier Detection and Replacement for Vertical Wind Speed in the Measurement of Actual Evapotranspiration (실제증발산 측정 시 연직 풍속 이상치 탐색 및 대체)

  • Park, Chun Gun;Rim, Chang-Soo;Lim, Kwang-Suop;Chae, Hyo-Sok
    • KSCE Journal of Civil and Environmental Engineering Research
    • /
    • v.34 no.5
    • /
    • pp.1455-1461
    • /
    • 2014
  • In this study, using flux data measured in Deokgokje reservoir watershed near Deokyu mountain in May, June, and July 2011, statistical analysis was conducted for outlier detection and replacement for vertical wind speed in the measurement of evapotranspiration based on eddy covariance method. To statistically analyze the outliers of vertical wind speed, the outlier detection method based on interquartile range (IQR) in boxplot was employed and the detected outliers were deleted or replaced with mean. The comparison was conducted for the measured evapotranspiration before and after the outlier replacement. The study results showed that there is a difference between evapotranspiration before outlier replacement and evapotranspiration after outlier replacement, especially during the rainy day. Therefore, based on the study results, the outliers should be deleted or replaced in the measurement of evapotranspiration.

Outlier Data Clustering using Factor Score (인자 점수를 이용한 이상치 데이터의 군집화)

  • 전성해;임민택;오경환
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2002.05a
    • /
    • pp.77-80
    • /
    • 2002
  • 이상치를 포함한 학습 데이터의 군집화 전략은 일반적으로 이상치를 포함하여 학습하거나, 이상치를 제거하는 두 가지 선택이 가능하다. 이상치를 제거하지 않고 학습에 반영시켜야 할 경우 한 개 또는 소수의 이상치가 독자적인 군집을 형성하거나 객관적인 군집화를 방해하는 문제가 발생할 수 있다. 이 때 주어진 학습 데이터의 군집 결과가 이상치의 영향으로부터 벗어나기 위해 원래의 학습 데이터에 대한 변환 작업을 거친 후 군집화를 수행할 수 있다. 이러한 변환 방법으로서 본 논문에서는 차원 축소의 기법으로 알려진 인자 분석의 점수를 사용하였다. 인자 점수로 변환된 학습 데이터에 대해 계층적 군집화, K-means 그리고 자기조직화 지도 등과 같은 군집화 알고리즘을 적용하면 이상치가 자신만의 군집을 별도로 형성하지 않고 다른 학습 데이터의 군집에 소속되면서 이상회의 영향으로부터 벗어남을 실험을 통하여 확인하였다.

  • PDF

Outlier(이상치) 분석을 통한 등부표 등부표 효율적 위치 관리 방안 연구

  • 최광영;송재욱
    • Proceedings of the Korean Institute of Navigation and Port Research Conference
    • /
    • 2023.05a
    • /
    • pp.290-291
    • /
    • 2023
  • Outlier(이상치) 분석을 통한 등부표 선회안전반경 정보 제공에 관한 연구는 AIS 또는 RTU가 설치된 등부표에 대한 이탈 위험 인지, 항해안전 사고 예방 등 안전대책을 강화하기 위한 연구이다. 등부표는 조류, 바람 등 외력에 의해 이출거리가 발생하여 일정한 패턴으로 선회반경이 형성되나 외력으로 인하여 정상범위에서 벗어나 유실, 위치이동 등이 발생할 수 있고 이는 선박추돌 등 항해안전 사고로도 이어질 수 있다. 이러한 등부표 사고는 물적 피해비용과 이용자의 안전운항에 대한 심리적 부담감 또는 위험감수 등의 추가적인 행정소요 비용이 발생할 수 있다. Outlier(이상치)란 외력 등으로 인해 최대 이출거리 이내 정상범위에서 벗어나거나 존재할 수 없는 극단적인 위치 값으로써 21년도 등부표 위치 데이터를 일정 단위 방위별로 분석해 본 결과 Outlier(이상치)가 식별되었다. 따라서 등부표의 안전한 위치 상태를 시스템적으로 모니터링 하기 위해 Outlier(이상치) 분석을 통한 등부표 선회안전반경 정보 제공에 관한 연구를 하였다.

  • PDF

Development of data processing component module for the flood management in an agricultural watershed (농촌유역 홍수관리를 위한 자료처리 요소모듈 개발)

  • Lee, Do Gil;Kang, Moon Seong;Park, Jihoon;Ryu, Jeong Hoon
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2016.05a
    • /
    • pp.289-289
    • /
    • 2016
  • 신뢰성 높은 홍수관리는 경향성 분석, 이상치 판정 등의 전처리를 수행한 입력 자료를 구축하는 것을 필요로 한다. 경향성 분석은 방법에 따라 경향성의 유무가 다르게 나타나기 때문에 하나의 방법으로만 판단하기 어려우며, 이상치 분석은 지역 특성에 따라 기준이 변동하므로 일정한 기준을 적용하기가 어려워 주로 수동으로 이루어지며 이 작업을 완료하는 데에는 많은 시간이 소요된다. 입력 자료 전처리에 수반되는 비용과 시간을 절감하기 위해 이러한 문제점의 개선이 필요한 실정이다. 따라서 본 연구의 목적은 농촌유역 홍수관리를 위한 자료처리 요소 모듈을 개발하는 데 있다. 홍수관리를 위한 자료처리 요소 모듈은 크게 기상자료의 경향성을 분석하는 모듈과 수위자료의 이상치를 탐지하고 판정하는 모듈로 구성하였다. 경향성 분석 모듈은 모수적 방법인 t-test와 비모수적 방법인 Hotelling-Pabst test 및 Mann-Kendall test를 분석 방법으로 제공하여 하나의 입력 자료로 세 가지 방법으로 분석한 결과를 비교할 수 있도록 개발하였다. 이상치 탐지 모듈은 IQR (interquartile range) 규칙과 규칙기반의 방법을 이용한 이상치 탐지를 제공할 수 있도록 개발하였다. 개발된 모듈은 한강 유역의 용당저수지에 적용하여 검정을 실시하였다. 본 연구에서 개발된 농촌유역 홍수관리를 위한 자료처리 요소 모듈은 추후 홍수관리 및 그에 관한 연구를 하는데 있어 활용될 수 있을 것으로 기대된다.

  • PDF

A Comparative Study on Methods for Outlier Test of Rainfall in Korea (국내 강우의 이상치검정 방법의 비교 연구)

  • Lee, Jung Sik;Shin, Chang Dong
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2018.05a
    • /
    • pp.359-359
    • /
    • 2018
  • 이상치는 표본자료에서 크게 어긋나 다른 자료들로부터 떨어져 표시되는 자료로써, 실제로 발생할 확률이 매우 낮은 자료로 정의되고 있다. 설계홍수량을 산정하기 위하여 적용하고 있는 극치계열의 연최대치 강우자료에는 기계오작동 및 엔지니어의 표독오류가 발생하고 있으며, 기후변화에 따른 거대태풍 및 국지적인 집중호우 발생 등으로 인한 극치값 등에서 이상치가 관측되고 있다. 통상 이상치들은 통계분석시 자료 본연의 특성을 왜곡시켜 편향된 결과를 산정할 수 있으므로 빈도해석시 이상치해석 절차를 수행하여 자료의 적정성을 확인하여야 한다. 현재 실무에서는 설계홍수량 산정요령과 하천설계기준 해설 등에서 관련 내용을 기술하고 있지만, 국내 강우자료의 기록연수의 부족으로 인하여 빈도해석시 이상치 해석이 미수행되고 있어 이상치에 따른 자료편의가 발생하면 결과물인 확률강우량이 왜곡되게 산정될 수 있다. 따라서, 본 연구에서는 국내 주요 도시의 강우자료를 이용하여 이상치검정을 수행하였다. 대상지점으로는 서울, 부산, 대전, 대구, 인천, 광주, 울산 등의 비교적 긴 관측년수를 보유하고 있는 광역시를 선정하였으며, 지속기간은 10분, 1~24시간의 25개 강우자료를 적용하였다. 이상치검정 방법으로는 타 방법에 비하여 이상치 검정력이 뛰어난 것으로 알려진 2가지 방법을 채택하였으며, 표본자료의 평균과 표준편차로 표준화된 z값을 이용하여 상 하 한계선를 초과하는 값을 확인하는 z-Score 방법중 향상된 중위수 절대편차(MAD)에 의한 수정 z-Score 방법(Hoaglin, 1993)과 Box-Plot 방법(Tukey, 1969)을 적용하였다. Box-Plot 방법(Tukey, 1969)은 전체 자료를 25%씩 사분위로 구분하는 방법으로 정렬된 자료계열을 중앙값, 박스, 수염(whiskers), 이상치로 구분한다. 정렬된 25~75% 값들을 박스로 포함하여 외곽의 수염값들을 이상치로 분류하며, 특히 사분위수의 도식화로 데이터의 분포를 파악하기 좋으며, 이상치들의 위치와 자료의 비대칭 여부를 쉽게 파악할 수 있다. 본 연구의 수행으로 수정 z-Score 방법의 경우에는 서울과 대구지점에는 이상치가 없으며, 부산지점에는 13개, 대전지점 7개, 인천지점 5개, 광주지점 32개, 울산지점 26개가 나타났다. Box-Plot 방법으로는 서울지점 35개, 부산지점 39개, 대전지점 32개, 대구지점 38개, 인천지점 51개, 광주지점 61개, 울산지점 65개의 이상치가 분석되었다. 연구를 수행한 결과, 수정 z-Score 방법에 비하여 Box-Plot 방법에 의한 이상치가 더 많이 발생하였으며, 각각의 방법으로 지속기간 및 연도별 이상치 발생자료를 확인하였다. 방법별 이상치 발생현황 등을 분석하여 지점별 발생횟수를 분석하였으며, 추후 지점 및 자료의 보완이 수행되면 활용성을 증대시킬 수 있을 것으로 판단된다.

  • PDF

Outlier Detection in Time Series Monitoring Datasets using Rule Based and Correlation Analysis Method (규칙기반 및 상관분석 방법을 이용한 시계열 계측 데이터의 이상치 판정)

  • Jeon, Jesung;Koo, Jakap;Park, Changmok
    • Journal of the Korean GEO-environmental Society
    • /
    • v.16 no.5
    • /
    • pp.43-53
    • /
    • 2015
  • In this study, detection methods of outlier in various monitoring data that fit into big data category were developed and outlier detections were conducted for both artificial data and real field monitoring data. Rule-based methods applied rate of change and probability of error for monitoring data are effective to detect a large-scale short faults and constant faults having no change within a certain period. There are however, problems with misjudgement that consider the normal data with a large scale variation as outlier caused by using independent single dataset. Rule-based methods for noise faults detection have a limit to application of real monitoring data due to the problem with a choice of proper window size of data and finding of threshold for outlier judgment. A correlation analysis among different two datasets were very effective to detect localized outlier and abnormal variation for short and long-term monitoring dataset if reasonable range of training data could be selected.

강우센서에서 생성된 강우정보를 이용한 선형회귀분석과 대역 통과 필터링 분석간의 정확도 비교

  • Kim, Yeong-Gon;Lee, Seok-Ho;Kim, Byeong-Sik
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2017.05a
    • /
    • pp.172-172
    • /
    • 2017
  • 본 연구는 차량의 AW(AutoWiping) 기능을 위해 장착된 강우센서를 이용하여 강우정보를 생산하는 기술을 개발하고자 하였다. AW(AutoWiping) 기능이란 차량 앞창(Windshield)에 빗방울이 맺히게 되면 광신호의 산란으로 인해 수광부에 들어오는 감소되는 광신호의 정도에 따라 차량 와이퍼의 속도를 결정해 주는 기능이다. 빗방울이 많이 맺힐수록 광신호는 감소되며 와이퍼는 더 빠른 속도로 작동을 하게 된다. 여기서 강우센서가 강우량이 많으면 감소된 광신호 데이터를 표출하는 현상을 이용하여 강우정보를 생산한다. 강우센서는 총 8개의 채널로 이루어져있고, 초당 250개의 광신호 데이터를 수집하며, 10분이면 약 120만 개의 데이터가 생산되게 된다. 이 대량의 데이터에서 정확한 강우량을 산출하기 위해 강우센서의 초기값과 와이퍼 이동시 발생하는 순간 이상치를 제거해야 한다. 하지만 일일이 수백만 개 이상의 데이터에서 모든 이상치를 제거하는 작업은 불가능하다. 따라서 이상치를 포함한 회귀 분석 방법을 연구하였고, 인공강우 발생기를 이용하여 광신호를 강우량으로 환산하는 2가지 회귀식이 유도되었다. 이들은 각각 이상치를 모두 포함시켜 독립변수(광신호)에 따라 종속변수(강우량)의 값이 변화하는 관계를 나타내는 선형회귀분석(model 1), 임계치를 정하여 일정 이상치가 제거된 신호만 통과시키는 대역통과 필터링 분석(model 2)으로 유도된 회귀식을 실강우에 회귀식을 적용하여 정확도를 분석하였다.

  • PDF

Quantitative characterization of historical drought events in Korea -focusing on outlier analysis of precipitation- (우리나라 과거 가뭄사상의 정량적 특성 분석 -강수량의 이상치 분석을 중심으로-)

  • Jang, Ho-Won;Cho, Hyeong-Won;Kim, Tae-Woong;Lee, Joo-Heon
    • Journal of Korea Water Resources Association
    • /
    • v.49 no.2
    • /
    • pp.145-153
    • /
    • 2016
  • Using monthly rainfalls, this study investigated outliers of annual and/or seasonal rainfall for quantitative assessment of historical droughts in Korea. Based on the analysis of annual rainfall, Icheon, Geochang, Jeongeup, Suncheon and Jangheung gaging stations were selected to represent the major river basins, because they had most frequent dry years. The overall results indicated that the years of 1988 and 1994 were the worst dry years. Although the 2001 drought was not severe, it resulted in typical agricultural drought damage mainly in Seomjin and Yeongsan river basin due to the lack of agricultural water. On the other hand, the droughts of 1981-1982 and 1994-1995 were long term nation wide droughts that lasted more than two years resulting in extensive drought damages to parts of the country.