• 제목/요약/키워드: 이상치 분석

검색결과 2,454건 처리시간 0.239초

Support Vector Regression을 이용한 이상치 데이터분석 (An Outlier Data Analysis using Support Vector Regression)

  • 전성해
    • 한국지능시스템학회논문지
    • /
    • 제18권6호
    • /
    • pp.876-880
    • /
    • 2008
  • 주어진 데이터에서 대부분의 다른 관측치들에 비해 지나치게 크거나 작은 관측치를 이상치라고 한다. 이상치는 몇 가지 원인에 의해 발생한다. 이상치를 포함한 데이터의 분석결과는 이 값을 포함하지 않은 경우와 크게 달라질 수 있다. 일반적으로 이상치는 탐지를 통하여 찾아내어 제거한 후에 데이터분석을 수행한다. 하지만 사기탐지, 네트워크 침입 등의 데이터 마이닝 분야에서는 이상치가 중요한 정보를 포함하고 있기 때문에 반드시 포함하여 데이터분석을 수행하여야 한다. 본 논문에서 다루는 회귀모형에서는 기존의 단순, 다중 회귀분석은 이상치에 대하여 안정된 모형을 구축하기 어렵기 때문에 표준화 잔차 또는 스튜던트화된 잔차를 이용하여 이상치를 찾아내고 제거한 후의 데이터분석 수행을 추천한다. 본 논문에서는 회귀모형에서 이상치를 포함하여 효과적으로 데이터분석을 수행할 수 있는 한 방법으로 Vapnik이 제안한 통계적 학습이론에 기반한 Support Vector Regression(SVR)을 이용하였다 인공 데이터를 생성한 모의실험 결과 기존의 회귀모형에 비해 SVR의 향상된 결과를 확인할 수 있었다.

건설 계측 데이터에 대한 통합 이상치 분석 시스템 개발 (Development of Integrated Outlier Analysis System for Construction Monitoring Data)

  • 전제성
    • 한국지반환경공학회 논문집
    • /
    • 제21권5호
    • /
    • pp.5-11
    • /
    • 2020
  • 구조물의 이상징후 판단 및 장단기 안정성, 장래 거동 등의 판단에 다양한 계측결과가 효율적으로 이용되기 위해서는 계측 데이터 내에 포함한 각종 이상치의 판정 및 제거가 필요하다. 본 연구에서는 장기 시계열 데이터에 대한 이상치 평가를 수행하기 위한 통합 이상치 분석 시스템을 개발하였다. 이상치 평가는 시계열 분석법에 의한 단일 데이터셋 대상의 1차 이상치 분석과 합성신호 기반의 다중 데이터셋에 대한 2차 이상치 분석으로 구분하여 단계별로 수행되었다. 통합 이상치 분석 시스템은 구조물에 대한 종합 안전관리 플랫폼과 실시간 연동되어 구조물의 각종 안전성 평가 및 거동 예측 등을 위한 기초자료를 제공할 수 있도록 개발되었다. 현장 적용을 통해 일정 경향을 보이는 동종의 다수 센서들의 합성신호와 개별 데이터셋 간의 상관성이 크게 증가함을 확인할 수 있었으며, 상관성에 대한 가중치 적용을 통해 차별 거동을 보이는 다양한 센서 계측치들도 모두 통합 이상치 분석에 활용될 수 있음을 확인 할 수 있었다.

실제증발산 측정 시 연직 풍속 이상치 탐색 및 대체 (Outlier Detection and Replacement for Vertical Wind Speed in the Measurement of Actual Evapotranspiration)

  • 박천건;임창수;임광섭;채효석
    • 대한토목학회논문집
    • /
    • 제34권5호
    • /
    • pp.1455-1461
    • /
    • 2014
  • 본 연구에서는 2011년 5월, 6월, 7월에 덕유산 덕곡제에서 관측된 플럭스자료를 이용하여 에디공분산방법으로부터 증발산량을 측정하는 경우 발생할 수 있는 연직방향 풍속의 이상치 판별 및 대체에 대한 통계적 분석을 실시하였다. 연직방향 풍속의 이상치를 파악하기 위해 적용된 통계분석방법은 사분위수를 바탕으로 상자그림(boxplot)의 분석결과 중에 이상치를 판별하기 위한 interquartile range (IQR)을 적용하여 이상치를 탐색하였다. 또한 삭제하거나 평균값으로 대체하는 방법을 통하여 보완된 연직방향 풍속자료를 이용하여 증발산량을 측정하였으며, 이를 보완전의 증발산량과 비교분석하였다. 비교분석한 결과에 의하면 이상치를 대체하기 전의 증발산량과 이상치를 대체한 후의 증발산량 사이에 차이를 보였으며, 특히 강우 시에 보다 큰 차이를 보였다. 따라서 증발산량 측정과정에서 발생하는 이상치를 보완하기 위해 이상치를 삭제하거나 대체하여 증발산량을 측정하는 것이 필요하다.

인자 점수를 이용한 이상치 데이터의 군집화 (Outlier Data Clustering using Factor Score)

  • 전성해;임민택;오경환
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2002년도 춘계학술대회 및 임시총회
    • /
    • pp.77-80
    • /
    • 2002
  • 이상치를 포함한 학습 데이터의 군집화 전략은 일반적으로 이상치를 포함하여 학습하거나, 이상치를 제거하는 두 가지 선택이 가능하다. 이상치를 제거하지 않고 학습에 반영시켜야 할 경우 한 개 또는 소수의 이상치가 독자적인 군집을 형성하거나 객관적인 군집화를 방해하는 문제가 발생할 수 있다. 이 때 주어진 학습 데이터의 군집 결과가 이상치의 영향으로부터 벗어나기 위해 원래의 학습 데이터에 대한 변환 작업을 거친 후 군집화를 수행할 수 있다. 이러한 변환 방법으로서 본 논문에서는 차원 축소의 기법으로 알려진 인자 분석의 점수를 사용하였다. 인자 점수로 변환된 학습 데이터에 대해 계층적 군집화, K-means 그리고 자기조직화 지도 등과 같은 군집화 알고리즘을 적용하면 이상치가 자신만의 군집을 별도로 형성하지 않고 다른 학습 데이터의 군집에 소속되면서 이상회의 영향으로부터 벗어남을 실험을 통하여 확인하였다.

  • PDF

Outlier(이상치) 분석을 통한 등부표 등부표 효율적 위치 관리 방안 연구

  • 최광영;송재욱
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2023년도 춘계학술대회
    • /
    • pp.290-291
    • /
    • 2023
  • Outlier(이상치) 분석을 통한 등부표 선회안전반경 정보 제공에 관한 연구는 AIS 또는 RTU가 설치된 등부표에 대한 이탈 위험 인지, 항해안전 사고 예방 등 안전대책을 강화하기 위한 연구이다. 등부표는 조류, 바람 등 외력에 의해 이출거리가 발생하여 일정한 패턴으로 선회반경이 형성되나 외력으로 인하여 정상범위에서 벗어나 유실, 위치이동 등이 발생할 수 있고 이는 선박추돌 등 항해안전 사고로도 이어질 수 있다. 이러한 등부표 사고는 물적 피해비용과 이용자의 안전운항에 대한 심리적 부담감 또는 위험감수 등의 추가적인 행정소요 비용이 발생할 수 있다. Outlier(이상치)란 외력 등으로 인해 최대 이출거리 이내 정상범위에서 벗어나거나 존재할 수 없는 극단적인 위치 값으로써 21년도 등부표 위치 데이터를 일정 단위 방위별로 분석해 본 결과 Outlier(이상치)가 식별되었다. 따라서 등부표의 안전한 위치 상태를 시스템적으로 모니터링 하기 위해 Outlier(이상치) 분석을 통한 등부표 선회안전반경 정보 제공에 관한 연구를 하였다.

  • PDF

농촌유역 홍수관리를 위한 자료처리 요소모듈 개발 (Development of data processing component module for the flood management in an agricultural watershed)

  • 이도길;강문성;박지훈;류정훈
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2016년도 학술발표회
    • /
    • pp.289-289
    • /
    • 2016
  • 신뢰성 높은 홍수관리는 경향성 분석, 이상치 판정 등의 전처리를 수행한 입력 자료를 구축하는 것을 필요로 한다. 경향성 분석은 방법에 따라 경향성의 유무가 다르게 나타나기 때문에 하나의 방법으로만 판단하기 어려우며, 이상치 분석은 지역 특성에 따라 기준이 변동하므로 일정한 기준을 적용하기가 어려워 주로 수동으로 이루어지며 이 작업을 완료하는 데에는 많은 시간이 소요된다. 입력 자료 전처리에 수반되는 비용과 시간을 절감하기 위해 이러한 문제점의 개선이 필요한 실정이다. 따라서 본 연구의 목적은 농촌유역 홍수관리를 위한 자료처리 요소 모듈을 개발하는 데 있다. 홍수관리를 위한 자료처리 요소 모듈은 크게 기상자료의 경향성을 분석하는 모듈과 수위자료의 이상치를 탐지하고 판정하는 모듈로 구성하였다. 경향성 분석 모듈은 모수적 방법인 t-test와 비모수적 방법인 Hotelling-Pabst test 및 Mann-Kendall test를 분석 방법으로 제공하여 하나의 입력 자료로 세 가지 방법으로 분석한 결과를 비교할 수 있도록 개발하였다. 이상치 탐지 모듈은 IQR (interquartile range) 규칙과 규칙기반의 방법을 이용한 이상치 탐지를 제공할 수 있도록 개발하였다. 개발된 모듈은 한강 유역의 용당저수지에 적용하여 검정을 실시하였다. 본 연구에서 개발된 농촌유역 홍수관리를 위한 자료처리 요소 모듈은 추후 홍수관리 및 그에 관한 연구를 하는데 있어 활용될 수 있을 것으로 기대된다.

  • PDF

국내 강우의 이상치검정 방법의 비교 연구 (A Comparative Study on Methods for Outlier Test of Rainfall in Korea)

  • 이정식;신창동
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2018년도 학술발표회
    • /
    • pp.359-359
    • /
    • 2018
  • 이상치는 표본자료에서 크게 어긋나 다른 자료들로부터 떨어져 표시되는 자료로써, 실제로 발생할 확률이 매우 낮은 자료로 정의되고 있다. 설계홍수량을 산정하기 위하여 적용하고 있는 극치계열의 연최대치 강우자료에는 기계오작동 및 엔지니어의 표독오류가 발생하고 있으며, 기후변화에 따른 거대태풍 및 국지적인 집중호우 발생 등으로 인한 극치값 등에서 이상치가 관측되고 있다. 통상 이상치들은 통계분석시 자료 본연의 특성을 왜곡시켜 편향된 결과를 산정할 수 있으므로 빈도해석시 이상치해석 절차를 수행하여 자료의 적정성을 확인하여야 한다. 현재 실무에서는 설계홍수량 산정요령과 하천설계기준 해설 등에서 관련 내용을 기술하고 있지만, 국내 강우자료의 기록연수의 부족으로 인하여 빈도해석시 이상치 해석이 미수행되고 있어 이상치에 따른 자료편의가 발생하면 결과물인 확률강우량이 왜곡되게 산정될 수 있다. 따라서, 본 연구에서는 국내 주요 도시의 강우자료를 이용하여 이상치검정을 수행하였다. 대상지점으로는 서울, 부산, 대전, 대구, 인천, 광주, 울산 등의 비교적 긴 관측년수를 보유하고 있는 광역시를 선정하였으며, 지속기간은 10분, 1~24시간의 25개 강우자료를 적용하였다. 이상치검정 방법으로는 타 방법에 비하여 이상치 검정력이 뛰어난 것으로 알려진 2가지 방법을 채택하였으며, 표본자료의 평균과 표준편차로 표준화된 z값을 이용하여 상 하 한계선를 초과하는 값을 확인하는 z-Score 방법중 향상된 중위수 절대편차(MAD)에 의한 수정 z-Score 방법(Hoaglin, 1993)과 Box-Plot 방법(Tukey, 1969)을 적용하였다. Box-Plot 방법(Tukey, 1969)은 전체 자료를 25%씩 사분위로 구분하는 방법으로 정렬된 자료계열을 중앙값, 박스, 수염(whiskers), 이상치로 구분한다. 정렬된 25~75% 값들을 박스로 포함하여 외곽의 수염값들을 이상치로 분류하며, 특히 사분위수의 도식화로 데이터의 분포를 파악하기 좋으며, 이상치들의 위치와 자료의 비대칭 여부를 쉽게 파악할 수 있다. 본 연구의 수행으로 수정 z-Score 방법의 경우에는 서울과 대구지점에는 이상치가 없으며, 부산지점에는 13개, 대전지점 7개, 인천지점 5개, 광주지점 32개, 울산지점 26개가 나타났다. Box-Plot 방법으로는 서울지점 35개, 부산지점 39개, 대전지점 32개, 대구지점 38개, 인천지점 51개, 광주지점 61개, 울산지점 65개의 이상치가 분석되었다. 연구를 수행한 결과, 수정 z-Score 방법에 비하여 Box-Plot 방법에 의한 이상치가 더 많이 발생하였으며, 각각의 방법으로 지속기간 및 연도별 이상치 발생자료를 확인하였다. 방법별 이상치 발생현황 등을 분석하여 지점별 발생횟수를 분석하였으며, 추후 지점 및 자료의 보완이 수행되면 활용성을 증대시킬 수 있을 것으로 판단된다.

  • PDF

규칙기반 및 상관분석 방법을 이용한 시계열 계측 데이터의 이상치 판정 (Outlier Detection in Time Series Monitoring Datasets using Rule Based and Correlation Analysis Method)

  • 전제성;구자갑;박창목
    • 한국지반환경공학회 논문집
    • /
    • 제16권5호
    • /
    • pp.43-53
    • /
    • 2015
  • 본 연구에서는 빅데이터 범주에 포함되는 각종 계측 데이터를 대상으로 각종 이상치를 판단하기 위한 기법을 고안하고, 인공 데이터 및 실 계측 데이터를 이용한 이상치 분석을 수행하였다. 계측결과에 대한 1차 차분 값 및 오차율을 적용한 규칙기반 방법은 큰 규모의 Short fault 분석 및 일정 기간 계측값에 변화가 발생하지 않는 경우의 Constant fault 분석에 효과적으로 적용될 수 있었으나, 독립적인 단일 데이터셋만을 이용하는 관계로 큰 변화폭을 보이는 실 계측 데이터의 정상 데이터를 이상치로 오판하는 문제점이 있었다. 규칙기반 방법을 이용한 Noise fault 분석은 적정 데이터 윈도우 사이즈의 선택 및 이상치 판정용 한계값 선정상의 문제로 인해 실 계측 데이터 적용에 한계가 있었다. 이종 데이터 간 상관분석 방법은 학습 데이터의 적정범위 선정이 선행된다면 장단기 계측 데이터의 이상 거동 및 국부적 이상치 판정에 매우 효과적으로 이용될 수 있음을 알 수 있었다.

강우센서에서 생성된 강우정보를 이용한 선형회귀분석과 대역 통과 필터링 분석간의 정확도 비교

  • 김영곤;이석호;김병식
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2017년도 학술발표회
    • /
    • pp.172-172
    • /
    • 2017
  • 본 연구는 차량의 AW(AutoWiping) 기능을 위해 장착된 강우센서를 이용하여 강우정보를 생산하는 기술을 개발하고자 하였다. AW(AutoWiping) 기능이란 차량 앞창(Windshield)에 빗방울이 맺히게 되면 광신호의 산란으로 인해 수광부에 들어오는 감소되는 광신호의 정도에 따라 차량 와이퍼의 속도를 결정해 주는 기능이다. 빗방울이 많이 맺힐수록 광신호는 감소되며 와이퍼는 더 빠른 속도로 작동을 하게 된다. 여기서 강우센서가 강우량이 많으면 감소된 광신호 데이터를 표출하는 현상을 이용하여 강우정보를 생산한다. 강우센서는 총 8개의 채널로 이루어져있고, 초당 250개의 광신호 데이터를 수집하며, 10분이면 약 120만 개의 데이터가 생산되게 된다. 이 대량의 데이터에서 정확한 강우량을 산출하기 위해 강우센서의 초기값과 와이퍼 이동시 발생하는 순간 이상치를 제거해야 한다. 하지만 일일이 수백만 개 이상의 데이터에서 모든 이상치를 제거하는 작업은 불가능하다. 따라서 이상치를 포함한 회귀 분석 방법을 연구하였고, 인공강우 발생기를 이용하여 광신호를 강우량으로 환산하는 2가지 회귀식이 유도되었다. 이들은 각각 이상치를 모두 포함시켜 독립변수(광신호)에 따라 종속변수(강우량)의 값이 변화하는 관계를 나타내는 선형회귀분석(model 1), 임계치를 정하여 일정 이상치가 제거된 신호만 통과시키는 대역통과 필터링 분석(model 2)으로 유도된 회귀식을 실강우에 회귀식을 적용하여 정확도를 분석하였다.

  • PDF

우리나라 과거 가뭄사상의 정량적 특성 분석 -강수량의 이상치 분석을 중심으로- (Quantitative characterization of historical drought events in Korea -focusing on outlier analysis of precipitation-)

  • 장호원;조형원;김태웅;이주헌
    • 한국수자원학회논문집
    • /
    • 제49권2호
    • /
    • pp.145-153
    • /
    • 2016
  • 본 연구에서는 우리나라에서 발생했던 과거 가뭄사상을 정량적으로 평가하기 위해 우리나라의 59개 기상관측소의 월강수량 자료를 이용하여 연강수량 및 계절별(봄철) 강수량에 대한 이상치($-1{\sigma}$)를 분석하였다. 연강수량을 통해 이상치 발생 빈도를 구하여 그 중 가장 유역별로 과우해($-1{\sigma}$) 발생빈도가 높은 이천, 거창, 정읍, 순천, 장흥 관측소를 선정하여 이상치를 분석한 결과 1988, 1994년이 동일하게 심한 과우해로 나타났다. 전체 이상치 기간 분석결과와 봄철 이상치 분석결과를 통해 2001년 가뭄은 심한 과우해로 분류되지는 않았지만 주로 섬진강 및 영산강 유역을 중심으로 심한 봄 가뭄이 발생하였으며, 농업용수 부족으로 인한 농작물 피해를 발생시킨 대표적인 농업적 가뭄연도로 분석되었다. 반면에 1981-1982년 및 1994-1995년과 같이 2년 이상 지속된 전국적 장기가뭄은 국가적으로 큰 가뭄피해를 야기하였다.