• 제목/요약/키워드: 이상치 및 결측치

검색결과 15건 처리시간 0.01초

글로벌 기후 관측자료 품질관리 기법 개발 (Development of quality control techniques for global climate observations)

  • 이재승;김선호;배덕효
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2019년도 학술발표회
    • /
    • pp.104-104
    • /
    • 2019
  • 기후 관측자료의 경우 관측, 가공, 전송 중에 오류가 발생할 수 있으며, 특히 글로벌 기후자료는 다양한 조건을 가지고 있는 자료를 수집하였기 때문에 일반적으로 해당 국가 관측자료보다 품질이 낮다. 본 연구에서는 글로벌 기후 관측자료의 품질을 개선할 수 있는 품질관리 기법을 개발하고 국내 지역에 적용해보고자 한다. 연구대상지역으로 국내 대표도시 7 곳을 선정하였으며, 글로벌 기후자료는 NCDC (National Climatic Data Center)의 일 단위 GSOD (Global Surface Summary of the Day) 자료를 수집하였다. 품질관리는 강수와 기온에 대해서 실시하였으며 과정은 크게 이상치 검사, 이상치 및 결측치 보정, 연, 월 단위 기후 자료 산정으로 구분된다. 이상치 검사는 중복성 검사, 내적일치성 검사, 기후범위 검사, 공간동질성 검사를 기반으로 구성되어 있다. 이상치 및 결측치 보정은 인접 관측소의 자료를 보간하여 수행하였으며, 보간기법은 4 방향 역거리 가중법을 활용하였다. 연, 월 단위 자료 산정은 자료의 결측률을 고려하여 일 단위 자료를 연, 월 단위 자료로 변환하는 과정이다. 이상치 검사 결과 대부분의 이상치는 기후범위와 공간동질성 검사에서 발견되는 것으로 나타났으며, 중복성 및 내적일치성 검사는 이상치 검출 효과가 적은 것으로 나타났다. 결측치 및 이상치 보간 결과 추정된 자료와 관측값 간의 상관관계가 있는 것으로 나타나 활용성이 있었다. 본 연구는 글로벌 자료의 품질관리 기법을 제시하였다는 점에서 활용성이 있으며, 향후 품질관리 기법의 검증에 관한 연구를 수행할 필요가 있다.

  • PDF

데이터 저장소를 이용한 이상치 및 결측치 보정 시스템 (Adjustment System for Outlier and Missing Value using Data Storage)

  • 김광호;김능회
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권5호
    • /
    • pp.47-53
    • /
    • 2023
  • 현재 4차 산업혁명 시대에 오면서 다양하고 많은 데이터가 쌓여왔다. 농업사회도 스마트팜이나 노지에서 작물의 성장에 영향을 주는 환경 데이터를 센서로 수집해왔다. 환경 데이터는 측정하는 지역에 따라 특징을 가지고, 측정하는 시기에 따라서도 특징을 보이는 데이터이다. 수집된 농업 데이터를 활용해 통계, 인공지능을 사용하여 성장을 예측하거나 수확량을 예측하는 연구가 진행되어왔다. 이러한 연구는 기반이 되는 데이터에 따라 결과가 크게 차이난다. 이에 성능 향상을 위해서 데이터의 품질을 개선하기 위한 연구 또한 지속해서 진행되어왔다. 높은 성능을 위하여 많은 양의 데이터가 필요하고, 양이 충분하여도 데이터의 이상치나 결측치가 있을 경우 결과에 큰 영향을 미친다. 따라서 이상치와 결측치 값의 보정은 데이터 전처리 과정에서 필수이다. 이에 본 논문에서는 실제 농가에서 수집된 데이터를 통합하고 이를 기반으로 이상치와 결측치 보정 시스템을 제안한다.

국가 수문자료 품질관리시스템 운영성과 (Assessment of National Quality Control System for the Hydrological Data)

  • 김형섭;조창훈
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2012년도 학술발표회
    • /
    • pp.634-634
    • /
    • 2012
  • 국가 차원에서 일관된 수문자료 품질관리기준을 제시하고, 현업에서 활용 가능한 시스템을 구축하기 위해 개발된 국가 수문자료 품질관리시스템은 2007년부터 한강, 낙동강, 금강, 영산강홍수통제소에서 적극 활용하여 수문자료 신뢰도 향상에 기여하고 있다. 본 연구에서는 기 구축된 국가 수문자료 품질관리시스템을 한강, 낙동강, 금강, 영산강홍수통제소에서 관할하는 수문관측소 및 수문자료에 적용, 운영 실적을 지속적으로 분석하고 수문자료의 이상률, 결측률 등의 통계분석을 통해 수문자료 품질 및 신뢰도를 정량적, 정성적으로 나타내고 품질관리 업무 실시 후의 개선 효과를 제시하였다. 이를 통해 국가 수자원을 적극적으로 관리하여 신뢰성 있는 수문자료를 확보하고 품질 수준 향상을 위한 개선작업을 꾸준히 수행함으로써 수문자료의 신뢰도 제고와 국가 수문자료 관리업무의 효율성을 증대시키고자 한다.

  • PDF

다중 융합 네트워크 기반 이동 객체 행동 인식 (Behavior Recognition of Moving Object based on Multi-Fusion Network)

  • 김진아;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.641-642
    • /
    • 2022
  • 단일 데이터로부터의 이동 객체에 대한 행동 인식 연구는 데이터 수집 과정에서 발생하는 노이즈의 영향을 크게 받는다. 본 논문은 영상 데이터와 센서 데이터를 이용하여 다중 융합 네트워크 기반 이동 객체 행동 인식 방법을 제안한다. 영상으로부터 객체가 감지된 영역의 추출과 센서 데이터의 이상치 제거 및 결측치 보간을 통해 전처리된 데이터들을 융합하여 시퀀스를 생성한다. 생성된 시퀀스는 CNN(Convolutional Neural Networks)과 LSTM(Long Short Term Memory)기반 다중 융합 네트워크 모델을 통해 시계열에 따른 행동 특징들을 추출하고, 깊은 FC(Fully Connected) 계층을 통해 특징들을 융합하여 행동을 예측한다. 본 연구에서 제시된 방법은 사람을 포함한 동물, 로봇 등의 다양한 객체에 적용될 수 있다.

서울시 우울증 데이터 분석을 통한 정신건강 개선 방안 연구 (Analyzing depression data in Seoul to study ways to improve mental health.)

  • 김지은;김의준;김관빈;이가영;송병진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.565-566
    • /
    • 2024
  • 본 연구는 서울시의 우울증 진단 경험률 통계 데이터를 분석하여 지역별 우울증 발생 패턴과 인구 통계적 특성을 파악하고자 하였습니다. 결측치 처리와 이상치 조정을 통한 데이터 전처리 후, 연령대와 성별, 교육 수준 등 다양한 변수에 따른 우울증 진단률의 분포를 탐색적 데이터 분석을 통해 시각화하였습니다. 특히 여성과 고령 인구에서 높은 우울증 경험률을 관찰하였으며, 이를 통해 맞춤형 정신건강 개선 방안을 제시하고자 하였습니다. 본 연구는 정책 입안자와 보건 전문가들에게 유용한 인사이트를 제공하고, 효과적인 우울증 관리 및 예방 전략 개발에 조금이라도 기여할 것으로 기대됩니다.

영화 데이터를 위한 쌍별 규합 접근방식의 군집화 기법 (Pairwise fusion approach to cluster analysis with applications to movie data)

  • 김희진;박세영
    • 응용통계연구
    • /
    • 제35권2호
    • /
    • pp.265-283
    • /
    • 2022
  • 사용자들의 영화정보를 기록한 MovieLens 데이터는 추천 시스템 연구에서 아이디어를 탐색하고 검증하는데 상당한 가치가 있는 데이터로, 기존 데이터 분할 및 군집화 알고리즘을 사용하여 사용자 평점 데이터를 기반으로 항목 집합을 분할하는 연구 등에 사용되는 데이터이다. 본 논문에서는 기존 연구에서 대표적으로 사용되었던 영화 평점 데이터와 영화 장르 데이터를 통해 사용자의 장르 선호도를 예측하여 선호도 패턴을 기반으로 사용자를 군집화(clustering)하고, 유의미한 정보를 얻는 연구를 진행하였다. MovieLens 데이터는 영화의 전체 개수에 비해 사용자별 평균 영화 평점 수가 낮아 결측 비율이 높다. 이러한 이유로 기존의 군집화 방법을 적용하는 데 한계가 존재한다. 본 논문에서는 MovieLens 데이터 특성에 모티브를 얻어 쌍별 규합 벌점함수(pairwise fused penalty)를 활용한 볼록 군집화(convex clustering) 기반의 방법을 제안한다. 특히 결측치 대체(missing imputation)도 동시에 해결하는 최적화 문제를 통해 기존의 군집화 분석과 차별화하였다. 군집화는 반복 알고리즘인 ADMM을 통해 제안하는 최적화 문제를 풀어 진행한다. 또한 시뮬레이션과 MovieLens 데이터 적용을 통해 제안하는 군집화 방법이 기존의 방법보다 노이즈 및 이상치에 상대적으로 민감하지 않은 것으로 보인다.

평균필터 조합을 통한 최대수요전력 예측기법 (A Maximum Power Demand Prediction Method by Average Filter Combination)

  • 유찬직;김재성;노경우;조완섭
    • 한국빅데이터학회지
    • /
    • 제5권1호
    • /
    • pp.227-239
    • /
    • 2020
  • 본 논문에서는 산업현장에서 통신 오류에도 불구하고 최대전력수요를 예측하는 방법을 소개한다. 최근 국내의 탈원전 정책으로 전력가격상승은 불가피하며, 이에 따른 전력수요 관리를 위한 전력사용량과 최대부하관리는 중요한 문제로 부상하고 있다. 이에 따라, 피크전력을 예측하고 관리하는 것이 중요하다. 하지만 실제 산업현장에서는 각종 설비 및 센서에서 발생하는 노이즈 등으로 인해 측정된 전력데이터의 손실 및 변조 등의 문제가 발생한다. 측정된 유효전력 데이터가 손실된 경우 정확한 값을 예측하기 어렵다. 이 연구는 측정된 유효전력 데이터가 손실될 경우 이상 징후와 결측값을 예측하고 수정하는 모델을 제시한다. 본 연구에 사용된 모델은 산업현장에서 통신 오류가 발생할 경우 최대 전력수요를 예측하는 데 유용할 것으로 예상한다.

글로벌 수자원 정보 시스템 통합 DB 구축 및 관리방안 연구 (A Strategy on Integrated Data Base Construction and Management of Global Water Resource Information System)

  • 권용현;이경도;이병주
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2018년도 학술발표회
    • /
    • pp.375-375
    • /
    • 2018
  • 세계 수자원 시장은 연평균 6.5%씩 증가하고 있으며, 2025년 기준 1,038조원까지 급성장할 것으로 전문가들은 예상하고 있으나, 기후변화의 가속화로 인해 가뭄 및 홍수피해가 증가하여 수자원 관리가 더욱 어려워져지고 있다. 급속도로 변화는 환경에 대비하기 위해 국내에서는 수자원 및 기후변화에 대한 다양한 연구가 진행되고 있으나, 해외사업 진출 시에는 수자원 기초자료 수집에 대한 어려움을 겪고 있다. 이를 해결하기 위해 글로벌 수문기상자료 제공과 함께 GIS정보, 댐 및 저수지 관련 자료, 인문사회 자료, 물관련 통계자료, 물관련 재해자료 등을 웹으로 제공하는 글로벌 수자원 정보 시스템(GWB, Global World Bank)을 개발하고자 한다. 본 연구에서는 시스템의 통합 DB를 구축하고 관리방안을 도출하기 위해 수집된 메타데이터 속성 및 데이터구조를 파악하고, 세부항목별 자료 포맷을 분석 후 GIS기반 관측소 정보와 자료를 매칭하여 최종적으로 시스템 컨텐츠별로 DB를 맵핑하였다. 강수량과 기상자료는 33개국의 관측소 6,531개소의 일/월/연단위 관측자료와 10,977격자의 격자분석자료를 구축하였다. 수문자료는 33개국의 수문관측소 2,242개의 월/연단위 유량관측자료와 10,977격자의 월/연단위 직접유출, 기저유출, 잠재증발산의 격자분석자료를 구축하였다. 그리고, 수집된 강우와 기상자료는 기계 오작동, 자료 전송 오류 등으로 인한 결측치 및 이상치에 대해 자료품질분석을 통해 오자료에 대한 보정을 진행하였다. 해당자료는 MySQL를 활용하여 DB를 구축하였으며, GIS정보는 GeoServer를 활용하여 운영서버에 구축된 정보를 최종적으로 사용자에게 Web Browser로 표출하였다. 해당 시스템은 추후 전지구 수자원관련 정보를 제공하여 해외사업지역의 댐이나 보 등의 구조물 설계, 수자원산업의 해외 진출시 데이터 수집의 한계점 및 시간단축을 해결할 수 있어 수자원 분야에 기여 할 수 있을 것으로 판단된다.

  • PDF

실시간 교통자료 기반 고속도로 교통사고 발생 가능성 추정 모형 (Estimation of Freeway Accident Likelihood using Real-time Traffic Data)

  • 박준형;오철;남궁성
    • 대한교통학회지
    • /
    • 제26권2호
    • /
    • pp.157-166
    • /
    • 2008
  • 본 연구에서는 실시간으로 수집되는 고속도로의 검지기 자료를 이용하여 교통사고 발생 가능성을 확률적 관측값으로 나타낼 수 있는 모형을 개발하였다. 사고발생 지점을 기준으로 상류부 및 하류부에서 수집된 사고발생 이전의 교통자료를 모형의 독립변수로 설정하였다. 이항 로지스틱 회귀분석 기법을 적용하여 교통사고 발생을 유발할 잠재력이 높은 교통상황을 교통사고와는 무관한 교통상황으로부터 추출하는 분류문제(classification problem)로 설정하고 모형을 개발하였다. 최근 3년간 서해안 고속도로에서 발생한 사고자료와 검지기 자료를 맵핑하였으며, 유효한 검지기 자료를 모형에 적용하기 위하여 이상치 제거 및 결측치 보정을 위한 자료처리 과정을 별도로 수행하였다. 본 연구에서 개발한 모형에서 산출되는 계량화된 교통사고 발생가능성은 고속도로상에서 실시간 경고정보 제공 및 다양한 교통운영관리 전략의 교통안전 측면에서의 효과를 평가하는데 유용하게 적용될 수 있을 것으로 기대된다.

히스토리컬 프로파일 구축과 시.공간 자료합성에 의한 단속류 통행시간 예측 (Travel Time Forecasting in an Interrupted Traffic Flow by adopting Historical Profile and Time-Space Data Fusion)

  • 여태동;한경수;배상훈
    • 대한교통학회지
    • /
    • 제27권2호
    • /
    • pp.133-144
    • /
    • 2009
  • 현재 국내에서는 지역간 교통의 이동성 및 안전성을 향상시키기 위해 국도를 대상으로 ITS사업을 추진중에 있다. 이러한 ITS 사업을 통해 교통정보를 이용자에게 실시간으로 제공해 줌으로써 기존의 교통시설의 이용을 극대화 하는데 목적을 두고 있다. 이러한 정보 제공시 운전자에게 보다 정확한 통행시간정보를 제공해 주는것이 가장 중요하므로 본 연구에서는 자료의 전처리를 통해 원시데이터의 이상치 제거 및 결측처리를 실시하였다. 이를 통해 통행시간 예측의 기본이 되는 원시데이터의 정확성을 향상시켜 정보의 신뢰도를 높일 수 있는 방안을 모색하였다. 그리고 통행시간 예측을 위해 단속류 도로의 특성을 보다 정확히 반영할 수 있는 히스토리컬 프로파일 모형을 구축하였으며 실제 교통류의 특성을 적극적으로 반영하기 위해 보정식을 개발하였다. 따라서 제안된 모형과 히스토리컬 프로파일 모형과 보정식을 통해 통행시간을 예측한 후 기존의 방식인 신경망 모형, 칼만필터 모형과의 비교검증을 실시하였다. 결과적으로 일반적인 상황에서는 칼만필터 모형과 비슷한 예측력을 보였으나, 첨두시나 유고상황에서는 개발모형이 실제 교통흐름을 상대적으로 정확히 반영하여 예측을 수행함을 확인하였다.