• 제목/요약/키워드: Outlier Analysis

검색결과 234건 처리시간 0.022초

다목적 표본조사를 위한 다변량 층화 : 어업비계통생산량조사를 위한 표본설계 사례 (Multivariate Stratification Method for the Multipurpose Sample Survey : A Case Study of the Sample Design for Fisher Production Survey)

  • 박진우;김영원;이석훈;신지은
    • 한국조사연구학회지:조사연구
    • /
    • 제9권1호
    • /
    • pp.69-85
    • /
    • 2008
  • 층화는 표본설계 단계에서 예비정보를 활용하는 대표적인 방법으로 대부분의 전국 단위의 표본설계에서 널리 활용된다. 층화의 효율을 극대화시키기 위해서는 조사목적에 부합되는 적절한 층화변수를 선택하는 것이 매우 중요하다. 하나의 표본을 통해 여러 개의 관심변수를 동시에 조사하는 다목적조사에서 다변량 층화변수가 있을 때 층화 전략을 세우는 것은 매우 복잡한 양상을 띤다. 본 연구에서는 관심변수의 수가 매우 많은 다목적조사를 위한 층화전략을 다룬다. 층화를 위해 구체적으로 사용하는 통계적 도구는 요인분석과 군집분석 등의 다변량 통계기법인데, 먼저 요인분석을 통해 적절한 층화변수들을 선정한 후 그 변수들을 이용하여 군집분석을 통해 층화를 하는 전략을 소개한다. 본 연구에서는 구체적으로 해양수산부의 어업비계통생산량조사를 위한 표본설계에서의 층화과정을 다룬다.

  • PDF

오인식률 감소를 위한 이동 물체 검출 및 추적 기법 (Moving Object Detection and Tracking Techniques for Error Reduction)

  • 황승준;고하윤;백중환
    • 한국항행학회논문지
    • /
    • 제22권1호
    • /
    • pp.20-26
    • /
    • 2018
  • 본 논문에서는 오인식률 감소를 위한 다중 프레임 특징점 추적 정보 기반 이동 물체 검출 및 추적 알고리즘을 제안한다. 기존의 연구에서는 이동 물체 탐지의 오인식과 추적의 속도 문제가 존재 하였다. 본 연구에서는 이를 보완하기 위해 먼저, 카메라 이동 보상과 물체의 추적을 위해 다중 프레임의 코너 특징점과 옵티컬 플로우를 계산한다. 다음으로 다중 프레임 전-후방향 추적으로 옵티컬 플로우의 추적 오류를 감소시키고, 카메라 이동 보상을 위해 호모그래피와 RANSAC 알고리즘 기반으로 추적된 코너 특징점을 배경영역과 이동 물체 후보 영역으로 구분한다. 변환된 코너 특징점들 중 RANSAC에 의해 제거되는 이상점들을 군집화하고 일정 크기 이상의 이상점 군집 영역을 이동 물체 후보군으로 구분한다. 이동 물체 후보군으로 구분된 물체는 라벨 추적 기반 데이터 상관 분석에 따라 라벨 번호를 할당하고 추적한다. 이동 물체 후보군으로 구분된 물체는 라벨 추적 기반 데이터 상관 분석에 따라 라벨 번호를 할당하고 추적한다. 본 논문에서는 제안한 알고리즘이 기존 알고리즘에 비해 Precision과 Recall 모두 향상됨을 쿼드로터 영상기반 탐지 및 추적 성능 실험으로 확인하였다.

프로브 자료의 특성을 고려한 단속류의 구간 통행속도 산출에 관한 연구 (A Study on Calculation of Sectional Travel Speeds of the Interrupted Traffic Flow with the Consideration of the Characteristics of Probe Data)

  • 정연탁;정헌영
    • 대한토목학회논문집
    • /
    • 제34권6호
    • /
    • pp.1851-1861
    • /
    • 2014
  • 본 연구는 단속류에서 수집된 프로브 자료의 특성을 고려하여 신뢰성 있는 구간 통행속도를 산출하는 것을 목표로 하고 있다. 먼저, 프로브 자료의 특성을 분석하기 위하여 각 프로브 차량의 구간 통행시간 분포를 살펴보았고, 단거리전용통신(DSRC)을 통해 수집된 프로브 차량별 구간 통행속도 차이를 비교하였다. 그 결과, 구간 통행시간의 분포는 이상치를 제거하여야 하는 것으로 나타났다. 하지만, DSRC 프로브 차량의 구간 통행속도는 뚜렷한 차이가 없는 것으로 나타났다. 끝으로, 프로브 차량의 구간 통행속도 분포 특성과 수집 주기 동안에 집계된 대표값을 토대로 본 연구에서는 최적의 이상치 제거 절차를 도출하였고, 추정 오차를 평가하였다. 평가 결과, DSRC 구간 통행속도는 실 주행차량의 관측값과 유사한 값으로 나타났다. 반면에, 시내버스 구간 통행속도의 경우는 DSRC 구간 통행속도보다 덜 정확한 것으로 분석되었다. 향후 BIS 프로세스 개선과 실시간으로 수집되는 시내버스의 운행정보를 이용하여 도로소통정보로도 활용할 수 있는 다양한 방안을 모색할 필요가 있다.

3차원 포인트 클라우드 기반 복셀화에 의한 식생의 물리적 구조 재구현 (Reconfiguration of Physical Structure of Vegetation by Voxelization Based on 3D Point Clouds)

  • 안명희;장은경;배인혁;지운
    • 대한토목학회논문집
    • /
    • 제40권6호
    • /
    • pp.571-581
    • /
    • 2020
  • 하천에 광범위하게 활착되는 식생은 수위 변화 및 흐름 저항에 절대적인 영향을 미칠 뿐만 아니라 하천 시스템 전반에 영향을 미치는 중요 요소이다. 따라서 유입되는 식생의 형태와 규모를 정확하게 파악하는 것이 매우 중요함에도 불구하고 현장에서 이를 파악하기란 쉽지 않은 일이다. 따라서 최근에는 지상 레이저 스캐닝 등을 활용하여 대용량의 식생 정보를 취득하는 연구가 시도되고 있다. 그러나 식생의 복잡한 형상으로 인해 캐노피 영역의 정확한 정보를 획득하기 어려우며, 자연적인 영향에 매우 민감하게 반응한다는 한계가 있다. 본 연구에서는 3차원 지상 레이저 스캐닝을 통해 수집된 고해상도의 포인트 클라우드 데이터를 복셀 형식으로 재구현하여 식생의 물리적 구조를 분석하였다. 먼저 잎이 없는 단순한 형태, 잎이 있는 완전한 형태의 식생 및 패치 규모 식생 조건으로 설정하여 각각의 물리적 구조를 분석하였다. 이를 위해 측정된 데이터의 이상치 제거 및 불필요한 데이터의 필터링을 위해 통계적 이상치 제거 방법을 활용하여 각각 17 %, 26 %, 25 %의 포인트를 제거하였다. 또한 후처리 된 포인트 클라우드로부터 복셀 크기별 식생 형상을 재구현하여 실제 식생의 부피와 비교하였으며, 분석 결과, 오차 범위는 각 조건별로 8 %, 25 %, 63 %로 나타났다. 대상 샘플의 규모가 클수록 더 큰 오차가 발생하였으며, 복셀 크기 조정 시 식생의 표면이 시각적으로 비슷하게 보이지만 전체 식생의 부피는 이러한 변화에 매우 민감한 것으로 나타났다.

기계학습법을 이용한 IoMT 핀테크 모델을 기반으로 한 구조화 스토리지에서의 빅데이터 관리 연구 (Big Data Management in Structured Storage Based on Fintech Models for IoMT using Machine Learning Techniques)

  • 김경실
    • 산업과 과학
    • /
    • 1권1호
    • /
    • pp.7-15
    • /
    • 2022
  • 사물인터넷(IoT) 기술은 최근 의료사물인터넷(IoMT)으로 정의된 대량의 의료 데이터를 처리하여 발전을 위해 개발된 의료분야에서 많이 활용되고 있다. 수집된 광범위한 의료 데이터는 수집된 의료 데이터를 처리하기 위해 구조화된 방식으로 클라우드에 저장된다. 그러나 방대한 양의 의료 데이터를 효과적으로 처리하는 것은 쉽지 않기 때문에 의료분야 구조 데이터를 개발하는 것이 필요하다. 본 논문에서는 IoMT에서 수집된 구조화된 건강 관리 데이터를 처리하기 위한 기계 학습 모드를 개발하였다. 광범위한 의료 데이터를 처리하기 위해 본 논문에서는 의료 데이터 처리를 위한 MTGPLSTM 모델을 제안하였다. 제안된 모델은 의료 정보 처리를 위한 선형 회귀 모델을 통합한다. 개발된 모델 이상치 모델은 IoMT에서 수집된 COVID-19 의료 데이터들의 평가 및 예측을 위해 FinTech 모델을 기반으로 구현되었다. 제안된 MTGPLSTM 모델은 감염 확산 방지를 위한 계획 계획을 예측하고 평가하기 위한 회귀 모델로 구성된다. 개발된 모델 성능은 LR, SVR, RFR, LSTM 및 제안된 MTGPLSTM 모델과 같은 서로 다른 분류기를 고려하였으며 1GB, 2GB, 3GB 등 데이터 크기가 다르다는 점도 주요하게 고려되었다. 제안된 MTGPLSTM 모델이 전 세계 데이터에 대해 최대 4% 감소된 MAPE 및 RMSE 값을 달성하였고 중국의 경우 기존 분류기보다 최대 6% 최소인 최소 MAPE(0.97)이 달성되었다.

BLS 보정 방법의 민감도에 관한 연구 (A Study on the Sensitivity of the BLS Methods)

  • 이석진;신기일
    • Communications for Statistical Applications and Methods
    • /
    • 제15권6호
    • /
    • pp.843-858
    • /
    • 2008
  • 사업체 조사에서 사용되는 BLS 보정방법은 표본으로 선택된 사업체의 설계 가중치를 사후에 보정해 줌으로써 모집단의 대표성을 유지해 줄 뿐만 아니라 더욱 정확한 총계 추정을 가능하게 해준다. 일반적으로 BLS 보정은 설계가중치와 표본 틀(Sample frame)의 보조변수를 이용하여 정해지기 때문에 사용된 보조변수에 따라 보정인자의 결과 값이 다르게 된다. 본 논문에서는 보조변수가 있는 경우, 보조 변수가 없는 경우 그리고 다른 보조변수를 사용할 경우에 최종가중치가 어떻게 변하는지를 파악하기 위해 보조변수의 민감도를 살펴보았다. 본 논문에서 사용된 자료는 노동부의 2007년 매월노동통계 자료이다.

Evaluation of Amplified-based Target Preparation Strategies for Toxicogenomics Study : cDNA versus cRNA

  • Nam, Suk-Woo;Lee, Jung-Young
    • Molecular & Cellular Toxicology
    • /
    • 제1권2호
    • /
    • pp.92-98
    • /
    • 2005
  • DNA microarray analysis of gene expression in toxicogenomics typically requires relatively large amounts of total RNA. This limits the use of DNA microarray when the sample available is small. To confront this limitation, different methods of linear RNA amplification that generate antisense RNA (aRNA) have been optimized for microarray use. The target preparation strategy using amplified RNA in DNA microarray protocol can be divided into direct-incorporation labeling which resulted in cDNA targets (Cy-dye labeled cDNA from aRNA) and indirect-labeling which resulted in cRNA targets (i.e. Cy-dye labeled aRNA), respectively. However, despite the common use of amplified targets (cDNA or cRNA) from aRNAs, no systemic assessment for the use of amplified targets and bias in terms of hybridization performance has been reported. In this investigation, we have compared the hybridization performance of cRNA targets with cDNA targets from aRNA on a 10 K cDNA microarrays. Under optimized hybridization conditions, we found that 43% of outliers from cDNA technique and 86% from the outlier genes were reproducibly detected by both targets hybridization onto cDNA microarray. This suggests that the cRNA labeling method may have a reduced capacity for detecting the differential gene expression when compared to the cDNA target preparation. However, further validation of this discordant result should be pursued to determine which techniques possesses better accuracy in identifying truly differential genes.

전력 부하 패턴 자동 예측을 위한 분류 기법 (Classification Methods for Automated Prediction of Power Load Patterns)

  • ;박진형;이헌규;류근호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.26-30
    • /
    • 2008
  • Currently an automated methodology based on data mining techniques is presented for the prediction of customer load patterns in long duration load profiles. The proposed our approach consists of three stages: (i) data pre-processing: noise or outlier is removed and the continuous attribute-valued features are transformed to discrete values, (ii) cluster analysis: k-means clustering is used to create load pattern classes and the representative load profiles for each class and (iii) classification: we evaluated several supervised learning methods in order to select a suitable prediction method. According to the proposed methodology, power load measured from AMR (automatic meter reading) system, as well as customer indexes, were used as inputs for clustering. The output of clustering was the classification of representative load profiles (or classes). In order to evaluate the result of forecasting load patterns, the several classification methods were applied on a set of high voltage customers of the Korea power system and derived class labels from clustering and other features are used as input to produce classifiers. Lastly, the result of our experiments was presented.

  • PDF

Theil방법을 이용한 퍼지회귀모형 (Fuzzy Theil regression Model)

  • 윤진희;이우주;최승회
    • 한국지능시스템학회논문지
    • /
    • 제23권4호
    • /
    • pp.366-370
    • /
    • 2013
  • 설명변수와 반응변수 사이의 통계적 관계를 설명하기 위해 사용되는 회귀모형을 분석하는 방법을 회귀분석이라 한다. 본 논문에서는 독립변수와 종속변수에 대한 퍼지관계를 표현하는 퍼지회귀모형를 추정하기 위하여 이상치에 민감하지 않은 로버스트한 추정량인 Theil방법을 소개한다. Theil방법은 설명변수와 반응변수의 ${\alpha}$-수준집합의 각 성분으로 구성된 집합에서 선택한 임의의 두 쌍 자료로부터 계산된 변화율의 중위수를 두 변수에 대한 변화량의 추정량으로 간주한다. 본 논문에서 제안된 Theil방법이 최소자승법을 이용하여 추정된 퍼지회귀모형보다 더 정확할 수 있음을 예제를 통하여 확인한다.

폐기물 소각시설 최적가용기법 연계배출수준 (BAT-AEL) 설정 (BAT-AEL Calculation in Waste Incineration Facility)

  • 신수정;박재홍;이대균;김대곤;배연정
    • 한국대기환경학회지
    • /
    • 제34권1호
    • /
    • pp.144-155
    • /
    • 2018
  • As the public interest in environmental issues increased, the "Act On The Integrated Control Of Pollutant-Discharging Facility" was enacted. Through the integrated environmental pollution prevention act in which 19 industries with large environmental impacts are sequentially applied, pollutants can be managed in a medium-integrated manner and integrated permission of the business unit is possible and BAT can be applied to enable a scientific and proactive environmental management system. In addition, if the facility with BAT works normally, the pollutant emission is offered with the range of lower limit to upper limit. This study analyzed the overview of Best Available Techniques-Associated Emission Levels (BAT-AEL), and its setting procedure and method, and then suggested the BAT-AEL of a waste incineration facility. In comparative analysis on Emission Limit Values (ELVs) of EU, this study tries to propose improvement matters and development directions if the relevant standard is revised.