• 제목/요약/키워드: Outlier analysis

검색결과 239건 처리시간 0.029초

예외자가 공간 색인에 미치는 영향에 관한 분석 (An Analysis of Outlier Effect on Spatial Indices)

  • 김시완;정성훈;이기준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.208-210
    • /
    • 2001
  • 예외자는 공간색인의 성능을 떨어뜨리는 요소가 될 수 있다. 예를 들어, R-tree 계열의 색인 방법은 예외자 때문에 MBR의 넓이나, MBR사이의 겹치는 공간이 넓어져 성능이 떨어진다. 따라서, 공간색인을 구축할 때, 적절하게 예외자를 처리하면 성능을 향상시킬 수 있다. 본 논문에서는 예외자와 공간색인의 성능과 관계를 관찰하고 적절한 방법으로 예외자를 처리하여 공간색인의 성능을 향상시키는 방법을 확인한다. 실험의 결과에 따르면, 예외자를 적절하게 처리할 경우 성능을 평균적으로 15% 향상시킬 수 있다.

  • PDF

2000년 미국대선 플로리다주의 투표결과 분석 (Statistical Outliers in Florida Counties at the Presidential Election 2000)

  • 김현철
    • 응용통계연구
    • /
    • 제15권1호
    • /
    • pp.21-32
    • /
    • 2002
  • We searched out in the votes data of the State of Florida at presidential election 2000. We used a multivariate regression analysis. We got there were several outliers including Palm Beach County. It means that we should analyze the number of disqualified ballots which were double-punched as well as the votes, to insist the " Butterfly Ballot" made Palm Beach outlier.

Minimum Hellinger Distance Bsed Goodness-of-fit Tests in Normal Models: Empirical Approach

  • Dong Bin Jeong
    • Communications for Statistical Applications and Methods
    • /
    • 제6권3호
    • /
    • pp.967-976
    • /
    • 1999
  • In this paper we study the Hellinger distance based goodness-of-fit tests that are analogs of likelihood ratio tests. The minimum Hellinger distance estimator (MHDE) in normal models provides an excellent robust alternative to the usual maximum likelihood estimator. Our simulation results show that the Hellinger deviance test (Simpson 1989) based goodness-of-fit test is robust when data contain outliers. The proposed hellinger deviance test(Simpson 1989) is a more direcct method for obtaining robust inferences than an automated outlier screen method used before the likelihood ratio test data analysis.

  • PDF

Diagnosis of Observations after Fit of Multivariate Skew t-Distribution: Identification of Outliers and Edge Observations from Asymmetric Data

  • Kim, Seung-Gu
    • 응용통계연구
    • /
    • 제25권6호
    • /
    • pp.1019-1026
    • /
    • 2012
  • This paper presents a method for the identification of "edge observations" located on a boundary area constructed by a truncation variable as well as for the identification of outliers and the after fit of multivariate skew $t$-distribution(MST) to asymmetric data. The detection of edge observation is important in data analysis because it provides information on a certain critical area in observation space. The proposed method is applied to an Australian Institute of Sport(AIS) dataset that is well known for asymmetry in data space.

국가지하수 관측소 측정자료의 이상값 분석 (Analysis of Abnormal Values Obtained from National Groundwater Monitoring Stations)

  • 이명재;이진용;김규범;원종호
    • 한국지하수토양환경학회지:지하수토양환경
    • /
    • 제10권1호
    • /
    • pp.65-74
    • /
    • 2005
  • 한국수자원공사는 전국을 대상으로 지하수의 수위 및 수질의 변동을 관측하고 국내 지하수자원의 보전 관리를 위한 기반 구축을 위하여 국가지하수 관측소를 설치${\cdot}$운영하고 있다. 자동 관측장비를 관측정 내에 설치하여 6시간 간격으로 지하수위, 온도, 전기전도도를 관측하고 있다. 주기적인 관측소 현장점검과 노후화된 혹은 고장난 관측장비 교체 및 수리 등의 작업에도 불구하고 자동 관측 및 전송의 내재적 한계로 인하여 부분적으로 이상값이 발생하고 있다. 그런데 이러한 이상값의 발생으로 인한 자료의 교란이나 관측 발생기간을 줄이기 위해서는 빠른 인지와 대처가 필요하다. 본 단보에서는 한강유역 국가 지하수 관측소 2000년도 지하수 관측 원자료에 대하여 이상값이 발생되는 시기와 빈도를 분석하였고 그 결과 지하수위는 급하강, 수온은 무변동 그리고 전기전도도는 급하강 이상이 가장 많이 발생하는 것으로 나타났다. 또한 각 해당항목에 대해 이상값 판단기준을 실례로 제시하였다.

편향된 의견 문서 검출을 위한 이상치 탐지 기법 (Outlier Detection Techniques for Biased Opinion Discovery)

  • 연종흠;심준호;이상구
    • 한국전자거래학회지
    • /
    • 제18권4호
    • /
    • pp.315-326
    • /
    • 2013
  • 소셜 미디어에서는 상품평, 영화평 등의 다양한 종류의 의견이 표현되고 있으며, 사용자들이 물품 구매 등에 있어 이러한 의견을 참고로 하여 결정을 내리는 것은 일반적이 되었다. 하지만 의견 정보의 활용도가 높아질수록 이를 부적절하게 왜곡하는 사례 또한 증가하고 있다. 예를 들어, 홍보를 목적으로 과도하게 긍정적인 의견이 포함된 리뷰를 작성하거나, 반대로 일반적인 평가에서 벗어나 과도하게 부정적인 의견을 게시하는 경우 등이다. 편향된 의견은 소셜 미디어의 신뢰성과 연결 되기 때문에 이를 검출하는 것은 점차 중요한 문제로 대두되고 있다. 기존의 오피니언 마이닝 혹은 감성 분석은 문서를 분석하여 그 문서가 가지고 있는 의견의 성향을 판단하는 기법이다. 하지만 기존의 연구는 의견을 단순히 긍정/부정으로만 분류하는 방향으로 연구가 이루어져 왔으며, 특히 사전에 의견 성향에 따라 분류된 충분한 양의 학습 데이터가 필요하다는 단점이 있다. 본 논문에서는 학습데이터가 없는 경우에, 전체 문서의 의견 성향 분포에서 벗어난 의견 문서를 검출하는 기법을 제안한다. 여기에는 각도기반 이상치 탐지와, 개인화된 페이지랭크 방법을 활용한다. 또한 영화 리뷰 문서를 대상으로 실험을 수행하여 제안한 방법들의 성능을 분석하였다.

ESTP 표지를 이용한 국내 소나무 집단의 유전변이 (Genetic Variation of Pinus densiflora Populations in South Korea Based on ESTP Markers)

  • 안지영;홍경낙;이제완;홍용표;강호덕
    • 한국자원식물학회지
    • /
    • 제28권2호
    • /
    • pp.279-289
    • /
    • 2015
  • 소나무의 유전다양성과 유전구조를 추정하기 위해 9개의 ESTP 표지를 13개 소나무 집단에 적용하였다. 소나무 집단의 유전다양성은 관찰된 대립유전자 수(A)가 2.2개, 유효 대립유전자 수(Ae)가 1.8개, 다형적 유전자좌 비율(P)이 98.8%, 이형접합도 관찰치(Ho)가 0.391, 이형접합도 기대치(He)가 0.402로 나타났다. 안강과 강릉 집단을 제외한 11개 집단이 하디-바인베르그 평형을 만족하였다. 집단간 유전분화도(FST)는 0.057으로, 동위효소나 nSSR 표지분석 결과보다 강하게 나타났다. 군집분석에서 집단의 유전적 거리와 지리적 분포간에 뚜렷한 연관성은 확인할 수 없었으며, 집단의 유전분화와 지리적 인접성도 상관이 없는 것으로 나타났다(Mantel 검증, r = 0.017, P = 0.344). 유전자좌에 대한 FST-outlier 분석을 실시한 결과, 빈도주의 방법에서는 FST 값이 신뢰하한 이하인 3개 유전자좌와 신뢰상한 이상인 3개 유전자좌가 특이값으로 추정되었고, 베이즈 방법에서는 3개 유전자좌들만 특이값으로 확인되었다. 두 방법에서 공히 특이값으로 판정된 3개 유전자좌(sams2+AluⅠ, sams2+RsaⅠ, PtNCS_p14A9+HaeⅢ)중 sams2 표지에서 유래된 2개 유전자좌는 balancing selection의 영향을 받는 것으로 추정되었다.

건설현장 적용을 위한 디지털맵 노이즈 제거 알고리즘 성능평가 (Performance Evaluation of Denoising Algorithms for the 3D Construction Digital Map)

  • 박수열;김석
    • 한국BIM학회 논문집
    • /
    • 제10권4호
    • /
    • pp.32-39
    • /
    • 2020
  • In recent years, the construction industry is getting bigger and more complex, so it is becoming difficult to acquire point cloud data for construction equipments and workers. Point cloud data is measured using a drone and MMS(Mobile Mapping System), and the collected point cloud data is used to create a 3D digital map. In particular, the construction site is located at outdoors and there are many irregular terrains, making it difficult to collect point cloud data. For these reasons, adopting a noise reduction algorithm suitable for the characteristics of the construction industry can affect the improvement of the analysis accuracy of digital maps. This is related to various environments and variables of the construction site. Therefore, this study reviewed and analyzed the existing research and techniques on the noise reduction algorithm. And based on the results of literature review, performance evaluation of major noise reduction algorithms was conducted for digital maps of construction sites. As a result of the performance evaluation in this study, the voxel grid algorithm showed relatively less execution time than the statistical outlier removal algorithm. In addition, analysis results in slope, space, and earth walls of the construction site digital map showed that the voxel grid algorithm was relatively superior to the statistical outlier removal algorithm and that the noise removal performance of voxel grid algorithm was superior and the object preservation ability was also superior. In the future, based on the results reviewed through the performance evaluation of the noise reduction algorithm of this study, we will develop a noise reduction algorithm for 3D point cloud data that reflects the characteristics of the construction site.

Damaged cable detection with statistical analysis, clustering, and deep learning models

  • Son, Hyesook;Yoon, Chanyoung;Kim, Yejin;Jang, Yun;Tran, Linh Viet;Kim, Seung-Eock;Kim, Dong Joo;Park, Jongwoong
    • Smart Structures and Systems
    • /
    • 제29권1호
    • /
    • pp.17-28
    • /
    • 2022
  • The cable component of cable-stayed bridges is gradually impacted by weather conditions, vehicle loads, and material corrosion. The stayed cable is a critical load-carrying part that closely affects the operational stability of a cable-stayed bridge. Damaged cables might lead to the bridge collapse due to their tension capacity reduction. Thus, it is necessary to develop structural health monitoring (SHM) techniques that accurately identify damaged cables. In this work, a combinational identification method of three efficient techniques, including statistical analysis, clustering, and neural network models, is proposed to detect the damaged cable in a cable-stayed bridge. The measured dataset from the bridge was initially preprocessed to remove the outlier channels. Then, the theory and application of each technique for damage detection were introduced. In general, the statistical approach extracts the parameters representing the damage within time series, and the clustering approach identifies the outliers from the data signals as damaged members, while the deep learning approach uses the nonlinear data dependencies in SHM for the training model. The performance of these approaches in classifying the damaged cable was assessed, and the combinational identification method was obtained using the voting ensemble. Finally, the combination method was compared with an existing outlier detection algorithm, support vector machines (SVM). The results demonstrate that the proposed method is robust and provides higher accuracy for the damaged cable detection in the cable-stayed bridge.

세 집단 판별분석 상황에서의 영향함수 유도 및 그 응용 (Derivation and Application of In uence Function in Discriminant Analysis for Three Groups)

  • 이혜정;김홍기
    • 응용통계연구
    • /
    • 제24권5호
    • /
    • pp.941-949
    • /
    • 2011
  • 본 논문에서는 세 집단만을 판별분석 할 경우에 계산되는 오분류확률에 영향을 미치는 이상치 판별을 목적으로 하며, 쉽게 응용 가능한 간단한 영향함수식을 제시하였다. 그리고 제시된 수식을 이용하여 안면 데이터로 세 가지 사상체질을 분류해보고 각 관찰값들의 오분류확률에 대한 영향함수를 계산하였다. 이상치를 제거하고 재 판별분석을 하는 데 있어, 오분류확률에 대한 영향함수를 이용하는 것이 효율적인 방법임을 확인하였다.