• 제목/요약/키워드: 대치법

검색결과 147건 처리시간 0.022초

순차 적응 최근접 이웃을 활용한 결측값 대치법 (On the Use of Sequential Adaptive Nearest Neighbors for Missing Value Imputation)

  • 박소현;방성완;전명식
    • 응용통계연구
    • /
    • 제24권6호
    • /
    • pp.1249-1257
    • /
    • 2011
  • 비모수적 결측치 대치법인 k-최근접 이웃(k-Nearest Neighbors; KNN) 대치법을 개선한 적응 최근접 이웃(Adaptive Nearest Neighbor; ANN) 대치법과 순차 k-최근접 이웃(Sequential k-Nearest Neighbor; SKNN) 대치법의 장점들을 결합한 순차 적응 최근접 이웃(Sequential Adaptive Nearest Neighbor; SANN) 대치법을 제안하고자 한다. 이 방법은 ANN 대치법의 장점인 자료의 국소적 특징을 반영할 뿐 아니라, SKNN 대치법과 같이 결측값 대치가 이루어진 개체를 다음 결측값을 대치할 때 사용함으로써 효율성에 개선이 있을 것으로 기대한다.

K-NN과 최대 우도 추정법을 결합한 소프트웨어 프로젝트 수치 데이터용 결측값 대치법 (A Missing Data Imputation by Combining K Nearest Neighbor with Maximum Likelihood Estimation for Numerical Software Project Data)

  • 이동호;윤경아;배두환
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권4호
    • /
    • pp.273-282
    • /
    • 2009
  • 소프트웨어 프로젝트 데이터를 이용한 각종 분석 예측 모델 생성시 직면하는 문제 중 하나는 데이터에 포함된 결측값이며 이에 대한 효과적인 방안은 결측값 대치 법이다. 대표적인 결측값 대치법인 K 최근접 이웃 대치법은 대치과정에서 결측값을 포함하는 인스턴스의 관측정보를 활용하지 못한다는 단점이 있다. 본 연구에서는 이러한 단점을 극복하기 위해 K 최근접 이웃 대치법과 최대 우도 추정법을 결합한 새로운 소프트웨어 프로젝트 수치 데이터용 결측값 대치법을 제안한다. 또한 결측값 대치법의 정확도를 비교하기 위한 새로운 측도를 함께 제안한다.

가중 적응 최근접 이웃을 이용한 결측치 대치 (On the use of weighted adaptive nearest neighbors for missing value imputation)

  • 염윤진;김동재
    • 응용통계연구
    • /
    • 제31권4호
    • /
    • pp.507-516
    • /
    • 2018
  • 결측치를 대치하는 여러가지 단일대치법 중에서 다변량 정규성 등의 모수적 모형이 만족되지 않을 때에도 강건성(robustness)을 지니는 k-최근접 이웃 대치법(k-nearest neighbors; KNN)이 널리 활용된다. KNN대치법에서 자료의 국소적 특징을 반영한 적응 최근접 이웃(adaptive nearest neighbors; ANN) 대치법과 k개의 최근접 이웃들 중 극단값이나 이상값이 있는 경우 이들의 영향에 덜 민감한 가중 k-최근접 이웃(weighted KNN; WKNN) 대치법의 장점을 결합한 가중 적응 최근접 이웃(weighted ANN; WANN) 대치법을 제안하였다. 또한 모의실험을 통하여 기존의 방법들과 제안한 방법을 비교하였다.

결측치가 존재하는 유전형 자료에서의 연관불균형과 일배체형을 사용한 결측치 대치 방법 (A New Method for Imputation of Missing Genotype using Linkage Disequilibrium and Haplotype Information)

  • 박윤주;김영진;박정선;김규찬;고인송;정호열
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권2호
    • /
    • pp.99-107
    • /
    • 2005
  • 본 논문에서는 단일염기변이(SNP: Single Nucleotide Polymorphism)와 같은 유전형(Rcnotype)자료에서 결측치가 발생하였을 경우 유전형 자료의 특이성을 고려해 자료 원래의 정보손실을 최소화하는 대치법인 연관불균형 기반의 대치법(linkage disequilibrium- based imputation)과 일배체형 기반의 대치법(haplotype-based imputation)을 제시한다. 이러한 결측치 대치는 실험상에서 발생하는 결측치에 의한 중요한 정보의 손실을 최소화 한다는 점에서 필요한 방법이다. 일반적으로 그동안 생물학 자료의 결측치 대치는 대부분 주형질 대치법(major allele imputation)이 활용되어왔는데 유전형 자료에서의 이 방법의 사용은 사료의 특이성으로 인하여 결측치에 대한 높은 오차율(error rate)을 보임으로서 자료의 신뢰성을 떨어뜨릴 수 있다. 본 논문에서는 유전형 자료인 단일염기변이 자료의 시뮬레이션을 통하여 기존의 주형질 대치법과 논문에서 제안된 연관불균형 기반의 대치법과 일배체형 기반의 대치법을 비교하고 그 결과를 보여 준다.

Weighted k-Nearest Neighbors를 이용한 결측치 대치 (On the Use of Weighted k-Nearest Neighbors for Missing Value Imputation)

  • 임찬희;김동재
    • 응용통계연구
    • /
    • 제28권1호
    • /
    • pp.23-31
    • /
    • 2015
  • 통계적 분석을 할 때 결측치가 발생하는 것은 매우 통상적이다. 이러한 결측치를 대치하는 방법은 여러가지가 있으며, 기존에 사용되는 단일대치법으로 k-nearest neighbor(KNN) 방법이 있다. 하지만 KNN 방법은 k개의 최근접 이웃들 중 극단치나 이상치가 있을 때 편의를 일으킬 수 있다. 본 논문에서는 KNN 방법의 단점을 보완하여 가중 k-최근접이웃(Weighted k-Nearest Neighbors; WKNN) 대치법을 제안하였다. 또한 모의실험을 통해서 기존의 방법과 비교하였다.

이질적인 중도절단분포 하에서 생존분포의 동일성 검정법 비교연구 (A Comparison of Survival Distributions with Unequal Censoring Distributions)

  • 송수정;이재원
    • 응용통계연구
    • /
    • 제27권1호
    • /
    • pp.1-11
    • /
    • 2014
  • 세 개 이상의 집단에 대한 생존분포의 비교를 위해 가중 로그순위 검정법(Weighted Logrank test)과 그의 특별한 경우인 로그순위 검정법(Logrank test)이 널리 쓰인다. 그러나 이 방법은 근사적인 분포를 이용한 방법이므로 표본 크기가 작은 경우에는 유효하지 못할 수 있으며, 각 집단의 중도절단 분포가 동일하다는 가정 또한 충족되어야 하기 때문에 이 가정이 충족되지 못할 경우에도 검정법의 유효성을 장담할 수 없다. 표본 크기가 작은 경우에 대한 대안으로, 분포에 대한 가정이 없이 관찰된 자료만으로 검정통계량의 분포를 추정하고 그 분포를 이용해 검정하는 순열 검정법(Permutation test)이 제안되었으나, 순열 검정법 또한 각 집단의 중도절단 분포가 동일하다는 가정이 충족되어야 한다. 따라서 순열 검정법을 향상시킨 순열-대치 검정법(Permutation-Imputation test)이 대안이 될 수 있는데, 이는 대치 단계(Imputation step)에서 귀무가설 하에서의 생존확률이 집단에 의존하지 않도록 자료를 조정한 후 순열 검정 단계(Permutation step)를 통해 검정하는 방법이다. 본 논문에서는 근사적 방법, 순열 검정법, 순열-대치 검정법을 로그순위 검정법과 가중 로그순위 검정법의 한 형태인 Prentice-Wilcoxon 검정법에 적용해 각 검정법의 유효성과 검정력을 비교하였다.

Freund 이변량 지수분포의 매개변수 추정과정 검토 (Review of Parameter Estimation Procedure of Freund Bivariate Exponential Distribution)

  • 박철순;유철상
    • 한국수자원학회논문집
    • /
    • 제45권2호
    • /
    • pp.191-201
    • /
    • 2012
  • 본 연구에서는 연최대치 독립 호우사상의 결정에 사용되는 Freund 이변량 지수분포의 매개변수 추정과정을 구체적으로 검토하였다. 먼저, 모멘트법을 이용하는 경우를 구체적으로 검토하고, 그 결과를 최우도법을 적용한 결과와 비교하였다. 두 방법을 1961~2010년 서울지점의 시강우 자료에 적용하여 연최대치 독립 호우사상을 선정하고, 그 결과를 비교 검토하였다. 이러한 과정을 통해 얻은 결과는 다음과 같다. 첫째, 매개변수 추정방법으로 모멘트법을 적용하는 경우에는 두변량의 평균과 분산뿐만 아니라 상관계수도 고려해 주어야 하는 것으로 나타났다. 둘째, 최우도법은 두변량의 평균에 대한 재현성이 우수하고, 모멘트법은 분산의 경년변동을 잘 나타내는 것으로 나타났다. 셋째, 모멘트법과 최우도법을 통해 선정한 연최대치 독립 호우사상들은 대체로 유사한 것으로 나타났다. 다르게 선정된 호우사상은 최우도법의 경우에는 총 강우량이 큰 것, 모멘트법의 경우에는 강우강도가 큰 것으로 나타났다.

SOLAS를 이용한 결측자료의 다중대치법

  • 김현정;문승호;신재경
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 한국데이터정보과학회 2003년도 춘계학술대회
    • /
    • pp.145-158
    • /
    • 2003
  • 불완전 데이터 즉, 결측값을 가지는 데이터를 분석할 경우 결측데이터에 대해서 어떠한 처리를 해야할 필요가 있다. 결측데이터에 대한 처리로서 주로 이용되어온 방법으로는 결측값을 포함한 관측값(case)을 제외하는 방법이었다. 이후 여러 방법들이 제안되어 EM알고리즘이나 회귀알고리즘에 의한 추정을 바탕으로 결측값에 대한 추정을 해서 그 추정값으로 결측값을 대치하는 방법을 사용할 수 있게되었다. 본 논문에서는 복수 개의 데이터세트를 생성해서 대치하는 다중대입 소프트인 SOLAS를 소개한다.

  • PDF

비선형 근사필터에 강구조시험체의 지진응답추정 및 동특성식별 (Seismic Response Estimation and System Identification of Test Steel Structure Using Approximate Nonlinear Filter)

  • 배기환;김두영
    • 한국지진공학회논문집
    • /
    • 제5권2호
    • /
    • pp.67-72
    • /
    • 2001
  • 대상으로 하는 시스템의 입출력신호에 근거하여, 시스템의 수학적 모델을 결정하는 것을 총칭하여 시스템식별이라 한다. 본 논문에서는 지진응답 관측치를 입출력신호로 하여 조건부대치를 최적치로 판단하는 비선형근사필터법을 사용한 건축구조물의 지진응답추정 및 파라미터식별에 관하여 논한다. 비선형근사필터법에 의한 건축구조물식별의 유효성의 적용성을 판단하기 위해, 진동대를 사용하여 강구조시험체의 진동실험을 행하고 결과적으로 얻어진 시험체의 수학적 모델에 대한 지진응답 수치해석결과와 진동실험에서의 관측기록을 비교하여 본 식별법의 타당성을 보인다.

  • PDF