• 제목/요약/키워드: 랜덤효과모형

검색결과 72건 처리시간 0.022초

이분형 자료의 분류문제에서 불균형을 다루기 위한 표본재추출 방법 비교 (Comparison of resampling methods for dealing with imbalanced data in binary classification problem)

  • 박근우;정인경
    • 응용통계연구
    • /
    • 제32권3호
    • /
    • pp.349-374
    • /
    • 2019
  • 이분형 자료의 분류에서 자료의 불균형 정도가 심한 경우 분류 결과가 좋지 않을 수 있다. 이런 문제 해결을 위해 학습 자료를 변형시키는 등의 연구가 활발히 진행되고 있다. 본 연구에서는 이러한 이분형 자료의 분류문제에서 불균형을 다루기 위한 방법들 중 표본재추출 방법들을 비교하였다. 이를 통해 자료에서 희소계급의 탐지를 보다 효과적으로 하는 방법을 찾고자 하였다. 모의실험을 통하여 여러 오버샘플링, 언더샘플링, 오버샘플링과 언더샘플링 혼합방법의 총 20가지를 비교하였다. 분류문제에서 대표적으로 쓰이는 로지스틱 회귀분석, support vector machine, 랜덤포레스트 모형을 분류기로 사용하였다. 모의실험 결과, 정확도가 0.5 이상이면서 민감도가 높았던 표본재추출 방법은 random under sampling (RUS)였다. 그 다음으로 민감도가 높았던 방법은 오버샘플링 ADASYN (adaptive synthetic sampling approach)이었다. 이를 통해 RUS 방법이 희소계급값을 찾기 위한 방안으로는 적합했다는 것을 알 수 있었다. 몇 가지 실제 자료에 적용한 결과도 모의실험의 결과와 비슷한 양상을 보였다.

다변량 지구과학 데이터와 가우시안 혼합 모델을 이용한 공간 분포 추정 (Estimation of Spatial Distribution Using the Gaussian Mixture Model with Multivariate Geoscience Data)

  • 김호림;유순영;윤성택;김경호;이군택;이정호;허철호;류동우
    • 자원환경지질
    • /
    • 제55권4호
    • /
    • pp.353-366
    • /
    • 2022
  • 지구과학 데이터(지오데이터)의 공간 이질성, 희소성 및 고차원성으로 인해 공간 분포 추정에 어려움이 있다. 따라서 지구과학의 많은 응용 분야에서 지오데이터의 고유 특성을 고려할 수 있는 공간 추정 기법이 필요하다. 본 연구에서는 기계 학습 알고리즘 중 하나인 가우시안 혼합 모델(Gaussian Mixture Model; GMM)을 이용하여 공간 예측 방법을 제공하고자 하였다. 제안된 기법의 성능을 검증하기 위해, 옛 제련소 부지에서 휴대용 X선 형광분석기(PXRF) 및 유도결합플라즈마-원자방출분광법(ICP-AES)을 이용하여 분석된 토양 농도 자료를 활용하였다. ICP-AES를 이용해 분석된 As와 Pb를 주변수로 하고, 나머지 자료는 보조변수로 활용하였다. 다차원의 보조변수 중 중요 변수를 선별하기 위해 랜덤포레스트 기반의 변수선택법을 적용하였다. ICP-AES 및 PXRF를 통해 구축된 다변량 데이터를 사용한 GMM의 결과를 단변량 및 이변량 데이터를 사용한 정규 크리깅(Ordinary Kriging; OK) 및 정규 공동크리깅(Ordinary Co-Kriging; OCK)의 결과와 비교하였다. GMM의 결과는 OK 및 OCK의 결과보다 낮은 평균 제곱근 편차(RMSE; 비소는 최대 0.11 및 납은 0.33까지 향상)와 높은 상관관계(r; 비소는 최대 0.31 및 납은 0.46까지 향상)를 제공하였다. 이는 GMM을 사용할 경우 토양 오염의 범위 해석의 성능을 향상시킬 수 있음을 지시한다. 본 연구는 다 변량 공간추정 접근법이 복잡하고 이질적인 지질 및 지구 화학자료의 특징을 이해하는 데 효과적으로 적용될 수 있음을 증명하였다.