• 제목/요약/키워드: Hellinger Divergence

검색결과 12건 처리시간 0.016초

분류학습을 위한 연속 애트리뷰트의 이산화 방법에 관한 연구 (Discretization of Continuous-Valued Attributes for Classification Learning)

  • 이창환
    • 한국정보처리학회논문지
    • /
    • 제4권6호
    • /
    • pp.1541-1549
    • /
    • 1997
  • 대부분의 기계학습 방법들은 이산형의 데이타를 학습에 사용되는 데이타의 형식으로 요구하고 있다. 따라서 연속형 데이타의 경우는 기계학습 방법들을 적용하기 전에 그 데이타를 이산형으로 바꾸어 주는 과정이 필요하다. 이러한 이산화 과정은 그 중요성에 비하여 상대적으로 관련 연구가 미비한 수준이다. 따라서 이 논문은 정보이론을 사용하여 연속형 자료를 이산형의 형태로 변환시키는 새로운 방법을 제안하였다. 각 애트리뷰트의 값들이 목적 애트리뷰트에 제공하는 정보의 량을 엔트로피 함수의 일종인 Hellinger 변량을 이용하여 계산하였으며, 각 애트리뷰트마다 제공하는 정보의 손실을 최소화할 수 있는 이산화 경계선을 계산하였다. 본 논문이 제안한 방법의 성능을 ID3 와 신경망 알고리즘을 사용하여 기존의 이산화 방법들과 비교하였으며 거의 대부분 우수한 정확성을 보였다.

  • PDF

소표본에서 차이측도 통계량의 비교연구 (A Monte Carlo Comparison of the Small Sample Behavior of Disparity Measures)

  • 홍종선;정동빈;박용석
    • 응용통계연구
    • /
    • 제16권2호
    • /
    • pp.455-467
    • /
    • 2003
  • 소표본 분할표 자료에서 적합도 검정통계량들의 카이제곱 근사 적용 가능에 대하여 많은 연구가 진행되었다. 소표본에서 세 가지 검정 통계량(피어슨 카이제곱 Χ$^2$, 일반화 가능도비 G$^2$, 그리고 역발산 Ι(2/3) 검정통계량)에 관하여 비교한 Rudas(1986)의 연구를 확장하여, 최근에 제안된 차이측도(BWHD(1/9), BWCS(1/3), NED(4/3) 검정통계량)를 포함시켜 비교 분석하였다. 독립모형의 이차원 분할표, 조건부 독립모형과 한 변수 독립 모형을 따르는 삼차원 분할표에 대한 모의실험을 통하여 생성된 90과 95 백분위수와 이에 대응하는 95% 신뢰구간을 살펴보고 실제 백분위수와 비교하였다. 그 결과 Χ$^2$, Ι(2/3), 그리고 BWHD(1/9) 검정통계량이 유사한 결과를 나타내었고 이 통계량들이 기존에 제안된 검정통계량들보다 적은 표본크기에서도 카이제곱 근사방법에 적용 가능함을 발견하였다.