Automatic word clustering using total divergence to the average

Lee, Ho;Seo, Hee-Chul;Rim, Hae-Chang;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

1998.10c
/
Pages.419-424
/
1998
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

Automatic word clustering using total divergence to the average

평균점에 대한 불일치의 합을 이용한 자동 단어 군집화

Lee, Ho (Natural Language Processing Lab., Dept. of Computer Science and Engineering, Korea Univ.) ;
Seo, Hee-Chul (Natural Language Processing Lab., Dept. of Computer Science and Engineering, Korea Univ.) ;
Rim, Hae-Chang (Natural Language Processing Lab., Dept. of Computer Science and Engineering, Korea Univ.)

이호 (고려대학교 컴퓨터학과) ;
서희철 (고려대학교 컴퓨터학과) ;
임해창 (고려대학교 컴퓨터학과)

Published : 1998.10.09

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

본 논문에서는 단어들의 분포적 특성을 이용하여 자동으로 단어를 군집화(clustering) 하는 기법을 제시한다. 제안된 군집화 기법에서는 단어들 사이의 거리(distance)를 가상 공간상에 있는 두 단어의 평균점에 대한 불일치의 합(total divergence to the average)으로 측정하며 군집화 알고리즘으로는 최소 신장 트리(minimal spanning tree)를 이용한다. 본 논문에서는 이 기법에 대해 두 가지 실험을 수행한다. 첫 번째 실험은 코퍼스에서 상위 출현 빈도를 가지는 약 1,200 개의 명사들을 의미에 따라 군집화 하는 것이며 두 번째 실험은 이 논문에서 제시한 자동 군집화 방법의 성능을 객관적으로 평가하기 위한 것으로 가상 단어(pseudo word)에 대한 군집화이다. 실험 결과 이 방법은 가상 단어에 대해 약 91%의 군집화 정확도와(clustering precision)와 약 81%의 군집 순수도(cluster purity)를 나타내었다. 한편 두 번째 실험에서는 평균점에 대한 불일치의 합을 이용한 거리 측정에서 나타나는 문제점을 보완한 거리 측정 방법을 제시하였으며 이를 이용하여 가상 단어 군집화를 수행한 결과 군집화 정확도와 군집 순수도가 각각 약 96% 및 95%로 향상되었다.

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

Automatic word clustering using total divergence to the average

평균점에 대한 불일치의 합을 이용한 자동 단어 군집화

Abstract

Keywords