Term Weighting Method by Postposition and Compound Noun Recognition

조사 유형 및 복합명사 인식에 의한 용어 가중치 부여 기법

  • 강승식 (국민대학교 컴퓨터학부) ;
  • 이하규 (성공회대학교 컴퓨터정보공학부) ;
  • 손소현 (한국전자통신연구원 지식정보센터) ;
  • 홍기채 (한국전자통신연구원 지식정보센터) ;
  • 문병주 (한국전자통신연구원 지식정보센터)
  • Published : 2001.10.01

Abstract

문서의 내용을 대표하는 용어를 추출하기 위해 일반적으로 영어에서는 명사구를 색인하는 기법을 사용하지만 주제어 추출의 관점에서 영어의 명사구가 한국어의 복합명사에 해당하기 때문에 한국어에서는 복합명사 색인 기법을 중요시하고 있다. 본 논문에서는 한글 문서에서 추출된 용어의 가중치를 결정하기 위하여 경험적인 방법에 따라 가중치를 계산하는 방법을 제안한다. 구체적인 가중치 계산 방법으로 용어 자체의 특성에 의한 가중치를 부여한 후에, 복합명사의 경계를 인식하여 띄어쓴 복합명사의 가중치를 조절하고, 다시 용어의 조사 유형에 따라 가중치를 재계산하는 방법을 제안한다. 신문기사에 대한 실험결과에 의하면 제안한 방법이 단순 출현빈도에 의한 주제어 추출 기법보다 정확도가 더 높았다.

Keywords