Structural Disambiguation using Mutual Information and the Measure of Confidence

상호 정보를 이용한 구조적 모호성 해소와 결과에 대한 확신도 측정

  • 심광섭 (서울대학교 컴퓨터공학과)
  • Published : 1993.03.01

Abstract

Structual ambiguity is one of those problem that arise in the analysis of natural language sentences.It has been considered very difficult to solve the problem.Structural ambiguity,however,should be resolved no matter how difficult it may be.Otherwise natural language processing could be virtually impossible.A statistical approach to structural disambiguation is proposed in this dissertation.The information-theoretic concept of mutual information has been empolyed in resolving structural ambiguity Mutual information can be acquired in an automatic way.from text corpora. If a structural disambiguation subsystem had the capability of self-evaluating whether the results of structural disambiguation are correct or not.it would be possible to develop a more intelligent natural language proessing system.In this paper,the concept of confidence measure is also proposed to endow the disambiguation subsystem with such intelligence.Confidence measure is a numeric value calculated after structural disambiguation. Some experiments were performed in order to show the validity of the approach.Mutual information was auto matically acquired from a corpus of 1.6milion words that were collected from scientific abstracts.The accuracy of structural disambiguation was 80%when performed over 1,639 test sentences.Notice that there was no manual tuning in advance for the experiments.The task of detecting and correcting errors in structural disambiguation will be performed very effectively if the concept of confidence measure is employed in the process.

구조적 모호성은 자연 언어 문장을 분석할 때 흔히 나타내는 문제점 중의 하나로,지금까지 이문제의 해결은 대단히 어려운 것으로 인식되어 왔다.그러나,구조적 모호성을 해소하지 않고 올바른 언어 처리를 한다는 것은 사실상 불가능하다.본 논문에서는 이 문제에 대하여 정보 이론적(information-theoretic)개념인 상호 정보(mutual information)를 이용한 통계적 접근방법을 제안한다.상호정보는 말 뭉치로 부터 자동 습득이 가능하므로 지식습득속도가 대단히 빠를뿐만 아니라 지속적인 지식습득이 가능하다. 구조적 모호성 해소는 물론 모호성 해소 결과의 옳고 그름을 스스로 판단할수 있는 능력을 부여할수 있다면 보다 지능적인 시스템을 개발하는데 도움이 될것이다.본 논문에서는 그와 같은 지적 능력을 부여한느데 필요한 확신도(congidence measure) 개념도 또한 제시한다.확신도는 구조적 모호성을 해소하고 난 후에 계산되는 수치로서,구조적 모호성이 올바르게 해소되었을 가능성이 높으면 높을수록 그 값이 커지는 성질을 가지고 있다. 본 논문에서 제시한 구조적 모호성 해소 알고리즘의 타당성을 검증하기 위하여 이공계 논문 초록으로부터 발췌된 약 160만 단어의 말뭉치로부터 상호 정보를 자동 습득하고 이를 이용하요,1,639개의 문장에 대하여 구조적 모호성을 해소하는 실험을 하였다. 실험결과 구조적 모호성 해소 정화도는 약 80%로 나타났다.확신도 개념을 이용할 경우 구조적 모호성 해소가 잘못된 문장을 찾아 정정하는 작업을 매우 효과적으로 진행할 수 있었다.

Keywords