Determining the Specificity of Terms using Compositional and Contextual Information

구성정보와 문맥정보를 이용한 전문용어의 전문성 측정 방법

  • 류법모 (한국과학기술원 전산학과) ;
  • 배선미 (한국과학기술원 인문사회과학부) ;
  • 최기선 (한국과학기술원 전산학과)
  • Published : 2006.07.01

Abstract

A tenn with more domain specific information has higher level of term specificity. We propose new specificity calculation methods of terms based on information theoretic measures using compositional and contextual information. Specificity of terms is a kind of necessary conditions in tenn hierarchy construction task. The methods use based on compositional and contextual information of terms. The compositional information includes frequency, $tf{\cdot}idf$, bigram and internal structure of the terms. The contextual information of a tenn includes the probabilistic distribution of modifiers of terms. The proposed methods can be applied to other domains without extra procedures. Experiments showed very promising result with the precision of 82.0% when applied to the terms in MeSH thesaurus.

어떤 용어가 전문적인 개념을 많이 내포하고 있을 때 전문성이 높다고 말한다. 본 논문에서는 용어의 내부 구성정보와 외부 문맥정보를 이용하여 정보이론에 기반한 방법으로 전문용어가 내포하는 전문성을 정량적으로 계산하는 방법을 제안한다. 용어의 전문성은 용어간 상하위어 관계 설정에서 중요한 필요조건으로 사용될 수 있다. 제안한 방법은 전문용어의 내부 구성정보를 이용하는 방법, 문맥정보를 이용하는 방법 그리고 두 정보를 모두 이용하는 방법으로 나눈다. 구성정보를 이용하는 방법에서는 전문용어를 구성하는 단어의 빈도수, 가중치, 바이그램, 내부 수식구조 둥을 이용하고, 문맥정보를 이용하는 방법에서는 전문용어를 수식하는 단어들의 분포를 이용한다. 본 논문에서 제안한 방법은 분야에 독립적으로 적용될 수 있고, 전문용어 생성 절차에 대한 특정을 잘 반영할 수 있는 장점이 있다. MeSH 트리에 포함된 질병 이름의 전문성 값을 계산한 뒤 상위어의 전문성 값과 비교한 결과 82.0%의 정확률을 보였다.

Keywords

References

  1. Sager, J.C., 'Section 1.2.1 Term formation,' in Handbook of Terminology Management Vol.1, John Benjamins publishing company, 1997
  2. ISO 704, 'Terminology work-Principle and methods,' ISO 704 Second Edition, 2000
  3. T.M. Cover & J.A. Tomas, Elements of Information Theory, New York: John Wiley and Sons Inc., 1991
  4. Katerina Frantzi, Sophia Anahiadou, Hideki Mima, 'Automatic recognition of multi-word terms: the C-value/NC-value method,' Journal of Digital Libraries, Vol. 3, Num 2, pp. 115-130, 2000 https://doi.org/10.1007/s007999900023
  5. 오종훈,이경순,최기선,'분야간 유사도와 통계기법을 이용한 전문용어의 자동 추출' 정보과학회논문지: 소프트웨어 및 응용 제29권 제1호, pp. 258-269. 2002
  6. Christopher D. Manning and Hinrich Schutze, 'Foundations of Statistical Natural Language Processing,' The MIT Press, 1999, p. 543
  7. Sharon A. Caraballo and Eugene Charniak, 'Determining the Specificity of Nouns from Text,' in the Proceedings of the 1999 Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora, pp. 63-70, 1999
  8. A. Aizawa, An information-theoretic perspective of tf-idf measures, Journal of Information Processing and management Vol. 39, 2003 https://doi.org/10.1016/S0306-4573(02)00021-3
  9. S.K.M Wong and Y.Y. Yao, An Information-Theoretic Measure of Term Specificity, Journal of the American Society for Information Science, Vol. 43, Num. 1, 1992 https://doi.org/10.1002/(SICI)1097-4571(199201)43:1<54::AID-ASI5>3.0.CO;2-A