한글 문서의 색인어와 색인 기법

  • Published : 2004.04.01

Abstract

정보검색 시스템의 성능을 평가하는 요소는 재현율(recall)과 정확률(precision)이고, 재현율과 정확률을 결정하는데 가장 큰 영향을 미치는 것은 문서에 대한 색인어와 색인어 가중치이다[1]. '질의어'에 적합한 문서를 검색할 수 있는지를 결정하는 것은 "적합 문서에 대해 색인이 되어 있는가\ulcorner"하는 문제이며, 이는 재현율에 직접적인 영향을 미치게 된다. 즉, 적합 문서를 색인할 때 '질의어'에 대한 색인이 되어 있지 않은 문서는 검색이 되지 않으며, 또한 부적합 문서에 색인이 되어 있으면 부적합 문서들이 다수 검색되기 때문에 정확률이 낮아지게 된다.이 낮아지게 된다.

Keywords

References

  1. Modern Information Retrieval Baeza-Yates, R.;B. Ribeiro-Neto
  2. Behaviour and the Principle of Least Effort Zipf, H. P.
  3. American Journal of Psychology v.71 Tests of a statistical explanation of the reank-frequency relation for words in written English Miller, G. A.;E. B. Newman
  4. Infroamtion and Control v.1 Length-frequency statistics for written English Miller, G. A.;E. B. Newman;E. A. Friedman
  5. IBM Jouranl of Research and Development v.2 The Automatic Creation of Literature Abstracts Luhn
  6. 한국어 형태소 분석과 정보 검색 강승식