DOI QR코드

DOI QR Code

A probabilistic information retrieval model by document ranking using term dependencies

용어간 종속성을 이용한 문서 순위 매기기에 의한 확률적 정보 검색

  • You, Hyun-Jo (Program in Data Science for Humanities, Seoul National University) ;
  • Lee, Jung-Jin (Department of Statistics and Actuarial Science, Soongsil University)
  • 유현조 (서울대학교 인문데이터과학 연계전공) ;
  • 이정진 (숭실대학교 정보통계보험수리학과)
  • Received : 2019.08.27
  • Accepted : 2019.09.24
  • Published : 2019.10.31

Abstract

This paper proposes a probabilistic document ranking model incorporating term dependencies. Document ranking is a fundamental information retrieval task. The task is to sort documents in a collection according to the relevance to the user query (Qin et al., Information Retrieval Journal, 13, 346-374, 2010). A probabilistic model is a model for computing the conditional probability of the relevance of each document given query. Most of the widely used models assume the term independence because it is challenging to compute the joint probabilities of multiple terms. Words in natural language texts are obviously highly correlated. In this paper, we assume a multinomial distribution model to calculate the relevance probability of a document by considering the dependency structure of words, and propose an information retrieval model to rank a document by estimating the probability with the maximum entropy method. The results of the ranking simulation experiment in various multinomial situations show better retrieval results than a model that assumes the independence of words. The results of document ranking experiments using real-world datasets LETOR OHSUMED also show better retrieval results.

텍스트 문서 집합에 대한 정보검색에서는 주어진 질의에 부합하는 각 문서의 적합도 확률을 계산하고 이 확률이 높은 것부터 낮은 순으로 문서 순위를 정하여 사용자에게 제공한다, 각 문서의 적합도 확률 계산에 많이 사용되는 모형은 단어들이 확률적으로 독립이라는 가정 하에 확률을 추정한다. 이 모형은 단어들의 결합 확률을 계산하는 것이 현실적으로 어렵다는 점에서 많이 이용되고 있지만 질의에 사용되는 단어들이 대개 서로 관련성을 가지고 있다는 사실을 고려하고 있지 않다. 본 논문에서는 단어 자질들의 의존 구조를 고려하여 문서의 적합도 확률을 계산하기 위하여 단어들의 결합 패턴의 확률을 다항분포 모형으로 가정하고, 최대 엔트로피 방법으로 확률을 추정하여 문서 순위를 매기는 정보검색 모형을 제안한다. 여러 가지 다항분포 상황에서 시뮬레이션 실험을 한 결과 변수들의 독립을 가정한 모형보다 더 우수한 추정 결과를 보여 준다. 실제 LETOR OHSUMED 데이터 이용한 문서 순위 매기기 실험의 결과도 더 나은 검색 결과를 보여 준다.

Keywords

References

  1. Deming, W. E. and Stephan, F. F. (1940) On a least squares adjustment of a sampled frequency table when the expected marginal totals are known, Annals of Mathematical Statistics, 11, 427-444. https://doi.org/10.1214/aoms/1177731829
  2. Fienberg, S. E. (1970) An iterative procedure for estimation in contingency tables, Annals of Mathematical Statistics, 41, 907-917. https://doi.org/10.1214/aoms/1177696968
  3. Kantor, P. B. and Lee, J. J. (1998). Testing the maximum entropy principle for information retrieval, Journal of American Society for Information Science, 49, 557-566. https://doi.org/10.1002/(SICI)1097-4571(19980501)49:6<557::AID-ASI7>3.0.CO;2-G
  4. Lee, J. J. (2005). Discriminating analysis of binary data with multinomial distribution by using the iterative cross entropy minimization estimation, The Korean Communications in Statistics, 12, 125-137.
  5. Lee, J. J. and Kantor, P. B. (1991). A study of probabilistic information retrieval systems in the case of inconsistent expert judgments, Journal of American Society for Information Science, 42, 166-172. https://doi.org/10.1002/(SICI)1097-4571(199104)42:3<166::AID-ASI2>3.0.CO;2-A
  6. Lee, J. J. and Park, H. K. (2010). Rule-based classification analysis using entropy distribution, Communications for Statistical Applications and Methods, 17, 527-540. https://doi.org/10.5351/CKSS.2010.17.4.527
  7. Manning, Ch. D., Raghavan, P. and Schuutze, H. (2012). An Introduction to Information Retrieval, CUP. Online publication: https://doi.org/10.1017/CBO9780511809071
  8. Min, J. (2017). Utilizing External Resources for Enriching Information Retrieval, Ph.D. Dissertation, DCU. Available at http://doras.dcu.ie/21981/
  9. Qin, T., Liu, T.-Y., Xu, J., and Li, H. (2010) LETOR: A benchmark collection for research on learning to rank for information retrieval, Information Retrieval Journal, 13, 346-374. https://doi.org/10.1007/s10791-009-9123-y
  10. Robertson S. E. (1977). The probability ranking principle in IR, Journal of Documentation, 33, 294-304. https://doi.org/10.1108/eb026647
  11. Ruschendorf, L. (1995) Convergence of the iterative proportional fitting procedure, The Annals of Statistics, 23, 1160-1174. https://doi.org/10.1214/aos/1176324703
  12. Sanderson, M. and Croft, W. B. (2012). The history of information retrieval research. In Proceedings of the IEEE, 100, 1444-1451.