A Study on Improving the Effectiveness Using Term Reweighting for Information Retreival

정보 검색에서 용어 가중치 재부여를 이용한 성능 증진에 관한 연구

  • 김영천 (조선대학교 전자계산학과) ;
  • 이재훈 (조선대학교 전자계산학과) ;
  • 문유미 (조선대학교 전자계산학과) ;
  • 이성주 (조선대학교 전자계산학과) ;
  • 박병권 (서강정보대학 정보통신과)
  • Published : 2001.12.01

Abstract

정보 검색 시스템의 중요한 목적중의 하나는 단순히 사용자 질의를 만족하는 문서들의 집합을 검색하는 것이 아니라, 질의를 만족하는 정도에 따라 검색된 문서들에 순위를 부여함으로써 사용자들이 필요한 정보를 얻는데 소모되는 시간을 최소화시키는 것이다. 순수한 부울 검색 시스템은 검색 전략이 이진값에 근거하여 순위 구분 없이 연관/비연관 중의 하나로 결정된다. 딸서 문서와 질의 사이의 유사도를 나타내는 문서값을 계산할 수 없기 때문에, 검색된 문서들을 질의를 만족하는 정보에 따라 정렬할 수 없다. 부울 검색 시스템의 이러한 단점을 보완하는 방법으로 MMM 모델, Paice 모델, P-norm 모델이 개발되었다. 본 논문에서는 높은 검색 효과를 제공하는 백터모델에서 용어 가중치 재부여를 이용한 정보검색 모델을 제안한다. 벡터모델에서 용어 가중치 재부여를 이용한 질의 확장 모델의 연산 특성이 MMM, Paice, P-norm 모델보다 우수함을 설명하고, 또한 성능 비교를 통하여 이를 입증한다.

Keywords

References

  1. 정보처리 학회지 v.15 no.1 피드백 정보를 이용한 불논리 검색 시스템의 성능 증진에 관한 실헙적 연구 신은자;정영미
  2. 정보처리학회지 v.12 no.1 정보검색에서 부울연산자를 연산하는 식의 수학적 특성 이준호;이기호;조영화
  3. 한국정보과학회논문지 v.21 no.3 부울 연산자에 대한 효율적이며 효과적인 연산 방법 이준호
  4. 한국정보관리학회 학술대회 논문집, 제7회 문헌 자동분류에서 용어가중치 기법에 대한연구 이재윤;최보영;정영미
  5. PhD thesis, Cornell University Extending the Boolean and Vector space Models of Information Retrieval with P-Nom Queries and Multriple Concept Types E. A. Fox
  6. Proc. of the 5th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Relevance feedback revisited Donna Harman
  7. Proc. ACM-SIGIR Conference on Research and Devlopment in Information Retrieval Query expansion using local and global document analysis J. Xu;W. B. Croft
  8. Modern Information Retrieval Baeza-Yates, R.;Ribeiro-Neto, Berthier
  9. Imformation Processing & Management v.24 no.5 Term-weighting approaches in automatic retrieval G. Salton;C. Buckley