Construction of a Balanced Test Collection for Evaluation of Information Retrieval System

정보 검색 시스템 평가를 위한 균형 테스트 컬렉션 구축

  • Published : 1999.06.01

Abstract

There has been some research in Korea on test collections for evaluation of information retrieval (IR) systems. The test collections constructed as an outcome from the research have provided a starting point and opportunities to test Korean IR systems in an objective manner. However, they are well short of the standard practice in the broader IR community in that they are small in their size and usually unbalanced in terms of the characteristics of the documents and the queries (such as the subject domains). In this article, we describe our research effort to alleviate this problem and the resulting test collection, called HANTEC (Hangul TEst Collection). HANTEC is balanced in terms of the subject domains, document lengths, and user types, and currently consists of 120,000 documents divided into three groups: general area, social science area and scienceltechnology area. The 30 queries in the collection are grouped into the same three areas in one dimension and into three distinct user groups in the other dimension.

검색 시스템들의 평가를 위해 국내에서도 테스트 컬렉션에 관한 여러 연구가 진행되어왔다. 그러나 그 규모나 대상 분야가 편중되어 있고 질의 및 문헌 특성의 균형 등에 대한 고려가 반영되어 있지 않아 평가 결과를 객관화하기는 사실상 어려운 실정이다. 본 논문에서는 분야별, 사용자별 균형을 고려한 대규모 테스트 컬렉션인 HANTEC에 대해 기술한다. HANTEC 테스트 컬렉션은 총 12만 건의 문헌집합으로 구성되었는데 일반, 사회과학, 과학기술 각 분야별 4만 건씩으로 특정 분야에 편중되지 않도록 하였고 질의집합도 각 분야별 10개씩 30개로 구성하였다.

Keywords

References

  1. 한국정보과학회 봄 학술대회 발표논문집 v.22 no.1 한국어 자동 색인을 위한 형태소 분석 기능 강승식
  2. 정보관리학회지 v.11 no.1 자동색인기 성능시험을 위한 Test Set 개발 김성혁(외)
  3. 정보관리학회지 v.12 no.2 다중 가중치 기법을 이용한 검색 효과의 개선 이준호
  4. 정보관리학회지 v.13 no.1 한글 문서의 효과적인 검색을 위한 n-Gram 기반의 색인 방법 이준호
  5. 정보관리학회지 v.12 no.2 정보검색을 위한 KRIST테스트 컬렉션의 개발 이준호;최광남;한현숙;김종원;남성원
  6. 제8회 한글 및 한국어 정보처리 학술대회 효율적인 색인어 추출을 위한 복합명사 분석방법 장동현;맹성현
  7. The Workshop on Information Retrieval with Oriental Languages Development of the Data Collection Ver.2.0 for Korean Informaiton Retrieval Studies(KTSET2.0) Choi,K.S.;Park,Y.C.;Kim,J.K.;Kim,Y.W.
  8. Proceedings of the 16th Annual International ACM SIGIR Conference on Research and Development in Informaiton Retrieval Overview of the 1st text retrieval conference Harman,D.
  9. SIGIR '98 Lessons from BMIR-J2: A Test Collection for Japanese IR Systems Kitani Tsuyoshi;Yasushi Ogawa(etc.)
  10. Proceedings of the Fifth International Conference on Database Systems for Advanced Applications Combining Multiple Evidence from Different Relevance Feedback Methods Lee Joon Ho
  11. Applied Linear Statistical Models(3rd ed.) Neter John;William Wassermen;Michael Kanter
  12. The Sixth Text REtrieval Conference Overview of the Sixth Text REtrieval Conference(TREC-6) Voorhees, Ellen M.;Donna Harman