Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2000.10d
- /
- Pages.210-215
- /
- 2000
- /
- 2005-3053(pISSN)
Extension and Validation of Hangul Text Collection(HANTEC)
한국어 테스트 컬렉션 HANTEC의 확장 및 보완
- Kim, Ji-Young (Dept. of Computer Science, Chungnam National University) ;
- Jang, Dong-Hyun (Dept. of Computer Science, Chungnam National University) ;
- Myaeng, Sung-Hyon (Dept. of Computer Science, Chungnam National University) ;
- Lee, Suk-Hoon (Dept. of Statistics, Chungnam National University) ;
- Seo, Jeong-Hyun (Korea Research & Development Information Center) ;
- Kim, Hyun (Korea Research & Development Information Center)
- 김지영 (충남대학교 컴퓨터과학과) ;
- 장동현 (충남대학교 컴퓨터과학과) ;
- 맹성현 (충남대학교 컴퓨터과학과) ;
- 이석훈 (충남대학교 통계학과) ;
- 서정현 (연구개발정보센터) ;
- 김현 (연구개발정보센터)
- Published : 2000.10.13
Abstract
HANTEC1.0은 12만 건의 문서집합과 30개의 질의집합, 그리고 각 질의에 대한 적합문서로 구성된 정보검색용 한글 테스트 컬렉션이다. 본 연구에서는 HANTEC1.0의 확장 및 보완하기 위해 과학기술분야 20개의 질의를 추가하였는데, 질의 추가를 위해서 일본 NACSIS 테스트 컬렉션의 질의를 번역하여 사용함으로써 한일 교차언어 검색환경을 조성하고자 하였다. 추가된 각 질의에 대해서는 여러 검색기에서 총 41가지 검색방법으로 검색한 후, 각 검색조합의 상위 50개 문서로 구성된 중간 결과집합을 만들었으며, 이를 대상으로 적합성판정에 대한 평가기준 및 절차 교육이 이루어진 평가자가 각 질의에 대한 적합성평가를 실시하였다 이렇게 구축된 HANTEC 테스트 컬렉션의 적합문서 집합의 객관적 품질 평가와 시스템 성능평가를 위하여 통계적인 방법을 적용하므로써 공신력있고 일반화된 테스트 컬렉션을 구축하고자 하였다. 현재 HANTEC2.0은 검색분야 연구자 및 개발자에게 자유롭게 배포 중이며 정보검색 시스템의 신뢰도 측정을 목적으로 하는 학술대회의 연구결과 발표 및 제품 비교 등에 활용되어질 것이다.
Keywords