Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2001.10d
- /
- Pages.538-545
- /
- 2001
- /
- 2005-3053(pISSN)
Open-domain Question Answering Using Lexico-Semantic Patterns
Lexico-Semantic Pattern을 이용한 오픈 도메인 질의 응답 시스템
- Lee, Seung-Woo (Dept. of Computer Science & Engineer ins, POSTECH) ;
- Jung, Han-Min (Dept. of Computer Science & Engineer ins, POSTECH) ;
- Kwak, Byung-Kwan (Dept. of Computer Science & Engineer ins, POSTECH) ;
- Kim, Dong-Seok (Dept. of Computer Science & Engineer ins, POSTECH) ;
- Cha, Jeong-Won (Dept. of Computer Science & Engineer ins, POSTECH) ;
- An, Joo-Hui (Dept. of Computer Science & Engineer ins, POSTECH) ;
- Lee, Gary Geun-Bae (Dept. of Computer Science & Engineer ins, POSTECH) ;
- Kim, Hark-Soo (DiQuest. com) ;
- Kim, Kyung-Sun (DiQuest. com) ;
- Seo, Jung-Yun (Dept. of Computer Science, Sogang University)
- 이승우 (포항공과대학교 컴퓨터공학과) ;
- 정한민 (포항공과대학교 컴퓨터공학과) ;
- 곽병관 (포항공과대학교 컴퓨터공학과) ;
- 김동석 (포항공과대학교 컴퓨터공학과) ;
- 차정원 (포항공과대학교 컴퓨터공학과) ;
- 안주희 (포항공과대학교 컴퓨터공학과) ;
- 이근배 (포항공과대학교 컴퓨터공학과) ;
- 김학수 (다이퀘스트닷컴) ;
- 김경선 (다이퀘스트닷컴) ;
- 서정연 (서강대학교 컴퓨터학과)
- Published : 2001.10.12
Abstract
본 연구에서는 오픈 도메인에서 동작할 수 있는 질의 응답 시스템(Open-domain Question Answer ing System)을 구현하고 영어권 TREC에 참가한 결과를 기술하였다. 정답 유형을 18개의 상위 노드를 갖는 계층구조로 분류하였고, 질문 처리에서는 LSP(Lexico-Semantic Pattern)으로 표현된 문법을 사용하여 질문의 정답 유형을 결정하고, lemma 형태와 WordNet 의미, stem 형태의 3가지 유형의 키워드로 구성된 질의를 생성한다. 이 질의를 바탕으로, 패시지 선택에서는 문서검색 엔진에 의해 검색된 문서들을 문장단위로 나눠 정수를 계산하고, 어휘체인(Lexical Chain)을 고려하여 인접한 문장을 결합하여 패시지를 구성하고 순위를 결정한다. 상위 랭크의 패시지를 대상으로, 정답 처리에서는 질문의 정답 유형에 따라 품사와 어휘, 의미 정보로 기술된 LSP 매칭과 AAO (Abbreviation-Appositive-Definition) 처리를 통해 정답을 추출하고 정수를 계산하여 순위를 결정한다. 구현된 시스템의 성능을 평가하기 위해 TREC10 QA Track의 main task의 질문들 중, 200개의 질문에 대해 TRIC 방식으로 자체 평가를 한 결과, MRR(Mean Reciprocal Rank)은 0.341로 TREC9의 상위 시스템들과 견줄 만한 성능을 보였다.
Keywords