Similar Question Search System for online Q&A for the Korean Language Based on Topic Classification

온라인가나다를 위한 주제 분류 기반 유사 질문 검색 시스템

  • 문정민 (금오공과대학교 컴퓨터소프트웨어공학과) ;
  • 송영호 (금오공과대학교 컴퓨터소프트웨어공학과) ;
  • 진지환 (금오공과대학교 컴퓨터소프트웨어공학과) ;
  • 이현섭 (금오공과대학교 컴퓨터소프트웨어공학과) ;
  • 이현아 (금오공과대학교 컴퓨터소프트웨어공학과)
  • Received : 2015.04.02
  • Accepted : 2015.08.03
  • Published : 2015.09.30

Abstract

Online Q&A for the National Institute of the Korean Language provides expert's answers for questions about the Korean language, in which many similar questions are repeatedly posted like other Q&A boards. So, if a system automatically finds questions that are similar to a user's question, it can immediately provide users with recommendable answers to their question and prevent experts from wasting time to answer to similar questions repeatedly. In this paper, we set 5 classes of questions based on its topic which are frequently asked, and propose to classify questions to those classes. Our system searches similar questions by combining topic similarity, vector similarity and sequence similarity. Experiment shows that our method improves search correctness with topic classification. In experiment, Mean Reciprocal Rank(MRR) of our system is 0.756, and precision for the first result is 68.31% and precision for top five results is 87.32%.

국립국어원의 온라인가나다 서비스는 한국어에 대한 질문을 등록하면 전문가가 답변을 작성하는 인터넷 서비스이다. 이러한 서비스는 유사한 질문이 자주 등록되는 문제점이 있다, 만일 새롭게 등록되는 질문과 유사한 질문을 자동으로 찾아 그 질문에 대한 답변을 등록 즉시 제공한다면, 질문자는 빠른 시간에 답변을 얻을 수 있고 서비스 관리자는 수동 답변 작성의 부담을 덜 수 있다. 본 논문에서는 온라인가나다의 특성을 분석하여 자주 질문되는 다섯 개의 주제 분류를 설정하고, 주제 분류 유사도와 함께 음소와 음절단위 수열유사도와 벡터 유사도를 결합하여 유사한 질문을 검색하는 시스템을 제안한다. 평가에서는 본 논문에서 제시한 주제 분류 정보를 활용하여 검색 정확률이 향상되는 결과를 얻었다. 최종 실험에서는 Mean Reciprocal Rank(MRR)가 0.756, 정답이 1위와 5위내에 검색될 확률은 각각 68.31%, 87.32%를 보였다.

Keywords

References

  1. 도수종, 김용성, 염홍선, 정소윤, 김광준, 서정연, "주.술부 분석과 주제어 추출을 이용한 국문정보 커뮤니티 기반 질의응답 시스템", 한국정보과학회 동계학술발표회 논문집, 1290-1292, 2014.
  2. 문정민, 송영호, 진지환, 이현섭, 이현아, "주제 분류를 활용한 국립국어원 질의응답 게시판 유사 질문 검색 시스템", 제 26회 한글 및 한국어 정보처리 학술대회 발표논문집, 201-205, 2014.
  3. 박용민, 김보겸, 이재성, "질문 특성을 고려한 커뮤니티 질의응답 시스템(cQA) 자질 추출 방법", 제 26회 한글 및 한국어 정보처리 학술대회, 119-121, 2014.
  4. 유동현, 이현아, "Q&A 문서의 검색 결과 요약을 활용한 질의응답 시스템", 정보처리학회지 3(4), 2014.
  5. 이동주, 연종흠, 황인범, 이상구, "꼬꼬마: 관계형 데이터베이스를 활용한 세종 말뭉치 활용 도구", 정보과학회논문지: 컴퓨팅의 실제 및 레터, Vol. 16, No.11, 1046-1050, 2010.
  6. Hirschman, L., Gaizauskas, R., "Natural language question answering", Cambridge University Press, 2001.
  7. Ittycheriah, A., Franz, M., Zhu, W. -J. and Ratnaparkhi, A. "IBM's statistical question answering system", Proceedings 9th Text Retrieval Conference (TREC-9), 2001.
  8. LevenshteinV. I., "Binary Codes Capable of Correcting Deletions, Insertions, and Reversals" Soviet Physics Doklady, Vol.10, 707-710, 1965.
  9. Voorhees, E. M., "Proceedings of the 8th Text Retrieval Conference". TREC-8 Question Answering Track Report. 77-82, 1999.