Similar Question Search System for online Q&A for the Korean Language Based on Topic Classification

온라인가나다를 위한 주제 분류 기반 유사 질문 검색 시스템

  • 문정민 (금오공과대학교 컴퓨터소프트웨어공학과) ;
  • 송영호 (금오공과대학교 컴퓨터소프트웨어공학과) ;
  • 진지환 (금오공과대학교 컴퓨터소프트웨어공학과) ;
  • 이현섭 (금오공과대학교 컴퓨터소프트웨어공학과) ;
  • 이현아 (금오공과대학교 컴퓨터소프트웨어공학과)
  • Received : 2015.04.02
  • Accepted : 2015.08.03
  • Published : 2015.09.30

Abstract

Online Q&A for the National Institute of the Korean Language provides expert's answers for questions about the Korean language, in which many similar questions are repeatedly posted like other Q&A boards. So, if a system automatically finds questions that are similar to a user's question, it can immediately provide users with recommendable answers to their question and prevent experts from wasting time to answer to similar questions repeatedly. In this paper, we set 5 classes of questions based on its topic which are frequently asked, and propose to classify questions to those classes. Our system searches similar questions by combining topic similarity, vector similarity and sequence similarity. Experiment shows that our method improves search correctness with topic classification. In experiment, Mean Reciprocal Rank(MRR) of our system is 0.756, and precision for the first result is 68.31% and precision for top five results is 87.32%.

References

  1. 도수종, 김용성, 염홍선, 정소윤, 김광준, 서정연, "주.술부 분석과 주제어 추출을 이용한 국문정보 커뮤니티 기반 질의응답 시스템", 한국정보과학회 동계학술발표회 논문집, 1290-1292, 2014.
  2. 문정민, 송영호, 진지환, 이현섭, 이현아, "주제 분류를 활용한 국립국어원 질의응답 게시판 유사 질문 검색 시스템", 제 26회 한글 및 한국어 정보처리 학술대회 발표논문집, 201-205, 2014.
  3. 박용민, 김보겸, 이재성, "질문 특성을 고려한 커뮤니티 질의응답 시스템(cQA) 자질 추출 방법", 제 26회 한글 및 한국어 정보처리 학술대회, 119-121, 2014.
  4. 유동현, 이현아, "Q&A 문서의 검색 결과 요약을 활용한 질의응답 시스템", 정보처리학회지 3(4), 2014.
  5. 이동주, 연종흠, 황인범, 이상구, "꼬꼬마: 관계형 데이터베이스를 활용한 세종 말뭉치 활용 도구", 정보과학회논문지: 컴퓨팅의 실제 및 레터, Vol. 16, No.11, 1046-1050, 2010.
  6. Hirschman, L., Gaizauskas, R., "Natural language question answering", Cambridge University Press, 2001.
  7. Ittycheriah, A., Franz, M., Zhu, W. -J. and Ratnaparkhi, A. "IBM's statistical question answering system", Proceedings 9th Text Retrieval Conference (TREC-9), 2001.
  8. LevenshteinV. I., "Binary Codes Capable of Correcting Deletions, Insertions, and Reversals" Soviet Physics Doklady, Vol.10, 707-710, 1965.
  9. Voorhees, E. M., "Proceedings of the 8th Text Retrieval Conference". TREC-8 Question Answering Track Report. 77-82, 1999.