Similar Question Search System for Q&A board of The National Institute of the Korean Language using Topic Classification

주제 분류를 활용한 국립국어원 질의응답 게시판 유사 질문 검색 시스템

  • Mun, Jung-Min (Dept. of Computer Software Engineering, Kumoh National Institute of Technology) ;
  • Song, Yeong-Ho (Dept. of Computer Software Engineering, Kumoh National Institute of Technology) ;
  • Jin, Ji-Hwan (Dept. of Computer Software Engineering, Kumoh National Institute of Technology) ;
  • Lee, Hyun-Seob (Dept. of Computer Software Engineering, Kumoh National Institute of Technology) ;
  • Lee, Hyun-Ah (Dept. of Computer Software Engineering, Kumoh National Institute of Technology)
  • 문정민 (금오공과대학교 컴퓨터소프트웨어공학과) ;
  • 송영호 (금오공과대학교 컴퓨터소프트웨어공학과) ;
  • 진지환 (금오공과대학교 컴퓨터소프트웨어공학과) ;
  • 이현섭 (금오공과대학교 컴퓨터소프트웨어공학과) ;
  • 이현아 (금오공과대학교 컴퓨터소프트웨어공학과)
  • Published : 2014.10.07

Abstract

국립국어원의 온라인 가나다 서비스는 한국어에 대한 다양한 질문과 정확한 답변을 제공한다. 만일 새롭게 등록되는 질문에 대해 유사한 질문을 자동으로 찾을 수 있다면, 질문자는 빠른 시간에 답변을 얻을 수 있고 서비스 관리자는 수동 답변 작성의 부담을 덜 수 있다. 본 논문에서는 국립국어원 질의응답게시판의 특성을 분석하여 질문의 주제를 6가지로 분류하고, 주제 분류 정보와 벡터 유사도, 수열 유사도를 결합하여 유사한 질문을 검색하는 시스템을 제안한다. 평가에서는 본 논문에서 제시한 주제 분류 정보를 활용한 결과 1위 정답 검색 정확률이 향상되는 결과를 얻었다. 최종 실험에서는 MRR이 0.62, 정답이 1위, 5위내에 검색될 확률은 각각 54.2%, 78.2%를 보였다.

Keywords