DOI QR코드

DOI QR Code

Headword Finding System Using Document Expansion

문서 확장을 이용한 표제어 검색시스템

  • Received : 2011.06.17
  • Accepted : 2011.08.30
  • Published : 2011.10.30

Abstract

A headword finding system is defined as an information retrieval system using a word gloss as a query. We use the gloss as a document in order to implement such a system. Generally the gloss is very short in length and then makes very difficult to find the most proper headword for a given query. To alleviate this problem, we expand the document using the concept of query expansion in information retrieval. In this paper, we use 2 document expansion methods : gloss expansion and similar word expansion. The former is the process of inserting glosses of words, which include in the document, into a seed document. The latter is also the process of inserting similar words into a seed document. We use a featureless clustering algorithm for getting the similar words. The performance (r-inclusion rate) amounts to almost 100% when the queries are word glosses and r is 16, and to 66.9% when the queries are written in person by users. Through several experiments, we have observed that the document expansions are very useful for the headword finding system. In the future, new measures including the r-inclusion rate of our proposed measure are required for performance evaluation of headword finding systems and new evaluation sets are also needed for objective assessment.

표제어 검색시스템은 뜻풀이를 질의로 간주하는 정보검색 시스템이다. 이러한 시스템을 구축하기 위한 가장 간단한 방법으로 사전의 표제어 뜻풀이(사전 뜻풀이)를 문서로 간주하는 정보검색 시스템을 구축하는 것이다. 이 문서의 길이가 너무 짧아 사용자 질의(사용자 뜻풀이)에 대한 적절한 표제어를 검색하기 어렵다. 이 문제를 완화하기 위해서 본 논문에서는 정보검색에서 사용되는 질의 확장 개념을 문서 확장에 적용한다. 본 논문에서는 문서 확장 방법으로는 뜻풀이 확장과 유의어 확장을 사용한다. 뜻풀이 확장은 주어진 단어의 사전 뜻풀이에 속하는 단어의 뜻풀이를 문서에 포함시키는 방법이고, 유의어 확장은 무자질 군집화 알고리즘을 통해서 유의어를 찾고, 찾아진 유의어를 문서에 포함시키는 방법이다. 제안된 표제어 검색시스템은 사전 뜻풀이 그 자체를 입력으로 할 때, 16-포함률이 거의 100%에 달하였다. 또한 사용자 뜻풀이를 입력으로 할 때, 20-포함률이 66.9%였다. 사용자 뜻풀이가 단어의 의미를 충분히 전달할 수 없는 것으로 관찰되었으며 앞으로 정확하고 객관적인 평가를 위해서 평가 집합에 대한 연구가 추가적으로 필요한 실정이다.

Keywords

References

  1. 강현규, 박세영. 1988. 정보 검색. 정보처리, 5(5): 37-47.
  2. 국립국어원. 2007. 21세기 세종계획 최종 성과 발표회 자료집. 문화관광부․국립국어원.
  3. 박은진, 김재훈, 옥철영. 2005. 자질 확장에 따른 용어 클러스터링의 성능 향상. 한국정보과학회 제32회 추계학술발표회 논문집, 32(2): 529-531.
  4. Andrews, N. and E. Fox. 2007. Recent Developments in Document Clustering, Technical Report TR-07-35, Computer Science, Virginia Tech.
  5. Baeza-Yates, R. and B. Ribeiro-Neto. 1999. Modern Information Retrieval, Addison Wesley.
  6. Bilotti, M. W. and E. Nyberg. 2008. "Improving Text Retrieval Precision and Answer Accuracy in Question Answering Systems." Proceedings of the ACL 2nd Workshop on Information Retrieval for Question Answering, pp.1-8.
  7. Cilibrasi, R. L. and P. M. B. Vitanyi. 2007. "The Google Similarity Distance." IEEE Transactions on Knowledge and Data Engineering, 19(3): 370-383. https://doi.org/10.1109/TKDE.2007.48
  8. CRFPP. 2011. .
  9. German, D. J. 2000. "Basic Concepts in Child Word Finding." In German, D. J. Test of Word Finding-Second Edition, Examiners Manual. p.1-15. Austin.
  10. Handl, J., J. Knowles, and M. Dorigo. 2003. Ant-based Clustering: A Comparative Study of its Relative Performance with Respect to K-means, Average Link and 1D-som, Technical Report TR/IRIDIA/ 2003-24. IRIDIA, Universite Libre de Bruxelles, Belgium.
  11. Hartigan, J. A. and M. A. Wong. 1979. "Algorithm AS 136: A K-Means Clustering Algorithm." Journal of the Royal Statistical Society, 28(1): 100-108.
  12. Hodge1, V. and J. Austin. 2002. "Hierarchical Word Clustering-Automatic Thesaurus Generation." Neurocomputing, 48: 819-846. https://doi.org/10.1016/S0925-2312(01)00675-0
  13. Jain, A., M. Murty, and P. Flynn. "Data Clustering: A Review." ACM Computing Surveys, 31(3): 264-323.
  14. Manning, C. D. and H. Schutze. 1999. Foundations of Statistical Natural Language Processing. The MIT Press.
  15. Voorhees, E. M. 1999. "The TREC-8 Question Answering Track Report." Proceedings of the 8th Text Retrieval Conference, 77-82.
  16. Wise, R., F. Chollet, U. Hadar, K. Friston, E. Hoffner, and R. Frackowiak. 1991. "Distribution of Cortical Neural Networks Involved in Word Comprehension and Word Retrieval." Brain, 114(4): 1803-1817. https://doi.org/10.1093/brain/114.4.1803
  17. Wong, W., W. Liu, and M. Bennamoun. 2006. "Terms Clustering Using Tree-traversing Ants and Featureless Similarities." Proceedings of the International Symposium on Practical Cognitive Agents and Robots.
  18. Wong, W., W. Liu, and M. Bennamoun. 2007. "Tree-Traversing Ant Algorithm for Term Clustering Based on Featureless Similarities." Data Mining Knowledge Discovery, 15: 349-381. https://doi.org/10.1007/s10618-007-0073-y
  19. Wong, W., W. Liu, and M. Bennamoun. 2009. "Featureless Data Clustering." Handbook of Research on Text and Web Mining Technologies, 141-164.