DOI QR코드

DOI QR Code

Searching for Variants Using Trie-Index

트라이 인덱스를 이용한 이형태 검색

  • 박인철 (호원대학교 컴퓨터게임학부)
  • Published : 2009.08.31

Abstract

A user often searches a data by inputting a variant such as the abbreviation or substring of a word, or a misspelled word. The simple approach to the searching for variants is to build a variants dictionary. However, it entails enormous cost and time and can not handle variants by misspelling. Approximate searching, searching by approximate string matching, is a good approach to the searching. A problem in the approach is that it cannot handle variants by abbreviations. This paper propose a method for searching various variants including abbreviations and misspelled words, by using the trie indexing. First, this paper shows a variant matching method with the calculation of path weighted-metric. In addition, it provides variant searching algorithm to reduce the search time.

사용자는 정보검색에서 단어의 약어나 부분문자열, 혹은 오타가 포함된 단어와 같은 이형태로 자료를 검색하고자 한다. 이형태 검색을 위한 단순한 방법은 사전에 모든 이형태를 등록하는 것이다. 그러나 이 방법은 이형태 사전 구축에 막대한 시간과 비용이 필요할 뿐만 아니라 오타로 인해 생기는 이형태를 처리할 수 없는 문제점이 있다. 이에 대한 대안으로 근사 문자열 매칭 기법을 이용한 방법이 개발되었으나 이 방법 또한 약어 형태의 이형태를 처리하기 어렵다는 단점이 있다. 본 논문에서는 트라이 인덱스를 이용해 약어나 오타를 포함한 대부분의 이형태를 검색할 수 있는 방법을 제안한다. 먼저, 패스 가중치의 계산을 통한 이형태 매칭 방법을 보이고, 검색 속도 향상을 위한 이형태 검색 알고리즘을 제시한다.

Keywords

References

  1. 이재성, "효과적인 외래어 이형태 생성을 위한 확률 문맥 의존 치환 방법", 한국콘텐츠학회논문지 제7권 제2호 pp. 73-83, 2007. 2. https://doi.org/10.5392/JKCA.2007.7.2.073
  2. V. I. Levenshtein, "Binary codes capable of correcting deletions, insertions, and reversals." Soviet Physics-Doklady, pp. 707-710, February 1966.
  3. Eiko Yamamoto et al., "Dynamic Programming Matching for Large Scale Information Retrieval" Proceedings of the Sixth International Workshop on Information, pp. 100-108, July 2003.
  4. Holub, J., "Reduced Nondeterministic Finite Automata for Approximate String Matching" Proceedings of the Prague Stringologic Club Workshop, pp. 19-27, 1996.
  5. Myers, G., "A fast bit-vector algorithm for approximate string matching based on dynamic programming" J. ACM 46, 3, pp. 395-415, 1999. https://doi.org/10.1145/316542.316550
  6. Navarro, G., "A Guided Tour to Approximate String Matching", ACM Computing Survey, 33(1), pp. 31-88, 2001. https://doi.org/10.1145/375360.375365
  7. Chung W. Ng, "Inexact Pattern Matching Algorithms via Automata" http://biochem218.stanford.edu/Projects%20Winter%202007/Ng.pdf, Mar. 2007.
  8. Edward Fredkin, "Trie Memory" Communications of the ACM 3 (9), pp. 490-499, 1960. https://doi.org/10.1145/367390.367400
  9. Aoe, J., "An Efficient Digital Search Algorithm by Using a Double-Array Structure" IEEE Transactions on Software Engineering. Vol. 15 (9), pp. 1066-1077. Sep. 1989. https://doi.org/10.1109/32.31365