• Title/Summary/Keyword: 문자열 편집 거리

Search Result 16, Processing Time 0.02 seconds

An Efficient String Similarity Search Technique based on Generating Inverted Lists of Variable-Length Grams (가변길이 그램의 역리스트 생성을 이용한 효율적인 유사 문자열 검색 기법)

  • Kim, Jongik
    • Journal of KIISE
    • /
    • v.43 no.11
    • /
    • pp.1275-1280
    • /
    • 2016
  • Existing techniques for string similarity search first generate a set of candidate strings and then verify the candidates. The efficiency of string similarity search is highly dependent on candidate generation methods. State of the art techniques select fixed length q-grams from a query string and generate candidates using inverted lists of the selected q-grams. In this paper, we propose a technique to generate candidates using variable length grams of a query string and develop a dynamic programming algorithm that selects an optimal combination of variable length grams from a query string. Experimental results show that the proposed technique improves the performance of string similarity search compared with the existing techniques.

Improvement of an algorithm for tree-editing distance measure regarding the features of HTML (HTML특성을 고려한 트리 편집 거리 측정 알고리즘의 개선)

  • Kim, Yeon-Jung;Park, Jea-Hyun;Choi, Joong-Min
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.718-720
    • /
    • 2005
  • 웹 문서를 대상으로 하는 정보 추출이나 웹 마이닝에 관한 연구가 활발히 진행되면서 특히, 웹에서 나타나는 구조적 패턴을 이용해 정보를 추출하는 방법에 대한 연구가 이루어 지고 있다. 기존의 연구는 HTML을 단순 문자열로 취급하였으나 연구가 거듭됨에 따라 트리로 접근하는 방안에 대해 논의가 되었으며 성능 또한 우수한 것으로 평가되고 있다. 하지만, 기존의 트리 편집 거리의 기법은 모든 노드가 동일한 값을 가진다는 가정하에 진행되는 것으로 HTML의 특성과는 맞지 않다. HTMI은 브라우저에 정보를 보여주기 위한 도구이며 실제 브라우저에 보여지는 내용의 비율이 트리에서의 노드의 비율과 항상 같은 것은 아니기 때문이다. 이 논문에서는 위와 같은 HTML의 특성을 이용하여 노드가 가진 정보의 크기에 따라 서로 다른 비율의 기여도를 부여하고, 이를 고려한 개선된 트리 편집 거리 측정 알고리즘을 이용하여 좀더 나은 패턴 추출 방법을 제안하고자 한다.

  • PDF

Spelling Correction in Korean Using the `Eojeol` generation Dictionary (어절 생성 사전을 이용한 한국어 철자 교정)

  • Lee, Yeong-Sin;Park, Yeong-Ja;Song, Man-Seok
    • The KIPS Transactions:PartB
    • /
    • v.8B no.1
    • /
    • pp.98-104
    • /
    • 2001
  • 본 논문에서는 어절 생성 사전을 이용한 한국어 철자 교정을 제안한다. 어절 생성 사전은 두 문자열 간 음절 특성이 고려된 편집 거리 계산을 기반으로 탐색되어 언어와 오류 유형에 의존적인 정보를 이용하지 않고 오류 어절에 대한 후보 어절을 생성한다. 또한 교정된 어절들의 가능한 형태소 분석들을 산출하여 후보들 간의 순위 계산 시에 재차 형태소 분석을 수행하지 않고 언어 정보를 적용할 수 있다. 본 논문에서 제안하는 철자 교정은 두 단계로 구성된다. 첫째, 오류 어절로부터 가능한 오류 정정 어간들을 계산한다. 둘째, 계산된 어간들로부터 어절 생성 사전을 탐색하여 원형 후보 어절들을 생성한다. 또한 품사 태깅과 공기 정보를 사용하여 오류 수정된 결과의 순위를 매긴다. 본 시스템의 자동 철자 교정 성능을 평가한 결과 3,000개의 어절에서 시험한 결과 단어 수준으로 93%가 옳게 교정되었다.

  • PDF

Construction of Linearly Aliened Corpus Using Unsupervised Learning (자율 학습을 이용한 선형 정렬 말뭉치 구축)

  • Lee, Kong-Joo;Kim, Jae-Hoon
    • The KIPS Transactions:PartB
    • /
    • v.11B no.3
    • /
    • pp.387-394
    • /
    • 2004
  • In this paper, we propose a modified unsupervised linear alignment algorithm for building an aligned corpus. The original algorithm inserts null characters into both of two aligned strings (source string and target string), because the two strings are different from each other in length. This can cause some difficulties like the search space explosion for applications using the aligned corpus with null characters and no possibility of applying to several machine learning algorithms. To alleviate these difficulties, we modify the algorithm not to contain null characters in the aligned source strings. We have shown the usability of our approach by applying it to different areas such as Korean-English back-trans literation, English grapheme-phoneme conversion, and Korean morphological analysis.

An Empirical Study of Base Pivot Choosing Method for Approximate Word Searching (근사 단어 검색 효율성 개선을 위한 기준 Pivot 선택방법 실험적 연구)

  • Yoon, Tai-Jin;Chung, Woo-Keun;Cho, Hwan-Gue
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.271-274
    • /
    • 2010
  • 한글 근사 단어 검색 시스템은 사용자의 오류를 포함한 검색 질의에 효과적으로 대응할 수 있는 방법이나 검색 속도가 매우 느려서 실제 사용에 큰 어려움이 있다. 일반적으로 DNA 검색에 사용하는 서열 정렬 기법을 사용할 경우 데이터 베이스의 모든 문자열과 비교가 이루어져야 하기 때문에 많은 검색 시간이 걸리게 된다. 이것을 해결하기 위해 우리는 편집거리가 metric space를 만족하는 성질을 이용한 한글 근사단어 검색 시스템을 사용하여 실제 서열정렬을 사용하여 비교가 필요한 후보 단어를 거르게 된다. 이 한글 근사 단어 검색 시스템에서 가장 중요한 것은 기준축의 역할을 하는 Base-Pivot의 선택 방법이다. 본 논문에서는 이 Base-Pivot의 효율적인 선택방법을 실험을 통해서 분석하도록 한다.

  • PDF

Topic Similarity-based Event Routing Algorithm for Wireless Ad-Hoc Publish/Subscribe Systems (Ad-Hoc 무선 환경의 발행/구독 시스템을 위한 구독주제 유사도 기반의 이벤트 라우팅 알고리즘)

  • Nguyen, Hieu Trung;Oh, Sang-Yoon
    • Journal of the Korea Society of Computer and Information
    • /
    • v.14 no.10
    • /
    • pp.11-22
    • /
    • 2009
  • For a wireless ad-hoc network, event routing algorithm of the publish/subscribe system is especially important for the performance of the system because of the dynamic characteristic and constraint network of its own. In this paper, we propose a new hybrid event routing algorithm. TopSim for efficient publish/subscribe system on the wireless ad-hoc network by extending the ShopParent algorithm by considering not only network overheads to choose a Parent of the publish/subscribe tree, but also topic similarity which is closeness of subscriptions. Our evaluation shows our proposed TopSim performs better for the case where a new joining node subscribed to the multiple topics and there is a node among Parent candidate nodes who subscribe to the ones in the list of multiple topics (related topics).