• Title/Summary/Keyword: 문자열 일치

Search Result 27, Processing Time 0.021 seconds

Finding All-Pairs Suffix-Prefix Matching Using Suffix Array (접미사 배열을 이용한 Suffix-Prefix가 일치하는 모든 쌍 찾기)

  • Han, Seon-Mi;Woo, Jin-Woon
    • The KIPS Transactions:PartA
    • /
    • v.17A no.5
    • /
    • pp.221-228
    • /
    • 2010
  • Since string operations were applied to computational biology, security and search for Internet, various data structures and algorithms for computing efficient string operations have been studied. The all-pairs suffix-prefix matching is to find the longest suffix and prefix among given strings. The matching algorithm is importantly used for fast approximation algorithm to find the shortest superstring, as well as for bio-informatics and data compressions. In this paper, we propose an algorithm to find all-pairs suffix-prefix matching using the suffix array, which takes O($k{\cdot}m$)�� time complexity. The suffix array algorithm is proven to be better than the suffix tree algorithm by showing it takes less time and memory through experiments.

Constant Time RMESH Algorithm for Computing Longest Common Substring and Maximal Repeat of String (문자열의 최장 공통 부분문자열과 최대 반복자를 구하기 위한 상수시간 RMESH 알고리즘)

  • Han, Seon-Mi;Woo, Jin-Woon
    • The KIPS Transactions:PartA
    • /
    • v.16A no.5
    • /
    • pp.319-326
    • /
    • 2009
  • Since string operations were applied to computational biology area, various data structures and algorithms for computing efficient string operations have been studied. The longest common substring problem is an operation to find the longest matching substring in more than two strings, and maximal repeat of string problem is an operation to find substrings repeated more than once in the given string. These operations are importantly used in the string processing area such as pattern matching and likelihood measurement. In this paper, we present algorithms to compute the longest common substring of two strings and to find the maximal repeat of string using three-dimensional $n{\times}n{\times}n$ processors on RMESH(Reconfigurable MESH). Our algorithms have O(1) time complexity.

String Matching Algorithm on Multi-byte Character Set Texts (다중바이트 문자집합 텍스트에서의 문자열 검색 알고리즘)

  • Kim, Eun-Sang;Kim, Jin-Wook;Park, Kun-Soo
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.16 no.10
    • /
    • pp.1015-1019
    • /
    • 2010
  • An extensive research on exact string matching has been done, but there have been few researches on the matching in multi-byte character set texts such as EUC~KR. This paper shows that false matches may occur in multi-byte character set texts such as EUC-KR when using KMP algorithm, and presents a refined KMP algorithm without false matches applying a character-based prefix function. And also, Experimental results show that our algorithm is faster than string matching algorithms of widely used editors, Vim and Emacs, and the existing automata-based algorithm.

An Efficient Algorithm for Similarity Search using Positional Information of DNA Sequences (DNA 서열의 위치 정보를 이용한 효율적인 유사성 검색 알고리즘)

  • Jeong In-Seon;Park Kyoung-Wook;Lim Hyeong-Seok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11a
    • /
    • pp.970-972
    • /
    • 2005
  • 유전자 데이터베이스의 서열의 길이가 수백만에서 수백억 정도의 대용량 텍스트이기 때문에 기존의 Smith-waterman 알고리즘으로 정확한 서열의 유사성을 검색하는 것은 매우 비효율적이다. 따라서 빠른 유사성 검색을 위해 데이터베이스에 저장된 문자열에 대해 특정 길이의 모든 부분문자열에 나타나는 문자의 출현 빈도를 이용한 휴리스틱 방법들이 제안되었다. 이러한 방법들은 질의 서열과 일치될 가능성이 높은 후보들만을 추출한 후 이들 각각에 대하여 질의 서열과의 일치 여부를 조사하므로 빠르게 유사성 검색을 할 수 있다. 그러나 이 방법은 문자의 출현 빈도만을 사용하므로 서로 다른 서열을 같은 서열로 취급하는 단점이 있어 정확도가 Smith-Waterman 알고리즘에 비해 떨어진다. 본 논문에서는 문자가 부분문자열에 나타나는 위치 정보를 포함하여 문자의 출현빈도를 인덱싱함으로써 질의 처리를 효율적으로 수행하는 알고리즘을 제안한다. 실험결과 제안된 알고리즘은 문자 빈도만을 사용하는 알고리즘에 비해 $5\~15\%$정도 정확성이 향상되었다.

  • PDF

Comparing String Similarity Algorithms for Recognizing Task Names Found in Construction Documents (문자열 유사도 알고리즘을 이용한 공종명 인식의 자연어처리 연구 - 공종명 문자열 유사도 알고리즘의 비교 -)

  • Jeong, Sangwon;Jeong, Kichang
    • Korean Journal of Construction Engineering and Management
    • /
    • v.21 no.6
    • /
    • pp.125-134
    • /
    • 2020
  • Natural language encountered in construction documents largely deviates from those that are recommended by the authorities. Such practice that is lacking in coherence will discourage integrated research with automation, and it will hurt the productivity in the industry for the long run. This research aims to compare multiple string similarity (string matching) algorithms to compare each algorithm's performance in recognizing the same task name written in multiple different ways. We also aim to start a debate on how prevalent the aforementioned deviation is. Finally, we composed a small dataset that associates construction task names found in practice with the corresponding task names that are less cluttered w.r.t their formatting. We expect that this dataset can be used to validate future natural language processing approaches.

MAC Protocol for Fair Packet Transmission in CDMA S-ALOHA Systems (RFID 시스템에서 고속 태그식별을 위한 쿼리트리 프로토콜)

  • Yang Eui-Sik;Park Cheol-Woo;Lim In-Taek
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07a
    • /
    • pp.496-498
    • /
    • 2005
  • 본 논문에서는 RFID 시스템에서 식별영역 내에 있는 태그들을 식별하기 위하여 무기억 특성을 갖는 QT 프로토콜을 개선한 QT_rev 프로토콜을 제안한다. QT_rev 프로토콜에서는 질의 문자열이 식별코드의 처음 비트들과 일치하는 태그는 식별코드 중에서 질의 문자열을 제외한 나머지 비트들로만 응답한다. 또한 리더는 태그들의 응답 문자열 중에서 충돌이 발생한 비트 위치를 알 수 있으므로 충돌이 발생한 위치가 태그 식별코드의 마지막 비트이면 리더는 더 이상의 질의가 없이 두 개의 태그를 동시에 식별할 수 있다.

  • PDF

Enhanced Query Tree Based Anti-Collision Algorithm for Multiple Tag Identification (다중 태그 식별을 위한 개선된 질의 트리 충돌방지 알고리즘)

  • Lim In-Taek
    • Journal of Korea Multimedia Society
    • /
    • v.9 no.3
    • /
    • pp.307-314
    • /
    • 2006
  • This paper proposes a QT_rev algorithm for identifying multiple tags. The proposed QT_rev algorithm is based on the query tree algorithm. In the algorithm, the tag will send all the bits of their identification codes when the query string matches the first bits of their identification codes. On the other hand, in the QT_rev algorithm, the tag will send the remaining bits of their identification codes. After the leader receives all the responses of the tags, it knows which bit is collided. Therefore, if the collision occurs in the last bit, the reader can identify two tags simultaneously without further query. According to the simulation results, the QT_rev algorithm outperforms the QT algorithm in terms of the number of queries and the number of response bits.

  • PDF

A Revised QT Protocol for Tag Identification in RFID Systems (RFID 시스템에서 태그 식별을 위한 개선된 QT 프로토콜)

  • Lim, In-Taek;Choi, Jin-Oh
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.10 no.3
    • /
    • pp.430-436
    • /
    • 2006
  • In this paper, a QT_rev protocol is proposed for identifying all the tags within the identification range. The proposed QT_rev protocol revises the QT protocol, which has a memoryless property. In the QT_rev protocol, the tag will send the remaining bits of their identification codes when the query string matches the first bits of their identification codes. After the reader receives all the responses of the tags, it knows which bit is collided. If the collision occurs in the last bit, the reader can identify two tags simultaneously without further query. According to the simulation results, the QT_rev protocol outperforms the QT protocol in terms of the number of queries and the number of response bits.

A revised Query Tree Protocol for Tag Identification in RFID Systems (RFID 시스템에서 태그 식별을 위한 개선된 쿼리 트리 프로토콜)

  • Lim, In-Taek
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • v.9 no.2
    • /
    • pp.491-494
    • /
    • 2005
  • In this paper, a QT_rev protocol is proposed for identifying all the tags within the identification range. The proposed QT_rev protocol revises the QT protocol, which has a memoryless property. In the QT_rev protocol, the tag will send the remaining bits of their identification codes when the query string matches the first bits of their identification codes. After the reader receives all the responses of the tags, it knows which bit is collided. If the collision occurs in the last bit, the reader can identify two tags simultaneously without further query.

  • PDF

Parellel Computation of the Shift Table of a Hashing-Based Algorithm for the Order-Preserving Multiple Pattern Matching (순위다중패턴매칭을 위한 해싱기반 알고리즘의 이동테이블 병렬계산)

  • Park, Jeonghoon;Kim, Youngho;Kwan, Sanghoon;Sim, Jeong Seop
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.04a
    • /
    • pp.36-39
    • /
    • 2017
  • 길이가 같은 두 문자열의 같은 위치에 있는 문자의 순위가 모두 일치할 때, 두 문자열은 순위동형이라 한다. 순위다중패턴매칭문제는 텍스트 T와 k개의 패턴들의 집합 $P^{\prime}=\{P_1,P_2{\ldots},P_k\}$이 주어졌을 때, P'의 패턴들과 순위동형인 T의 모든 부분문자열의 위치를 찾는 문제이다. 최근 전처리단계에서 P'에 대한 이동테이블을 O(kmqlogq) 시간에 계산하여 순위다중패턴매칭문제를 해결하는 해싱기반 알고리즘이 제시되었다. 이때 P'에서 가장 짧은 패턴의 길이를 m, q-그램의 길이를 q라고 한다. 본 논문에서는 P'이 주어졌을 때, 이동테이블을 O(mqlogq) 시간에 계산하는 병렬알고리즘을 제시한다. 실험결과, 본 논문에서 제시하는 병렬알고리즘은 k개의 스레드를 이용하여 m=100, q=5에 대해 k=100일때와 k=1,000일 때 순차알고리즘보다 각각 약 12.9배, 약 215배 빠른 수행시간을 보였다.