• 제목/요약/키워드: 문자열 일치

검색결과 27건 처리시간 0.024초

접미사 배열을 이용한 Suffix-Prefix가 일치하는 모든 쌍 찾기 (Finding All-Pairs Suffix-Prefix Matching Using Suffix Array)

  • 한선미;우진운
    • 정보처리학회논문지A
    • /
    • 제17A권5호
    • /
    • pp.221-228
    • /
    • 2010
  • 최근 문자열 연산들이 계산 생물학 및 인터넷의 보안, 검색 분야에 응용되면서 효율적인 문자열 연산을 위한 다양한 자료구조와 알고리즘이 연구되고 있다. suffix-prefix가 일치하는 모든 쌍 찾기는 두 개 이상의 문자열이 주어질 때 각 쌍의 문자열에 대해 가장 긴 suffix와 일치하는 prefix를 찾는 것으로 가장 짧은 슈퍼스트링을 검출하는 근사 알고리즘에서 사용될 뿐만 아니라 생물정보학, 데이터 압축 분야에서도 중요하게 사용된다. 본 논문에서는 접미사 배열을 이용하는 suffix-prefix가 일치하는 모든 쌍 찾기 알고리즘을 제안하며 O($k{\cdot}m$) 시간 복잡도를 가진다. 접미사 배열 알고리즘이 접미사 트리 알고리즘 보다 소요 시간과 메모리 면에서 더 우수함을 실험을 통해서 제시한다.

문자열의 최장 공통 부분문자열과 최대 반복자를 구하기 위한 상수시간 RMESH 알고리즘 (Constant Time RMESH Algorithm for Computing Longest Common Substring and Maximal Repeat of String)

  • 한선미;우진운
    • 정보처리학회논문지A
    • /
    • 제16A권5호
    • /
    • pp.319-326
    • /
    • 2009
  • 문자열 연산이 계산 생물학 분야에 응용되면서 효율적인 문자열 연산을 위한 다양한 자료구조와 알고리즘이 연구되고 있다. 최장 공통 부분 문자열 문제는 두 개 이상의 문자열에서 가장 길게 일치하는 부분문자열을 찾는 연산이며, 최대 반복자 문제는 하나의 문자열에서 두 번 이상 반복되는 부분문자열을 찾는 연산이다. 이 연산은 패턴 매칭, 유사도 측정 등의 문자열 처리 분야에서 중요하게 사용되고 있다. 본 논문에서는 RMESH(Reconfigurable MESH) 구조에서 3-차원 $n{\times}n{\times}n$ 프로세서를 사용하여 두 문자열의 최장 공통 부분문자열을 구하는 알고리즘과 주어진 문자열의 최대 반복자를 찾는 알고리즘을 제안하며, 이 알고리즘들은 모두 O(1) 시간 복잡도를 갖는다.

다중바이트 문자집합 텍스트에서의 문자열 검색 알고리즘 (String Matching Algorithm on Multi-byte Character Set Texts)

  • 김은상;김진욱;박근수
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권10호
    • /
    • pp.1015-1019
    • /
    • 2010
  • 문자열 완전일치 검색 알고리즘용 지금까지 많은 연구가 되어왔지만, EUC-KR 용 다중바이트 문자집합에 대해서는 연구원 것이 부족한 상황이다. 이 논문에서는 기존의 KMP 알고리즘을 사용할 때 EUC-KR과 같은 다중바이트 문자집합 텍스트에서 오검색이 발생할 수 있음을 보이며, 문자 단위의 접두사 함수를 적용하여 오검색이 발생하지 않도록 개선한 KMP 알고리즘을 제안한다. 또한, 널리 사용되고 있는 편집기인 Vim과 Emacs의 검색 알고리즘 및 기존의 오토마타 방식의 연구 결과에 비해 논문에서 제안한 알고리즘이 더 빠른 속도를 보이는 실험 결과를 제시한다.

DNA 서열의 위치 정보를 이용한 효율적인 유사성 검색 알고리즘 (An Efficient Algorithm for Similarity Search using Positional Information of DNA Sequences)

  • 정인선;박경욱;임형석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (1)
    • /
    • pp.970-972
    • /
    • 2005
  • 유전자 데이터베이스의 서열의 길이가 수백만에서 수백억 정도의 대용량 텍스트이기 때문에 기존의 Smith-waterman 알고리즘으로 정확한 서열의 유사성을 검색하는 것은 매우 비효율적이다. 따라서 빠른 유사성 검색을 위해 데이터베이스에 저장된 문자열에 대해 특정 길이의 모든 부분문자열에 나타나는 문자의 출현 빈도를 이용한 휴리스틱 방법들이 제안되었다. 이러한 방법들은 질의 서열과 일치될 가능성이 높은 후보들만을 추출한 후 이들 각각에 대하여 질의 서열과의 일치 여부를 조사하므로 빠르게 유사성 검색을 할 수 있다. 그러나 이 방법은 문자의 출현 빈도만을 사용하므로 서로 다른 서열을 같은 서열로 취급하는 단점이 있어 정확도가 Smith-Waterman 알고리즘에 비해 떨어진다. 본 논문에서는 문자가 부분문자열에 나타나는 위치 정보를 포함하여 문자의 출현빈도를 인덱싱함으로써 질의 처리를 효율적으로 수행하는 알고리즘을 제안한다. 실험결과 제안된 알고리즘은 문자 빈도만을 사용하는 알고리즘에 비해 $5\~15\%$정도 정확성이 향상되었다.

  • PDF

문자열 유사도 알고리즘을 이용한 공종명 인식의 자연어처리 연구 - 공종명 문자열 유사도 알고리즘의 비교 - (Comparing String Similarity Algorithms for Recognizing Task Names Found in Construction Documents)

  • 정상원;정기창
    • 한국건설관리학회논문집
    • /
    • 제21권6호
    • /
    • pp.125-134
    • /
    • 2020
  • 시공 서류에서 접하는 자연어는 당국에서 권장하는 언어와 크게 다르다. 일관성이 부족한 이러한 관행은 자동화를 통한 통합 연구를 방해하고 장기적으로 업계의 생산성을 저하시킬 것이다. 이 연구는 여러 문자열 유사성(문자열 일치) 알고리즘을 비교하여 여러 다른 방법으로 작성된 동일한 작업 이름을 인식하는 각 알고리즘의 성능을 비교하는 것을 목표로 한다. 우리는 또한 앞서 언급 한 편차가 얼마나 널리 퍼져 있는지에 대한 토론을 시작하는 것을 목표로 한다. 마지막으로, 우리는 실제로 발견된 시공 작업 이름을 형식에 비해 덜 복잡한 해당 작업 이름과 연결하는 작은 데이터 세트를 구성했다. 이 데이터 세트를 사용하여 미래의 자연어 처리 접근방식을 검증 할 수 있을 것으로 기대한다.

RFID 시스템에서 고속 태그식별을 위한 쿼리트리 프로토콜 (MAC Protocol for Fair Packet Transmission in CDMA S-ALOHA Systems)

  • 양의식;박철우;임인택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (A)
    • /
    • pp.496-498
    • /
    • 2005
  • 본 논문에서는 RFID 시스템에서 식별영역 내에 있는 태그들을 식별하기 위하여 무기억 특성을 갖는 QT 프로토콜을 개선한 QT_rev 프로토콜을 제안한다. QT_rev 프로토콜에서는 질의 문자열이 식별코드의 처음 비트들과 일치하는 태그는 식별코드 중에서 질의 문자열을 제외한 나머지 비트들로만 응답한다. 또한 리더는 태그들의 응답 문자열 중에서 충돌이 발생한 비트 위치를 알 수 있으므로 충돌이 발생한 위치가 태그 식별코드의 마지막 비트이면 리더는 더 이상의 질의가 없이 두 개의 태그를 동시에 식별할 수 있다.

  • PDF

다중 태그 식별을 위한 개선된 질의 트리 충돌방지 알고리즘 (Enhanced Query Tree Based Anti-Collision Algorithm for Multiple Tag Identification)

  • 임인택
    • 한국멀티미디어학회논문지
    • /
    • 제9권3호
    • /
    • pp.307-314
    • /
    • 2006
  • 본 논문에서는 RFID 시스템에서 다중 태그 식별을 위하여 질의 트리 기반의 QT_rev 알고리즘을 제안한다. QT 알고리즘에서는 질의 문자열이 식별코드의 처음 비트들과 일치하는 태그는 전체의 식별코드로 응답한다. 반면, 본 논문에서 제안한 QT_rev 알고리즘에서는 식별코드 중에서 질의 문자열을 제외한 나머지 비트들로만 응답한다. 또한 리더는 태그들의 응답 문자열 중에서 충돌이 발생한 비트 위치를 알 수 있으므로 충돌이 발생한 위치가 태그 식별코드의 마지막 비트이면 리더는 더 이상의 질의가 없이 두 개의 태그를 동시에 식별할 수 있다 성능 분석의 결과, 본 논문에서 제안한 QT_rev 알고리즘은 QT 알고리즘에 비하여 리더의 질의 횟수와 태그의 응답 비트 수가 월등히 적음을 알 수 있었다.

  • PDF

RFID 시스템에서 태그 식별을 위한 개선된 QT 프로토콜 (A Revised QT Protocol for Tag Identification in RFID Systems)

  • 임인택;최진오
    • 한국정보통신학회논문지
    • /
    • 제10권3호
    • /
    • pp.430-436
    • /
    • 2006
  • 본 논문에서는 RFID 시스템에서 식별영역 내에 있는 태그들을 식별하기 위하여 무기억 특성을 갖는 QT 프로토콜을 개선한 QT_rev 프로토콜을 제안한다. QT_rev 프로토콜에서는 질의 문자열이 식별코드의 처음 비트들과 일치하는 태그는 식별코드 중에서 질의 문자열을 제외한 나머지 비트들로만 응답한다. 또한 리더는 태그들의 응답 문자열 중에서 충돌이 발생한 비트 위치를 알 수 있으므로 충돌이 발생한 위치가 태그 식별코드의 마지막 비트이면 리더는 더 이상의 질의가 없이 두 개의 태그를 동시에 식별할 수 있다. 성능 분석의 결과, 본 논문에서 제안한 QT_rev 프로토콜은 QT 프로토콜에 비하여 리더의 질의 횟수와 태그의 응답 비트 수가 월등히 적음을 알 수 있었다.

RFID 시스템에서 태그 식별을 위한 개선된 쿼리 트리 프로토콜 (A revised Query Tree Protocol for Tag Identification in RFID Systems)

  • 임인택
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2005년도 추계종합학술대회
    • /
    • pp.491-494
    • /
    • 2005
  • 본 논문에서는 RFID 시스템에서 식별영역 내에 있는 태그들을 식별하기 위하여 무기억 특성을 갖는 QT 프로토콜을 개선한 QT_rev 프로토콜을 제안한다. QT_rev 프로토콜에서는 질의 문자열이 식별코드의 처음 비트들과 일치하는 태그는 식별코드 중에서 질의 문자열을 제외한 나머지 비트들로만 응답한다. 또한 리더는 태그들의 응답 문자열 중에서 충돌이 발생한 비트 위치를 알 수 있으므로 충돌이 발생한 위치가 태그 식별코드의 마지막 비트이면 리더는 더 이상의 질의가 없이 두 개의 태그를 동시에 식별할 수 있다.

  • PDF

순위다중패턴매칭을 위한 해싱기반 알고리즘의 이동테이블 병렬계산 (Parellel Computation of the Shift Table of a Hashing-Based Algorithm for the Order-Preserving Multiple Pattern Matching)

  • 박정훈;김영호;권상훈;심정섭
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.36-39
    • /
    • 2017
  • 길이가 같은 두 문자열의 같은 위치에 있는 문자의 순위가 모두 일치할 때, 두 문자열은 순위동형이라 한다. 순위다중패턴매칭문제는 텍스트 T와 k개의 패턴들의 집합 $P^{\prime}=\{P_1,P_2{\ldots},P_k\}$이 주어졌을 때, P'의 패턴들과 순위동형인 T의 모든 부분문자열의 위치를 찾는 문제이다. 최근 전처리단계에서 P'에 대한 이동테이블을 O(kmqlogq) 시간에 계산하여 순위다중패턴매칭문제를 해결하는 해싱기반 알고리즘이 제시되었다. 이때 P'에서 가장 짧은 패턴의 길이를 m, q-그램의 길이를 q라고 한다. 본 논문에서는 P'이 주어졌을 때, 이동테이블을 O(mqlogq) 시간에 계산하는 병렬알고리즘을 제시한다. 실험결과, 본 논문에서 제시하는 병렬알고리즘은 k개의 스레드를 이용하여 m=100, q=5에 대해 k=100일때와 k=1,000일 때 순차알고리즘보다 각각 약 12.9배, 약 215배 빠른 수행시간을 보였다.