• 제목/요약/키워드: Longest Common Substring

검색결과 3건 처리시간 0.018초

문자열의 최장 공통 부분문자열과 최대 반복자를 구하기 위한 상수시간 RMESH 알고리즘 (Constant Time RMESH Algorithm for Computing Longest Common Substring and Maximal Repeat of String)

  • 한선미;우진운
    • 정보처리학회논문지A
    • /
    • 제16A권5호
    • /
    • pp.319-326
    • /
    • 2009
  • 문자열 연산이 계산 생물학 분야에 응용되면서 효율적인 문자열 연산을 위한 다양한 자료구조와 알고리즘이 연구되고 있다. 최장 공통 부분 문자열 문제는 두 개 이상의 문자열에서 가장 길게 일치하는 부분문자열을 찾는 연산이며, 최대 반복자 문제는 하나의 문자열에서 두 번 이상 반복되는 부분문자열을 찾는 연산이다. 이 연산은 패턴 매칭, 유사도 측정 등의 문자열 처리 분야에서 중요하게 사용되고 있다. 본 논문에서는 RMESH(Reconfigurable MESH) 구조에서 3-차원 $n{\times}n{\times}n$ 프로세서를 사용하여 두 문자열의 최장 공통 부분문자열을 구하는 알고리즘과 주어진 문자열의 최대 반복자를 찾는 알고리즘을 제안하며, 이 알고리즘들은 모두 O(1) 시간 복잡도를 갖는다.

최장공통비상위 문자열을 찾는 새로운 알고리즘 (A New Algorithm for the Longest Common Non-superstring)

  • 최시원;이도경;김동규;나중채;심정섭
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권1호
    • /
    • pp.67-71
    • /
    • 2009
  • 문자열 불포함 문제에 대한 연구는 최근 들어 여러 분야에서 활발히 진행되어 왔다. 문자열 집합 F가 주어질 때, F 내의 어떤 문자열도 포함하지 않는 문자열을 F에 대한 공통비상위문자열이라 하고 공통비상위문자열 중에서 가장 긴 유한길이의 문자열을 최장공통비상위문자열이라한다. 본 논문에서는 공통비상위문자열과 관련된 연구 결과들을 제시한다. 먼저 기존의 공통비상위문자열에 대한 접미사 그래프 모델과 달리 접두사를 이용하여 직관적인 그래프 모델링이 가능함을 증명한다. 다음으로, 상수 크기의 알파벳에 대해 정의된 문자열 집합 F의 모든 문자열들의 길이의 합을 N라 할 때 O(N)시간에 접두사 그래프를 생성하고 이를 이용하여 최장공통비상위문자열을 찾는 알고리즘을 제시한다.

함수에 의한 정규화를 이용한 local alignment 알고리즘 (A Local Alignment Algorithm using Normalization by Functions)

  • 이선호;박근수
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제34권5_6호
    • /
    • pp.187-194
    • /
    • 2007
  • Local alignment 알고리즘은 두 문자열을 비교하여 크기가 l, 유사도 점수가 s인 부분 문자열쌍을 찾는다. 크기가 충분히 크고 유사도 점수도 높은 부분 문자열 쌍을 찾기 위해 단위 길이당 유사도 점수 s/l을 최대화하는 정규화 방법이 제안되어있다. 본 논문에서는 증가함수 f, g를 도입하여 f(s)/g(l)을 최대화하는, 함수에 의한 정규화 방법을 제시한다. 여기서 함수 f, g는 DNA 서열을 비교하는 실험을 통해 정한다. 이러한 실험에서 함수에 의한 정규화 방법이 좋은 local alignment를 찾는다. 또한 유사도 점수의 기준으로 longest common subsequence를 채택한 경우, 기존의 정규화 알고리즘을 이용하면 별다른 시간 손실 없이 함수에 의해 정규화된 점수 f(s)/g(l)을 최대화 할 수 있음을 보인다.