• 제목/요약/키워드: string algorithms

검색결과 105건 처리시간 0.022초

스트링 B-트리를 이용한 게놈 서열 분석 시스템 (An Analysis System for Whole Genomic Sequence Using String B-Tree)

  • 최정현;조환규
    • 정보처리학회논문지A
    • /
    • 제8A권4호
    • /
    • pp.509-516
    • /
    • 2001
  • 생명 과학의 발전과 많은 게놈(genome) 프로젝트의 결과로 여러 종의 게놈 서열이 밝혀지고 있다. 생물체의 서열을 분석하는 방법은 전역정렬(global alignment), 지역정렬(local alignment) 등 여러 가지 방법이 있는데, 그 중 하나가 k-mer 분석이다. k-mer는 유전자의 염기 서열내의 길이가 k인 연속된 염기 서열로서 k-mer 분석은 염기서열이 가진 k-mer들의 빈도 분포나 대칭성 등을 탐색하는 것이다. 그런데 게놈의 염기 서열은 대용량 텍스트이고 k가 클 때 기존의 온메모리 알고리즘으로는 처리가 불가능하므로 효율적인 자료구조와 알고리즘이 필요하다. 스트링 B-트리는 패턴 일치(pattern matching)에 적합하고 외부 메모리를 지원하는 좋은 자료구조이다. 본 논문에서는 스트링 B-트리(string B-tree)를 k-mer 분석에 효율적인 구조로 개선하여, C. elegans 외의 30개의 게놈 서열에 대해 분석한다. k-mer들의 빈도 분포와 대칭성을 보여주기 위해 CGR(Chaotic Game Representation)을 이용한 가시화 시스템을 제시한다. 게놈 서열과 매우 유사한 서열 상의 어떤 부분을 시그니쳐(signature)라 하고, 높은 유사도를 가지는 최소 길이의 시그니쳐를 찾는 알고리즘을 제시한다.

  • PDF

DNA 분석에 효율적인 서픽스 트리 재구성 알고리즘 (An Efficient Suffix Tree Reconstructing Algorithm for Biological Sequence Analysis)

  • 최해원;정영석;김상진
    • 디지털융복합연구
    • /
    • 제12권12호
    • /
    • pp.265-275
    • /
    • 2014
  • 서픽스 트리는 주어진 모든 문자열의 모든 서픽스를 트리 형태로 나타내는 자료구조로서 선형시간에 구성할 수 있으며 문자열에 대한 많은 문제를 효율적으로 해결할 수 있다. 하지만 이런 효용성에도 불구하고 서픽스 트리로 구성한 문자열을 삽입/삭제하는 경우 트리를 구성하는데 상당히 많은 시간이 소비된다. 본 논문은 이러한 문제를 해결하기 위한 서픽스 트리 재구성 알고리즘을 제안한다. 제안하는 알고리즘은 부 문자열을 삽입하는 경우와 삭제하는 경우로 나눈 다음, 발생할 수 있는 모든 경우의 수를 감안해서 설계했다. 알고리즘의 성능을 평가하기 위해서 기존의 Ukkonen 알고리즘과 비교실험 해 본 결과 서픽스 트리 재구성 시 30% 이상 시간이 절약됨을 알 수 있었다.

공생 파트너 선택전략에 따른 공생진화 알고리듬의 성능 분석 (Performance analysis of symbiotic evolutionary algorithms according to partner selection strategies)

  • 김재윤;김여근;곽재승;김동묵
    • 한국경영과학회:학술대회논문집
    • /
    • 대한산업공학회/한국경영과학회 2000년도 춘계공동학술대회 논문집
    • /
    • pp.239-242
    • /
    • 2000
  • Symbiotic evolutionary algorithms are stochastic search algorithms that imitate the biological coevolution process through symbiotic interactions. In the algorithms, the fitness evaluation of an individual requires first selecting symbiotic partners of the individual. The symbiotic partner effects the change of individual's fitness and search direction. In this study we are to analyze how much partnering strategies can influence the performance of the algorithms. For this goal extensive experiments are carried out to compare the performance of partnering strategies. The NKC model and the binary string covering problem are used as the test-bed problems. The experimental results indicate that there does not exist statistically significant difference in their performance.

  • PDF

써픽스 배열 합병을 이용한 일반화된 써픽스 배열의 효율적인 구축 알고리즘 (Efficient Construction of Generalized Suffix Arrays by Merging Suffix Arrays)

  • 전정은;박희진;김동규
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제32권6호
    • /
    • pp.268-278
    • /
    • 2005
  • 본 논문에서는 A와 B의 써픽스 배열이 주어졌을 때 두 배열을 합병하여 이들의 일반화된 써픽스 배열을 구축하는 방법을 연구하였다. 흘수 써픽스와 짝수 써픽스같이 특별한 경우의 두 써픽스를 합병하는 알고리즘은 이미 발표되었지만, A와 』가 임의의 문자열인 일반적인 경우 두 써픽스 배열을 합병하는 효율적인 알고리즘은 아직 개발되지 않았다. 따라서 현재까지는 A와 B의 써픽스 배열을 합병하기 위해서 A와 B의 써픽스 배열이 이미 주어져 있음에도 불구하고 A$\#$B$\$$라는 문자열에 대한 써픽스 배열을 다시 구축해야했다. 본 논문에서는 상수 문자집합이나 정수 문자집합에서 정의된 임의의 두 문자열 A와 B에 대한 써픽스 배열을 합병하는 효율적인 알고리즘을 제시한다. 실험결과 상수문자집합의 경우 A$\#$B$\$$에대한 써픽스 배열을 다시 구축하는 것보다 합병하는 것이 5배 정도 빨랐다. 여기서 제시한 알고리즘은 써픽스 배열 A에서 스트링 B의 모든 써픽스를 검색하여야 한다. 이를 위해 써픽스 배열에서 정의한 써픽스 링크를 사용하였고, 또 써픽스 링크를 계산하는 효율적인 알고리즘도 개발하였다. 써픽스 링크는 생물정보학에서 사용되는 매칭 통계나 최장 공통 부분 문자열 검색처럼 다른 스트링의 써픽스 배열에서 주어진 스트링의 모든 써픽스를 찾는 데 이용할 수 있으므로, 이를 계산하는 효율적인 방법을 제시한 것 역시 많은 의미를 가진다. 실험을 통해 여기서 제시한 방법이 기존 알고리즘 중 가장 빠른 방법보다 3$\~$4배 정도 빠르다는 것을 보였다.

정수문자열의 δ-근사주기와 γ-근사주기를 찾는 병렬알고리즘 (Parallel Algorithms for Finding δ-approximate Periods and γ-approximate Periods of Strings over Integer Alphabets)

  • 김영호;심정섭
    • 정보과학회 논문지
    • /
    • 제44권8호
    • /
    • pp.760-766
    • /
    • 2017
  • 반복적인 문자열은 데이터압축, 생물정보학 등 여러 분야에서 연구되어 왔다. 본 논문에서는 음악서열이나 주가지수와 같이 정수로 표현될 수 있는 문자열에 대한 반복에 대해 연구한다. 최근 정수문자열의 최소 ${\delta}$-근사주기와 최소 ${\gamma}$-근사주기를 찾는 문제들이 소개되었고, 문자열의 길이가 n일 때, 두 문제를 각각 $O(n^2)$ 시간에 해결하는 알고리즘들이 제시되었다. 본 논문에서는 위의 두 문제에 대해 각각 $O(n^2)$개의 스레드를 이용하여 O(n) 시간에 해결하는 병렬알고리즘을 제시한다. 실험결과, n = 10,000일 때, 본 논문에서 제시하는 병렬알고리즘은 순차알고리즘보다 최소 ${\delta}$-근사주기를 계산하는데 약 19.7배, 최소 ${\gamma}$-근사주기를 계산하는데 약 40.08배 빠른 수행시간을 보였다.

스타이너 트리를 구하기 위한 부동소수점 표현을 이용한 유전자 알고리즘 (Genetic Algorithm Using-Floating Point Representation for Steiner Tree)

  • 김채주;성길영;우종호
    • 한국정보통신학회논문지
    • /
    • 제8권5호
    • /
    • pp.1089-1095
    • /
    • 2004
  • 주어진 네트워크에서 최적의 스타이너 트리를 구하는 문제는 NP-hard이며, 최적에 가까운 스타이너 트리를 구하기 위하여 유전자 알고리즘을 이용한다. 본 논문에서는 이 문제를 해결하기 위하여 유전자 알고리즘에서 염색체를 기존의 이진스트링 대신 부동소수점으로 표현하였다. 먼저 주어진 네트워크에 Prim의 알고리즘을 적용하여 스패닝 트리를 구하고, 부동소수점 표현을 갖는 유전자 알고리즘을 사용하여 새로운 스타이너 점을 트리에 추가하는 과정을 반복함으로써 최적에 가까운 스타이너 트리를 구했다 이 방법을 사용하면 이진스트링을 사용하는 기존의 방법에 비해서 트리가 보다 빠르고 정확하게 최적에 가까운 스타이너 트리에 접근했다.

비트맵 필터를 이용한 효율적인 역 리스트 탐색 기법 (Efficient Inverted List Search Technique using Bitmap Filters)

  • 권인택;김종익
    • 정보처리학회논문지D
    • /
    • 제18D권6호
    • /
    • pp.415-422
    • /
    • 2011
  • 텍스트 데이터는 표현 방식의 차이, 타이핑 오류 등을 포함하고 있어 정확히 일치하는 검색으로는 유용한 정보를 얻기 어렵다. 따라서 유사도 기반 검색 방법이 많이 연구되고 있으며 효율적인 유사도 기반 검색을 위해 텍스트 데이터에 대한 역 리스트를 구성한다. 그리고 이를 병합하여 질의와 일정 기준 이상 유사한 데이터를 찾는다. 본 논문에서는 Suffix 필터링 과정에서 역 리스트의 탐색 비용을 줄이기 위해 역 리스트의 통계 정보인 비트맵 필터를 사용하는 기법을 제안한다. 제안하는 기법은 비트맵 필터를 사용하여 Suffix 필터링 과정에서 역 리스트의 탐색 여부를 결정하여 불필요한 역 리스트 탐색을 회피함으로써 역 리스트 병합 비용을 줄인다. 실험을 통하여 제안된 기법이 기존의 연구에서 제안된 Suffix 필터링 알고리즘보다 더 효율적임을 보인다.

분류자 시스템을 이용한 인공개미의 적응행동의 학습 (Learning of Adaptive Behavior of artificial Ant Using Classifier System)

  • 정치선;심귀보
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 1998년도 추계학술대회 학술발표 논문집
    • /
    • pp.361-367
    • /
    • 1998
  • The main two applications of the Genetic Algorithms(GA) are the optimization and the machine learning. Machine Learning has two objectives that make the complex system learn its environment and produce the proper output of a system. The machine learning using the Genetic Algorithms is called GA machine learning or genetic-based machine learning (GBML). The machine learning is different from the optimization problems in finding the rule set. In optimization problems, the population of GA should converge into the best individual because optimization problems, the population of GA should converge into the best individual because their objective is the production of the individual near the optimal solution. On the contrary, the machine learning systems need to find the set of cooperative rules. There are two methods in GBML, Michigan method and Pittsburgh method. The former is that each rule is expressed with a string, the latter is that the set of rules is coded into a string. Th classifier system of Holland is the representative model of the Michigan method. The classifier systems arrange the strength of classifiers of classifier list using the message list. In this method, the real time process and on-line learning is possible because a set of rule is adjusted on-line. A classifier system has three major components: Performance system, apportionment of credit system, rule discovery system. In this paper, we solve the food search problem with the learning and evolution of an artificial ant using the learning classifier system.

  • PDF

POI(Point Of Interest) 데이터 검색에서 문자열 유사도 측정 정확도 향상 기법 (Accuracy Improvement Methods for String Similarity Measurement in POI(Point Of Interest) Data Retrieval)

  • 고은별;이종우
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권9호
    • /
    • pp.498-506
    • /
    • 2014
  • 교통의 발달로 활동범위가 넓은 현대인들은 네비게이션과 지도 앱을 통한 길찾기 검색을 자주 이용한다. 하지만 기존 검색 시스템에서는 부정확한 질의어가 입력되면 원하는 결과를 출력하지 못한다. 이 문제를 해결하기 위해 집합-기반 POI 검색 알고리즘이 등장했고 이어 문자열 유사도 측정 기법, 중복 글자를 고려한 검색 알고리즘이 연구되었다. 본 논문에서는 이전에 연구된 문자열 유사도 측정 알고리즘의 정확도를 향상시킨 기법을 제안한다. 기존 문자열 유사도 측정 기법에서 고려하지 않았던 고유어의 추정단계와 중복 단어를 고려한 블록 및 블록 나열 순서 구하기를 추가하고 측정 기법을 수식화한다. 이를 통해 측정방법을 체계적으로 표현하고 일반화함으로써 POI 검색 결과의 정확도를 향상시킨다. 실험을 통해 본 논문에서 제시하는 기법이 검색 결과 및 검색 순위의 정확도를 향상시킨다는 것을 확인하였다.

마이크로 유전알고리듬의 최적설계 응용에 관한 연구 (Applications of Micro Genetic Algorithms to Engineering Design Optimization)

  • 김종헌;이종수;이형주;구본흥
    • 대한기계학회논문집A
    • /
    • 제27권1호
    • /
    • pp.158-166
    • /
    • 2003
  • The paper describes the development and application of advanced evolutionary computing techniques referred to as micro genetic algorithms ($\mu$GA) in the context of engineering design optimization. The basic concept behind $\mu$GA draws from the use of small size of population irrespective of the bit string length in the representation of design variable. Such strategies also demonstrate the faster convergence capability and more savings in computational resource requirements than simple genetic algorithms (SGA). The paper first explores ten-bar truss design problems to see the optimization performance between $\mu$GA and SGA. Subsequently, $\mu$GA is applied to a realistic engineering design problem in the injection molding process optimization.