Search | Korea Science

Efficient Merging Algorithms for Suffix Arrays and their Application (효율적인 써픽스 배열 합병 알고리즘과 응용)

전정은;박희진;김동규
- Proceedings of the Korean Information Science Society Conference
- /
- 2004.04a
- /
- pp.973-975
- /
- 2004
대표적인 인덱스 자료 구조인 써픽스 트리와 써픽스 배열은 긴 문자열에서 임의의 패턴을 검색하는 데 효율적이다. 써픽스 트리는 써픽스 배열보다 큰공간을 차지하지만, 이미 구축된 써픽스 트리의 정보를 이용하여 쉽게 합병할 수 있다. 본 논문에서는 문자열 A와 B에 대한 써픽스 배열이 구축되어 있을 때 A#B$의 일반화된 써픽스 배열을 구축하기 위한 합병 알고리즘을 두 가지 제시하였다. 이 알고리즘을 사용하면 기존의 유전체 서열 써픽스 배열을 재사용하는 방식으로 합병하여, 빠른 시간 안에 효율적으로 합병된 써픽스 배열을 만들 수 있다. 실험 결과, 합병 알고리즘은 일반화된 써픽스 배열을 다시 구축하는 것보다 5배정도 빠른 속도를 보였다.
PDF

A Fast Algorithm for Constructing Suffix Arrays (써픽스 배열을 구축하는 빠른 알고리즘)

조준하;박희진;김동규
- Proceedings of the Korean Information Science Society Conference
- /
- 2004.10a
- /
- pp.736-738
- /
- 2004
써픽스 배열은 정렬된 모든 써픽스들의 인덱스를 저장한 자료구조이며, 긴 문자열에서 임의의 패턴을 효율적으로 검색을 할 수 있는 자료구조이다. 비슷한 자료구조인 써픽스 트리에 비해 적은 공간을 사용하기 때문에 대용량의 텍스트에 대한 처리에 더 적합하다. 본 논문에서는 써픽스 배열을 빠르게 구축하는 방법을 제안하고, 써픽스 배열 구축 알고리즘들 중에서 빠르다고 알려진 Larsson and Sadakane 알고리즘, 대표적인 선형 시간 알고리즘인 Karkkainen and Sanders 알고리즘 및 최근에 발표된 고정길이 문자집합에 효율적인 Kim et al. 알고리즘과 성능을 비교한다. 실험 결과 본 논문에서 제안한 알고리즘이 전반적으로 빠르게 써픽스 배열을 구축하였다.
PDF

An Efficient Algorithm for Constructing Suffix Arrays for DNA String (DNA스트링에 효율적인 써픽스 배열 구축 알고리즘)

조준하;박회진;김동규
- Proceedings of the Korean Information Science Society Conference
- /
- 2004.04a
- /
- pp.961-963
- /
- 2004
써픽스 배열은 텍스트의 써픽스들을 사전적 순서대로 저장하여 검색을 효율적으로 할 수 있는 자료구조이다. 생물학에서의 DNA 스트링과 같이 긴 텍스트에 대해 써픽스 배열을 이용하면 빠르게 검색할 수 있다. 써픽스 배열은 유사한 자료구조인 써픽스 트리에 비해 적은 공간을 차지하기 때문에 생물학에서 사용하는 긴 텍스트의 처리에 유리하다. 최근, 텍스트에서 바로 써픽스 배열을 선형시간에 구축하는 알고리즘들이 발표되었다. 그러나 이들 알고리즘은 정수 문자집합을 위한 알고리즘들이었다. 본 논문에서는 고정길이 문자집합에 대해 써픽스 배열을 빠르게 구축하는 알고리즘을 소개한다. 그리고 실험을 통해서 DNA 스트링과 같은 고정길이 문자집합에 대해서 다른 알고리즘들과 구축시간을 비교하여 속도 향상이 있음을 보인다.
PDF

Pattern Search Algorithm in Suffix Arrays (접미사 배열에서의 패턴 검색 알고리즘)

최용욱;박근수
- Proceedings of the Korean Information Science Society Conference
- /
- 2004.04a
- /
- pp.958-960
- /
- 2004
접미사 배열은 긴 문자열에 대한 효율적인 패턴 검색을 위해 널리 쓰이는 자료 구조로서 지금까지 접미사 배열을 이용하여 텔스트 T 안에서 패턴 P를 검색하는 O(｜P｜ㆍ｜∑｜), O(｜P｜ㆍlog｜∑｜)시간 알고리즘(｜∑｜:알파벳 크기)들 이 발표되었다. 본 논문에서는 O(｜P｜)시간 알고리즘을 제시하고, 기존의 알고리즘들과 비교한 실험 결과를 보여준다.
PDF

Noise reduction Algorithm for CFA Images (컬러 필터 배열 영상에서의 잡음제거 알고리즘)

Lee, Min-Seok;Park, Sang-Wook;Kwon, Ji-Yong;Kang, Moon-Gi
- Proceedings of the Korean Society of Broadcast Engineers Conference
- /
- 2010.07a
- /
- pp.67-69
- /
- 2010
대부분의 디지털 카메라는 컬러 필터 배열(Color Filter Array)을 가진 하나의 영상 획득 센서를 사용한다. 따라서 영상획득 이후에 컬러 보간 알고리즘이 필수적으로 진행된다. 또 영상 획득 과정에서 센서의 열화나 암전류 등과 같은 잡음이 발생하여 영상 잡음 제거 알고리즘이 필요하다. 하지만 기존의 대부분의 영상 잡음 제거 알고리즘은 컬러 필터 배열 영상의 특징인 모자이크 데이터 기반이 아닌 컬러 보간 이후의 풀 컬러영상에(YCbCr) 적용되고 있다. 따라서 잡음이 포함된 영상으로 컬러 보간을 할 경우 잡음의 공간적 상관관계(spatial correlation)가 커짐에 의한 잡음 번짐 때문에 컬러 보간 이후의 잡음제거는 더욱 어렵게 된다. 이와 같은 문제를 해결하기 위해 컬러 필터 배열 영상에 대한 잡음제거 알고리즘이 연구되고 있으며, 본 논문에서도 CMOS/CCD의 이미지 센서에서 획득된 베이어 컬러 필터 배열 영상에서 잡음을 제거하는 알고리즘을 제안한다. 이를 위해서 베이어 컬러 필터 배열 영상 데이터에서 경계(edge)의 방향성을 고려한 LMMSE 방법을 기반으로 한 잡음제거 알고리즘을 제안한다. 제안하는 알고리즘은 영상의 경계를 보존해주며 잡음제거 과정 다음에 진행되는 컬러 보간 과정에서의 잡음 번짐의 문제를 해결할 수 있다. 실험 결과를 통해 향상된 잡음 제거 효과를 확인하였다.
PDF

Constructing the Compressed Suffix Array via Efficient Implementation of Succinct Representation (Succinct 표현의 효율적인 구현을 통한 압축된 써픽스 배열 생성)

Park, Chi-Seong;Jo, Jun-Ha;Kim, Dong-Kyue
- Proceedings of the Korean Information Science Society Conference
- /
- 2005.11a
- /
- pp.955-957
- /
- 2005
대용량의 텍스트에 대해 빠른 패턴 검색의 필요성이 증가함에 따라 써픽스 트리, 써픽스 배열 등의 인덱스 자료구조에 대해 다양한 연구들이 진행되었다. 또한 써픽스 배열을 대용량의 인덱스 자료구조로 사용하기 위해 저장 공간을 O(n log n) 비트 이하로 줄이는 문제에 대한 연구들도 많이 수행되었다. 이들 중 Grossi & Vitter 는 써픽스 배열을 압축하여, 기존의 써픽스 배열보다 작은 저장 공간을 사용할 수 있는 알고리즘을 제안하였다. Grossi & Vitter 알고리즘은 압축된 써픽스 배열에서 실제 써픽스 배열의 정보를 찾기 위하여, succinct 표현에서 기본적으로 사용되는 rank와 select 함수를 필요로 한다. 본 논문은 다양한 rank와 select 알고리즘을 각각 사용하는 압축된 써픽스 배열들의 성능 비교를 통해, succinct 표현의 효율적인 구현이 압축된 써픽스 배열의 성능에 미치는 영향을 실험적으로 보인다.
PDF

Efficient Construction of Generalized Suffix Arrays by Merging Suffix Arrays (써픽스 배열 합병을 이용한 일반화된 써픽스 배열의 효율적인 구축 알고리즘)

Jeon, Jeong-Eun;Park, Heejin;Kim, Dong-Kyue
- Journal of KIISE:Computer Systems and Theory
- /
- v.32 no.6
- /
- pp.268-278
- /
- 2005
We consider constructing the generalized suffix way of strings A and B when the suffix arrays of A and B are given, j.e., merging two suffix arrays of A and B. There are efficient algorithms to merge some special suffix arrays such as the odd array and the even array. However, for the general case that A and B are arbitrary strings, no efficient merging algorithms have been developed. Thus, one had to construct the generalized suffix arrays of A and B by constructing the suffix array of A$\#$B$\$$ from scratch, even though the suffix ways of A and B are given. In this paper, we Present efficient merging algorithms for the suffix arrays of two arbitrary strings A and B drawn from constant and integer alphabets. The experimental results show that merging two suffix ways of A and B are about 5 times faster than constructing the suffix way of A$\#$B$\$$ from scratch for constant alphabets. Our algorithms include searching all suffixes of string B in the suffix array of A. To do this, we use suffix links in suffix ways and we developed efficient algorithms for computing the suffix links. Efficient computation of suffix links is another contribution of this paper because it can be used to solve other problems occurred in bioinformatics that should search all suffixes of a given string in the suffix array of another string such as computing matching statistics, finding longest common substrings, and so on. The experimental results show that our methods for computing suffix links is about 3-4 times faster than the previous fastest methods.
PDF KSCI

Direct Construction Algorithms for Compressed Suffix Arrays in Linear Time (압축된 써픽스 배열을 직접 구축하는 선형시간 알고리즘)

성종희;전정은;김동규
- Proceedings of the Korean Information Science Society Conference
- /
- 2003.04a
- /
- pp.809-811
- /
- 2003
써픽스 배열은 써픽스 트리와 더불어 바이오인포매틱스(bioinformatics) 등에 널리 사용되는 전체 텍스트(full-text)의 인덱스 자료구조이다. 여러 응용분야에서 처리해야하는 데이터양의 기하급수적인 증가에 따라, 써픽스 배열을 압축하여 저장해야 하는 필요성이 커지고 있다. Grossi와 Vitter는 주어진 스트링의 써픽스 배열이 있을 경우, 작은 저장 공간을 사용하는 압축된 써픽스 배열(compressed suffix arrays)을 정의하였다. 본 논문에서는 주어진 스트링에서 써픽스 배열을 구축할 필요 없이, 직접적으로 압축된 써픽스 배열을 구축하는 선형시간 알고리즘을 제시한다.
PDF

Comparison of Linear Time Suffix Array Construction Algorithms (선형 시간 접미사 배열 생성 알고리즘들의 비교)

이성림;박근수
- Proceedings of the Korean Information Science Society Conference
- /
- 2003.10a
- /
- pp.496-498
- /
- 2003
접미사 배열은 긴 문자열에 대해 효율적인 문자열 검색을 가능하게 하는 자료구조이다. 접미사 배열은 문자열의 접미사들의 사전식 정렬순서를 배열로 저장한다. 비슷한 효과를 가진 접미사 트리에 비해서 접미사 배열은 저장 공간을 적게 차지하기 때문에 생명정보과학의 염기 서열 등 큰 크기의 문자열의 처리에 더욱 유리하다. 본 논문에서는 2003년에 발표된 Ko-Aluru, K$\square$rkk$\square$inen-Sanders 및 기존의 Manber-Myers 등 세 개의 접미사 배열 생성 알고리즘들의 염기 서열 입력 자료에 대한 실행 시간 및 기억 장치 사용량을 실험을 통해 비교한다. 특히 Ko-Aluru와 K$\square$rkk$\square$inen-Sanders 알고리즘은 실행 시간 및 저장 공간의 이론적인 복잡도가 O(n)으로 동일하기 때문에 실험을 통해서 계산 복잡도에 숨어있는 상수를 비교한다. 실험 결과 K$\square$rkk$\square$inen-Sanders 알고리즘이 가장 효율적임을 보인다.
PDF

Performance Analysis of Construction Algorithms for Compressed Suffix Arrays (압축된 써픽스 배열 구축 알고리즘의 성능 분석)

Park Chi-Seong;Jo Jun-Ha;Sim Jeong-Seop;Kim Dong-Kyue
- Proceedings of the Korean Information Science Society Conference
- /
- 2006.06a
- /
- pp.409-411
- /
- 2006
써픽스 배열은 사전적 순서로 정렬된 써픽스들의 인덱스를 저장한 인덱스 자료구조로서, 긴 텍스트에서 반복되는 패턴 검색 시 효율적으로 사용 될 수 있다. 하지만 O($n\;log{\Sigma}$) 비트의 텍스트보다 큰 O(n log n) 비트 공간을 차지하기 때문에 대용량의 텍스트에 대해서는 큰 공간을 필요로 하는 문제점이 있다. 이를 해결하기 위해 압축된 써픽스 배열이 제안되었지만, 구축 시 이미 만들어진 써픽스 배열을 이용하기 때문에 실제 사용 공간을 줄이지는 못했다. 최근 써픽스 배열 없이 텍스트에서 직접 압축된 써픽스 배열을 구축할 수 있는 두 가지 알고리즘이 개발되었다. 본 논문에서는 이 두 가지 알고리즘을 구현한 후, 구축 시간과 사용 공간 등의 실험을 통해 기존의 써픽스 배열들과의 성능을 비교하고 분석한다.
PDF

Search Result 498, Processing Time 0.032 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)