• 제목/요약/키워드: 와일드카드 문자

검색결과 3건 처리시간 0.019초

와일드카드 문자를 포함하는 스트링 데이터 사이의 포함관계 확인을 위한 효율적인 알고리즘 (An Effective Algorithm for Checking Subsumption Relation on String Data Containing Wildcard Characters)

  • 김도한;박희진;백은옥
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제32권9호
    • /
    • pp.475-482
    • /
    • 2005
  • 와일드카드 문자를 포함하는 스트링 데이타는 텍스트에 나타나는 특정 패턴을 표현하는 데에 사용될 수 있다. 임의의 두 패턴 사이의 포함 관계는 각 패턴과 매칭이 가능한 모든 스트링의 집합 사이의 포함관계로 나타낼 수 있으며, 포함 관계를 결정하는 것은 패턴이 나타내는 스트링의 집합을 중복성없이 표현하기 위해 필요하다. 본 논문에서는 이와 같이 패턴의 중복성을 판단하기 위해 와일드카드 문자를 포함하는 스트링 데이타 사이의 포함 관계를 결정하기 위한 효율적인 알고리즘을 제안한다. 먼저 기존의 접미사 트리 알고리즘을 단순하게 확장하여 와일드카드 문자를 포함하는 스트링 데이타 사이의 포함 관계를 확인할 수 있도록 하는 방법과 이러한 접미사 트리를 스트링 데이타의 각 위치 별로 나누어 구성하여 포함 관계를 확인하는 방법을 제안한다.

염기문자의 빈도와 위치정보를 이용한 DNA 인덱스구조 (A DNA Index Structure using Frequency and Position Information of Genetic Alphabet)

  • 김우철;박상현;원정임;김상욱;윤지희
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권3호
    • /
    • pp.263-275
    • /
    • 2005
  • 대규모 DNA 데이타베이스를 대상으로 원하는 서열을 빠르게 검색하기 위해 인덱싱 기법을 많이 사용하고 있다. 그러나 대부분의 인덱싱 기법은 원래 데이타베이스보다 더 큰 저장공간을 사용하고 DBMS와의 밀 결합이 어렵다는 문제점을 가지고 있다. 본 논문에서는 완전 매치, 와일드카드 매치, k-미스매치와 같은 근사 매치 질의 처리를 위해 작은 공간을 사용하는 디스크 기반의 효율적인 인덱싱 기법과 질의 처리 기법을 제안한다 인덱싱을 위해서 DNA 염기서열에 일정 크기의 슬라이딩 윈도우를 위치시킨 후, 윈도우 내에서 각 문자의 출현 빈도를 이용해 서명을 추출해서 R*-트리와 같은 다차원 공간 인덱스에 저장한다. 특히 윈도우 내의 각 위치에 따라서 가중치를 줌으로써 서명들이 인덱스 공간에 집중되는 현상을 억제한다. 제안된 질의 처리방법은 질의 시퀀스를 다차원 사각형으로 변환하고 그 사각형과 중첩되는 서명들을 인덱스로부터 찾아낸다 제안된 방법을 실제 생물학자들이 사용하는 데이타를 이용해 실험한 결과 서픽스 트리 기반의 방법에 비해서 완전 매치인 경우 3배 이상, 와일드카드 매치인 경우 2배 이상, k-미스매치인 경우 수십 배 이상의 성능향상을 보였다.

DBMS에서의 정규표현식 검색기능 구현 (Implementation of Regular Expression Searching in DBMS)

  • 윤기태;김성탄;이상원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.795-796
    • /
    • 2009
  • DBMS에서 사용되는 SQL의 표준으로는 검색에 관련해서 LIKE 만을 명시하고 있다. LIKE는 2 종류의 와일드 카드 문자를 사용한다. 하지만 두 가지만으로는 사용자의 다양한 검색 요구에 응하기 어렵다. 그 해결방법으로 LIKE를 보완할만한 기능을 가진 정규표현식 검색을 제안하는 바, 이를 DBMS에 추가적으로 구현하는데 있어 고려해야 할 사항을 정리한다.