• 제목/요약/키워드: String matching

검색결과 101건 처리시간 0.026초

트라이 인덱스를 이용한 이형태 검색 (Searching for Variants Using Trie-Index)

  • 박인철
    • 한국산학기술학회논문지
    • /
    • 제10권8호
    • /
    • pp.1986-1992
    • /
    • 2009
  • 사용자는 정보검색에서 단어의 약어나 부분문자열, 혹은 오타가 포함된 단어와 같은 이형태로 자료를 검색하고자 한다. 이형태 검색을 위한 단순한 방법은 사전에 모든 이형태를 등록하는 것이다. 그러나 이 방법은 이형태 사전 구축에 막대한 시간과 비용이 필요할 뿐만 아니라 오타로 인해 생기는 이형태를 처리할 수 없는 문제점이 있다. 이에 대한 대안으로 근사 문자열 매칭 기법을 이용한 방법이 개발되었으나 이 방법 또한 약어 형태의 이형태를 처리하기 어렵다는 단점이 있다. 본 논문에서는 트라이 인덱스를 이용해 약어나 오타를 포함한 대부분의 이형태를 검색할 수 있는 방법을 제안한다. 먼저, 패스 가중치의 계산을 통한 이형태 매칭 방법을 보이고, 검색 속도 향상을 위한 이형태 검색 알고리즘을 제시한다.

화자 적응을 이용한 대용량 음성 다이얼링 (Large Scale Voice Dialling using Speaker Adaptation)

  • 김원구
    • 제어로봇시스템학회논문지
    • /
    • 제16권4호
    • /
    • pp.335-338
    • /
    • 2010
  • A new method that improves the performance of large scale voice dialling system is presented using speaker adaptation. Since SI (Speaker Independent) based speech recognition system with phoneme HMM uses only the phoneme string of the input sentence, the storage space could be reduced greatly. However, the performance of the system is worse than that of the speaker dependent system due to the mismatch between the input utterance and the SI models. A new method that estimates the phonetic string and adaptation vectors iteratively is presented to reduce the mismatch between the training utterances and a set of SI models using speaker adaptation techniques. For speaker adaptation the stochastic matching methods are used to estimate the adaptation vectors. The experiments performed over actual telephone line shows that proposed method shows better performance as compared to the conventional method. with the SI phonetic recognizer.

거리반경기반 대표문자열 문제의 NP-완전 (The Consensus String Problem based on Radius is NP-complete)

  • 나중채;심정섭
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제36권3호
    • /
    • pp.135-139
    • /
    • 2009
  • 여러 문자열들을 비교하여 유사성 또는 거리(오차)를 계산하는 문제는 패턴매칭, 웹검색 바이오인포매틱스, 컴퓨터 보안 등 다양한 응용 분야와의 연관성으로 인해 활발히 연구되어 왔다. 주어진 문자열 집합 내의 여러 문자열들의 거리를 비교하기 위해 주어진 집합 내의 모든 문자열들을 대표하는 한 문자열(대표문자열)을 찾는 방법이 있다. 대표문자열 방법은 주어진 문자열 집합과 가장 유사한 한 문자열을 찾는 방법으로 주로 이용되는 목적함수는 거리반경과 거리합이 있다. 거리반경은 집합 내의 문자열들과 특정 문자열과의 거리들의 최대값으로 정의되며, 모든 문자열들 중에서 최소의 거리반경을 만드는 문자열을 주어진 문자열 집합에 대한 거리반경기반 대표문자열이라 한다. 거리합은 집합 내의 문자열들과 특정 문자열과의 거리들의 합으로 정의되며, 모든 문자열들 중에서 최소의 거리합을 만드는 문자열을 주어진 문자열집합에 대한 거리합기반 대표문자열이라 한다. 본 논문에서는 메트릭 거리함수에 대해 거리반경기반 대표문자열 문제가 NP-완전임을 증명한다.

콘텐츠 보안 시스템용 트래픽 패턴 매칭 하드웨어 (A Traffic Pattern Matching Hardware for a Contents Security System)

  • 최영;홍은경;김태완;백승태;최일훈;오형철
    • 전자공학회논문지CI
    • /
    • 제46권1호
    • /
    • pp.88-95
    • /
    • 2009
  • 본 논문에서는 고성능 네트워크 응용에서 사용하기 위한 트래픽 패턴 매칭 하드웨어를 제안한다. 제안하는 트래픽 패턴 매칭 하드웨어는 고속 망에서 다양한 종류의 정보 유출이나 침입을 차단하기 위한 콘텐츠 보안 시스템에서 사용 할 목적으로 설계되었다. 제안하는 하드웨어는 헤더 검색부와 스트링 패턴 매칭부로 구성되었다. 헤더 검색부의 하드웨어 구현에는, 흔히 TCAM(Ternary CAM) 구현이 사용되지만 하드웨어나 메모리 비용과 전력 소모 면에서 비효율적이므로, 본 논문에서는 비교기 배열과 HiCuts 트리에 기반을 둔 구현 기법을 채택하고 이를 수정하여 적용하였다. Xilinx FPGA XC4VSX55을 사용한 구현에서, 제안된 설계는 TCAM 구현에 비하여 FPGA 슬라이스 사용을 약 26%까지 그리고 블록 RAM의 사용을 약 58%까지 절약할 수 있었다. 스트링 패턴 매칭부의 설계에서는 하드웨어 면에서 효율적이며, 충돌 발생률을 감소시킬 수 있도록 구성을 바꿔 전력 소모를 감소시킬 수 있는 셀룰러 오토마타형 해싱 모듈을 설계하여 사용하였다.

문자열 재구성 알고리즘 및 멱승문제 응용 (A String Reconstruction Algorithm and Its Application to Exponentiation Problems)

  • 심정섭;이문규;김동규
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제35권9_10호
    • /
    • pp.476-484
    • /
    • 2008
  • 대부분의 문자열 문제들과 이들에 대한 알고리즘들은 패턴 매칭, 데이타 압축, 생물정보학 등의 분야에 응용되어 왔다. 그러나 문자열 문제와 암호화 문제의 관련성에 대한 연구는 거의 진행되지 않았다. 본 논문에서는 다음과 같은 문자열 재구성 문제들에 대해 연구하고 이 결과들이 암호학에 응용될 수 있음을 보인다. 유한 알파벳으로 구성된 길이 n인 문자열 x와, 길이 $k({\leq}n)$ 이내의 문자열의 집합 W가 주어졌을 때, 첫 번째 문제는 내의 문자열들 중 일부 문자열들을 최소의 회수로 연결하여 x를 재구성할 수 있는 연결 순서를 찾는 문제이다. 이 문제에 대해 O(kn+L)-시간 알고리즘을 제시한다. 이때, L은 W 내의 모든 문자열들의 길이의 합을 표시한다. 두 번째 문제는 첫 번째 문제의 동적 버전이며 이에 대해 $O(k^3n+L)$시간 알고리즘을 제시한다. 마지막으로 암호학과 관련된 멱승문제와 위에 제시된 재구성 문제들과의 관련성을 보이고 멱승문제를 해결하는 새로운 알고리즘을 제시한다.

k개의 오차를 허용하는 순위 패턴 매칭 (Order preserving matching with k mismatches)

  • 이인복
    • 스마트미디어저널
    • /
    • 제9권2호
    • /
    • pp.33-38
    • /
    • 2020
  • 순위 패턴 매칭 문제는 패턴과 텍스트가 주어졌을 때, 텍스트의 부분 문자열 중 패턴과 순위 동형을 만족하는 것들을 찾는 문제이다. 이 논문에서는 순위 패턴 매칭에 k개의 오차를 허용하는 문제를 푸는 알고리즘을 제안한다. 제안하는 알고리즘은 기존의 알고리즘에 비하여 간단하고 구현이 쉬우며, 평균적인 경우 선형 시간 복잡도를 가진다. 또한 실험을 통해서, 제안된 알고리즘이 현실적인 데이터에 대해서 효율적으로 동작함을 보인다.

온톨로지 기반의 정보검색 (The Ontology based Resource Discovery)

  • 정은경;김영민;변영철;이상준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.121-123
    • /
    • 2003
  • 본 연구에서는 현재 웹 환경에서의 단순한 string matching 검색에 대한 한계점을 해결하기 위해서 온톨로지 기반의 자원검색 방안을 논한다. 테스트 베드로서 제주도의 숙박, 관광정보에 따른 온톨로지를 DAML+OIL언어로 생성하고 Jena에서 지원하는 API를 이용하여 사용자가 원하는 정보검색을 수행할 수 있는 테스트 베드 구축 방안도 제시한다.

  • PDF

사전기반 후처리를 이용한 모바일 폰 영상에서 와인 라벨 문자 인식 (Wine Label Character Recognition in Mobile Phone Images using a Lexicon-Driven Post-Processing)

  • 임준식;김수형;이칠우;이귀상;양형정;이명은
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권5호
    • /
    • pp.546-550
    • /
    • 2010
  • 본 논문에서는 모바일 폰에서 오프라인 필기체 과분할 인식의 후처리 방법에 관하여 논하였다. 제안된 방법은 조합 행렬 생성, 문자 조합 필터링, 문자 유사도 측정으로 구성된다. 조합 행렬 생성 과정은 각각의 조각의 인식 결과로부터 생성가능한 모든 조합 행렬을 계산하는 부분이며 조합 행렬을 그래프로 구성하게 된다. 문자 조합 필터링 과정은 그래프의 노드들과 단어 사전을 비교하여 불필요한 노드를 삭제하는 과정이며 문자 유사도 측정과정은 단어 사전의 각각의 단어들과 Levenshtein 거리(distance)를 계산하여 최적의 후처리 결과를 추출하게 된다. 제안된 방법의 인식률은 85.8%의 정확도를 보였다.

A Novel Cryptosystem Based on Steganography and Automata Technique for Searchable Encryption

  • Truong, Nguyen Huy
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권5호
    • /
    • pp.2258-2274
    • /
    • 2020
  • In this paper we first propose a new cryptosystem based on our data hiding scheme (2,9,8) introduced in 2019 with high security, where encrypting and hiding are done at once, the ciphertext does not depend on the input image size as existing hybrid techniques of cryptography and steganography. We then exploit our automata approach presented in 2019 to design two algorithms for exact and approximate pattern matching on secret data encrypted by our cryptosystem. Theoretical analyses remark that these algorithms both have O(n) time complexity in the worst case, where for the approximate algorithm, we assume that it uses ⌈(1-ε)m)⌉ processors, where ε, m and n are the error of our string similarity measure and lengths of the pattern and secret data, respectively. In searchable encryption, our cryptosystem is used by users and our pattern matching algorithms are performed by cloud providers.