• 제목/요약/키워드: 문자집합

검색결과 87건 처리시간 0.026초

문자클래스 매칭을 지원하는 정규표현식 매칭 프로세서 구조 (Regular Expression Matching Processor Architecture Supporting Character Class Matching)

  • 윤상균
    • 정보과학회 논문지
    • /
    • 제42권10호
    • /
    • pp.1280-1285
    • /
    • 2015
  • 고속 정규표현식 매칭을 수행하기 위한 여러 종류의 정규표현식 매칭 하드웨어 구조가 연구되었다. 특히 프로그램과 같이 패턴의 갱신이 쉽도록 범용 프로세서와 유사한 방식으로 정규표현식 매칭을 수행하는 ReCPU와 SMPU와 같은 정규표현식 프로세서가 연구되었다. 그렇지만 기존의 정규표현식 프로세서들은 문자클래스 매칭을 위한 별도의 기능을 제공하지 않아서 문자클래스 처리에 비효율적이다. 본 논문에서는 문자클래스 매칭을 지원하는 정규표현식 매칭 프로세서의 명령어 집합을 제시하고, 이에 대한 프로세서 구조를 설계 구현한다. 제시된 프로세서는 문자클래스, 문자 범위와 부정 문자클래스 처리 기능을 포함하고 있어서 문자클래스 매칭을 매우 효율적으로 처리할 수 있다.

POI(Point Of Interest) 데이터 검색에서 문자열 유사도 측정 정확도 향상 기법 (Accuracy Improvement Methods for String Similarity Measurement in POI(Point Of Interest) Data Retrieval)

  • 고은별;이종우
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권9호
    • /
    • pp.498-506
    • /
    • 2014
  • 교통의 발달로 활동범위가 넓은 현대인들은 네비게이션과 지도 앱을 통한 길찾기 검색을 자주 이용한다. 하지만 기존 검색 시스템에서는 부정확한 질의어가 입력되면 원하는 결과를 출력하지 못한다. 이 문제를 해결하기 위해 집합-기반 POI 검색 알고리즘이 등장했고 이어 문자열 유사도 측정 기법, 중복 글자를 고려한 검색 알고리즘이 연구되었다. 본 논문에서는 이전에 연구된 문자열 유사도 측정 알고리즘의 정확도를 향상시킨 기법을 제안한다. 기존 문자열 유사도 측정 기법에서 고려하지 않았던 고유어의 추정단계와 중복 단어를 고려한 블록 및 블록 나열 순서 구하기를 추가하고 측정 기법을 수식화한다. 이를 통해 측정방법을 체계적으로 표현하고 일반화함으로써 POI 검색 결과의 정확도를 향상시킨다. 실험을 통해 본 논문에서 제시하는 기법이 검색 결과 및 검색 순위의 정확도를 향상시킨다는 것을 확인하였다.

집합 기반 POI 검색 알고리즘을 활용한 스팸 메시지 판별 모바일 앱 구현 (Implementation of A Mobile Application for Spam SMS Filtering Using Set-Based POI Search Algorithm)

  • 안혜영;조완지;이종우
    • 디지털콘텐츠학회 논문지
    • /
    • 제16권5호
    • /
    • pp.815-822
    • /
    • 2015
  • 최근 스미싱 피해가 늘어남에 따라 스팸 메시지 처리를 위한 애플리케이션이 잇달아 출시되고 있다. 그러나 자음과 모음을 분리하는 등 교묘하게 내용이 조작된 스팸 메시지는 필터링하지 못 하는 경우가 대부분이다. 이를 해결하기 위해 본 논문에서는 문자 메시지 내 스팸 문자열을 검사하는 애플리케이션인 안티스팸을 구현하였다. 안티스팸은 집합 기반 POI 검색 알고리즘을 활용하여, 전송된 문자 메시지내에 스팸 문자열이 있는지 검색한 후, 검색 결과에 따라 스팸 여부를 추정한다. 또한 스팸 필터링을 피하기 위해 교묘히 위장된 스팸 메시지도 걸러준다. 사용자는 메시지를 받으면 스팸 판단 결과와 메시지 내용을 확인하고 메시지 처리방식을 선택할 수 있다.

정수 문자집합상의 접미사트리 구축을 위한 새로운 합병 알고리즘 (A New merging Algorithm for Constructing suffix Trees for Integer Alphabets)

  • 김동규;심정섭;박근수
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제29권2호
    • /
    • pp.87-93
    • /
    • 2002
  • 주어진 스트링 S의 접미사트리 $T_s$를 구축하기 위하여 , 먼저 홀수위치들에 대한 접미사트리 $ T_0$를 제귀적으로 구축하고 짝수위치들에 대한 접비사트리 $T_e$$ T_o$/로 부터 구축한 다음 $ T_o$$T_e$를 합병하여 $T_s$를 구축하는 새로운 방식이 사용되고 있다. 인덱스자료구조에 관련된 문제들 중 정수 문자집합상의 접미사트리를 선형시간에 구축하는 문제는 오랫동안 미해결문제로 남아 있었다. Farach은 이 방식을 적용하여 처음으로 성형시간이 소요되는 알고리즘을 제시하였다. 이 알고리즘은 중 가장 어려운 곳은 합병하는 부분이다. 본 논문에서는 BFS(breadth-first search)에 기반하는 새로운 합병알고리즘을 제안한다. 제안된 합병알고리즘은 Farach의 DFS(depth-first search) 방식보다 개념적으로 단순하게 동작하므로 다른 응용의로 쉽게 확장될수 있다.

한글문자 인식에 관한 연구(II)(한글자모의 인식 Code와 display) (Recognition of Printed Korean Characters(II))

  • 이주근
    • 대한전자공학회논문지
    • /
    • 제7권3호
    • /
    • pp.5-11
    • /
    • 1970
  • 이 연구는 연구(I)의 계속연구로서 한글자음과 모음의 특징추출에 의한 coding방법과 그의 display에 대해서 검토하였다. 문자를 3x5mesh의 Matrix로서 양자화해서 그의 특징을 변수로한 2단 matrix에 의하여 문자 pattern을 발생하고, 또 발생된 특징 pattern을 다시 논리집합하여 단일 Serial coding 방법을 제시하였다. 이 code는 한글 자모의 원문자가 재생되며, 모든 자모는 각각 15개의 흑백 bit로서 구성된다. 24개 한글자음과 모음에 대해서 coding하였으며, 이론치와 측정치가 잘 일치함을 보았고 그것이 또한 완전히 재현됨을 이 연구에서 알맞게 설계된 display로서 확인하였다.

  • PDF

손으로 설계한 서식 문서의 문자 영역 분리 및 서식 벡터화 (Text Area Segmentation and Layout Vectorization of Off-line Handwritten Forms)

  • 김병용;권오석
    • 한국정보처리학회논문지
    • /
    • 제7권10호
    • /
    • pp.3086-3097
    • /
    • 2000
  • 본 논문에서는 손으로 자유스럽게 그린 서식 문서에서 문자 영역을 분리하고, 이 중 선 성분을 벡터화하는 방법을 제안한다. 제안된 방법은 우선 이진화 및 세선화 과정에서의 데이터 손실을 방지하기 위해 스캔한 영상에 DRC 알고리즘을 적용한다. 그리고 영상의 기울어짐을 교정하기 위해 세선화된 영상에 허프 변환을 적용하여 기울어짐을 추정하고 교정한 다음, 서식의 구조를 이루는 선 성분을 추출해 낸다. 그리고 문자 영역은 연결 요소 분석법에 의해 문자 영역을 나타내는 데이터로 변환되며, 추출된 선 성분을 정렬, 합병 및 교정처리를 통해 벡터화 된다. 제안된 방법의 실효성을 입증하기 위해 각각 25명의 다른 사람이 필기구에 제한을 두지 않고 하나는 자를 사용하여 작성하고 다른 하나는 자를 사용하지 않고 작성한 서식에 대해 실험한 결과 전체 750개의 벡터 집합 중에서 전처리를 하지 않은 경우에는 666개, 전처리를 한 경우에는 746개의 서식 벡터 검출에 성공하여 그 유효성을 확인할 수 있었다.

  • PDF

문자열 분석 기반 유해 안드로이드 앱 검출 (Detection of Malicious Android Apps Using String Analysis)

  • 최광훈;박경득;고광만;박희완;윤종희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.1180-1182
    • /
    • 2012
  • 안드로이드 앱에서 접근할 수 있는 유해 사이트를 프로그램 분석 방법으로 검출하는 방법을 제안한다. 주어진 앱의 바이너리 코드를 자바바이트 코드로 역 컴파일하고 문자열 분석 방법을 적용하여 실행 중 사용 가능한 문자열 집합을 계산한 다음 유해 사이트 URL 문자열이 포함되어 있는지 확인하는 방법이다. 기존에는 앱을 직접 실행해서 특정 URL에 접속하는지 감시하는 동적 모니터링 방법인 반면, 제안한 방법은 앱을 실행할 필요가 없다. 앱스토어 관리에서 주기적으로 유해 앱 여부를 검사하는데 제안한 방법을 활용할 수 있다.

변수-변수 관련성을 이용한 동적 프로그램 조각 추출 알고리즘 (An Extraction Algorithm of Dynamic Program Slice Using Variable-Variable Relationships)

  • 김태희;김병기
    • 한국정보처리학회논문지
    • /
    • 제5권11호
    • /
    • pp.2874-2883
    • /
    • 1998
  • 프로그램 조각화 기법은 프로그램을 이해하기 쉬운 조각 단위로 분해하여 소프트웨어 개발자나 유지보수다사 프로그램을 쉽게 이해할 수 있도록 지원한는 방법이다. 본 논문ㅇ세는 변수-변수 관련성을 이용하여 정확하고 수행 가능한 프로그램 조각을 추출하는 동적 프로그램 조각 추축 알고리즘을 제안한다. 각 문장에서 변경되는 변수와 참조되는 변수로 나누어서 변수 집합을 계산하고, 선언부에 있는 문장에 대해 변수-변수 관련성을 계산한다. 변수-변수 관련성을 계산할 때는 선언부의 변수가 다른 문장에서 변경되는 변수로 사용된 경우와 참조되는 변수로 사용된 경우를 별도로 조사하여 변경되는 변수 집합은 무조건 관련 집합에 포함시키고, 문장에서 참조되는 변수들은 문장들을 다시 비교하여 기준 변수와 관련된 문장만을 추출하여 관련 집합에 포함시킨다. 제안한 알고리즘은 C 언어를 대상으로 실험한 결과 정확하고 수행 가능한 동적 조각을 추출하였고, 기존의 방법들보다 관련 문자을 찾기 위한 문장의 비교횟수를 평균 42%까지 감소시켰다. 기준 변수가 많을수록 기준 변수와 관련이 없는 변수가 많을수록 문장의 비교 횟수가 현저하게 감소하였다.

  • PDF

다중서열정렬을 이용한 변형단어집합의 분류 기법 (A Classification Method for Deformed Words Using Multiple Sequence Alignment)

  • 김성환;조환규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.264-266
    • /
    • 2012
  • 인터넷 상에서의 변형 단어들을 처리하는 문제는 정보 검색, 기계 번역, 웹 마이닝, 욕설 및 스팸 필터링과 같은 다양한 분야에서 사용될 수 있다. 특히 단어의 변형 추이를 파악하는 등 데이터 수집 및 분석을 위해서는 주어진 단어가 어떤 변형 단어의 집합으로 이루어진 부류에 포함되는지 여부를 파악해야 할 필요성이 있다. 본 논문에서는 같은 부류에 속한 변형 단어 집합에 대하여 다중 서열 정렬(multiple sequence alignment)을 수행함으로써 해당 집합을 하나의 대표 문자열로 취급하는 변환 기법을 제안하고, 이를 이용해 주어진 단어가 해당 부류에 속하는지 여부를 효과적으로 분류하는 기법을 소개한다. 실험결과 제안 기법의 분류 성능은 민감도 93.4% 수준에서 89.1%의 특이도를 보여 전수 비교를 통한 분류에 비하여 결코 성능은 하락하지 않으면서 분류 속도는 16.5배 향상되었음을 확인할 수 있었다.

심층 컨볼루션 신경망을 이용한 번호판 인식 시스템 (License Plate Recognition System using Deep Convolutional Neural Network)

  • 임성훈;박병주;이재흥
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 춘계학술발표대회
    • /
    • pp.754-757
    • /
    • 2016
  • 기존 번호판 인식은 직접 특징 추출 알고리즘을 개발하여 완전 연결 신경망으로 특징을 분류하는 방법이 보편적이다. 본 연구는 전처리 과정에서 번호판 후보군 검출 및 세그먼테이션을 수행하고 특징 추출 없이 미리 학습된 심층 컨볼루션 신경망을 통해 문자를 분류하는 방법을 제안한다. 직접 수집한 2,900장의 번호판 데이터베이스를 이용하여 훈련 집합 및 검증 집합을 구성하였다. 훈련 집합과 검증 집합에 대해 실험한 결과 번호판 후보군 검출률은 97%를 얻을 수 있었고, 이에 대한 인식률은 95%를 얻었다.