• 제목/요약/키워드: 텍스트 매칭

검색결과 81건 처리시간 0.025초

개념간 유사성 측정을 이용한 개념 기반 이미지 검색 (Concept based Image Retrieval Using Similarity Measurement Between Concepts)

  • 조미영;최춘호;신주현;김판구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.253-255
    • /
    • 2003
  • 기존의 개념 기반 이미지 검색에서는 이미지의 의미적 내용 인식을 위해 일반적으로 어휘적 정보나 텍스트 정보를 이용했다. 이러한 텍스트 정보 기반 이미지 검색은 전통적인 검색 방법인 키워드 검색 기술을 그대로 사용하여 쉽게 구현할 수 있으나 텍스트의 개념적 매칭이 아닌 스트링 매칭이므로 주석처리된 단어와 정확한 매칭이 없다면 찾을 수가 없었다. 이에 본 논문에서는 ontology의 일종인 WordNet을 이용하여 깊이 정보량 링크 타입, 밀도 등을 고려한 개념간 유사성 측정으로 패턴 매칭의 문제를 해결하고자 했다. 또한 키워드로 주석처리 되어 있는 Microsofts Design Gallery Live의 이미지를 이용하여 개념간 유사성 측정법을 실질적으로 개념 기반 이미지 검색에 적용해 보았다.

  • PDF

부분 영상 매칭에 기반한 텍스트 검증 (Text Verification Based on Sub-Image Matching)

  • 손화정;정선화;김수형
    • 정보처리학회논문지B
    • /
    • 제12B권2호
    • /
    • pp.115-122
    • /
    • 2005
  • 영상이 다른 영상을 포함하고 있는 경우, 이득 영상의 인치 여부를 판단하는 부분 영상 매칭 방법은 대부분 자연 영상을 대상으로 연구되고 있다. 본 논문에서는 자연 영상이 아닌 텍스트 영상을 매칭하는데 효과적인 두 가지 기법, 즉 메쉬 기반 방법과 상관성 기반 방법을 제안하고자 하다. 메쉬 기반 방법은 두 영상의 일치하는 모서리론 찾은 후 겹치는 영역에 대한 메쉬 특징을 이용하여 유사 여부를 판단하는 것으로, 일치 영역 검색 단계와 유사성 측정 단계로 구성된다. 상관성 기반 방법은 FFT를 이용하여 두 영상의 상관성을 계산함으로써 유사도를 측정한다. 우편 자동화 시스템에서 텍스트 영상을 검증하는 분야에 세안 방법을 적용한 견과, 메쉬 기반 방법은 $90.1\%$, 상관성 기반 방법은 $92.7\%$의 성능을 나타내었다.

텍스트의 핑거프린트를 이용한 순위다중패턴매칭 알고리즘 병렬 구현 (A Parallel Implementation of the Order-Preserving Multiple Pattern Matching Algorithm using Fingerprints of Texts)

  • 박소민;김영호;심정섭
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.57-60
    • /
    • 2020
  • 순위다중패턴매칭문제는 길이가 n인 텍스트 T와 패턴들의 집합 P' = {P1,P2…,Pk}가 주어졌을 때, P'에 속하는 패턴들과 상대적인 순위가 일치하는 T의 모든 부분문자열들의 위치를 찾는 문제이다. P'에서 가장 짧은 패턴의 길이가 m, 가장 긴 패턴의 길이를 $\bar{m}$, 모든 패턴들의 길이의 합을 M, q개의 연속된 문자들을 q-그램이라 할 때, 기존에 텍스트의 핑거프린트를 이용하여 순위다중패턴매칭문제를 $O(q!+nqlogq+Mlog\bar{m}+nM)$ 시간에 해결하는 알고리즘이 제시되었다. 본 논문에서는 텍스트의 핑거프린트를 활용하여 O(max(q!,M,n))개의 스레드를 이용하여 순위다중패턴매칭문제를 평균적으로 $O(\bar{m}+qlogq+n/q!)$ 시간에 해결하는 병렬 구현 방법을 제시한다. 실험 결과, n = 1,000,000, k = 1,000, m = 5, q = 3일 때, 본 논문에서 제시하는 병렬 구현 방법은 기존의 순차 알고리즘보다 약 19.8배 빠르게 수행되었다.

k개의 오차를 허용하는 순위 패턴 매칭 (Order preserving matching with k mismatches)

  • 이인복
    • 스마트미디어저널
    • /
    • 제9권2호
    • /
    • pp.33-38
    • /
    • 2020
  • 순위 패턴 매칭 문제는 패턴과 텍스트가 주어졌을 때, 텍스트의 부분 문자열 중 패턴과 순위 동형을 만족하는 것들을 찾는 문제이다. 이 논문에서는 순위 패턴 매칭에 k개의 오차를 허용하는 문제를 푸는 알고리즘을 제안한다. 제안하는 알고리즘은 기존의 알고리즘에 비하여 간단하고 구현이 쉬우며, 평균적인 경우 선형 시간 복잡도를 가진다. 또한 실험을 통해서, 제안된 알고리즘이 현실적인 데이터에 대해서 효율적으로 동작함을 보인다.

EmoNSMC: Distant Supervision 을 이용한 한국어 감정 태깅 데이터셋 구축 (EmoNSMC: Constructing Korean Emotion Tagging Dataset Using Distant Supervision)

  • 이영준;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.519-521
    • /
    • 2019
  • 최근 소셜 메신저를 통해 많은 사람들이 의사소통을 주고받음에 따라, 텍스트에서 감정을 파악하는 것이 중요하다. 따라서, 감정이 태깅된 데이터가 필요하다. 하지만, 기존 연구는 감정이 태깅된 데이터의 양이 많지가 않다. 이는 텍스트에서 감정을 파악하는데 성능 저하를 야기할 수 있다. 이를 해결하기 위해, 본 논문에서는 단어 매칭 방법과 형태소 매칭 방법을 이용하여 많은 양의 한국어 감정 태깅 데이터셋인 EmoNSMC 를 구축하였다. 구축한 데이터셋은 네이버 영화 감상 리뷰 데이터 (NSMC)에 디스턴트 수퍼비전 방법 (distant supervision) 방법을 적용하여 weak labeling을 진행하였고, 이 과정에서 한국어 감정 어휘 사전 (KTEA) 을 이용하였다. 구축된 데이터셋의 감정 분포 결과, 형태소 매칭 방법을 통해 구축한 데이터셋이 좀 더 감정 분포가 균등한 것을 확인할 수 있었다. 해당 데이터셋은 공개되어 있다.

  • PDF

지역 밀집도 및 Hausdorff 거리를 이용한 영상기반 텍스트 매칭 (Image Based Text Matching Using Local Crowdedness and Hausdorff Distance)

  • 손화정;김지수;박미선;유재명;김수형
    • 한국콘텐츠학회논문지
    • /
    • 제6권10호
    • /
    • pp.134-142
    • /
    • 2006
  • 본 논문에서는 영상의 유사성을 측정하는데 많이 이용되는 Hausdorff거리 기법이 텍스트 영상을 검색하는 분야에도 효과적임을 입증하고자 한다. 즉, 시차를 두고 스캔된 임의의 텍스트 영상들의 동일성 여부를 판단할 수 있는 영상기반 텍스트 매칭 기법을 제안하고 이를 위해 지역 밀집도와 Hausdorff 거리를 이용한다. Hausdorff 거리 방법은 처리시간이 오래 걸리는 단점이 존재하는데, 본 논문에서는 지역 밀집도 알고리즘을 이용한 특징점 추출을 수행하여 이를 보완하였다. 우편 봉투에서 얻은 텍스트 영상으로 190개의 동일 영상 190개의 비등일 영상을 만들어 실험을 수행하였다. 기존에 영상 간의 유사도 매칭에 가장 일반적으로 이용되는 이진 상관도 및 Hausdorff 거리 방법과 본 논문에서 제안한 수정된 Hausdorff 방법의 실험 결과를 비교한 결과, 유사한 영역을 찾고 일치하는 정도를 얻는데 있어 다른 방법에 비해 약 2.7%에서 9.0%의 높은 정확률을 얻어 성능의 우수성을 입증하였다.

  • PDF

순위다중패턴매칭을 위한 해싱기반 알고리즘 (A Hashing-Based Algorithm for Order-Preserving Multiple Pattern Matching)

  • 강문성;조석현;심정섭
    • 정보과학회 논문지
    • /
    • 제43권5호
    • /
    • pp.509-515
    • /
    • 2016
  • 순위패턴매칭문제는 텍스트 T와 패턴 P가 주어질 때, P와 각 문자들의 순위가 동일한 순서로 나타나는 T의 모든 부분문자열을 찾는 문제이다. 순위패턴매칭문제는 주가지수분석과 음악의 유사성분석과 같이 문자 자체를 비교하는 것보다 값의 변화순서가 중요한 분야에서 연구가 진행되었다. 순위다중패턴매칭문제는 텍스트 T와 여러 개의 패턴들로 이루어진 패턴집합 $\mathbb{P}$가 주어질 때, $\mathbb{P}$에 속한 패턴과 각 문자들의 순위가 동일한 순서로 나타나는 T의 모든 부분문자열을 찾는 문제이다. 본 논문에서는 순위다중패턴매칭문제를 해결하는 해싱기반 알고리즘을 제시한다.

개념 기반 이미지 검색 시스템을 위한 WordNet 적용 방안 (Applying Method WordNet for Concept based Image Retrieval system)

  • 조미영;최준호;김판구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.487-489
    • /
    • 2002
  • 기존의 키워드 기반 이미지 검색에서는 의미적 내용 인식을 위해 일반적으로 어휘적 정보나 텍스트 정보를 인간이 주석 형태로 달아주었다. 그러나 이런 텍스트 정보 기반 이미지 검색은 개념적 매칭이 아닌 스트링 매칭이므로 주석을 달아놓은 단어와 정확한 매칭이 없다면 찾을 수가 없다. 이러한 문제를 해결하기 위해 본 논문에서는 개념 기반 이미지 검색 시스템을 위한 WordNet의 적용 방안에 대해 연구했다. WordNet은 단언형이 아닌 단어의 의미 즉 synset이 구성 요소라는 특징을 이용해 각각의 이미지에 텍스트 정보 대신 적합한 개념의 Synset번호를 저장한다. 그리고 검색시 개념간의 유사성 측정을 이용해 검색어와 개념적으로 유사한 모든 이미지를 검색하도록 한다.

  • PDF

시맨틱 웹 응용 서비스에서의 텍스트 처리 기술 적용 (Use of Text Processing Technologies in a Semantic Web Application)

  • 정한민;강인수;구희관;이승우;김평;성원경
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.189-196
    • /
    • 2006
  • 본 논문은 시맨틱 웹 응용 서비스를 구현함에 있어 필수적으로 요구되는 온톨로지 인스턴스 구축을 효율적으로 처리하는 데 있어 텍스트 처리 기술이 어떤 역할을 수행할 수 있는 가를 $OntoFrame-K^{(R)}$라는 시맨틱 웹 기반 정보 유통 체계에의 적용 사례를 통해 살펴본다. 본 논문에서 소개하는 텍스트 처리 기술은 개체 확인물 통한 개념 사례화, 주제 분야 할당을 통한 메타데이터 확장에, 그리고 인용 정보 추출 및 인용 관계 구축을 통한 객체 관계속성 구축에 적용된다. 개체 확인에서는 메타데이터 비교 잊 병합을 사용하였으며 이를 기반으로 한 수작업 구축을 통해 8,543명의 인력 URI를 확보하였다. 주제 및 분야 할당에서는 색인어와 분야분류명이 매핑된 시소러스 개념어의 매칭을 통해 색인어 별 TF (Term Frequency), 색인어와 매칭된 개념어 별 TF, 색인어와 매칭된 개념어 별 시소러스에서의 깊이, 색인어와 매칭된 개념어 별 개념 패싯, 색인어와 매칭된 각 개념어에 부착된 분야분류명 목록 등 할당을 위한 다양한 자질을 확보 적용하였다. 인용 정보 추출과 인용 관계 구축에서는 객체 URI와 인력 URI를 기반으로 하여 자동 추출된 인용 정보를 반영하는 방식으로 7,237개 문헌으로부터 총 135개의 인용 네트워크 그룹을 자동으로 확보하였다. 본 연구를 통해 제시된 텍스트 처리 기술의 활용 방안이 향후 시맨틱 웹 응용 서비스 및 인프라 구현에서 다각적으로 활용될 수 있기를 기대한다.

  • PDF

인메모리 관계형 데이터베이스 시스템을 이용한 대용량 텍스트 로그 데이터의 패턴 매칭 방법 (A Pattern Matching Method of Large-Size Text Log Data using In-Memory Relational Database System)

  • 한혁;최재용;진성일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.837-840
    • /
    • 2017
  • 각종 사이버 범죄가 증가함에 따라 실시간 모니터링을 통한 사전 탐지 기술뿐만 아니라, 사후 원인 분석을 통한 사고 재발 방지 기술의 중요성이 증가하고 있다. 사후 분석은 시스템에서 생산된 다양한 유형의 대용량 로그를 기반으로 분석가가 보안 위협 과정을 규명하는 것으로 이를 지원하는 다양한 상용 및 오픈 소스 SW 존재하나, 대부분 단일 분석가 PC에서 운용되는 파일 기반 SW로 대용량 데이터에 대한 분석 성능 저하, 다수 분석가 간의 데이터 공유 불가, 통계 연관 분석 한계 및 대화형 점진적 내용 분석 불가 등의 문제점을 해결하지 못하고 있다. 이러한 문제점을 해결하기 위하여 고성능 인메모리 관계형 데이터베이스 시스템을 로그 스토리지로 활용하는 대용량 로그 분석 SW 개발하였다. 특히, 기 확보된 공격자 프로파일을 활용하여 공격의 유무를 확인하는 텍스트 패턴 매칭 연산은 전통적인 관계형 데이터베이스 시스템의 FTS(Full-Text Search) 기능 활용이 가능하나, 대용량 전용 색인 생성에 따른 비현실적인 DB 구축 소요 시간과 최소 3배 이상의 DB 용량 증가로 인한 시스템 리소스 추가 요구 등의 단점이 있다. 본 논문에서는 인메모리 관계형 데이터베이스 시스템 기반 효율적인 텍스트 패턴 매칭 연산을 위하여, 고성능의 대용량 로그 DB 적재 방법과 새로운 유형의 패턴 매칭 방법을 제안하였다.