• 제목/요약/키워드: Text Retrieval System

검색결과 177건 처리시간 0.021초

효과적인 이미지 검색을 위한 태그 기반의 폭소노미 이미지 카테고리화 기법 (A Categorization Scheme of Tag-based Folksonomy Images for Efficient Image Retrieval)

  • 하은지;김용성;황인준
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권6호
    • /
    • pp.290-295
    • /
    • 2016
  • 최근 사용자들이 협동적으로 이미지 주석인 태그를 만들고 활용하는 폭소노미 기반의 이미지 공유 사이트들이 많은 인기를 얻고 있다. 이러한 사이트는 사용자 질의에 대해 단순한 텍스트 매칭 기반의 검색을 수행하고 매칭되는 결과 이미지들을 포토 스트림 형태로 나열하여 보여 준다. 하지만 이러한 태그들은 매우 개인적이고 주관적이며, 이미지 역시 카테고리로 분류되어 있지 않기 때문에 검색의 정확도나 사용자 만족도가 떨어진다는 문제점이 있다. 본 연구에서는 태그를 기반으로 하는 이미지 검색에서 검색의 정확도를 높일 수 있는 폭소노미 이미지의 카테고리화 기법을 제안하고, 폭소노미 환경에서 생성된 태그와 이미지 정보를 모두 이용하며 의미적으로 유사한 이미지들끼리 분류된 검색 결과를 생성한다. 제안하는 기법의 성능 평가를 위해 폭소노미 이미지를 수집하고 텍스트, 이미지 특성에 따른 카테고리 분류를 수행하여 기존 검색 기법과 이미지 검색의 정확도를 비교한다.

Text Embedded JPEG을 이용한 Image Retrieval System의 설계 및 구현 (Design and Implementation of Image Retrieval System using Text Embedded JPEG)

  • 천시영;곽미라;조동섭
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (상)
    • /
    • pp.99-102
    • /
    • 2003
  • 본 논문에서는 JPEG 이미지파일을 효율적으로 검색하기 위해서 확장된 JPEG파일의 포맷을 제안하고자 한다. 확장된 JPEG 파일의 포맷 안에는 JPEG 파일을 검색할 때에 사용될 키워드에 대한 설명, 이미지가 만들어진 날짜, 만든 이, 해상도와 같은 이미지에 대한 정보가 들어가게 된다. 이렇게 확장된 포맷을 어떻게 검색에 이용하는지 보이기 위해서 검색 어플리케이션을 설계하였다. 이 어플리케이션은 사용자가 검색 시에 찾고자 하는 이미지의 정보 값들을 지정해 줌으로써 자시의 의도에 적합한 이미지를 보다 정확하게 찾을 수 있게 된다. 피리고 이렇게 찾아진 이미지들은 여러 이미지 정보값들에 따라 다양한 방식으로 정렬되어 보여 지도록 하였다. 또한 이렇게 확장된 JPEG 파일포맷에 사용자가 접근하여 정보를 변경하거나 추가할 수 있는 인터페이스도 제공하도록 하였다.

  • PDF

텍스트 마이닝을 이용한 특허정보검색 개발에 관한 연구 (A Study on Development of Patent Information Retrieval Using Textmining)

  • 고광수;정원교;신영근;박상성;장동식
    • 한국산학기술학회논문지
    • /
    • 제12권8호
    • /
    • pp.3677-3688
    • /
    • 2011
  • 특허정보검색의 목적은 다양한 목적성을 지니고 있다. 일반적으로 특허정보검색은 제한된 키워드들에 의한 검색으로 이루어지며, 선행 특허권과 유사특허를 파악하기 위하여 반복적인 검색과 검토의 노력이 필요하다. 본 논문에서는 특허문서의 전체 텍스트를 분석하여 특징치를 찾아내는 내용기반 검색방법을 제안하고 검색결과를 질의문서와 유사한 문서 순으로 우선 배치하여 검색에 효율을 높일 수 있는 방법을 제안한다. 즉, 제안된 알고리즘은 텍스트 분석과정을 통해 각 문서별로 특징치가 부여되고 문서 간 특징치 비교를 통해 유사문서를 찾고 문서를 랭킹하여 유사정보를 제공한다. 텍스트 분석과정은 Stop-word과정, 핵심단어 추출과정, 핵심단어 가중치 산출 과정으로 이루어진다. 실험결과에서는 정확도 측정을 실시하여 일반검색엔진과 본 논문에서 제안한 알고리즘의 검색 정확도를 비교하였다. 본 논문은 검색결과를 질의한 문서와 유사한 문서 순으로 랭킹하기 때문에 검색이용자가 검색결과 검토과정에서 유사한 문서를 먼저 검토할 수 있도록 하여 검토시간을 줄이고 검색의 효율을 높일 수 있다. 또한 특허문서 전체 텍스트를 입력받아 사용하기 때문에 특허검색에 익숙하지 않는 이용자도 검색을 쉽고 빠르게 이용할 수 있다. 그리고 내용 기반 검색이 이루어지기 때문에 키워드 및 검색 식을 이용하는 방법보다 검색범위를 넓힐 수 있어서 검색에 누락되는 데이터를 줄일 수 있는 효과를 가진다.

Comparative Study of Various Persian Stemmers in the Field of Information Retrieval

  • Moghadam, Fatemeh Momenipour;Keyvanpour, MohammadReza
    • Journal of Information Processing Systems
    • /
    • 제11권3호
    • /
    • pp.450-464
    • /
    • 2015
  • In linguistics, stemming is the operation of reducing words to their more general form, which is called the 'stem'. Stemming is an important step in information retrieval systems, natural language processing, and text mining. Information retrieval systems are evaluated by metrics like precision and recall and the fundamental superiority of an information retrieval system over another one is measured by them. Stemmers decrease the indexed file, increase the speed of information retrieval systems, and improve the performance of these systems by boosting precision and recall. There are few Persian stemmers and most of them work based on morphological rules. In this paper we carefully study Persian stemmers, which are classified into three main classes: structural stemmers, lookup table stemmers, and statistical stemmers. We describe the algorithms of each class carefully and present the weaknesses and strengths of each Persian stemmer. We also propose some metrics to compare and evaluate each stemmer by them.

음성정보 내용분석을 통한 골프 동영상에서의 선수별 이벤트 구간 검색 (Retrieval of Player Event in Golf Videos Using Spoken Content Analysis)

  • 김형국
    • 한국음향학회지
    • /
    • 제28권7호
    • /
    • pp.674-679
    • /
    • 2009
  • 본 논문은 골프 동영상에 포함된 오디오 정보로부터 검출된 이벤트 사운드 구간과 골프 선수이름이 포함된 음성구간을 결합하여 선수별 이벤트 구간을 검색하는 방식을 제안한다. 전체적인 시스템은 동영상으로부터 분할된 오디오 스트림으로부터 잡음제거, 오디오 구간분할, 음성 인식 등의 과정을 통한 자동색인 모듈과 사용자가 텍스트로 입력한 선수 이름을 발음열로 변환하고, 색인된 데이터베이스에서 질의된 선수 이름과 상응하는 음성구간과 연결되는 이벤트 구간을 찾아주는 검색 모듈로 구성된다. 선수이름 검색을 위해서 본 논문에서는 음소 기반, 단어 기반, 단어와 음소를 결합한 하이브리드 방식을 적용한 선수별 이벤트 구간 검색결과를 비교하였다.

사무실 환경 내 다중카메라 영상의 이벤트분석을 통한 자연어 기반 동영상 검색시스템 (Natural Language based Video Retrieval System with Event Analysis of Multi-camera Image Sequence in Office Environment)

  • 임수정;홍진혁;조성배
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 1부
    • /
    • pp.384-389
    • /
    • 2008
  • 최근 동영상을 저장하거나 효과적으로 검색하는 시스템의 필요성이 증가하고 있다. 기존 동영상 검색 시스템은 메뉴나 텍스트 기반의 키워드로 동작하는데, 검색을 위한 정보가 빈약하여 많은 동영상이 동시에 검색되는 경우가 많고, 사용자가 해당 시스템을 사용하기 위한 지식이 필요하다. 본 논문에서는 키워드 기반 질의에 비해 사용자의 의도나 다양한 정보를 포함 할 수 있고 이벤트나 사람 뿐 아니라 인간의 기본적인 행동까지 검색하는 자연어 질의 기반 동영상 검색 시스템을 제안한다. 먼저, 사무실에서 수집된 동영상에 대한 도메인 분석을 통해 메타데이터로 이벤트 데이터베이스를 구축하고, 해당 영역에서의 사용자 질의에 대한 전처리 과정과 분석 작업을 통해 스크립트 데이터베이스를 구축한다. 이렇게 구축된 시스템을 바탕으로 대화형 질의와 답변 쌍 매칭을 통해 동영상을 검색한다. 10명의 사용자를 대상으로 메뉴 기반 검색 시스템과의 성능 평가와 프로세스 평가 비교 검증을 통해, 성능이나 사용자 만족도면에서 제안하는 시스템이 우수함을 보였다.

  • PDF

Machine Learning Based Automatic Categorization Model for Text Lines in Invoice Documents

  • Shin, Hyun-Kyung
    • 한국멀티미디어학회논문지
    • /
    • 제13권12호
    • /
    • pp.1786-1797
    • /
    • 2010
  • Automatic understanding of contents in document image is a very hard problem due to involvement with mathematically challenging problems originated mainly from the over-determined system induced by document segmentation process. In both academic and industrial areas, there have been incessant and various efforts to improve core parts of content retrieval technologies by the means of separating out segmentation related issues using semi-structured document, e.g., invoice,. In this paper we proposed classification models for text lines on invoice document in which text lines were clustered into the five categories in accordance with their contents: purchase order header, invoice header, summary header, surcharge header, purchase items. Our investigation was concentrated on the performance of machine learning based models in aspect of linear-discriminant-analysis (LDA) and non-LDA (logic based). In the group of LDA, na$\"{\i}$ve baysian, k-nearest neighbor, and SVM were used, in the group of non LDA, decision tree, random forest, and boost were used. We described the details of feature vector construction and the selection processes of the model and the parameter including training and validation. We also presented the experimental results of comparison on training/classification error levels for the models employed.

FreeWAIS-sf의 분석 및 한글화 (Analysis and Localization of freeWAIS-sf)

  • 오정석;김지승;이준호;이상호
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제5권5호
    • /
    • pp.611-618
    • /
    • 1999
  • 원하는 정보에 대한 빠르고 정확한 접근은 정보화 사회를 살아가는 현대인들에게 성공의 여부를 결정짓는 중요한 요소가 되었다. 지금까지 대용량의 문서를 효율적으로 검색할 수 있는 정보 검색 시스템에 관한 많은 개발이 이루어져 왔다. 그러나, 연구용으로 자유롭게 이용될 수 있는 시스템들의 대부분이 영문 정보 검색 시스템으로 국한되어 있으며, 한영 혼용 정보 검색 시스템의 개발은 미흡한 실정이다. 본 연구에서는 영문 정보 검색 시스템 freeWAIS-sf를 분석하고, 한글 형태소 분석기 HAM을 이용하여 freeWAIS-sf를 한글화하였다. 또한 freeWAIS-sf의 가중치 기법을 변경하고, 변경된 가중치 기법이 보다 높은 검색 효과를 제공함을 실험을 통하여 입증하였다.

검색포털 지식검색에 대한 한의학분류체계 조사 및 개선방안 연구 (A study of investigation and improvement to classification for oriental medicine in search portal web site)

  • 김철
    • 대한한의정보학회지
    • /
    • 제15권1호
    • /
    • pp.1-10
    • /
    • 2009
  • In these days everyone search the information easily with the Internet as the rapid distribution and active usage of the Internet. The search engines were developed specially to accuracy of information retrieval. User search the information more quickly and variously with them. The search portal system will be embossed with representation and basic services. The Internet user needs the result of text, image and video, knowledge search. The keyword based search is used generally for getting result of the information retrieval and another method is category based search. This paper investigates the classification of knowledge search structure for oriental medicine in market leader of search portal system by ranking web site. As a result, each classification system is unified and there is a possibility of getting up a many confusion to the user who approaches with classification systematic search method. This treatise proposed the improved oriental medicine classification system of internet information retrieval in knowledge search area. if the service provider amends about the classification system, there will be able to guarantee the compatibility of data. Also the proper access path of the knowledge which seeks is secured to user.

  • PDF

비정형 문서의 정보추출을 통한 OWL 온톨로지 구축 시스템의 설계 및 구현 (The Design and Implementation of OWL Ontology Construction System through Information Extraction of Unstructured Documents)

  • 조대웅;최지웅;김명호
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권10호
    • /
    • pp.23-33
    • /
    • 2014
  • 정보검색 분야의 발전은 많은 양의 정보를 빠르게 찾아주는 것에서 사람이 원하는 정보를 정확하게 찾아주는 연구 분야로 넓혀가고 있다. 핵심 기술로는 개인화 및 시맨틱 웹 기술을 활용하고 있다. 웹 문서에 대한 자동색인 기술과 처리능력은 연구단계를 넘어 실용 서비스로 나타나고 있다. 하지만 웹 문서 이외의 첨부된 문서 형태에 대한 문서정보검색에 관한 연구는 미진한 상황이다. 본 논문에서는 텍스트, 워드, 한글과 같은 형식으로 작성된 비정형 문서의 본문 내용을 분석하여 OWL 온톨로지로 구축하는 방법에 대해 설명한다. 문서 온톨로지의 TBox를 구축하고, 문서로부터 얻을 수 있는 자원을 선정하여, 구축된 문서 온톨로지의 인스턴스로 활용할 수 있도록 시스템으로 구현한다. 이와 같은 비정형 문서의 온톨로지 자동 구축으로 해당 문서의 시맨틱 기술을 이용한 정보검색 및 문서관리 시스템에서 효과적으로 활용 가능하다.