• 제목/요약/키워드: Text Retrieval System

검색결과 177건 처리시간 0.026초

한국어 기준명사 추출 및 그 응용 (Korean Base-Noun Extraction and its Application)

  • 김재훈
    • 정보처리학회논문지B
    • /
    • 제15B권6호
    • /
    • pp.613-620
    • /
    • 2008
  • 정보검색, 문서요약 등의 분야에서 명사추출은 매우 중요하다. 본 논문은 대량의 문서로부터 기준명사를 효과적으로 추출하기 위한 한국어 기준명사 추출 시스템을 제안하고 이를 문서요약 시스템에 적용한다. 기준명사는 명사들 중에서 기본이 되는 명사이며 복합명사는 포함되지 않는다. 본 논문에서는 두 가지 기술 즉 여과기법과 분리기법을 사용한다. 먼저 여과기법을 이용해서 명사를 포함하지 않은 어절을 미리 제거하고, 그리고 분리기법을 이용해서 명사가 포함된 어절에서 명사와 조사를 분리하고, 복합명사에 해당할 경우에는 각 명사를 분리하여 기준명사를 추출한다. ETRI 말뭉치를 대상으로 실험한 결과, 재현율과 정확률 모두 약 89% 정도의 성능을 보였으며, 제안된 시스템을 한국어 문서요약 시스템에 적용해 보았을 때, 좋은 결과를 얻을 수 있었다.

키워드탐색과 비주얼 브라우징 기법을 이용한 이미지 개발 시스템 (An Image Retrieval System with Multiple Access Modes)

  • 이지연
    • 정보관리학회지
    • /
    • 제18권4호
    • /
    • pp.183-200
    • /
    • 2001
  • 기존의 전통적인 이미지 데이터로의 접근방식은 각 이미지를 기술하는 색인어 및 키워드들에 의하여 이루어졌다. 이러한 키워드에 의한 전통적인 방식은 색인의 객관성 및 이용자들의 적절한 탐색어 선택에 따르는 부담을 수반하는 것이어서 이미지 검색의 문제점으로 제시되어 왔다. 이 연구는 객관성 있는 이미지 기술의 어려움과 키워드 탐색의 한계성을 인식하고 색인어와 매칭되는 탐색어 선택에 따르는 이용자의 부담을 덜 수 있는 방법의 하나로 비주얼 브라우징 기법을 제시하였다. 키워드 탐색 방법과 비주얼 브라우징 방법, 그리고 이 두 가지를 혼합 사용하는 방법을 비교하는 실험을 통하여 각 방법의 효율성을 측정하고 장점 및 단점을 살펴보았다. 실험 결과 키워드 탐색 방식은 탐색의 효율적인 측면을 고려할 때에 적합한 것으로 나타났으며 비주얼 브라우징 방식은 탐색 결과의 포괄적인 측면을 기대할 때에 이용될 수 있는 것으로 드러났다. 이러한 결과는 한 방식이 다른 방식보다 절대 우위의 효율성을 가진다기보다는 이용자가 요구하는 정보의 양과 정확성에 따라 각 방식의 효율성이 달라진다는 것을 제시하고 있다. 이 연구는 비주얼 브라우징 방식을 통하여 현재의 키워드 중심의 이미지 탐색 방식의 문제점을 완화시키고 이용자 중심의 탐색 방식과 이미지 검색 시스템의 디자인을 위한 방향을 제시하고 있다.

  • PDF

학위논문 전문데이터베이스 구축 및 서비스환경 구현 (Construction of Full-Text Database and Implementation of Service Environment for Electronic Theses and Dissertations)

  • 이기호;김진숙;윤화묵
    • 한국정보처리학회논문지
    • /
    • 제7권1호
    • /
    • pp.41-49
    • /
    • 2000
  • 1990년대 중반부터 다양하고 강력한 문서편집기의 보편화와 더불어 국내외의 대학에서는 책자형태의 논문제출과 동시에 전자형태 학위논문의 제출을 의무화하고 있다. 그러나 제출된 방대한 야의 전자형태의 논문들은 한글, MS-Word, Latexe 등 다양한 문서편집기로 작성되었고 문서형식의 표준화가 이루어지지 않아 효율적으로 활용되지 못하고 있는 실정이다. 본 논문에서는 다양한 형태로 존재하는 학위논문들을 하나의 통일된 중간포맷으로 변혼하고, 변환된 논물들을 전문데이터베이스(Full Text Datsbase)화하여 이를 인터넷을 통해 효육적으로 검색하고 서비스하기 위한 학위논문 전문검색시스템을 구현한다.

  • PDF

내용기반의 인쇄체 영문 문서 영상 검색을 위한 특징 기반 단어 검색 (A Feature -Based Word Spotting for Content-Based Retrieval of Machine-Printed English Document Images)

  • 정규식;권희웅
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권10호
    • /
    • pp.1204-1218
    • /
    • 1999
  • 문서영상 검색을 위한 디지털도서관의 대부분은 논문제목과/또는 논문요약으로부터 만들어진 색인에 근거한 제한적인 검색기능을 제공하고 있다. 본 논문에서는 영문 문서영상전체에 대한 검색을 위한 단어 영상 형태 특징기반의 단어검색시스템을 제안한다. 본 논문에서는 검색의 효율성과 정확도를 높이기 위해 1) 기존의 단어검색시스템에서 사용된 특징들을 조합하여 사용하며, 2) 특징의 개수 및 위치뿐만 아니라 특징들의 순서를 포함하여 매칭하는 방법을 사용하며, 3) 특징비교에 의해 검색결과를 얻은 후에 여과목적으로 문자인식을 부분적으로 적용하는 2단계의 검색방법을 사용한다. 제안된 시스템의 동작은 다음과 같다. 문서 영상이 주어지면, 문서 영상 구조가 분석되고 단어 영역들의 조합으로 분할된다. 단어 영상의 특징들이 추출되어 저장된다. 사용자의 텍스트 질의가 주어지면 이에 대응되는 단어 영상이 만들어지며 이로부터 영상특징이 추출된다. 이 참조 특징과 저장된 특징들과 비교하여 유사한 단어를 검색하게 된다. 제안된 시스템은 IBM-PC를 이용한 웹 환경에서 구축되었으며, 영문 문서영상을 이용하여 실험이 수행되었다. 실험결과는 본 논문에서 제안하는 방법들의 유효성을 보여주고 있다. Abstract Most existing digital libraries for document image retrieval provide a limited retrieval service due to their indexing from document titles and/or the content of document abstracts. This paper proposes a word spotting system for full English document image retrieval based on word image shape features. In order to improve not only the efficiency but also the precision of a retrieval system, we develop the system by 1) using a combination of the holistic features which have been used in the existing word spotting systems, 2) performing image matching by comparing the order of features in a word in addition to the number of features and their positions, and 3) adopting 2 stage retrieval strategies by obtaining retrieval results by image feature matching and applying OCR(Optical Charater Recognition) partly to the results for filtering purpose. The proposed system operates as follows: given a document image, its structure is analyzed and is segmented into a set of word regions. Then, word shape features are extracted and stored. Given a user's query with text, features are extracted after its corresponding word image is generated. This reference model is compared with the stored features to find out similar words. The proposed system is implemented with IBM-PC in a web environment and its experiments are performed with English document images. Experimental results show the effectiveness of the proposed methods.

공공도서관 모바일 웹 접근성 평가에 관한 연구 (A Study on the Evaluation of the Mobile Web Accessibility of Public Library Services)

  • 박옥남
    • 한국문헌정보학회지
    • /
    • 제48권1호
    • /
    • pp.415-439
    • /
    • 2014
  • 본 연구는 공공도서관 모바일 웹의 접근성 현황을 파악하고 이에 대한 개선방안을 제시하고자 하였다. 이를 위해 모바일 앱과 웹 지침에 따라 접근성 체크리스트를 도출하고, 자동평가와 수동평가를 통해 접근성 현황을 조사하였다. 연구결과, 대체텍스트는 검색결과 도서 이미지 안내, 메인메뉴, 텍스트 대신 이미지 제공에서 가장 많이 미준수 현황을 보였으며, 초점은 검색 및 검색결과에서, 운영체제 접근성은 검색어 입력창 레이블 및 아이디, 패스워드 입력창에서, 색에 무관한 인식은 좌석현황 및 도서관일정, 명도대비는 메인메뉴 및 서지사항에서, 컨트롤 간 충분한 간격은 자료검색 필드 간 간격 및 메인검색창에서 미준수 현황이 주로 나타났다. 이와 함께 연구결과로 모바일 도서관 주요 서비스별로 정리하여, 향후 도서관 모바일 웹 서비스 구축에 활용하고자 하였다.

서지마크 데이터베이스로부터의 색인어 추출과 색인어의 검색 활용에 관한 연구 - 경북대학교 도서관 학술정보시스템 사례를 중심으로 - (A Study on the Extraction and Utilization of Index from Bibliographic MARC Database)

  • 박미성
    • 한국도서관정보학회지
    • /
    • 제36권2호
    • /
    • pp.327-348
    • /
    • 2005
  • 본 연구의 목적은 서지정보검색시스템의 색인 정의의 중요성을 강조하고 최적 색인의 기초 자료를 마련하기 위함이다. 이를 위해 서지마크 데이터베이스로부터 색인 태그 정의 및 정규화를 통한 색인어추출이론에 대해 고찰하고, 이론에 따라 생성된 색인어의 검색 활용도를 분석하였다. 실험은 서지 2,200,488건에서 생성된 색인어 29,219,853건을 텍스트형 색인과 코드형 색인으로 나누어 이용자 왱 검색 로그에 나타난 색인 항목과 비교하여 어떤 색인 정의가 얼마나 활용되는가를 분석하였다. 결과에 따르면 서명, 저자, 출판사, 주제와 같은 텍스트형 색인어는 높은 검색 활용도를 보인 반면에 코드형 색인어는 검색 활용도가 낮아 검색에 활용되지 않는 불필요한 색인 정의들은 과감하게 제거하여 색인 정의를 최적화해야 함을 제안하였다.

  • PDF

멀티미디어 시스템의 동영상 노드를 위한 앵커의 인간공학적 설계지침 (Human factors guidelines for designing anchors in the moving pictures on multimedia systems)

  • 한성호;김미정;곽지영
    • 대한산업공학회지
    • /
    • 제22권2호
    • /
    • pp.265-276
    • /
    • 1996
  • Multimedia systems present information by various media, for example, video, sound, music, animation, movie, etc., in addition to the text which has long been used for conveying the information. Among many multimedia applications, the multimedia information retrieval systems commercialized in the forms of multimedia encyclopedia CD-ROMs, benefited from various media for their ability to present information in an efficient and complete way. But using several media, on the other hand, may cause end users' confusion and furthermore, poorly designed user interface often exacerbates the situation. In this study, the multimedia systems were studied from the standpoint of usability. The conceptual framework of the user interface of the multimedia system was newly defined. And 100 initial variables for user interface design of general multimedia systems were suggested through literature survey and expert opinions based upon the framework developed. Among various application areas, the multimedia information retrieval systems were chosen for investigation, and 36 variables particularly relevant to user interface of the multimedia information retrieval systems were selected. According to the sequential research strategy, the variables that were considered to be most important were finally selected through a screening stage. A part of selected variables were verified through a human factors experiment as the first step of sequential research. Based upon the result of the experiment, guidelines for user interface design were provided. For future study, the variables remained will be Investigated and the study will expand to another application areas.

  • PDF

비디오 영상 정보 검색을 위한 문자 추출 및 인식 (Caption Detection and Recognition for Video Image Information Retrieval)

  • 구건서
    • 한국컴퓨터산업학회논문지
    • /
    • 제3권7호
    • /
    • pp.901-914
    • /
    • 2002
  • 본 논문에서는 비디오에서 입력된 영상으로부터 내용기반 검색을 위해 자동으로 자막을 추출하여 특징 추출을 기반의 단층 연결 신경망 인식기(FE-MCBP)에 의해 자막 문자를 인식하여 영상 자막의 내용을 검출하는 방법을 제시하였다. 비디오에서 자막 추출은 먼저, 비디오에서 일정한 시간 간격으로 획득한 프레임 중에서 히스토그램 분석을 통하여 키 프레임을 찾는 과정을 수행하며, 그 다음에 각각의 키 프레임에 대하여 칼라 세그먼테이션 후 라인 검사 방법 통하여 자막 영역을 추출하도록 하였다. 마지막으로 추출된 자막영역에서 개별문자를 분리하였다. 본 연구에서는 칼라 히스토그램을 분석 후 지역 최대값을 이용하여 세그먼테이션 후 라인 검사를 수행함으로써 처리 속도와 자막영역 검출의 정확도를 개선하였다. 비디오에서 자막 추출은 비디오 정보를 멀티미디어 데이터베이스화하는 초기 단계로 추출된 자막은 바로 문자 인식기의 입력이 된다. 또한 인식된 자막정보는 데이터베이스로 구축되며 내용기반 검색 기법에 의해 검색되도록 하였다.

  • PDF

XML 기반의 동영상콘텐츠 검색 시스템 설계 및 구현 (A Study on Implementation of XML-Based Information Retrieval System for Video Contents)

  • 김용;소민호
    • 정보관리학회지
    • /
    • 제26권4호
    • /
    • pp.113-128
    • /
    • 2009
  • 일반적으로 동영상콘텐츠에 대한 탐색과정에서 이용자는 해당 기관 또는 사이트에서 제공하는 간단하게 요약한 요약 동영상과 텍스트 정보를 이용하여 원하는 동영상을 선택한다. 이러한 이용자의 동영상콘텐츠 의 탐색과정에서의 정확하고 신속한 동영상콘텐츠의 검색을 위하여 본 연구에서는 동영상을 구성하는 자막과 이미지 정보를 이용하여 동영상을 내용에 따라 여러 개의 클립으로 구분하고, 이용자의 필요에 따라 원하는 클립을 빠르게 검색하여 제공하는 시스템을 제안한다. 동영상콘텐츠 및 관련 메타데이터의 관리 및 제어를 위해서 본 연구에서는 XML 계층구조를 생성하여 저장한다. 한편, 이용자의 검색 요청시 XML을 기반으로 동영상콘텐츠의 계층구조를 반영하는 Xpath를 생성하여 질의처리를 수행함으로써 이용자가 원하는 동영상콘텐츠에 대한 검색결과를 제공한다. 제안된 방법을 기반으로 본 연구에서는 XML 계층구조를 이용한 동영상 검색 시스템을 설계하고 구현하였다.

TAKES: Two-step Approach for Knowledge Extraction in Biomedical Digital Libraries

  • Song, Min
    • Journal of Information Science Theory and Practice
    • /
    • 제2권1호
    • /
    • pp.6-21
    • /
    • 2014
  • This paper proposes a novel knowledge extraction system, TAKES (Two-step Approach for Knowledge Extraction System), which integrates advanced techniques from Information Retrieval (IR), Information Extraction (IE), and Natural Language Processing (NLP). In particular, TAKES adopts a novel keyphrase extraction-based query expansion technique to collect promising documents. It also uses a Conditional Random Field-based machine learning technique to extract important biological entities and relations. TAKES is applied to biological knowledge extraction, particularly retrieving promising documents that contain Protein-Protein Interaction (PPI) and extracting PPI pairs. TAKES consists of two major components: DocSpotter, which is used to query and retrieve promising documents for extraction, and a Conditional Random Field (CRF)-based entity extraction component known as FCRF. The present paper investigated research problems addressing the issues with a knowledge extraction system and conducted a series of experiments to test our hypotheses. The findings from the experiments are as follows: First, the author verified, using three different test collections to measure the performance of our query expansion technique, that DocSpotter is robust and highly accurate when compared to Okapi BM25 and SLIPPER. Second, the author verified that our relation extraction algorithm, FCRF, is highly accurate in terms of F-Measure compared to four other competitive extraction algorithms: Support Vector Machine, Maximum Entropy, Single POS HMM, and Rapier.