• 제목/요약/키워드: 검색어 추출

검색결과 329건 처리시간 0.028초

영상 대 영상 매칭을 이용한 한글 문서 영상에서의 단어 검색 (Keyword Spotting on Hangul Document Images Using Image-to-Image Matching)

  • 박상철;손화정;김수형
    • 정보처리학회논문지B
    • /
    • 제12B권3호
    • /
    • pp.357-364
    • /
    • 2005
  • 본 논문에서는 두 단계 이미지 매칭을 이용하여 한글 문서영상에서 사용자 검색어를 빠르고 정확하게 검색할 수 있는 시스템을 제안한다. 본 시스템은 문자 분리, 검색어 영상 생성, 특징 추출 그리고 이미지 매칭 과정으로 구성된다. 매칭 과정에서 차원이 다른 두 가지 특징 벡터를 이용한다. 8쪽 분량의 문서 영상을 한국정보과학회 웹사이트에서 다운로드하였고, 그 문서로부터 1600개의 한글단어 영상을 획득하여 실험데이터로 사용하였다 그 결과 제안한 시스템은 기존에 제안된 영상-기반 한글 단어 검색 시스템보다 성능이 크게 향상되었음을 알 수 있었다.

태그결합을 이용한 불리언 검색에서 순위화된 검색결과를 제공하기 위한 시스템 설계 및 구현 (Design and Implementation of Tag Coupling-based Boolean Query Matching System for Ranked Search Result)

  • 김용;주원균
    • 정보관리학회지
    • /
    • 제29권4호
    • /
    • pp.101-121
    • /
    • 2012
  • 불리언 검색만을 제공하는 정보시스템들은 순위화된 검색 결과를 제공하지 않아 이용자들이 많은 시간을 들여 수많은 결과를 일일이 확인해야하는 단점이 있다. 따라서 본 연구에서는 불리언 검색 모델의 단점을 극복하기 위한 방법으로써 불리언 검색에서 적용되고 있는 색인 가중치 정보 대신에 태그 간의 결합 관계 정보를 이용하여 순위화된 검색 결과를 제공하기 위한 시스템을 제안한다. 본 연구에서 제안하고 있는 방법은 일반적인 키워드 질의 대신에 문서를 질의로 사용하기 때문에 해당 문서에서 질의로 사용하는 핵심태그를 추출한다. 질의 생성 과정에서는 태그결합도에 따라 다양한 그룹의 불리언 질의를 생성하고, 매칭 과정에서는 해당 질의어 그룹 간에 차별성 정보와 태그 중요도 정보를 이용하여 순위화를 처리한다. 본 연구에서 제안하고 있는 방법의 유용성을 평가하기 위하여 선정된 연구정보와 관련된 동향분석정보를 추출하는 과정에 적용하여 실험을 수행하였다. 또한 제안된 방법에 대한 이용자 평가를 위하여 다수의 이용자들을 대상으로 약 1년간 서비스를 제공하였으며 그 결과 높은 이용자 만족도를 확보할 수 있다고 조사되었다.

화제인식에 의한 단락별 계산방법의 설계 (Design of Passage Calculation Method based on Topic Recognition)

  • 김혜경;이상곤
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.499-501
    • /
    • 2005
  • 화제가 혼합되어 있는 문서에서 각 화제의 단락을 추출하면 사용자의 질의어에 일치하는 정보만을 추출할 수 있다. 정확하고 빠르게 사용자의 검색요구에 일치하는 관련 정보를 추출할 수 있다. 본 논문에서는 문서에서 사용자의 요구에 적합한 단락을 추출하는 기술을 설명한다. 문서에서 분야연상어를 추출하고, 각 문장마다 화제분야의 출현${\cdot}$계속${\cdot}$전환이 어떻게 변화하여 가는지를 추적하여 계산한다. 긴 문서에서 어떤 화제가 출현하는가를 파악하고, 화제가 계속되거나 혹은 전환되는 지점을 인식하여, 분야별 단락을 추출하는 방법을 제안한다.

  • PDF

폐쇄자막을 기반한 자막기반 동영상 검색 시스템 (Video retrieval system based on closed caption)

  • 김효진;황인정;이은주;이응혁;민홍기
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2000년도 추계종합학술대회논문집
    • /
    • pp.57-60
    • /
    • 2000
  • 동영상 데이터와 같은 영상자료는 많은 활용분야를 가지고 있지만, 비정형성과 구조의 복잡성으로 인하여 손쉽게 검색을 하거나 재사용하는 데 있어서 많은 어려움을 가지고 있다. 본 논문에서는 동영상과 같은 멀티미디어 데이터를 구조적이고 체계화된 형태로 기술한 언어인 SMIL과 SAMI를 사용하여 동영상과 동기화 되어있는 폐쇄자막을 기반으로 동영상을 검색하는 시스템을 구현하였다. 사용자의 검색어를 입력받아 자막파일에서 검색어를 가지고 있는 문자열에서 시간 요소를 추출하여 해당하는 동영상 화면을 보여주는 구조를 가지고 있다.

  • PDF

사용자 질의를 이용한 XML 태그의 가중치 결정 (Weighting of XML Tag using User's Query)

  • 우선미;유춘식;김용성
    • 정보처리학회논문지D
    • /
    • 제12D권3호
    • /
    • pp.439-446
    • /
    • 2005
  • 보다 효과적인 색인어 추출 및 색인어 가중치 결정을 위하여 문서의 내용뿐만 아니라 구조를 이용하여 색인을 추출하는 연구가 이루어지고 있다. 이러한 연구들 대부분이 XML 태그의 중요도가 아닌, 문맥상의 단락에 대한 중요도를 계산하거나 HTML 문서 태그의 중요도를 결정하는 연구들이다. 이러한 기존 연구들은 대부분이 객관적인 실험을 통해서 중요도를 입증하기보다는 상식적인 관점에서 단순한 수치로 중요도를 결정하고 있다. 본 논문에서는 웹 문서 관리를 위한 표준으로 자리잡아가고 있는 XML 문서의 태그 정보를 이용한 자동색인을 위하여, 논문을 구성하는 주요 태그의 가중치를 계산하는 방법을 제안한다. 보다 객관적인 가중치 결정을 위하여 사용자의 질의에 바탕을 둔 사용자의 검색 행위를 반영한다. 그리고 기존 방법을 적용하여 계산된 색인어 가중치를 이용한 검색성능과 비교함으로써 본 논문에서 제안한 방법을 적용하여 계산된 색인어 가중치의 효과를 검증한다.

데이타베이스 검색을 위한 자연 질의어 변환 시스템 (Natural Query Translation System for Database Retrieval)

  • 신누미;최준혁;이정현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.79-89
    • /
    • 1993
  • 본 논문에서는 대형 데이타베이스에서의 정보검색을 위한 자연언어 인터페이스 시스템을 구현하기 위한 방법을 제안한다. 질의문의 특성을 고찰하고 이를 일반적인 문장의 관점에서 수용하여 구문분석시에 반영한다. 구문분석 결과는 다음의 후처리 절차를 통해 정형 질의어인 SQL로 변환된다. 명사의 의미소성과 도메인의 어휘적 형태를 이용하여 질의문 내에 명시적으로 나타나지 않은 정보를 추출한다. 또한 질의문 내의 애트리뷰트, 릴레이션, 상수의 관련성을 규명한다. 이 두 절차를 통해 기존의 질의어 변환 시스템에서 지식베이스화하여 사용했던 자료들을 구축할 필요가 없어지므로 데이타베이스의 변경, 삽입, 삭제에 의한 영향을 받지 않으며, 자료구조 생성에 따른 부담을 없앨 수 있다.

  • PDF

적응적인 시맨틱 정보 추출을 위한 대화형 사용자 질의 인터페이스 개발 (Developing an Interactive User Interface System for Adaptive Semantic Information Retrieval)

  • 조영현;손진현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.481-483
    • /
    • 2004
  • 기존의 웹 서비스는 않은 애플리케이션으로 개발되었고, 다양한 분야에서 잘 활용되어 왔다. 하지만, HTML을 기반 한 기존의 웹은 더 이상의 기능적 성장은 어렵게 되어 기존 웹 서비스의 성장에도 제악을 가져왔다. 이런 문제점을 극복하기 위해 시맨틱 웹이 대두되었다. 시맨틱 웹은 자원의 공유, 통합, 자동생성의 특징을 가진 기존 웹의 확장이다. 최근 기존의 웹 서비스는 시맨틱 웹의 이런 특성들을 받아들이려는 시도가 있었다. DAML-S가 대표적인 예이다. 본 논문은 기존 웹 서비스 검색처럼 일반 사용자도 편리하게 시맨틱 웹 서비스를 검색할 수 있도록 대화형 사용자 질의 인터페이스를 제시한다. 또, 사용자가 선택한 질의가 시맨틱 질의어(ROQL)로 자동 변환할 수 있는 시맨틱 질의어 자동 생성기 모듈을 제시한다.

  • PDF

XML 기반의 고문헌 검색 시스템 설계 (The Design for Ancient Literature Retrival System Using XML)

  • 이근우;이근무
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2001년도 춘계학술발표논문집
    • /
    • pp.390-394
    • /
    • 2001
  • 논문에서는 최근 인터넷 상에서 표준 공통 포맷으로 대두되는 XML을 이용하여 웹 기반의 역사자료의 데이터베이스 검색 시스템을 설계 및 구현하였다. 원격 교육 시스템의 참조문헌 지원 시스템을 설계하였다. 컴퓨터 상에서 고문헌 자료 주로 한자를 입력하고 검색할 수 있는 환경이 점차 나아지고 있다고는 하지만, 여전히 원전사료의 한자를 일반적인 환경에서 자유롭게 구현하는 일은 결코 용이하지 않다. 종래의 연구자들은 텍스트 별로 수작업으로 작성한 색인류를 이용하여 연구를 해왔다. 그러나 이러한 색인 이용방법에는 문제가 있다. 색인어로 삼고자 하는 단어를 텍스트에서 추출하는 과정에서 누락되는 경우가 있기 때문이다. 전산화된 데이터는 이른바 '발견적 이용'이라는 관점에서 활용될 수 있다.

  • PDF

분야연상어를 이용한 화제분야의 계산방법과 단락검색 (Passage Retrieval and Calculation Method of Topic Field by Using Field-Associated Terms)

  • 이상곤
    • 정보처리학회논문지B
    • /
    • 제12B권1호
    • /
    • pp.57-68
    • /
    • 2005
  • 텍스트에 임베디드 되어 있는 부가적인 정보를 이용하여 문서의 실제적인 의미단위인 텍스트를 분리하는 단락검색은 중요한 기술이다. 본 논문에서는 문서의 분야에 적합한 단락만을 분리하여 사용자의 요구에 적합한 단락을 추출하는 기술을 설명한다. 문서에서 분야연상어론 추출하여, 각 문장마다 화제의 분야가 어떻게 커져가고, 줄어들고, 변화하여 가는지를 측정하는 방법을 실험을 통해 설명한다. 긴 문서에서 어떤 화제가 출현하는가를 파악하고, 화제가 계속되거나 혹은 전환되는 지점을 측정하고, 분야별로 단락을 구분하는 방법을 계산한다. 12,500개의 한국어 신문기사를 이용하여 실험한 결과 $88{\%}$의 정확률과 $78{\%}$의 재현율을 얻을 수 있었다.

문서 특성에 대한 선호도 기반 웹 검색 개인화 (Web Search Personalization based on Preferences for Page Features)

  • 이수정
    • 정보교육학회논문지
    • /
    • 제15권2호
    • /
    • pp.219-226
    • /
    • 2011
  • 웹 상에서 사용자가 원하는 정보를 효율적으로 검색하는데 도움을 주기 위하여 웹 개인화는 사용자에게 흥미있는 웹 문서들을 추출해내는데 초점을 두고 있다. 이를 실현하기 위한 주요 방법들 중 하나는 문서에 포함된 질의어, 링크 및 사용자의 선호어를 이용하는 것이다. 본 연구에서는 이들 요소 외에 사용자들이 웹문서를 선택할 때 중요하게 생각하는 문서 특성들을 설문을 통하여 조사하였다. 설문 결과 문서의 내용이 가장 중요한 특성이었으나, 일부 사용자들에게는 문서에 포함된 이미지와 가독성도 내용과 마찬가지로 중요하게 간주되었다. 이를 바탕으로 각 사용자를 위한 문서의 주요 특성들의 상대적 가중치를 프로필에 유지 관리하고, 검색 결과의 개인화에 반영하는 방안을 제시한다. 제안한 개인화 방법의 성능을 분석한 결과, 일반 검색 엔진에 비해 최대 약 2.3배의 성능 향상을 보였고, 사용자 질의어와 선호어를 모두 이용하여 검색 결과를 산출하는 방법보다 약 1.5배의 성능 향상을 나타내어 그 우수성을 입증하였다.

  • PDF