• 제목/요약/키워드: 텍스트 검색

검색결과 677건 처리시간 0.027초

메타데이터 기반 시맨틱 검색 (Semantic Search based on Metadata)

  • 최정화;박영택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.694-696
    • /
    • 2005
  • 본 논문은 `시맨틱 검색`을 위해서 시맨틱 웹 기술을 사용하여 사용자가 원하는 콘텐츠 제공을 위한 시맨틱 검색 방법을 제안한다. 본 연구는 현재 웹의 단점인 사람 위주의 웹 구성, 단순 텍스트 매칭 기반의 검색, 사람의 필터링이 필요한 대량의 결과, 특정 지식 검색이 불가능한 구조의 웹을 시맨틱 검색이 가능하도록 하기 위해서 다음과 같은 단계로 연구한다. 첫째, 도메인에 따른 정확한 정보의 제공을 위해서 OWL 온톨로지를 이용하여 컨텍스트 모델링한다. 둘째, 도메인 관련 웹 문서를 수집하고 도메인 온톨로지를 기반으로 키워드의 의미를 분석하고 주석 처리(annotation)한다. 셋째, 사용자의 자연어 질의에 의미있는 컨텍스트를 추가하여 질의를 확장한다. 넷째, 확장된 질의를 규칙기반 추론엔진을 이용하여 결과를 추론한다. 마지막으로, 사용자 프로파일 분석을 이용하여 선호하는 문서를 우선으로 추천하는 방법을 연구한다. 따라서 본 연구는 질의어에 해당하는 결과문서가 존재하지 않더라도 사용자가 선호하는 문서의 추론이 가능하고, 특정 도메인의 전문가 지식을 추가한 메타 데이터 추론을 통해서 검색 패러다임을 변화시킨다.

  • PDF

후위 표기법을 사용한 수학식 색인 및 랭킹 (Indexing and Ranking Mathematical Equations Using Postfix Notation)

  • 이세희;신준수;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.160-164
    • /
    • 2009
  • 최근 인터넷 및 컴퓨터의 사용이 활발해짐에 따라 문서의 디지털화가 빠르게 진행되고 있다. 이런 변화에 따라 수학식이 많이 사용되는 과학, 공학, 수학 등의 분야와 관련된 문서들을 검색해야할 필요성이 늘어가고 있다. 그러나 현재 일반 검색엔진은 텍스트 검색만을 제공하며 별도의 수학식 검색은 제공하지 않는다. 따라서 본 논문에서는 수학식 검색이 가능하도록 수학식의 색인 방법 및 랭킹 방법을 제안한다. 제안하는 색인 방법은 MathML로 입력되는 수학식을 후위 표기법과 일반 색인 방법의 두 가지로 색인하며, 언어모델을 사용하여 질의에 적합한 수학식을 랭킹한다. 일반 검색 엔진의 성능과 비교하기 위하여 2-포아송 모델과 제안 모델을 비교하였으며, 그 결과 제안 모델의 성능이 더 우수함을 보였다.

  • PDF

XML 기반 멀티미디어 검색시스템의 설계에 관한 연구 (A Study on Design of Multimedia Retrieval System based on XML)

  • 윤미희;조동욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (상)
    • /
    • pp.103-106
    • /
    • 2003
  • 비디오는 멀티미디어 데이터의 가장 대표적인 형태로, 텍스트나, 이미지. 오디오와 객체의 움직임 같은 풍부한 정보를 담고 있다. 비정형의 멀티미디어 데이터를 다양하고 효율적으로 표현하기 위해서는 XML(extensible Markup Language)을 사용하여 저장하고 검색하는 멀티미디어 검색시스템이 필수적이다. 그러므로 멀티미디어 데이터에 대한 검색을 위해서는 멀티미디어 데이터의 내용을 구조적으로 설명하는 메타데이터가 필요하고 이 메타데이터를 XML을 사용하여 표현하며 저장하고 검색하기 위한 멀티미디어 검색시스템이 요구된다. 본 논문에서는 XML 메타데이터 모델링 기법과 이 모델링 기법을 기반으로 한 멀티미디어 검색시스템을 제안한다.

  • PDF

MiDAS-III에서 내용기반 이미지 검색을 위한 CIR-트리 관리기의 설계 및 구현 (Design and Implementation of the CIR-Tree Manager on MiDAS-III for Supporting Efficient Content-Based Image Retrieval)

  • 이희종;송석일;이석희;유재수;조기형;이훈순;이장선
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.302-304
    • /
    • 1999
  • 최근 이미지 데이터에 대한 요구가 폭발적으로 증가됨에 따라 대용량 이미지 데이터에 대한 저장과 검색에 관한 연구가 활발히 진행되고 있다. 그러나 이미지 데이터는 기존의 텍스트 데이터에 비해 대용량이라는 특성과 비정형적인 특성을 가지고 있어 신속하고 효율적인 검색에 많은 어려움이 있다. 본 논문에서는 기존에 이미지 검색을 위해 제안된 인덱스 구조중 고차원 특성을 효율적으로 수용하고 저장공간의 이용률과 검색성능이 뛰어난 CIR-트리를 국내에서 개발된 상용 데이터베이스 시스템인 바다의 하부 저장구조인 MiDAS 기반에서 구현한다. CIR-트리 관리기를 갖는 MiDAS-III에서 K-NN 질의 및 범위 질의가 처리될 때 순차검색에 비해 약 60~99%정도의 검색성능이 향상되었다.

  • PDF

멀티미디어 정보를 위한 통합 검색 프레임워크의 설계 및 구현 (Design and Implementation of Integration Retrieval Framework fer Multimedia Information)

  • 김창구;박호균
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2001년도 추계산학기술 심포지엄 및 학술대회 발표논문집
    • /
    • pp.245-250
    • /
    • 2001
  • 최근 멀티미디어 산업이 정보 사회의 핵심 산업으로 부상하면서 멀티미디어 데이터에 대한 사용자의 요구가 급증하고 있다. 이에 따라 다양한 멀티미디어 자료를 효율적으로 관리할 수 있는 멀티미디어 데이터베이스 시스템에 대한 연구가 국내외적으로 활발하게 진행되고 있다. 이를 위해서는 멀티미디어 응용서비스에서 필요로 하는 자료의 특성에 맞는 저장, 관리, 검색 기능을 효율적인 측면으로 통합하여 지원할 수 있는 데이터베이스 시스템 프레임워크가 필요하다. 본 논문에서는 멀티미디어 정보에 요구되는 다양한 검색 방법을 기존의 데이터베이스 검색과 통합하여 제공할 수 있는 통합 검색 프레임워크의 설계 및 구현에 대하여 서술한다. 본 프레임워크에서는 OODBMS을 기반으로 텍스트에 대한 검색은 시스템내 완전 밀결합시키고, 기타 미디어 및 멀티미디어 응용 클래스에 대한 검색은 서버에 통합되어 동작하고 메소드 지원에 따른 오버 헤드를 최소화한다.

In-Context 검색 증강형 한국어 언어 모델 (In-Context Retrieval-Augmented Korean Language Model)

  • 이성민;이정;서대룡;전동현;강인호;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.443-447
    • /
    • 2023
  • 검색 증강형 언어 모델은 입력과 연관된 문서들을 검색하고 텍스트 생성 과정에 통합하여 언어 모델의 생성 능력을 강화한다. 본 논문에서는 사전 학습된 대규모 언어 모델의 추가적인 학습 없이 In-Context 검색 증강으로 한국어 언어 모델의 생성 능력을 강화하고 기존 언어 모델 대비 성능이 증가함을 보인다. 특히 다양한 크기의 사전 학습된 언어 모델을 활용하여 검색 증강 결과를 보여 모든 규모의 사전 학습 모델에서 Perplexity가 크게 개선된 결과를 확인하였다. 또한 오픈 도메인 질의응답(Open-Domain Question Answering) 과업에서도 EM-19, F1-27.8 향상된 결과를 보여 In-Context 검색 증강형 언어 모델의 성능을 입증한다.

  • PDF

텍스트 내용 기반의 철학 온톨로지 구축 및 교육에의 응용 (Building a Philosophy Ontology based on Content of Texts and its Application to Learning)

  • 정현숙;최병일
    • 정보교육학회논문지
    • /
    • 제9권2호
    • /
    • pp.257-270
    • /
    • 2005
  • 철학을 비롯한 인문학의 연구에 있어서 연구자들에게 텍스트는 지식을 습득하는 중요한 매체이다. 그러나 현재의 서지정보 중심의 문헌 검색으로는 연구자들이 여러 텍스트들로부터 필요한 지식만을 선택적으로 습득하는데 많은 시간과 노력을 들인다. 본 논문에서는 텍스트 내용에 의거한 지식 검색이 가능하도록 철학 고전 텍스트를 대상으로 철학 온톨로지를 구축하였다. 철학 온톨로지는 전문가에 의해 동서양의 철학 고전 텍스트로부터 분석된 주요 철학 개념과 의미 기반 계층관계 및 연관관계 정의하고 있으며 개념 해설서를 비롯한 온오프라인의 철학 지식 자원들을 연결하고 있다. 본 논문에서는 철학 온톨로지 구축 과정을 3개의 단계와 14개의 세부과정으로 나열함으로써 다른 분야의 학문 온톨로지 구축을 위한 하나의 가이드라인을 제시하고 있으며 철학 온톨로지의 응용사례로서 대학의 철학 수업에서의 교수자와 학습자 사이의 철학 온톨로지에 기반한 지식 습득 및 교류가 가능함을 보였다.

  • PDF

대용량 플래시 메모리를 위한 임베디드 텍스트 인덱스 시스템 (An Embedded Text Index System for Mass Flash Memory)

  • 윤상훈;조행래
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권6호
    • /
    • pp.1-10
    • /
    • 2009
  • 플래시 메모리는 비휘발성이고 저전력으로 동작하며 가볍고 내구성이 강하다. 이러한 특성으로 휴대용 멀티미디어 재생기(PMP)와 같은 모바일 컴퓨팅 환경에서의 저장 장치로 많이 사용되고 있다. 대용량의 플래시 메모리를 저장 장치로 가진 모바일 기기들은 비디오/오디오/사진등과 같은 다양한 종류의 멀티미디어 데이터를 저장하고 재생한다. 모바일 컴퓨팅 장치를 위한 기존의 인덱스 시스템은 노래 가사와 같은 텍스트 형태의 정보 검색에 비효육적이다. 본 논문에서는 대용량 플래시 메모리 기반 임베디드 텍스트 인덱스(Embedded Text Index: EMTEX) 시스템을 제안한다. EMTEX는 먼저 임베디드 시스템을 고려한 압축 알고리즘을 사용하며, 텍스트 인덱스가 구성된 필드에 삽입 및 삭제시 인덱스에 즉시 반영된다. 뿐만 아니라, 플래시 메모리의 특성을 고려한 효율적인 삽입, 삭제, 재구성 기능을 수행하며, DBMS의 상위 계층에서 독립적으로 동작한다는 장점을 갖는다. 제안한 시스템의 성능 평가를 위해 다양한 환경에서 실험을 수행하였다. 그 결과 EMTEX는 임베디드 환경에서 Oracle Text나 FT3와 같은 기존의 인덱스 시스템보다 더 좋은 성능을 보여주었다.

논에 설치한 유아등에 채집되는 멸구류 동정을 위한 하이퍼텍스트 기반 검색표 개발 (Development of a Hypertext-based Polychotomous Key for the Identification of Planthoppers Caught by Light Trap in Paddy Fields)

  • 김황용;박창규;한만위;엄기백;우건석
    • 한국응용곤충학회지
    • /
    • 제41권2호
    • /
    • pp.75-83
    • /
    • 2002
  • 논에 설치한 유아등에 채집되는 멸구류를 비전문가들도 쉽게 동정할 수 있도록 인터넷에서 운영할 수 있는 하이퍼텍스트 기반의 검색표를 개발하였다. 그리고 정확성 검정을 위해 곤충 동정 경험이 없는 12명의 대학생을 대상으로 그 효용성을 평가하였다. 그 결과, 흰등멸구의 동정 정확성은 56%에서 83%로 증가하였고, 애멸구의 동정 정확성은 47%에서 80%로 증가하였다. 그러나 벼 멸구의 동정 효율을 높이는데는 충분하지 못한 것으로 나타났다.

문서기술언어 SGML에 의한 전문 데이터베이스의 구축 (Construction of Full-text Database by SGML)

  • 김창봉
    • 정보관리연구
    • /
    • 제27권4호
    • /
    • pp.35-56
    • /
    • 1996
  • 문서기술언어 SGML(Standard Generalized Markup Language, 표준 범용 마크업 언어)과 그 전문 데이터베이스(도표나 화상 포함)에의 적용에 대하여 해설하였다. SGML을 적용한 전문데이터베이스의 구조는 SGML로 작성한 DTD (document type definition)로 표현하고 텍스트자체는 DTD에 따른 범용 마크업을 사용하여 기술한다. 본고에서는 장, 절, 단락 등의 계층구조와 각주, 도표, 화살 등의 비계층 구조로 되어 있는 문서 구조를 어떻게 표현하는가에 대하여 예를 들어 해설하였다. 그러고 SGML의 효과, 전자 출판, 검색 시스템, 하이퍼텍스트, SGML 관련 도구 등에 대해서도 해설하였다.

  • PDF