• Title/Summary/Keyword: 텍스트검색시스템

검색결과 350건 처리시간 0.024초

텍스트 마이닝의 개념과 응용

  • 조태호
    • 지식정보인프라
    • /
    • 통권5호
    • /
    • pp.76-85
    • /
    • 2001
  • 정보검색시스템은 물론 텍스트 데이터를 대상으로하는 지식관리 시스템, 문서관리시스템, 그리고 전자도서관등에서 텍스트 마이닝에 대한 기술에 대한 수요가 증가하고 있는 추세이다. 이 글에서는 텍스트 마이닝의 개념을 소개하고, 텍스트 마이닝의 주요기능, 그리고, 응용사례등을 기술할것이다. 텍스트 마이닝은 텍스트 데이터를 대상으로 하여 그들간의 암묵적인 정보를 추출하는 과정으로 정의할 수 있다. 데이터마이닝과 텍스트 마이닝의 차이는 대상이 텍스트 데이터와 수치 데이터하는 점에서 구분되고 텍스트 마이닝은 데이터 마이닝과 달리 이를 구조화시키는 과정이 필요하다. 텍스트마이닝에 있어서 구조화하는 과정에서 가장 보편적으로 사용되는것은 문서색인이다.

  • PDF

XML 기반의 고문헌 검색 시스템 설계 (The Design for Ancient Literature Retrival System Using XML)

  • 이근우;이근무
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2001년도 춘계학술발표논문집
    • /
    • pp.390-394
    • /
    • 2001
  • 논문에서는 최근 인터넷 상에서 표준 공통 포맷으로 대두되는 XML을 이용하여 웹 기반의 역사자료의 데이터베이스 검색 시스템을 설계 및 구현하였다. 원격 교육 시스템의 참조문헌 지원 시스템을 설계하였다. 컴퓨터 상에서 고문헌 자료 주로 한자를 입력하고 검색할 수 있는 환경이 점차 나아지고 있다고는 하지만, 여전히 원전사료의 한자를 일반적인 환경에서 자유롭게 구현하는 일은 결코 용이하지 않다. 종래의 연구자들은 텍스트 별로 수작업으로 작성한 색인류를 이용하여 연구를 해왔다. 그러나 이러한 색인 이용방법에는 문제가 있다. 색인어로 삼고자 하는 단어를 텍스트에서 추출하는 과정에서 누락되는 경우가 있기 때문이다. 전산화된 데이터는 이른바 '발견적 이용'이라는 관점에서 활용될 수 있다.

  • PDF

사이버 박물관을 위한 내용 기반 멀티키디어 정보검색 시스템의 설계 및 구현 (Design and Implementation of a Content-Based Multimedia Information Retrieval System for Cyber Museums)

  • 심춘보;송광택;장재우
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제5권1호
    • /
    • pp.88-98
    • /
    • 1999
  • 사이버 박물관과 같은 응용 분야에서는 기존의 단순 속성, 텍스트 키워드 검색 이외에 색상, 형태, 질감과 같은 이미지 특징을 기반으로 하는 효율적인 내용-기반 검색이 요구된다. 본 논문에서는 사이버 박물관을위한 내용-기반 멀티미디어 정보검색 시스템을 설계 및 구현한다. 이를 위해, 박물관 문화재중에서 특히 도자기 이미지 객체에 대해 색상과 형태에 기반한 효율적인 이미지 특징벡터 추출방법을 제안한다. 아울러, 단순 속성 검색에대해서는 B+-트리, 텍스트 키워드 검색에 대해서는 역화일 기법, 그리고 이미지 특징 검색에 대해서는 TV-트리(Telescopic Vector)를 지원하는 통합 검색 기법을 제안한다. 그리고 UNIX OS와 X11R5 라이브러리 환경에서 표준 C 언어를 사용하여 내용 -기반 멀티미디어 정보검색 시스템을 구현한다.

텍스트의 상부구조를 이용한 전문탐색 기법의 타당성 고찰 (A Study on Feasibility of Full-text Search Using Super-structure of Text)

  • 이병기
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1996년도 제3회 학술대회 논문집
    • /
    • pp.19-22
    • /
    • 1996
  • 본 연구는 전문 D/B의 본문 필드를 텍스트 언어학적 상부구조로 분할하고 태그를 부여함으로써 이용자의 목적이나 상황에 따라서 필요한 부분만을 검색할 수 있는 전문탐색기법의 타당성을 고찰하였다. 한 문헌은 다수의 텍스트 단위로 구성되며, 이 텍스트는 의사소통이나 인지과정의 기본 단위로써 문헌 전체를 통괄하는 상부구조에 의해 연결된다. 상부구조는 텍스트의 생성과 이해에 중요한 매개체 역할을 하며, 정보요구의 상황이나 목적과 밀접하게 관련되어 있음을 밝히고 정보검색시스템의 주요 대상인 학술문헌의 상부구조를 고찰하였다.

  • PDF

코스모스 정보통신

  • 박민식
    • 디지털콘텐츠
    • /
    • 3호통권70호
    • /
    • pp.50-51
    • /
    • 1999
  • 불황에는 오히려 기술투자를 해야 합니다. 벤처기업의 살길은 기술입니다. 10년 가까이 정보검색시스템 개발에 몰두하는 코스모정보통신의 문성일 사장의 말이다. 일반 텍스트 검색시스템부터 이미지, 동화상까지 모든 분야의 검색기술을 보유하고 독자적인 영역을 확보한 코스모정보통신을 찾아가 불황의 터널을 이겨낸 비결에 대해 들어봤다.

  • PDF

구텐베르그 프로젝트 텍스트 데이터를 활용한 시각화 및 용례 검색 (Text Visualization and Concordance Search Using Gutenberg Project Text Data)

  • 김동성;신연수;이지안;유지민
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.175-178
    • /
    • 2017
  • 본 연구는 거시적 빅데이터 인문학과 미시적 언어 텍스트 검색 시스템을 구축하고, 이를 통해서 언어를 통한 문화의 역동적 변화를 시간적 순서에 따라 살펴보고자 한다. 연구의 최종적인 목표는 문화도 생물체처럼 변화하는 존재라 여기고 그 구성요소들을 연구한다는 뜻인 '문화체학(文化體學; Culturomics)'과 같은 '인문학 + 정보과학 + 사회과학' 등등의 다학문간의 융합적 연구에 있다. 이 시스템을 통해서 인류 역사의 기록인 텍스트 빅데이터를 통한 인문학적 성찰을 시각화하고 있다. 이러한 구글의 업적은 인문학과 정보기술의 융합을 통해서 인문학 자체의 지평을 넓히고, 사회과학을 변형시키고, 산업과 상아탑 사이의 관계를 재조정하는데 있다.

  • PDF

구텐베르그 프로젝트 텍스트 데이터를 활용한 시각화 및 용례 검색 (Text Visualization and Concordance Search Using Gutenberg Project Text Data)

  • 김동성;신연수;이지안;유지민
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.175-178
    • /
    • 2017
  • 본 연구는 거시적 빅데이터 인문학과 미시적 언어 텍스트 검색 시스템을 구축하고, 이를 통해서 언어를 통한 문화의 역동적 변화를 시간적 순서에 따라 살펴보고자 한다. 연구의 최종적인 목표는 문화도 생물체처럼 변화하는 존재라 여기고 그 구성요소들을 연구한다는 뜻인 '문화체학(文化體學; Culturomics)'과 같은 '인문학 + 정보과학 + 사회과학' 등등의 다학문간의 융합적 연구에 있다. 이 시스템을 통해서 인류 역사의 기록인 텍스트 빅데이터를 통한 인문학적 성찰을 시각화하고 있다. 이러한 구글의 업적은 인문학과 정보기술의 융합을 통해서 인문학 자체의 지평을 넓히고, 사회과학을 변형시키고, 산업과 상아탑 사이의 관계를 재조정하는데 있다[1].

  • PDF

교육용 문서의 텍스트분할 색인 (Text Partitioned Indexing Method for Educational Documents)

  • 강무영;이상구
    • 정보교육학회논문지
    • /
    • 제3권2호
    • /
    • pp.72-84
    • /
    • 2000
  • 정보검색시스템은 전자문서를 효율적으로 저장하고, 정보수요자들이 요구하는 자료를 검색을 통해 빠르게 제공하기 위한 시스템으로 정보화사회에 있어서 매우 중요한 역할을 하고 있다. 특히 색인은 데이터 베이스에 저장된 문서를 효과적으로 검색하기 위한 정보검색시스템의 필수 기능이다. 본 논문에서는 교육용 문서를 적은 자원으로 짧은 시간에 색인할 수 있는 텍스트분할에 의한 색인기법을 제안한다. 제안한 색인기법은 실제 검색시스템에 적용하고, 실험을 통해 우수성을 증명한다.

  • PDF

딥러닝 모델을 활용한 실시간 인쇄물 문자 탐지 시스템 (Real-time Printed Text Detection System using Deep Learning Model)

  • 최예준;김송원;문미경
    • 한국전자통신학회논문지
    • /
    • 제19권3호
    • /
    • pp.523-530
    • /
    • 2024
  • 웹페이지나 디지털 문서 등과 같은 온라인에서는 사용자가 검색하고 싶은 특정 단어나 특정 문구를 실시간으로 검색하는 기능이 있다. 인쇄된 도서나 참고서 등과 같은 인쇄물에는 실시간으로 특정 단어나 특정 문구를 찾는 기능이 없어 어려움을 겪는 경우가 많다. 본 논문에서는 텍스트를 탐지(Detection)하는 딥러닝 모델과 텍스트를 인식(Recognition)하는 OCR을 활용한 실시간 문자 탐지 시스템의 개발내용에 관해 기술한다. 본 연구에서는 EAST 모델을 사용하여 텍스트를 탐지하는 방법, 탐지한 텍스트를 EasyOCR을 사용하여 인식하는 방법, 인식한 텍스트를 사용자가 검색하고 싶은 특정 단어나 특정 문구를 비교하여 bounding box로 나타내는 방법을 제안한다. 이 시스템을 통해 사용자는 도서나 참고서 등과 같은 인쇄물에서 실시간으로 검색하고 싶은 특정 단어나 특정 문구를 찾아 필요한 정보를 쉽고 빠르게 찾는 것에 효과적일 것을 기대한다.

JPSearch 기술개요 및 동향조사

  • 조재훈;김영섭
    • 한국반도체및디스플레이장비학회:학술대회논문집
    • /
    • 한국반도체및디스플레이장비학회 2007년도 춘계학술대회
    • /
    • pp.271-275
    • /
    • 2007
  • 본 문서는 JPEG(Joint Photographic coding experts group)에서 새로운 분야로 준비중인 JPSearch의 기술개요와 구조를 소개함으로써 텍스트 기반에서 영상 대 영상 검색 시스템의 전환을 제시한다. 또한 영상 대 영상 검색 시스템의 기본적인 기술특징과 JPSearch에서 요구하는 시스템 구조를 설명한다. JPSearch의 영상 검색 시스템이 사용 가능한 다양한 사용자 경우를 제시하였다.

  • PDF