• Title/Summary/Keyword: 텍스트 검색

Search Result 677, Processing Time 0.03 seconds

A Study on Information Map based on Hypertext (하이퍼텍스트 기반의 정보 지도에 관한 연구)

  • Ryu, Cheol;Lee, Kang-Chan
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.04b
    • /
    • pp.755-758
    • /
    • 2001
  • 웹 문서는 하이퍼텍스트의 특성을 가지는 문서 형태를 가지며, 일반적인 문서의 특성 보다는 사용자에 의하여 쉽게 생성, 변경, 삭제되는 특성을 가지고 있다. 본 논문은 WWW 검색 엔진이 WWW의 확장성과 역동성을 반영하지 못하는 단점을 보완하는데 그 의의가 있다. 본 논문에서 제시하는 시스템은 기존의 WWW 검색 엔진을 통하여 얻은 검색 결과를 출발점으로 한 실시간 검색을 통하여 WWW 문서의 현재 상태를 정확하게 파악할 수 있는 장정이 있다. 또한 탐색 결과의 가시화를 통하여 웹 문서에 대한 정보 지도(information map)를 추출할 수 있으며, 이러한 기능을 통하여 기존의 정보 검색 엔진에서 제공하지 못하던 자신의 정보 요구에 맞는 정보 지도를 제공함으로써 새로운 지식의 전달을 꾀할 수 있다.

  • PDF

Studies on the linguistic properties of the IT-People documents for an efficient Information Retrieval (IT 인물 관련 텍스트 정보의 효율적인 검색을 위한 Sub-language의 속성 연구)

  • Koh, Seung-Hui;Kim, So-Yeon;Cheon, Seung-Mi;Nam, Jee-Sun;Kim, Kweon-Yang;Park, Se-Young;Berlocher, Ivan
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.241-249
    • /
    • 2007
  • 본 연구는 IT 인물 관련 텍스트 정보의 효율적인 검색을 위하여 문서 내에서 인물과 관련된 정보를 담고 있는 문장들이 어떠한 특징을 가지고 실현되는가를 살펴보고 언어적 속성을 어떻게 구조화하고 형식화할 것인가를 논의하는 것을 목적으로 한다. 언어적 속성 분석을 위해서 전자신문 내에서 인물 관련 코퍼스를 수집하고 이들의 분석을 통해 다음과 같이 문제가 되는 특징들을 확인하였다. 즉 외래어 음차 표기문제, 복합명사 및 명사구 그리고 서술 명사적 표현의 문제 등으로 요약된다. IT라는 특정 영역에 대해 텍스트 내에서의 어휘-통사적 패턴을 분석하고 언어적 특징에 대한 효율적 기술을 위해서는 LGG 부분 문법 그래프 모델을 활용하도록 한다. 본 연구는 특정 영역인 IT 관련 문서에서 자연언어 텍스트를 대상으로 정보 검색할 때 문제가 되는 다양한 언어학적 현상들을 다루며, 향후보다 확장된 영역에서의 효율적 언어 처리에 대한 방법론적 대안을 제시할 수 있을 것으로 기대된다.

  • PDF

Learning Bayesian Networks for Text Documents Classification (텍스트 문서 분류를 위한 베이지안망 학습)

  • 황규백;장병탁;김영택
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.262-264
    • /
    • 2000
  • 텍스트 문서 분류는 텍스트 형태로 주어진 문서를 종류별로 구분하는 작업으로 웹페이지 검색, 뉴스 그룹 검색, 메일 필터링 등이 분야에 응용될 수 있는 기반 작업이다. 지금까지 문서를 분류하는데는 k-NN, 신경망 등 여러 가지 기계학습 기법이 이용되어 왔다. 이 논문에서는 베이지안망을 이용해서 텍스트 문서 분류를 행한다. 베이지안망은 다수의 변수들간의 확률적 관계를 표현하는 그래프 모델로 DAG 형태인 망 구조와 각 노드에 연관된 지역확률분포로 구성된다. 그래프 모델을 사용할 경우 학습에 이용되는 각 속성들간의 관계를 사람이 알아보기 쉬운 형태로 학습할 수 있다는 장점이 있다. 실험 데이터로는 Reuters-21578 문서분류데이터를 이용했으며 베이안망의 성능은 나이브 베이즈 분류기와 비슷했다.

  • PDF

An Efficient Algorithm for Constructing Suffix Arrays for DNA String (DNA스트링에 효율적인 써픽스 배열 구축 알고리즘)

  • 조준하;박회진;김동규
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04a
    • /
    • pp.961-963
    • /
    • 2004
  • 써픽스 배열은 텍스트의 써픽스들을 사전적 순서대로 저장하여 검색을 효율적으로 할 수 있는 자료구조이다. 생물학에서의 DNA 스트링과 같이 긴 텍스트에 대해 써픽스 배열을 이용하면 빠르게 검색할 수 있다. 써픽스 배열은 유사한 자료구조인 써픽스 트리에 비해 적은 공간을 차지하기 때문에 생물학에서 사용하는 긴 텍스트의 처리에 유리하다. 최근, 텍스트에서 바로 써픽스 배열을 선형시간에 구축하는 알고리즘들이 발표되었다. 그러나 이들 알고리즘은 정수 문자집합을 위한 알고리즘들이었다. 본 논문에서는 고정길이 문자집합에 대해 써픽스 배열을 빠르게 구축하는 알고리즘을 소개한다. 그리고 실험을 통해서 DNA 스트링과 같은 고정길이 문자집합에 대해서 다른 알고리즘들과 구축시간을 비교하여 속도 향상이 있음을 보인다.

  • PDF

Implementation of Query Expansion Multimedia Data Retrieval System using "FUN" Based Ontology of Emotion (재미 감성 주제 온톨로지를 이용한 질의어 확장 멀티미디어 데이터 검색 시스템 구현)

  • Lee, Jung-Song;Byun, Dong-Ryul;Park, Soon-Cheol
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.279-284
    • /
    • 2010
  • 최근 컴퓨터와 네트워크의 기술 발달로 멀티미디어 데이터가 폭발적으로 증가하고 있다. 따라서 정보검색 시스템도 텍스트 데이터 위주에서 벗어나 멀티미디어 데이터 검색이 큰 비중을 차지하고 있다. 또한 멀티미디어 데이터 질의어처리도 기술적인 변화와 함께 다양한 질의어 확장으로 검색의 정확성을 높이고 있다. 본 논문에서는 인간의 감성에 대한 '재미' 주제 온톨로지를 구축하여 질의어 확장에 응용하였고, 한편의 동영상에서 재미 요소를 찾아내는 멀티미디어 데이터 검색 시스템을 구축하였다. 온톨로지 구축은 한글 워드넷(KorLex)에서 "재미"라는 특정 감소 요소의 의미 계층 구조를 파악하고 토픽맵을 이용하여 구축하였다. 또한, 온톨로지에 정의된 용어들 사이의 가중치는 실시간으로 계산하여 질의어를 확장에 적용하였으며, 따라서 검색의 효율성과 질을 높였다. 검색방법은 사용자가 질의어를 직접 입력하는 텍스트 입력 검색과 온톨로지 구조를 이용한 GUI 인터페이스 검색방법으로 나누어 사용자의 편의성을 증대시켰다.

  • PDF

A Study on Efficient Extraction of Text frame in MPEG News Video Images (MPEG 뉴스영상에서 효율적인 텍스트 프레임 추출에 관한 연구)

  • 정하영;황보택근
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2000.11a
    • /
    • pp.234-237
    • /
    • 2000
  • 멀티미디어 데이터를 다루는 기술이 급격하게 발전함에 따라 멀티미디어 데이터베이스를 운용함에 있어서 사용자의 효율적인 검색을 지원하기 위한 연구가 활발히 진행되고 있다. 본 논문에서는 MPEG으로로 압축된 뉴스 영상에서 내용기반 검색을 위한 효율적인 텍스트 프레임 추출방법을 제시한다. 제시하는 방법은 문자가 있는 프레임을 탐색하는 데 있어서 압축된 데이터에 최소한의 복호화만을 함으로써 탐색시간을 줄이고, 뉴스 영상에서의 문자의 특성을 고려하여 중복 추출을 줄이고 시간을 단축한다.

  • PDF

Desing and Implementation of Object Storage Engine for Large Multimedia Objects (대용량 멀티미디어 객체를 위한 객체 저장 엔진의 설계 및 구현)

  • 진기성;장재우
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.48-50
    • /
    • 2000
  • 최근 텍스트, 이미지, 오디오, 비디오와 같은 멀티미디어 객체를 다루는 연구는 국내외적으로 활발하게 진행되고 있으나, 이러한 멀티미디어 객체들을 효율적으로 저장 및 검색하기 위한 하부저장 시스템에 대한 연구는 미흡한 실정이다. 본 연구에서는 이러한 대용량 멀티미디어 객체들을 효율적으로 저장 및 검색하기 위한 구조를 분석하고 다양한 이질적 객체들을 위한 객체 관리자 및 대용량 텍스트를 위한 역화일 관리자를 설계한다. 아울러, 기존의 하부저정 구조인 SHORE 저장시스템에 통합하여 DBMS 측면에서 제공하는 동시성 제어, 회복기법 등을 지원할 수 있는 객체저장 엔진을 구현한다.

  • PDF

A Study on the Extraction and Utilization of Index from Bibliographic MARC Database (서지마크 데이터베이스로부터의 색인어 추출과 색인어의 검색 활용에 관한 연구 - 경북대학교 도서관 학술정보시스템 사례를 중심으로 -)

  • Park Mi-Sung
    • Journal of Korean Library and Information Science Society
    • /
    • v.36 no.2
    • /
    • pp.327-348
    • /
    • 2005
  • The purpose of this study is to emphasize the importance of index definition and to prepare the basis of optimal index in bibliographic retrieval system. For the purpose, this research studied a index extraction theory on index tag definition and index normalization from the bibliographic marc database and analyzed a retrieval utilization rate of extracted index. In this experiment, we divided index between text-type and code-type about the generated 29,219,853 indexes from 2,200,488 bibliographic records and analyzed utilization rate by the comparison of index-type and index term of web logs. According to the result, the text-type indexes such as title, author, publication, subject are showed high utilization rate while the code-type indexes were showed low utilization rate. So this study suggests that the unused index is removed from index definition to optimize index.

  • PDF

Detecting Intentionally Biased Web Pages In terms of Hypertext Information (하이퍼텍스트 정보 관점에서 의도적으로 왜곡된 웹 페이지의 검출에 관한 연구)

  • Lee Woo Key
    • Journal of the Korea Society of Computer and Information
    • /
    • v.10 no.1 s.33
    • /
    • pp.59-66
    • /
    • 2005
  • The organization of the web is progressively more being used to improve search and analysis of information on the web as a large collection of heterogeneous documents. Most people begin at a Web search engine to find information. but the user's pertinent search results are often greatly diluted by irrelevant data or sometimes appear on target but still mislead the user in an unwanted direction. One of the intentional, sometimes vicious manipulations of Web databases is a intentionally biased web page like Google bombing that is based on the PageRank algorithm. one of many Web structuring techniques. In this thesis, we regard the World Wide Web as a directed labeled graph that Web pages represent nodes and link edges. In the Present work, we define the label of an edge as having a link context and a similarity measure between link context and target page. With this similarity, we can modify the transition matrix of the PageRank algorithm. By suggesting a motivating example, it is explained how our proposed algorithm can filter the Web intentionally biased web Pages effective about $60\%% rather than the conventional PageRank.

  • PDF

A Study on Access Control of the Multimedia Text Data Retrieval (멀티미디어 텍스트 데이터 검색을 위한 접근기법 연구)

  • Yang, Chang-Ho;Jung, Yoon-Ki;Lee, Bae-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05a
    • /
    • pp.95-98
    • /
    • 2003
  • 컴퓨터와 통신의 급속한 발전으로 인하여 하루에도 수십 기가바이트의 정보가 매일매일 업데이트 되고 있다. 하지만 이러한 유용한 정보의 증가에도 불구하고 우리가 사용의 어려움과 검색시간이 길어진다면 엄청난 정보의 낭비를 초래할 것이다. 멀티미디어 정보에 대한 접근을 데이터의 특성상 매우 신속해야 하므로 검색시간 또한 최소화되어야 한다. 하지만 대용량의 멀티미디어 데이터베이스에서 데이터 접근은 막대한 시간을 낭비할 소지가 다분하다. 멀티미디어 데이터 접근은 데이터베이스를 구성하는 여러 미디어에 대해 생성되는 메타데이터에 기본을 둔다. 또한 사용되는 인덱스 구조는 미디어, 메타데이터, 질의 형식에 기반을 두고 생성된다. 즉 인덱싱의 기법에 따라 탁월한 검색성능의 향상을 보일 수 있다. 본 논문에서는 멀티미디어 데이터 중 텍스트 데이터 접근에 이용 가능한 여러 가지 인덱싱 기법들을 살펴보고 그에 따른 적용방법들을 제안한다.

  • PDF