• 제목/요약/키워드: Text Retrieval

검색결과 342건 처리시간 0.028초

정보검색 기술을 이용한 비교사 학습 기반 문서 분류 시스템 개발 (Developing a Text Categorization System Based on Unsupervised Learning Using an Information Retrieval Technique)

  • 노대욱;이수용;나동열
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.98-106
    • /
    • 2006
  • 문서분류기의 개발에 있어 교사학습기법을 이용할 경우 많은 양의 사람에 의한 범주 부착 말뭉치가 필요하다. 그러나 이의 구축은 많은 시간과 노력을 필요로 한다. 최근 이러한 범주 부착 말뭉치 대신 원시말뭉치와 범주마다 약간의 씨앗 정보를 이용하여 학습을 수행하여 문서분류기를 개발하는 방법론이 제시되었다. 본 논문에서는 이 방법론 하에서 다른 연구에서의 결과보다 좋은 성능을 나타내는 비교사 학습 기법을 소개한다. 본 논문에서 제시하는 기법의 특징은 씨앗 단어에서 출발하여 평균상호정보를 이용하여 다른 대표단어 및 그들의 가중치를 학습한 다음, 정보검색에서 많이 사용하는 기술을 이용하여 그 가중치를 갱신하는 것이다. 그리고 이 과정을 반복 수행하여 최종적으로 높은 성능의 시스템을 개발할 수 있음을 제시하였다.

  • PDF

음절 Bi-gram정보를 이용한 한국어 OCR 후처리용 자동 띄어쓰기 (Automatic Word-Spacing of Syllable Bi-gram Information for Korean OCR Postprocessing)

  • 전남열;박혁로
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.95-100
    • /
    • 2000
  • 문자 인식기를 가지고 스캔된 원문 이미지를 인식한 결과로 형태소 분석과 어절 분석을 통해 대용량의 문서 정보를 데이터베이스에 구축하고 전문 검색(full text retrieval)이 가능하도록 한다. 그러나, 입력문자가 오인식된 경우나 띄어쓰기가 잘못된 데이터는 형태소 분석이나 어절 분석에 그대로 사용할 수가 없다. 한글 문자 인식의 경우 문자 단위의 인식률은 약 90.5% 정도나 문자 인식 오류와 띄어쓰기 오류 등을 고려한 어절 단위의 인식률은 현저하게 떨어진다. 이를 위해 한국어의 음절 특성을 고려해서 사전을 기반하지 않고 학습이 잘된 말뭉치(corpus)와 음절 단위의 bigram 정보를 이용한 자동 띄어쓰기를 하여 실험한 결과 학습 코퍼스의 크기와 띄어쓰기 오류 위치 정보에 따라 다르지만 약 86.2%의 띄어쓰기 정확도를 보였다. 이 결과를 가지고 형태소 분석과 언어 평가 등을 이용한 문자 인식 후처리 과정을 거치면 문자 인식 시스템의 인식률 향상에 크게 영향을 미칠 것이다.

  • PDF

이미지의 속성 및 랭크 정보를 이용한 이미지 검색 시스템 (Image Retrieval System Using Image Attributes and Links)

  • 한기덕;정성원;윤근수;권혁철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (상)
    • /
    • pp.333-336
    • /
    • 2003
  • 컴퓨터와 네트워크의 처리속도 증가와, 인터넷의 발달로 인하여 이미지, 사운드, 동영상 등 각종 멀티미디어 정보가 인터넷상에 다수 등록되고 있으며, 이에 대한 검색 요구도 증가하고 있다. 그에 따라 다양한 멀티미디어 정보 검색을 위한 방법이 연구되고 있지만, 그에 대하 활용도는 미미하며, 데이터 베이스에 등록된 단순 멀티미디어 정보 검색에 머물고 있는 실정이다. 이에 본 연구는 인터넷상의 멀티미디어 정보 중 이미지 정보를 능동적으로 수집, 정보를 추출하여 검색에 이용한다 이를 위하여, 이미지에 대한 text 정보와 이미지의 속성 및 Link 정보를 이용, 의미 있는 이미지와 의미 없는 이미지를 분류하여 검색의 효율을 높이고, 속성 및 Link 정보를 가중치로 사용함으로써 검색 시 이미지의 중요도를 평가할 수 있도록 한다.

  • PDF

멀티미디어 텍스트 데이터 검색을 위한 접근기법 연구 (A Study on Access Control of the Multimedia Text Data Retrieval)

  • 양창호;정윤기;이배호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (상)
    • /
    • pp.95-98
    • /
    • 2003
  • 컴퓨터와 통신의 급속한 발전으로 인하여 하루에도 수십 기가바이트의 정보가 매일매일 업데이트 되고 있다. 하지만 이러한 유용한 정보의 증가에도 불구하고 우리가 사용의 어려움과 검색시간이 길어진다면 엄청난 정보의 낭비를 초래할 것이다. 멀티미디어 정보에 대한 접근을 데이터의 특성상 매우 신속해야 하므로 검색시간 또한 최소화되어야 한다. 하지만 대용량의 멀티미디어 데이터베이스에서 데이터 접근은 막대한 시간을 낭비할 소지가 다분하다. 멀티미디어 데이터 접근은 데이터베이스를 구성하는 여러 미디어에 대해 생성되는 메타데이터에 기본을 둔다. 또한 사용되는 인덱스 구조는 미디어, 메타데이터, 질의 형식에 기반을 두고 생성된다. 즉 인덱싱의 기법에 따라 탁월한 검색성능의 향상을 보일 수 있다. 본 논문에서는 멀티미디어 데이터 중 텍스트 데이터 접근에 이용 가능한 여러 가지 인덱싱 기법들을 살펴보고 그에 따른 적용방법들을 제안한다.

  • PDF

한.중 교차언어 검색에서 시소러스를 이용한 질의 확장 (Query Expansion Using Thesaurus for Korean to Chinese Cross- Language Text Retrieval)

  • 김풍;강인수;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.538-540
    • /
    • 2003
  • 본 논문은 한.중 교차언어 검색을 위한 효과적인 질의 확장에 대해 기술하고 있다. 한.중 교차언어 검색은 한국어 질의로 중국어 문서를 검색하는 것이고 본 논문에서는 대역어 사전을 이용하여 한국어 질의를 중국어 질의로 변환하는 방식을 사용한다. 질의 확장을 위한 방법으로 중국어 시소러스인“동의사사림”을 사용하였다. 그리고 동의어들과 주변 단어간의 상호 정보를 비교함으로서 재현률과 정확률을 높였다. 실험을 통하여 검증한 결과 사전만 사용하여 변환하는 방법에 비하여 검색 성능이 향상되었다.

  • PDF

CORBA와 JAVA를 이용한 그룹통신 구현 및 성능 분석 (Implementation and Performance Analysis of Group Communication using the CORBA & JAVA)

  • 최만억;구용완
    • 정보처리학회논문지A
    • /
    • 제8A권4호
    • /
    • pp.461-468
    • /
    • 2001
  • Large-scale distributed applications based on Internet and client/server applications have to deal with series of problems such as load balancing, unpredictable communication delays, partial errors, and networking failures. Therefore, sophisticated applications such as teleconferencing, video-on-demand, and concurrent software engineering require an abstracted communication. In this paper, we present our design, implementation and performance analysis of group communication using the CORBA ORB, JAVA RMI, Socket based on distributed computing. We anticipate our study may apply to the various field of applications such as fault-tolerant client/server system, groupware, scalable text retrieval system, and financial information systems.

  • PDF

효율적 XML 문서 변경 및 검색을 위한 페이징 기법 (Paging Mechanism for Efficient XML Document Updates and Retrieval)

  • 연제원;이강찬;이규철;나중철;이미영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.99-101
    • /
    • 1999
  • 최근 들어 XML에 대한 연구가 늘어나면서, XML(eXtensible Markup Language)문서에 대한 저장/검색에 대한 다양한 방법들이 제시되고 있다. 특히 XML 문서의 구조적인 특성을 살리면서 문서의 저장 및 변경을 원활하게 지원할 수 있는 방안에 대한 요구가 늘고 있다. 기존의 저장관리 시스템을 위한 저장 모델로는 크게, XML 문서의 빠른 검색을 지원할 수 있는 가상분할모델(Virtual Fragmentation Model)과 문서에 대한 변경을 빠르게 지원해 줄 수 있는 분할모델(Decomposition Model)로 나누어 볼 수 있는데, 본 연구에서는 이 두가지 모델의 장점을 취합하여 문서의 검색 속도는 가상분할모델정도로, 문서의 변경속도는 분할모델정도로 빠르게 지원해 줄 수 있는 페이징(Paging)기법에 대해 설계하였다. 본 페이징 기법은 XML문서뿐만 아니라, HTML(HiperText Markup Language) 문서의 저장관리 시스템에서도 똑같이 적용될 수 있다. 본 연구의 후반부에서는 페이징 기법과 다른 기법에 대한 비교를 통하여 페이징 기법의 성능을 분석하였다.

  • PDF

Storing Digital Information in Long-Read DNA

  • Ahn, TaeJin;Ban, Hamin;Park, Hyunsoo
    • Genomics & Informatics
    • /
    • 제16권4호
    • /
    • pp.30.1-30.6
    • /
    • 2018
  • There is urgent need for effective and cost-efficient data storage, as the worldwide requirement for data storage is rapidly growing. DNA has introduced a new tool for storing digital information. Recent studies have successfully stored digital information, such as text and gif animation. Previous studies tackled technical hurdles due to errors from DNA synthesis and sequencing. Studies also have focused on a strategy that makes use of 100-150-bp read sizes in both synthesis and sequencing. In this paper, we a suggest novel data encoding/decoding scheme that makes use of long-read DNA (~1,000 bp). This enables accurate recovery of stored digital information with a smaller number of reads than the previous approach. Also, this approach reduces sequencing time.

A Study on the Performance Analysis of Entity Name Recognition Techniques Using Korean Patent Literature

  • Gim, Jangwon
    • 한국정보기술학회 영문논문지
    • /
    • 제10권2호
    • /
    • pp.139-151
    • /
    • 2020
  • Entity name recognition is a part of information extraction that extracts entity names from documents and classifies the types of extracted entity names. Entity name recognition technologies are widely used in natural language processing, such as information retrieval, machine translation, and query response systems. Various deep learning-based models exist to improve entity name recognition performance, but studies that compared and analyzed these models on Korean data are insufficient. In this paper, we compare and analyze the performance of CRF, LSTM-CRF, BiLSTM-CRF, and BERT, which are actively used to identify entity names using Korean data. Also, we compare and evaluate whether embedding models, which are variously used in recent natural language processing tasks, can affect the entity name recognition model's performance improvement. As a result of experiments on patent data and Korean corpus, it was confirmed that the BiLSTM-CRF using FastText method showed the highest performance.

2차 법률정보 전문데이터베이스에 있어서 통제어 색인시스템과 자연어 색인시스템의 검색효율 평가에 관한 연구 (A Study on the Indexing System Using a Controlled Vocabulary and Natural Language in the Secondary Legal Information Full-Text Databases : an Evaluation and Comparison of Retrieval Effectiveness)

  • 노정란
    • 한국문헌정보학회지
    • /
    • 제32권4호
    • /
    • pp.69-86
    • /
    • 1998
  • 본 연구는 2차 법률정보 전문 데이터베이스 구축을 위한 기초연구(권기원, 노정란, 1998, 한국문헌정보학회지, 32(3))에서 밝혀진 법률정보의 특성을 근거로 알고리즘을 개발하고 알고리즘에 의한 모형 통제어 데이터베이스를 구축하여 통제어 색인 시스템과 자연어 색인 시스템의 검색효율을 비교 평가한 것이다. 연구 결과 2차 법률 정보 전문 데이터베이스에서 통제어 색인 시스템은 재현을, 정확률, 자연어 시스템이 검색하지 못한 고유한 적합 문헌을 검색하는 능력에 있어서 자연어 색인시스템보다 높은 효율을 나타내었다. 또한 일반적으로 가중치를 부여하거나 접근점을 추가할 경우 데이터베이스의 정확률이나 재현율의 향상을 가져올 수 있다고 보고 있으나, 2차 법률정보 전문 데이터베이스에서는 법률정보라는 특정 지식 분야의 특성으로 인하여 가중치를 부여하거나 접근점을 추가한 경우에도 재현율과 정확률의 향상을 나타내지 않는다는 사실이 맞혀졌다. 그러므로 정보시스템 설계자는 시스템을 단순히 언어학적, 통계학적 방법으로 접근하기보다는 정보전문가와 주제전문가가 인식하고 있는 각 주제분야의 고유 지식을 시스템에 내장시키는 것이 필요하다고 할 수 있다.

  • PDF