• 제목/요약/키워드: Document information retrieval

검색결과 411건 처리시간 0.024초

자동 키워드망과 2단계 문서 순위 결정에 의한 자연어 정보검색 모델 (A Natural Language Information Retrieval Model using Automatic Network and Two-level Document Ranking)

  • 강현규;박세영;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.8-12
    • /
    • 1995
  • 본 논문은 정보검색에서 사용자에게 순서화된 문서를 제시하기 이전에 1차로 검색된 문서들에 대하여 자동 키워드망과 2단계로 문서 순위 결정하는 모델에 대하여 논하였다. 자연어 검색을 위한 색인은 자동으로 구축된 키워드 색인으로 1차로 자연어 검색을 하고, 2차로 자동 키워드망을 이용한 순위재조정을 통해 검색효율의 향상에 관해 검색 효율을 평가하여 1차 검색 결과보다 최대 10.9%의 검색효율 향상을 보였다. 또한 문서 순위 조정 방법에 있어서 여러 가지 공식을 비교 분석하였으며 내용 검색을 반영하는 공식을 찾았다. 본 논문에서 제시한 2단계 순위 결정 방법은 리스트를 기반으로 하는 정보 검색의 분야에 적용되어 검색효율을 높일 수 있는 한가지 방법이 될 수 있을 것이다.

  • PDF

SGML/XML 검색 시스템의 설케 및 구현 (Design and Implementation of a SGML/XML Document Retrieval System)

  • 고승규;조승기;최윤철;고견
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2000년도 추계학술발표논문집
    • /
    • pp.99-102
    • /
    • 2000
  • 이기종 간의 문서 교환 표준으로 제안되 SGML은 문서의 구조정보를 표현할 수 있는 장점으로 인해 CALS(Commerce At Light Speed), EC(Electronic Commerce), EDI(Electronic Data Interchange), 전자 도서관(Digital Library) 등 여러 분야에서 사용되고 있다. 이렇게 SGML이 여러 분야에서 사용됨에 따라 많은 SGML 문서 중에서 원하는 문서를 효율적으로 찾아줄 수 있는 검색 시스템의 필요성이 증가하고 있다. 이에 본 연구실에서는 기본적인 구조 검색을 지원하는 SGML 문서 관리시스템을 기개발하였다. 그러나 이 시스템은 구조 검색을 효과적으로 지원하기 못하기 때문에 본 연구에서는 구조 검색의 기능을 정의하고, 이를 지원하는 새로운 구조 질의어를 정의하였다. 또한 이러한 구조 검색을 효과적으로 지원하기 위한 구조 색인을 정의하였다. 그리고 구조 검색 방식으로 세가지 방식을 각각 구현 및 실험하여 그 중에서 성능이 뛰어난 절충식을 이용하여 검색 시스템을 구현하였다.

  • PDF

Text filtering by Boosting Linear Perceptrons

  • O, Jang-Min;Zhang, Byoung-Tak
    • 한국지능시스템학회논문지
    • /
    • 제10권4호
    • /
    • pp.374-378
    • /
    • 2000
  • in information retrieval, lack of positive examples is a main cause of poor performance. In this case most learning algorithms may not characteristics in the data to low recall. To solve the problem of unbalanced data, we propose a boosting method that uses linear perceptrons as weak learnrs. The perceptrons are trained on local data sets. The proposed algorithm is applied to text filtering problem for which only a small portion of positive examples is available. In the experiment on category crude of the Reuters-21578 document set, the boosting method achieved the recall of 80.8%, which is 37.2% improvement over multilayer with comparable precision.

  • PDF

월드와이드웹의 내용기반 구조최적화 (Optimization Model on the World Wide Web Organization with respect to Content Centric Measures)

  • 이우기;김승;김한도;강석호
    • 한국경영과학회지
    • /
    • 제30권1호
    • /
    • pp.187-198
    • /
    • 2005
  • The structure of a Web site can prevent the search robots or crawling agents from confusion in the midst of huge forest of the Web pages. We formalize the view on the World Wide Web and generalize it as a hierarchy of Web objects such as the Web as a set of Web sites, and a Web site as a directed graph with Web nodes and Web edges. Our approach results in the optimal hierarchical structure that can maximize the weight, tf-idf (term frequency and inverse document frequency), that is one of the most widely accepted content centric measures in the information retrieval community, so that the measure can be used to embody the semantics of search query. The experimental results represent that the optimization model is an effective alternative in the dynamically changing Web environment by replacing conventional heuristic approaches.

정보 검색에서 확장 퍼지 개념 네트워크를 이용한 문서 순위 결정 방법 (Document Ranking Method us ing Extended Fuzzy Concept Networks in Information Retrieval)

  • 손현숙;정환묵
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2000년도 춘계학술대회 학술발표 논문집
    • /
    • pp.77-80
    • /
    • 2000
  • 정보 검색은 사용자가 원하는 요구에 가장 적합한 정보를 검색할 수 있도록 되어야 한다. 질의어가 문서에 대하여 어느 정도의 유사성을 가지고 존재하느냐를 기준으로 문서를 순서화 한다. 실제 순서화된 문서들을 보면 질의어와는 다른 문서들이 순서화 되는 경우를 볼 수 있다 본 논문에서는 순서화 되는 문서들 중에서 그 문서들이 질의어와 어느 정도 가까운지를 확장 퍼지 개념 네트워크에 근거한 문서 검색을 위한 퍼지 순위 처리를 위한 방법을 제시한다 확장 퍼지 개념 네트워크에는 개념들 사이에 4가지의 퍼지 관계를 사용한다. 퍼지 양의 관계, 퍼지 음의 관계, 퍼지 일반화, 및 퍼지 세분화 등이 있다. 확장 퍼지 개념 네트워크는 관계 행렬과 관련 행렬로 모델화 한다.

  • PDF

KOREAN TOPIC MODELING USING MATRIX DECOMPOSITION

  • June-Ho Lee;Hyun-Min Kim
    • East Asian mathematical journal
    • /
    • 제40권3호
    • /
    • pp.307-318
    • /
    • 2024
  • This paper explores the application of matrix factorization, specifically CUR decomposition, in the clustering of Korean language documents by topic. It addresses the unique challenges of Natural Language Processing (NLP) in dealing with the Korean language's distinctive features, such as agglutinative words and morphological ambiguity. The study compares the effectiveness of Latent Semantic Analysis (LSA) using CUR decomposition with the classical Singular Value Decomposition (SVD) method in the context of Korean text. Experiments are conducted using Korean Wikipedia documents and newspaper data, providing insight into the accuracy and efficiency of these techniques. The findings demonstrate the potential of CUR decomposition to improve the accuracy of document clustering in Korean, offering a valuable approach to text mining and information retrieval in agglutinative languages.

SDI System의 사적 연구 (2) (The Historical Study of SDI System (2))

  • 김종회
    • 정보관리학회지
    • /
    • 제2권2호
    • /
    • pp.150-169
    • /
    • 1985
  • 오늘날 정보검색(情報檢索)시스팀의 대표적(代表的)인 한 유형(類型)으로서 널리 보급(普及)되어 운영(運營)되고 있는 SDI(Selective Dissemination of Information)시스팀에 관(關)하여 기술(記述)하였다. 이것은 컴퓨터기술(技術)의 정보검색(情報檢索)에의 응용(應用)으로서 이용자(利用者)의 요구주제(要求主題)에 부합(符合)되는 문헌(文獻)을 검색(檢索)하기 위하여 색인어(索引語)와 일치(一致)(match) 되는 문헌(文獻)을 탐색(探索)하는데 이용(利用)되는 시스팀을 설명(說明)하기 위해 자주 쓰여지는 용어(用語)이다. SDI시스팀을 개발(開發)한 "Luhn"이 최초(最初)로 그 개념(槪念)을 발표(發表)한 이래(以來) 지금까지 개발(開發)되어온 각종(各種)의 SDI시스팀들을 조사(調査) 비교(比較)하고, 이 시스팀들의 발전단계(發展段階), 구성(構成) 및 특성(特性)과 시스팀 설계(設計)에 관(關)한 제문제점등(諸問題點等)에 대(對)해서도 분석(分析) 조사(調査)하였다.

  • PDF

SDI System의 사적연구(史的硏究)(1) (The Historical Study of SDI System)

  • 김종회
    • 정보관리학회지
    • /
    • 제1권1호
    • /
    • pp.146-161
    • /
    • 1984
  • 오늘날 정보검색(情報檢索)시스팀의 대표적(代表的)인 한 유형(類型)으로서 널리 보급(普及)되어 운영(運營)되고 있는 SDI(Selective Dissemination of Information)시스팀에 관(關)하여 기술(記述)하였다. 이것은 컴퓨터기술(技術)의 정보검색(情報檢索)에의 응용(應用)으로서 이용자(利用者)의 요구(要求) 주제(主題) 부합(符合)되는 문헌(文獻)을 검색(檢索)하기 위하여 색인어(索引語)와 일치(一致)(match)되는 문헌(文獻)을 탐색(探索)하는데 이용(利用)되는 시스팀을 설명(說明)하기 위해 자주 쓰여지는 용어(用語)이다. SDI시스팀을 개발(開發)한 "Luhn"이 최초(最初)로 그 개념(槪念)을 발표(發表)한 이래(以來) 지금까지 개발(開發)되어온 각종(各種)의 SDI시스팀들을 조사(調査) 비교(比較)하고, 이 시스팀들의 발전단계(發展段階), 구성(構成) 및 특성(特性)과 시스팀설계(設計)에 관(關)한 제문제점등(諸問提點等)에 대(對)해서도 분석(分析) 조사(調査)하였다.

  • PDF

전자저널 개발모형에 관한 연구 (The Development of the Prototype for Electronic Journal)

  • 정준민
    • 정보관리학회지
    • /
    • 제18권3호
    • /
    • pp.203-218
    • /
    • 2001
  • 인쇄저널의 이미지베이스에서 출발한 전자저널의 발전방향을 전자저널의 매체라 할 수 있는 인터넷 또는 웹의 기본 기능과 기술적 배경을 전제로 추론하여 전자저널의 모델을 설정하여 보았다. 그간 전자저널에 대한 해석을 도서관의 단순한 매체 전환 및 관리 차원에서 해석하던 것을 새로운 형태의 전자저널 모형을 설계하여 제시하고 인쇄저널과의 공존과 향후 발전적 승계에 관한 방법도 아울러 제시하고 있다. 전자저널은 크게 관리자 공간, 커뮤니티 공간과 최신 게재논문 리스트 서비스, 카테고리 서비스, 정보검색 서비스 및 확장 검색 서비스 공간으로 되어 있으며 인쇄저널 발간에 따른 모든 요소적 특징을 상속하면서도 전자저널 만이 갖는 특징을 부각시킬 수 있도록 구성되었다. 그러나 논문의 결론 부분에서 결국은 이들 정보서비스 매체 및 인터페이스는 출판 및 교육의 영역까지 포함하여 새로운 형태로 발전할 것이라는 예측도 아울러 제시하고 있다.

  • PDF

유사성 기반 XML 문서 분석 기법 (XML Document Analysis based on Similarity)

  • 이정원;이기호
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권6호
    • /
    • pp.367-376
    • /
    • 2002
  • XML 문서가 가지고 있는 태그의 자유로운 정의와 내포된 구조 정보는 정보 검색 및 문서 관리 분야에 많은 이점을 제공할 수 있다. 본 논문은 XML 요소(element)의 의미와 구조 정보를 반영한 문서간의 유사성을 검사할 수 있는 XML 문서 분석 기법을 제시하고자 한다. 도출된 문서간 유사성은 많은 정보 검색 및 마이닝 등의 기초 자료로 사용될 수 있다. 먼저 XML 요소를 시소러스를 이용하여 유사어와 합성어로 구성된 확장-요소 벡터로 확장하고 유사 행렬을 구축하여 요소간 유사성을 판별한다. 또한 오토마타(NFA(Nondeterministic Finite Automata)와 DFA(Deterministic Finite Automata)(를 이용하여 XML 문서의 내포된 구조를 발견하고 최소화 한다. 요소간의 유사 행렬과 최소화된 XML 구조를 이용하여 구조간의 유사성을 판별한다. 본 논문의 XML의 의미를 반영한 유사성 분석 기법은 온라인 서점의 실제 문서의 카테고리를 인식하는 데 있어 100% 정확도를 보였다.