• Title/Summary/Keyword: 자동 색인 기법

Search Result 86, Processing Time 0.032 seconds

A Comparative Study of Automaic Indexing Techniques in Pharmacology and Libray & Infomation Science (학문의 주제별 특성에 따른 자동 색인 기법의 비교 연구 - 약학분야와 도서관. 정보학 분야를 중심으로 -)

  • 조수련;사공철
    • Journal of the Korean Society for information Management
    • /
    • v.5 no.2
    • /
    • pp.99-126
    • /
    • 1988
  • The purpose of this ptudy is to presenet a relevant automaitc technigue in accordance with the statistical term characteristie in a collection comprising different subjecits, by comparing and evaluating two automatic indexing technigues (Inverse Document Fregnency Weighting Technigue and Term Discrimiantion Value Weighting Technigues) intht fields of Pharmacology and Library & Information Science.

  • PDF

Automatic Production of Book Indices (서적에서의 자동색인)

  • 조성래;황도삼;최기선
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.169-171
    • /
    • 1999
  • 현재의 자동색인 시스템들은 주로 정보검색을 하기 위한 목적으로 개발되고 있으며 단일 서적(저술 분야)색인에 관한 연구는 아직 미진한 상태이다. 또한 워드프로세서의 발달로 인해 단일서적에서 다양한 문서 특징이 나타나게 되었다. 본 논문에서는 관련 서적들의 색인어를 이용한 유사도 기반의 방법과 단일 서적의 문서 특징을 이용한 자동색인 기법을 제안한다. 제안한 기법의 평가를 위해 이미 출판된 서적을 대상으로 한 자동색인 시스템을 개발하고 자동추출 색인어와 수작업 색인어를 비교하였다. 관련 서적내의 색인어와 새로운 대상 문서간의 유사도 비교를 통해 색인어를 추출함으로써 통계적 빈도에 의존하는 색인 기법에서 발생하는 색인어 오추출과 과다한 추출을 줄일 수 있었다.

  • PDF

Automatic Indexing Techniques for Intelligent Information Retrieval (지능형 정보검색을 위한 자동색인 기법)

  • 강승식
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.163-168
    • /
    • 1999
  • 한국어 자동색인은 정보자료의 유형 및 특성에 따라 그 성능에 차이가 있으며, 검색 결과에 많은 영향을 미치기도 한다. 따라서 지능형 정보검색을 위해서는 정보자료의 유형과 특성에 따라 색인 기법의 전문화 및 다양성이 요구되고 있다. 정보검색 시스템이 사용자의 요구사항에 적합한 정보자료를 제공할 수 있도록 자동색인의 관점에서 검색 성능을 향상시키기 방법으로 문서 유형에 따른 차별화된 색인 기법, 불용어 처리 기법, 색인어 관리 기법, 색인어의 유형 정보와 위치 정보를 활용하는 방법 등을 제안한다.

  • PDF

A Study on Automatic Indexing System Using natural language Processing, Statistical Technique, Relevance Verification (자연어 처리, 통계적 기법, 적합성 검증을 이용한 자동색인 시스템에 관한 연구)

  • Yu, Chun-Sik;U, Seon-Mi;Yu, Cheol-Jung;Lee, Jong-Deuk;Gwon, O-Bong;Kim, Yong-Seong
    • The Transactions of the Korea Information Processing Society
    • /
    • v.5 no.6
    • /
    • pp.1552-1562
    • /
    • 1998
  • 형태소 분석(Morphological Analysis)과 같은 언어학적 처리에 의존하는 기존의 한국어 문헌에 대한 자동색인 기법들은 품사의 애매모호함이나 복합명사의 처리 등으로 부담(overhead)이 크다. 또한 불용어 처리에 사용되는 불용어 리스트가 대상 문헌의 주제 분야별로 따로 구축되어야 하며 그 크기가 방대하다는 문제점이 있다. 이러한 문제점들을 해결하기 위해, 본 논문에서는 각 문헌의 텍스트에 대해 복합명사 처리나 애매모호함에 대한 엄격한 분석을 수행하지 않는 간단한 형태의 형태소 분석을 수행하여 단순명사들을 추출한다. 그런 후 이들 단순명사들을 이용하여 유한 오토마타(Finite Automata)를 구성하고, 구성된 유한 오토마타와 각 명사의 단어빈도(Term Frequency)에 의해 각 색인어 후보들의 중요도를 계산하는 자동색인 기법을 제안한다. 그 결과 품사의 애매모호함에 대한 처리나 복합명사의 처리에따른 부담을 줄일 수 있었으며, 선정된 색인어들과 수작업으로 선정한 색인어들의 비교 실험에 의해 제안한 자동색인 기법의 성능을 검증하였다.

  • PDF

An experiment in automatic indexing with korean texts : a comparison of syntactico-statistical and manual methods (구문 . 통계적 기법을 이용한 한국어 자동색인에 관한 연구)

  • 서은경
    • Journal of the Korean Society for information Management
    • /
    • v.10 no.1
    • /
    • pp.97-124
    • /
    • 1993
  • This study was undertaken in order to develop practical automatic indexing techniques suitable for Korean natural language texts. It has taken a modest step toward this goal by developing an automatic syntactico-statistical indexing method and evaluating the method by comparing the resutls with manual indexing. For this experimental study, the Korean text database was constructed manually based on 300 abstracts covering business subject. The experimental results showed that the performance of the automatic syntactico-statistical indexing system was comparable to that of other studies which have compared automatic indexing with manual indexing.

  • PDF

An Experimental Study on Opinion Classification Using Supervised Latent Semantic Indexing(LSI) (지도적 잠재의미색인(LSI)기법을 이용한 의견 문서 자동 분류에 관한 실험적 연구)

  • Lee, Ji-Hye;Chung, Young-Mee
    • Journal of the Korean Society for information Management
    • /
    • v.26 no.3
    • /
    • pp.451-462
    • /
    • 2009
  • The aim of this study is to apply latent semantic indexing(LSI) techniques for efficient automatic classification of opinionated documents. For the experiments, we collected 1,000 opinionated documents such as reviews and news, with 500 among them labelled as positive documents and the remaining 500 as negative. In this study, sets of content words and sentiment words were extracted using a POS tagger in order to identify the optimal feature set in opinion classification. Findings addressed that it was more effective to employ LSI techniques than using a term indexing method in sentiment classification. The best performance was achieved by a supervised LSI technique.

Indexing using DCT Coefficients and Motion Information in MPEG Video (DCT계수와 움직임 정보를 이용한 MPEG 비디오 색인)

  • 박한엽;최연성
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 1998.11a
    • /
    • pp.198-201
    • /
    • 1998
  • 디지털 비디오를 자동 색인하고 검색하기 위한 기법은 여러 가지가 제안되어 있으나 대부분 압축되지 않은 비디오를 대상으로 하거나, 아니면 일단 디코딩한 후 색인한다. 본 논문에서는 압축 영역에서 직접 색인할 수 있는 기법을 제안한다.

  • PDF

International Patent Classificaton Using Latent Semantic Indexing (잠재 의미 색인 기법을 이용한 국제 특허 분류)

  • Jin, Hoon-Tae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1294-1297
    • /
    • 2013
  • 본 논문은 기계학습을 통하여 특허문서를 국제 특허 분류(IPC) 기준에 따라 자동으로 분류하는 시스템에 관한 연구로 잠재 의미 색인 기법을 이용하여 분류의 성능을 높일 수 있는 방법을 제안하기 위한 연구이다. 종래 특허문서에 관한 IPC 자동 분류에 관한 연구가 단어 매칭 방식의 색인 기법에 의존해서 이루어진바가 있으나, 현대 기술용어의 발생 속도와 다양성 등을 고려할 때 특허문서들 간의 관련성을 분석하는데 있어서는 단어 자체의 빈도 보다는 용어의 개념에 의한 접근이 보다 효과적일 것이라 판단하여 잠재 의미 색인(LSI) 기법에 의한 분류에 관한 연구를 하게 된 것이다. 실험은 단어 매칭 방식의 색인 기법의 대표적인 자질선택 방법인 정보획득량(IG)과 카이제곱 통계량(CHI)을 이용했을 때의 성능과 잠재 의미 색인 방법을 이용했을 때의 성능을 SVM, kNN 및 Naive Bayes 분류기를 사용하여 분석하고, 그중 가장 성능이 우수하게 나오는 SVM을 사용하여 잠재 의미 색인에서 명사가 해당 용어의 개념적 의미 구조를 구축하는데 기여하는 정도가 어느 정도인지 평가함과 아울러, LSI 기법 이용시 최적의 성능을 나타내는 특이값의 범위를 실험을 통해 비교 분석 하였다. 분석결과 LSI 기법이 단어 매칭 기법(IG, CHI)에 비해 우수한 성능을 보였으며, SVM, Naive Bayes 분류기는 단어 매칭 기법에서는 비슷한 수준을 보였으나, LSI 기법에서는 SVM의 성능이 월등이 우수한 것으로 나왔다. 또한, SVM은 LSI 기법에서 약 3%의 성능 향상을 보였지만 Naive Bayes는 오히려 20%의 성능 저하를 보였다. LSI 기법에서 명사가 잠재적 의미 구조에 미치는 영향은 모든 단어들을 내용어로 한 경우 보다 약 10% 더 향상된 결과를 보여주었고, 특이값의 범위에 따른 성능 분석에 있어서는 30% 수준에 Rank 되는 범위에서 가장 높은 성능의 결과가 나왔다.

A Study of automatic indexing based on the linguistic analysis for newspaper articles (언어학적 분석기법에 의한 신문기사 자동색인시스팀 설계에 관한 연구)

  • Seo, Gyeong-Ju;SaGong, Cheol
    • Journal of the Korean Society for information Management
    • /
    • v.8 no.1
    • /
    • pp.78-99
    • /
    • 1991
  • So far, most of Korea's newspapers indexing have been done manually using tesaurus. In recent years, however, the need for automatic indexing system has grown stronger so as for indexers to save time, efforts and money. And some newspapers have started establishing their databases along with introducing electronic newspapers and CTS. This thesis is on establishing and automatic indexing system for the full-text of the Korea Economic Daily's articles, which have been accumulated in its database, KETEL. In my thesis, I suggest methods to create a keyword file, a stopword list, an auxiliary word list and an infected word list by applying linguistic analysis methods to Hangul, taking advantage of the language's morphological peculiarity. Through these studies, I was able to reach four conclusions as follows. First, we can obtain satisfactory keywords by automatic indexing methods that were made through morphological analysis. Second, an indexer can improve the efficiency of indexing work by controlling extracted vocabulary, as syntax analysis and semantic analysis is not complete in Hangul. Third, The keyword file in this system which is made of about 20,000 most-frequently-used newspaper terms can be used in the future in compiling a thesaurus. Finally, the suggested methods to prepare an auxiliary word list and an infected word list can be applicable to designing other automatic systems.

  • PDF

A Study on Automatic Indexing of Korean Texts based on Statistical Criteria (통계적기법에 의한 한글자동색인의 연구)

  • Woo, Dong-Chin
    • Journal of the Korean Society for information Management
    • /
    • v.4 no.1
    • /
    • pp.47-86
    • /
    • 1987
  • The purpose of this study is to present an effective automatic indexing method of Korean texts based on statistical criteria. Titles and abstracts of the 299 documents randomly selected from ETRI's DOCUMENT data base are used as the experimental data in this study the experimental data is divided into 4 word groups and these 4 word groups are respectively analyzed and evaluated by applying 3 automatic indexing methods including Transition Phenomena of Word Occurrence, Inverse Document Frequency Weighting Technique, and Term Discrimination Weighting Technique.

  • PDF