• Title/Summary/Keyword: 문헌빈도

Search Result 643, Processing Time 0.024 seconds

A Study on Feature Selection for kNN Classifier using Document Frequency and Collection Frequency (문헌빈도와 장서빈도를 이용한 kNN 분류기의 자질선정에 관한 연구)

  • Lee, Yong-Gu
    • Journal of Korean Library and Information Science Society
    • /
    • v.44 no.1
    • /
    • pp.27-47
    • /
    • 2013
  • This study investigated the classification performance of a kNN classifier using the feature selection methods based on document frequency(DF) and collection frequency(CF). The results of the experiments, which used HKIB-20000 data, were as follows. First, the feature selection methods that used high-frequency terms and removed low-frequency terms by the CF criterion achieved better classification performance than those using the DF criterion. Second, neither DF nor CF methods performed well when low-frequency terms were selected first in the feature selection process. Last, combining CF and DF criteria did not result in better classification performance than using the single feature selection criterion of DF or CF.

Inverse Document Frequency Weighting Revisited (역문헌빈도 가중치의 재검토)

  • 이재윤
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2003.08a
    • /
    • pp.253-261
    • /
    • 2003
  • 역문헌빈도 가중치는 문헌 집단에서 출현빈도가 낮을수록 색인어의 중요도가 높다는 가정에 근거하고 있다. 이 연구에서는 역문헌빈도 가중치의 가정에 의문을 제기하고, 이를 보완하는 새로운 문헌빈도 가중치 공식을 제안하였다. 제안한 가중치 공식은 저빈도어가 아닌 중간빈도어가 더 중요하다는 가정에 근거한 것으로서 역시 문헌빈도를 이용한 함수이다. 문헌빈도에 의한 가중치를 문헌의 색인어에 부여하는 경우와 질의어에 부여하는 경우로 나누어서 실험을 수행하고, 두 경우의 차이점을 논하였다.

  • PDF

An Experimental Study on Feature Ranking Schemes for Text Classification (텍스트 분류를 위한 자질 순위화 기법에 관한 연구)

  • Pan Jun Kim
    • Journal of the Korean Society for information Management
    • /
    • v.40 no.1
    • /
    • pp.1-21
    • /
    • 2023
  • This study specifically reviewed the performance of the ranking schemes as an efficient feature selection method for text classification. Until now, feature ranking schemes are mostly based on document frequency, and relatively few cases have used the term frequency. Therefore, the performance of single ranking metrics using term frequency and document frequency individually was examined as a feature selection method for text classification, and then the performance of combination ranking schemes using both was reviewed. Specifically, a classification experiment was conducted in an environment using two data sets (Reuters-21578, 20NG) and five classifiers (SVM, NB, ROC, TRA, RNN), and to secure the reliability of the results, 5-Fold cross-validation and t-test were applied. As a result, as a single ranking scheme, the document frequency-based single ranking metric (chi) showed good performance overall. In addition, it was found that there was no significant difference between the highest-performance single ranking and the combination ranking schemes. Therefore, in an environment where sufficient learning documents can be secured in text classification, it is more efficient to use a single ranking metric (chi) based on document frequency as a feature selection method.

A Comparative Study of Automaic Indexing Techniques in Pharmacology and Libray & Infomation Science (학문의 주제별 특성에 따른 자동 색인 기법의 비교 연구 - 약학분야와 도서관. 정보학 분야를 중심으로 -)

  • 조수련;사공철
    • Journal of the Korean Society for information Management
    • /
    • v.5 no.2
    • /
    • pp.99-126
    • /
    • 1988
  • The purpose of this ptudy is to presenet a relevant automaitc technigue in accordance with the statistical term characteristie in a collection comprising different subjecits, by comparing and evaluating two automatic indexing technigues (Inverse Document Fregnency Weighting Technigue and Term Discrimiantion Value Weighting Technigues) intht fields of Pharmacology and Library & Information Science.

  • PDF

Weighting Methods for Compound Nouns in Patent Retrieval System (특허 문헌 검색에서 복합명사 가중치 부여 방법)

  • 손기준;이상조
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.895-897
    • /
    • 2004
  • 문서 검색 시스템에서 특정 주지에 관한 문서를 검색하기 위한 색인어의 가중치 부여 방법으로 단순빈도와 역문헌빈도에 의한 가중치 부여 방법을 주로 이용한다 하지만 빈도 정보만을 이용한 방법은 성능 및 정확도의 향상에 한계가 있다. 이에 본 논문에서는 특허 문헌 검색 시스템의 검색 효율을 높이기 위해 자주 출현하는 복합명사의 재출현 양상과 복합명사의 역할변화에 따른 가중치 부여 방법을 제안한다 본 연구에서 제안한 가중치 부여 방법을 이용하여 실험한 결과 단순빈도와 역문헌빈도 정보를 이용한 방법보다 더 나은 성능을 보였다 .

  • PDF

Applicability of Two-Poisson Model to Korean Literature (2-포아송 모형의 한국어 문헌 적용성)

  • 최대식;정영미
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 1999.08a
    • /
    • pp.9-12
    • /
    • 1999
  • 통계적 확률이론에 근거한 포아송 모형을 색인어 선정 기반으로 활용하고자 하는 2-포아송 함수와 3-포아송 함수 및 다중 포아송 함수에 대한 단계적 발전 과정을 살펴보았다. 아울러, 2-포아송이 한국어 문헌의 색인어 선정에 유용한지 알아보기 위해 한국어 말뭉치 데이터베이스 내 문헌 50개를 실험 대상으로 단어의 장서빈도와 문헌빈도를 이용하여 z값을 산출해 보았다.

  • PDF

Bibliographic Use and Scatting of Foreign Academic Journal in Library and Information Science (문헌정보학분야의 외국학술잡지 이용빈도와 이용분포에 관한 연구 - 박사학위 논문을 중심으로 -)

  • Hong, Ki-Churl
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.35 no.3
    • /
    • pp.35-54
    • /
    • 2001
  • The Libraries are face to difficult of academic journal subscription for the increasing price of journal and the increasing number of journal. Bibliographic citation analysis is one of method of evaluating the use of a journal collection. This study is used bibliographic use and scatting of foreign academic journal in Library and Information Science found in doctorial dissertation of graduate students in Seoul city, for serve to complement another method of journal evaluation. Journal selection and cancellation may be done on the basis to dispersion of journal citation to usefulness of journal subscription in the library budget. But the library should not rely on one single evaluation technique, it should take advantage of combination technique.

  • PDF

A Study on the Pivoted Inverse Document Frequency Weighting Method (피벗 역문헌빈도 가중치 기법에 대한 연구)

  • Lee, Jae-Yun
    • Journal of the Korean Society for information Management
    • /
    • v.20 no.4 s.50
    • /
    • pp.233-248
    • /
    • 2003
  • The Inverse Document Frequency (IDF) weighting method is based on the hypothesis that in the document collection the lower the frequency of a term is, the more important the term is as a subject word. This well-known hypothesis is, however, somewhat questionable because some low frequency terms turn out to be insufficient subject words. This study suggests the pivoted IDF weighting method for better retrieval effectiveness, on the assumption that medium frequency terms are more important than low frequency terms. We thoroughly evaluated this method on three test collections and it showed performance improvements especially at high ranks.

A Study on the Conceptualization of Terminology for Construction of Structured Glossary - A Morphological Analysis of Sino-Korean Suffixes of Compound Noun in Humanities & Social Sciences (구조적 학술용어사전 구축에 있어서 인문사회분야 복합명사의 한자어 접미사 형태분석에 의한 용어의 개념화에 관한 연구)

  • Park, Seong-Eun;Shin, You-Jung
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2013.08a
    • /
    • pp.123-128
    • /
    • 2013
  • 본 연구는 한자어 접미사를 가진 학술용어 복합명사의 형태를 분석하고, 한자어 접미사를 가진 복합 명사의 범주화를 위한 알고리즘을 제시하는 것을 목적으로 한다. 연구의 배경은 구조적 학술용어사전의 구축과 관련하여 용어의 효율적인 개념화 방법론을 개발하는 것이다. 연구 목적을 이루기 위해 한자어 접미사를 가진 인문사회분야 복합명사의 형태를 분석하여, 출현 빈도가 10회 이상인 한자어 접미사를 각 분야별로 14개씩 추출하였다. 그리고 각 한자어 접미사가 배정된 개념범주와 개념범주 배정 빈도를 분석한 결과, 동음이의 한자어 접미사를 가진 경우 개념범주가 다양하게 배정될 수 있지만, 동음동형 한자어 접미사를 가진 경우에는 그렇지 않다는 특징을 파악하였다. 또한 특정 한자어 접미사가 하나의 개념범주에 배정된 빈도가 높고 그 외의 개념범주에 배정된 빈도는 현저히 낮을 경우 빈도가 높은 개념범주에 배정되는 것이 더 타당한 것으로 분석되었다.

  • PDF

A bibliometric analysis on deep learning research trends (딥러닝 연구동향에 대한 계량서지적 분석)

  • Lee, Jae Yun
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2017.08a
    • /
    • pp.11-14
    • /
    • 2017
  • 딥러닝 연구동향에 대한 계량서지적 분석을 자아 중심 주제 인용분석 기법을 활용하여 시도하였다. 이를 위해서 Web of Science에서 'deep learning'으로 검색된 인용빈도 상위 15건의 논문을 핵심 논문으로 삼고, 이들 핵심 논문 15편을 인용한 논문 집합을 자아 문헌집합으로 삼았으며, 자아 문헌집합들이 인용한 주요 문헌들을 인용 정체성 문헌집합으로 설정하였다. 인용 정체성 문헌집합에 대해 동시인용분석을 실시하여 주요 문헌, 주요 연구 주제를 파악하고, 영향을 끼친 주요 선행 연구를 파악해보았다.

  • PDF