• Title/Summary/Keyword: 문헌빈도

Search Result 647, Processing Time 0.025 seconds

문헌빈도와 장서빈도를 이용한 kNN 분류기의 자질선정에 관한 연구 (A Study on Feature Selection for kNN Classifier using Document Frequency and Collection Frequency)

  • 이용구
    • 한국도서관정보학회지
    • /
    • 제44권1호
    • /
    • pp.27-47
    • /
    • 2013
  • 이 연구에서는 자동 색인을 통해 쉽게 얻을 수 있는 자질의 문헌빈도와 장서빈도를 이용하여 자동분류에서 자질 선정 기법을 kNN 분류기에 적용하였을 때, 어떠한 분류성능을 보이는지 알아보고자 하였다. 실험집단으로 한국일보-20000(HKIB-20000)의 일부를 이용하였다. 실험 결과 첫째, 장서빈도를 이용하여 고빈도 자질을 선정하고 저빈도 자질을 제거한 자질선정 방법이 문헌빈도보다 더 좋은 성능을 가져오는 것으로 나타났다. 둘째, 문헌빈도와 장서빈도 모두 저빈도 자질을 우선으로 선정하는 방법은 좋은 분류성능을 가져오지 못했다. 셋째, 장서빈도와 같은 단순빈도에서 자질 선정 구간을 조정하는 것이 문헌빈도와 장서빈도의 조합보다 더 좋은 성능을 가져오는 것으로 나타났다.

역문헌빈도 가중치의 재검토 (Inverse Document Frequency Weighting Revisited)

  • 이재윤
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2003년도 제10회 학술대회 논문집
    • /
    • pp.253-261
    • /
    • 2003
  • 역문헌빈도 가중치는 문헌 집단에서 출현빈도가 낮을수록 색인어의 중요도가 높다는 가정에 근거하고 있다. 이 연구에서는 역문헌빈도 가중치의 가정에 의문을 제기하고, 이를 보완하는 새로운 문헌빈도 가중치 공식을 제안하였다. 제안한 가중치 공식은 저빈도어가 아닌 중간빈도어가 더 중요하다는 가정에 근거한 것으로서 역시 문헌빈도를 이용한 함수이다. 문헌빈도에 의한 가중치를 문헌의 색인어에 부여하는 경우와 질의어에 부여하는 경우로 나누어서 실험을 수행하고, 두 경우의 차이점을 논하였다.

  • PDF

텍스트 분류를 위한 자질 순위화 기법에 관한 연구 (An Experimental Study on Feature Ranking Schemes for Text Classification)

  • 김판준
    • 정보관리학회지
    • /
    • 제40권1호
    • /
    • pp.1-21
    • /
    • 2023
  • 본 연구는 텍스트 분류를 위한 효율적인 자질선정 방법으로 자질 순위화 기법의 성능을 구체적으로 검토하였다. 지금까지 자질 순위화 기법은 주로 문헌빈도에 기초한 경우가 대부분이며, 상대적으로 용어빈도를 사용한 경우는 많지 않았다. 따라서 텍스트 분류를 위한 자질선정 방법으로 용어빈도와 문헌빈도를 개별적으로 적용한 단일 순위화 기법들의 성능을 살펴본 다음, 양자를 함께 사용하는 조합 순위화 기법의 성능을 검토하였다. 구체적으로 두 개의 실험 문헌집단(Reuters-21578, 20NG)과 5개 분류기(SVM, NB, ROC, TRA, RNN)를 사용하는 환경에서 분류 실험을 진행하였고, 결과의 신뢰성 확보를 위해 5-fold cross validation과 t-test를 적용하였다. 결과적으로, 단일 순위화 기법으로는 문헌빈도 기반의 단일 순위화 기법(chi)이 전반적으로 좋은 성능을 보였다. 또한, 최고 성능의 단일 순위화 기법과 조합 순위화 기법 간에는 유의한 성능 차이가 없는 것으로 나타났다. 따라서 충분한 학습문헌을 확보할 수 있는 환경에서는 텍스트 분류의 자질선정 방법으로 문헌빈도 기반의 단일 순위화 기법(chi)을 사용하는 것이 보다 효율적이라 할 수 있다.

학문의 주제별 특성에 따른 자동 색인 기법의 비교 연구 - 약학분야와 도서관. 정보학 분야를 중심으로 - (A Comparative Study of Automaic Indexing Techniques in Pharmacology and Libray & Infomation Science)

  • 조수련;사공철
    • 정보관리학회지
    • /
    • 제5권2호
    • /
    • pp.99-126
    • /
    • 1988
  • 본 연구는 서로 다른 주제를 갖는 장서내의 통계적 용어 특성에 따라 적합한 자동 색인 기법을 제시하는데 그 목적이 있으며 약학분야와 도서과.정보학분야를 대상으로 하여 두개의 자동 색인 기법을 비교. 평가하였다. 사용된 자동 색인 기법은 역문헌 빈도 가중 기 법과 문헌 분리가 가중 기법이며 총 장서 빈도와 문헌 빈도로 정의되는 용어 특성과 자동 색인 기법으로 할당된 가중치들 간의 관계를 분석하였다.

  • PDF

특허 문헌 검색에서 복합명사 가중치 부여 방법 (Weighting Methods for Compound Nouns in Patent Retrieval System)

  • 손기준;이상조
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.895-897
    • /
    • 2004
  • 문서 검색 시스템에서 특정 주지에 관한 문서를 검색하기 위한 색인어의 가중치 부여 방법으로 단순빈도와 역문헌빈도에 의한 가중치 부여 방법을 주로 이용한다 하지만 빈도 정보만을 이용한 방법은 성능 및 정확도의 향상에 한계가 있다. 이에 본 논문에서는 특허 문헌 검색 시스템의 검색 효율을 높이기 위해 자주 출현하는 복합명사의 재출현 양상과 복합명사의 역할변화에 따른 가중치 부여 방법을 제안한다 본 연구에서 제안한 가중치 부여 방법을 이용하여 실험한 결과 단순빈도와 역문헌빈도 정보를 이용한 방법보다 더 나은 성능을 보였다 .

  • PDF

2-포아송 모형의 한국어 문헌 적용성 (Applicability of Two-Poisson Model to Korean Literature)

  • 최대식;정영미
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1999년도 제6회 학술대회 논문집
    • /
    • pp.9-12
    • /
    • 1999
  • 통계적 확률이론에 근거한 포아송 모형을 색인어 선정 기반으로 활용하고자 하는 2-포아송 함수와 3-포아송 함수 및 다중 포아송 함수에 대한 단계적 발전 과정을 살펴보았다. 아울러, 2-포아송이 한국어 문헌의 색인어 선정에 유용한지 알아보기 위해 한국어 말뭉치 데이터베이스 내 문헌 50개를 실험 대상으로 단어의 장서빈도와 문헌빈도를 이용하여 z값을 산출해 보았다.

  • PDF

문헌정보학분야의 외국학술잡지 이용빈도와 이용분포에 관한 연구 - 박사학위 논문을 중심으로 - (Bibliographic Use and Scatting of Foreign Academic Journal in Library and Information Science)

  • 홍기철
    • 한국문헌정보학회지
    • /
    • 제35권3호
    • /
    • pp.35-54
    • /
    • 2001
  • 도서관은 학술잡지의 종류의 증가와 구독비용의 상승으로 인하여 이들을 구독하는데 곤란을 겪고 있다. 인용문헌 분석은 학술잡지를 평가하는 한 방법이다. 본 연구는 학술잡지 평가방법을 보완하기 위하여 서울소재 대학에서 수여된 문헌정보학분야의 박사학위논문을 대상에서 이용된 참고문헌과 학술잡지에 대하여 이용빈도와 이용분포를 연구한 것이다. 예산적 측면에서 인용문헌의 분포를 통한 학술잡지의 선택과 취소는 도서관에 매우 유용한 방법이다. 그러나 도서관은 단지 한가지 방법으로 학술잡지를 평가하여서는 곤란하고 여러 가지의 평가방법을 복합적으로 적용하여야 한다.

  • PDF

피벗 역문헌빈도 가중치 기법에 대한 연구 (A Study on the Pivoted Inverse Document Frequency Weighting Method)

  • 이재윤
    • 정보관리학회지
    • /
    • 제20권4호통권50호
    • /
    • pp.233-248
    • /
    • 2003
  • 역문헌빈도 가중치 기법은 문헌 집단에서 출현빈도가 낮을수록 색인어의 중요도가 높다는 가정에 근거하고 있다. 그런데 이는 중간빈도어를 중요하게 여기는 여타 이론과는 일치하지 않는 것이다. 이 연구에서는 저빈도어보다 중간빈도어가 더 중요하다는 가정에 근거하여 역문헌빈도 가중치 공식을 수정한 피벗 역문헌번도 가중치 기법을 제안하였다. 제안된 기법을 검증하기 위해서 세 실험집단을 대상으로 검색실험을 수행한 결과, 피벗 역문헌빈도 가중치기법이 역문헌빈도 가중치 기법에 비해서 특히 검색결과 상위에서의 성능을 향상시키는 것으로 나타났다.

구조적 학술용어사전 구축에 있어서 인문사회분야 복합명사의 한자어 접미사 형태분석에 의한 용어의 개념화에 관한 연구 (A Study on the Conceptualization of Terminology for Construction of Structured Glossary - A Morphological Analysis of Sino-Korean Suffixes of Compound Noun in Humanities & Social Sciences)

  • 박성은;신유정
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2013년도 제20회 학술대회 논문집
    • /
    • pp.123-128
    • /
    • 2013
  • 본 연구는 한자어 접미사를 가진 학술용어 복합명사의 형태를 분석하고, 한자어 접미사를 가진 복합 명사의 범주화를 위한 알고리즘을 제시하는 것을 목적으로 한다. 연구의 배경은 구조적 학술용어사전의 구축과 관련하여 용어의 효율적인 개념화 방법론을 개발하는 것이다. 연구 목적을 이루기 위해 한자어 접미사를 가진 인문사회분야 복합명사의 형태를 분석하여, 출현 빈도가 10회 이상인 한자어 접미사를 각 분야별로 14개씩 추출하였다. 그리고 각 한자어 접미사가 배정된 개념범주와 개념범주 배정 빈도를 분석한 결과, 동음이의 한자어 접미사를 가진 경우 개념범주가 다양하게 배정될 수 있지만, 동음동형 한자어 접미사를 가진 경우에는 그렇지 않다는 특징을 파악하였다. 또한 특정 한자어 접미사가 하나의 개념범주에 배정된 빈도가 높고 그 외의 개념범주에 배정된 빈도는 현저히 낮을 경우 빈도가 높은 개념범주에 배정되는 것이 더 타당한 것으로 분석되었다.

  • PDF

딥러닝 연구동향에 대한 계량서지적 분석 (A bibliometric analysis on deep learning research trends)

  • 이재윤
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2017년도 제24회 학술대회 논문집
    • /
    • pp.11-14
    • /
    • 2017
  • 딥러닝 연구동향에 대한 계량서지적 분석을 자아 중심 주제 인용분석 기법을 활용하여 시도하였다. 이를 위해서 Web of Science에서 'deep learning'으로 검색된 인용빈도 상위 15건의 논문을 핵심 논문으로 삼고, 이들 핵심 논문 15편을 인용한 논문 집합을 자아 문헌집합으로 삼았으며, 자아 문헌집합들이 인용한 주요 문헌들을 인용 정체성 문헌집합으로 설정하였다. 인용 정체성 문헌집합에 대해 동시인용분석을 실시하여 주요 문헌, 주요 연구 주제를 파악하고, 영향을 끼친 주요 선행 연구를 파악해보았다.

  • PDF