• Title/Summary/Keyword: 주제어 자동분류

Search Result 18, Processing Time 0.022 seconds

A Method of an Automatic Increment of Class Representatives for an Automatic Document Classification (자동 문서 분류를 위한 분류 주제어의 자동 증식 방법)

  • 정호석;임종태;나혜숙;민철호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.151-153
    • /
    • 2000
  • 현재의 자동 문서 분류 시스템에서는 문서분류는 지식베이스를 구축하고 전문가가 클레스의 분류 주제어를 수동 입력함으로써 이루어진다. 이것은 대단히 어렵고 번거로운 일이며 많은 시간과 노력이 소요되고 지속적으로 이루어지기 힘들다. 본 논문에서는 지식베이스와 문서의 구조적 정보, 통계적 정보, 키워드 간의 응집도를 이용하여 자동 문서 분류를 위한 분류 주제어의 자동 증식 방법을 제안한다.

  • PDF

An Automatic Classification of Korean Documents Using Weight for Keywords of Document and Corpus : Bayesian classifier (문서의 주제어별 가중치와 말뭉치를 이용한 한국어 문서의 자동분류 : 베이지안 분류자)

  • 허준희;고수정;김태용;최준혁;이정현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.154-156
    • /
    • 1999
  • 문서 분류는 미리 정의된 두 개 또는 그 이상의 클래스에 새로 생성되는 객체들을 할당하는 방법이다. 문서의 자동 분류에 대한 연구는 오래 전부터 연구되어 왔지만 한국어에 대한 적용 및 연구는 다른 분야에 비해 아직까지 활발히 이루어지지 않고 있다. 본 논문에서는 문서를 자동으로 분류하기 위해 문서의 주제어에 가중치를 부여하고, 부족한 문서의 특징을 보충하기 위하여 말뭉치로부터 주제어들과의 상호정보에 의해 추출된 단어를 사용하여 문서를 표현한 후, 가중치를 부여한 문서의 주제어에 베이지안 분류자를 사용하여 문서분류를 수행한다. 실험은 한국어 정보검색 실험용 데이터 집합인 KTset95 문서 4,414개 중 1,300개의 문서를 학습 집합으로, 1,000개의 문서를 분류에 대한 검증 집합으로 사용하였다. 실험 결과, 순수 베이지안 확률을 사용한 기존의 방법보다 실험 집합과 검증 집합에서 각각 1.92%, 4.3% 향상된 분류 정확도를 얻었다.

  • PDF

Applying Labeled LDA to Author Keywords Recommendation (Labeled LDA를 이용한 저자 주제어 추천)

  • Bong, Seong-Yong;Hwang, Kyu-Baek
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.385-389
    • /
    • 2010
  • 논문에 부여되는 저자 주제어(author keyword)는 논문을 분류 및 검색하는데 활용될 수 있다. 이렇게 주제어를 부여할 때 자동으로 저자 주제어를 추천한다면 사용자에게 편리성을 제공하고 저자가 직접 부여한 저자 주제어 이외에 추가적으로 주제어가 있는지도 확인할 수 있어 유용하다. 본 연구에서는 논문에 달려있는 다수의 주제어 중 하나의 주제어를 선별하여 Labeled LDA를 이용해 주제어와 초록(abstract)의 관계를 학습했다. 이후 초록이 주어지면 자동으로 저자 주제어를 부여할 수 있도록 추천하는 기법을 제안하고 그에 따른 실험을 진행했다. 본 논문에서는 실험을 통하여 기계학습을 이용한 저자 주제어의 추천이 어느 정도의 성능을 보이는지 평가하고 향후 연구의 방향을 제시한다.

  • PDF

An Experimental Study on Text Categorization for Hierarchical Classification (계층적 분류체계를 위한 자동분류 기법에 관한 연구)

  • 이영숙;정영미
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2001.08a
    • /
    • pp.173-176
    • /
    • 2001
  • 이 연구는 계층적 분류체계를 기반으로 자동분류를 수행할 HiCat 알고리즘을 제안한다. HiCat 알고리즘은 DDC 지식베이스의 주제어와 기계학습을 거친 정보를 동시에 이용하고, 각 계층별로 주제적합성가중치를 구해 최종 주제범주를 결정한다. 이 알고리즘이 최적의 성능을 보이는 조건을 알아보고, 일반 분류기와의 성능 비교를 통해 HiCat 알고리즘을 평가해 보았다.

  • PDF

Automatic Text Classification Method Using Keywords and Unlabeled Text (주제어와 미분류 문서들을 이용한 문서의 자동 분류 방법)

  • Lee Kang-Il;Lee Chang-Hwan
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.592-594
    • /
    • 2005
  • 문서를 분류하기 위해서는 분류주제에 맞춰 미리 분류가 된 자료(labeled data)가 필요하다. 하지만 미리 분류가 된 자료를 만들기 위해서는 사람이 직접 그 문서의 의미를 해석하고 일일이 분류를 해야 하기 때문에 시간이 많이 소모가 된다. 본 논문에서는 비록 사랑이 직접 분류한 자료를 이용하는 것에 비해서 분류 정확도는 조금 떨어지지만, 대신 주제어와 미분류 문서(unlabeled data)를 이용해서 문서를 분류하는 방법을 제시하려고 한다. 이와 같은 주제어와 미분류 문서의 경우에는 구하기가 쉽고, 사랑이 일일이 분류하는 작업이 필요로 하지 않기 때문에 비용과 시간이 크게 절약이 된다는 장정이 있다.

  • PDF

An Automatic Classification System of Korean Documents Using Weight for Keywords of Document and Word Cluster (문서의 주제어별 가중치 부여와 단어 군집을 이용한 한국어 문서 자동 분류 시스템)

  • Hur, Jun-Hui;Choi, Jun-Hyeog;Lee, Jung-Hyun;Kim, Joong-Bae;Rim, Kee-Wook
    • The KIPS Transactions:PartB
    • /
    • v.8B no.5
    • /
    • pp.447-454
    • /
    • 2001
  • The automatic document classification is a method that assigns unlabeled documents to the existing classes. The automatic document classification can be applied to a classification of news group articles, a classification of web documents, showing more precise results of Information Retrieval using a learning of users. In this paper, we use the weighted Bayesian classifier that weights with keywords of a document to improve the classification accuracy. If the system cant classify a document properly because of the lack of the number of words as the feature of a document, it uses relevance word cluster to supplement the feature of a document. The clusters are made by the automatic word clustering from the corpus. As the result, the proposed system outperformed existing classification system in the classification accuracy on Korean documents.

  • PDF

An Analytic Study on the Categorization of Query through Automatic Term Classification (용어 자동분류를 사용한 검색어 범주화의 분석적 고찰)

  • Lee, Tae-Seok;Jeong, Do-Heon;Moon, Young-Su;Park, Min-Soo;Hyun, Mi-Hwan
    • The KIPS Transactions:PartD
    • /
    • v.19D no.2
    • /
    • pp.133-138
    • /
    • 2012
  • Queries entered in a search box are the results of users' activities to actively seek information. Therefore, search logs are important data which represent users' information needs. The purpose of this study is to examine if there is a relationship between the results of queries automatically classified and the categories of documents accessed. Search sessions were identified in 2009 NDSL(National Discovery for Science Leaders) log dataset of KISTI (Korea Institute of Science and Technology Information). Queries and items used were extracted by session. The queries were processed using an automatic classifier. The identified queries were then compared with the subject categories of items used. As a result, it was found that the average similarity was 58.8% for the automatic classification of the top 100 queries. Interestingly, this result is a numerical value lower than 76.8%, the result of search evaluated by experts. The reason for this difference explains that the terms used as queries are newly emerging as those of concern in other fields of research.

Semi-Automatic Management of Classification Scheme with Interoperability (상호운용적 분류체계 관리를 위한 반자동 분류체계 관리방안)

  • Lee, Won-Goo;Shin, Sung-Ho;Kim, Kwang-Young;Jeon, Do-Heon;Yoon, Hwa-Mook;Sung, Won-Kyung;Lee, Min-Ho
    • The Journal of the Korea Contents Association
    • /
    • v.11 no.12
    • /
    • pp.466-474
    • /
    • 2011
  • Under the knowledge-based economy in 21C, the convergence and complexity in science and technology are being more active. Therefore, we have science and technology are classified properly, make not easy to construct the system to new next generation area. Thus we suggest the systematic solution method to flexibly extend classification scheme in order for content management and service organizations. In this way, we expect that the difficult of classification scheme management is minimized and the expense of it is spared.

Automatic Email Multi-category Classification Using Dynamic Category Hierarchy and Non-negative Matrix Factorization (비음수 행렬 분해와 동적 분류 체계를 사용한 자동 이메일 다원 분류)

  • Park, Sun;An, Dong-Un
    • Journal of KIISE:Software and Applications
    • /
    • v.37 no.5
    • /
    • pp.378-385
    • /
    • 2010
  • The explosive increase in the use of email has made to need email classification efficiently and accurately. Current work on the email classification method have mainly been focused on a binary classification that filters out spam-mails. This methods are based on Support Vector Machines, Bayesian classifiers, rule-based classifiers. Such supervised methods, in the sense that the user is required to manually describe the rules and keyword list that is used to recognize the relevant email. Other unsupervised method using clustering techniques for the multi-category classification is created a category labels from a set of incoming messages. In this paper, we propose a new automatic email multi-category classification method using NMF for automatic category label construction method and dynamic category hierarchy method for the reorganization of email messages in the category labels. The proposed method in this paper, a large number of emails are managed efficiently by classifying multi-category email automatically, email messages in their category are reorganized for enhancing accuracy whenever users want to classify all their email messages.

A Study on Automatic Recommendation of Keywords for Sub-Classification of National Science and Technology Standard Classification System Using AttentionMesh (AttentionMesh를 활용한 국가과학기술표준분류체계 소분류 키워드 자동추천에 관한 연구)

  • Park, Jin Ho;Song, Min Sun
    • Journal of Korean Library and Information Science Society
    • /
    • v.53 no.2
    • /
    • pp.95-115
    • /
    • 2022
  • The purpose of this study is to transform the sub-categorization terms of the National Science and Technology Standards Classification System into technical keywords by applying a machine learning algorithm. For this purpose, AttentionMeSH was used as a learning algorithm suitable for topic word recommendation. For source data, four-year research status files from 2017 to 2020, refined by the Korea Institute of Science and Technology Planning and Evaluation, were used. For learning, four attributes that well express the research content were used: task name, research goal, research abstract, and expected effect. As a result, it was confirmed that the result of MiF 0.6377 was derived when the threshold was 0.5. In order to utilize machine learning in actual work in the future and to secure technical keywords, it is expected that it will be necessary to establish a term management system and secure data of various attributes.