• Title/Summary/Keyword: 가중치부여 기법

Search Result 17, Processing Time 0.22 seconds

A Study on the Performance Improvement of Rocchio Classifier with Term Weighting Methods (용어 가중치부여 기법을 이용한 로치오 분류기의 성능 향상에 관한 연구)

  • Kim, Pan-Jun
    • Journal of the Korean Society for information Management
    • /
    • v.25 no.1
    • /
    • pp.211-233
    • /
    • 2008
  • This study examines various weighting methods for improving the performance of automatic classification based on Rocchio algorithm on two collections(LISA, Reuters-21578). First, three factors for weighting are identified as document factor, document factor, category factor for each weighting schemes, the performance of each was investigated. Second, the performance of combined weighting methods between the single schemes were examined. As a result, for the single schemes based on each factor, category-factor-based schemes showed the best performance, document set-factor-based schemes the second, and document-factor-based schemes the worst. For the combined weighting schemes, the schemes(idf*cat) which combine document set factor with category factor show better performance than the combined schemes(tf*cat or ltf*cat) which combine document factor with category factor as well as the common schemes (tfidf or ltfidf) that combining document factor with document set factor. However, according to the results of comparing the single weighting schemes with combined weighting schemes in the view of the collections, while category-factor-based schemes(cat only) perform best on LISA, the combined schemes(idf*cat) which combine document set factor with category factor showed best performance on the Reuters-21578. Therefore for the practical application of the weighting methods, it needs careful consideration of the categories in a collection for automatic classification.

An Analytical Study on Performance Factors of Automatic Classification based on Machine Learning (기계학습에 기초한 자동분류의 성능 요소에 관한 연구)

  • Kim, Pan Jun
    • Journal of the Korean Society for information Management
    • /
    • v.33 no.2
    • /
    • pp.33-59
    • /
    • 2016
  • This study examined the factors affecting the performance of automatic classification for the domestic conference papers based on machine learning techniques. In particular, In view of the classification performance that assigning automatically the class labels to the papers in Proceedings of the Conference of Korean Society for Information Management using Rocchio algorithm, I investigated the characteristics of the key factors (classifier formation methods, training set size, weighting schemes, label assigning methods) through the diversified experiments. Consequently, It is more effective that apply proper parameters (${\beta}$, ${\lambda}$) and training set size (more than 5 years) according to the classification environments and properties of the document set. and If the performance is equivalent, I discovered that the use of the more simple methods (single weighting schemes) is very efficient. Also, because the classification of domestic papers is corresponding with multi-label classification which assigning more than one label to an article, it is necessary to develop the optimum classification model based on the characteristics of the key factors in consideration of this environment.

Ontology-Based Focused Crawling Combined with Neural Network (신경망을 적용한 온톨로지 기반의 Focused Crawling)

  • Zheng, Hai-Tao;Kang, Bo-Young;Namgoong, Hyun;Kim, Hong-Gee
    • Annual Conference on Human and Language Technology
    • /
    • /
    • pp.128-133
    • /
    • 2007
  • Focused crawling은 검색시스템의 구축을 위한 웹 문서 수집단계에서, 미리 정의된 토픽 집합들과 관련성을 가지는 웹 문서를 수집하기 위하여 제안되었다. 이러한 focused crawling 연구에서 보다 효과적인 웹 문서 수집을 위해 주어진 토픽에 대한 양질의 배경지식을 제공할 수 있도록 온톨로지가 활발히 활용되어왔다. 그러나 기존의 온톨로지 기반 focused crawling 연구는 토픽과 웹 문서 간의 관련성 측정을 위하여, 주어진 토픽과 관련있는 온톨로지 내 각 개념들에 직관에 의존한 가중치를 부여하여 활용하였다. 하지만 이러한 직관에 의존한 가중치부여 기법은 안정된 수집결과를 도출할 수 있는 최적화된 가중치 값을 얻기가 힘든 한계가 있다. 따라서 본 논문에서는 이러한 개념에 대한 가중치가 학습에 의하여 자동으로 결정되도록, 인공신경망을 적용한 온톨로지 기반 focused crawling 기법을 제안한다. 웹 상에서 제안된 시스템의 성능을 실험한 결과 기존의 온톨로지 기반 수집 기법에 비하여 보다 향상된 결과를 보임을 알 수 있었다.

  • PDF

A Gap-based Weighting Approach in Mining Sequential Patterns (순차패턴 마이닝에서 발생 간격 기반 가중치 부여 기법)

  • Chang, Joong-Hyuk;Shin, Mu-Jong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • /
    • pp.300-303
    • /
    • 2010
  • 순차패턴 마이닝에서 관심도가 큰 순차패턴을 얻기 위해서 구성요소의 단순 발생 순서뿐만 아니라 구성요소의 가중치를 추가로 고려할 수 있다. 본 논문에서는 순차패턴 마이닝에서 가중치 순차패턴을 탐색하기 위한 가중치 계산 기법으로 발생 간격에 기반한 순차패턴 가중치 부여 기법을 제안한다. 발생 간격 기반 가중치는 사전에 정의된 별도의 가중치 정보를 필요로 하지 않으며 순차정보를 구성하는 구성요소들의 발생 간격으로부터 구해진다. 즉, 순차패턴의 가중치를 구하는데 있어서 구성요소의 발생 순서와 더불어 이들의 발생 간격을 고려하며, 따라서 보다 관심도가 크고 유용한 순차패턴을 얻도록 지원한다.

  • PDF

An Analytical Study on Automatic Classification of Domestic Journal articles Based on Machine Learning (기계학습에 기초한 국내 학술지 논문의 자동분류에 관한 연구)

  • Kim, Pan Jun
    • Journal of the Korean Society for information Management
    • /
    • v.35 no.2
    • /
    • pp.37-62
    • /
    • 2018
  • This study examined the factors affecting the performance of automatic classification based on machine learning for domestic journal articles in the field of LIS. In particular, In view of the classification performance that assigning automatically the class labels to the articles in "Journal of the Korean Society for Information Management", I investigated the characteristics of the key factors(weighting schemes, training set size, classification algorithms, label assigning methods) through the diversified experiments. Consequently, It is effective to apply each element appropriately according to the classification environment and the characteristics of the document set, and a fairly good performance can be obtained by using a simpler model. In addition, the classification of domestic journals can be considered as a multi-label classification that assigns more than one category to a specific article. Therefore, I proposed an optimal classification model using simple and fast classification algorithm and small learning set considering this environment.

Cooperative Spectrum Sensing in Cognitive Radio Systems with Weight Value Applied (인지무선 시스템에서 부사용자의 거리에 따른 가중치가 적용된 협력 스펙트럼 센싱)

  • Yun, Heesuk;Yun, Jaesoon;Bae, Insan;Jang, Sunjeen;Kim, Jaemoung
    • Journal of Satellite, Information and Communications
    • /
    • v.9 no.3
    • /
    • pp.91-97
    • /
    • 2014
  • In this paper, we propose weighted detection probability with distance between primary user and secondary users by using cooperative spectrum sensing based on energy detection. And we analysis and simulate the result. We suggest different distance between primary user and secondary users and the wireless channel between primary user and secondary users is modeled as Gaussian channel. From the simulation results of the cooperative spectrum sensing with weighted method make coverage bigger compared with non-weight, and We show higher sensing efficiency when we put weight detection probability than before method.

A Study on Optimization of Support Vector Machine Classifier for Word Sense Disambiguation (단어 중의성 해소를 위한 SVM 분류기 최적화에 관한 연구)

  • Lee, Yong-Gu
    • Journal of Information Management
    • /
    • v.42 no.2
    • /
    • pp.193-210
    • /
    • 2011
  • The study was applied to context window sizes and weighting method to obtain the best performance of word sense disambiguation using support vector machine. The context window sizes were used to a 3-word, sentence, 50-bytes, and document window around the targeted word. The weighting methods were used to Binary, Term Frequency(TF), TF ${\times}$ Inverse Document Frequency(IDF), and Log TF ${\times}$ IDF. As a result, the performance of 50-bytes in the context window size was best. The Binary weighting method showed the best performance.

Query Expansion and Term Weighting Method for Document Filtering (문서필터링을 위한 질의어 확장과 가중치 부여 기법)

  • Shin, Seung-Eun;Kang, Yu-Hwan;Oh, Hyo-Jung;Jang, Myung-Gil;Park, Sang-Kyu;Lee, Jae-Sung;Seo, Young-Hoon
    • The KIPS Transactions:PartB
    • /
    • v.10B no.7
    • /
    • pp.743-750
    • /
    • 2003
  • In this paper, we propose a query expansion and weighting method for document filtering to increase precision of the result of Web search engines. Query expansion for document filtering uses ConceptNet, encyclopedia and documents of 10% high similarity. Term weighting method is used for calculation of query-documents similarity. In the first step, we expand an initial query into the first expanded query using ConceptNet and encyclopedia. And then we weight the first expanded query and calculate the first expanded query-documents similarity. Next, we create the second expanded query using documents of top 10% high similarity and calculate the second expanded query- documents similarity. We combine two similarities from the first and the second step. And then we re-rank the documents according to the combined similarities and filter off non-relevant documents with the lower similarity than the threshold. Our experiments showed that our document filtering method results in a notable improvement in the retrieval effectiveness when measured using both precision-recall and F-Measure.

A Hyperlink-based Feature Weighting Technique for Web Document Classification (웹문서 자동 분류를 위한 하이퍼링크 기반 특징 가중치 부여 기법)

  • Lee, A-Ram;Kim, Han-Joon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • /
    • pp.417-420
    • /
    • 2012
  • 기계학습을 이용하는 문서 자동분류 시스템은 분류모델의 구성을 위해서 단어를 특징으로 사용한다. 자동분류 시스템의 성능을 높이기 위해 보다 의미있는 특징을 선택하여 분류모델을 구성하기 위한 여러 연구가 진행되고 있다. 특히 인터넷상에서 사용되는 웹문서는 단어 외에도 태그정보, 링크정보를 가지고 있다. 본 논문에서는 이 두 가지 정보를 이용하여 웹문서 자동분류 시스템의 성능을 향상 시키는 방법 제안 한다. 태그 정보와 링크 정보를 이용하여 적절한 특징을 선택하고, 각 특징의 중요도를 계산하여 가중치를 구한다. 계산된 가중치를 각 특징에 부여하여 분류 모델을 구성하고 나이브 베이지안 분류기를 통하여 성능을 평가하였다

  • PDF

Term Weighting Method by Postposition and Compound Noun Recognition (조사 유형 및 복합명사 인식에 의한 용어 가중치 부여 기법)

  • 강승식;이하규;손소현;홍기채;문병주
    • Proceedings of the Korean Information Science Society Conference
    • /
    • /
    • pp.196-198
    • /
    • 2001
  • 문서의 내용을 대표하는 용어를 추출하기 위해 일반적으로 영어에서는 명사구를 색인하는 기법을 사용하지만 주제어 추출의 관점에서 영어의 명사구가 한국어의 복합명사에 해당하기 때문에 한국어에서는 복합명사 색인 기법을 중요시하고 있다. 본 논문에서는 한글 문서에서 추출된 용어의 가중치를 결정하기 위하여 경험적인 방법에 따라 가중치를 계산하는 방법을 제안한다. 구체적인 가중치 계산 방법으로 용어 자체의 특성에 의한 가중치를 부여한 후에, 복합명사의 경계를 인식하여 띄어쓴 복합명사의 가중치를 조절하고, 다시 용어의 조사 유형에 따라 가중치를 재계산하는 방법을 제안한다. 신문기사에 대한 실험결과에 의하면 제안한 방법이 단순 출현빈도에 의한 주제어 추출 기법보다 정확도가 더 높았다.

  • PDF