• Title/Summary/Keyword: automatic categorization

Search Result 84, Processing Time 0.034 seconds

Automatic Text Categorization by using Normalized Term Frequency Weighting (정규화 용어빈도가중치에 의한 자동문서분류)

  • 김수진;김민수;백장선;박혁로
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.510-512
    • /
    • 2003
  • 본 논문에서는 문서의 자동 분류를 위한 용어 빈도 가중치 계산 방법으로 Box-Cox변환기법을 응용한 정규화 용어빈도 가중치를 정의하고, 이를 문서 분류에 적응하였다. 여기서 Box-Cox 변환기법이란 자료를 정규분포화 할 때 적용하는 통계적인 변환방법으로서, 본 논문에서는 이를 응용하여 새로운 용어빈도가중치 계산법을 제안한다. 문서에서 등장한 용어 빈도는 너무 많거나 적게 등장할 경우, 중요도가 떨어지게 되는데, 이는 용어의 중요도가 빈도에 따른 정규분포로 모델링 될 수 있다는 것을 의미한다. 또한 정규화 가중치 계산방법은 기존의 용어빈도 가중치 공식과 비교할 때, 용어마다 계산방법이 달라져, 로그나 루트와 같은 고정된 가중치 방법보다는 좀더 일반적인 방법이라 할 수 있다. 신문기사 8000건을 대상으로 4개의 그룹으로 나누어 실험 한 결과, 정규화 용어빈도가중치 계산방법이 모두 우위의 분류 정확도롤 가져, 본 논문에서 제안한 방법이 타당함을 알 수 있다.

  • PDF

Automatic Text Categorization Model by Synonym Dictionary (유사어 사전을 이용한 자동범주화 모델 개발)

  • Kim, Qu-Hwan;Lee, Too-Young
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2004.08a
    • /
    • pp.167-172
    • /
    • 2004
  • 기존의 문서분류는 학습문서에 출현하는 자질에 대해 가중치를 계산하여 그 순위에 따라 상위 자질로 구성된 지식베이스를 사용하였다. 그리고 새로운 문서가 들어왔을 때 자질 지식베이스를 근거로 새 문서를 색인하였다. 결국 자질 지식베이스와 정확히 일치하지 않는 키워드는 색인대상에서 제외되는 문제가 있었다. 본 고에서는 이 문제를 해결하기 위하여 분류될 문서의 특징을 나타내는 범주별 자질과 유사한의미를 가지나 형태가 변형되어 기술된 단어에 대하여 유사어 사전을 구축하였으며 이를 통해 새로운 문서가 범주에 할당될 가능성을 높여 자동 문서 범주화 시스템의 성능을 향상시키고자 한다.

  • PDF

Automatic Text Categorization Using Hybrid Multiple Model Schemes (하이브리드 다중모델 학습기법을 이용한 자동 문서 분류)

  • 명순희;김인철
    • Journal of the Korean Society for information Management
    • /
    • v.19 no.4
    • /
    • pp.35-51
    • /
    • 2002
  • Inductive learning and classification techniques have been employed in various research and applications that organize textual data to solve the problem of information access. In this study, we develop hybrid model combination methods which incorporate the concepts and techniques for multiple modeling algorithms to improve the accuracy of text classification, and conduct experiments to evaluate the performances of proposed schemes. Boosted stacking, one of the extended stacking schemes proposed in this study yields higher accuracy relative to the conventional model combination methods and single classifiers.

Automatic Text Categorization using difference TTF and ITTF (TTF와 ITTF의 차를 이용한 자동 문서 분류)

  • 이상철;하진영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.133-135
    • /
    • 2001
  • 본 논문에서는 일반적으로 Word Based Matching 방법에서 많이 쓰이는 TFIDF 방법대신에 TTF(Total Term Frequency)와 ITTF(Inverse Total Term Frequecy) 에 가중치를 주어 문서분류의 정확도를 높이는 방법을 제안하고자 한다. TFIDF방법에서 IDF는 역문헌빈도를 나타내는데 Term에 대한 빈도비율의 공정성이 떨어져 문서 분류의 정확도에 한계가 있다. 본 논문에서 제시하는 문서 분류방법은 TTF와 ITTF에 각각의 가중치를 준 후에 차연산 이용하여 문서를 분류하는 것이다. 이러한 방법의 특징은 IDF를 사용할 때 보다 각 카테고리에 있는 term, 즉 단어의 중요도에 대한 가중치를 좀 더 공평하게 줌으로써 문서의 분류를 높일 수 있다. 본 논문에서는 조선일보의 카테고리를 사용하였으며 조선일보의 기사를 대상으로 문서 자동 분류 실험을 수행하였다. 실험 결과 TFIDF보다 본 논문에서 제안한 방법이 문서 분류에 높은 정확도를 나타냄을 보였다.

  • PDF

A Study on the Propagation and Defense Model of Internet Worm (인터넷 웜의 확산 모델과 방어 모델 연구)

  • 서동일;김환국;이상호
    • Proceedings of the Korea Information Assurance Society Conference
    • /
    • 2004.05a
    • /
    • pp.181-185
    • /
    • 2004
  • In these days, many reports noticed that the Internet worms spread out and have done considerable damage to all over the world network within a few days. The worms, which is infected from various route such as e-mail, can spread very fast with common property, self replication. But, there is not prepare for the way effectively to interrupt internet worm. Therefore, to prevent our network resource, internet hosts and user clients, the systemic categorization and automatic defense mechanism is required in the Internet worm research. Hence, in this paper, we describe internet worm propagation and defense model.

  • PDF

Automatic Text Categorization Using Text Summarization Techniques (문서 요약 기법을 이용한 자동 문서 범주화)

  • Park, Jin-Woo;Ko, Young-Joong;Seo, Jung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.138-145
    • /
    • 2001
  • 자동 문서 범주화란 문서의 내용에 기반하여 미리 정의되어 있는 범주에 문서를 자동으로 분류하는 작업이다. 문서 분류를 위해서는 문서들을 가장 잘 표현할 수 있는 자질들을 정하고, 이러한 자질들을 통해 분류할 문서를 표현해야 한다. 기존의 연구들은 문장간의 구분 없이, 문서 전체에 나타난 각 자질의 빈도수를 이용하여 문서를 표현 한다. 그러나 하나의 문서 내에서도 중요한 문장과 그렇지 못한 문장의 구분이 있으며, 이러한 문장 중요도의 차이는 각각의 문장에 나타나는 자질의 중요도에도 영향을 미친다. 본 논문에서는 문서에서 사용되는 중요 문장 추출 기법을 문서 분류에 적용하여, 문서 내에 나타나는 각 문장들의 문장 중요도를 계산하고 문서의 내용을 잘 나타내는 문장들과 그렇지 못한 문장들을 구분하여 각 문장에서 출현하는 자질들의 가중치를 다르게 부여하여 문서를 표현한다. 이렇게 문장들의 중요도를 고려하여 문서를 표현한 기법의 성능을 평가하기 위해서 뉴스 그룹 데이터를 구축하고 실험하였으며 좋은 성능을 얻을 수 있었다.

  • PDF

Bayesian Automatic Document Categorization Using Apriori-Genetic Algorithm (Apriori-Genetic 알고리즘을 이용한 베이지안 자동 문서 분류)

  • Go, Su-Jeong;Lee, Jeong-Hyeon
    • The KIPS Transactions:PartB
    • /
    • v.8B no.3
    • /
    • pp.251-260
    • /
    • 2001
  • 기존의 베이지안 문서 분류는 문서의 특징 표현에 있어서 단어간의 의미를 정확하게 반영하지 못하는 문제점이 있다. 이러한 문제점을 해결하기 위해, 본 논문에서는 Apriori-Genetic 알고리즘을 이용한 베이지안 문서 분류 방법을 제안한다. Apriori 알고리즘은 단어간의 의미를 반영한 연관 단어의 형태로 문서의 특징을 추출하며 추출된 연관 단어로 연관 단어 지식베이스를 구축한다. Aprrori 알고리즘만으로 연관 단어 지식베이스를 구축할 경우, 지식베이스 안에 부적당한 연관 단어가 포함된다. 따라서 문서 분류의 정확도가 낮아지는 단점이 있다. 이러한 단점을 보완하기 위해, Genetic 알고리즘을 이용하여 연관 단어 지식베이스를 최적화하는 방법을 사용한다. 베이지안 확률을 이용하는 분류자는 최적화된 연관 단어 지식베이스를 기반으로 문서를 클래스별로 분류한다. Apriori-Genetic 알고리즘을 이용한 베이지안 문서 분류의 성능을 평가하기 위해, Apriori 알고리즘을 이용한 베이지안 문서 분류 방법, 역문헌빈도를 사용한 베이지안 문서 분류 방법, 기존의 단순 베이지안 분류 방법과 비교하였다.

  • PDF

Automatic Korean Text Categorization by Subject Thesaurus (분야별 관련어사전에 의한 한글 웹문서 자동분류)

  • Kim, Young;Chae, Soo-Hoan
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.05a
    • /
    • pp.771-774
    • /
    • 2005
  • 인터넷이 폭 넓게 보급되어 온라인 상에서 얻을 수 있는 텍스트 정보의 양이 급증함에 따라 산재해 있는 문서들에 대한 효과적인 정보 관리 및 검색이 요구되고 있다. 자동 문서분류란 문서의 내용에 기반하여 미리 정의되어 있는 범주에 문서를 자동으로 할당하는 작업으로써 효율적인 정보 관리 및 검색을 가능하게 한다. 특히 한국어 정보처리의 중요성에 비해 관련 분야의 자료들을 수집, 분류하는데 있어 많은 어려움이 있다. 따라서 논문에서는 한글 웹문서 자동 문서 범주화에 대한 수행단계중 각 분야에 대해 사전구축을 하고, 중복단어제거를 통한 보다 효과적인 분야별 문서분류를 제안하고자한다.

  • PDF

Automatic Image Categorization using Combination of Multiple Features (다중 특징값의 조합을 이용한 자동적 이미지 카테고리화 방법)

  • Yang, Seung-Ji;Yoon, Jeong-Hyun;Ro, Yong-Man
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11a
    • /
    • pp.39-42
    • /
    • 2002
  • 본 논문에서는 내용 기반 이미지 검색 및 필터링 시스템을 위한 카테고리 식별 방법을 제안한다. 제안된 방법에서는 식별 가능한 카테고리를 사전에 정의하고, 정의된 카테고리를 대표할 수 있는 이미지들을 수집한다. 다음으로, 이들로부터 다중의 내용 기반 특징값을 추출하고, 추출된 특징값들로 카테고리 데이터베이스를 구성한다. 카테고리를 식별할 질의 이미지가 입력으로 들어오면, 질의 이미지로부터 추출된 다중 특징값들을 각 카테고리의 단일 특징값과 각각 비교함으로써, 카테고리를 대표하는 다중의 유사도 거리값을 측정한다. 각 카테고리를 대표하는 다중의 유사도 거리값들은 두 가지 연산 방법에 의해 조합되는데, 조합 방법은 각각의 단일 특징값이 각 카테고리 식별에 미치는 영향을 고려하여 정의된다. 최종적으로, 각 카테고리의 조합된 유사도 거리값을 비교한 다음, 가장 유사도가 큰 카테고리를 해당 질의 이미지의 카테고리로 식별한다.

  • PDF

Category Factor Based Feature Selection for Document Classification

  • Kang Yun-Hee
    • International Journal of Contents
    • /
    • v.1 no.2
    • /
    • pp.26-30
    • /
    • 2005
  • According to the fast growth of information on the Internet, it is becoming increasingly difficult to find and organize useful information. To reduce information overload, it needs to exploit automatic text classification for handling enormous documents. Support Vector Machine (SVM) is a model that is calculated as a weighted sum of kernel function outputs. This paper describes a document classifier for web documents in the fields of Information Technology and uses SVM to learn a model, which is constructed from the training sets and its representative terms. The basic idea is to exploit the representative terms meaning distribution in coherent thematic texts of each category by simple statistics methods. Vector-space model is applied to represent documents in the categories by using feature selection scheme based on TFiDF. We apply a category factor which represents effects in category of any term to the feature selection. Experiments show the results of categorization and the correlation of vector length.

  • PDF