• 제목/요약/키워드: Text Categorization

검색결과 147건 처리시간 0.021초

TF-IDF의 변형을 이용한 전자뉴스에서의 키워드 추출 기법 (Keyword Extraction from News Corpus using Modified TF-IDF)

  • 이성직;김한준
    • 한국전자거래학회지
    • /
    • 제14권4호
    • /
    • pp.59-73
    • /
    • 2009
  • 키워드 추출은 정보검색, 문서 분류, 요약, 주제탐지 등의 텍스트 마이닝 분야에서 기반이 되는 기술이다. 대용량 전자문서로부터 추출된 키워드들은 텍스트 마이닝을 위한 중요 속성으로 활용되어 문서 브라우징, 주제탐지, 자동분류, 정보검색 시스템 등의 성능을 높이는데 기여한다. 본 논문에서는 인터넷 포털 사이트에 게재되는 대용량 뉴스문서집합을 대상으로 키워드 추출을 수행하여 분야별 주제를 제시할 수 있는 키워드를 추출하는 새로운 기법을 제안한다. 기본적으로 키워드 추출을 위해 기존 TF-IDF 모델을 고찰, 이것의 6가지 변형식을고안하여 이를 기반으로 각 분야별 후보 키워드를 추출한다. 또한 분야별로 추출된 단어들의 분야간 교차비교분석을 통해 불용어 수준의 의미 없는 단어를 제거함으로써 그 성능을 높인다. 제안 기법의 효용성을 입증하기 위해 한글 뉴스 기사 문서에서 추출한 키워드의 질을 비교하였으며, 또한 주제 변화를 탐지하기 위해 시간에 따른 키워드 집합의 변화를 보인다.

  • PDF

A Study on The Usability Evaluation Based on Text Analysis for The Development of Comfort-Shoes for Middle-Aged

  • KIM, Ji Ho;YOON, Sang Hoon;KWON, Ki Hyun;SEO, Jeong Kwon;HAN, Seung Jin
    • Journal of Sport and Applied Science
    • /
    • 제3권2호
    • /
    • pp.17-27
    • /
    • 2019
  • Purpose: This study is to conduct usability evaluations from the perspective of developing comfort-shoes for the middle-aged and elderly to identify key factors and derive implications for optimal comfort-shoes production. Research design, data, and methodology: A total of 10 middle-aged and elderly women in their 50s and 60s were selected as eligible for the rescue. For data collection, the study was conducted in a Gang Survey, where pre-explanations, shoes test, and interviews were conducted. The collected data were analyzed in a total of four stages. In step 1, the contents obtained through interviews with the subjects were recorded in text, organized and analyzed systematically, and in step 2, unnecessary vocabulary, sentences, and overlapping opinions were eliminated. In step 3, we classified areas around key functions and carried out categorization tasks. Finally, in Step 4, the results and implications of the study were derived by classifying each usability evaluation shoe as positive and negative text around categorized data. Results: There are a total of seven factors for comfort-shoes usability evaluation, which are categorized as cushion, fitting, stability, flexibility, lightweight, comfort, and pressure. Positive/negative factors for the derived usability evaluation factors were shown in the form of a positive-centered, negative-centered, and positive-mixed mix for each of the four products. Positive-focused products are VA products, which are seven times more positive than negative factors. Negative-centered products are CL and SA products, which are five times more negative than positive factors. Positive mixing was a CA product with a ratio of 1:1. Text-based usability evaluations allow us to proceed with analysis based on more scientific data rather than simply listening to opinions and judging by comments. Conclusions: The study discussed implications of developing comfort-shoes for middle-aged consumers and future directions were discussed.

학교도서관 중심의 독서교육을 위한 독서전략 범주화에 관한 연구 (A Study on the Categorization of Reading Strategies for Reading Instruction in School Library)

  • 이병기
    • 한국도서관정보학회지
    • /
    • 제39권3호
    • /
    • pp.139-159
    • /
    • 2008
  • 독서교육에 관한 최근의 연구에 의하면 독립적인 기능 중심의 교육보다는 독서전략을 중심으로 지도해야 한다는 주장이 폭넓게 수용되고 있다. 독서전략은 독자가 능숙하게 독서를 하는데 동원하거나 지도교사가 효과적인 독자가 될 수 있도록 지도하는 방법이나 의도적인 계획을 말한다. 그동안 학교도서관에서 제공하는 독서교육 프로그램은 독서촉진 혹은 행사에 치중해 왔다. 따라서 학교도서관에서 제공하는 독서교육은 독서촉진이나 행사보다는 독서전략 중심의 교육으로 전환할 필요가 있다. 이에 본 연구에서는 텍스트 종류, 텍스트의 구조, 독서의 과정, 인지전략 등 4개의 요소로 구분하여 독서교육에 필요한 독서전략을 범주화하였다.

  • PDF

특허 문서로부터 키워드 추출을 위한 위한 텍스트 마이닝 기반 그래프 모델 (Text-mining Based Graph Model for Keyword Extraction from Patent Documents)

  • 이순근;임영문;엄완섭
    • 대한안전경영과학회지
    • /
    • 제17권4호
    • /
    • pp.335-342
    • /
    • 2015
  • The increasing interests on patents have led many individuals and companies to apply for many patents in various areas. Applied patents are stored in the forms of electronic documents. The search and categorization for these documents are issues of major fields in data mining. Especially, the keyword extraction by which we retrieve the representative keywords is important. Most of techniques for it is based on vector space model. But this model is simply based on frequency of terms in documents, gives them weights based on their frequency and selects the keywords according to the order of weights. However, this model has the limit that it cannot reflect the relations between keywords. This paper proposes the advanced way to extract the more representative keywords by overcoming this limit. In this way, the proposed model firstly prepares the candidate set using the vector model, then makes the graph which represents the relation in the pair of candidate keywords in the set and selects the keywords based on this relationship graph.

A One-Size-Fits-All Indexing Method Does Not Exist: Automatic Selection Based on Meta-Learning

  • Jimeno-Yepes, Antonio;Mork, James G.;Demner-Fushman, Dina;Aronson, Alan R.
    • Journal of Computing Science and Engineering
    • /
    • 제6권2호
    • /
    • pp.151-160
    • /
    • 2012
  • We present a methodology that automatically selects indexing algorithms for each heading in Medical Subject Headings (MeSH), National Library of Medicine's vocabulary for indexing MEDLINE. While manually comparing indexing methods is manageable with a limited number of MeSH headings, a large number of them make automation of this selection desirable. Results show that this process can be automated, based on previously indexed MEDLINE citations. We find that AdaBoostM1 is better suited to index a group of MeSH hedings named Check Tags, and helps improve the micro F-measure from 0.5385 to 0.7157, and the macro F-measure from 0.4123 to 0.5387 (both p < 0.01).

Nearest Neighbor 방법을 이용한 문서 범주화에서 범주 자질의 평가 (An Evaluation of Category Features in Text Categorization Using Nearest Neighbor Method)

  • 권오욱;이종혁;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.7-14
    • /
    • 1997
  • 문서 범주화에서 문서의 내용에 따라 적합한 범주의 종류와 수를 찾는 문제를 해결하기 위해서는 문서 당 하나의 범주를 할당할 경우에 가장 좋은 성능을 보이는 모델이 효과적일 것이다. 그러므로, 본 논문에서는 문서 당 하나의 범주를 할당할 경우에 좋은 결과를 보이는 k-nearest neighbor 방법을 이용한다. 그리고 k-nearest neighbor 방법을 이용한 문서 범주화의 성능을 향상시키기 위해서, 문서 표현에 사용하는 단어들을 범주 자질의 성격을 갖는 단어들로 제한하는 방법을 제안한다. 제안한 방법은 Router 신문 일년치로 구성된 Router-21578 테스트 집합에서 breakeven point 82%라는 좋은 결과를 보였다.

  • PDF

용어 가중치와 역범주 빈도에 의한 자동문서 범주화 (Automatic Text Categorization by Term Weighting and Inverted Category Frequency)

  • 이경찬;강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.14-17
    • /
    • 2003
  • 문서의 확률을 이용하여 자동으로 문서를 분류하는 문서 범주화 기법의 대표적인 방법이 나이브 베이지언 확률 모델이다. 이 방법의 기본 형식은 출현 용어의 확률 계산 방법이다. 하지만 실제 문서 범주화 과정에서 출현하지 않는 용어들도 성능에 많은 영향을 줄 수 있으며, 출현 용어들에 대한 빈도 이외의 역범주 빈도나 용어가중치를 적용하여 문서 범주화 시스템의 성능을 향상시킬 수 있다. 본 논문에서는 나이브 베이지언 확률 모델에 출현 용어와 출현하지 않는 용어들에 대한 smoothing 기법을 적용하여 실험하였다. 성능 평가를 위해 뉴스그룹 문서들을 이용하였으며, 역범주 빈도와 가중치를 적용했을 때 나이브 베이지언 확률 모델에 비해 약 7% 정도 성능 개선 효과가 있었다.

  • PDF

지지 벡터 기계를 이용한 계층적 문서 분류 (Hierarchical Text Categorization using Support Vector Machine)

  • 윤용욱;이창기;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.7-13
    • /
    • 2003
  • 인터넷을 통해 생성, 전달되는 문서 량이 급격히 많아짐에 따라, 정보의 접근을 용이하게 하기 위한 문서의 자동 분류 기능이 절실히 요구되고 있다. SVM(Support Vector Machine)은 최근에 문서 분류에 널리 쓰이고 있는 기법으로 다른 분류기에 비하여 좋은 성능을 보여주고 있다. 하지만 SVM은 현재까지 주로 비 계층 평탄화(flat)된 분류 응용에 효과적으로 적용되어 왔다. 이와 달리 본 논문은 문서 분류에 있어서 최종 분류 class를 한번에 출력하는 비 계층 분류보다는, 비슷한 성질을 갖는 class의 집합을 계층적 구조로 묶어 분류하는 계층적 분류 기법이 보다 사람이 이해하기 쉽고 사용하기 편리하며 더 효과적이라는 것을 보이고, 실험을 통해 계층적 분류를 위한 효과적인 SVM분류기를 개발하여 비 계층 분류보다 좋은 분류 성능을 보여 줄 수 있음을 확인한다.

  • PDF

실행공동체를 위한 지식관리시스템에서의 퍼지기반 신뢰도 측정 (Fuzzy-based Trust Measurement for CoPs in Knowledge Management Systems)

  • 양근우
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제19권4호
    • /
    • pp.65-85
    • /
    • 2010
  • The importance of communities of practice(CoP) as an organizational informal unit for fostering knowledge transfer and sharing gains a lot of attention from KM researchers and practitioners. Since most of CoPs are formulated online these days, the credibility or trustworthiness of knowledge contents circulated within a certain CoP should be considered thoroughly for them to be fully utilized safely. Here comes the need for an appropriate trust measuring methodology to determine the true value of knowledge given by unknown people through an online channel. In this paper, an improved trust measuring method is proposed using new trust variables such as level of degrees derived from the relationships among community users. In addition, activeness, relevance, and usefulness of the knowledge contents themselves, which are calculated automatically using a text categorization technique, are also used for trust measurement. The proposed framework incorporates fuzzy set and calculation concepts to help build trust matrices and models, which are used to measure the level of trust involved in specific knowledge artifacts concerned.

정규화 용어빈도가중치에 의한 자동문서분류 (Automatic Text Categorization by using Normalized Term Frequency Weighting)

  • 김수진;김민수;백장선;박혁로
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.510-512
    • /
    • 2003
  • 본 논문에서는 문서의 자동 분류를 위한 용어 빈도 가중치 계산 방법으로 Box-Cox변환기법을 응용한 정규화 용어빈도 가중치를 정의하고, 이를 문서 분류에 적응하였다. 여기서 Box-Cox 변환기법이란 자료를 정규분포화 할 때 적용하는 통계적인 변환방법으로서, 본 논문에서는 이를 응용하여 새로운 용어빈도가중치 계산법을 제안한다. 문서에서 등장한 용어 빈도는 너무 많거나 적게 등장할 경우, 중요도가 떨어지게 되는데, 이는 용어의 중요도가 빈도에 따른 정규분포로 모델링 될 수 있다는 것을 의미한다. 또한 정규화 가중치 계산방법은 기존의 용어빈도 가중치 공식과 비교할 때, 용어마다 계산방법이 달라져, 로그나 루트와 같은 고정된 가중치 방법보다는 좀더 일반적인 방법이라 할 수 있다. 신문기사 8000건을 대상으로 4개의 그룹으로 나누어 실험 한 결과, 정규화 용어빈도가중치 계산방법이 모두 우위의 분류 정확도롤 가져, 본 논문에서 제안한 방법이 타당함을 알 수 있다.

  • PDF