• 제목/요약/키워드: Naive Bayes 분류

검색결과 132건 처리시간 0.033초

행렬 전치를 이용한 효율적인 NaiveBayes 알고리즘 (An Efficient Algorithm for NaiveBayes with Matrix Transposition)

  • 이재문
    • 정보처리학회논문지B
    • /
    • 제11B권1호
    • /
    • pp.117-124
    • /
    • 2004
  • 본 논문은 NaiveBayes에서 정확도의 손실 없이 효율적으로 동작하는 NaiveBayes에 대한 새로운 알고리즘을 제안한다. 제안된 방법은 분류 벡터에 대한 행렬 전치를 사용하여 NaiveBayes의 확률 계산 량을 최소화하는 것이다. 제안된 방법을 문서 분류 프레임 인 AI::Categorizer 상에서 구현하였으며, 잘 알려진 로이터-21578 데이터를 사용하여 기존의 NaiveBayes 방법과 비교하였다. 성능 비교의 결과로부터 제안된 방법이 기존의 NaiveBayes 방법보다 실행 속도측면에서 약 2배 정도의 성능 개선 효과가 있음을 알 수 있었다. 수 있었다.

Naive Bayes 문서 분류기를 위한 점진적 학습 모델 연구 (A Study on Incremental Learning Model for Naive Bayes Text Classifier)

  • 김제욱;김한준;이상구
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 2001년도 춘계 Conference: CRM과 DB응용 기술을 통한 e-Business혁신
    • /
    • pp.331-341
    • /
    • 2001
  • 본 논문에서는 Naive Bayes 문서 분류기를 위한 새로운 학습모델을 제안한다. 이 모델에서는 라벨이 없는 문서들의 집합으로부터 선택한 적은 수의 학습 문서들을 이용하여 문서 분류기를 재학습한다. 본 논문에서는 이러한 학습 방법을 따를 경우 작은 비용으로도 문서 분류기의 정확도가 크게 향상될 수 있다는 사실을 보인다. 이와 같이, 알고리즘을 통해 라벨이 없는 문서들의 집합으로부터 정보량이 큰 문서를 선택한 후, 전문가가 이 문서에 라벨을 부여하는 방식으로 학습문서를 결정하는 것을 selective sampling이라 한다. 본 논문에서는 이러한 selective sampling 문제를 Naive Bayes 문서 분류기에 적용한다. 제안한 학습 방법에서는 라벨이 없는 문서들의 집합으로부터 재학습 문서를 선택하는 기준 측정치로서 평균절대편차(Mean Absolute Deviation), 엔트로피 측정치를 사용한다. 실험을 통해서 제안한 학습 방법이 기존의 방법인 신뢰도(Confidence measure)를 이용한 학습 방법보다 Naive Bayes 문서 분류기의 성능을 더 많이 향상시킨다는 사실을 보인다.

  • PDF

다항시행접근 단순 베이지안 문서분류기의 개선 (Improving Multinomial Naive Bayes Text Classifier)

  • 김상범;임해창
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권3_4호
    • /
    • pp.259-267
    • /
    • 2003
  • 단순 베이지언 분류모형은 구현이 간단하고 효율적이기 때문에 실용적으로 사용하기에 적합하다. 그러나 이 분류모형은 많은 기계학습 도메인에서 우수한 성능을 보임에도 불구하고 문서분류에 적용되었을 경우에는 그 성능이 매우 낮은 것으로 알려져왔다. 본 논문에서는 단순 베이지언 분류모형중 가장 성능이 우수한 것으로 알려진 다항 시행접근 단순 베이지언 분류모형을 개선하는 세가지 방법을 제안한다. 첫 번째는 범주에 대한 단어의 확률추정방법을 문서모델에 기반하여 개선하는 것이고, 두 번째는 문서의 길이에 따라 범주와의 관련성이 선형적으로 증가하는 것을 억제하기 위해 길이에 대한 정규화를 수행하는 것이며, 마지막으로 범주판정에 중요한 역할을 하는 단어들의 영향력을 높여주기 위하여 상호정보가중 단순 베이지언 분류방법을 사용하는 것이다. 제안하는 방법들은 문서분류기의 성능 평가를 위한 벤치마크 문서집합인 Reuters21578과 20Newsgroup에서 기존의 방범에 비해 상당한 성능향상을 가져옴을 알 수 있었다.

자질의 범주 모호성 해소를 위한 Naive Bayes 분류기 설계 (A Naive Bayes Classifier for Category Disambiguation of Features)

  • 유현숙;정영미
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.364-366
    • /
    • 2001
  • 문서 범주화는 전자 정보환경에서 매우 유용한 정보처리 도구로서, 다양한 문서 범주화 기법 및 성능향상을 위한 연구들이 지속적으로 이루어지고 있다. 그러나, 대부분의 연구들은 문서 범주화의 대상이 되는 단어 자질 공간의 차원축소 문제에만 집중되었을 뿐, 학습단계에 큰 영향을 미치는 다범주 단어 자질의 범주 모호성은 고려하지 않았다. 본 연구에서는, 다범주 자질의 범주 모호성을 해소함으로써 문서 범주화의 성능향상을 유도하는 범주 모호성 해소 가중치 W를 제시하고 이를 실험을 통해 증명하였다. 실험에서는 Naive Bayes 분류기와 가중치 W를 적용한 Naive Bayes-W 분류기를 직접 구축하여 문서 범주화의 성능향상 여부를 비교하는데 사용하였다. 도출된 실험결과를 통해, 가중치 W는 현재의 분류기가 가지고 있는 자질 표현의 범주 모호성이라는 단점을 보완하고 분류기의 성능향상을 유도함으로써 정보검색시스템의 검색효율을 높이는 데 활용될 수 있음일 증명되었다.

  • PDF

주제어의 중의성 해소를 위한 Naive Bayes 분류기 적용에 관한 연구 (Application of a Naive Bayes Classifier for Topic Word Sense Disambiguation)

  • 유현숙;정영미
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2000년도 제7회 학술대회 논문집
    • /
    • pp.71-74
    • /
    • 2000
  • 단어의 의미 중의성을 해소하는 것은 자연언어처리의 중요한 문제 중의 하나이다. 특히 문서의 주제어가 중의성을 가질 때, 이 문서는 부적합한 범주에 속하게 되어 정보검색시 잡음을 일으키는 원인이 되기도 한다. 그러므로, 본 논문에서는 문서를 대표하는 주재어의 의미 중의성을 해소하기 위해 주변 문맥자질을 고려하는 방법을 모색한다 이를 위해 자연언어처리의 통계적 방법으로 문서 범주화에 많이 사용되는 Naive Bayes 분류기를 중의성 해소에 적용하고, 그 결과 얻어진 중의성 해소 성능을 평가한다.

  • PDF

나이브베이스 분류자와 퍼지 추론을 이용한 적조 발생 예측의 성능향상 (Enhancing Red Tides Prediction using Fuzzy Reasoning and Naive Bayes Classifier)

  • 박선;이성로
    • 한국정보통신학회논문지
    • /
    • 제15권9호
    • /
    • pp.1881-1888
    • /
    • 2011
  • 적조란 유해조류의 일시적인 대 번식인 자연현상으로 어패류를 집단 폐사 시킨다. 적조에 의한 양식어업의 피해는 매년 발생하고 있다. 이 때문에 적조 발생을 미리 예측할 수 있으면 적조에 대한 피해를 최소화 시킬 수 있다. 적조발생 예측시 나이브베이스 분류자를 이용하면 좋은 예측결과를 얻을 수 있다. 그러나 나이브베이스를 이용한 결과는 단순한 발생 여부 만을 판별 할뿐 발생하는 적조가 어느 정도 증가 할지는 알 수 없다. 본 논문은 퍼지 추론과 나이브베이스 분류자를 이용한 새로운 적조발생 예측 방법을 제안한다. 제안방법은 적조 발생 예측의 정확률을 향상시키면서 적조생물 밀도의 증가율을 예측할 수 있다.

포섭구조 일대다 지지벡터기계와 Naive Bayes 분류기를 이용한 효과적인 지문분류 (Effective Fingerprint Classification using Subsumed One-Vs-All Support Vector Machines and Naive Bayes Classifiers)

  • 홍진혁;민준기;조웅근;조성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권10호
    • /
    • pp.886-895
    • /
    • 2006
  • 지문분류는 사전에 정의된 클래스로 입력된 지문을 분류하여 자동지문인식 시스템에서 비교해야할 지문의 수를 줄여준다. 지지벡터기계(support vector machine; SVM)는 패턴인식 분야에서 널리 사용되고 있을 뿐만 아니라 지문분류에서도 높은 성능을 보이고 있다. SVM은 이진클래스 분류기이기 때문에 다중클래스 문제인 지문분류를 위해서 적절한 분류기 생성과 결합 기법이 필요하며, 본 논문에서는 일대다(one-vs-all; OVA) 방식으로 구성된 SVM을 naive Bayes(NB) 분류기를 이용하여 동적으로 구성하는 분류방법을 제안한다. 지문분류에서 대표적으로 사용되는 특징인 FingerCode와 지문의 구조적 특징인 특이점과 의사융선을 사용하여 OVA SVM과 NB 분류기를 학습하고, 포섭구조의 분류기를 구성하여 효과적인 지문분류를 수행한다. NIST-4 데이타베이스에 제안하는 방법을 적용하여 5클래스 분류에 대해서 90.8%의 높은 분류율을 획득하였으며, OVA 전략의 SVM을 다중클래스 분류문제에 적용할 때 발생하는 동점문제를 효과적으로 처리하였다.

Levenshtein 거리를 이용한 영화평 감성 분류 (Sentiment Classification of Movie Reviews using Levenshtein Distance)

  • 안광모;김윤석;김영훈;서영훈
    • 디지털콘텐츠학회 논문지
    • /
    • 제14권4호
    • /
    • pp.581-587
    • /
    • 2013
  • 본 논문에서는 레빈쉬타인 거리(Levenshtein distance)를 이용한 감성 분류 방법을 제안한다. 감성 자질에 레빈쉬타인 거리를 적용하여 BOW(Back-Of-Word)를 생성하고 이를 학습 자질로 사용한다. 학습 모델은 지지벡터기계(support vector machines, SVMs)와 나이브 베이즈(Naive Bayes)를 이용하였다. 실험 데이터로는 다음 영화 사이트로부터 영화평을 수집하였으며, 수집한 영화평은 총 2,385건이다. 수집된 영화평으로부터 감성 어휘를 수작업을 통해 수집하였으며 총 778개 어휘가 선별되었다. 실험에서는 감성 어휘에 레빈쉬타인 거리를 적용한 BOW를 이용하여 기계학습을 수행하였으며, 10-fold-cross validation 방식으로 분류기의 성능을 평가하였다. 평가 결과는 레빈쉬타인 거리가 3일 때 다항 나이브 베이즈(Muitinomial Naive Bayes) 분류기에서 85.46%의 가장 높은 정확도를 보였다. 실험을 통하여 본 논문에서 제안하는 방법이 문서 내의 철자 오류에 대해서도 분류 성능에 영향을 적게 받음을 알 수 있었다.

나이브 베이스에서의 커널 밀도 측정과 상호 정보량 (Mutual Information in Naive Bayes with Kernel Density Estimation)

  • 샹총량;유샹루;강대기
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 춘계학술대회
    • /
    • pp.86-88
    • /
    • 2014
  • 나이브 베이스가 가지는 가정은 실세계 데이터를 분류함에 있어 해로운 효과를 보이곤 한다. 이러한 가정을 완화하기 위해, 우리는 Naive Bayes Mutual Information Attribute Weighting with Smooth Kernel Density Estimation (NBMIKDE) 접근 방법을 소개한다. NBMIKDE는 애트리뷰트를 위한 스무드 커널과 상호 정보량 측정값을 기반으로 하는 어트리뷰트 가중치 기법을 조합한 것이다.

  • PDF

Naive Bayes 분석기법을 이용한 유방암 진단 (Breast Cancer Diagnosis using Naive Bayes Analysis Techniques)

  • 박나영;김장일;정용규
    • 서비스연구
    • /
    • 제3권1호
    • /
    • pp.87-93
    • /
    • 2013
  • 선진국형 질병으로만 알려져 있던 유방암이 우리나라 현대 여성들에게 발병률이 꾸준히 증가하고 있다. 유방암은 보통 50대 이상의 여성에서 발병하는 병으로 알려져 있지만 우리나라의 경우 40대의 서양보다 젊은 여성들에게 발병률이 꾸준히 증가하고 있다. 따라서 우리나라 성인여성을 기준으로 유방암에 대한 정확한 진단을 할 수 있는 매뉴얼을 구축하는 것이 시급한 과제이다. 본 논문에서는 데이터마이닝기법을 이용하여 유방암을 예측하는 방법을 제시한다. 데이터마이닝이란 데이터베이스 내에 숨어 있는 일정한 패턴이나 변수들 간의 관계를 정교한 분석모형을 이용하여 쉽게 드러나지 않은 유용한 정보를 찾아내는 과정을 말한다. 실험을 통하여 Deicion Tree와 Naive Bayes 분석기법을 사용하여 유방암을 진단하는 분석기법을 비교분석을 하였다. Deicison Tree는 C4.5 알고리즘을 적용하여 분석하였고 두 알고리즘이 상당히 좋은 분류 정확도를 나타냈다. 그러나 Naive Bayes 분류방법이 Decision Tree방법보다 더 상회하는 정확도를 보였고 이는 의료데이터의 특성에 많이 기인한다고 볼 수 있다.

  • PDF