• 제목/요약/키워드: Naive-Bayes classification

검색결과 125건 처리시간 0.026초

A novel classification approach based on Naïve Bayes for Twitter sentiment analysis

  • Song, Junseok;Kim, Kyung Tae;Lee, Byungjun;Kim, Sangyoung;Youn, Hee Yong
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권6호
    • /
    • pp.2996-3011
    • /
    • 2017
  • With rapid growth of web technology and dissemination of smart devices, social networking service(SNS) is widely used. As a result, huge amount of data are generated from SNS such as Twitter, and sentiment analysis of SNS data is very important for various applications and services. In the existing sentiment analysis based on the $Na{\ddot{i}}ve$ Bayes algorithm, a same number of attributes is usually employed to estimate the weight of each class. Moreover, uncountable and meaningless attributes are included. This results in decreased accuracy of sentiment analysis. In this paper two methods are proposed to resolve these issues, which reflect the difference of the number of positive words and negative words in calculating the weights, and eliminate insignificant words in the feature selection step using Multinomial $Na{\ddot{i}}ve$ Bayes(MNB) algorithm. Performance comparison demonstrates that the proposed scheme significantly increases the accuracy compared to the existing Multivariate Bernoulli $Na{\ddot{i}}ve$ Bayes(BNB) algorithm and MNB scheme.

점진적 특징 가중치 기법을 이용한 나이브 베이즈 문서분류기의 성능 개선 (Improving Naïve Bayes Text Classifiers with Incremental Feature Weighting)

  • 김한준;장재영
    • 정보처리학회논문지B
    • /
    • 제15B권5호
    • /
    • pp.457-464
    • /
    • 2008
  • 실제 운용 환경에서 자동문서분류시스템의 성공을 위해서 충분하지 못한 학습문서의 문제와 특징 공간들에 대한 사전지식이 없는 상황을 해결하는 것이 관건이다. 이런 맥락에서 많은 자동문서분류 시스템의 구축을 위해 나이브 베이즈 문서분류 알고리즘을 사용한다. 이는 기존 학습된 분류모델과 특징 공간을 점진적으로 갱신함으로써 분류모델을 향상시키는 것이 매우 용이하기 때문이다. 본 논문에서는 특징 가중치를 이용하여 문서분류기의 성능을 향상시키는 기법을 제안한다. 기본 아이디어는 문서분류 모델의 인자로서 특징들의 분포뿐만 아니라 각 특징들의 중요도를 반영하는 것이다. 속성 선택을 미리 수행하여 학습모델을 만드는 것이 아니라, 속성 중요도를 나이브 베이즈 학습 모델에 포함시킴으로써 보다 정확한 모델을 생성할 수 있다. 또한 동적 환경에서 점진적인 특징 가중치 부여를 위해 기존의 특징 갱신 기법을 확장한 알고리즘도 제안한다. 본 논문에서 제안된 기법을 평가하기 위해서 Reuters-21578과 20Newsgroup 문서집합 이용한 실험을 실시하여, 제안된 기법이 전통적인 나이브 베이즈 분류기의 성능을 크게 향상시킴을 증명한다.

사상체질 진단검사를 위한 데이터마이닝 알고리즘 연구 (Data mining Algorithms for the Development of Sasang Type Diagnosis)

  • 홍진우;김영인;박소정;김병철;엄일규;황민우;신상우;김병주;권영규;채한
    • 동의생리병리학회지
    • /
    • 제23권6호
    • /
    • pp.1234-1240
    • /
    • 2009
  • This study was to compare the effectiveness and validity of various data-mining algorithm for Sasang type diagnostic test. We compared the sensitivity and specificity index of nine attribute selection and eleven class classification algorithms with 31 data-set characterizing Sasang typology and 10-fold validation methods installed in Waikato Environment Knowledge Analysis (WEKA). The highest classification validity score can be acquired as follows; 69.9 as Percentage Correctly Predicted index with Naive Bayes Classifier, 80 as sensitivity index with LWL/Tae-Eum type, 93.5 as specificity index with Naive Bayes Classifier/So-Eum type. The classification algorithm with highest PCP index of 69.62 after attribute selection was Naive Bayes Classifier. In this study we can find that the best-fit algorithm for traditional medicine is case sensitive and that characteristics of clinical circumstances, and data-mining algorithms and study purpose should be considered to get the highest validity even with the well defined data sets. It is also confirmed that we can't find one-fits-all algorithm and there should be many studies with trials and errors. This study will serve as a pivotal foundation for the development of medical instruments for Pattern Identification and Sasang type diagnosis on the basis of traditional Korean Medicine.

컨텍스트 인식 기반 개인화 추천 서비스를 위한 사용자 행동패턴 추론 모델 (A Model to Infer Users' Behavior Patterns for Personalized Recommendation Service based Context-Awareness)

  • 서효석;이상용
    • 디지털융복합연구
    • /
    • 제10권2호
    • /
    • pp.293-297
    • /
    • 2012
  • 컨텍스트 인식 환경에서 개인화 추천 서비스를 제공하기 위해서는 수집된 컨텍스트 정보를 빠르게 분석하고, 효과적으로 사용자의 목적을 추론할 수 있어야 한다. 그러나 모바일 장비에서 수집되는 컨텍스트는 환경에 따라 데이터의 차이가 발생함으로 인해 기존의 추론 알고리즘을 그대로 적용하기에는 적합하지 않고 모바일 환경에 적합한 효율적인 알고리즘이 필요하다. 본 연구에서는 정보의 누락이나 오류 등으로 인한 손실을 최소화하기 위해 나이브 베이즈 분류기를 사용하여 행동 패턴을 분류하였다. 또한 사용자의 성향을 효과적으로 학습하고 행동 목적을 추론하기 위하여 패턴 매칭 기법을 시용하였다. 제안한 개인화 추천 서비스 시스템을 스마트폰에서 어플리케이션을 추천하는 서비스를 적용하여 정확도를 평가하였다.

스마트폰 사용과 MBTI 사용자 특성간의 관계 평가 (Assessing the Relationship between MBTI User Personality and Smartphone Usage)

  • 라저스리 소카세인;김경백
    • 한국빅데이터학회지
    • /
    • 제1권1호
    • /
    • pp.33-39
    • /
    • 2016
  • 최근 스마트폰 사용 형태의 도움을 받아 사용자 특성을 예측하는 것은 매우 흥미롭고 주의를 사로잡는 연주 주제이다. 현재 몇몇 연구들은 사용자의 특성을 예측하기 위해 전화 사용 기록, 문자 메시지 사용 기록, 소셜 네트워크 서비스 사용 기록 등을 이용하고 있다. 이 논문에서, 우리는 MBTI 사용자 특성과 스마트폰 사용로그 간의 관계를 평가한다. 이를 위해, 스마트폰 사용 기록에서 부터 몇몇 특징들을 추출하고 이를 Naive Bayes와 SVM등의 분류기에 적용하여 사용자의 특성을 구분하였다. 사용자 특성 분석 결과의 분석을 통해 facebook사용 기록이 외향적인 사람과 내향적인 사람을 가장 잘 구분하는 것을 알 수 있었고, SVM 분류기가 Naive Bayes보다 사용자의 특성을 잘 예측하는 것을 확인하였다.

  • PDF

수입식품 빅데이터를 이용한 부적합식품 탐지 시스템에 관한 연구 (Study on Anomaly Detection Method of Improper Foods using Import Food Big data)

  • 조상구;최경현
    • 한국빅데이터학회지
    • /
    • 제3권2호
    • /
    • pp.19-33
    • /
    • 2018
  • FTA체결의 증가, 식품교역 증가 및 소비자의 다양한 식품 선호도 등으로 농축수산물 및 가공식품의 수입량은 매년 증가하고 있는 추세이다. 수입식품의 안전성을 확인하는 정밀검사는 전체 수입식품건수 대비 20%정도를 차지하고 계속 증가하고 있는 반면에 정부의 수입안전관리에 필요한 예산과 인력은 그 한계점에 다다르고 있다. 수입식품 안전사고가 발생하게 되면 막대한 사회적, 경제적 손실을 야기할 수 있으므로 수입식품의 수입허용여부를 정확하게 예측하여 선제 대응하는 것은 수입안전관리의 효율성과 경제성을 획기적으로 높일 수 있게 된다. 식품분야에서는 이미 엄청난 양의 정형 데이터가 과거로부터 쌓여 왔으며 이에 대한 충분한 분석을 통한 활용은 아직은 부족한 것이 현실이다. 전체 수입건수와 중량 중에서 차지하는 가공식품의 비중은 평균 75%에 달하고 있어 식품분야에서도 빅데이터의 분석, 분석기법의 적용 등으로 다량의 데이터로부터 의미 있는 정보를 추출하는 과학적이고 자동화된 부적합탐지시스템의 연구가 절실한 상황이다. 이러한 배경에서 본 연구는 기계학습분야의 다양한 부적합 예측 모형을 적용하였으며 예측 모형의 정확도를 개선시키기 위한 방편으로 새로운 파생변수의 생성을 통한 데이터 전처리 방안을 제시하였다. 또한 본 연구에서는 기계학습분야의 일반적인 기저 분류기를 적용하여 예측 모형의 성능을 비교하였으며 여러 기저분류기 중 Gaussian Naïve Bayes예측 모형이 수입식품의 부적합을 탐지하여 예측하는 가장 좋은 성과를 보여주었다. 향후 Gaussian Naïve Bayes 예측 모형을 이용한 부적합 탐지 모형을 적용하여 수입식품의 정밀검사 비중을 낮추고 부적합률을 제고시킴으로써 수입안전관리 국가사무의 효율성과 수입통관의 신속성에 지대한 효과를 거둘 수 있으리라 기대한다.

베이지안 분류기를 이용한 소프트웨어 품질 분류 (Software Quality Classification using Bayesian Classifier)

  • 홍의석
    • 한국IT서비스학회지
    • /
    • 제11권1호
    • /
    • pp.211-221
    • /
    • 2012
  • Many metric-based classification models have been proposed to predict fault-proneness of software module. This paper presents two prediction models using Bayesian classifier which is one of the most popular modern classification algorithms. Bayesian model based on Bayesian probability theory can be a promising technique for software quality prediction. This is due to the ability to represent uncertainty using probabilities and the ability to partly incorporate expert's knowledge into training data. The two models, Na$\ddot{i}$veBayes(NB) and Bayesian Belief Network(BBN), are constructed and dimensionality reduction of training data and test data are performed before model evaluation. Prediction accuracy of the model is evaluated using two prediction error measures, Type I error and Type II error, and compared with well-known prediction models, backpropagation neural network model and support vector machine model. The results show that the prediction performance of BBN model is slightly better than that of NB. For the data set with ambiguity, although the BBN model's prediction accuracy is not as good as the compared models, it achieves better performance than the compared models for the data set without ambiguity.

Memory-Efficient NBNN Image Classification

  • Lee, YoonSeok;Yoon, Sung-Eui
    • Journal of Computing Science and Engineering
    • /
    • 제11권1호
    • /
    • pp.1-8
    • /
    • 2017
  • Naive Bayes nearest neighbor (NBNN) is a simple image classifier based on identifying nearest neighbors. NBNN uses original image descriptors (e.g., SIFTs) without vector quantization for preserving the discriminative power of descriptors and has a powerful generalization characteristic. However, it has a distinct disadvantage. Its memory requirement can be prohibitively high while processing a large amount of data. To deal with this problem, we apply a spherical hashing binary code embedding technique, to compactly encode data without significantly losing classification accuracy. We also propose using an inverted index to identify nearest neighbors among binarized image descriptors. To demonstrate the benefits of our method, we apply our method to two existing NBNN techniques with an image dataset. By using 64 bit length, we are able to reduce memory 16 times with higher runtime performance and no significant loss of classification accuracy. This result is achieved by our compact encoding scheme for image descriptors without losing much information from original image descriptors.

애플리케이션 트래픽 분류를 위한 머신러닝 알고리즘 성능 분석 (Performance Analysis of Machine Learning Algorithms for Application Traffic Classification)

  • 김성윤;김명섭
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 춘계학술발표대회
    • /
    • pp.968-970
    • /
    • 2008
  • 기존에 트래픽 분류 방법으로 payload 분석이나 well-known port를 이용한 방법을 많이 사용했다. 하지만 동적으로 변하는 애플리케이션이 늘어남에 따라 기존 방법으로 애플리케이션 트래픽 분류가 어렵다. 이러한 문제의 대안으로 Machine Learning(ML) 알고리즘을 이용한 애플리케이션 트래픽 분류방법이 연구되고 있다. 기존의 논문에서는 일정 시간동안 수집한 data set을 사용하기 때문에 적게 발생한 애플리케이션은 제대로 분류하지 못하여도 전체적으로는 좋은 성능을 보일 수 있다. 본 논문에서는 이러한 문제를 해결하기 위해 각 애플리케이션마다 동일한 수의 data set을 수집하여 애플리케이션 트래픽을 분류하는 방법을 제시한다. ML 알고리즘 중 J48, REPTree, BayesNet, NaiveBayes, Multilayer Perceptron 알고리즘을 이용하여 애플리케이션 트래픽 분류의 정확도를 비교한다.

Lifelong Machine Learning 기반 스팸 메시지 필터링 방법 (A Method for Spam Message Filtering Based on Lifelong Machine Learning)

  • 안연선;정옥란
    • 전기전자학회논문지
    • /
    • 제23권4호
    • /
    • pp.1393-1399
    • /
    • 2019
  • 인터넷의 급속한 성장으로 데이터의 송수신의 편리성과 비용이 들지 않는다는 장점 때문에 매일 수백만 건의 무차별적인 광고성 스팸 문자와 메일이 발송되고 있다. 아직은 스팸 단어나 스팸 번호를 차단하는 방법을 주로 사용하지만, 기계 학습이 떠오름에 따라 스팸을 필터링하는 방법에 대해 다양한 방식으로 활발히 연구되고 있다. 그러나 스팸에서만 등장하는 단어나 패턴은 스팸 필터링 시스템에 의해 걸러지지 않기 위해 지속적으로 변화하고 있기 때문에, 기존 기계 학습 메커니즘으로는 새로운 단어와 패턴을 감지, 적응할 수 없다. 최근 이러한 기존 기계 학습의 한계점을 극복하기 위해 기존의 지식을 활용하여 새로운 지식을 지속적으로 학습하도록 하는 Lifelong Learning(이하 LL)의 개념이 대두되었다. 본 논문에서는 문서 분류에 가장 많이 사용되는 나이브 베이즈와 Lifelong Machine Learning(이하 LLML)의 앙상블 기법을 이용한 스팸 메시지 필터링 방법을 제안한다. 우리는 기존 스팸 필터링 시스템에 가장 많이 사용되는 나이브 베이즈와, LLML 모델 중 ELLA를 적용하여 LL의 성능을 검증한다.