• Title/Summary/Keyword: 베이즈 정보 기준

Search Result 16, Processing Time 0.025 seconds

Comparative Between Naive Bayes Classifier and Cosine Similarity Coefficient in Dynamic Document Filtering (동적인 문서 여과에서 나이브 베이즈 분류기와 코사인 유사 계수의 성능 비교)

  • Son Ki-Jun;Lim Soo-Yeoun;Park Seong-Bae;Lee Sang-Jo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06b
    • /
    • pp.214-216
    • /
    • 2006
  • 온라인 정보가 증가함에 따라 많은 양의 정보 중에서 사용자가 원하는 정보를 정확하고 신속하게 찾아 주는 문서 여과의 중요성 또한 증가하고 있는 추세이다. 본 논문은 문서 여과 문제를 이진 문서 분류 문제로 보고, 나이브 베이즈 분류기를 동적인 문서 여과 목적으로 사용하였다. 이때 사용자가 자신의 관심 분야에 해당하는 주제를 제대로 여과 받기 위해서 학습 대상으로 삼아야 할 학습문서의 범위와 관련성 있는 문서를 제대로 여과 받기 위해서 체크해야 하는 관련성 표기 비율에 따른 분류기의 성능에 대하여 실험을 하였다. 코사인 유사계수를 이용한 여과 방법과의 성능도 비교 실험하였다. 실험 결과 나이브 베이즈 이진 분류기는 문서집합의 크기가 일정한 정도일 때 관련성 있는 문서가 모두 표기되지 않더라도 여과에는 큰 영향을 미치지 않음을 볼 수 있었다.

  • PDF

Model selection via Bayesian information criterion for divide-and-conquer penalized quantile regression (베이즈 정보 기준을 활용한 분할-정복 벌점화 분위수 회귀)

  • Kang, Jongkyeong;Han, Seokwon;Bang, Sungwan
    • The Korean Journal of Applied Statistics
    • /
    • v.35 no.2
    • /
    • pp.217-227
    • /
    • 2022
  • Quantile regression is widely used in many fields based on the advantage of providing an efficient tool for examining complex information latent in variables. However, modern large-scale and high-dimensional data makes it very difficult to estimate the quantile regression model due to limitations in terms of computation time and storage space. Divide-and-conquer is a technique that divide the entire data into several sub-datasets that are easy to calculate and then reconstruct the estimates of the entire data using only the summary statistics in each sub-datasets. In this paper, we studied on a variable selection method using Bayes information criteria by applying the divide-and-conquer technique to the penalized quantile regression. When the number of sub-datasets is properly selected, the proposed method is efficient in terms of computational speed, providing consistent results in terms of variable selection as long as classical quantile regression estimates calculated with the entire data. The advantages of the proposed method were confirmed through simulation data and real data analysis.

Performance Evaluation of a Naive Bayesian Classifier using various Feature Selection Methods (자질선정에 따른 Naive Bayesian 분류기의 성능 비교)

  • 국민상;정영미
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2000.08a
    • /
    • pp.33-36
    • /
    • 2000
  • 베이즈 확률을 이용한 분류기는 자동분류 초기부터 사용되어 아직까지 이 분야에서 가장 많이 사용되는 분류기 중 하나이다. 본 논문에서는 KTSET 문서에서 임의로 추출한 198건의 정보과학회 관련 논문의 제목 및 초록을 대상으로 베이즈 확률을 이용한 문서의 자동분류 실험을 수행하였으며, 더불어 Naive Bayesian 분류기에 가장 적합한 자질선정 방법을 찾고자 카이제곱 통계량, 상호정보량 및 기대상호정보량, 정보획득량, 역문헌빈도, 역카테고리빈도 등 6가지의 자질선정 기준을 실험하였다. 실험 결과는 카이제곱 통계량을 이용한 분류 실험의 성능이 가장 좋았고, 기대상호정보량과 정보획득량, 역카테고리빈도 또한 자질수에 큰 영향을 받지 않고 비교적 안정적인 성능을 보였다.

  • PDF

Classification and Allocation method of e-mail using possibility distribution and prediction (확률 분포와 추론에 의한 이메일 분류 및 정리 방법)

  • Go, Nam-Hyeon;Kim, Ji-Yun;Choi, Man-Kyu
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2016.07a
    • /
    • pp.95-96
    • /
    • 2016
  • 본 논문에서는 디리클레 분포와 베이즈 추론 모델을 활용하여 전자우편을 분류하고 정리하는 방법을 제안한다. 과거 원치 않는 광고성 이메일인 스팸 탐지에서 시작한 전자우편 분류는 지속적인 송수신 량의 증가와 내용의 다양화로 인해 광고성과 정보성의 판단 기준이 모호해진 상태이다. 스팸 탐지와 같은 이분법적 분류 방식이 아닌 내용의 주제 별로 자동 분류할 수 있는 방법이 필요하다. 본 논문에서 다루는 제안 기법은 전자우편의 내용에서 다뤄질 수 있는 주제의 종류를 예측하기 위한 방법을 제공한다. 발신하거나 수신된 전자우편이 속한 주제를 자동으로 정할 수 있다. 본 제안 기법의 활용을 통해 전자우편의 분류만이 아닌 업무 및 시장 동향 분석과 정보보안 분야에서는 악성코드 분류에 사용될 수 있을 것으로 기대된다.

  • PDF

교체정책에 대향 베이지안 접근법

  • Jeong, Gi-Mun
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 2006.04a
    • /
    • pp.319-326
    • /
    • 2006
  • 본 논문에서는 최소수리를 갖는 수리가 가능한 시스템의 최적의 교체정책에 대한 베이즈 접급방법을 제안하였다. 특히, 시스템을 운용하는데 필연적으로 발생하는 비용과 비가동시간을 함께 고려하여 기존의 비용에 근거한 연구결과를 확장하고자 하였다. 이를 위해서 단위시간당 기대비용과 단위시간당 기대비가동시간을 구하고, 이 두 기준을 동시에 고려한 최적의 교체주기를 결정하는 방법을 제시하였다. 또한, 순응적 교체정책에 대해서도 살펴보았다.

  • PDF

Direction of Arrival Estimation Via Determination-Estimation (결정-추정법을 이용한 신호 도착 방향 추정)

  • 최진호;나윤정;송익호
    • The Journal of the Acoustical Society of Korea
    • /
    • v.12 no.5
    • /
    • pp.32-37
    • /
    • 1993
  • 여러 신호원의 방향을 추정하는 결정-추정 방법을 제안하였다. 이 방법은 조건부 평균 다중신호분류 영 스펙트럼에 바탕을 두고 있으며 신호원수를 모를때에도 쓸 수 잇다. 컴퓨터 모의 실험으로 MUSIC dud tvprxmfja의 분해 확률과 조건부 평균 MUSIC dud 스펙트럼의 분해 확률은 거의 같다는 것을 알 수 있어?. 그리고 신호원 수를 결정할 때 정보 이론적 판단 기준과 베이즈 접근 방법이 같은 결과를 낸다는 것도 알 수 있었다.

  • PDF

A Study on Statistical Feature Selection with Supervised Learning for Word Sense Disambiguation (단어 중의성 해소를 위한 지도학습 방법의 통계적 자질선정에 관한 연구)

  • Lee, Yong-Gu
    • Journal of the Korean BIBLIA Society for library and Information Science
    • /
    • v.22 no.2
    • /
    • pp.5-25
    • /
    • 2011
  • This study aims to identify the most effective statistical feature selecting method and context window size for word sense disambiguation using supervised methods. In this study, features were selected by four different methods: information gain, document frequency, chi-square, and relevancy. The result of weight comparison showed that identifying the most appropriate features could improve word sense disambiguation performance. Information gain was the highest. SVM classifier was not affected by feature selection and showed better performance in a larger feature set and context size. Naive Bayes classifier was the best performance on 10 percent of feature set size. kNN classifier on under 10 percent of feature set size. When feature selection methods are applied to word sense disambiguation, combinations of a small set of features and larger context window size, or a large set of features and small context windows size can make best performance improvements.

캐릭터 이름을 이용한 MMORPG 봇 탐지 기법

  • Kang, Sung Wook;Lee, Eun Jo
    • Review of KIISC
    • /
    • v.27 no.4
    • /
    • pp.6-13
    • /
    • 2017
  • 온라인 게임에서 불법 프로그램을 이용한 게임 봇을 대규모로 운영하는 전문 사설 업체를 속칭 '작업장(Gold Farming Group, GFG)'이라고 부른다. 기존에 작업장에서 운영하는 게임 봇은 24시간 쉬지 않고 반복적인 파밍을 통해 수익을 극대화하는 전략을 취했으나 최근 온라인 게임의 계정 가입이 쉬워지고 무료 플레이가 보편화되면서 개개의 게임 봇 계정이 수행하는 플레이 시간이나 취득 재화 수준을 낮추는 대신 수만 개의 계정을 번갈아 가며 운영하는 방식으로 변하고 있다. 이로 인해 플레이 활동 패턴에 기반한 기존의 탐지 모델들이 점차 무력화되고 있으며 진입 초기에 게임 봇을 빠르게 탐지하고 제재하는 방안이 점차 중요해지고 있다. 우리는 게임 봇을 조기에 탐지하기 위한 방안으로 계정 및 캐릭터의 이름이 갖는 특성을 활용한 게임 봇 탐지 기법을 제안한다. 제안한 기법의 유효성을 검증하기 위해 북미에서 서비스 중인 엔씨소프트의 MMORPG인 '블레이드 앤 소울'의 약 20만 개 계정 정보를 이용해 탐지 성능을 측정하였다. 실험에 의하면 캐릭터 이름에 대해 간단한 나이브 베이즈 분류기를 적용하는 것만으로도 AUC 기준으로 약 0.901의 성능을 기록하였다.

The Method to Estimate Saliency Values using Gauss Weight (가우스 가중치를 이용한 돌출 값 추정을 위한 방법)

  • Yu, Young-Jung
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.17 no.4
    • /
    • pp.965-970
    • /
    • 2013
  • It is important work to extract saliency regions from an image as preprocessing for various image processing methods. In this paper, we introduce an improved method to estimate saliency value of each pixel from an image. The proposed method is an improved work of the previously studied method using color and statistical framework to estimate saliency values. At first, saliency value of each pixel is calculated using the local contrast of an image region at various scales and the most significant saliency pixel is determined using saliency value of each pixel. Then, saliency value of each pixel is again estimated using gauss weight with respect to the most significant saliency pixel and the saliency of each pixel is determined to calculate initial probability. At last, the saliency value of each pixel is calculated by Bayes' rule. The experiments show that our approach outperforms the current statistical based method.

Model selection method for categorical data with non-response (무응답을 가지고 있는 범주형 자료에 대한 모형 선택 방법)

  • Yoon, Yong-Hwa;Choi, Bo-Seung
    • Journal of the Korean Data and Information Science Society
    • /
    • v.23 no.4
    • /
    • pp.627-641
    • /
    • 2012
  • We consider a model estimation and model selection methods for the multi-way contingency table data with non-response or missing values. We also consider hierarchical Bayesian model in order to handle a boundary solution problem that can happen in the maximum likelihood estimation under non-ignorable non-response model and we deal with a model selection method to find the best model for the data. We utilized Bayes factors to handle model selection problem under Bayesian approach. We applied proposed method to the pre-election survey for the 2004 Korean National Assembly race. As a result, we got the non-ignorable non-response model was favored and the variable of voting intention was most suitable.