• 제목/요약/키워드: 베이즈 정보 기준

검색결과 16건 처리시간 0.02초

동적인 문서 여과에서 나이브 베이즈 분류기와 코사인 유사 계수의 성능 비교 (Comparative Between Naive Bayes Classifier and Cosine Similarity Coefficient in Dynamic Document Filtering)

  • 손기준;임수연;박성배;이상조
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (B)
    • /
    • pp.214-216
    • /
    • 2006
  • 온라인 정보가 증가함에 따라 많은 양의 정보 중에서 사용자가 원하는 정보를 정확하고 신속하게 찾아 주는 문서 여과의 중요성 또한 증가하고 있는 추세이다. 본 논문은 문서 여과 문제를 이진 문서 분류 문제로 보고, 나이브 베이즈 분류기를 동적인 문서 여과 목적으로 사용하였다. 이때 사용자가 자신의 관심 분야에 해당하는 주제를 제대로 여과 받기 위해서 학습 대상으로 삼아야 할 학습문서의 범위와 관련성 있는 문서를 제대로 여과 받기 위해서 체크해야 하는 관련성 표기 비율에 따른 분류기의 성능에 대하여 실험을 하였다. 코사인 유사계수를 이용한 여과 방법과의 성능도 비교 실험하였다. 실험 결과 나이브 베이즈 이진 분류기는 문서집합의 크기가 일정한 정도일 때 관련성 있는 문서가 모두 표기되지 않더라도 여과에는 큰 영향을 미치지 않음을 볼 수 있었다.

  • PDF

베이즈 정보 기준을 활용한 분할-정복 벌점화 분위수 회귀 (Model selection via Bayesian information criterion for divide-and-conquer penalized quantile regression)

  • 강종경;한석원;방성완
    • 응용통계연구
    • /
    • 제35권2호
    • /
    • pp.217-227
    • /
    • 2022
  • 분위수 회귀 모형은 변수에 숨겨진 복잡한 정보를 살펴보기 위한 효율적인 도구를 제공하는 장점을 바탕으로 많은 분야에서 널리 사용되고 있다. 그러나 현대의 대용량-고차원 데이터는 계산 시간 및 저장공간의 제한으로 인해 분위수 회귀 모형의 추정을 매우 어렵게 만든다. 분할-정복은 전체 데이터를 계산이 용이한 여러개의 부분집합으로 나눈 다음 각 분할에서의 요약 통계량만을 이용하여 전체 데이터의 추정량을 재구성하는 기법이다. 본 연구에서는 분할-정복 기법을 벌점화 분위수 회귀에 적용하고 베이즈 정보기준을 활용하여 변수를 선택하는 방법에 관하여 연구하였다. 제안 방법은 분할 수를 적절하게 선택하였을 때, 전체 데이터로 계산한 일반적인 분위수 회귀 추정량만큼 변수 선택의 측면에서 일관된 결과를 제공하면서 계산 속도의 측면에서 효율적이다. 이러한 제안된 방법의 장점은 시뮬레이션 데이터 및 실제 데이터 분석을 통해 확인하였다.

자질선정에 따른 Naive Bayesian 분류기의 성능 비교 (Performance Evaluation of a Naive Bayesian Classifier using various Feature Selection Methods)

  • 국민상;정영미
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2000년도 제7회 학술대회 논문집
    • /
    • pp.33-36
    • /
    • 2000
  • 베이즈 확률을 이용한 분류기는 자동분류 초기부터 사용되어 아직까지 이 분야에서 가장 많이 사용되는 분류기 중 하나이다. 본 논문에서는 KTSET 문서에서 임의로 추출한 198건의 정보과학회 관련 논문의 제목 및 초록을 대상으로 베이즈 확률을 이용한 문서의 자동분류 실험을 수행하였으며, 더불어 Naive Bayesian 분류기에 가장 적합한 자질선정 방법을 찾고자 카이제곱 통계량, 상호정보량 및 기대상호정보량, 정보획득량, 역문헌빈도, 역카테고리빈도 등 6가지의 자질선정 기준을 실험하였다. 실험 결과는 카이제곱 통계량을 이용한 분류 실험의 성능이 가장 좋았고, 기대상호정보량과 정보획득량, 역카테고리빈도 또한 자질수에 큰 영향을 받지 않고 비교적 안정적인 성능을 보였다.

  • PDF

확률 분포와 추론에 의한 이메일 분류 및 정리 방법 (Classification and Allocation method of e-mail using possibility distribution and prediction)

  • 고남현;김지윤;최만규
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2016년도 제54차 하계학술대회논문집 24권2호
    • /
    • pp.95-96
    • /
    • 2016
  • 본 논문에서는 디리클레 분포와 베이즈 추론 모델을 활용하여 전자우편을 분류하고 정리하는 방법을 제안한다. 과거 원치 않는 광고성 이메일인 스팸 탐지에서 시작한 전자우편 분류는 지속적인 송수신 량의 증가와 내용의 다양화로 인해 광고성과 정보성의 판단 기준이 모호해진 상태이다. 스팸 탐지와 같은 이분법적 분류 방식이 아닌 내용의 주제 별로 자동 분류할 수 있는 방법이 필요하다. 본 논문에서 다루는 제안 기법은 전자우편의 내용에서 다뤄질 수 있는 주제의 종류를 예측하기 위한 방법을 제공한다. 발신하거나 수신된 전자우편이 속한 주제를 자동으로 정할 수 있다. 본 제안 기법의 활용을 통해 전자우편의 분류만이 아닌 업무 및 시장 동향 분석과 정보보안 분야에서는 악성코드 분류에 사용될 수 있을 것으로 기대된다.

  • PDF

교체정책에 대향 베이지안 접근법

  • 정기문
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 한국데이터정보과학회 2006년도 PROCEEDINGS OF JOINT CONFERENCEOF KDISS AND KDAS
    • /
    • pp.319-326
    • /
    • 2006
  • 본 논문에서는 최소수리를 갖는 수리가 가능한 시스템의 최적의 교체정책에 대한 베이즈 접급방법을 제안하였다. 특히, 시스템을 운용하는데 필연적으로 발생하는 비용과 비가동시간을 함께 고려하여 기존의 비용에 근거한 연구결과를 확장하고자 하였다. 이를 위해서 단위시간당 기대비용과 단위시간당 기대비가동시간을 구하고, 이 두 기준을 동시에 고려한 최적의 교체주기를 결정하는 방법을 제시하였다. 또한, 순응적 교체정책에 대해서도 살펴보았다.

  • PDF

결정-추정법을 이용한 신호 도착 방향 추정 (Direction of Arrival Estimation Via Determination-Estimation)

  • 최진호;나윤정;송익호
    • 한국음향학회지
    • /
    • 제12권5호
    • /
    • pp.32-37
    • /
    • 1993
  • 여러 신호원의 방향을 추정하는 결정-추정 방법을 제안하였다. 이 방법은 조건부 평균 다중신호분류 영 스펙트럼에 바탕을 두고 있으며 신호원수를 모를때에도 쓸 수 잇다. 컴퓨터 모의 실험으로 MUSIC dud tvprxmfja의 분해 확률과 조건부 평균 MUSIC dud 스펙트럼의 분해 확률은 거의 같다는 것을 알 수 있어?. 그리고 신호원 수를 결정할 때 정보 이론적 판단 기준과 베이즈 접근 방법이 같은 결과를 낸다는 것도 알 수 있었다.

  • PDF

단어 중의성 해소를 위한 지도학습 방법의 통계적 자질선정에 관한 연구 (A Study on Statistical Feature Selection with Supervised Learning for Word Sense Disambiguation)

  • 이용구
    • 한국비블리아학회지
    • /
    • 제22권2호
    • /
    • pp.5-25
    • /
    • 2011
  • 이 연구는 지도학습 방법을 이용한 단어 중의성 해소가 최적의 성능을 가져오는 통계적 자질선정 방법과 다양한 문맥의 크기를 파악하고자 하였다. 실험집단인 한글 신문기사에 자질선정 기준으로 정보획득량, 카이제곱 통계량, 문헌빈도, 적합성 함수 등을 적용하였다. 실험 결과, 텍스트 범주화 기법과 같이 단어 중의성 해소에서도 자질선정 방법이 매우 유용한 수단이 됨을 알 수 있었다. 실험에 적용한 자질선중 기준 중에 정보획득량이 가장 좋은 성능을 보였다. SVM 분류기는 자질집합 크기와 문맥 크기가 클수록 더 좋은 성능을 보여 자질선정에 영향을 받지 않았다. 나이브 베이즈 분류기는 10% 정도의 자질집합 크기에서 가장 좋은 성능을 보였다. kNN의 경우 10% 이하의 자질에서 가장 좋은 성능을 보였다. 단어 중의성 해소를 위한 자질선정을 적용할 때 작은 자질집합 크기와 큰 문맥 크기를 조합하거나, 반대로 큰 자질집합 크기와 작은 문맥 크기를 조합하면 성능을 극대화 할 수 있다.

캐릭터 이름을 이용한 MMORPG 봇 탐지 기법

  • 강성욱;이은조
    • 정보보호학회지
    • /
    • 제27권4호
    • /
    • pp.6-13
    • /
    • 2017
  • 온라인 게임에서 불법 프로그램을 이용한 게임 봇을 대규모로 운영하는 전문 사설 업체를 속칭 '작업장(Gold Farming Group, GFG)'이라고 부른다. 기존에 작업장에서 운영하는 게임 봇은 24시간 쉬지 않고 반복적인 파밍을 통해 수익을 극대화하는 전략을 취했으나 최근 온라인 게임의 계정 가입이 쉬워지고 무료 플레이가 보편화되면서 개개의 게임 봇 계정이 수행하는 플레이 시간이나 취득 재화 수준을 낮추는 대신 수만 개의 계정을 번갈아 가며 운영하는 방식으로 변하고 있다. 이로 인해 플레이 활동 패턴에 기반한 기존의 탐지 모델들이 점차 무력화되고 있으며 진입 초기에 게임 봇을 빠르게 탐지하고 제재하는 방안이 점차 중요해지고 있다. 우리는 게임 봇을 조기에 탐지하기 위한 방안으로 계정 및 캐릭터의 이름이 갖는 특성을 활용한 게임 봇 탐지 기법을 제안한다. 제안한 기법의 유효성을 검증하기 위해 북미에서 서비스 중인 엔씨소프트의 MMORPG인 '블레이드 앤 소울'의 약 20만 개 계정 정보를 이용해 탐지 성능을 측정하였다. 실험에 의하면 캐릭터 이름에 대해 간단한 나이브 베이즈 분류기를 적용하는 것만으로도 AUC 기준으로 약 0.901의 성능을 기록하였다.

가우스 가중치를 이용한 돌출 값 추정을 위한 방법 (The Method to Estimate Saliency Values using Gauss Weight)

  • 유영중
    • 한국정보통신학회논문지
    • /
    • 제17권4호
    • /
    • pp.965-970
    • /
    • 2013
  • 이미지로부터 돌출 영역을 추출하는 것은 이후의 다양한 이미지 처리를 위한 사전 작업으로서 중요한 의미를 가진다. 이 논문에서는 하나의 이미지에서 각 픽셀의 돌출 값을 추정하기 위한 개선된 방법을 소개한다. 논문에서 제안되는 방법은 이전에 연구된 색상과 통계적 방법을 이용한 돌출 값 추정 방법을 개선한 방법이다. 먼저 이미지에서 픽셀들의 색상관계를 이용해 각 픽셀의 돌출 값을 계산하고, 이 값을 근거로 중심 돌출 픽셀을 추정한다. 추정된 중심 돌출 픽셀을 기준으로 가우스 가중치를 적용하여 각 픽셀의 돌출 값을 재추정하고, 통계적 돌출 값 추정에 적용할 초기 확률을 위해 각 픽셀의 돌출 여부가 결정된다. 마지막으로 각 픽셀의 돌출 값은 베이즈 확률을 사용하여 계산된다. 실험결과는 본 논문의 적용 방법이 적정한 크기의 돌출 영역을 가진 이미지에 대해 이전의 방법보다 우수한 결과를 보임을 보여준다.

무응답을 가지고 있는 범주형 자료에 대한 모형 선택 방법 (Model selection method for categorical data with non-response)

  • 윤용화;최보승
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권4호
    • /
    • pp.627-641
    • /
    • 2012
  • 본 연구는 다차원 분할표 형태로 정리된 범주형 자료가 결측치나 무응답을 가지고 있을 때 주어진 자료를 가장 잘 설명하고 예측의 정확도를 높일 수 있는 모형의 추정과 모형의 선택 문제를 다루었다. 무시할 수 없는 무응답 (non-ignorable non-response)체계하에서 최대우도 추정에서 발생할 수 있는 변방값 문제를 해결하기 위하여 계층적 베이지안 모형을 고려하였다. 또한 모형 적도를 높이기 위한 변수 조합을 찾는 모형 선택의 문제를 함께 다루었다. 베이지안 접근하에서 모형 선택의 문제를 다루기 위하여 베이즈 인자 (Bayes factor)를 모형 선택의 기준으로 이용하였다. 제시된 방법은 2004년 실시된 우리나라 국회의원 선거를 앞두고 수행된 여론조사 데이터를 이용하여 실증분석을 수행하였다. 분석결과 무시할 수 없는 무응답 체계하에서 설명변수로 투표참여여부를 이용하는 것이 가장 적합한 모형으로 판명되었다.