• Title/Summary/Keyword: bayesian classification

Search Result 254, Processing Time 0.029 seconds

Feature Selection and Classification of Web Pages (웹 페이지에서의 자질 선택과 분류)

  • 송무희;임수연;박성배;강동진;이상조
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10a
    • /
    • pp.796-798
    • /
    • 2004
  • 본 논문에서는 웹 문서의 분류 성능을 향상시키기 위해 웹 페이지에서의 자질선택과 그에 따른 웹 문서 분류 방법을 제안한다. 문서 분류에는 문서에 포함된 단어를 분류 자질로 사용하게 되며 이때 한 문서의 모든 단어를 분류 자질로 이용한다고 좋은 성능을 보인다고 보장할 수는 없다. 그러므로 문서에 필요한 단어만을 자동으로 추출하여 문서데이터의 자질을 축소하는 작업이 필요하다. 따라서 본 논문에서는 모집군 내의 자질벡터의 범위가 큰 것을 적은 수의 주요성분으로 감소시키기 위해 통계적 분석 기법중의 하나인 주성분분석 방법을 이용하여 자질감소와 그에 따른 문서분류의 성능 향상을 실험을 통하여 보인다. 야후 스포츠 뉴스 웹 페이지가 분류를 위해 사용되었으며, 분류기로는 Naive Bayesian 분류 방법을 사용하였다. 실험 결과를 통해 본 논문에서 제안한 뉴스 웹페이지 분류 방법이 스포츠 뉴스 데이터 군에서 만족할 만한 분류 정확도를 제공한다는 것을 알 수 있다.

  • PDF

Constrained Learning Method of Bayesian Network Structure for Efficient Context Classification (효율적인 컨텍스트 분류를 위한 베이지안 네트워크 구조의 제한 학습)

  • 황금성;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10a
    • /
    • pp.112-114
    • /
    • 2004
  • 지능형 로봇 에이전트 기술이 발전하면서 서비스 질을 높이기 위한 방법으로 컨텍스트의 활용성이 부각되고 있다. 하지만 컨텍스트 분류 기술들은 아직까지 초기 개발 단계이며 다양한 방법들이 시도되고 있다. 본 논문에서는 전문가의 지식과 학습된 지식을 함께 적용할 수 있고 사람이 그 내용을 이해하기 유리한 베이지안 네트워크(BN)를 이용한 컨텍스트 분류 방법을 제안한다. 일반적인 BN 구조 학습에 사전 지식 및 방향성, 연결 관계 범위를 부여할 수 있는 제한(Constraint)을 적용한 효율적인 컨텍스트 분류 방법을 소개하고, 몇 가지 비교 실험을 통해 기존 방법에 비해 전문가의 개입이 줄어들고 좀 더 신뢰성 있는 컨텍스트 분류기를 얻을 수 있음을 보인다.

  • PDF

Spam Classification by Analyzing Characteristics of a Single Web Document (단일 문서의 특징 분석을 이용한 스팸 분류 방법)

  • Sim, Sangkwon;Lee, Soowon
    • Annual Conference of KIPS
    • /
    • 2014.11a
    • /
    • pp.845-848
    • /
    • 2014
  • 블로그는 인터넷에서 개인의 정보나 의견을 표출하고 커뮤니티를 형성하는데 사용되는 중요한 수단이나, 광고 유치, 페이지 순위 올리기, 쓰레기 데이터 생성 등 다양한 목적을 가진 스팸블로그가 생성되어 악용되기도 한다. 본 연구에서는 이러한 문제를 해결하기 위해 웹 문서에서 나타나는 특징들을 이용한 스팸 탐지 기법을 제안한다. 먼저 블로그 본문의 길이, 태그의 비율, 태그 수, 이미지 수, 랭크의 수 등 하나의 웹 문서에서 추출할 수 있는 특징을 기반으로 각 문서에 대한 특징 벡터를 생성하고 기계학습을 통해 모델을 생성하여 스팸 블로그를 판별한다. 제안 방법의 성능 평가를 위해 블로그 포스트 데이터를 사용하여 제안방법과 기존의 스팸 분류 연구를 비교 실험을 진행하였다. Bayesian 필터링 기법을 사용하는 기존연구와 비교 실험 결과, 제안방법이 더 좋은 정확도를 가지면서 특징 추출 속도 및 메모리 사용 효율성을 보였다.

An Extended Naive Bayesian Algorithm for Automatic Book Classification (자동 도서분류를 위한 확장된 나이브베이지안 알고리즘)

  • Kim, Sung-Soo;Jung, Hyun-Jun;Baik, Doo-Kwon
    • Annual Conference of KIPS
    • /
    • 2014.04a
    • /
    • pp.547-550
    • /
    • 2014
  • 국내 공공도서관에서는 잘못 분류된 도서의 서가(bookshelf) 배치로 인해 이용자의 불편과 해당 도서관의 도서분류체계와의 불일치 등으로 도서관리에 어려움을 겪고 있다. 또한 자동 도서분류를 위한 기계학습 등 다양한 알고리즘의 연구가 진행되어 왔으나 적은 학습데이터에서의 분류효과 향상에 한계가 있었다. 이에 이 연구에서는 KORMARC(Korea Machine Readable Cataloging) 의 색인어(키워드) 정보를 결합한 확장된 나이브베이지안 알고리즘을 제안하였다. 색인어 정보는 일반적으로 도서검색시스템에서 검색 효과를 높이기 위해 이용되고 있으며 실제 공공도서관에서의 실험을 통해 도서량이 적은 경우에 보다 높은 분류효과를 얻을 수 있음을 실험 평가하였다.

A Study on Parameter Tuning for Redis via Parameter Classification and Phased Bayesian Optimization (Redis 파라미터 분류 및 단계적 베이지안 최적화를 통한 파라미터 튜닝 연구)

  • Jo, Seong-Woon;Park, Sang-Hyun
    • Annual Conference of KIPS
    • /
    • 2021.11a
    • /
    • pp.476-479
    • /
    • 2021
  • DBMS 파라미터 튜닝이란 데이터베이스에서 제공하는 다양한 파라미터의 값을 조율하여, 최적의 성능을 도출하는 과정이다. 데이터베이스 종류에 따라 파라미터 개수가 수십 개에서 수백 개로 다양하며, 각 기능이 모두 다르기 때문에 최적의 조합을 찾는 것은 쉽지 않다. 선행 연구에서는 BO 기법을 사용하여 적절한 파라미터 값을 추출했지만, 파라미터 개수에 비례하여 차원이 커지는 문제가 발생한다. 본 논문에서는 통계적으로 파라미터를 분류하여 탐색 공간을 줄인 다음 단계적으로 BO 를 수행하는 PBO 방식을 제안한다. 파라미터 값을 랜덤하게 할당하여 벤치마킹한 결과값을 군집화한 후, 각 군집별로 파라미터와의 연관성을 분석해 높은 상관관계를 가진 파라미터를 매칭시켜 분류한다. 제안하는 방법론을 검증하기 위하여 8 가지 회귀 모델과의 비교 실험을 통해 제안한 방법론의 우수성을 검증하였다.

Automatic Cell Classification and Segmentation based on Bayesian Networks and Rule-based Merging Algorithm (베이지안 네트워크와 규칙기반 병합 알고리즘을 이용한 자동 세포 분류 및 분할)

  • Jeong, Mi-Ra;Ko, Byoun-gChul;Nam, Jae-Yeal
    • Annual Conference of KIPS
    • /
    • 2008.05a
    • /
    • pp.141-144
    • /
    • 2008
  • 본 논문에서는 세포영상을 분할하고 분류하는 알고리즘을 제안한다. 우선, 배경으로부터 세포를 분할한 후, 학습데이터로부터 얻은 Compactness, Smoothness, Moments와 같은 형태학적 특징을 추출한다. 전경세포들이 분할된 후에, 보다 정밀한 세포분석을 위해서 군집세포(Overlapped Cell)와 독립세포(Isolated Cell)를 분류 할 수 있는 알고리즘의 개발이 필수적이다. 이를 위해서 본 논문에서는 베이지안 네트워크와 각 노드에 대한 3개의 확률밀도함수를 사용하여 각 세포 영역을 분류한다. 분류된 군집세포영역은 향후 정확한 세포 분석을 위해서 군집세포가 포함하는 독립세포의 수만큼 마커를 찾고, Watershed 알고리즘과 병합과정을 거쳐 하나의 독립세포를 분리하게 된다. 현미경으로부터 얻은 세포영상에 대한 실험 결과는 이전 논문들에서 제안한 방법들과 비교했을 때, 각 군집세포의 독립세포로의 분리 이전에 세포영역에 대한 분류과정을 먼저 수행하였기 때문에 분할 성능이 크게 향상되었음을 확인할 수 있다.

Extraction of Hazardous Freeway Sections Using GPS-Based Probe Vehicle Speed Data (GPS 프로브 차량 속도자료를 이용한 고속도로 사고 위험구간 추출기법)

  • Park, Jae-Hong;Oh, Cheol;Kim, Tae-Hyung;Joo, Shin-Hye
    • The Journal of The Korea Institute of Intelligent Transport Systems
    • /
    • v.9 no.3
    • /
    • pp.73-84
    • /
    • 2010
  • This study presents a novel method to identify hazardous segments of freeway using global positioning system(GPS) based probe vehicle data. A variety of candidate contributing factors leading to higher potential of accident occurrence were extracted from the probe vehicle dataset. The research problem was defined as a classification problem, then a well-known classifier, bayesian neural network was adopted to solve the problem. A binary logistic regression technique was also used for selecting salient input variables. Test results showed that the proposed method is promising in extracting hazardous freeway sections. The outcome of this study will be effectively used for evaluating the safety of freeway sections and deriving countermeasures to prevent accidents.

eCRM Agent System for Articles Automatic Classification System based on Naive Bayesian Classifier (나이브 베이지안 분류기를 이용한 게시물 자동 분류를 위한 eCRM 에이전트 시스템)

  • Choi, Jung-Min;Lee, Byoung-Soo
    • Journal of IKEEE
    • /
    • v.8 no.2 s.15
    • /
    • pp.216-223
    • /
    • 2004
  • The customer's bulletin board is the important channel to get opinions from customers directly. The effective management of the bulletin board for the customer improves the reliance by providing the best replies and by accepting opinions of the customer and furthermore, that can raise the customer's reliance of the whole shopping mall is the important eCRM method. But, the present mostly customer's bulletin board is been replied without any classifying about many kinds of question. Consequently, The shopping mall should do systematic management of the best professional reply about many kinds of question. In order to resolve this problem, we implement a classifier called Naive Bayesian classifier is classified automatically bulletin board for eCRM of shopping mall.

  • PDF

Real-Time Place Recognition for Augmented Mobile Information Systems (이동형 정보 증강 시스템을 위한 실시간 장소 인식)

  • Oh, Su-Jin;Nam, Yang-Hee
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.14 no.5
    • /
    • pp.477-481
    • /
    • 2008
  • Place recognition is necessary for a mobile user to be provided with place-dependent information. This paper proposes real-time video based place recognition system that identifies users' current place while moving in the building. As for the feature extraction of a scene, there have been existing methods based on global feature analysis that has drawback of sensitive-ness for the case of partial occlusion and noises. There have also been local feature based methods that usually attempted object recognition which seemed hard to be applied in real-time system because of high computational cost. On the other hand, researches using statistical methods such as HMM(hidden Markov models) or bayesian networks have been used to derive place recognition result from the feature data. The former is, however, not practical because it requires huge amounts of efforts to gather the training data while the latter usually depends on object recognition only. This paper proposes a combined approach of global and local feature analysis for feature extraction to complement both approaches' drawbacks. The proposed method is applied to a mobile information system and shows real-time performance with competitive recognition result.

An Effective Shadow Elimination Method Using Adaptive Parameters Update (적응적 매개변수 갱신을 통한 효과적인 그림자 제거 기법)

  • Kim, Byeoung-Su;Lee, Gwang-Gook;Yoon, Ja-Young;Kim, Jae-Jun;Kim, Whoi-Yul
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.45 no.3
    • /
    • pp.11-19
    • /
    • 2008
  • Background subtraction, which separates moving objects in video sequences, is an essential technology for object recognition and tracking. However, background subtraction methods are often confused by shadow regions and this misclassification of shadow regions disturbs further processes to perceive the shapes or exact positions of moving objects. This paper proposes a method for shadow elimination which is based on shadow modeling by color information and Bayesian classification framework. Also, because of dynamic update of modeling parametres, the proposed method is able to correspond adaptively to illumination changes. Experimental results proved that the proposed method can eliminate shadow regions effectively even for circumstances with varying lighting condition.