• 제목/요약/키워드: Naive Bayes Model

검색결과 96건 처리시간 0.029초

다중 구조적응 자기구성지도의 퍼지결합을 이용한 웹 마이닝 (Web Mining Using Fuzzy Integration of Multiple Structure Adaptive Self-Organizing Maps)

  • 김경중;조성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권1호
    • /
    • pp.61-70
    • /
    • 2004
  • 폭발적으로 성장하고 있는 웹은 수백만 개의 웹 문서를 포함하고 있기 때문에, 적절한 웹사이트를 찾기 어렵다. 사용자 프로파일을 사용하여 적절한 웹사이트를 추천함으로써 웹의 탐색을 개인화 할 수도 있지만 웹 컨텐츠에 대한 사용자의 평가는 사용자의 성격에 관한 다양한 측면을 표현하므로 사용자의 선호도를 예측하기 위해서는 보다 효과적인 방법이 필요하다. 사용자 프로파일은 비선형적인 특성을 가지고 있으므로 분류기를 사용하여 예측하여야 하며 다양한 특성을 예측하기 위해 분류기의 결합이 필요하다. 패턴분류와 시각화에 유용한 구조적응 자기구성지도(SASOM)는 개선된 SOM 모델로서 웹 마이닝에 적절하다. 퍼지 적분은 주관적으로 정의된 분류기의 중요도를 이용하여 결합하는 방법이다. 본 논문에서는 독립적으로 학습된 SASOM의 퍼지적분(fuzzy integral)기반 결합을 이용하여 사용자의 프로파일을 예측하고 UCI 벤치마크 데이타인 Syskill & Webert 데이타를 사용하여 그 성능을 평가한다. 실험결과 제안한 방법이 기존의 naive Bayes 분류기뿐만 아니라 SASOM의 투표결합보다 우수한 성능을 보였다.

비디오 감시 응용에서 확장된 기술자를 이용한 물체 검출과 분류 (Object Detection and Classification Using Extended Descriptors for Video Surveillance Applications)

  • 모하마드 카이룰 이슬람;파라 자한;민재홍;백중환
    • 대한전자공학회논문지SP
    • /
    • 제48권4호
    • /
    • pp.12-20
    • /
    • 2011
  • 본 논문은 비디오 감시 장치에 사용되는 효율적인 물체 검출 및 분류 알고리즘을 제안한다. 이전 연구는 주로 Scale Invariant Feature Transform (SIFT)나 Speeded Up Robust Feature (SURF)와 같은 특정 형태의 특징을 이용해 물체를 검출하거나 분류하였다. 본 논문에서는 물체 검출 및 분류에 상호 작용하는 알고리즘을 제안한다. 이는 로컬 패치들로부터 얻어지는 텍스쳐나 컬러 분포 같은 서로 다른 특성을 갖는 특징값을 이용해 물체의 검출 및 분류율을 높인다. 물체 검출에는 특징점들의 공간적인 클러스터링을, 이미지 표현이나 분류에는 Bag of Words 모델과 Naive Bayes 분류기를 사용한다. 실험을 통해 제안한 기법이 로컬 기술자를 사용한 물체 분류기법보다 우수한 성능을 나타냄을 보인다.

마이크로 블로깅 서비스를 지원하기 위한 컨텍스트 모델 기반 자동 블로깅 시스템 (An Auto-blogging System based Context Model for Micro-blogging Service)

  • 박재민;이상용
    • 디지털융복합연구
    • /
    • 제10권4호
    • /
    • pp.341-346
    • /
    • 2012
  • 소셜 네트워크 서비스의 가장 대표적인 마이크로 블로깅 서비스를 효과적으로 제공하기 위해 사용자가 자신의 현재 상황정보를 간편하게 기록하고 그 정보를 바탕으로 다른 사람들과 네트워크를 형성하고 유지하도록 하는 것이 중요하다. 하지만 모바일 환경에서 사용자가 자신의 정보를 매번 모바일 디바이스를 통해 직접 입력하는 것은 매우 번거로운 작업이다. 본 논문에서는 획득된 사용자 컨텍스트를 이용하여 사용자의 현재 행동과 다음 목적지를 추론한 후, 자동으로 문장을 생성하여 블로깅을 해주는 컨텍스트 모델 기반 자동 블로깅 시스템을 제안한다. 컨텍스트 모델을 생성하기 위해 사용자의 행동 추론은 나이브 베이즈 분류기를 이용하고, 이동중인 사용자의 다음 목적지 추론은 시퀀스 매칭을 이용하였다. 생성된 컨텍스트 모델을 기반으로 5W1H 구조를 이용하여 상황에 적합한 문장을 생성하여 자동으로 블로깅하였다. 제안한 방법의 정확도를 평가한 결과 평균 88.73%의 정확도를 보여 자동 블로깅 서비스가 가능함을 보여주었다.

연관 단어 마이닝을 사용한 웹문서의 특징 추출 (Feature Extraction of Web Document using Association Word Mining)

  • 고수정;최준혁;이정현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권4호
    • /
    • pp.351-361
    • /
    • 2003
  • 단어의 연관성을 이용하여 문서의 특징을 추출하는 기존의 방법은 주기적으로 프로파일을 갱신해야하는 문제점, 명사구를 처리해야 하는 문제점, 명사구를 처리해야 하는 문제점, 색인어에 대한 화률을 계산해야 하는 문제점 등을 포함한다. 본 논문에서는 연관 단어 마이닝을 사용하여 문서의 특징을 효율적으로 추출하는 방법을 제안한다. 제안한 방법은 Apriori 알고리즘을 사용하여 문서의 특징을 단일 단어가 아닌 연관 단어 백터로 표현한다. Apriori 알고리즘을 사용하여 문서의 특징을 단일 단어가 아닌 연관 단어 벡터로 표현한다. Apriori 알고리즘을 사용하여 문서로부터 추출된 연관 단어는 이를 구성하는 수와 신뢰도와 지지도에 따라 차이를 보인다. 따라서 본 논문에서는 문서 분류의 성능을 향상 시키기 위허ㅐ 연관 단어를 구성하는 단어의 수와 지지도를 결정하는 효율적인 방법을 제안한다. 연관 단어 마이닝을 이용한 특징 추출 방법은 프로파일을 사용하지 않으므로 프로파일 갱신의 필요성이 없으며, 색인어에 대한 확률을 계산하지 않고도, Apriori 알고리즘의 신뢰도와 지지도에 따라 자동으로 명사구를 생성하므로 단어의 연관성을 이용하여 문서의 특징을 추출하는 기존 방법에 대한 문제점을 해결한다. 제안한 방법의 성능을 평가하기 위해 Naive Bayes 분류자를 이용한 문서 분류에 적용하여 정보이득, 역문헌빈도의 방법과 비교하며, 또한 색인어의 연관성과 확률 모델을 기반으로 단어의 연관성을 이용하여 문서 분류를 하는 기존의 방법과 각각 비교한다.

데이터마이닝을 이용한 심혈관질환 판별 모델 방법론 연구 (A study of methodology for identification models of cardiovascular diseases based on data mining)

  • 이범주
    • 문화기술의 융합
    • /
    • 제8권4호
    • /
    • pp.339-345
    • /
    • 2022
  • 심혈관 질환은 전 세계적으로 주요 사망원인들 중 하나이다. 본 연구는 보다 우수한 심혈관질환 판별 모델을 생성하기 위한 방법에 대한 연구로써, 3가지 변수 선택법과 7가지 머신러닝 알고리즘을 바탕으로 사회인구학적 변수들을 이용하여 고혈압과 이상지질혈증 판별모델들을 생성하고, 생성된 모델들의 성능을 비교 평가한다. 본 연구의 결과에서는 두 가지 질병 모두에서, 전체변수 및 correlation-based feature subset selection 메소드 기반 모델들에서는 naive Bayes 모델이 다른 머신러닝을 이용한 모델들보다 다소 우수한 판별 성능이 있는 것으로 나타났고, wrapper 메소드 기반 변수 선택법에서는 logistic regression 모델이 다른 모든 모델보다 성능이 다소 우수한 것으로 나타났다. 본 연구의 결과는 원격의료 및 대중보건 분야에서 향후 한국인의 심혈관질환 판별 및 예측 모델 생성을 위한 참고자료로 활용될 수 있을 것으로 기대된다.

관찰적 사전·사후 평가연구 방법의 비교 연구: 공용중인 고속도로 안전진단사업 효과평가를 사례로 (The Comparison Study on Observational Before-After Studies: Case Study on Safety Evaluation on Highways)

  • 문승라;이영인
    • 대한교통학회지
    • /
    • 제31권6호
    • /
    • pp.67-89
    • /
    • 2013
  • 본 연구는 관찰적 사전 사후 평가연구의 세 방법인 단순비교법, 비교그룹에 의한 방법 그리고 경험적 베이즈 방법에 대한 실증 분석을 수행하고, 그 결과를 비교하며, 평가연구에 적용 방안을 제시하고자 한다. 이를 위해 2005년과 2006년에 영동고속도로에서 시행된 안전진단사업의 평가를 수행하였다. 분석결과 세 가지 방법 모두 안전진단조치로 인한 개선효과가 나타나고 있으며, 단순비교법이 개선효과가 가장 크고 그 다음이 비교그룹에 의한 방법, 경험적 베이즈 방법의 순으로 나타났다. 단순비교법의 결과는 교통사고 감소추이가 반영되어 과대 추정되었으며, 비교그룹방법의 결과에는 비교그룹의 외부우연요인이 내재되어 있다. 경험적 베이즈 방법은 참조그룹의 사고예측모형에 의해 평균으로의 회귀 현상이 통제되므로, 두 방법과 비교해 결과가 비교적 정확하다. 평가연구의 수행에서, 분석가는 평가방법별 장 단점을 잘 이해하고, 관련된 모든 지역에서 사고추이의 검토를 선행한 후에 평가 분석을 수행하여야 한다.

A New Model to Enhance Efficiency in Distributed Data Mining Using Mobile Agent

  • Bardab, Saeed Ngmaldin;Ahmed, Tarig Mohamed
    • International Journal of Computer Science & Network Security
    • /
    • 제21권3호
    • /
    • pp.275-286
    • /
    • 2021
  • As a result of the vast amount of data that is geographically found in different locations. Distributed data mining (DDM) has taken a center stage in data mining. The use of mobile agents to enhance efficiency in DDM has gained the attention of industries, commerce and academia because it offers serious suggestions on how to solve inherent problems associated with DDM. In this paper, a novel DDM model has been proposed by using a mobile agent to enhance efficiency. The main idea behind the model is to use the Naive Bayes algorithm to give the mobile agent the ability to learn, compare, get and store the results on it from each server which has different datasets and we found that the accuracy increased roughly by 0.9% which is our main target.

Random Forests 기법을 이용한 백내장 예측모형 - 일개 대학병원 건강검진 수검자료에서 - (A Prediction Model for the Development of Cataract Using Random Forests)

  • 한은정;송기준;김동건
    • 응용통계연구
    • /
    • 제22권4호
    • /
    • pp.771-780
    • /
    • 2009
  • 백내장 질환은 노령인구가 증가하고 있는 시점에서 사회, 경제적으로 심각한 문제로 부각되고 있는 질병으로 조기 진단이 이루어진다면 발병률을 크게 줄일 수 있는 질병이다. 본 연구에서는 백내장을 조기 진단하기 위한 예측 모형을 구축하고자 1994년부터 2001년까지 연세대학병원에서 2회 이상 건강검진을 받고 의사진단을 통해 백내장 여부를 확인할 수 있는 30세 이상 남 녀 3,237명에 대한 건강검진 수검 자료를 활용하여 백내장 발생 위험 예측모형을 개발하였다. 모형개발에는 데이터마이닝 기법인 Random Forests를 사용하였고, 기존의 로지스틱 회귀분석, 판별분석, 의사결정나무 모형(Decision tree), 나이브베이즈(Naive Bayes), 앙상블 모형인 배깅(Bagging)과 아킹(Arcing)을 이용하여 그 성능을 비교 분석하였다. Random Forests를 통해 개발한 백내장 발생 예측모형은 정확도가 67.16%, 민감도가 72.28%였고, 주요 영향요인은 연령, 혈당, 백혈구수치(WBC), 혈소판수치(platelet), 중성지질(triglyceride), BMI였다. 이 결과는 의사의 안과검진 정보 없이 건강검진 수검 자료만으로 백내장 질환 유 무에 관한 정보를 70% 정도 예측할 수 있음을 보여주는 것으로, 백내장의 조기 진단에 많은 기여를 할 것으로 판단된다.

이산형 자료 예측을 위한 베이지안 네트워크 분류분석기의 성능 비교 (The performance of Bayesian network classifiers for predicting discrete data)

  • 박현재;황범석
    • 응용통계연구
    • /
    • 제33권3호
    • /
    • pp.309-320
    • /
    • 2020
  • 방향성 비순환 그래프(directed acyclic graph; DAG)라고도 하는 베이지안 네트워크(Bayesian network)는 변수 사이의 관계를 확률과 그래프를 통해 모형화할 수 있다는 점에서 최근 의학, 기상학, 유전학 등 여러 분야에서 다양하게 활용되고 있다. 특히 이산형 자료의 예측에 사용되는 베이지안 네트워크 분류분석기(Bayesian network classifier)가 최근 새로운 데이터 마이닝 기법으로 주목받고 있다. 베이지안 네트워크는 그 구조와 학습 방법에 따라 여러 가지 다양한 모형으로 분류할 수 있다. 본 논문에서는 서로 다른 성질을 가진 이산형 자료를 바탕으로 구조 학습 방법에 차이를 두어 베이지안 네트워크 모형을 학습시킨 후, 가장 간단한 방법인 나이브 베이즈 (naïve Bayes) 모형과 비교해 본다. 학습된 모형들을 여러 가지 실제 데이터에 적용하여 그 예측 정확도를 비교함으로써 최적의 분류 분석 결과를 얻을 수 있는지 살펴본다. 또한 각각의 모형에서 나타나는 그래프를 통해 데이터의 변수 사이의 관계를 비교한다.

딥 러닝을 이용한 버그 담당자 자동 배정 연구 (Study on Automatic Bug Triage using Deep Learning)

  • 이선로;김혜민;이찬근;이기성
    • 정보과학회 논문지
    • /
    • 제44권11호
    • /
    • pp.1156-1164
    • /
    • 2017
  • 기존의 버그 담당자 자동 배정 연구들은 대부분 기계학습 알고리즘을 기반으로 예측 시스템을 구축하는 방식이었다. 따라서, 고성능의 기계학습 모델을 적용하는 것이 담당자 자동 배정 시스템 성능의 핵심이 된다고 할 수 있으며 관련 연구에서는 높은 성능을 보이는 SVM, Naive Bayes 등의 기계학습 모델들이 주로 사용되고 있다. 본 논문에서는 기계학습 분야에서 최근 좋은 성능을 보이고 있는 딥 러닝을 버그 담당자 자동 배정에 적용하고 그 성능을 평가한다. 실험 결과, 딥 러닝 기반 Bug Triage 시스템이 활성 개발자 대상 실험에서 48%의 정확도를 달성했으며 이는 기존의 기계학습 대비 최대 69%향상된 결과이다.