• 제목/요약/키워드: Bayesian Techniques

검색결과 167건 처리시간 0.029초

개인화된 분류를 위한 웹 메일 필터링 에이전트 (Design and Implementation of Web Mail Filtering Agent for Personalized Classification)

  • 정옥란;조동섭
    • 정보처리학회논문지B
    • /
    • 제10B권7호
    • /
    • pp.853-862
    • /
    • 2003
  • 인터넷의 발달로 인하여 웹을 통한 문서 송수신이 많아지면서 이메일의 사용자도 기하급수적으로 늘어나고 있다. 또한 일반 사용자나 전자상거래에서 오가는 메일의 양도 갈수록 늘어나고 있다. 편리하다는 점을 이용해서 엄청난 양의 스팸 메일도 매일 같이 쏟아져 나오고 있다. 본 논문에서는 사용자 개인에 맞게 메일을 자동 관리해 주는 즉 개인화된 분류가 가능하고, 또 언제 어디서나 로그인이 가능한 웹 메일 기반인 웹 메일 필터링 에이전트(Web Mail Filtering Agent for Personalized Classification)를 제안한다. 새로운 메일이 오면, 먼저 사용자의 메일 처리과정을 일정 기간 관찰하여 각각 개인에 맞는 룰(Personal rule)을 형성하고, 만들어진 룰을 바탕으로 메시지를 자동 관리 즉 카테고리별 분류ㆍ저장 및 개인에게 불필요한 메일이나 스팸 메일을 삭제 해 주는 것이다. 또한 시스템의 정확도를 높이기 위해 동적 임계치를 이용한 베이지안 알고리즘을 적용하였다.

Lifelong Machine Learning 기반 스팸 메시지 필터링 방법 (A Method for Spam Message Filtering Based on Lifelong Machine Learning)

  • 안연선;정옥란
    • 전기전자학회논문지
    • /
    • 제23권4호
    • /
    • pp.1393-1399
    • /
    • 2019
  • 인터넷의 급속한 성장으로 데이터의 송수신의 편리성과 비용이 들지 않는다는 장점 때문에 매일 수백만 건의 무차별적인 광고성 스팸 문자와 메일이 발송되고 있다. 아직은 스팸 단어나 스팸 번호를 차단하는 방법을 주로 사용하지만, 기계 학습이 떠오름에 따라 스팸을 필터링하는 방법에 대해 다양한 방식으로 활발히 연구되고 있다. 그러나 스팸에서만 등장하는 단어나 패턴은 스팸 필터링 시스템에 의해 걸러지지 않기 위해 지속적으로 변화하고 있기 때문에, 기존 기계 학습 메커니즘으로는 새로운 단어와 패턴을 감지, 적응할 수 없다. 최근 이러한 기존 기계 학습의 한계점을 극복하기 위해 기존의 지식을 활용하여 새로운 지식을 지속적으로 학습하도록 하는 Lifelong Learning(이하 LL)의 개념이 대두되었다. 본 논문에서는 문서 분류에 가장 많이 사용되는 나이브 베이즈와 Lifelong Machine Learning(이하 LLML)의 앙상블 기법을 이용한 스팸 메시지 필터링 방법을 제안한다. 우리는 기존 스팸 필터링 시스템에 가장 많이 사용되는 나이브 베이즈와, LLML 모델 중 ELLA를 적용하여 LL의 성능을 검증한다.

데이터마이닝 모형을 활용한 호흡기질환의 주요인 선별 (Identification of major risk factors association with respiratory diseases by data mining)

  • 이제영;김현지
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권2호
    • /
    • pp.373-384
    • /
    • 2014
  • 데이터 마이닝이란 대량의 데이터나 복잡한 구조의 데이터들을 정교한 통계분석과 모델링 테크닉을 이용하여 정확히 식별되지 않는 패턴이나 자료간의 상관관계를 밝혀내어 여러 가지 결과를 예측해 내는 통계적 기법이다. 이러한 데이터 마이닝 기법은 금융, 통신, 유통, 의학 등 다양한 분야에 활용되는데, 본 연구에서는 의학 분야에 적용하여 호흡기질환에 영향을 끼치는 요인을 선별하였다. 분석은 2012년도 경상북도 지역사회건강조사에 참여한 사람 중 의사에게서 폐결핵, 천식, 알레르기성 비염을 진단받은 경험이 있는 호흡기질환군과 건강군으로 정리한 자료를 대상으로 하였다. 호흡기질환이 영향을 끼치는 주요인을 선별하기 위해 인공신경망, 로지스틱 회귀모형, 베이지안 네트워크, C5.0, CART 기법을 이용하였다. 공정한 모형 평가를 위해 전체 데이터를 훈련용 데이터와 검증용 데이터로 나누었고, 훈련용 데이터에서 설정된 모형을 검증용 데이터에 적용하여 정확도를 비교하였다. 그 결과 CART가 최적 모형으로 선정되었으며 CART의 의사결정나무를 통하여 우울감 인지 여부, 현재 흡연여부, 스트레스 인지 여부 순으로 호흡기질환에 영향을 주는 것으로 나타났다. 그리고 호흡기질환의 주요인들에 대한 오즈비를 구하여 개별적인 영향력에 대해서도 밝혔다.

메일 주소 유효성과 제목-내용 가중치 기법에 의한 스팸 메일 필터링 (Junk-Mail Filtering by Mail Address Validation and Title-Content Weighting)

  • 강승식
    • 한국멀티미디어학회논문지
    • /
    • 제9권2호
    • /
    • pp.255-263
    • /
    • 2006
  • 스팸 메일의 특성을 분석해 보면 스팸 메일 발송 프로그램이 메일 헤더에 기록된 주소와 송신자 및 수신자 메일 주소가 일치하지 않는 경우가 빈번하게 발견된다. 또한, 스팸 메일과 정상적인 메일을 비교-분석해 보면 제목만 살펴봐도 스팸 메일인지 여부를 쉽게 판별할 수가 있다. 본 논문에서는 이와 같은 스팸 메일의 특성을 이용하여 스팸 메일 필터링 시스템의 성능을 향상시키는 방안으로 메일 주소 유효성 검사 및 제목과 내용을 구분하여 각각 스팸 확률을 계산하는 기법을 제안하였다. 제안한 방법의 효용성을 검증하기 위하여 단순 베이스 기법에 대해 주소 유효성 검사 및 제목과 내용 등 각 요인의 중요도에 따른 스팸 메일 필터링의 성능 향상 정도를 측정하였다. 그 결과로, 제안한 방법을 적용했을 때 재현율이 11.6%, 정확률은 2.1%의 성능 향상 효과가 있음을 확인하였으며, 스팸 메일 필터링 시스템의 성능 향상에 많은 기여를 하는 것을 알 수 있었다.

  • PDF

Development of a software framework for sequential data assimilation and its applications in Japan

  • Noh, Seong-Jin;Tachikawa, Yasuto;Shiiba, Michiharu;Kim, Sun-Min;Yorozu, Kazuaki
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2012년도 학술발표회
    • /
    • pp.39-39
    • /
    • 2012
  • Data assimilation techniques have received growing attention due to their capability to improve prediction in various areas. Despite of their potentials, applicable software frameworks to probabilistic approaches and data assimilation are still limited because the most of hydrologic modelling software are based on a deterministic approach. In this study, we developed a hydrological modelling framework for sequential data assimilation, namely MPI-OHyMoS. MPI-OHyMoS allows user to develop his/her own element models and to easily build a total simulation system model for hydrological simulations. Unlike process-based modelling framework, this software framework benefits from its object-oriented feature to flexibly represent hydrological processes without any change of the main library. In this software framework, sequential data assimilation based on the particle filters is available for any hydrologic models considering various sources of uncertainty originated from input forcing, parameters and observations. The particle filters are a Bayesian learning process in which the propagation of all uncertainties is carried out by a suitable selection of randomly generated particles without any assumptions about the nature of the distributions. In MPI-OHyMoS, ensemble simulations are parallelized, which can take advantage of high performance computing (HPC) system. We applied this software framework for several catchments in Japan using a distributed hydrologic model. Uncertainty of model parameters and radar rainfall estimates is assessed simultaneously in sequential data assimilation.

  • PDF

GIS 기반 Weight of Evidence 기법을 이용한 포천 지역의 지하수 산출특성 예측도 작성 (Feasibility Mapping of Groundwater Yield Characteristics using Weight of Evidence Technique based on GIS in the Pocheon Area)

  • 허선희;이기원
    • 대한원격탐사학회지
    • /
    • 제21권6호
    • /
    • pp.493-503
    • /
    • 2005
  • 본 연구에서는 경기도 포천군 일대의 지하수 부존특성 가능지역을 공간적으로 예측하기 위하여 GIS 기반으로 Weight of Evidence(WofE) 기법을 적용하였다. 기본 자료로는 지하수 산출 특성분석과 관련된 수문지질학적 인자인 지표피복, 지형, 지질 등의 자료를 GIS 정보로 입력하였다. 그리고, 베이지안 확률 분석기법(Bayesian Method)에 기반하여 기본자료와 함께 선구조, 암상, 수계밀도, 식생, 토양, 토지이용현황등과 같이 산출성에 영향을 주는 인자들에 대하여 지하수 부존가능 지수와 사전/사후확률을 구하였다. 이들 자료에 대해 다시 WofE 기법을 적용하여, 각 인자들의 W+, W- 가중 값들을 계산하였다. 또한 이러한 결과의 차이 값으로 공간적인 상관관계를 구하여 지하수 산출특성의 예측가능도를 작성하고자 하였다. 본 연구에 적용한 방법은 잠재된 지하수 부존 지역과 주변 지역의 공간적 분포를 파악하는 데 유용한 것으로 생각된다.

A hidden Markov model for long term drought forecasting in South Korea

  • Chen, Si;Shin, Ji-Yae;Kim, Tae-Woong
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2015년도 학술발표회
    • /
    • pp.225-225
    • /
    • 2015
  • Drought events usually evolve slowly in time and their impacts generally span a long period of time. This indicates that the sequence of drought is not completely random. The Hidden Markov Model (HMM) is a probabilistic model used to represent dependences between invisible hidden states which finally result in observations. Drought characteristics are dependent on the underlying generating mechanism, which can be well modelled by the HMM. This study employed a HMM with Gaussian emissions to fit the Standardized Precipitation Index (SPI) series and make multi-step prediction to check the drought characteristics in the future. To estimate the parameters of the HMM, we employed a Bayesian model computed via Markov Chain Monte Carlo (MCMC). Since the true number of hidden states is unknown, we fit the model with varying number of hidden states and used reversible jump to allow for transdimensional moves between models with different numbers of states. We applied the HMM to several stations SPI data in South Korea. The monthly SPI data from January 1973 to December 2012 was divided into two parts, the first 30-year SPI data (January 1973 to December 2002) was used for model calibration and the last 10-year SPI data (January 2003 to December 2012) for model validation. All the SPI data was preprocessed through the wavelet denoising and applied as the visible output in the HMM. Different lead time (T= 1, 3, 6, 12 months) forecasting performances were compared with conventional forecasting techniques (e.g., ANN and ARMA). Based on statistical evaluation performance, the HMM exhibited significant preferable results compared to conventional models with much larger forecasting skill score (about 0.3-0.6) and lower Root Mean Square Error (RMSE) values (about 0.5-0.9).

  • PDF

인간 및 인공지능의 초지능 협력사회 실현을 위한 현대 인공지능 기술의 한계점 분석과 인문사회학적 통찰력에 대한 메타 연구 (A meta-study on the analysis of the limitations of modern artificial intelligence technology and humanities insight for the realization of a super-intelligent cooperative society of human and artificial intelligence)

  • 황수림;오하영
    • 한국정보통신학회논문지
    • /
    • 제25권8호
    • /
    • pp.1013-1018
    • /
    • 2021
  • 최근 자율주행 자동차가 일으킨 사고 때문에 인공지능의 윤리적 측면에 대한 논의가 활발히 진행되고 있다. 본 논문은 인공지능이 윤리적 요소와 필연적으로 결부되어 있음을 로봇-인공지능 윤리 관련 개념과 공학기술로부터 확인하고 윤리적 측면이 사후적으로 발생하는 것이 아니라 내장되어 있음을 논한다. 또한, 자율주행 자동차와 관련된 윤리적 문제의 실마리가 될 수 있는 트롤리 딜레마에 대한 해결방법을 고안한다. 우선적으로 베이지안 네트워크를 작성하고 전처리 과정을 거쳐 중요하고 영향력 있는 데이터만 남도록 하며, 네트워크의 정확한 수치를 계산하기 위해 크라우드 소싱과 외삽법을 이용한다. 이러한 과정을 통해 알고리즘 및 모델을 구현할 때에 인간의 주관이 필연적으로 포함될 수밖에 없음을 주장하고 인공지능 시스템에 관한 왜곡과 편향을 방지하기 위해 전공 교육과 구분되는 공학 교양 교육, 특히 윤리 교육의 필요성과 방향에 대해 논한다.

기계학습기법을 이용한 부산-울산-경남 지역의 증발수요 가뭄지수 예측 (Evaporative demand drought index forecasting in Busan-Ulsan-Gyeongnam region using machine learning methods)

  • 이옥정;원정은;서지유;김상단
    • 한국수자원학회논문집
    • /
    • 제54권8호
    • /
    • pp.617-628
    • /
    • 2021
  • 가뭄은 심각한 사회적 경제적 손실을 초래하는 주요 자연재해이다. 지역 가뭄 예측은 가뭄 대비에 중요한 정보를 제공할 수 있다. 본 연구에서는 한반도 동남부 부산-울산-경남 지역에서 1981년부터 2020년까지 10개 관측소의 과거 가뭄지수 및 기상 관측자료를 사용하여 가뭄을 예측하는 새로운 기계학습모델을 제안한다. 베이지안 최적화기법을 이용하여 하이퍼 파라미터가 튜닝된 Random Forest, XGBoost, Light GBM 모델을 구축하여 1개월 뒤의 6개월 시간 척도의 증발 수요 가뭄지수를 예측하였다. 단일 지점별 모델과 지역 모델을 각각 구성하여 모델 성능을 비교하였다. 또한 지역 모델을 기반으로 개별 지점의 자료에 대해 미세조정된 모델을 구성하여 모델 성능을 높일 가능성을 살펴보았다.

A novel radioactive particle tracking algorithm based on deep rectifier neural network

  • Dam, Roos Sophia de Freitas;dos Santos, Marcelo Carvalho;do Desterro, Filipe Santana Moreira;Salgado, William Luna;Schirru, Roberto;Salgado, Cesar Marques
    • Nuclear Engineering and Technology
    • /
    • 제53권7호
    • /
    • pp.2334-2340
    • /
    • 2021
  • Radioactive particle tracking (RPT) is a minimally invasive nuclear technique that tracks a radioactive particle inside a volume of interest by means of a mathematical location algorithm. During the past decades, many algorithms have been developed including ones based on artificial intelligence techniques. In this study, RPT technique is applied in a simulated test section that employs a simplified mixer filled with concrete, six scintillator detectors and a137Cs radioactive particle emitting gamma rays of 662 keV. The test section was developed using MCNPX code, which is a mathematical code based on Monte Carlo simulation, and 3516 different radioactive particle positions (x,y,z) were simulated. Novelty of this paper is the use of a location algorithm based on a deep learning model, more specifically a 6-layers deep rectifier neural network (DRNN), in which hyperparameters were defined using a Bayesian optimization method. DRNN is a type of deep feedforward neural network that substitutes the usual sigmoid based activation functions, traditionally used in vanilla Multilayer Perceptron Networks, for rectified activation functions. Results show the great accuracy of the DRNN in a RPT tracking system. Root mean squared error for x, y and coordinates of the radioactive particle is, respectively, 0.03064, 0.02523 and 0.07653.