• 제목/요약/키워드: bayesian classifier

검색결과 149건 처리시간 0.02초

메일 주소 유효성과 제목-내용 가중치 기법에 의한 스팸 메일 필터링 (Junk-Mail Filtering by Mail Address Validation and Title-Content Weighting)

  • 강승식
    • 한국멀티미디어학회논문지
    • /
    • 제9권2호
    • /
    • pp.255-263
    • /
    • 2006
  • 스팸 메일의 특성을 분석해 보면 스팸 메일 발송 프로그램이 메일 헤더에 기록된 주소와 송신자 및 수신자 메일 주소가 일치하지 않는 경우가 빈번하게 발견된다. 또한, 스팸 메일과 정상적인 메일을 비교-분석해 보면 제목만 살펴봐도 스팸 메일인지 여부를 쉽게 판별할 수가 있다. 본 논문에서는 이와 같은 스팸 메일의 특성을 이용하여 스팸 메일 필터링 시스템의 성능을 향상시키는 방안으로 메일 주소 유효성 검사 및 제목과 내용을 구분하여 각각 스팸 확률을 계산하는 기법을 제안하였다. 제안한 방법의 효용성을 검증하기 위하여 단순 베이스 기법에 대해 주소 유효성 검사 및 제목과 내용 등 각 요인의 중요도에 따른 스팸 메일 필터링의 성능 향상 정도를 측정하였다. 그 결과로, 제안한 방법을 적용했을 때 재현율이 11.6%, 정확률은 2.1%의 성능 향상 효과가 있음을 확인하였으며, 스팸 메일 필터링 시스템의 성능 향상에 많은 기여를 하는 것을 알 수 있었다.

  • PDF

장르와 주제 범주간 용어 편차정보를 이용한 디지털 문서의 장르기반 분류 (A Genre-based Classification of Digital Documents by using Deviation Statistic of Genre-revealing Term and Subject-revealing Term)

  • 이용배;맹성현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권11호
    • /
    • pp.1062-1071
    • /
    • 2003
  • 장르기반 분류는 문서를 내용이나 주제가 아닌 문서의 형식 또는 스타일에 의해 분류하는 것을 의미한다. 현재 장르분류 방법은 기존의 주제기반 분류방법에 사용되었던 알고리즘을 그대로 이용하거나 자질선택 방법에 있어서도 효과적이지 못하고 비교적 단순하여 분류 정확률 또한 상대적으로 낮았다. 본 연구에서는 장르기반으로 문서를 자동 분류할 수 있는 새로운 방법론을 제시한다. 장르분류 방법은 크게 두 가지 정보를 이용하여 학습과 분류를 하는데 장르 간 용어의 편차정보와 장르 내에 분포되어 있는 주제 범주 간 용어의 편차정보를 이용한다. 제안된 방법의 성능을 측정하기 위해 인터넷상에서 정제되지 않은 문서를 수집하였으며 이를 대상으로 실험한 결과 기존의 카이제곱 자질선택 방법 및 베이지안 분류 알고리즘과 비교하여 약 30% 정도 우수한 정확도를 나타내었다.

신경회로망과 확률모델을 이용한 2차원운동의 외부좌표에 대한 EMG신호의 패턴인식에 관한 연구 (A study on the Pattern Recognition of the EMG signals using Neural Network and Probabilistic modal for the two dimensional Motions described by External Coordinate)

  • 장영건;권장우;홍승홍
    • 대한의용생체공학회:학술대회논문집
    • /
    • 대한의용생체공학회 1991년도 춘계학술대회
    • /
    • pp.65-70
    • /
    • 1991
  • A hybrid model which uses a probabilistic model and a MLP(multi layer perceptron) model for pattern recognition of EMG(electromyogram) signals is proposed in this paper. MLP model has problems which do not guarantee global minima of error due to learning method and have different approximation grade to bayesian probabilities due to different amounts and quality of training data, the number of hidden layers and hidden nodes, etc. Especially in the case of new test data which exclude design samples, the latter problem produces quite different results. The error probability of probabilistic model is closely related to the estimation error of the parameters used in the model and fidelity of assumtion. Generally, it is impossible to introduce the bayesian classifier to the probabilistic model of EMG signals because of unknown priori probabilities and is estimated by MLE(maximum likelihood estimate). In this paper we propose the method which get the MAP(maximum a posteriori probability) in the probabilistic model by estimating the priori probability distribution which minimize the error probability using the MLP. This method minimize the error probability of the probabilistic model as long as the realization of the MLP is optimal and approximate the minimum of error probability of each class of both models selectively. Alocating the reference coordinate of EMG signal to the outside of the body make it easy to suit to the applications which it is difficult to define and seperate using internal body coordinate. Simulation results show the benefit of the proposed model compared to use the MLP and the probabilistic model seperately.

  • PDF

분류기 성능 향상을 위한 범주 속성 가상예제의 생성과 선별 (Generation and Selection of Nominal Virtual Examples for Improving the Classifier Performance)

  • 이유정;강병호;강재호;류광렬
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권12호
    • /
    • pp.1052-1061
    • /
    • 2006
  • 본 논문에서는 베이지안 네트워크를 기반으로 생성하고 평가한 가상예제를 활용하여 범주 속성 데이타에 대한 분류 성능을 향상시키는 방안을 제안한다. 가상예제를 활용하는 종래의 연구들은 주로 수치 속성 데이타를 대상으로 하였고, 대상 도메인에 특화된 지식을 활용하여 특정 학습 알고리즘의 성능을 향상시키는 것을 목표로 하였다. 본 연구에서는 도메인에 특화된 지식을 활용하는 대신 주어진 훈련 집합을 기반으로 만든 베이지안 네트워크로부터 범주 속성 가상예제를 생성하고, 그 예제가 네트워크의 조건부 우도를 증가시키는데 기여할 경우 유용한 것으로 선별한다. 이러한 생성 및 선별과정을 반복하여 적절한 크기의 가상예제 집합을 수집하여 사용한다. 범주 속성 데이타를 대상으로 한 실험 결과, 여러 가지 학습 모델의 성능이 향상됨을 확인하였다.

이동형 정보 증강 시스템을 위한 실시간 장소 인식 (Real-Time Place Recognition for Augmented Mobile Information Systems)

  • 오수진;남양희
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권5호
    • /
    • pp.477-481
    • /
    • 2008
  • 이동 중 사용자에게 필요한 정보를 제공하기 위해서는 장소를 인지하는 기술이 필요하다. 본 논문에서는 건물 내에서 이동하면서 카메라에 의해 포착된 영상 정보를 분석하여 현재 장소를 파악하고 카메라 영상에 관련 정보를 증강하는 비디오 기반 실시간 장소인식 시스템을 제안한다. 영상의 전역적 특징을 이용한 기존 연구들은 장면의 부분적인 폐색이나 잡음에 민감하고, 물체인식을 행하는 지역적 특징 의존 방식은 계산량이 많아 실시간 적용이 어렵다. 또한, 그러한 특징들로부터 장소인식 결과를 도출하기 위해서는 통계적 그래프 기반 모델이나 베이시안 네트웍등이 이용되어 왔는데, 전자의 경우 장소 이동의 확률을 얻기 위한 많은 통계 데이타가 필요하며, 후자는 장소 이동문맥을 활용하지 못하므로 물체 인식 결과에만 의존하는 단점이 있다. 본 논문에서는 장소 문맥 정보를 활용하면서 영상의 지역적, 전역적 특징추출법의 결합을 통해 부분 폐색 및 잡음에 대한 전역적 방법의 민감성을 보완하고, 지역적 방법의 느린 처리속도를 보완한 시스템을 제안한다. 제안된 방법을 건물 내부를 이동하면서 장소에 대한 정보를 얻는 정보증강 시스템에 적용하여 실시간 성능을 확인하였다.

차세대 공항 서비스를 위한 베이지안 연령추정기법을 이용하는 스마트 디지털 사이니지에 대한 연구 (A Study on a Smart Digital Signage Using Bayesian Age Estimation Technique for the Next Generation Airport Service)

  • 김춘호;이동우;백경민;문성엽;허찬;나종화;온승엽;최우영
    • 한국항행학회논문지
    • /
    • 제18권6호
    • /
    • pp.533-540
    • /
    • 2014
  • 차세대 공항 서비스를 위하여 고객의 연령 정보를 인식하는 스마트 디지털 사이니지를 제안한다. 제안된 시스템은 고객의 얼굴을 검출하고 연령대를 베이지안 분류기법을 이용하여 추정하여 맞춤형 정보를 디스플레이 함으로서 고객의 만족도를 향상시키도록 설계되었다. 연령대 인식은 카메라를 이용하여 고객의 얼굴 영상을 획득한 뒤, 얼굴의 주름을 계산하고 베이지안 분류기를 이용하여 연령대를 추정한다. 개발된 연령대 인식기반 스마트 디지털 사이니지는 영상시스템 평가용 FERET 얼굴 데이터베이스를 이용하여 성능을 검증하였다. 연령추정 스마트 디지털 사이니지는 다양한 연령대의 공항고객에게 맞춤형 광고를 제시함으로서 광고 효율을 개선하여 공항 고객의 만족도 향상에 기여할 수 있을 것으로 기대된다.

고혈압 예측을 위한 노모그램 구축 및 비교 (Comparison of nomograms designed to predict hypertension with a complex sample)

  • 김민호;신민석;이제영
    • 응용통계연구
    • /
    • 제33권5호
    • /
    • pp.555-567
    • /
    • 2020
  • 고혈압은 발병률이 꾸준히 증가하고 있을 뿐 아니라, 심혈관 질환과 같은 2차 질병의 주된 위험 요인이 되었다. 게다가 고혈압은 뇌졸중, 혈관성 치매와 같은 다른 합병증을 유발하는 질병이다. 따라서 고혈압 발병률을 예측하는 것은 중요한 일이다. 본 연구에서, 고혈압 발병률을 예측할 수 있는 노모그램을 구축하였다. 데이터는 2013년부터 2016년까지의 국민건강영양조사로부터 얻어졌다. 복합 표본의 특성을 고려하여 Rao-Scott chi-squared test를 통해 고혈압에 영향을 미치는 10가지 요인을 규명하였다. 하지만 로지스틱 회귀분석 시, 흡연 상태와, 운동 유무는 유의하지 않았다. 따라서 8개의 주 효과를 고혈압의 위험요인으로 최종 선별하였다. 그리고 최종 선별된 위험 요인들로 로지스틱 노모그램과 베이지안 노모그램을 제시 및 비교하였다. 마지막으로 ROC curve 그래프와 calibration plot을 통해 노모그램을 검증하였다.

클라우드 환경에서 보안 가시성 확보를 위한 자동화된 패킷 분류 및 처리기법 (Near Realtime Packet Classification & Handling Mechanism for Visualized Security Management in Cloud Environments)

  • 안명호;류미현
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 추계학술대회
    • /
    • pp.331-337
    • /
    • 2014
  • 컴퓨팅 패러다임이 클라우드 컴퓨팅으로 변화됨에 따라 보안 이슈가 더욱 더 중요하게 되었다. 컴퓨팅 플랫폼 서비스 제공자들은 Firewall, Identity Management 등을 제공하지만 클라우드 컴퓨팅 인프라는 사용자가 맘대로 제어하거나 새로운 장치들을 부착하여 사용할 수 없기 때문에 비교적 보안에 취약한 것이 사실이다. 이런 환경에서는 사용자 스스로 보안을 대비해야 하기 때문에 직관적인 방법으로 전체 네트워크 트래픽 상황을 가시적으로 조망할 수 있는 기법이 필요하다. 이를 위해서는 네트워크 패킷을 실시간으로 저장하고, 저장된 데이터를 준 실시간으로 분류할 수 있는 기술이 요구된다. 네트워크 패킷 분류에서 중요한 사항은 패킷 분류를 비지도 방식으로 사람의 개입 없이도 판단 기준을 지능적으로 생성하고 이를 통해 패킷을 스스로 판별할 수 있는 기술개발이 필요하다. 또한, 이를 위해서 Naive-Bayesian Classifier, Packet Chunking 등의 방법들을 활용해 사용자 개입없이 분류에 필요한 시그니쳐(Signature)를 탐색하고 이를 학습해 스스로 자동화된 패킷 분류를 실현할 수 있는 방안을 제시한다.

  • PDF

Classifying Indian Medicinal Leaf Species Using LCFN-BRNN Model

  • Kiruba, Raji I;Thyagharajan, K.K;Vignesh, T;Kalaiarasi, G
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권10호
    • /
    • pp.3708-3728
    • /
    • 2021
  • Indian herbal plants are used in agriculture and in the food, cosmetics, and pharmaceutical industries. Laboratory-based tests are routinely used to identify and classify similar herb species by analyzing their internal cell structures. In this paper, we have applied computer vision techniques to do the same. The original leaf image was preprocessed using the Chan-Vese active contour segmentation algorithm to efface the background from the image by setting the contraction bias as (v) -1 and smoothing factor (µ) as 0.5, and bringing the initial contour close to the image boundary. Thereafter the segmented grayscale image was fed to a leaky capacitance fired neuron model (LCFN), which differentiates between similar herbs by combining different groups of pixels in the leaf image. The LFCN's decay constant (f), decay constant (g) and threshold (h) parameters were empirically assigned as 0.7, 0.6 and h=18 to generate the 1D feature vector. The LCFN time sequence identified the internal leaf structure at different iterations. Our proposed framework was tested against newly collected herbal species of natural images, geometrically variant images in terms of size, orientation and position. The 1D sequence and shape features of aloe, betel, Indian borage, bittergourd, grape, insulin herb, guava, mango, nilavembu, nithiyakalyani, sweet basil and pomegranate were fed into the 5-fold Bayesian regularization neural network (BRNN), K-nearest neighbors (KNN), support vector machine (SVM), and ensemble classifier to obtain the highest classification accuracy of 91.19%.

커널 기반 데이터를 이용한 효율적인 서비스 거부 공격 탐지 방법에 관한 연구 (An Efficient Method for Detecting Denial of Service Attacks Using Kernel Based Data)

  • 정만현;조재익;채수영;문종섭
    • 정보보호학회논문지
    • /
    • 제19권1호
    • /
    • pp.71-79
    • /
    • 2009
  • 현재 커널 기반 데이터인 시스템 호출을 이용하는 호스트 기반 침입 탐지 연구가 많이 진행되고 있다. 시스템 호출을 이용한 침입 탐지 연구는 시퀀스 기반과 빈도 기반으로 시스템 호출을 전 처리 하는 방법이 많이 사용되고 있다. 실시간 침입 탐지 시스템에 적용할 때 시스템에서 수집 되는 시스템 호출 데이터의 종류와 수집 데이터가 많아 전처리에 어려움이 많다. 그러나 비교적 시퀀스 기반 방법보다 전처리 시간이 작은 빈도 기반의 주로 방법이 사용 되고 있다. 본 논문에서는 현재에도 시스템 공격 중 비중을 많이 차지하고 있는 서비스 거부 공격을 탐지 하기위해 빈도 기반의 방법에 사용하는 전체 시스템 호출을 주성분 분석(principal component analysis)을 이용하여 주성분이 되는 시스템 호출들을 추출하여 베이지안 네트워크를 구성하고 베이지안 분류기를 통하여 탐지하는 효율적인 방법을 제안한다.