• Title/Summary/Keyword: 오분류율

Search Result 117, Processing Time 0.033 seconds

Data Mining based Classification Model for False Alarm rate reducing of IDS (IDS의 False Alarm 발생율 감소를 위한 데이터 마이닝 기반의 분류모델)

  • 전원용;신문선;김은희;류근호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04a
    • /
    • pp.247-249
    • /
    • 2004
  • IDS에서 발생되는 경보의 수는 최근 인터넷 애플리케이션의 발달로 인하여 급격히 증가하고 있으며. 그로 인해 오 경보의 수도 함께 증가하고 있다. 발생된 경보들은 침입탐지 시스템의 성능저하와 alert flooding 의 원인이 된다. 따라서 이 논문에서는 다량의 경보 중에서 오 경보(False Alarm)의 발생을 감소시킬 수 있는 오 경보 분류 모델을 제안한다. 제안된 오 경보 분류 모델은 데이터 마이닝 기법들 중에서 분류 기법을 기반으로 구현되었다. 실험 을 통해서 IDS에서 발생하는 경보 중에서 정상데이터이나 공격으로 잘못 판단하여 발생하는 False Positive의 발생율이 현저히 감소됨을 확인할 수 있었다. 제안된 오 경보 분류 모델은 경보메시지 축약의 효과가 있으며 침입탐지 시스템의 탐지율을 높이는데 활용될 수 있다.

  • PDF

Undecided inference using logistic regression for credit evaluation (신용평가에서 로지스틱 회귀를 이용한 미결정자 추론)

  • Hong, Chong-Sun;Jung, Min-Sub
    • Journal of the Korean Data and Information Science Society
    • /
    • v.22 no.2
    • /
    • pp.149-157
    • /
    • 2011
  • Undecided inference could be regarded as a missing data problem such as MARand MNAR. Under the assumption of MAR, undecided inference make use of logistic regression model. The probability of default for the undecided group is obtained with regression coefficient vectors for the decided group and compare with the probability of default for the decided group. And under the assumption of MNAR, undecide dinference make use of logistic regression model with additional feature random vector. Simulation results based on two kinds of real data are obtained and compared. It is found that the misclassification rates are not much different from the rate of rawdata under the assumption of MAR. However the misclassification rates under the assumption of MNAR are less than those under the assumption of MAR, and as the ratio of the undecided group is increasing, the misclassification rates is decreasing.

Evaluations of predicted models fitted for data mining - comparisons of classification accuracy and training time for 4 algorithms (데이터마이닝기법상에서 적합된 예측모형의 평가 -4개분류예측모형의 오분류율 및 훈련시간 비교평가 중심으로)

  • Lee, Sang-Bock
    • Journal of the Korean Data and Information Science Society
    • /
    • v.12 no.2
    • /
    • pp.113-124
    • /
    • 2001
  • CHAID, logistic regression, bagging trees, and bagging trees are compared on SAS artificial data set as HMEQ in terms of classification accuracy and training time. In error rates, bagging trees is at the top, although its run time is slower than those of others. The run time of logistic regression is best among given models, but there is no uniformly efficient model satisfied in both criteria.

  • PDF

Classification Analysis for Unbalanced Data (불균형 자료에 대한 분류분석)

  • Kim, Dongah;Kang, Suyeon;Song, Jongwoo
    • The Korean Journal of Applied Statistics
    • /
    • v.28 no.3
    • /
    • pp.495-509
    • /
    • 2015
  • We study a classification problem of significant differences in the proportion of two groups known as the unbalanced classification problem. It is usually more difficult to classify classes accurately in unbalanced data than balanced data. Most observations are likely to be classified to the bigger group if we apply classification methods to the unbalanced data because it can minimize the misclassification loss. However, this smaller group is misclassified as the larger group problem that can cause a bigger loss in most real applications. We compare several classification methods for the unbalanced data using sampling techniques (up and down sampling). We also check the total loss of different classification methods when the asymmetric loss is applied to simulated and real data. We use the misclassification rate, G-mean, ROC and AUC (area under the curve) for the performance comparison.

분류 알고리즘에 대한 경험적 비교연구

  • 전홍석;이주영
    • Proceedings of the Safety Management and Science Conference
    • /
    • 2000.05a
    • /
    • pp.411-422
    • /
    • 2000
  • 본 연구에서는 결정트리 분야에서 각 분류알고리즘을 살펴보고 통계학의 판별분석과 기계학습(Machine Learning)분야에서 분류알고리즘을 비교하고, 자료에 따라 오분류율을 분석 하였다.

  • PDF

불완비 데이터에서 분류 나무의 구축

  • 우주성;김규성
    • Proceedings of the Korean Statistical Society Conference
    • /
    • 2001.11a
    • /
    • pp.105-108
    • /
    • 2001
  • 본 논문에서는 결측치가 있는 불완비 데이터에서 분류나루를 구축하는 방법을 고찰하였다. 기존의 결측치 처리 방법인 대리 분리 방법의 대안으로 대체 방법으로 결측치를 처리한 후 분류나무를 구축하는 방법을 제안하였다.

  • PDF

Feature Selection and Extraction for Document Classifier for If documents based on SVM (SVM기반 정보기술 문서분류를 위한 특성 선택 및 추출 기법)

  • 강윤희
    • Proceedings of the KAIS Fall Conference
    • /
    • 2001.11a
    • /
    • pp.75-78
    • /
    • 2001
  • 본 논문에서는 웹 문서의 자동 분류를 위한 특성 선택 및 추출기법을 기술한다. 최근 인터넷의 급속한 성장과 보급으로 전자우편과 웹을 통해 제공되어지는 정보의 양이 기하급수적으로 증가함에 따라 효율적인 문서 분류의 필요성이 증가하고 있다. 본 논문에서는 웹 디렉토리 내의 문서로부터 추출된 용어 집합을 기반으로 SVM을 사용하여 학습한 후 문서 분류를 수행한다. 본 실험의 문서는 정보통신 분야 디렉토리 서비스 시스템인 itfind로부터 수집된 문서를 대상으로 하였으며 3가지 시나리오에 따라 실험을 수행하여 각 시나리오 별로 재현율/정확율 및 오분류율을 성능 요소로 계산하였다. 본 실험은 학습 벡터 구성과정에서 잡음에 의해 다른 클래스의 문서 분류에 미치는 영향을 평가하여 SVM을 기반으로 한 문서 분류 기법이 강건함을 보였다.

데이터 마이닝에서 배깅과 부스팅 알고리즘 비교 분석

  • Lee, Yeong-Seop;O, Hyeon-Jeong
    • Proceedings of the Korean Statistical Society Conference
    • /
    • 2003.05a
    • /
    • pp.97-102
    • /
    • 2003
  • 데이터 마이닝의 여러 기법중 모형의 변동성을 줄이고 정확도가 높은 분류자를 형성하기 위하여 다양한 앙상블 기법이 연구되고 있다. 그 중에서 배깅과 부스팅 방법이 가장 널리 알려져 있다. 여러 가지 데이터에 이 두 방법을 적용하여 오분류율을 구하여 비교한 후 각 데이터 특성을 입력변수로 하고 배깅과 부스팅 중 더 낮은 오분류율을 갖는 알고리즘을 목표변수로 하여 의사결정나무를 형성하였다. 이를 통해서 배깅과 부스팅 알고리즘이 어떠한 데이터 특성의 패턴이 존재하는지 분석한 결과 부스팅 알고리즘은 관측치, 입력변수, 목표변수 수가 큰 것이 적합하고 반면에 배깅 알고리즘은 관측치, 입력변수, 목표변수 수의크기가 작은 것이 적합함을 알 수 있었다.

  • PDF

Comparison of Discriminant Analyses for Consumers' Taste Grade on Hanwoo (한우 맛 등급 판별방법 비교 연구)

  • Kim, Jae-Hee;Seo, Gu-Re-Oun-Den-Nim
    • The Korean Journal of Applied Statistics
    • /
    • v.21 no.6
    • /
    • pp.969-980
    • /
    • 2008
  • This paper presents the comparison of four methods, linear, quadratic, canonical and non-parametric discriminant analyses to discriminate the consumers' taste grade with sensory variables, such as tenderness, juiciness, flavor, and overall acceptability based on Consumer Sensory Survey. The classification ability of each method is measured and compared by the resubstitution error rate.

Research on Improving Fire Detection Artificial Intelligence Model Performance (화재 탐지 인공지능 모델 성능 개선 연구)

  • Lee, Jeong-Rok;Lee, Dae-Woong;Jeong, Sae-Hyun;Jung, Sang
    • Proceedings of the Korean Society of Disaster Information Conference
    • /
    • 2023.11a
    • /
    • pp.202-203
    • /
    • 2023
  • 최근 화재 탐지 분야는 불꽃 연기의 특징과 인공지능 인식(Detection) 모델을 활용하여 탐지율을 높이려는 연구가 많이 진행되어 왔다. 기존 화재 탐지 정확도를 높이기 위한 모델 연구 이외에도 불꽃·연기의 특징을 다양한 방법으로 데이터 가공한 학습 데이터셋을 활용하는 연구들이 진행되고 있다. 본 논문에서는 화재 탐지시 불꽃/연기의 오탐지율이 높은 것을 확인하고 오탐지율을 낮추기 위해 화재 상황을 인식하여 분류하는 방법과 데이터셋을 제안한다. 제안한 모델은 동영상을 학습데이터로 활용하여 화재 상황의 특징을 추출하여 분류모델에 적용하였다. 평가는 한국정보화진흥원(NIA)에서 진행하는 화재 데이터셋을 이용하여 Yolov8, Slowfast의 모델 성능을 비교 및 분석하였다.

  • PDF