• Title/Summary/Keyword: 데이터 분류

Search Result 5,720, Processing Time 0.031 seconds

불완비 데이터에서 분류 나무의 구축

  • 우주성;김규성
    • Proceedings of the Korean Statistical Society Conference
    • /
    • 2001.11a
    • /
    • pp.105-108
    • /
    • 2001
  • 본 논문에서는 결측치가 있는 불완비 데이터에서 분류나루를 구축하는 방법을 고찰하였다. 기존의 결측치 처리 방법인 대리 분리 방법의 대안으로 대체 방법으로 결측치를 처리한 후 분류나무를 구축하는 방법을 제안하였다.

  • PDF

Multi-Modal based ViT Model for Video Data Emotion Classification (영상 데이터 감정 분류를 위한 멀티 모달 기반의 ViT 모델)

  • Yerim Kim;Dong-Gyu Lee;Seo-Yeong Ahn;Jee-Hyun Kim
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.01a
    • /
    • pp.9-12
    • /
    • 2023
  • 최근 영상 콘텐츠를 통해 영상물의 메시지뿐 아니라 메시지의 형식을 통해 전달된 감정이 시청하는 사람의 심리 상태에 영향을 주고 있다. 이에 따라, 영상 콘텐츠의 감정을 분류하는 연구가 활발히 진행되고 있고 본 논문에서는 대중적인 영상 스트리밍 플랫폼 중 하나인 유튜브 영상을 7가지의 감정 카테고리로 분류하는 여러 개의 영상 데이터 중 각 영상 데이터에서 오디오와 이미지 데이터를 각각 추출하여 학습에 이용하는 멀티 모달 방식 기반의 영상 감정 분류 모델을 제안한다. 사전 학습된 VGG(Visual Geometry Group)모델과 ViT(Vision Transformer) 모델을 오디오 분류 모델과 이미지 분류 모델에 이용하여 학습하고 본 논문에서 제안하는 병합 방법을 이용하여 병합 후 비교하였다. 본 논문에서는 기존 영상 데이터 감정 분류 방식과 다르게 영상 속에서 화자를 인식하지 않고 감정을 분류하여 최고 48%의 정확도를 얻었다.

  • PDF

Tree Area Classification of LIDAR Data using Perceptual Cues (인지적 단서를 이용한 라이다데이터의 수목영역 분류)

  • Hwang, Se-Ran;Kim, Seong-Joon;Lee, Im-Pyeong
    • Proceedings of the Korean Association of Geographic Inforamtion Studies Conference
    • /
    • 2010.06a
    • /
    • pp.294-295
    • /
    • 2010
  • 수목영역에서 획득된 라이다데이터는 수목의 높이 및 수목생체량과 같은 수목관련 정보추출에 이용될 수 있다. 본 연구에서는 다양한 지형지물을 포함하고 있는 라이다데이터로부터 수목영역을 분류하는 방법을 제시한다. 이를 위해 수목에서 나타나는 라이다데이터의 다반사 특성, 높이 편차 및 방향성을 인지적 단서로 이용하였다 각 단서들은 먼저 후보영역을 분류하는데 이용되었으며, 수목이 밀집한 최종 수목영역 분류를 위하여 후보영역에 대한 이진영상을 생성한 후 영상처리를 수행하였다. 기준데이터를 이용하여 실험 결과에 대한 검증을 수행하였으며 세 가지 인지적 단서에 의한 방법 모두 높은 분류 성공률을 보였다.

  • PDF

Decision Trees For Multiple Abstraction Level of Data (데이터의 다중 추상화 수준을 위한 결정 트리)

  • 정민아;이도현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.82-84
    • /
    • 2001
  • 데이터 분류(classification)란 이미 분류된 객체집단군 즉, 학습 데이터에 대한 분석을 바탕으로 아직 분류되지 않는 개체의 소속 집단을 결정하는 작업이다. 현재까지 제안된 여러 가지 분류 모델 중 결정 트리(decision tree)는 인간이 이해하기 쉬운 형태를 갖고 있기 때문에 탐사적인 데이터 마이닝(exploatory)작업에 특히 유용하다. 본 논문에서는 결정 트리 분류에 다중 추상화 수준 문제(multiple abstraction level problem)를 소개하고 이러한 문제를 다루기 위한 실용적인 방법을 제안한다. 데이터의 다중 추상화 수준 문제를 해결하기 위해 추상화 수준을 강제로 같게 하는 것이 문제를 해결할 수 없다는 것을 보인 후, 데이터 값들 사이의 일반화, 세분화 관련성을 그대로 유지하면서 존재하는 유용화할 수 있는 방법을 제시한다.

  • PDF

Improvement Method of Classification Rate in ML Antivirus systems using Kaggle Datasets (캐글 데이터셋을 이용한 머신러닝 악성코드 분류시스템에서 분류정확도 향상방법)

  • Kim, Kyungshin
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2019.07a
    • /
    • pp.49-52
    • /
    • 2019
  • 머신러닝을 이용한 악성코드 분류 시스템의 대부분이 캐글 데이터셋 10,868건을 사용하여 분류의 정확도를 측정한다. 이 데이터셋에 포함된 바이러스 바이트코드에는 미확인(undefined)필드라는 부분이 과도하게 존재한다. 캐글 데이터셋 특정 Label의 미확인필드 포함도는 75%가 넘는 경우도 존재한다. 이 경우 미확인 필드를 어떻게 처리하느냐가 시스템의 성능에 가장 큰 영향을 끼친다. 본 연구에서는 이러한 캐글 데이터셋의 미확인필드 처리방법을 제시하고 그에 따른 분류 정확도를 연구하였다. 다양한 처리방법에 대한 정확도를 측정하여 제안한 방식의 타당성을 증명하였다.

  • PDF

Malware Classification Schemes Based on CNN Using Images and Metadata (이미지와 메타데이터를 활용한 CNN 기반의 악성코드 패밀리 분류 기법)

  • Lee, Song Yi;Moon, Bongkyo;Kim, Juntae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.212-215
    • /
    • 2021
  • 본 논문에서는 딥러닝의 CNN(Convolution Neural Network) 학습을 통하여 악성코드를 실행시키지 않고서 악성코드 변종을 패밀리 그룹으로 분류하는 방법을 연구한다. 먼저 데이터 전처리를 통해 3가지의 서로 다른 방법으로 악성코드 이미지와 메타데이터를 생성하고 이를 CNN으로 학습시킨다. 첫째, 악성코드의 byte 파일을 8비트 gray-scale 이미지로 시각화하는 방법이다. 둘째, 악성코드 asm 파일의 opcode sequence 정보를 추출하고 이를 이미지로 변환하는 방법이다. 셋째, 악성코드 이미지와 메타데이터를 결합하여 분류에 적용하는 방법이다. 이미지 특징 추출을 위해서는 본고에서 제안한 CNN을 통한 학습 방식과 더불어 3개의 Pre-trained된 CNN 모델을 (InceptionV3, Densnet, Resnet-50) 사용하여 전이학습을 진행한다. 전이학습 시에는 마지막 분류 레이어층에서 본 논문에서 선택한 데이터셋에 대해서만 학습하도록 파인튜닝하였다. 결과적으로 가공된 악성코드 데이터를 적용하여 9개의 악성코드 패밀리로 분류하고 예측 정확도를 측정해 비교 분석한다.

Sentiment Classification Model Development Based On EDA-Applied BERT (EDA 기법을 적용한 BERT 기반의 감성 분류 모델 생성)

  • Lee, Jin-Sang;Lim, Heui-Seok
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.07a
    • /
    • pp.79-80
    • /
    • 2022
  • 본 논문에서는 데이터 증강 기법 중 하나인 EDA를 적용하여 BERT 기반의 감성 분류 언어 모델을 만들고, 성능 개선 방법을 제안한다. EDA(Easy Data Augmentation) 기법은 테이터가 한정되어 있는 환경에서 SR(Synonym Replacement), RI(Random Insertion), RS(Random Swap), RD(Random Deletion) 총 4가지 세부 기법을 통해서 학습 데이터를 증강 시킬 수 있다. 이렇게 증강된 데이터를 학습 데이터로 이용해 구글의 BERT를 기본 모델로 한 전이학습을 진행하게 되면 감성 분류 모델을 생성해 낼 수 있다. 데이터 증강 기법 적용 후 전이 학습을 통해 생성한 감성 분류 모델의 성능을 증강 이전의 전이 학습 모델과 비교해 보면 정확도 측면에서 향상을 기대해 볼 수 있다.

  • PDF

An Efficient Classifying Recognition Algorithm of Printed and handwritten numerals (인쇄체 및 필기체 숫자의 효율적인 구분 인식 알고리즘)

  • 홍연찬
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.9 no.5
    • /
    • pp.517-525
    • /
    • 1999
  • In this paper, we propose efficient total recognition system of handwritten and printed numerals for reducing the classification time. The proposed system consists of two-step neuroclassifier : Printed numerals classifier and handwritten numerals classifier. In the proposed scheme, the printed numerals classifier classifies the printed numerals rapidly with single MLP neural network by low-order feature vector and rejects handwritten numerals. The handwritten numerals classifier classifies the handwritten numerals which is rejected in printed numerals classifier with modularized cluster neural network by complex feature vector. In order to verify the performance of the proposed method,handwritten numerals database of NIST and printed numerals database which include various fonts are used in the experiments. In case of using the proposed classifier, the overall classification time was reduced by 49.1% - 65.5% in comparison of the existent handwritten classifier.

  • PDF

A Noise-Tolerant Hierarchical Image Classification System based on Autoencoder Models (오토인코더 기반의 잡음에 강인한 계층적 이미지 분류 시스템)

  • Lee, Jong-kwan
    • Journal of Internet Computing and Services
    • /
    • v.22 no.1
    • /
    • pp.23-30
    • /
    • 2021
  • This paper proposes a noise-tolerant image classification system using multiple autoencoders. The development of deep learning technology has dramatically improved the performance of image classifiers. However, if the images are contaminated by noise, the performance degrades rapidly. Noise added to the image is inevitably generated in the process of obtaining and transmitting the image. Therefore, in order to use the classifier in a real environment, we have to deal with the noise. On the other hand, the autoencoder is an artificial neural network model that is trained to have similar input and output values. If the input data is similar to the training data, the error between the input data and output data of the autoencoder will be small. However, if the input data is not similar to the training data, the error will be large. The proposed system uses the relationship between the input data and the output data of the autoencoder, and it has two phases to classify the images. In the first phase, the classes with the highest likelihood of classification are selected and subject to the procedure again in the second phase. For the performance analysis of the proposed system, classification accuracy was tested on a Gaussian noise-contaminated MNIST dataset. As a result of the experiment, it was confirmed that the proposed system in the noisy environment has higher accuracy than the CNN-based classification technique.

Performance Improvement of Nearest-neighbor Classification Learning through Prototype Selections (프로토타입 선택을 이용한 최근접 분류 학습의 성능 개선)

  • Hwang, Doo-Sung
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.49 no.2
    • /
    • pp.53-60
    • /
    • 2012
  • Nearest-neighbor classification predicts the class of an input data with the most frequent class among the near training data of the input data. Even though nearest-neighbor classification doesn't have a training stage, all of the training data are necessary in a predictive stage and the generalization performance depends on the quality of training data. Therefore, as the training data size increase, a nearest-neighbor classification requires the large amount of memory and the large computation time in prediction. In this paper, we propose a prototype selection algorithm that predicts the class of test data with the new set of prototypes which are near-boundary training data. Based on Tomek links and distance metric, the proposed algorithm selects boundary data and decides whether the selected data is added to the set of prototypes by considering classes and distance relationships. In the experiments, the number of prototypes is much smaller than the size of original training data and we takes advantages of storage reduction and fast prediction in a nearest-neighbor classification.