• Title/Summary/Keyword: 데이터 분류

Search Result 5,720, Processing Time 0.032 seconds

An Empirical Comparison of Bagging, Boosting and Support Vector Machine Classifiers in Data Mining (데이터 마이닝에서 배깅, 부스팅, SVM 분류 알고리즘 비교 분석)

  • Lee Yung-Seop;Oh Hyun-Joung;Kim Mee-Kyung
    • The Korean Journal of Applied Statistics
    • /
    • v.18 no.2
    • /
    • pp.343-354
    • /
    • 2005
  • The goal of this paper is to compare classification performances and to find a better classifier based on the characteristics of data. The compared methods are CART with two ensemble algorithms, bagging or boosting and SVM. In the empirical study of twenty-eight data sets, we found that SVM has smaller error rate than the other methods in most of data sets. When comparing bagging, boosting and SVM based on the characteristics of data, SVM algorithm is suitable to the data with small numbers of observation and no missing values. On the other hand, boosting algorithm is suitable to the data with number of observation and bagging algorithm is suitable to the data with missing values.

Adaptive Boundary Correction based Particle Swarm Optimization for Activity Recognition (사용자 행동인식을 위한 적응적 경계 보정기반 Particle Swarm Optimization 알고리즘)

  • Heo, Seonguk;Kwon, Yongjin;Kang, Kyuchang;Bae, Changseok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.1166-1169
    • /
    • 2012
  • 본 논문은 사용자 행동인식을 위해 기존 PSO (Particle Swarm Optimization) 알고리즘의 경계선을 통한 데이터 분류에서 데이터의 수집환경에 의해 발생하는 문제를 벡터의 길이비교를 이용한 보정을 통해 보완한 알고리즘을 제안한다. 기존의 PSO 알고리즘은 데이터 분류를 위해서 데이터의 최소, 최대값을 이용하여 경계를 생성하고, 이를 이용하여 데이터를 분류하였다. 그러나 PSO를 이용하여 행동인식을 할 때 행동이 수집되는 환경에 따라서 경계에 포함되지 못해 행동이 분류되지 못하는 문제가 있다. 이러한 분류의 문제를 보완하기 위해 경계를 벗어난 데이터와 각 행동을 대표하는 데이터의 벡터 길이를 계산하고 최소길이를 비교하여 분류한다. 실험결과, 기존 PSO 방법에 비해 개선된 방법이 평균적으로 앉기 1%, 걷기 7%, 서기 7%의 개선된 결과를 얻었다.

Fuzzy Classification Algorithm for Incomplete Data (불완전 데이터 처리를 위한 퍼지 분류 알고리즘)

  • Lee, Chan-Hee;Park, Choong-shik;Woo, Young Woon
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2009.05a
    • /
    • pp.387-390
    • /
    • 2009
  • 패턴 분류 문제는 기계 학습 분야에서 매우 중요한 연구 주제이다. 하지만 불완전 데이터는 실생활에서 매우 빈번히 발생 할 뿐만 아니라 분류 모델의 학습도가 낮다는 문제점을 지니고 있다. 불완전한 데이터를 다루는 것에 대한 많은 방법들이 제안되어 왔지만 대부분의 방법들이 훈련 단계에 집중하고 있다. 본 논문에서는 삼각 형태의 퍼지 함수를 이용하여 불완전 데이터의 분류 알고리즘을 제안한다. 제안한 기법에서는 불완전한 특징 벡터에서의 불완전 데이터를 추론하고 학습하였으며, 추론된 데이터의 가중치를 삼각 퍼지 함수 분류기에 적용하였다. 실험을 통하여 제안한 기법이 상대적으로 높은 인식률을 나타냄을 확인할 수 있었다.

  • PDF

A Customer Classifier for EC Mall (전자상거래에 적용 가능한 고객분류기)

  • 김선철;이준욱;이용준;류근호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.138-140
    • /
    • 1999
  • 분류기법은 과거데이터를 분석하여 새로운 데이터에 대한 예측에 사용되며, 결정트리 알고리즘을 많이 사용한다. 따라서, 이 기법은 전자상거래에서 DB 마케팅을 위해 데이터베이스에 저장되어 있는 고객데이터를 분석하여 암시적인 고객들의 행위규칙을 찾고, 예측하기 위하여 사용할 수 있다. 기존의 분류알고리즘들은 전자상거래에서 일반적인 연속형 고객데이터를 처리하는데는 많은 문제점을 가지고 있다. 이러한 문제를 해결하기 위하여 연속형 데이터를 범주형 데이터로 변환하는 알고리즘을 구현하였다. 이 논문은 전자상거래에 적용하기 위한 고객분류기로서 ID3 알고리즘에 1차원 클러스터링알고리즘을 결합하여 사용한다.

  • PDF

Cell-based Classification of High-dimensional Large data for Data Mining Application (데이터 마이닝을 위한 대용량 고차원 데이터의 셀-기반 분류방법)

  • 진두석;장재우
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.192-194
    • /
    • 2000
  • 최근 데이터 마이닝에서 대용량 데이터를 처리하는 응용이 많아짐에 따라, 클러스터링(Clustering) 및 분류(Classification)방법이 중요한 분야가 되고 있다. 특히 분류방법에 관한 기존 연구들은 단지 메모리 상주(memory-resident) 데이터에 대해 한정되며 고차원 데이터를 효율적으로 처리할 수 없다. 따라서 본 논문에서는 대용량 고차원 데이터를 효과적으로 처리할 수 있는 새로운 분류 알고리즘을 제안한다. 이는 데이터들을 차원 공간상의 셀(cell)로 표현함으로써 수치(numerical) 애트리뷰트와 범주(categorical) 애트리뷰트 모두 처리할 수 있는 알고리즘을 제안한다. 아울러, 실험결과를 통해 제안한 알고리즘이 데이터의 양,차원 그리고 속성에 관계없이 분류를 효과적으로 수행함을 보인다.

  • PDF

A Decoding Program of MPEG TS Packet and A Restoring Program of Data Information (MPEG TS 패킷 분류 프로그램과 데이터 정보의 복원 프로그램)

  • Jung, Myung-Su;Sonh, Seung-Il
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • v.9 no.1
    • /
    • pp.646-650
    • /
    • 2005
  • 요즘 아날로그 방송에서 디지털 방송시대로 변화함에 따라 디지털 방송기술이 많이 발전되었다. 디지털 방송은 방송국으로부터 만들어지는 영상, 음성, 데이터 스트림들이 MPEG을 통해 효율적으로 압축하고 동기식으로 패킷화되어서 MPEG TS 패킷형식으로 서비스 이용자에게 위성 또는 지상파를 통해 전송되어진다. 방송되어지는 데이터 정보는 물론 그 외의 비관련 데이터도 제공되어짐으로써 서비스 이용범위도 많이 늘어나고 특히 기존의 영상과 음성위주의 방송과는 달리 사업자와 이용자간의 쌍방향으로 데이터를 송수신할 수 있는 기술이 고부가가치 사업으로 대두되고 있다. 디지털 방송을 수신해서 보기 위해서는 튜너로부터 수신되어 디지털화된 MPEG TS 패킷들을 분류해주는 과정이 필요하다. 본 연구에서는 실제 디지털 방송되었던 패킷 파일을 가지고 분류하였다. 영상 스트림과 음성 스트림을 분류하고 데이터 스트림을 분리하였다. 그리고 데이터 방송 규격의 데이터 스트림 파일을 별도로 입력하여 데이터를 분류하였다. 프로그램은 Microsoft visual c++6.0을 사용하여 구현하였다.

  • PDF

Oversampling scheme using Conditional GAN (Conditional GAN을 활용한 오버샘플링 기법)

  • Son, Minjae;Jung, Seungwon;Hwang, Eenjun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.10a
    • /
    • pp.609-612
    • /
    • 2018
  • 기계학습 분야에서 분류 문제를 해결하기 위해 다양한 알고리즘들이 연구되고 있다. 하지만 기존에 연구된 분류 알고리즘 대부분은 각 클래스에 속한 데이터 수가 거의 같다는 가정하에 학습을 진행하기 때문에 각 클래스의 데이터 수가 불균형한 경우 분류 정확도가 다소 떨어지는 현상을 보인다. 이러한 문제를 해결하기 위해 본 논문에서는 Conditional Generative Adversarial Networks(CGAN)을 활용하여 데이터 수의 균형을 맞추는 오버샘플링 기법을 제안한다. CGAN은 데이터 수가 적은 클래스에 속한 데이터 특징을 학습하고 실제 데이터와 유사한 데이터를 생성한다. 이를 통해 클래스별 데이터의 수를 맞춰 분류 알고리즘의 분류 정확도를 높인다. 실제 수집된 데이터를 이용하여 CGAN을 활용한 오버샘플링 기법이 효과가 있음을 보이고 기존 오버샘플링 기법들과 비교하여 기존 기법들보다 우수함을 입증하였다.

Dataset construction and Automatic classification of Department information appearing in Domestic journals (국내 학술지 출현 학과정보 데이터셋 구축 및 자동분류)

  • Byungkyu Kim;Beom-Jong You;Hyoung-Seop Shim
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.01a
    • /
    • pp.343-344
    • /
    • 2023
  • 과학기술 문헌을 활용한 계량정보분석에서 학과정보의 활용은 매유 유용하다. 본 논문에서는 한국과학기술인용색인데이터베이스에 등재된 국내 학술지 논문에 출현하는 대학기관 소속 저자의 학과정보를 추출하고 데이터 정제 및 학과유형 분류 처리를 통해 학과정보 데이터셋을 구축하였다. 학과정보 데이터셋을 학습데이터와 검증데이터로 이용하여 딥러닝 기반의 자동분류 모델을 구현하였으며, 모델 성능 평가 결과는 한글 학과정보 기준 98.6%와 영문 학과정보 기준 97.6%의 정확률로 측정되었다. 향후 과학기술 분야별 지적관계 분석 및 논문 주제분류 등에 학과정보 자동분류 처리기의 활용이 기대된다.

  • PDF

A Study of Extending SQL for Supporting Multimedia Data (멀티미디어 데이터를 지원하기 위한 SQL 확장 방안 연구)

  • 하창석;박유현;이중화;김경석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10b
    • /
    • pp.292-294
    • /
    • 1998
  • 멀티미디어 데이터의 중요성과 활용도가 증가하면서, 멀티미디어 데이터를 데이터베이스에서 표현하고 처리하려는 연구가 이루어지고 있다. 하지만, 멀티미디어 데이터를 기존의 데이터베이스에서 처리할 때, 데이터를 분류할 명확한 기준이 없고, 또한 질의어에서 데이터를 표현하고 처리하는 능력이 없으므로 두 가지 사항을 고려해야 한다. 본 논문은 멀티미디어 데이터를 데이터베이스에서 처리하기 위해 필요한 데이터의 모델링 기법을 사용해서 멀티미디어 데이터의 객체를 분류하다. 다음으로, 분류된 멀티미디어 데이터를 SQL에서 지원하기 위해서, 객체간의 시간적, 공간적 관계를 표현할 수 있는 문법들을 제시하고 사용자 질의 결과를 어떻게 나타낼 것인가에 대한 방안을 제시한다.

A design of a Vehicle Analysis System using cloud and data mining (클라우드와 데이터 마이닝을 이용한 차량 분석 시스템 설계)

  • Jeong, Yi-Na;Son, Su-rak;Kim, Kyung-Deuk;Lee, Byung-Kwan
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2019.05a
    • /
    • pp.238-241
    • /
    • 2019
  • In this paper, a "Vehicle Analysis System(VAS) using cloud and data mining" is proposed that store all the sensor data measured in the vehicle in the cloud, analyze the stored data using the classification model, and provide the analyzed data in real time to the driver's display. The VAS consists of two modules. First, Sensor Data Communication Module(SDCM) stores the sensor data measured in the vehicle in a table of the cloud server and transfers the stored data to the analysis module. Second, Sensor Data Analysis Module(SDAM) analyzes the received data using the genetic algorithm and provides analyzed result to the driver in real time. The VAS stores sensor data collected in the vehicle in the cloud server without accumulating it in the vehicle, and stored data is analyzed in the cloud server, so that the sensor data can be quickly and efficiently managed without overloading the vehicle. In addition, the information desired by the driver can be visualized on the display, thereby increasing the stability of the autonomous vehicle.

  • PDF