• Title/Summary/Keyword: 데이터 분류 방법

검색결과 2,787건 처리시간 0.033초

사용자 행동인식을 위한 적응적 경계 보정기반 Particle Swarm Optimization 알고리즘 (Adaptive Boundary Correction based Particle Swarm Optimization for Activity Recognition)

  • 허성욱;권용진;강규창;배창석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.1166-1169
    • /
    • 2012
  • 본 논문은 사용자 행동인식을 위해 기존 PSO (Particle Swarm Optimization) 알고리즘의 경계선을 통한 데이터 분류에서 데이터의 수집환경에 의해 발생하는 문제를 벡터의 길이비교를 이용한 보정을 통해 보완한 알고리즘을 제안한다. 기존의 PSO 알고리즘은 데이터 분류를 위해서 데이터의 최소, 최대값을 이용하여 경계를 생성하고, 이를 이용하여 데이터를 분류하였다. 그러나 PSO를 이용하여 행동인식을 할 때 행동이 수집되는 환경에 따라서 경계에 포함되지 못해 행동이 분류되지 못하는 문제가 있다. 이러한 분류의 문제를 보완하기 위해 경계를 벗어난 데이터와 각 행동을 대표하는 데이터의 벡터 길이를 계산하고 최소길이를 비교하여 분류한다. 실험결과, 기존 PSO 방법에 비해 개선된 방법이 평균적으로 앉기 1%, 걷기 7%, 서기 7%의 개선된 결과를 얻었다.

불완전 데이터 처리를 위한 퍼지 분류 알고리즘 (Fuzzy Classification Algorithm for Incomplete Data)

  • 이찬희;박충식;우영운
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 춘계학술대회
    • /
    • pp.387-390
    • /
    • 2009
  • 패턴 분류 문제는 기계 학습 분야에서 매우 중요한 연구 주제이다. 하지만 불완전 데이터는 실생활에서 매우 빈번히 발생 할 뿐만 아니라 분류 모델의 학습도가 낮다는 문제점을 지니고 있다. 불완전한 데이터를 다루는 것에 대한 많은 방법들이 제안되어 왔지만 대부분의 방법들이 훈련 단계에 집중하고 있다. 본 논문에서는 삼각 형태의 퍼지 함수를 이용하여 불완전 데이터의 분류 알고리즘을 제안한다. 제안한 기법에서는 불완전한 특징 벡터에서의 불완전 데이터를 추론하고 학습하였으며, 추론된 데이터의 가중치를 삼각 퍼지 함수 분류기에 적용하였다. 실험을 통하여 제안한 기법이 상대적으로 높은 인식률을 나타냄을 확인할 수 있었다.

  • PDF

전진선택법에 의해 선택된 부분 상관관계의 유전자들을 이용한 암 분류 (Classifying Cancer Using Partially Correlated Genes Selected by Forward Selection Method)

  • 유시호;조성배
    • 대한전자공학회논문지SP
    • /
    • 제41권3호
    • /
    • pp.83-92
    • /
    • 2004
  • 유전 발현 데이터는 생명체의 특정 조직에서 채취한 샘플을 마이크로어레이상에서 측정한 것으로, 유전자들의 발현 정도가 수치로 나타난 데이터이다. 일반적으로 정상조직과 이상조직에서 관련 유전자들의 발현 정도는 차이를 보이기 때문에 유전 발현 데이터를 통하여 암을 분류할 수 있다. 그러나 분류에 모든 유전자가 관여하지는 않으므로 효율적인 암의 분류를 위해서는 관련성 있는 소수의 유전자만을 선별해내는 작업인 특징선택 방법이 필요하다. 본 논문에서는 회귀분석의 변수선택방법중 하나인 전진 선택법(forward selection method)을 사용하여 유전자들을 선하고 분류하는 방법을 제안한다. 이 방법은 선택되는 유전자들의 중복된 정보를 최소화시켜 암의 분류에 있어 보다 효과적인 유전자 선택을 한다. 실험데이터는 대장암 데이터(Colon cancer dataset)를 사용하였고, 분류기는 k-최근접 이웃(KNN)을 사용하였다. 이 방법과 상관계수를 이용한 특징 선택방법인 피어슨 상관계수와 스피어맨 상관계수방법과 비교해본 결과 전진 선택법에 의한 특징선택 방법이 암의 분류에 있어서 더 효과적인 유전자 선택을 한다는 사실을 확인하였다. 실험결과 90.3%의 높은 인식률을 보였다. 추가적으로 림프종 데이터에 대한 실험을 하였고, 그 결과 전진 선택법의 유용성을 확인할 수 있었다.

가중치가 부여된 연관 규칙을 이용한 문서 분류 (Document Classification using Weighted Associative Classifier)

  • 김흥남;이기성;조근식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.154-156
    • /
    • 2003
  • 인터넷의 급속한 성장과 더불어 많은 정보와 데이터들을 인터넷을 통하여 얻을 수 있게 되었으며 많은 단체들이 문서들을 웹을 통하여 이용 가능하게 만들고 있다. 이에 따라 다양한 정보와 데이터를 효과적으로 분류하고 검색하는 문서 분류 (Document Classification)에 대한 알고리즘이 다양한 분야에서 널리 연구되어 왔으며 본 논문에서 초점을 두고 있는 전자 도서관 (Digital Library) 분야에서도 활발히 연구되어지고 있다. 하지만 기존의 전자 도서관의 문서 분류 알고리즘들은 문서들의 각 단락의 비중을 고려하지 않은 채 단어들의 발생 빈도에 초점을 두어 많은 잡음 단어 (Noise Term)를 포함하고 그로 인하여 분류 성능이 떨어졌다. 본 논문에서는 문서 단락의 중요도에 따라 다른 .가중치를 부여하여 단어 지지도 (Term Support)가 높은 단어들을 추출하고 그 단어들로 연관 규칙 (Association Rules)을 이용하여 분류 규칙을 생성하는 방법을 제안한다. 제안된 방법의 성능평가를 위해 문서 분류에 널리 쓰이는 나이브 베이지안 분류자 (Na$\square$ve Bayesian Classifier) 및 기존의 단순 연관 규칙 분류자 (Associative Classifier)와 비교 평가하였다. 그 결과, 각 가중치가 부여된 연관 규칙 분류 방법이 나이브 베이지안 분류 방법과 단순 연관 규칙 분류 방법보다 높은 성능을 보였다.

  • PDF

당뇨병의 예측을 위한 분류기 앙상블의 BKS 결합 (BKS Fusion of Classifier Ensemble for Prediction of Diabetes)

  • 박한샘;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.265-267
    • /
    • 2004
  • 경제 여건의 향상 및 생활양식의 변화로 최근 우리나라에서도 당뇨병 환자가 늘어남에 따라 당뇨병의 예측 및 치료가 중요한 관심사가 되고 있다. 본 논문은 1993년과 1995년 두 차례에 걸쳐 경기도 연천 지역 주민들의 여러 가지 신체 지수 등을 조사한 데이터를 대상으로, 1차 년도의 데이터로부터 동일한 환자가 2차 년도에 정상상태를 유지하는지 흑은 당뇨병으로 진행이 되는지를 예측하는 문제를 다룬다. 혈당량, 허리둘레 등의 수치가 당뇨병의 발병에 영향을 끼치는 것은 알려진 사실이므로, 현재의 데이터로부터 앞으로의 발병 가능성을 예측하는 것이 가능하며, 이는 환자에게 보다 정확한 정보를 알려줄 수 있으므로 의미가 있는 일이다. 예측을 위해 본 논문에서는 분류기를 사용하며, 예측율을 높이기 위해 여러 분류기를 BKS로 결합하였다. BKS (behavior knowledge space) 결합 방법은 분류기간의 독립 가정이 필요 없으며, 데이터 크기가 크고 전형적인 경우에 좋은 결과를 낼 수 있는 방법이다. BKS 결합 방법을 통해 실험을 해본 결과 단일 분류기로 실험을 한 결과보다 향상된 성능을 얻을 수 있었으며, 투표 결합 방법과 비교하여 더 좋은 성능을 보였다.

  • PDF

통계적 척도 선택 방법에 따른 네트워크 침입 분류의 성능 비교

  • 문길종;김용민;노봉남
    • 정보보호학회지
    • /
    • 제19권2호
    • /
    • pp.16-25
    • /
    • 2009
  • 네트워크 기술의 발달에 따른 서비스의 증가는 네트워크 트래픽과 함께 취약점도 증대하여 이를 악용하는 행위도 늘어나고 있다. 따라서 네트워크 침입탐지 시스템은 증가하는 트래픽의 양을 처리할 수 있어야 하며, 악의적인 행동을 효과적으로 탐지 할 수 있어야 한다. 증가하는 트래픽을 효과적으로 처리하고 탐지의 정확성을 높이기 위해 처리 데이터를 감소시키는 기술이 요구된다. 이러한 방법들은 크게 데이터 필터링, 척도 선택, 데이터 클러스터링의 영역으로 구분되며, 본 논문에서는 척도 선택의 방법으로 데이터 처리의 감소 및 효과적 침입탐지를 수행할 수 있음을 보이고자 한다. 실험 데이터는 KDDCUP 99 데이터 셋을 이용하였으며, 통계적 척도선택의 방법으로 분류율, 오탐율, 거리값, 규칙, 선택된 척도 등을 제시함으로써 침입 탐지 시 데이터 처리량이 감소하였고, 분류율은 증가, 오탐율은 감소하여 침입 탐지 정확성이 높아짐을 알 수 있었다. 또한 본 논문에서 제시한 방법이 다른 관련연구에서 제시한 선택 척도보다 높은 정확성을 보임으로써 보다 유용함을 증명할 수 있었다.

마코프 모텔 기반 지문의 구조적 특징 분류 (Markov Models based Classification of Fingerprint Structural Features)

  • 정혜욱;원종진;김문현
    • 한국시뮬레이션학회:학술대회논문집
    • /
    • 한국시뮬레이션학회 2005년도 추계학술대회 및 정기총회
    • /
    • pp.33-38
    • /
    • 2005
  • 지문분류는 대규모 인증시스템에 사용되는 지문 데이터 베이스를 종류별로 인덱싱 하거나 인식 시스템에 다양하게 쓰이는 매우 중요한 방법이다. 지문은 일반적으로 융선의 전체모양 등 전역적인 특징을 기반으로 분류하며, 분류방법에는 규칙기반 접근, 구문론적 접근, 구조적 접근, 통계적 접근, 신경망 기반 접근 등이 있다. 본 논문에서는 지문의 구조적인 특징을 바탕으로 관찰되는 특징의 상태가 매순간 변화하는 확률론적 정보추출 방식인 마코프 모델을 적용한 지문분류 방법을 제안한다. 지문 이미지의 전처리 과정을 거친 후 각 클래스 분류를 위해 대표 융선을 찾아 방향정보를 추출하고 이를 이용하여 5가지 클래스로 분류될 수 있도록 설계하였다. 좋은품질(Good)과 나쁜품질(Poor)의 데이터를 포함한 훈련집합을 사용하여 각 클래스별로 학습된 마코프 모델은 임의의 지문이미지 분류시 높은 분류율을 보였다. 또한 기존의 구조적 접근방법에 비하여 다양한 품질의 지문이미지의 방향성 정보를 이용한 확률론적 방법이기 때문에 예외적인 지문이미지 분류시 잘 적용될 수 있다.

  • PDF

계층적 레이블 임베딩을 이용한 세부 분류 개체명 인식 (Fine-grained Named Entity Recognition using Hierarchical Label Embedding)

  • 김홍진;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.251-256
    • /
    • 2021
  • 개체명 인식은 정보 추출의 하위 작업으로, 문서에서 개체명에 해당하는 단어를 찾아 알맞은 개체명을 분류하는 자연어처리 기술이다. 질의 응답, 관계 추출 등과 같은 자연어처리 작업에 대한 관심이 높아짐에 따라 세부 분류 개체명 인식에 대한 수요가 증가했다. 그러나 기존 개체명 인식 성능에 비해 세부 분류 개체명 인식의 성능이 낮다. 이러한 성능 차이의 원인은 세부 분류 개체명 데이터가 불균형하기 때문이다. 본 논문에서는 이러한 데이터 불균형 문제를 해결하기 위해 대분류 개체명 정보를 활용하여 세부 분류 개체명 인식을 수행하는 방법과 대분류 개체명 인식의 오류 전파를 완화하기 위한 2단계 학습 방법을 제안한다. 또한 레이블 주의집중 네트워크 기반의 구조에서 레이블의 공통 요소를 공유하여 세부 분류 개체명 인식에 효과적인 레이블 임베딩 구성 방법을 제안한다.

  • PDF

교사학습 알고리즘을 이용한 텍스트 분류 시스템 (A Text Classification System based on a Supervised Learning Algorithm)

  • 김진상;성정호;김성주
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 1998년도 국제 컨퍼런스: 국가경쟁력 향상을 위한 디지틀도서관 구축방안
    • /
    • pp.421-430
    • /
    • 1998
  • 지식경영을 위한 다양한 대상 업무중에서 텍스트 데이터의 마이닝은 특히 중요하다. 그 이유는 텍스트 데이터가 양적인 면에서 가장 풍부하고, 또 발견할 수 있는 지식을 가장 많이 포함하고 있기 때문이다. 본 논문에서는 텍스트 데이터베이스에서 지식발견을 위한 한 과정으로 텍스트 데이터베이스 내의 텍스트들을 분류하는 기법을 기술한다. 특히 문서 분류 방법은 데이터베이스의 일부 데이터를 훈련, 예제로 간주하여 교사 학습 알고리즘을 통해 학습한 후 나머지 데이터를 이용해 분류 정확성을 검증 및 향상시킨다. 시험 데이터로는 인터넷의 뉴스그룹의 기사를 이용하였고, 시험 결과 분류의 정확성은 한글 및 영문 모두 최소 70% 이상으로 나타났다.

  • PDF

L1-거리와 L1-데이터뎁스를 이용한 분류방법의 비교연구 (Comparison Studies of Classification Methods based on L1-Distance and L1-Data Depth)

  • 백수진;황진수;김진경
    • 응용통계연구
    • /
    • 제19권1호
    • /
    • pp.183-193
    • /
    • 2006
  • $L_1$-데이터뎁스를 이용한 분류방법(L1DDclass)과 관측치들 사이의 $L_1$-거리를 이용한 분류방법(L1DISTclass)의 특징을 살펴보고, 이 두 방법을 결합한 새로운 분류방법 (DnDclass: Distance and Data-depth based classification)의 효용성을 소개하고자 한다. 모의실험을 통해 세가지 분류방법의 결과를 비교하고 제안된 분류방법이 다양한 경우에 더 효과적일 수 있다는 사실을 확인한다.