• 제목/요약/키워드: Classification 분석

검색결과 6,737건 처리시간 0.032초

엔트로피 분포를 이용한 규칙기반 분류분석 연구 (Rule-Based Classification Analysis Using Entropy Distribution)

  • 이정진;박해기
    • Communications for Statistical Applications and Methods
    • /
    • 제17권4호
    • /
    • pp.527-540
    • /
    • 2010
  • 규칙기반 분류분석(rule-based classification analysis)은 직관적인 이해가 쉽고 알고리즘이 복잡하지 않아 최근 대용량 데이터마이닝에 많이 이용되는 기법이다. 하지만 현재의 규칙기반 분석은 여러 개의 규칙들을 찾은후 이 규칙들을 단순히 다수결이나 또는 중요도의 가중 합으로서 새로운 데이터를 분류한다. 본 연구에서는 다항분포를 이용한 이항데이터의 분류분석 기법을 규칙 조합방법에 응용하고자한다. 다향분포의 추정을 위해서는 변형된 반복 비율 적합(iterative proportional fitting; IPF) 알고리즘을 이용하여 최대 엔트로피 분포(entropy distribution)를 찾는다. 시뮬레이션 실험 결과 이 방법은 두 집단의 데이터가 서로 유사한 경우 어느 정도 의미 있는 분류 결과를 보여주였다.

벌점 부분최소자승법을 이용한 분류방법 (A new classification method using penalized partial least squares)

  • 김윤대;전치혁;이혜선
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권5호
    • /
    • pp.931-940
    • /
    • 2011
  • 분류분석은 학습표본으로부터 분류규칙을 도출한 후 새로운 표본에 적용하여 특정 범주로 분류하는 방법이다. 데이터의 복잡성에 따라 다양한 분류분석 방법이 개발되어 왔지만, 데이터 차원이 높고 변수간 상관성이 높은 경우 정확하게 분류하는 것은 쉽지 않다. 본 연구에서는 데이터차원이 상대적으로 높고 변수간 상관성이 높을 때 강건한 분류방법을 제안하고자 한다. 부분최소자승법은 연속형데이터에 사용되는 기법으로서 고차원이면서 독립변수간 상관성이 높을 때 예측력이 높은 통계기법으로 알려져 있는 다변량 분석기법이다. 벌점 부분최소자승법을 이용한 분류방법을 실제데이터와 시뮬레이션을 적용하여 성능을 비교하고자 한다.

주성분 분석과 동적 분류체계를 사용한 자동 이메일 분류 (Automatic e-mail classification using Dynamic Category Hierarchy and Principal Component Analysis)

  • 박선;김철원;이양원
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 춘계학술대회
    • /
    • pp.576-579
    • /
    • 2009
  • 인터넷 사용의 보편화로 이메일의 양이 급속히 증가하고 있다. 따라서 수신 메일을 효율적이면서 정확하게 분류할 필요성이 점차 증가하고 있다. 현재의 이메일 분류는 베이지안, 규칙 기반 등을 이용하여 스팸 메일을 필터링하기 위한 이원 분류가 주를 이루고 있다. 클러스터링을 이용한 다원 분류 방법은 분류의 정확도가 떨어지는 단점이 있다. 본 논문에서는 주성분 분석(PCA, Principal Component Analysis)을 기반으로 한 자동 카테고리 생성 방법과 동적 분류 체계 방법을 결합한 새로운 자동 이메일 분류 방법을 제안한다. 이 방법은 수신되는 이메일을 자동으로 분류하여 대량의 메일을 효율적으로 관리할 수 있으며, 메일을 동적으로 재분류 하여 분류 정확률을 높일 수 있다.

  • PDF

일반국도 도로특성분류를 위한 통계적 군집분석과 Kohonen Self-Organizing Maps의 비교연구 (A Comparative Study on Statistical Clustering Methods and Kohonen Self-Organizing Maps for Highway Characteristic Classification of National Highway)

  • 조준한;김성호
    • 대한토목학회논문집
    • /
    • 제29권3D호
    • /
    • pp.347-356
    • /
    • 2009
  • 본 연구는 기존의 도로기능분류 정의와 방법론을 벗어나 교통특성에 따른 도로분류 방법론인 도로특성분류를 기초로 분석을 수행하였다. 도로특성분류에 대한 일련의 과정 중에서 다양한 교통특성을 반영하는 설명변수를 기초로 요인점수를 산출하고, 동질한 도로구간을 그룹핑하는 군집화 분석과정과 적정 군집수 도출에 따른 군집결과비교에 본 연구는 초점을 맞추었다. 도로분류를 위해 병합적 계층 군집분석인 Ward법, 비계층적 군집분석인 K-means법, 자율신경 회로망을 이용한 K-SOM을 사용하여 비교분석하였다. 각 군집기법에 대한 결과를 토대로 비교분석한 결과, 군집 수 5 이하에서는 K-means법, 군집 수 14 이상에서는 Kohonen selforganizing maps가 가장 우수한 것으로 나타났으며, 군집수 5~9사이에서는 Ward법과 Kmeans법의 군집 성능이 불규칙한 패턴을 보임에 따라 세밀한 결과분석을 통해 우수성을 결정하는 것이 바람직할 것으로 분석되었다. 본 연구결과는 다양한 교통특성을 고려한 도로구간의 군집 속성을 분석하고 예측하는 분류화 작업에 중요한 기초적인 자료로 사용될 것으로 기대된다.

KDC 제5판 건축공학분야 분류체계 개선 방안 (The Methods for the Improvement of the KDC 5th Edition of Architecture Engineering Classification System)

  • 김연례
    • 한국도서관정보학회지
    • /
    • 제40권4호
    • /
    • pp.401-425
    • /
    • 2009
  • 이 연구는 건축공학 분야의 학문체계와 KDC, DDC, LCC의 분류체계 및 한국연구재단의 연구분야분류표의 건축공학 분야의 분류체계에 대해 비교 분석한 후, 이를 토대로 KDC 건축공학 분야의 분류체계를 개선할 수 있는 방안을 제시하고자 시도하였다. 분석결과 KDC 제5판의 건축공학 분야는 학문발전의 추세를 반영하는 분류항목의 추가, 건축구조공학 분야의 등위류 분류용어의 적절한 전개, 세부 주제의 추가 전개, 적절한 분류용어의 선택, 분류기호, 영문표기의 오류, 분류항목의 상관색인 누락 등에 대한 개선이 필요한 것으로 나타났다. 이 연구에서는 이러한 문제들을 해결하기 위한 개선 방안을 제시하였다.

  • PDF

탐색적 요인분석을 이용한 도로특성분류에 관한 연구 (A Study on Road Characteristic Classification using Exploratory Factor Analysis)

  • 조준한;김성호;노정현
    • 대한교통학회지
    • /
    • 제26권3호
    • /
    • pp.53-66
    • /
    • 2008
  • 본 연구는 기존의 도로기능 분류체계를 보완하면서 유형화된 도로구간들의 교통특성을 규명하기 위해 새로운 관점에서 도로특성분류 개념을 정립하였다. 도로특성분류는 교통계획, 교통운영관리 등의 교통전반으로 설계 및 정책을 수립하고 지침을 마련하는데 중요한 판단자료로 이용될 것으로 기대된다. 또한, 도로특성분류를 위해 일반국도 상시지점 조사자료를 토대로 12개의 설명변수를 산출하였으며, 이 설명변수들간의 상호상관을 통한 잠재구조 및 다중공선성 검토, 요인점수를 추출하는 탐색적 요인분석을 수행하였다. 연구 방향은 탐색적 요인분석의 각 실행단계별 접하게 되는 의사결정 문제를 세밀하게 검토하였으며, 각 논점별로 올바른 평가기준 방법을 제시하여 최종적인 종합결론을 도출하였다. 적정 설명변수와 요인 수를 결정하기 위해 10개의 시나리오를 비교분석한 결과, 처음 제시한 12개의 설명변수를 모두 포함한 경우가 가장 우수한 것으로 분석되었으며, 4개의 요인이 가장 적정한 것으로 나타났다. 본 연구결과는 추후에 다양한 분석방법(군집분석, 회귀분석, 판별분석 등)에 있어서 객관적인 입력자료로 사용됨에 따라 보다 정확한 연구결과가 도출될 것으로 기대된다.

사상체질 분류모형 개발 및 진단시스템의 구현에 관한 연구 (Study on Development of Classification Model and Implementation for Diagnosis System of Sasang Constitution)

  • 범수균;전미란;오암석
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2008년도 지능정보 및 응용 학술대회
    • /
    • pp.155-159
    • /
    • 2008
  • 본 논문에서는 사상체질분류검사 설문지를 이용하여 사상체질을 진단할 때 진단의 정확도를 향상시키기 위한 사상체질 분류모형을 개발하기 위하여 데이터마이닝의 주요 분류기법인 판별분석(discriminant analysis), 의사결정나무(decision tree analysis), 신경망분석(neural network analysis), 로지스틱 회귀분석(logistic regression analysis), 군집분석(clustering analysis) 등 다양한 분류분석모형을 이용한다. 본 연구에서는 분류의 비교적 정확도가 우수하며, 특히 분석과정을 쉽게 이해하고 설명할 수 있다는 점과 구현이 용이하다는 장점을 가지고 있는 판별분석모형과 의사결정나무분석모형을 기반으로 사상체질 분류모형을 개발하고, 두 분류모형을 적용한 사상체질 진단시스템을 구현하였다.

  • PDF

고정 IP-port 기반 응용 레벨 인터넷 트래픽 분석에 관한 연구 (Fixed IP-port based Application-Level Internet Traffic Classification)

  • 윤성호;박준상;박진완;이상우;김명섭
    • 정보처리학회논문지C
    • /
    • 제17C권2호
    • /
    • pp.205-214
    • /
    • 2010
  • 인터넷의 대중화로 인해 네트워크 트래픽은 나날이 증가되고 있다. 따라서 네트워크 자원의 효과적인 사용을 위한 응용 트래픽 분석의 중요성은 나날이 강조되고 있다. 본 논문에서는 고정 IP-port기반의 응용 트래픽 분석 방법론을 제안한다. 고정 IP-port는 오직 한 응용에서 고정적으로 사용하는 {IP address, port number, transport protocol}의 쌍으로써 각각의 응용을 분석해서 자동적으로 수집할 수 있다. 본 논문에서는 고정 IP-port를 사용하여 기존 연구에서 제안된 방법들 보다 매우 가볍고, 빠르며 정확한 실시간 트래픽 분석 시스템을 설계하였다. 또한, 기존의 연구에서 제안된 통일성 없는 검증 방법을 보완하여 객관적 검증 시스템을 설계하고 분석결과를 정확하게 검증하였다. 본 논문은 고정 IP-port를 추출하는 매우 효과적인 방법과 시스템 구조, 그리고 분석 결과의 객관적 검증 시스템을 제안한다. 그리고 실험과 검증 시스템을 통하여 고정 IP-port 기반 응용 레벨 인터넷 트래픽 분석 방법론의 타당성을 증명한다.

주제어 기반 분류에 관한 연구 - 미국 공공도서관의 사례를 중심으로 - (Analysis of Word Based Classification of U.S. Public Libraries and its Implications)

  • 백지원
    • 한국문헌정보학회지
    • /
    • 제44권4호
    • /
    • pp.179-201
    • /
    • 2010
  • 본 연구는 이용자 편의를 목적으로 기존의 DDC 분류를 대체하거나 보완하는 주제어 기반 분류를 적용하고 있는 미국 공공도서관의 사례를 분석하여 그 효과와 문제점을 논의하고, 이러한 시도에 대한 향후 국내에서의 논의에 필요한 시사점을 제시하는데 목적이 있다. 이를 위하여 주제어 기반 분류를 사용하는 대표적인 미국 공공도서관 사례 11개를 선정하여 새로운 분류법을 적용하게 된 배경과 과정을 구체적으로 분석하고, 현재 사용되고 있는 주제어기반 분류의 유형을 구분하여 그 실례를 시행 시기, 시행 이유, 장서 규모, 적용 범위, 적용 과정 등으로 나누어 분석하였다. 이러한 분석의 결과, 주제어 기반 분류는 도서관 이용과 운영면에서 긍정적인 효과를 보이고 있었으나 동시에 여러 가지 한계를 가지고 있다는 결론을 얻게 되었다. 이러한 분석을 바탕으로 향후 국내에서의 논의에 필요한 시사점을 도서관계의 수용성, 국내 여건에 대한 고려, 적절한 유형 선택, 사서의 전문직에 미치는 영향, 주제명표 개발의 필요성, 그리고 이용자 지원의 필요성 등으로 나누어 제안하였다.

공공도서관 도서 분류를 위한 머신러닝 적용 가능성 연구 - 사회과학과 예술분야를 중심으로 - (A Study on Applicability of Machine Learning for Book Classification of Public Libraries: Focusing on Social Science and Arts)

  • 곽철완
    • 한국비블리아학회지
    • /
    • 제32권1호
    • /
    • pp.133-150
    • /
    • 2021
  • 이 연구의 목적은 공공도서관의 도서 분류를 위해 표제를 대상으로 머신러닝 기법의 적용 가능성을 조사하는데 있다. 데이터 분석은 아나콘다 플랫폼의 쥬피터 노트북을 통하여 파이썬의 싸이킷런 라이브러리를 이용하였다. 한글 형태소 분석을 위해 KoNLPy 분석기와 Okt 클래스를 사용하였다. 분석 대상은 공공도서관의 KORMARC 레코드에서 추출된 2,000건의 표제 필드와 KDC 분류기호(300대와 600대)이었다. 6가지 머신러닝 모델을 이용하여 데이터를 분석한 결과, 도서 분류에 머신러닝 적용 가능성이 있다고 판단되었다. 사용된 모델 중 표제 분류의 정확도는 신경망 모델이 가장 높았다. 표제 분류의 정확도 향상을 위해 도서 표제에 대한 조사와 표제의 토큰화 및 불용어에 대한 연구 필요성을 제안하였다.