• 제목/요약/키워드: 특징 분류

검색결과 4,438건 처리시간 0.031초

특징 래핑을 통한 숫자형 특징과 범주형 특징이 혼합된 데이터의 클래스 분류 성능 향상 기법 (Improving Classification Performance for Data with Numeric and Categorical Attributes Using Feature Wrapping)

  • 이재성;김대원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권12호
    • /
    • pp.1024-1027
    • /
    • 2009
  • 본 논문에서는 혼합형 데이터에 대한 특징 선별 기법의 효율성을 비교하기 위해 특징 필터링과 특징 래핑을 통한 특징 선별 후, 클래스 분류 성능을 측정하였다. 혼합형 데이터는 숫자형 특징과 범주형 특징이 함께 혼합되어 있으므로, 숫자형 특징을 범주형 특징으로 이산화를 하여 단일형 데이터로 변환한 뒤 특징 선별 기법 등을 적용할 수 있다. 본 연구에서는 혼합형 데이터를 전처리하여 단일형 데이터로 변환하고, 널리 활용되는 특징 필터링 기법과 특징 래핑 기법을 통해 클래스 분류 성능을 높일 수 있는 특징 집합을 선별하였다. 선별된 특징 집합을 통한 클래스 분류 성능을 비교한 결과, 특징 필터링에 비해 특징 래핑을 통해 선별한 특징 집합을 활용하여 클래스 분류를 하였을 때 분류 정확도가 높은 것을 확인할 수 있었다.

의미 기반 유전 알고리즘을 사용한 특징 선택 (Semantic-based Genetic Algorithm for Feature Selection)

  • 김정호;인주호;채수환
    • 인터넷정보학회논문지
    • /
    • 제13권4호
    • /
    • pp.1-10
    • /
    • 2012
  • 본 논문은 문서 분류의 전처리 단계인 특징 선택을 위해 의미를 고려한 최적의 특징 선택 방법을 제안한다. 특징 선택은 불필요한 특징을 제거하고 분류에 필요한 특징을 추출하는 작업으로 분류 작업에서 매우 중요한 역할을 한다. 특징 선택 기법으로 특징의 의미를 파악하여 특징을 선택하는 LSA(Latent Semantic Analysis) 기법을 사용하지만 기본 LSA는 분류 작업에 특성화 된 기법이 아니므로 지도적 학습을 통해 분류에 적합하도록 개선된 지도적 LSA를 사용한다. 지도적 LSA를 통해 선택된 특징들로부터 최적화 기법인 유전 알고리즘을 사용하여 더 최적의 특징들을 추출한다. 마지막으로, 추출한 특징들로 분류할 문서를 표현하고 SVM (Support Vector Machine)을 이용한 특정 분류기를 사용하여 분류를 수행하였다. 지도적 LSA를 통해 의미를 고려하고 유전 알고리즘을 통해 최적의 특징 집합을 찾음으로써 높은 분류 성능과 효율성을 보일 것이라 가정하였다. 인터넷 뉴스 기사를 대상으로 분류 실험을 수행한 결과 적은 수의 특징들로 높은 분류 성능을 확인할 수 있었다.

신경망을 이용한 내용 기반 이미지 분류 (A Contents-Based Image Classification Using Neural Network)

  • 이재원;김상균
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2001년도 춘계학술발표논문집
    • /
    • pp.177-180
    • /
    • 2001
  • 본 논문에서는 신경망을 이용한 내용 기반 이미지 분류 방법을 제안한다. 분류 대상이미지는 인터넷상의 다양한 이미지들 중 오브젝트 이미지이대 웹 에이전트를 통하여 획득하고 정규화 과정을 거친다. 획득한 이미지를 분류하기 위한 특징은 웨이블릿 변란 후 추출된 질감 특징이다. 추출된 질감 특징을 이용하여 학습패턴을 생성하고 신경망을 학습한다. 그리고 구성된 신경망 분류기로 이미지를 분류한다. 본 연구에서는 다양한 질감 특징들 중에서 대비(contrast), 에너지(energy), 엔트로피(entropy)를 이용하여 특징을 추출한다. 실험에 사용한 데이터는 30종류에 대하여 각각 10개씩, 300개의 이미지들을 학습 데이터, 테스트 데이터로 사용하여 구성된 분류기의 인식률을 실험하였다.

  • PDF

다양한 지문의 효과적 분류를 위한 적응적 특징추출방법 (An Adaptive Feature Extraction Method for Effective Classification of Various Fingerprints)

  • 민준기;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (B)
    • /
    • pp.262-264
    • /
    • 2006
  • 지문분류는 지문을 전역특징에 따라 미리 정의된 클래스로 분류하는 기술로, 대규모 지문식별시스템의 매칭시간을 감소시키는데 유용하다. 지문은 개인마다 고유하기 때문에 각 지문마다 전역특징이 다양하게 분포하여 기존의 특징추출방법으로는 분류에 한계가 있다. 본 논문에서는 이를 해결하기 위하여 적응적 특징추출방법을 제안하였다. 이는 융선 방향의 변화량을 계산하여 지문의 전역특징을 포함하는 특징영역을 탐색한 뒤, 특징영역의 블록 방향성 정보로부터 특징벡터를 추출한다. NIST4 지문 데이터에 대한 5클래스 분류실험 결과 제안하는 특징추출방법이 90.25%의 분류성능을 보여 기존 방법보다 효과적임을 확인하였다.

  • PDF

웹문서 자동 분류를 위한 하이퍼링크 기반 특징 가중치 부여 기법 (A Hyperlink-based Feature Weighting Technique for Web Document Classification)

  • 이아람;김한준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.417-420
    • /
    • 2012
  • 기계학습을 이용하는 문서 자동분류 시스템은 분류모델의 구성을 위해서 단어를 특징으로 사용한다. 자동분류 시스템의 성능을 높이기 위해 보다 의미있는 특징을 선택하여 분류모델을 구성하기 위한 여러 연구가 진행되고 있다. 특히 인터넷상에서 사용되는 웹문서는 단어 외에도 태그정보, 링크정보를 가지고 있다. 본 논문에서는 이 두 가지 정보를 이용하여 웹문서 자동분류 시스템의 성능을 향상 시키는 방법 제안 한다. 태그 정보와 링크 정보를 이용하여 적절한 특징을 선택하고, 각 특징의 중요도를 계산하여 가중치를 구한다. 계산된 가중치를 각 특징에 부여하여 분류 모델을 구성하고 나이브 베이지안 분류기를 통하여 성능을 평가하였다

Doc2Vec을 이용한 특허 문서 자동 분류 (Automatic Classification of Patent Documents Using Doc2Vec)

  • 송진주;강승식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.239-241
    • /
    • 2019
  • 지식과 정보의 중요성이 강조되는 지식기반사회에서는 지식재산권의 대표적인 유형인 특허의 중요성이 날로 높아지고 있고, 그 수 또한 급증하고 있다. 특허 문서의 효과적 검색과 이용을 위해서는 새롭게 출원되는 특허 문서의 체계적인 분류 작업이 선행되어야 하고, 따라서 방대한 양의 특허 문서를 자동으로 분류해주는 시스템이 필요하다. 본 연구에서는 Doc2Vec 모델을 이용하여 국내 특허 문서의 특징(feature)을 추출하고, 추출된 특징을 바탕으로 한 특허 문서의 자동 분류 모형을 제안한다. 먼저 국내에 등록된 31,495 건의 특허 문서의 IPC(International Patent Classification)와 요약정보를 바탕으로 Doc2Vec 모델을 구축하였다. 구축된 Doc2Vec 모델을 통하여 훈련데이터의 특징을 추출한 후, 이 특징 벡터를 이용하여 분류기를 학습하였다. 마지막으로 Doc2Vec 모델을 이용하여 실험데이터의 특징 벡터를 추출하고 분류기의 성능을 실험한 결과, 43%의 분류 정확도를 얻었다. 이를 통해, 특허 문서 분류 문제에 Doc2Vec 모델의 사용 가능성을 확인할 수 있었다.

닫힌 빈발 패턴을 기반으로 한 특징 선택과 분류방법 비교 (A Comparative Study on Feature Selection and Classification Methods Using Closed Frequent Patterns Mining)

  • 장뢰;김성호;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.148-151
    • /
    • 2010
  • 분류 기법은 데이터 마이닝 기술 중 가장 잘 알려진 방법으로서, Decision tree, SVM(Support Vector Machine), ANN(Artificial Neural Network) 등 기법을 포함한다. 분류 기법은 이미 알려진 상호 배반적인 몇 개 그룹에 속하는 다변량 관측치로부터 각각의 그룹이 어떤 특징을 가지고 있는지 분류 모델을 만들고, 소속 그룹이 알려지지 않은 새로운 관측치가 어떤 그룹에 분류될 것인가를 결정하는 분석 방법이다. 분류기법을 수행할 때에 기본적으로 특징 공간이 잘 표현되어 있다고 가정한다. 그러나 실제 응용에서는 단일 특징으로 구성된 특징공간이 분명하지 않기 때문에 분류를 잘 수행하지 못하는 문제점이 있다. 본 논문에서는 이 문제에 대한 해결방안으로써 많은 정보를 포함하면서 빈발패턴에 대한 정보의 순실이 없는 닫힌 빈발패턴 기반 분류에 대한 연구를 진행하였다. 본 실험에서는 ${\chi}^2$(Chi-square)과 정보이득(Information Gain) 속성 선택 척도를 사용하여 의미있는 특징 선택을 수행하였다. 그 결과, 이 연구에서 제시한 척도를 사용하여 특징 선택을 수행한 경우, C4.5, SVM 과 같은 분류기법보다 더 향상된 분류 성능을 보였다.

지지벡터기계와 적응적 특징을 이용한 강인한 지문분류 (A Robust Fingerprint Classification using SVMs with Adaptive Features)

  • 민준기;조성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권1호
    • /
    • pp.41-49
    • /
    • 2008
  • 지문분류는 지문을 전역특징에 따라 미리 정의된 클래스로 분류하여 대규모 지문식별시스템의 매칭시간을 감소시키는데 유용하다. 그런데, 지문의 고유성으로 인해 전역특징이 다양하게 분포함에도 불구하고, 기존의 지문분류 방법들은 모든 지문에 대해 고정된 영역으로부터 비적응적으로 전역특징을 추출하였다. 본 논문에서는 다양한 지문을 효과적으로 분류하기 위해 각 지문에 적응적으로 특징을 추출하는 방법을 제안한다. 이는 각 지문의 융선 방향의 변화량을 계산하여 적응적으로 특징영역을 탐색한 후, 특징영역내의 융선 방향 값을 특징벡터로 추출하고 지지벡터기계(Support Vector Machines)를 이용해 분류한다. 본 논문에서는 NIST4 데이타베이스를 이용하여 실험을 수행하였다. 그 결과 5클래스 분류에 대해 90.3%, 4클래스 분류에 대해 93.7%의 분류성능을 얻었으며, 비적응적으로 추출한 특징벡터와의 비교실험을 통해 제안하는 적응적 특징추출방법의 유용성을 입증하였다.

음성특징의 다양한 조합과 문장 정보를 이용한 감정인식 (Emotion Recognition using Various Combinations of Audio Features and Textual Information)

  • 서승현;이보원
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2019년도 추계학술대회
    • /
    • pp.137-139
    • /
    • 2019
  • 본 논문은 다양한 음성 특징과 텍스트를 이용한 멀티 모드 순환신경망 네트워크를 사용하여 음성을 통한 범주형(categorical) 분류 방법과 Arousal-Valence(AV) 도메인에서의 분류방법을 통해 감정인식 결과를 제시한다. 본 연구에서는 음성 특징으로는 MFCC, Energy, Velocity, Acceleration, Prosody 및 Mel Spectrogram 등의 다양한 특징들의 조합을 이용하였고 이에 해당하는 텍스트 정보를 순환신경망 기반 네트워크를 통해 융합하여 범주형 분류 방법과 과 AV 도메인에서의 분류 방법을 이용해 감정을 이산적으로 분류하였다. 실험 결과, 음성 특징의 조합으로 MFCC Energy, Velocity, Acceleration 각 13 차원과 35 차원의 Prosody 의 조합을 사용하였을 때 범주형 분류 방법에서는 75%로 다른 특징 조합들 보다 높은 결과를 보였고 AV 도메인 에서도 같은 음성 특징의 조합이 Arousal 55.3%, Valence 53.1%로 각각 가장 높은 결과를 보였다.

  • PDF

인쇄체 및 필기체 숫자의 효율적인 구분 인식 알고리즘 (An Efficient Classifying Recognition Algorithm of Printed and handwritten numerals)

  • 홍연찬
    • 한국지능시스템학회논문지
    • /
    • 제9권5호
    • /
    • pp.517-525
    • /
    • 1999
  • 본 논문에서는 인쇄체가 대부분을 차지하는 우편물의 우편번호 분류기에 적용하기 위해 인쇄체 및 필기체를 구분하여 인쇄체는 단일 특징과 단일 신경망으로 저차 연산함으로써 빠르게 분류하고 피기체는 복합특징과 클러스터 신경망을 통한 고차연산으로 정확한 분류를 할 수 있는 속도 면에서 효율적인 신경망 분류기를 제안한다. 제안된 분류기는 인쇄체와 필기체를 구분하여 인쇄체를 분류하는 인쇄체 분류기와 여기서 기각된 필기체 숫자를 인식하는 필기체 분류기로 구성된다. 인쇄체 분류기는 망 특징 벡터를 입력의 단일 신경망 인식기로 빠르게 인쇄체 및 정확히 필기된 필기체를 분류하며그 외의 입력패턴에 대해서는 기각한다. 그리고 필기체 분류기는 4방향 특징 및 앞단에서 추출된 망 특징의 복합특징 벡터 입력으로 [11]에서 제안된 클러스터 신경망을 이용하여 정확한 분류를 할수 있도록 구성하였다. 제안된 방법의 성능을 객관적으로 검증하기 위하여 숫자 인식 데이터 베이스로 많이 사용되는 NIST의 필기체 숫자 데이터 베이스 및 자체적으로 구성한 인쇄체 숫자 데이터에 대해 실험하였다. 임의의 NIST 필기체 숫자 데이터 500자와 인쇄체 숫자 데이터 500자에 대해 전처리와 특징추출을 제외한 분류시간측정 결과 제안된 방법을 필기체 분류기에 사용할 경우 인쇄체와 필기체의 비율에 따라 49.1%~65.5% 향상된 속도로 분류함으로써 제안된 방법을 필기체 분류기에 적용함으로써 속도 면에서 효율적임을 나타냈다.

  • PDF