• 제목/요약/키워드: 탐색 분류기

검색결과 110건 처리시간 0.028초

분류기 앙상블 선택을 위한 혼합 유전 알고리즘 (Hybrid Genetic Algorithm for Classifier Ensemble Selection)

  • 김영원;오일석
    • 정보처리학회논문지B
    • /
    • 제14B권5호
    • /
    • pp.369-376
    • /
    • 2007
  • 이 논문은 최적의 분류기 앙상블 선택을 위한 혼합 유전 알고리즘을 제안한다. 혼합 유전 알고리즘은 단순 유전알고리즘의 미세 조정력을 보완하기 위해 지역 탐색 연산을 추가한 것이다. 혼합 유전 알고리즘의 우수성을 입증하기 위해 단순 유전 알고리즘과 혼합 유전 알고리즘 각각을 비교 실험하였다. 또한 혼합 유전 알고리즘의 지역 탐색 연산으로 두 가지 방법(SSO: 순차 탐색 연산, CSO: 조합 탐색 연산)을 제안한다. 비교 실험 결과는 혼합 유전 알고리즘이 단순 유전 알고리즘에 비해 해를 탐색하는 능력이 우수하였다. 또한 분류기들의 상관관계를 고려한 CSO 방법이 SSO 방법보다 더 우수하였다.

효율적인 의료데이터마이닝을 위한 특징축소와 레이지안망 학습 (Features Reduction and Baysian Networks Learning for Efficient Medical Data Mining)

  • 정용규;김인철
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2002년도 추계정기학술대회
    • /
    • pp.258-265
    • /
    • 2002
  • 베이지안망은 기존의 방법에 비해 불확실한 상황에서도 지식을 표현하고 결론을 추론하는데 유용한 것으로 알려져 있다. 본 논문에서는 대표적인 베이지안망 분류기들을 제시하고, 동일 임상데이터에 대해 서로 다른 유형별 베이지안망 분류기들을 학습하였다. 베이지안망을 적용할 때 변수의 수가 많아짐에 따라 베이지안망의 구조를 학습하는데 탐색공간이 넓어져 어려움이 있다. 본 연구에서는 이런 탐색공간을 효율적으로 줄이기 위하여 클래스 노드의 Markov blanket에 속한 특징들로 집합을 축소하는 것을 제안하고, 실험을 통해 이 특징 축소방법이 베이지안망 분류기들의 성능을 높여 줄 수 있는지 알아보았다. 분류기들의 성능에서는 축소한 특징집합으로부터 얻은 베이지안망으로 확장한 나이브 베이지안망 분류기가 가장 우수한 정확도를 가짐을 실험을 통해 알 수 있었다.

  • PDF

한국어 문서 분류를 위한 신경망 구조 탐색 (Neural Architecture Search for Korean Text Classification)

  • 지병규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.125-130
    • /
    • 2023
  • 최근 심층 신경망을 활용한 한국어 자연어 처리에 대한 관심이 높아지고 있지만, 한국어 자연어 처리에 적합한 신경망 구조 탐색에 대한 연구는 이뤄지지 않았다. 본 논문에서는 문서 분류 정확도를 보상으로 하는 강화 학습 알고리즘을 이용하여 장단기 기억 신경망으로 한국어 문서 분류에 적합한 심층 신경망 구조를 탐색하였으며, 탐색을 위해 사전 학습한 한국어 임베딩 성능과 탐색한 신경망 구조를 분석하였다. 탐색을 통해 찾아낸 신경망 구조는 기존 한국어 자연어 처리 모델에 대해 4 가지 한국어 문서 분류 과제로 비교하였을 때 일반적으로 성능이 우수하고 모델의 크기가 작아 효율적이었다.

  • PDF

패턴 인식을 위한 유전 알고리즘의 개관 (Review on Genetic Algorithms for Pattern Recognition)

  • 오일석
    • 한국콘텐츠학회논문지
    • /
    • 제7권1호
    • /
    • pp.58-64
    • /
    • 2007
  • 패턴 인식 분야에는 지수적 탐색 공간을 가진 최적화 문제가 많이 있다. 이를 해결하기 위해 부 최적해를 구하는 순차 탐색 알고리즘이 사용되어 왔고, 이들 알고리즘은 국부 최적점에 빠지는 문제점을 안고 있다. 최근 이를 극복하기 위해 유전 알고리즘을 사용하는 사례가 많아졌다. 이 논문은 특징 선택, 분류기 앙상블 선택, 신경망 가지치기, 군집화 문제의 지수적 탐색 공간 특성을 설명하고 이를 해결하기 위한 유전 알고리즘을 살펴본다. 또한 향후 연구로서 가치가 높은 주제들에 대해 소개한다.

DNA 마이크로어레이 데이터의 분류를 위한 종분화 진화 기반의 최적 다중 분류기 (Multiple Optimal Classifiers based on Speciated Evolution for Classifying DNA Microarray Data)

  • 박찬호;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.724-726
    • /
    • 2004
  • DNA 마이크로어레이 기술의 발전은 암의 조기 발견 및 예후 예측을 가능하게 해주었으며, 이와 관련된 많은 연구가 진행 중이다. 마이크로어레이 데이터의 분류에서 관련 유전자들의 선택은 필수적이며, 유전자 선택방법은 분류기와 짝을 이루어 특징-분류기를 형성한다. 이제까지 여러 가지 특징-분류기를 사용하여 마이크로어레이 데이터를 분류해 왔지만, 알고리즘의 한계와 데이터의 결함 등으로 인하여 최적의 특징-분류기를 찾기 어려웠다. 따라서 앙상블 분류기를 이용하여 높은 분류성능을 얻는 방법이 시도되어왔으며. 최적의 것을 찾기 위하여 유전자 알고리즘이 사용되기도 했다. 본 논문에서는 이를 발전시켜 다양한 최적의 앙상블을 생성하기 위해 종분화 방법을 사용한다. 림프종 암 데이터에 대하여 leave-one-out cross-validation을 적용한 결과, 제안한 방법으로 다양한 최적해를 탐색하는 것을 확인할 수 있었다.

  • PDF

Exploring the Feature Selection Method for Effective Opinion Mining: Emphasis on Particle Swarm Optimization Algorithms

  • Eo, Kyun Sun;Lee, Kun Chang
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권11호
    • /
    • pp.41-50
    • /
    • 2020
  • 감성분석 연구에서는 문장에 내포된 감성을 결정짓는 단어를 찾는 것으로부터 시작된다. 경영자는 소비자가 주로 사용하는 단어를 분석함으로써 시장의 반응을 이해할 수 있다. 본 연구에서는 감성분류의 성능에 영향을 미치는 단어를 찾기 위하여 입자군집최적화 탐색방법과 다목적진화 알고리즘이 적용된 속성선택 방법을 제안한다. 속성선택 방법은 기존 머신러닝 분류기를 벤치마킹함으로써 성능이 비교된다. 벤치마킹된 분류기는 의사결정나무, 나이브 베이지안 네트워크, 서포터 벡터 머신, 랜덤포레스트, 배깅, 랜덤 서브스페이스, 로테이션 포레스트이다. 연구결과에 따르면, 입자군집 최적화 알고리즘이 적용된 속성선택방법으로 선택된 속성을 사용한 경우에 속성의 수를 상당히 줄일 수 있었고, 분류기의 성능을 유지시킬 수 있었다. 특히, 정확도 결과에서는 입자군집 최적화 탐색방법으로 선택된 속성을 사용한 경우의 서포터 벡터 머신의 성능이 가장 높게 나타났다. AUC 결과에서는 랜덤 서브스페이스가 가장 높게 나타났다. 본 연구의 결과는 해당 탐색방법과 분류기를 적용함으로써 오피니언 마이닝 모델의 성능을 효율적으로 유지 및 개선시키도록 도움을 준다.

명제화된 어트리뷰트 택소노미를 이용하는 나이브 베이스 학습 알고리즘 (Naive Bayes Learner for Propositionalized Attribute Taxonomy)

  • 강대기
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2008년도 추계종합학술대회 B
    • /
    • pp.406-409
    • /
    • 2008
  • 본 논문에서는 명제화된 어트리뷰트 택소노미를 이용하여 간결하고 강건한 분류기를 생성하는 문제를 고려한다. 이 문제를 해결하기 위해 명제화된 어트리뷰트 택소노미(Propositionalized Attribute Taxonomy)를 이용하는 나이브 베이스 학습 알고리즘(Naive Bayes Learner)인 PAT-NBL을 소개한다. PAT-NBL은 명제화 된 어트리뷰트들의 택소노미를 선험 지식으로 이용하여 간결하고 정확한 분류기를 귀납적으로 학습하는 알고리즘이다. PAT-NBL은 주어진 택소노미에서 지역적으로 최적의 컷(cut)을 찾아내기 위해 하향식 탐색과 상향식 탐색을 사용한다. 찾아낸 최적의 컷은 명제화 된 어트리뷰트 택소노미와 데이터로부터 그에 상응하는 인스턴스 공간(instance space)을 구성할 수 있게 해준다. University of California-Irvine (UCI) 저장소의 기계학습 벤치마크 데이터에 대한 실험 결과를 보면, 제안된 알고리즘이 표준적인 나이브 베이스 학습 알고리즘에 의해 만들어진 분류기들과 비교해 볼 때, 가끔은 보다 간결하고 더 정확한 분류기를 생성해 낸다는 사실을 알 수 있었다.

  • PDF

의료데이터마이닝을 위한 특징축소와 베이지안망 학습 (Features Reduction and Baysian Networks Learning for Medical Datamining)

  • 정용규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.595-597
    • /
    • 2004
  • 본 연구에서는 베이지안망을 기초로 불임환자의 임상 데이터에 대한 다양한 실험을 전개한다. 실험을 통해 임신여부에 영향을 주는 요인들간의 상호 의존성을 분석하고. 또 제약조건이 다른 다양한 베이지안망의 대표적 유형으로 나이브 베이지안망(NBN), 베이지안망으로 확장한 나이브 베이지안망(BAN), 일반 베이지안앙(GBN) 분류기들의 분류성능을 서로 비교 분석한다. 베이지안망을 적응할 때 변수의 수가 많아짐에 따라 베이지안망의 구조를 학습하는데 탐색공간이 넓어져 시간의 요구량이 급격히 많아진다. 따라서 이런 탐색공간을 효율적으로 줄이기 위하여 클래스 노드의 Markov blanket에 속한 특징들로 집합을 축소하는 것을 제안하고, 실험을 통해 이 특징 축소 방법이 베이지안망 분류기들의 성능을 높여 줄 수 있는지 알아본다.

  • PDF

명제화된 어트리뷰트 택소노미를 이용하는 나이브 베이스 학습 알고리즘 (Propositionalized Attribute Taxonomy Guided Naive Bayes Learning Algorithm)

  • 강대기;차경환
    • 한국정보통신학회논문지
    • /
    • 제12권12호
    • /
    • pp.2357-2364
    • /
    • 2008
  • 본 논문에서는 명제화된 어트리뷰트 택소노미를 이용하여 간결하고 강건한 분류기를 생성하는 문제를 고려한다. 이 문제를 해결하기 위해 명제화된 어트리뷰트 택소노미(Propositionalized Attribute Taxonomy)를 이용하는 나이브 베이스 학습 알고리즘(Naive Bayes Learner)인 PAT-NBL을 소개한다. PAT-NBL은 명제화된 어트리뷰트들의 택소노미를 선험 지식으로 이용하여 간결하고 정확한 분류기를 귀납적으로 학습하는 알고리즘이다. PAT-NBL은 주어진 택소노미에서 지역적으로 최적의 컷(cut)을 찾아내기 위해 하향식 탐색과 상향식 탐색을 사용한다. 찾아낸 최적의 컷은 명제화된 어트리뷰트 택소노미와 데이터로부터 그에 상응하는 인스턴스 공간(instance space)을 구성 할 수 있게 해준다. University of California-Irvine (UCI) 저장소의 기계학습 벤치마크 데이터에 대한 실험 결과를 보면, 제안된 알고리즘이 표준적인 나이브 베이스 학습 알고리즘에 의해 만들어진 분류기들과 비교해 볼 때, 가끔은 보다 간결하고 더 정확한 분류기를 생성해 낸다는 사실을 알 수 있었다.

유전알고리즘을 이용한 유전자발현 데이타상의 특징-분류기쌍 최적 앙상블 탐색 (Searching for Optimal Ensemble of Feature-classifier Pairs in Gene Expression Profile using Genetic Algorithm)

  • 박찬호;조성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권4호
    • /
    • pp.525-536
    • /
    • 2004
  • 유전발현 데이타는 생명체의 특정 조직에서 채취한 샘플을 microarray상에서 측정한 것으로, 유전자들의 발현 정도가 수치로 나타난 데이타이다. 일반적으로 정상조직과 이상조직에서 관련 유전자들의 발현정도는 차이를 보이기 때문에, 유전발현 데이타를 통하여 질병을 분류할 수 있다. 이러한 분류에 모든 유전자들이 관여하지는 않으므로 관련 유전자를 선별하는 작업인 특징선택이 필요하며, 선택된 유전자들을 적절히 분류하는 방법이 필요하다. 본 논문에서는 상관계수, 유사도, 정보이론 등에 기반을 둔 7가지 특징선택 방법과 대표적인 6가지 분류기에 대하여 특징-분류기 쌍의 최적 앙상블을 탐색하기 위한 유전자 알고리즘 기반 방법을 제안한다. 두 가지 암 관련 유전자 발현 데이타에 대하여 leave-one-out cross validation을 포함한 실험을 해본 결과, 림프종 데이타와 대장암 데이타 모두 단일 특징-분류기 쌍보다 훨씬 우수한 성능을 보이는 앙상블들을 발견할 수 있었다.