• 제목/요약/키워드: 복합분류기

검색결과 185건 처리시간 0.028초

복합 분류기를 이용한 웹 문서 범주화에 관한 실험적 연구 (An Experimental Study on Categorization of Web Documents Using an Ensemble Classifier)

  • 이혜원;정영미
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2003년도 제10회 학술대회 논문집
    • /
    • pp.73-82
    • /
    • 2003
  • 본 연구에서는 웹 문서를 분류하기 위해 문서로부터 다양한 자질을 추출하고, 두 가지의 분류기를 통해 여러 개의 분류 예측치를 구한 다음, 그것들을 하나의 결과물로 통합하는 복합분류기를 사용하였다. 먼저 다양한 자질 집합에 대해 일반적으로 많이 사용되는 kNN(k nearest neighbor) 분류기와 나이브 베이즈(Naive Bayes) 분류기를 사용한 범주화 실험을 수행하고, 실험을 통해 나온 범주 예측치를 통합하는 복합 분류기들의 성능을 비교하였다. 또한 단일 분류기들을 통해 나온 모든 범주 예측치를 통합하는 과정을 수행하여, 단일 분류기만을 사용할 경우와 복합 분류기를 사용할 경우를 비교해 더 좋은 성능을 나타내는 분류기를 밝히고자 한다.

  • PDF

Genetic Algorithm과 다중부스팅 Classifier를 이용한 암진단 시스템 (Cancer Diagnosis System using Genetic Algorithm and Multi-boosting Classifier)

  • 온승엽;지승도
    • 한국시뮬레이션학회논문지
    • /
    • 제20권2호
    • /
    • pp.77-85
    • /
    • 2011
  • 생물 및 의학계에서는 생물정보학(bioinformatics)의 데이터 중 혈청 단백질(proteome)에서 추출한 데이터가 질병의 진단에 관련된 정보를 가지고 있고, 이 데이터를 분류 분석함으로 질병을 조기에 진단 할 수 있다고 믿고 있다. 본 논문에서는 혈청 단백질(2-D PAGE: Two-dimensional polyacrylamide gel electrophoresis)로부터 암과 정상을 판별하는 새로운 복합분류기를 제안한다. 새로운 복합 분류기에서는 support vector machine(SVM)와 다층 퍼셉트론(multi-layer perceptron: MLP)와 k-최근 접 이웃(k-nearest neighbor: k-NN)분류기를 앙상블(ensemble) 방법으로 통합하는 동시에 다중 부스팅(boosting) 방법으로 각 분류기를 확장하여 부분류기(subclassifier)의 배열(array)으로서 복합분류기를 구성하였다. 각 부분류기에서는 최적 특성 집합 (feature set)을 탐색하기 위하여 유전 알고리즘(genetic algorithm: GA)를 적용하였다. 복합분류기의 성능을 측정하기 위하여 암연구에서 얻어진 임상 데이터를 복합분류기에 적용하였고 결과로서 단일 분류기 보다 높은 분류 정확도와 안정성을 보여 주었다.

나이브 베이즈 분류기를 이용한 의미제약이 강화된 한국어 복합명사 의미 분석 (A Semantic Analysis of Korean Compound Nouns with Enforced Semantic Constraints using a Na${\ddot{i}}$ve Bayes Classifier)

  • 이용훈;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.102-106
    • /
    • 2011
  • 본 논문에서는 사전 원어정보를 이용한 기존 방법에 나이브 베이즈 분류기를 추가로 이용하는 의미제약 기술에 대하여 소개한다. 의미제약은 의미 분석의 전처리 단계로서 부분적으로 중의성을 해소하여 입력된 복합명사의 분석 정확도 뿐만 아니라 전체적인 분석시간의 단축에도 큰 도움을 준다. 나이브 베이즈 분류기를 이용하는 방법은 사전의 의존성으로 인해 제약할 수 없는 2-gram을 대상으로 제약을 시도한다. 분류기를 위한 학습데이터는 의미 태깅된 기분석 2-gram사전을 이용하여 U-WIN의 관계정보와 사전 그리고 패턴들에 의해 생성된다. 원어정보로 해결하지 못하는 34.63%의 2-gram중 2.83%에 대해 추가로 제약에 성공 하였다.

  • PDF

질의 유형 분류기를 활용한 지식 베이스 기반의 복합 질의 응답 시스템 (Knowledge based Complex Question Answering System using CNN Based Question Type Classifier)

  • 홍동균;심홍매;최동근;김광민;정용일;이반 베를로셰
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.621-624
    • /
    • 2018
  • 최근 지식 베이스의 발전과 함께 지식 베이스 기반의 질의 응답에 관한 연구가 많은 관심을 받고 있다. 특히 지식 베이스상의 여러 개의 사실이 필요한 복합 질의에 대한 처리의 중요성이 높아지고 있다. 그러나 기존 연구에서는 일반적인 지식을 묻는 질의 처리에만 집중하여, 그 외의 다른 유혀을 갖는 복합 질의에 대한 처리의 연구는 시작 단계에 머물러 있다. 이에 본 논문은 질의 유형 분류기를 활용한 지식 베이스 기반의 복합 질의 응답 시스템을 제안한다. 복합 질의 응답 시스템은 단순 질의를 포함하여 다양한 유형(일반형, 판정형, 비교형)을 갖는 복합 질의를 처리한다. 우리는 실험을 통해서 질의 유형 분류기가 복합 질의 응답 시스템의 정답률을 높임을 보였다.

인쇄체 및 필기체 숫자의 효율적인 구분 인식 알고리즘 (An Efficient Classifying Recognition Algorithm of Printed and handwritten numerals)

  • 홍연찬
    • 한국지능시스템학회논문지
    • /
    • 제9권5호
    • /
    • pp.517-525
    • /
    • 1999
  • 본 논문에서는 인쇄체가 대부분을 차지하는 우편물의 우편번호 분류기에 적용하기 위해 인쇄체 및 필기체를 구분하여 인쇄체는 단일 특징과 단일 신경망으로 저차 연산함으로써 빠르게 분류하고 피기체는 복합특징과 클러스터 신경망을 통한 고차연산으로 정확한 분류를 할 수 있는 속도 면에서 효율적인 신경망 분류기를 제안한다. 제안된 분류기는 인쇄체와 필기체를 구분하여 인쇄체를 분류하는 인쇄체 분류기와 여기서 기각된 필기체 숫자를 인식하는 필기체 분류기로 구성된다. 인쇄체 분류기는 망 특징 벡터를 입력의 단일 신경망 인식기로 빠르게 인쇄체 및 정확히 필기된 필기체를 분류하며그 외의 입력패턴에 대해서는 기각한다. 그리고 필기체 분류기는 4방향 특징 및 앞단에서 추출된 망 특징의 복합특징 벡터 입력으로 [11]에서 제안된 클러스터 신경망을 이용하여 정확한 분류를 할수 있도록 구성하였다. 제안된 방법의 성능을 객관적으로 검증하기 위하여 숫자 인식 데이터 베이스로 많이 사용되는 NIST의 필기체 숫자 데이터 베이스 및 자체적으로 구성한 인쇄체 숫자 데이터에 대해 실험하였다. 임의의 NIST 필기체 숫자 데이터 500자와 인쇄체 숫자 데이터 500자에 대해 전처리와 특징추출을 제외한 분류시간측정 결과 제안된 방법을 필기체 분류기에 사용할 경우 인쇄체와 필기체의 비율에 따라 49.1%~65.5% 향상된 속도로 분류함으로써 제안된 방법을 필기체 분류기에 적용함으로써 속도 면에서 효율적임을 나타냈다.

  • PDF

컬러코드를 이용한 스캔 문서 분류 자동화 (Automating Scanned Document Classification Using ColorCode)

  • 안상길;최병욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.766-769
    • /
    • 2008
  • 디지털 형태의 문서가 널리 퍼지고 끊임없이 증가함에 따라 이를 자동으로 가공하고 처리하는 문서자동분류의 중요성이 널리 인식되고 있다. 본 논문에서는 복합기에서 컬러코드를 인식하는 모듈을 탑재하여 스캔된 문서를 자동으로 분류하는 시스템을 제안하고자 한다. 복합기에서 컬러코드가 부착된 종이문서를 스캔한 다음 그 컬로코드를 추출하여 인식하고 해당 컬러코드와 관련된 문서관리정보에 따라 스캔문서를 복합기 내부의 지정 폴더에 저장하거나 다른 곳으로 전달하는 시스템이다. 이렇게 함으로써 종이문서를 전자화하는 과정에서 수작업으로 분류하는 시간을 줄일 수 있고 또한 사람에 의한 오류를 줄일 수 있다는 장점이 있다.

사무기기 시장의 현재와 미래 - 통계로 보는 일본의 사무기기 및 복사기.복합기 시장 동향

  • Multi Function Printer, Multi Function Printer
    • 광학세계
    • /
    • 통권122호
    • /
    • pp.20-21
    • /
    • 2009
  • 본 통계는 2002년 1월부터 디아조(Diazo) 광디스크 파일링, 타이프 라이터, 2005년 1월부터 서류분쇄기(Shredder), 타임레코더(Time recorder)가 생산 통계에서 제외되었기 때문에 전체의 숫자에는 포함되어 있지 않다. 지면 사정상 오프셋인쇄기(생산수 출입)과 워드프로세서(수출입)의 표는 생략했지만, 사무기 전체의 숫자에는 포함되어 있다. 그리고 2007년부터 회계기(수출입)가 통계에서 제외되어 전체 숫자에는 들어있지 않다. 한편, 2007년 1월 통계부터 수출입의 복사기 카테고리가 변경되어, 지금까지 계산하지 않았던 레이저복합기(FAX, 프린터, 스캐너 기능을 탑재한 기종)를 통계에 넣었기 때문에 숫자가 종전보다 늘어났으며 정전간접식, 기타 분류는 없어졌다.

  • PDF

ECC 화상 단면의 향상된 섬유 검출 기법 (Enhanced Technique for Fiber Detection of ECC Sectional Image)

  • 이방연;김윤용;김정수;이윤;김진근.
    • 한국콘크리트학회:학술대회논문집
    • /
    • 한국콘크리트학회 2008년도 춘계 학술발표회 제20권1호
    • /
    • pp.1009-1012
    • /
    • 2008
  • 섬유복합재료의 우수한 인장 성능은 섬유가 매트릭스의 균열 면에서 가교작용을 함으로써 발현되기 때문에 섬유의 분산성이 복합재료의 성능에 결정적인 영향을 미치게 된다. 그러나 PVA(Polyvinyl alcohol) 섬유를 보강 섬유로 사용하는 섬유복합재료의 경우 PVA 섬유와 매트릭스 사이의 낮은 명암비와 PVA의 비전도성 특징으로 인하여 섬유의 위치 및 분포 특성을 정량적으로 평가히는 방법은 연구가 미흡한 실정이다. 이 연구에서는 PVA 섬유를 보강 섬유로 사용하는 섬유 복합재료의 섬유 분포 특성 등을 평가할 때 가장 중요한 과정인 섬유의 검출에 대하여 검출 성능을 향상 시킬 수 있는 알고리즘을 제시하였다. 제안한 알고리즘은 형광 현미경을 사용하여 얻은 섬유 이미지를 유형별로 분류하고, 분류된 분류된 섬유 이미지의 특성에 따라 분수령 알고리즘(watershed algorithm)과 형태학적 재구성(morphological reconstruction)을 이용하여 보다 정확히 섬유를 검출하는 과정으로 구성된다. 이 과정에서 섬유 이미지를 총 5가지 유형으로 분류하였으며, 인공신경회로망을 분류기로 구축하였다. 또한 구축한 분류기를 통해 분류된 5가지 섬유 이미지 유형 중에서 잘못 검출된 섬유이미지를 분수령 알고리즘과 형태학적 재구성을 통하여 섬유를 정확히 검출할 수 있는 기법을 제안하였다.

  • PDF

한국어 복합명사 분해 오류 탐지 기법 (Error Detection Method for Korean Compound Noun Decomposition)

  • 강민규;강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.181-185
    • /
    • 2009
  • 복합명사를 분해하는데 있어서 발생하는 분해오류들은 대부분 예외상황들로 취급된다. 전체적으로 차지하는 비중은 크지 않은데 오류 처리를 위해 들어가는 비용이 상대적으로 크기 때문이다. 하지만 분해된 데이터를 색인기나 문서분류기, 기계번역기 등에 실제로 적용해야 할 경우, 분해오류들을 수정해주어야 더 나은 성능을 보일 수 있기 때문에 분해오류를 찾아내고 수정하는 방법을 고안해야 한다. 본 논문에서는 복합명사 분해기에서 추출된 결과를 살펴보고, 주요 분해오류들이 가진 공통적인 특징을 파악하여 분해오류를 발견하는 방법을 생각해보고자 한다.

  • PDF

SVM 워크로드 분류기를 통한 자동화된 데이터베이스 워크로드 식별 (Automatic Identification of Database Workloads by using SVM Workload Classifier)

  • 김소연;노홍찬;박상현
    • 한국콘텐츠학회논문지
    • /
    • 제10권4호
    • /
    • pp.84-90
    • /
    • 2010
  • 데이터베이스 시스템의 응용분야가 데이터웨어하우징에서 전자상거래에 이르기까지 광범위해지면서 데이터베이스 시스템이 대형화되었다. 이로 인해 데이터베이스 시스템의 성능 향상을 위한 튜닝이 중요한 논점이 되었다. 데이터베이스 시스템의 튜닝은 워크로드 특성을 고려하여 수행할 필요가 있다. 그러나 복합적인 데이터베이스 환경에서 워크로드를 식별하기는 어려우므로 자동적인 식별 방법이 요구된다. 본 논문에서는 데이터베이스 워크로드를 자동적으로 식별하는 SVM 워크로드 분류기를 제안한다. TPC-C와 TPC-W 성능 평가에서 자원할당 파라미터 변경에 따른 워크로드 데이터를 수집하여 SVM을 통해 분류 한다. SVM의 커널별 커널 파라미터와 오류 허용 임계치 값인 C의 조정을 통하여 최적의 SVM 워크로드 분류기를 선택한다. 제안한 SVM 워크로드 분류기와 Decision Tree, Naive Bayes, Multilayer Perceptron, K-NN 분류기의 분류 성능을 비교한 결과, SVM 워크로드 분류기가 다른 기계 학습 분류기보다 9% 이상 향상된 분류 성능을 보였다.