• 제목/요약/키워드: 대용량 분류

검색결과 243건 처리시간 0.028초

대용량 지문인식 시스템의 효율성 증가를 위한 지문분류 (Fingerprint Classification for Increasing Efficiency of Huge Fingerprint Recognition System)

  • 고영민;조성원;김재민;최경삼
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2003년도 춘계학술발표대회논문집
    • /
    • pp.355-358
    • /
    • 2003
  • 대용량 데이터베이스를 기반으로 하는 지문인식 시스템에 있어서 전체적인 처리효율 증가를 위한 연구가 활발히 진행되고 있다 본 논문에서는 지문의 형상을 일정한 패턴을 기준으로 분류를 수행함에 있어서 영상의 Noise제거를 위해 하나의 영상에 크기가 서로 다른 2개의 블록으로 영상을 분할하여 공통적으로 추출해 내는 특이점의 Position과 개수에 따라 지문을 분류하여 대용량 지문인식 시스템의 처리 효율을 증가시키는데 있다 .

  • PDF

데이터 마이닝을 위한 대용량 고차원 데이터의 셀-기반 분류방법 (Cell-based Classification of High-dimensional Large data for Data Mining Application)

  • 진두석;장재우
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.192-194
    • /
    • 2000
  • 최근 데이터 마이닝에서 대용량 데이터를 처리하는 응용이 많아짐에 따라, 클러스터링(Clustering) 및 분류(Classification)방법이 중요한 분야가 되고 있다. 특히 분류방법에 관한 기존 연구들은 단지 메모리 상주(memory-resident) 데이터에 대해 한정되며 고차원 데이터를 효율적으로 처리할 수 없다. 따라서 본 논문에서는 대용량 고차원 데이터를 효과적으로 처리할 수 있는 새로운 분류 알고리즘을 제안한다. 이는 데이터들을 차원 공간상의 셀(cell)로 표현함으로써 수치(numerical) 애트리뷰트와 범주(categorical) 애트리뷰트 모두 처리할 수 있는 알고리즘을 제안한다. 아울러, 실험결과를 통해 제안한 알고리즘이 데이터의 양,차원 그리고 속성에 관계없이 분류를 효과적으로 수행함을 보인다.

  • PDF

대용량 문서학습을 위한 분류기 생성 및 결합방법 (A Method for Generating and Combining Classifiers for Large Scale Data)

  • 정도헌;황명권;성원경
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.1551-1554
    • /
    • 2011
  • 대용량 데이터 환경에의 적용이 가능한 대용량 학습기반의 자동범주화 기법과 범용적으로 사용할 수 있는 기법은 대량의 정보를 처리해야하는 정보분석 및 정보서비스 환경에 가장 필요한 기술요소라 할 수 있다. 본 논문에서는 대용량의 문서를 단위 컴포넌트로 분할하여 학습하고 이를 동적으로 결합하는 대용량 분류기 생성 기법을 소개하고 자동범주화 성능을 SVM 모델과 비교하여 봄으로써, 본 기술의 활용 가능성을 살펴보도록 한다.

대용량 분류에서 SVM과 신경망의 성능 비교 (Performance comparison of SVM and neural networks for large-set classification problems)

  • 이진선;김영원;오일석
    • 정보처리학회논문지B
    • /
    • 제12B권1호
    • /
    • pp.25-30
    • /
    • 2005
  • 이 논문은 대용량 분류 문제를 위한 모듈러 신경망(modular feedforward MLP)과 SVM(Support Vector Machine)의 성능을 비교 분석하였다. 전반적으로 SVM이 상당한 성능 차이로 우수함을 확인하였다. 또한 부류 수가 많아짐에 따라 SVM이 신경망보다 완만하게 성능 저하가 있음도 확인하였다. 또한 기각에 따른 정인식률 추이를 분석하였고, 대용량 분류에 적합한 SVM 파라메터(kernel 함수와 관련 변수들)를 도출하였다.

질의 응답 시스템을 위한 반교사 기반의 정답 유형 분류 (Semi-Supervised Answer Type Classification For Question-Answering System)

  • 박선영;이동현;김용희;류성한;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.45-49
    • /
    • 2013
  • 기존 연구에서는 질의 응답 시스템에서 정답 유형을 분류하기 위해 패턴 매칭 방식이나 교사 학습(Supervised Learning)을 이용했다. 패턴 매칭 방식은 질의 분석을 통해 수동으로 패턴을 구축해야 한다. 교사 학습에서는 훈련 데이터 전체에 정답 유형이 태깅(Tagging)되어야 하며, 이를 위해서는 사용자의 질의에 정답 유형을 수동으로 태깅하는 작업이 많이 필요하다. 웹을 통해 정답 유형이 태깅되지 않은 대용량의 사용자 질의 말뭉치를 구할 수 있지만, 이 데이터에는 정답 유형이 태깅되어 있지 않다. 따라서, 대용량의 사용자 질의에 비례하여, 정답 유형을 수동으로 태깅하는 작업량이 증가한다. 앞서 언급한 두 가지 방법론에서, 정답 유형 분류를 위해 수작업이 많이 필요하다는 문제점을 해결하고자 본 논문에서는 일부 태깅된 훈련 데이터를 필요로 하는 반교사 학습(Semi-supervised Learning)에 기반한 정답 유형 분류를 제안한다. 이는 정답 유형 분류 작업에 필요한 노동력을 최소화함으로 대용량의 데이터를 통한 효율적 질의 응답 시스템 구축을 가능하게 한다.

  • PDF

지문분류 기술의 국내외 연구동향 (Trends of Fingerprint Classification Technology)

  • 정혜욱;이승
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.2-3
    • /
    • 2017
  • 지문분류 기술은 대용량 데이터베이스 기반 1:N 지문인식 시스템에서 지문의 형상에 따라 4개 또는 5개 이상의 클래스로 1차분류를 하여 지문인식의 속도 및 정확도를 개선하기 위해 필수로 사용되는 주요 기술이다. 과학수사, 범죄예방, 전자여권 시스템 등에 활용되고 있는 대규모 지문인식 시스템에서 지문분류 작업을 수행하면 데이터베이스 전체를 탐색하는데 필요한 시간을 "1/클래스의 수"로 줄일 수 있기 때문에, 지문분류 기술은 대용량 데이터베이스 시스템에서는 필수 요소이다. 본 논문에서는 지문분류와 관련된 국내외 기술을 분석하고 지문분류 기술의 발전 동향을 살펴본다.

불균형의 대용량 범주형 자료에 대한 분할-과대추출 정복 서포트 벡터 머신 (A divide-oversampling and conquer algorithm based support vector machine for massive and highly imbalanced data)

  • 방성완;김재오
    • 응용통계연구
    • /
    • 제35권2호
    • /
    • pp.177-188
    • /
    • 2022
  • 일반적으로 support vector machine (SVM)은 높은 수준의 분류 정확도를 제공함으로써 다양한 분야의 분류분석에서 널리 사용되고 있다. 그러나 SVM은 최적화 계산식이 이차계획법(quadratic programming)으로 공식화되어 많은 계산 비용이 필요하므로 대용량 자료의 분류분석에는 그 사용이 제한된다. 또한 불균형 자료(imbalanced data)의 분류분석에서는 다수집단에 편향된 분류함수를 추정함으로써 대부분의 자료를 다수집단으로 분류하여 소수집단의 분류 정확도를 현저히 감소시키게 된다. 이러한 문제점들을 해결하기 위하여 본 논문에서는 다수집단을 분할(divide)하고, 소수집단을 과대추출(oversampling)하여 여러 분류함수들을 추정하고 이들을 통합(conquer)하는 DOC-SVM 분류기법을 제안한다. 제안한 DOC-SVM은 분할정복 알고리즘을 다수집단에 적용하여 SVM의 계산 효율을 향상시키고, 과대추출 알고리즘을 소수집단에 적용하여 SVM 분류함수의 편향을 줄이게 된다. 본 논문에서는 모의실험과 실제자료 분석을 통해 제안한 DOC-SVM의 효율적인 성능과 활용 가능성을 확인하였다.

나이브 베이지안 분류기 모델 기반의 소용량 파일 그룹화 시스템 설계 (A Design of the Small File Grouping System Based on Naive Bayesian Classifier Model)

  • 김민재;김경태;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2014년도 제50차 하계학술대회논문집 22권2호
    • /
    • pp.221-222
    • /
    • 2014
  • 빠른 웹의 성장으로 대용량 데이터를 효과적으로 처리할 수 있는 플랫폼 기술에 대한 관심이 높아지고 있다. 특히, HDFS는 이상적인 분산 파일 시스템으로 각광받고 있으며 대용량 파일의 처리를 목적으로 개발되었다. 하지만, 실제 파일들의 집합에서 소용량 파일이 차지하는 비중은 높은 편이다. 많은 수의 소용량 파일은 HDFS 성능 감소에 치명적인 원인이 된다. 많은 수의 소용량 파일들이 HDFS에 저장된다면 NameNode의 메모리 소비량이 증가하게 되며 많은 수의 소용량 파일은 많은 수의 DataNode와 NameNode를 요구하므로 상대적으로 처리시간이 많이 소모된다. 따라서 본 논문에서는 HDFS에서 소용량 파일의 저장과 액세스 효율성을 향상시키기 위하여 나이브 베이지안 분류기 알고리즘을 적용한 파일 그룹화 시스템을 설계하였다.

  • PDF

전역적 범주화를 이용한 대용량 데이터를 위한 순차적 결정 트리 분류기 (Incremental Decision Tree Classifier Using Global Discretization For Large Dataset)

  • 한경식;이수원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.352-354
    • /
    • 2002
  • 최근 들어, 대용량의 데이터를 처리할 수 있는 결정 트리 생성 방법에 많은 관심이 집중되고 있다. 그러나, 대용량 데이터를 위한 대부분의 알고리즘은 일괄처리 방식으로 데이터를 처리하기 때문에 새로운 예제가 추가되면 이 예제를 반영한 결정 트리를 생성하기 위해 처음부터 다시 재생성해야 한다. 이러한 재생성에 따른 비용문제에 보다 효율적인 접근 방법은 결정 트리를 순차적으로 생성하는 접근 방법이다. 대표적인 알고리즘으로 BOAT와 ITI를 들 수 있다. BOAT는 대용량 데이터를 지원하는 순차적 알고리즘이 지만 분할 포인트가 노드에서 유지하는 신뢰구간을 넘어서는 경우와 분할 변수가 변경되면 그에 영향을 받는 부분은 다시 생성해야 한다는 문제점을 안고 있고, 이에 반해 ITI는 분할 포인트 변경과 분할 변수 변경을 효율적으로 처리하지만 대용량 데이터를 처리하지 못해 오늘날의 순차적인 트리 생성 기법으로 적합하지 못하다. 본 논문은 ITI의 기본적인 트리 재구조화 알고리즘을 기반으로 하여 대용량 데이터를 처리하지 못하는 ITI의 한계점을 극복하기 위해 전역적 범주화 기법을 이용한 접근방법을 제안한다.

  • PDF

효과적인 대용량 이메일 분류 및 아카이빙 시스템 설계 및 구현 (Implementation and Design of Efficient Classification and Archiving System for Large Amount of Email)

  • 김응진;문지혜;정호영;임지수;송석일
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2016년도 춘계 종합학술대회 논문집
    • /
    • pp.77-78
    • /
    • 2016
  • 이 논문에서는 대용량의 이메일을 분류하여 아카이빙하는 시스템을 설계하고 구현한다. 이 논문에서 개발하는 이메일 아카이빙 시스템은 업무영역 별로 이메일을 분류하여 업무 관련 이메일에 대해 업무영역 카테고리별로 아카이빙을 수행한다. 분류의 정확도를 위해 온톨로지를 이용한 텀벡터의 확장 방법을 사용하였으며, 빠른 분류 및 아카이빙을 수행하도록 인메모리 기반의 분산 및 병렬 처리 프레임워크인 Spark을 기반으로 구현한다.

  • PDF