• Title/Summary/Keyword: 대용량 분류

Search Result 243, Processing Time 0.027 seconds

Fingerprint Classification for Increasing Efficiency of Huge Fingerprint Recognition System (대용량 지문인식 시스템의 효율성 증가를 위한 지문분류)

  • 고영민;조성원;김재민;최경삼
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2003.05b
    • /
    • pp.355-358
    • /
    • 2003
  • 대용량 데이터베이스를 기반으로 하는 지문인식 시스템에 있어서 전체적인 처리효율 증가를 위한 연구가 활발히 진행되고 있다 본 논문에서는 지문의 형상을 일정한 패턴을 기준으로 분류를 수행함에 있어서 영상의 Noise제거를 위해 하나의 영상에 크기가 서로 다른 2개의 블록으로 영상을 분할하여 공통적으로 추출해 내는 특이점의 Position과 개수에 따라 지문을 분류하여 대용량 지문인식 시스템의 처리 효율을 증가시키는데 있다 .

  • PDF

Cell-based Classification of High-dimensional Large data for Data Mining Application (데이터 마이닝을 위한 대용량 고차원 데이터의 셀-기반 분류방법)

  • 진두석;장재우
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.192-194
    • /
    • 2000
  • 최근 데이터 마이닝에서 대용량 데이터를 처리하는 응용이 많아짐에 따라, 클러스터링(Clustering) 및 분류(Classification)방법이 중요한 분야가 되고 있다. 특히 분류방법에 관한 기존 연구들은 단지 메모리 상주(memory-resident) 데이터에 대해 한정되며 고차원 데이터를 효율적으로 처리할 수 없다. 따라서 본 논문에서는 대용량 고차원 데이터를 효과적으로 처리할 수 있는 새로운 분류 알고리즘을 제안한다. 이는 데이터들을 차원 공간상의 셀(cell)로 표현함으로써 수치(numerical) 애트리뷰트와 범주(categorical) 애트리뷰트 모두 처리할 수 있는 알고리즘을 제안한다. 아울러, 실험결과를 통해 제안한 알고리즘이 데이터의 양,차원 그리고 속성에 관계없이 분류를 효과적으로 수행함을 보인다.

  • PDF

A Method for Generating and Combining Classifiers for Large Scale Data (대용량 문서학습을 위한 분류기 생성 및 결합방법)

  • Jeong, Do-Heon;Hwang, Myung-Gwon;Sung, Won-Kyung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.04a
    • /
    • pp.1551-1554
    • /
    • 2011
  • 대용량 데이터 환경에의 적용이 가능한 대용량 학습기반의 자동범주화 기법과 범용적으로 사용할 수 있는 기법은 대량의 정보를 처리해야하는 정보분석 및 정보서비스 환경에 가장 필요한 기술요소라 할 수 있다. 본 논문에서는 대용량의 문서를 단위 컴포넌트로 분할하여 학습하고 이를 동적으로 결합하는 대용량 분류기 생성 기법을 소개하고 자동범주화 성능을 SVM 모델과 비교하여 봄으로써, 본 기술의 활용 가능성을 살펴보도록 한다.

Performance comparison of SVM and neural networks for large-set classification problems (대용량 분류에서 SVM과 신경망의 성능 비교)

  • Lee Jin-Seon;Kim Young-Won;Oh Il-Seok
    • The KIPS Transactions:PartB
    • /
    • v.12B no.1 s.97
    • /
    • pp.25-30
    • /
    • 2005
  • In this paper, we analyzed and compared the performances of modular FFMLP(feedforward multilayer perceptron) and SVUT(Support Vector Machine) for the large-set classification problems. Overall, SVM dominated modular FFMLP in the correct recognition rate and other aspects Additionally, the recognition rate of SVM degraded more slowly than neural network as the number of classes increases. The trend of the recognition rates depending on the rejection rate has been analyzed. The parameter set of SVM(kernel functions and related variables) has been identified for the large-set classification problems.

Semi-Supervised Answer Type Classification For Question-Answering System (질의 응답 시스템을 위한 반교사 기반의 정답 유형 분류)

  • Park, Seonyeong;Lee, Donghyeon;Kim, Yonghee;Ryu, Seonghan;Lee, Gary Geunbae
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.45-49
    • /
    • 2013
  • 기존 연구에서는 질의 응답 시스템에서 정답 유형을 분류하기 위해 패턴 매칭 방식이나 교사 학습(Supervised Learning)을 이용했다. 패턴 매칭 방식은 질의 분석을 통해 수동으로 패턴을 구축해야 한다. 교사 학습에서는 훈련 데이터 전체에 정답 유형이 태깅(Tagging)되어야 하며, 이를 위해서는 사용자의 질의에 정답 유형을 수동으로 태깅하는 작업이 많이 필요하다. 웹을 통해 정답 유형이 태깅되지 않은 대용량의 사용자 질의 말뭉치를 구할 수 있지만, 이 데이터에는 정답 유형이 태깅되어 있지 않다. 따라서, 대용량의 사용자 질의에 비례하여, 정답 유형을 수동으로 태깅하는 작업량이 증가한다. 앞서 언급한 두 가지 방법론에서, 정답 유형 분류를 위해 수작업이 많이 필요하다는 문제점을 해결하고자 본 논문에서는 일부 태깅된 훈련 데이터를 필요로 하는 반교사 학습(Semi-supervised Learning)에 기반한 정답 유형 분류를 제안한다. 이는 정답 유형 분류 작업에 필요한 노동력을 최소화함으로 대용량의 데이터를 통한 효율적 질의 응답 시스템 구축을 가능하게 한다.

  • PDF

Trends of Fingerprint Classification Technology (지문분류 기술의 국내외 연구동향)

  • Jung, Hye-Wuk;Lee, Seung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.04a
    • /
    • pp.2-3
    • /
    • 2017
  • 지문분류 기술은 대용량 데이터베이스 기반 1:N 지문인식 시스템에서 지문의 형상에 따라 4개 또는 5개 이상의 클래스로 1차분류를 하여 지문인식의 속도 및 정확도를 개선하기 위해 필수로 사용되는 주요 기술이다. 과학수사, 범죄예방, 전자여권 시스템 등에 활용되고 있는 대규모 지문인식 시스템에서 지문분류 작업을 수행하면 데이터베이스 전체를 탐색하는데 필요한 시간을 "1/클래스의 수"로 줄일 수 있기 때문에, 지문분류 기술은 대용량 데이터베이스 시스템에서는 필수 요소이다. 본 논문에서는 지문분류와 관련된 국내외 기술을 분석하고 지문분류 기술의 발전 동향을 살펴본다.

A divide-oversampling and conquer algorithm based support vector machine for massive and highly imbalanced data (불균형의 대용량 범주형 자료에 대한 분할-과대추출 정복 서포트 벡터 머신)

  • Bang, Sungwan;Kim, Jaeoh
    • The Korean Journal of Applied Statistics
    • /
    • v.35 no.2
    • /
    • pp.177-188
    • /
    • 2022
  • The support vector machine (SVM) has been successfully applied to various classification areas with a high level of classification accuracy. However, it is infeasible to use the SVM in analyzing massive data because of its significant computational problems. When analyzing imbalanced data with different class sizes, furthermore, the classification accuracy of SVM in minority class may drop significantly because its classifier could be biased toward the majority class. To overcome such a problem, we propose the DOC-SVM method, which uses divide-oversampling and conquers techniques. The proposed DOC-SVM divides the majority class into a few subsets and applies an oversampling technique to the minority class in order to produce the balanced subsets. And then the DOC-SVM obtains the final classifier by aggregating all SVM classifiers obtained from the balanced subsets. Simulation studies are presented to demonstrate the satisfactory performance of the proposed method.

A Design of the Small File Grouping System Based on Naive Bayesian Classifier Model (나이브 베이지안 분류기 모델 기반의 소용량 파일 그룹화 시스템 설계)

  • Kim, Min-Jae;Kim, Kyung-Tae;Youn, Hee-Young
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2014.07a
    • /
    • pp.221-222
    • /
    • 2014
  • 빠른 웹의 성장으로 대용량 데이터를 효과적으로 처리할 수 있는 플랫폼 기술에 대한 관심이 높아지고 있다. 특히, HDFS는 이상적인 분산 파일 시스템으로 각광받고 있으며 대용량 파일의 처리를 목적으로 개발되었다. 하지만, 실제 파일들의 집합에서 소용량 파일이 차지하는 비중은 높은 편이다. 많은 수의 소용량 파일은 HDFS 성능 감소에 치명적인 원인이 된다. 많은 수의 소용량 파일들이 HDFS에 저장된다면 NameNode의 메모리 소비량이 증가하게 되며 많은 수의 소용량 파일은 많은 수의 DataNode와 NameNode를 요구하므로 상대적으로 처리시간이 많이 소모된다. 따라서 본 논문에서는 HDFS에서 소용량 파일의 저장과 액세스 효율성을 향상시키기 위하여 나이브 베이지안 분류기 알고리즘을 적용한 파일 그룹화 시스템을 설계하였다.

  • PDF

Incremental Decision Tree Classifier Using Global Discretization For Large Dataset (전역적 범주화를 이용한 대용량 데이터를 위한 순차적 결정 트리 분류기)

  • 한경식;이수원
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.352-354
    • /
    • 2002
  • 최근 들어, 대용량의 데이터를 처리할 수 있는 결정 트리 생성 방법에 많은 관심이 집중되고 있다. 그러나, 대용량 데이터를 위한 대부분의 알고리즘은 일괄처리 방식으로 데이터를 처리하기 때문에 새로운 예제가 추가되면 이 예제를 반영한 결정 트리를 생성하기 위해 처음부터 다시 재생성해야 한다. 이러한 재생성에 따른 비용문제에 보다 효율적인 접근 방법은 결정 트리를 순차적으로 생성하는 접근 방법이다. 대표적인 알고리즘으로 BOAT와 ITI를 들 수 있다. BOAT는 대용량 데이터를 지원하는 순차적 알고리즘이 지만 분할 포인트가 노드에서 유지하는 신뢰구간을 넘어서는 경우와 분할 변수가 변경되면 그에 영향을 받는 부분은 다시 생성해야 한다는 문제점을 안고 있고, 이에 반해 ITI는 분할 포인트 변경과 분할 변수 변경을 효율적으로 처리하지만 대용량 데이터를 처리하지 못해 오늘날의 순차적인 트리 생성 기법으로 적합하지 못하다. 본 논문은 ITI의 기본적인 트리 재구조화 알고리즘을 기반으로 하여 대용량 데이터를 처리하지 못하는 ITI의 한계점을 극복하기 위해 전역적 범주화 기법을 이용한 접근방법을 제안한다.

  • PDF

Implementation and Design of Efficient Classification and Archiving System for Large Amount of Email (효과적인 대용량 이메일 분류 및 아카이빙 시스템 설계 및 구현)

  • Kim, eungjin;Moon, jihye;Jung, hoyoung;Lim, jisu;Song, seokil
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2016.05a
    • /
    • pp.77-78
    • /
    • 2016
  • 이 논문에서는 대용량의 이메일을 분류하여 아카이빙하는 시스템을 설계하고 구현한다. 이 논문에서 개발하는 이메일 아카이빙 시스템은 업무영역 별로 이메일을 분류하여 업무 관련 이메일에 대해 업무영역 카테고리별로 아카이빙을 수행한다. 분류의 정확도를 위해 온톨로지를 이용한 텀벡터의 확장 방법을 사용하였으며, 빠른 분류 및 아카이빙을 수행하도록 인메모리 기반의 분산 및 병렬 처리 프레임워크인 Spark을 기반으로 구현한다.

  • PDF