• 제목/요약/키워드: 대용량 분류

검색결과 243건 처리시간 0.022초

분류모형을 이용한 여신회사 고객대출 분석에 관한 연구 (A study on the analysis of customer loan for the credit finance company using classification model)

  • 김태형;김영화
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권3호
    • /
    • pp.411-425
    • /
    • 2013
  • 데이터마이닝이란 대용량의 자료로부터 의미있는 패턴과 규칙을 찾기 위해서 자동화되거나 반자 동화된 도구를 이용하여 데이터를 탐색하고 분석하는 과정이다. 이러한 데이터마이닝 기법을 통해 정보의 연관성을 파악함으로써 가치 있는 정보를 만들어 합리적인 의사 결정이 가능하게 된다. 금융분야에서도 데이터베이스 마케팅, 신용평가, 서비스 품질개선, 부정행위 적발 등에 데이터마이닝 기법이 다양하게 사용되고 있다. 금융거래에서 대출의 중요도와 필요성이 시간이 지날수록 점점 높아지고 있으나, 대출을 이용하는 사람과 대출건수가 증가할수록 부실대출의 위험이 함께 증가하기 때문에 대출을 해주는 여신기관의 손실을 막기 위해서는 대출여부를 정확하게 예측할 필요성이 존재한다. 본 연구에서는 국내 A 여신기관의 실제 데이터를 사용하여 대출심사에 관한 연구를 진행하였으며, 모형 구축에 있어서 안정적이고 정확한 예측을 보이는 모형을 찾기 위하여 원 데이터에서의 샘플 정제와 여러가지 모형, 데이터마이닝 기법 등을 사용하여 다양한 모형을 구축하고 비교, 평가하였다.

기능점수 기반 소프트웨어 공식 (Software Equation Based on Function Points)

  • 이상운
    • 정보처리학회논문지D
    • /
    • 제17D권5호
    • /
    • pp.327-336
    • /
    • 2010
  • 본 논문은 기능점수 소프트웨어 규모에 기반하여 개발노력과 일정과의 관계를 유도하는 소프트웨어 공식을 제안하였다. 기존의 소프트웨어 공식은 라인수에 기반을 두고 있다. 라인수는 개발언어에 따라 큰 차이를 보여 소프트웨어 규모 추정에 어려움이 많이 지적되고 있다. 먼저 라인수를 기능점수로 변환하는 방법을 고려하였다. 그러나 이 방법은 개발언어별로 라인수와 기능점수간 변환비율이 명확히 결정되지 않고 있고, 또한 특정 개발언어에 대해서는 변환비율이 제시되어 있지 않아 소프트웨어 공식을 유도하는데 실패하였다. 따라서 기능점수에 기반하여 개발된 대용량의 프로젝트 데이터를 대상으로 소프트웨어 공식을 직접 유도하였다. 첫 번째로 개발 프로젝트들 중에서 타당한 개발기간이 설정된 데이터들을 분류하였다. 두 번째로, 이 데이터에 대해 회귀분석을 통해 기능점수와 개발노력, 기능점수와 개발기간과의 관계를 유도하였다. 마지막으로 이들 관계로부터 소프트웨어 공식을 유도하였다. 제안된 모델은 라인수 기반의 모델이 갖고 있는 적용상 문제점들을 해결하여 실무에 쉽게 적용이 가능한 장점을 갖고 있다.

순차적 시뮬레이션을 위한 순차적인 Percentile 추정에 관한 연구 (Sequential Percentile Estimation for Sequential Steady-State Simulation)

  • 이종숙;정해덕
    • 정보처리학회논문지D
    • /
    • 제10D권6호
    • /
    • pp.1025-1032
    • /
    • 2003
  • 백분위수는 시뮬레이션 결과의 전체적인 성향을 파악하는데 아주 유용한 측정 기법 중의 하나이다. 그러나, 시뮬레이션으로 수집된 데이터들에 대한 평균이나 표준편차와는 달리 백분위수를 추정하기 위해서는 모든 관측된 데이터들을 저장해야 만 한다, 왜냐하면 백분위수의 추정을 위해서는 관측된 모든 데이를 분류하여 오른차순으로 정렬하는 등 여러 단계의 처리과정이 필요하기 때문이다. 따라서, 백분위수 추정을 위해서는 관측된 모든 데이터를 저장하기 위한 대용량의 저장장치와 정렬을 위한 계산시간 (O($nlog_{2}n$))이 요구된다. 이러한 문제점을 해결하기 위한 여러 백분위수 추정 기법들이 제안되었으나 고정된 샘플 크기의 시뮬레이선(fixed sample size simulation) 을 수행할 경우에만 적용 가능하다. [11, 12, 21]. 본 논문에서는 3가지 백분위수 추정 기법(linear PE, batching PE, spectral $P^2$ PE) 을 순차적인 안정상태 시뮬레이션(sequential steady-state simulation) 에 적용하여 연구하였다. 또한, 3가지의 백분위수 추정 기법들에 대해 coverage 분석을 수행한 결과를 제시하였다.

RHIPE 플랫폼에서 빅데이터 로지스틱 회귀를 위한 학습 알고리즘 (Learning algorithms for big data logistic regression on RHIPE platform)

  • 정병호;임동훈
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권4호
    • /
    • pp.911-923
    • /
    • 2016
  • 빅데이터 시대에 머신러닝의 중요성은 더욱 부각되고 있고 로지스틱 회귀는 머신러닝에서 분류를 위한 방법으로 의료, 경제학, 마케팅 및 사회과학 전반에 걸쳐 널리 사용되고 있다. 지금까지 R과 Hadoop의 통합환경인 RHIPE 플랫폼은 설치 및 MapReduce 구현의 어려움으로 인해 거의 연구가 이루지 지지 않았다. 본 논문에서는 대용량 데이터에 대해 로지스틱 회귀 추정을 위한 두가지 알고리즘 즉, Gradient Descent 알고리즘과 Newton-Raphson 알고리즘에 대해 MapReduce로 구현하고, 실제 데이터와 모의실험 데이터를 가지고 이들 알고리즘 간의 성능을 비교하고자 한다. 알고리즘 성능 실험에서 Gradient Descent 알고리즘은 학습률에 크게 의존하고 또한 데이터에 따라 수렴하지 않는 문제를 갖고 있다. Newton-Raphson 알고리즘은 학습률이 불필요 할 뿐만 아니라 모든 실험 데이터에 대해 좋은 성능을 보였다.

문자 인식 기술을 이용한 데이터베이스 구축 (Building Database using Character Recognition Technology)

  • 한선화;이충식;이준호;김진형
    • 한국정보처리학회논문지
    • /
    • 제6권7호
    • /
    • pp.1713-1723
    • /
    • 1999
  • 문자 인식 기술은 인쇄도니 형태로 존재하는 수많은 정보를 데이터베이스화 할 수 있는 가장 유용한 대안이다. 본 논문에서는 문자 인식 기술을 사용한 데이터베이스 구축의 타당성을 조사하기 위하여, 문자인식기를 사용한 데이터베이스를 시범적으로 구축하였다. 우선 데이터베이스를 구축할 때 문자 인식기의 선택 시 고려하여야 할 사항들을 살펴보고, 이를 기준으로 4가지의 상용 문자 인식기에 대한 인식 실험을 거친 후 그 중 인식 성능이 가장 좋은 것을 선택하였다. 대상 문서로는 다양한 인쇄 품질 및 특성을 갖는 실제 논문집의 초록을 대상으로 삼았으며, 대량 데이터에 대한 인식률 계산을 위해 수작업된 데이터베이스가 있는 KT 테스트 컬렉션[1]을 선택하였다. 실험은 실제 대용량 데이터베이스 구축과 유사한 환경을 만들기 위해, 문서별 학습이나 기울기 보정 등의 사전 작업을 생략하였다. 실험 결과 970편의 논문 요약문에 대해 평균 문자 인식률 90.5%를 보여, 한글 문자 인식 기술이 아직 데이터베이스 구축에 활용되기에는 이르다는 것을 보였다. 문자 인식에 의한 인식 오류에서는 수작업 한 문서에서 발견되는 오류와는 상이한 유형이 많이 발견된다. 본 논문에서는 추후의 연구를 위하여 문자 인식 텍스트에서 나타나는 오류의 유형을 분류하였다.

  • PDF

Zernike 모멘트와 Wavelet을 이용한 홍채인식 (A Iris Recognition Using Zernike Moment and Wavelet)

  • 최창수;박종천;전병민
    • 한국산학기술학회논문지
    • /
    • 제11권11호
    • /
    • pp.4568-4575
    • /
    • 2010
  • 홍채인식은 홍채의 무늬 패턴 정보를 이용하는 생체인식 기술로 안정성, 보안성과 같은 특징을 가지고 있기 때문에 높은 보안을 요구하는 환경에 특히 적합하다. 최근 들어 홍채정보를 이용하여 출입통제, 정보보안등의 분야에 많이 활용되고 있다. 홍채 특징 추출시 크기, 조명, 회전에 무관한 홍채 특징을 추출하는 것이 바람직하다. 홍채크기 및 조명 문제는 전처리를 통해 쉽게 해결할 수 있지만 회전에 무관한 홍채 특징 추출은 여전히 문제가 된다. 본 논문에서는 회전 보정으로 인한 인식률 및 속도 저하를 개선하기 위해 Zernike 모멘트와 Daubechies Wavelet을 이용한 홍채인식 방법을 제안한다. 제안한 방법은 회전에 불변한 Zernike 모멘트의 통계적 특성을 이용하여 회전된 홍채에 대해서 1단계로 유사홍채를 분류함으로서 홍채인식에 필요한 시간을 단축하였고, 인식성능 역시 기존 방법과 대등함을 보였다. 따라서 제안한 방법이 대용량의 홍채 인식 시스템에 효과적인 적용이 가능함을 확인할 수 있었다.

PCA기반의 얼굴인식 알고리즘들에 대한 연산방법 분석 (Computational Analysis of PCA-based Face Recognition Algorithms)

  • Hyeon Joon Moon;Sang Hoon Kim
    • 한국멀티미디어학회논문지
    • /
    • 제6권2호
    • /
    • pp.247-258
    • /
    • 2003
  • 얼굴인식 기술 분야에 있어서 Principal component analysis (PCA)기반 알고리즘은 많은 관련 알고리즘의 기초가 되고 있다. PCA는 매우 통계적인 접근이며 얼굴인식 분야에 응용하기 위해서는 많은 설계 결정요인 (design derision)을 필요로 한다. 본 논문에서는 일반적인 modular PCA알고리즘을 소개하면서 design decision을 얻는다. 얼굴인식 알고리즘 평가에 대한 표준 접근 방법인 September 1996 FERET evaluation protocol을 활용하여 각 모듈에 대한 서로 다른 구현방법을 실험하고 평가한다. 실험조건으로는 (1) 조도의 정규화 과정 을 변화 (2) JPEG과 wavelet compression 알고리즘 사용에 대한 성능효과를 분석 (3) 표현방법에서 eigenvectors의 수를 조절 (4) 분류과정에서 유사도 측정방법을 변경하는 등이다. 본 논문에서는 standard September 1996 FERET의 대용량 gallery image set에 대해 적용해 본 결과에 대해 정리하며, 100개의 무작위로 발생된 image set에 대해서도 알고리즘의 성능 변화를 평가한다.

  • PDF

추가 사전학습 기반 지식 전이를 통한 국가 R&D 전문 언어모델 구축 (Building Specialized Language Model for National R&D through Knowledge Transfer Based on Further Pre-training)

  • 유은지;서수민;김남규
    • 지식경영연구
    • /
    • 제22권3호
    • /
    • pp.91-106
    • /
    • 2021
  • 최근 딥러닝 기술이 빠르게 발전함에 따라 국가 R&D 분야의 방대한 텍스트 문서를 다양한 관점에서 분석하기 위한 수요가 급증하고 있다. 특히 대용량의 말뭉치에 대해 사전학습을 수행한 BERT(Bidirectional Encoder Representations from Transformers) 언어모델의 활용에 대한 관심이 높아지고 있다. 하지만 국가 R&D와 같이 고도로 전문화된 분야에서 높은 빈도로 사용되는 전문어는 기본 BERT에서 충분히 학습이 이루어지지 않은 경우가 많으며, 이는 BERT를 통한 전문 분야 문서 이해의 한계로 지적되고 있다. 따라서 본 연구에서는 최근 활발하게 연구되고 있는 추가 사전학습을 활용하여, 기본 BERT에 국가 R&D 분야 지식을 전이한 R&D KoBERT 언어모델을 구축하는 방안을 제시한다. 또한 제안 모델의 성능 평가를 위해 보건의료, 정보통신 분야의 과제 약 116,000건을 대상으로 분류 분석을 수행한 결과, 제안 모델이 순수한 KoBERT 모델에 비해 정확도 측면에서 더 높은 성능을 나타내는 것을 확인하였다.

제조 시계열 데이터를 위한 진화 연산 기반의 하이브리드 클러스터링 기법 (Evolutionary Computation-based Hybird Clustring Technique for Manufacuring Time Series Data)

  • 오상헌;안창욱
    • 스마트미디어저널
    • /
    • 제10권3호
    • /
    • pp.23-30
    • /
    • 2021
  • 제조 시계열 데이터 클러스터링 기법은 제조 대용량 데이터 기반 군집화를 통한 설비 및 공정 이상 탐지 분류를 위한 중요한 솔루션이지만 기존 정적 데이터 대상 클러스터링 기법을 시계열 데이터에 적용함에 있어 낮은 정확도를 가지는 단점이 있다. 본 논문에서는 진화 연산 기반 시계열 군집 분석 접근 방식을 제시하여 기존 클러스터링 기술에 대한 정합성 향상하고자 한다. 이를 위하여 먼저 제조 공정 결과 이미지 형상을 선형 스캐닝을 활용하여 1차원 시계열 데이터로 변환하고 해당 변환 데이터 대상으로 Pearson 거리 매트릭을 기반으로 계층적 군집 분석 및 분할 군집 분석에 대한 최적 하위클러스터를 도출한다. 해당 최적 하위클러스터 대상 유전 알고리즘을 활용하여 유사도가 최소화되는 최적의 군집 조합을 도출한다. 그리고 실제 제조 과정 이미지 대상으로 기존 클러스터링 기법과 성능 비교를 통하여 제안된 클러스터링 기법의 성능 우수성을 검증한다.

회귀 매니폴드 3-D PCA 기반 새로운 이미지 분석 방법 (A New Image Analysis Method based on Regression Manifold 3-D PCA)

  • 이경민;인치호
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권2호
    • /
    • pp.103-108
    • /
    • 2022
  • 본 논문에서는 회귀 매니폴드 3-D PCA 기반 새로운 이미지 분석 방법을 제안한다. 제안된 방법은 대용량 이미지 데이터 입력 시 효율적인 차원 축소를 위해 개선된 매니폴드 3-D PCA와 PCA의 비선형 확장이 가능한 오토인코더를 기반으로 설계된 구조로 회귀분석 알고리즘으로 구성된 새로운 이미지 분석 방법이다. 오토인코더의 구성으로는 이미지 픽셀 값을 3차원 회전을 통한 최전의 초평면을 도출하는 회귀 매니폴드 3-D PCA와 딥러닝 구조와 유사한 Bayesian Rule 구조를 적용한다. 성능 검증을 위해 실험을 수행한다. 미세먼지 이미지를 활용하여 이미지를 향상되며, 이를 분류 모델을 통한 정확도 성능 평가를 수행한다. 그 결과 딥러닝 성능에 유효함을 확인할 수 있다.