• 제목/요약/키워드: 대용량 분류

검색결과 243건 처리시간 0.031초

대용량 디지털 사진 분류 및 레이아웃 시스템 개발 (Layout System for Large-Scale Photo Classification)

  • 장철진;김형준;조환규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.98-101
    • /
    • 2009
  • 디지털 카메라의 사용이 일반화됨에 따라 수많은 디지털 사진들이 새롭게 생성되고 있다. 수많은 사진을 사용자가 직접 분류하고 앨범화하는 것은 많은 노력과 시간이 소요되는 불편한 작업이 되고 있다. 최근 들어서는 카메라의 높은 보급률로 인해 하나의 행사에 있어서도 여러대의 카메라가 사용되는 등 대용량 사진을 효과적으로 분류하고 시각화할 수 있는 방법의 필요성이 증가하고 있다. 개인적인 사진 관리에 있어서 뿐만 아니라 여러명의 촬영한 사진의 분류 및 제 3 자에게 사진이 촬영된 내용을 소개하기 위한 목적 등 다양한 방면에서 사진 클러스터링 및 시각화와 관련된 기법이 사용될 수 있다. 본 논문에서는 이와 관련된 이전 연구들을 살펴보고 개발중인 사진 분류 및 시각화 시스템의 프로토타입을 소개하며 기존 방법들과 차별화되는 사진 처리 기법에 대해서 살펴본다.

유전자 알고리즘을 이용한 효율적인 패턴 분류 시스템 구현 (The implementation of efficient pattern classification system using the gene algorithm)

  • 이호현;최용호;서원택;조범준
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2002년도 추계학술발표논문집
    • /
    • pp.792-795
    • /
    • 2002
  • 현재 많은 관심의 대상이 되고 있는 데이터 마이닝은 대용량의 데이터베이스로부터 일정한 패턴을 분류하여 지식의 형태로 추출하는 작업이다. 데이터 마이닝의 대표적인 기법인 군집화는 군집내의 유사성을 최대화하고 군집들간의 유사성을 최소화 시키도록 데이터 집합을 분할하는 것이다. 데이터 마이닝에서 군집화는 대용량 데이터를 다루기 때문에 원시 데이터에 대한 접근 횟수를 줄이고 알고리즘이 다루어야 할 데이터 구조의 크기를 줄이는 군집화 기법이 활발하게 사용된다. 그런데 기존의 군집화 알고리즘은 잡음에 매우 민감하고, local minima에 반응한다. 또한 사전에 군집의 개수를 미리 결정해야 하고, initialization 값에 따라 군집의 성능이 좌우되는 문제점이 있다. 본 연구에서는 유전자 알고리즘을 이용하여 자동으로 군집의 개수를 결정하는 LONGEPRO 알고리즘을 제안하고, 여기서 제시하는 적합도 함수의 최적화된 군집을 찾아내여 조금더 효율적인 알고리즘을 만들어 대용량 데이터를 다루는 데이터 마이닝에 적용해 보려 한다.

  • PDF

자동 분류 기법과 지적 구조 분석 기법을 융합한 처방적 분석 시스템 구현 방안 연구 (Prescriptive Analytics System Design Fusing Automatic Classification Method and Intellectual Structure Analysis Method)

  • 정도헌
    • 정보관리학회지
    • /
    • 제34권4호
    • /
    • pp.33-57
    • /
    • 2017
  • 본 연구는 새로운 분석법으로 떠오르는 처방적 분석 기법을 소개하고, 이를 분류 기반의 시스템에 효율적으로 적용하는 방안을 제시하는 것을 목적으로 한다. 처방적 분석 기법은 분석의 결과를 제시함과 동시에 최적화된 결과가 나오기까지의 과정 및 다른 선택지까지 제공한다. 새로운 개념의 분석 기법을 도입함으로써 문헌 분류를 기반으로 하는 응용 시스템을 더욱 쉽게 최적화하고 효율적으로 운영하는 방안을 제시하였다. 최적화의 과정을 시뮬레이션하기 위해, 대용량의 학술문헌을 수집하고 기준 분류 체계에 따라 자동 분류를 실시하였다. 처방적 분석 개념을 적용하는 과정에서 대용량의 문헌 분류를 위한 동적 자동 분류 기법과 학문 분야의 지적 구조 분석 기법을 동시에 활용하였다. 실험의 결과로 효과적으로 서비스 분류 체계를 수정하고 재적용할 수 있는 몇 가지 최적화 시나리오를 효율적으로 도출할 수 있음을 보여 주었다.

대용량 자료와 순차적 자료를 위한 부스팅 알고리즘 (Boosting Algorithms for Large-Scale Data and Data Batch Stream)

  • 윤영주
    • 응용통계연구
    • /
    • 제23권1호
    • /
    • pp.197-206
    • /
    • 2010
  • 본 논문에서는 대용량 자료 혹은 시간에 따라 순차적으로 들어오는 자료의 분류를 위한 부스팅(boosting) 알고리즘을 제안한다. 대용량 자료나 순차적 자료의 경우 분석시 모든 훈련 자료(training data)들을 한번에 이용하기 어려우므로 보통의 부스팅 알고리즘은 적절하지 못하다. 이러한 상황을 극복하기 위해 AdaBoost와 Arc-x4와 같은 부스팅 알고리즘을 수정하여 제안한다. 모의 실험과 실제 자료 분석을 통해 대용량 자료나 순차적 자료에 제안된 알고리즘이 잘 적용됨을 보였다.

전진적 단계 알고리즘을 이용한 대용량 데이터와 순차적 배치 데이터의 분류 (Classification of large-scale data and data batch stream with forward stagewise algorithm)

  • 윤영주
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권6호
    • /
    • pp.1283-1291
    • /
    • 2014
  • 본 논문에서는 대용량이거나 시간에 따라 순차적으로 들어오는 데이터의 분류를 위한 전진적 단계 알고리즘을 제안한다. Adaboost 알고리즘은 노이즈가 있는 데이터에 대하여 성능이 떨어지는 것으로 알려져 있다. 이를 해결하기 위한 한 가지 방법으로 전진적 단계 선형 회귀 방법을 사용한다. 대용량 데이터나 순차적 배치 데이터의 경우에도 이러한 상황을 극복하기 위해 전진적 단계 알고리즘 방법을 적용한 방법을 제안한다. 모의실험과 실제 자료 분석을 통해 제안된 알고리즘이 좋은 성능을 보임을 알 수 있었다.

합성곱 신경망(Convolution Neural Network)를 이용한 악성코드 탐지 방안 연구 (Convolution Neural Network for Malware Detection)

  • 최신형
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.166-168
    • /
    • 2018
  • 새롭게 변형되는 대규모 악성코드들을 신속하게 탐지하기 위하여 인공지능 딥러닝을 이용한 악성코드 탐지 기법을 제안한다. 대용량의 고차원 악성코드를 저차원의 이미지로 변환하고, 딥러닝 합성곱신경망(Convolution Neural Network)을 통해 이미지의 악성코드 패턴을 학습하고 분류하였다. 본 논문에서는 악성코드 분류 모델의 성능을 검증하기 위하여 악성코드 종류별 분류 실험과 악성코드와 정상코드 분류 실험을 실시하였고 각각 97.6%, 87%의 정확도로 악성코드를 구별해 내었다. 본 논문에서 제안한 악성코드 탐지 모델은 차원 축소를 통해 10,868개(200GB)의 대규모 데이터에 대하여 10분 이내의 학습시간이 소요되어 새로운 악성코드 학습 및 대용량 악성코드 탐지를 신속하게 처리 가능함을 보였다.

TF-IDF를 활용한 k-means 기반의 효율적인 대용량 기사 처리 및 요약 알고리즘 (Article Analytic and Summarizing Algorithm by facilitating TF-IDF based on k-means)

  • 장민서;오수진;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.271-274
    • /
    • 2018
  • 본 논문에서는 뉴스기사 데이터를 활용하여 대규모 뉴스기사를 소주제로 분류하는 군집 분석 방법을 제안한다. 또한, 분류된 뉴스기사를 사용자가 빠르게 이해하고 접할 수 있도록 핵심 문장을 추출하여 제공하는 방법을 제안한다. 분석 데이터는 포털 사이트 점유율 1위인 네이버의 경제 분야 뉴스기사를 크롤링하여 수집한다. 뉴스기사의 분석을 위해 전 처리를 통해 특수문자, 조사, 어미, 구두점 등의 불 용어 처리를 수행한다. 또한, k-means 알고리즘을 이용하여 대용량의 뉴스기사를 주제 별로 분류하는 것을 진행하며 그것을 토대로 핵심 문장을 추출한다. 추출된 핵심 문장은 분류된 뉴스기사의 주제를 나타내며 사용자에게 빠르게 정보를 전달하기 위해 활용한다. 본 논문의 연구 내용이 여러 언론사 사이트에 반영되면 사이트 품질과 사용자 만족도 향상에 기여할 수 있을 것으로 보인다.

의미적 연관태그와 이미지 내용정보를 이용한 웹 이미지 분류 (Web Image Classification using Semantically Related Tags and Image Content)

  • 조수선
    • 인터넷정보학회논문지
    • /
    • 제11권3호
    • /
    • pp.15-24
    • /
    • 2010
  • 본 논문에서는 대용량 온라인 이미지 공유 사이트를 적용 도메인으로 하여 이미지 검색의 만족도를 높이고자 태그의 의미적 연관성과 이미지 자체의 내용 정보를 결합하는 이미지 분류 방법을 제안한다. 이미지 검색 및 분류 알고리즘이 플리커와 같은 대용량 이미지 공유 사이트에서 활용될 수 있으려면 실제 웹상의 태깅된 이미지를 대상으로 한 적용이 가능해야 한다. 제안된 알고리즘은 'bag of visual word'기반의 이미지 내용으로 웹 이미지를 분류하기 위한 것으로서, 의미적 연관태그를 이용해 일차 검색된 이미지들을 훈련 데이터로 사용하여 카테고리 모델을 훈련하고, PLSA를 적용하여 평가 이미지들을 분류하는 것이다. 제안된 방법으로 플리커의 웹 이미지들을 대상으로 실험한 결과, 태그 정보를 이용한 기존의 방법에 비해 우수한 검색 정확도 및 재현율을 확인할 수 있었다.

맵리듀스 환경에서 규칙 기반 분류화를 이용한 궤적 데이터 주행 시간 예측 알고리즘 (Travel Time Prediction Algorithm for Trajectory data by using Rule-Based Classification on MapReduce)

  • 김재원;이현조;장재우
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.798-801
    • /
    • 2014
  • 여행 정보 시스템(ATIS), 교통 관리 시스템 (ITS) 등 궤적 기반 서비스에서, 서비스 품질을 향상시키기 위해서는 주어진 궤적 질의에 대한 정확한 주행시간을 예측하는 것이 필수적이다. 이를 위한 대표적인 공간 데이터 분석 기법으로는 데이터 분류에서 높은 정확도를 보장하는 규칙 기반 분류화 기법이 존재한다. 그러나 기존 규칙 기반 분류화 기법은 단일 컴퓨터 환경만을 고려하기 때문에, 대용량 공간 데이터 처리에 적합하지 않은 문제점이 존재한다. 이를 해결하기 위해, 본 연구에서는 맵리듀스 환경에서 규칙 기반 분류화를 이용한 궤적 데이터 주행 시간 예측 알고리즘을 개발하고자 한다. 제안하는 알고리즘은 첫째, 맵리듀스를 이용하여 대용량 공간 데이터를 병렬적으로 분석함으로써, 활용도 높은 궤적 데이터 규칙을 생성한다. 이를 통해 대용량 공간 데이터 기반의 규칙 생성 시간을 감소시킨다. 둘째, 그리드 구조 기반의 지도 데이터 분할을 통해, 사용자 질의처리 시 탐색 성능을 향상시킨다. 즉, 주행 시간 예측을 위한 규칙 그룹을 탐색 시 질의를 포함하는 그리드 셀만을 탐색하기 때문에, 질의처리 성능이 향상된다. 마지막으로 맵리듀스 구조에 적합한 질의처리 알고리즘을 설계하여, 효율적인 병렬 질의처리를 지원한다. 이를 위해 맵 함수에서는 선정된 그리드 셀에 대해, 질의에 포함된 도로 구간에서의 주행 시간을 병렬적으로 측정한다. 아울러 리듀스 함수에서는 출발 시간 및 구간별 주행 시간을 바탕으로 맵 함수의 결과를 병합함으로써, 최종 결과를 생성한다. 이를 통해 공간 빅데이터 분석을 통한 주행 시간 예측 기법의 처리 시간 및 결과 정확도를 향상시킨다.

대용량 지문 데이터베이스에 대한 자동 지문 인식 시스템 개발에 관한 연구 (A Study on Automated Fingerprint Identification System for Large Fingerprint Database)

  • 설승진;노경현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (하)
    • /
    • pp.1929-1932
    • /
    • 2003
  • 자동 지문 인식시스템은 대부분의 사용자 인증 과정을 처리하기 위해 사용하는 아이디/비밀번호 방법의 보안상 결점인 비밀번호 유출로 인한 보안 위협을 근본적으로 제거할 수 있다. 그러나 아직까지 수십만에서 수천만 건에 이른 대용량 지문 검색, 서버에 대한 성능이 입증된 것이 없으며 본 연구에서는 지문분류, 대용량 지문 검색, 다중서버, 다중쓰레드. 인증서버 기술을 갖는 대용량 자동 지문 인식 시스템을 연구하였다. 그리고 10만개의 지문 데이터를 기준으로 지문 검색에 대한 성능을 실험하였다.

  • PDF