• 제목/요약/키워드: 분산병렬처리|최적화

검색결과 39건 처리시간 0.031초

아파치 스파크에서 모바일 빅 데이터에 대한 다계층 인공신경망 기반 분산 딥러닝 구현 및 최적화 (Implementation and Optimization of Distributed Deep learning based on Multi Layer Neural Network for Mobile Big Data at Apache Spark)

  • 명노영;안범진;유헌창
    • 한국컴퓨터교육학회 학술대회
    • /
    • 한국컴퓨터교육학회 2017년도 하계학술대회
    • /
    • pp.201-204
    • /
    • 2017
  • 빅 데이터의 시대가 도래하면서 이전보다 데이터로부터 유의미한 정보를 추출하는 것에 대한 연구가 활발하게 진행되고 있다. 딥러닝은 텍스트, 이미지, 동영상 등 다양한 데이터에 대한 학습을 가능하게 할 뿐만 아니라 높은 학습 정확도를 보임으로써 차세대 머선러닝 기술로 각광 받고 있다. 그러나 딥러닝은 일반적으로 학습해야하는 데이터가 많을 뿐만 아니라 학습에 요구되는 시간이 매우 길다. 또한 데이터의 전처리 수준과 학습 모델 튜닝에 의해 학습정확도가 크게 영향을 받기 때문에 활용이 어렵다. 딥러닝에서 학습에 요구되는 데이터의 양과 연산량이 많아지면서 분산 처리 프레임워크 기반 분산 학습을 통해 학습 정확도는 유지하면서 학습시간을 단축시키는 사례가 많아지고 있다. 본 연구에서는 범용 분산 처리 프레임워크인 아파치 스파크에서 데이터 병렬화 기반 분산 학습 모델을 활용하여 모바일 빅 데이터 분석을 위한 딥러닝을 구현한다. 딥러닝을 구현할 때 분산학습을 통해 학습 속도를 높이면서도 학습 정확도를 높이기 위한 모델 튜닝 방법을 연구한다. 또한 스파크의 분산 병렬처리 효율을 최대한 끌어올리기 위해 파티션 병렬 최적화 기법을 적용하여 딥러닝의 학습속도를 향상시킨다.

  • PDF

전문용어 인식 시스템을 위한 분산 병렬 처리 플랫폼 최적화 및 성능평가 (Optimization and Performance Analysis of Distributed Parallel Processing Platform for Terminology Recognition System)

  • 최윤수;이원구;이민호;최동훈;윤화묵;송사광;정한민
    • 한국콘텐츠학회논문지
    • /
    • 제12권10호
    • /
    • pp.1-10
    • /
    • 2012
  • 과학기술 문헌의 전문용어 인식 분야는 지금까지 다양한 통계적 방법론을 사용하여 용어 인식 정확률을 향상시키기 위하여 연구되어 왔다. 하지만 기존의 연구는 단일-코어 또는 단일 머신 상에서 수행되었기 때문에, 폭발적으로 증가하는 문헌들에 대한 실시간 분석 요구를 처리할 수 없는 상황에 직면하고 있다. 본 논문에서는 전문용어를 인식하는 과정에서 병목현상이 발생하는 작업을 '후보용어 추출 과정'의 언어처리부분과 '용어 가중치 할당 과정'에서 통계정보를 취합하는 부분으로 분류하고, 각 작업을 분산병렬 처리 기반의 맵리듀스 작업을 이용하여 해결하는 전문용어 인식 방법을 구현하고 실험하였다. 실험은 확장성과 분산 병렬 처리 환경 최적화 두 가지로 수행하였고, 첫 번째 실험에서 12개의 노드를 사용하여 분산 병렬 처리하였을 때 단일 머신을 사용한 경우보다 11.27배의 처리속도 향상을 보였다. 두 번째 실험에서 1)기본 환경, 2)복수 리듀서, 3)컴바이너, 4) 2)와 3)의 조합에 대하여 수행하였고, 3)컴바이너 사용이 가장 우수한 성능을 보여 주었다. 본 논문에서 구현된 전문용어 인식 시스템은 대용량 과학기술 문헌에 대한 지식 추출 작업속도 개선에 기여하였다.

유전자 알고리즘를 사용한 분산 처리에 의한 다목적 위성 구조체의 최적화 (Optimization of Komsat II Structure Using Genetic Algorithm in Parallel Computation Environment)

  • 윤진환;임종빈;박정선
    • 한국시뮬레이션학회:학술대회논문집
    • /
    • 한국시뮬레이션학회 2002년도 추계학술대회 논문집
    • /
    • pp.3-7
    • /
    • 2002
  • 컴퓨터 네트워킹 기술의 발달에 힘입어 분산처리를 이용한 기법이 복잡한 구조물의 최적설계에 널리 사용되고 있다. 최적설계시 구조물이 복잡하고 설계 변수가 많아질수록 설계 변수간의 교호작용이 복잡해지고 국부최적해가 많아지는 특성이 있다. 최근의 최적 설계는 이러한 문제점을 해결하고자 다양한 전역 최적화 기법을 도입하여 적용하고 있다. 본 연구에서는 진화이론을 바탕으로 한 유전자 알고리즘과 실험계획법을 바탕으로 한 반응표면법에 분산처리 기법을 도입하여 인공위성 추진 모듈의 최적화에 적용시켰다. 그 결과 유전자 알고리즘이 조금 더 좋은 최적값을 보였으며 해석시간은 반응표면법을 적용 시켰을 경우가 훨씬 짧았다. 병렬처리 기법을 이용한 위성구조체의 최적설계에 있어 유전자 알고리즘은 해의 전역성에서 반응표면법은 시간의 효율성에서 각각 장점을 보였다.

  • PDF

클라우드 스토리지 최적화를 위한 고속 캐싱 및 대용량 파일 전송 기법 (A Scheme on High-Performance Caching and High-Capacity File Transmission for Cloud Storage Optimization)

  • 김태훈;김정한;엄영익
    • 한국통신학회논문지
    • /
    • 제37권8C호
    • /
    • pp.670-679
    • /
    • 2012
  • 최근 클라우드 컴퓨팅 환경의 보급과 함께 스토리지의 데이터양이 급증함에 따라 그에 따른 스토리지 저장 비용이 빠르게 증가하고 있다. 더불어, 사용자들의 다양한 서비스 및 데이터 요청으로 클라우드 스토리지의 부하 또한 급증하고 있다. 이러한 문제를 해결하기 위해 분산 파일 시스템을 통한 저비용 고성능 스토리지 환경을 제공하고자 하는 기존의 연구가 있었으나, 이에는 데이터 병렬처리, 임의위치 접근처리, 빈번한 작은 워크로드 접근처리 등의 취약점이 존재한다. 최근에는 캐싱 기술을 이용하여 이를 개선하려는 연구가 주목받고 있다. 본 논문에서는 분산 파일 시스템 환경에서 병렬 캐싱, 분산 캐싱과 공유 자원을 고려한 데이터 병렬 전송방법을 제공하는 CHPC(Cloud storage High-Performance Caching) 구조를 제안하며, 또한 이를 기존의 방법들과 비교 평가하여 스토리지 부하를 최적화하는 방법을 제시한다. 더불어, 제안 기법이 기존 클라우드 시스템에 비하여 스토리지 서버의 디스크 입출력 감소, 서버로 데이터의 요청이 집중되어 발생하는 병목현상 방지, 각 클라이언트의 중복되는 페이지 캐시 제거, 데이터 전송률 향상의 장점을 가짐을 보인다.

아파치 스파크 활용 극대화를 위한 성능 최적화 기법 (Performance Optimization Strategies for Fully Utilizing Apache Spark)

  • 명노영;유헌창;최수경
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제7권1호
    • /
    • pp.9-18
    • /
    • 2018
  • 분산 처리 플랫폼에서 다양한 빅 데이터 처리 어플리케이션들의 수행 성능 향상에 대한 관심이 높아지고 있다. 이에 따라 범용적인 분산 처리 플랫폼인 아파치 스파크에서 어플리케이션들의 처리 성능 최적화에 대한 연구들이 활발하게 진행되고 있다. 스파크에서 데이터 처리 어플리케이션들의 수행 성능을 향상시키기 위해서는 스파크의 분산처리모델인 Directed Acyclic Graph(DAG)에 알맞은 형태로 어플리케이션을 최적화시켜야 하고 어플리케이션의 처리 특징을 고려하여 스파크 시스템 파라미터들을 설정해야 하기 때문에 매우 어렵다. 기존 연구들은 각각의 어플리케이션의 처리 성능에 영향을 주는 하나의 요소에 대한 부분적인 연구를 수행했고, 최종적으로 어플리케이션의 성능개선을 이뤄냈지만 스파크의 전반적인 처리과정을 고려한 성능 최적화를 다루지 않았을 뿐만 아니라 처리성능과 상관관계를 갖는 다양한 요소들의 복합적인 상호작용을 고려하지 못했다. 본 연구에서는 스파크에서 일반적인 데이터 처리 어플리케이션의 수행 과정을 분석하고, 분석된 결과를 토대로 어플리케이션의 처리과정 중 스테이지 내부와 스테이지 사이에서 성능 향상을 위한 처리 전략을 제안한다. 또한 스파크의 시스템 설정 파라미터 중 분산 병렬처리와 밀접한 관계를 갖는 파티션 병렬화에 따른 어플리케이션의 수행성능을 분석하고 적합한 파티셔닝 최적화 기법을 제안한다. 3가지 성능 향상 전략의 실효성을 입증하기 위해 일반적인 데이터 처리 어플리케이션: WordCount, Pagerank, Kmeans에 각각의 방법을 사용했을 때의 성능 향상률을 제시한다. 또한 제안한 3가지 성능 최적화 기법들이 함께 적용될 때 복합적인 성능향상 시너지를 내는지를 확인하기 위해 모든 기법들이 적용됐을 때의 성능 향상률을 제시함으로써 본 연구에서 제시하는 전략들의 실효성을 입증한다.

분산 공간 데이터베이스를 위한 동적 콜렉터 (Study on a Dynamic Collector for Distributed Spatial Databases)

  • 이재훈;박순영;정원일;배해영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (A)
    • /
    • pp.665-667
    • /
    • 2003
  • 분산된 공간 데이터를 효과적으로 저장. 관리하고 공유하기 위하여 분산 공간 데이터베이스 시스템의 필요성이 대두되었다. 분산 공간 데이터베이스 시스템은 많은 변화가 있는 환경이기 때문에 최적화된 질의 플랜을 작성하기가 어렵고 또한 고비용의 공간 연산 비용을 고려해야 하는 문제를 가지고 있다. 본 논문은 질의 실행 시간이 변화된 분산 데이터베이스 환경을 고려하여 질의를 수행하며 공간 조인을 병렬적으로 수행하는 동적 콜렉터를 제안한다. 동적 콜렉터는 분산 데이터베이스 환경의 변화에 적응할 수 있으며 분산 공간 조인을 효율적으로 처리할 수 있다.

  • PDF

병렬성 및 지역성 증진을 위한 컴파일러 최적화 (Compiler Optimization for Parallelism and Locality Improvement)

  • 짐진미;변석우;표창우;이만호
    • 한국정보처리학회논문지
    • /
    • 제6권2호
    • /
    • pp.307-314
    • /
    • 1999
  • 본 논문에서는 순차 언어로 작성된 프로그램을 '병렬화'와 지역성 향상'을 목적으로 변형시키는 최적화 기법에 대해서 논의한다. 의존성과 지역성을 고려하여 순차 프로그램의 루프 구조를 분석하고, 루프 분산과 루프 병합 기법을 적용하여 프로그램을 변형시킨다. 이 변형된 프로그램은 쉽게 '굵은 단위'의 병렬성과 지역성이 향상된 형태의 쓰레드 프로그램으로 표현될 수 있다. 따라서 이 변형 기법은 최적화/자동병렬화 컴파일러 구현에 유용하게 응용될 수 있다. 4개의 SPARC 프로세서를 장착한 Solaris 시스템에서 이 기법을 SPEC95 프로그램에 적용하여 시험한 결과 순차프로그램과는 20∼62%, 기존의 SUIF 병렬화 컴파일러와는 3∼12% 정도의 수행시간이 개선되는 효과를 얻게 되었다.

  • PDF

효율적인 각 기반 공간 분할 병렬 스카이라인 질의 처리를 위한 데이터 샘플링 기반 프루닝 기법 (A Sampling based Pruning Approach for Efficient Angular Space Partitioning based Skyline Query Processing)

  • 최우성;민종현;정재화;정순영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 춘계학술발표대회
    • /
    • pp.55-58
    • /
    • 2016
  • 스카이라인 질의란 다수의 선택지 중 '선호될 만한(preferable)' 선택지를 요청하는 질의이다. 사용자가 검토해야하는 선택지의 수를 대폭 감소시키는 스카이라인 질의는 데이터가 폭증하는 빅데이터 환경에서 매우 유용하게 활용된다. 이러한 배경에서 대용량 데이터에 대한 스카이라인 질의를 분산 병렬 처리하는 기법이 각광을 받고 있으며, 특히 맵리듀스(MapReduce) 기반의 분산 병렬 처리 기법 연구가 활발히 진행 중이다. 맵리듀스 기반 알고리즘의 병렬성 제고를 위해서는 부하 불균등 문제 중복 계산 문제 과다한 네트워크 비용 발생 문제를 해소해야 한다. 최근 각 기반 공간분할 기법을 사용하여 부하 불균등 문제와 중복 계산 문제를 해소하는 맵리듀스 기반 스카이라인 질의 처리 기법이 제안되었으나 해당 기법은 네트워크 비용 관점에서 최적화되어있지 않다. 본 논문에서는 부하 불균등 문제와 중복 계산 문제를 해소하면서도 프루닝을 통해 네트워크 비용 절감 시킬 수 있는 새로운 맵리듀스 기반 병렬 스카이라인 질의 처리 기법인 MR-SEAP(MapReduce sample Skyline object Equality Angular Partitioning)을 제안한다. MR-SEAP에서는 데이터를 샘플링하여 샘플 스카이라인 객체를 추출한 뒤 해당 객체들을 균등 분배하는 각도를 기준으로 공간을 분할하여 스카이라인 질의를 병렬 계산하되, 샘플 스카이라인을 이용하여 다수의 객체를 사전에 프루닝함으로써 네트워크 비용을 절감한다. 본 논문에서는 다양한 데이터 수량(cardinality) 및 분포(distribution)에 따른 제안 기법의 성능을 실험 평가함으로써 제안 기법의 우수성을 검증한다.

SIMD상에서의 이차선별법을 사용한 병렬 소인수분해 알고리즘 (Parallel Factorization using Quadratic Sieve Algorithm on SIMD machines)

  • 김양희
    • 정보처리학회논문지A
    • /
    • 제8A권1호
    • /
    • pp.36-41
    • /
    • 2001
  • 본 논문에서는 첫째로 큰 정수의 소인수 분해를 위한 병렬 이차선별법(parallel quadratic sieve) 알고리즘을 제시한다. 이 알고리즘을 반복적으로 사용하여, 분산 메모리 모델(DMM)을 갖는 SIMD구조의 병렬 컴퓨터 상에서 분할정복기법을 사용하는 병력 소인수 분해(parallel factoring) 알고리즘을 제시한다. 또한 이러한 알고리즘이 시간과 프로세서의 곱의 관점에서 최적화 알고리즘임을 보인다.

  • PDF

3차원 날개 공력설계를 위한 네트워크 분산 설계최적화 (A Network-Distributed Design Optimization Approach for Aerodynamic Design of a 3-D Wing)

  • 조창열;이상경
    • 한국항공우주학회지
    • /
    • 제32권10호
    • /
    • pp.12-19
    • /
    • 2004
  • 3차원 날개의 공력형상 설계최적화를 위한 설계최적화 시스템을 미래의 다분야 설계최적화 프레임워크의 일환으로 개발하였다. 이 설계최적화 시스템은 형상설계, 격자생성, 공력해석, 최적화의 4가지 모듈로 구성되어있다. 모두 상용패키지를 배경으로 개발하였으며 내장된 스크립트와 저널링 기능을 사용하여 배치 모드에서 자동적으로 실행되도록 프로그램 하였다. Visual Basic 프로그램을 사용하여 네 모듈을 통합하여 자동화된 설계기능을 갖도록 하였다. 특히 계산시간이 많이 소요되는 공력해석을 위하여 네트워크 통신을 이용한 분산 환경을 구현하였다. 공력해석은 일반적인 영역분할방식의 병렬처리 대신에 전역최적화 기법인 반응표면법과 연계하여 분산처리 시켰다. 개발한 공력설계 시스템의 검증을 위하여 간단한 항력최소화 문제에 적용하였으며 그 결과 상당히 향상된 설계 효율성과 적절한 설계 결과를 보여주었다.