• 제목/요약/키워드: 대용량계산

검색결과 341건 처리시간 0.036초

맵리듀스를 이용한 빙산 큐브 병렬 계산 (Iceberg Cube Parallel Computation using MapReduce)

  • 이수안;김진호;문양세;노웅기
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(A)
    • /
    • pp.25-26
    • /
    • 2010
  • 대용량 데이터의 효율적 분석을 위해 데이터 뷰브가 연구되었으며, 데이터 큐브 계산의 고비용 문제점을 해결하기 위하여 큐브의 일부 영역만을 계산하는 빙산 큐브가 등장하였다. 빙산 큐브는 저장 공간의 감소, 집중적인 분석 등의 장점이 있으나, 여전히 많은 계산과 저장 공간을 필요로 하는 단점이 있다. 본 논문에서는 이러한 문제점을 해결하는 실용적인 방법으로 대용량 문제를 분산하여 처리하는 분산 병렬 컴퓨팅 기술인 맵리듀스(MapReduce) 프레임워크를 사용하여 분산 병렬 빙산 큐브인 MR-Naive와 MR-BUC 알고리즘을 제안한다. 실험을 통해 맵리듀스 프레임워크를 통한 빙사 큐브 계산이 효율적으로 분산 병렬 처리 됨을 확인하였다.

  • PDF

대용량 온라인 한자 인식을 위한 클러스터링 거리계산 척도 (Distance Measures in HMM Clustering for Large-scale On-line Chinese Character Recognition)

  • 김광섭;하진영
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권9호
    • /
    • pp.683-690
    • /
    • 2009
  • 은닉 마코프 모델(Hidden Markov Model: HMM)에 기반을 둔 온라인 한자 인식에서 클래스의 수가 대용량일 경우에는 인식에 걸리는 시간 증가가 좋은 인식 시스템을 구현하는데 있어서의 걸림돌이 된다. 본 논문에서는 이러한 인식 속도 문제를 해결하고자 HMM을 클러스터링하여 인식 속도를 개선하는 방법과 이에 적합한 효율적인 HMM 간의 거리계산법을 제안한다. 유니코드 한 중 일 통합한자로 정의된 총 20,902개의 한자에 대한 온라인 한자 인식 시스템을 구축하는 실험에서 약 2배 정도로 인식속도가 향상됨을 확인할 수 있었고 클러스터링을 하지 않았을 때보다 0.9%의 인식률만 하락한 95.37%의 10순위 인식률을 달성했다.

GPU를 활용한 분산 컴퓨팅 프레임워크 성능 개선 연구 (A Study on Performance Improvement of Distributed Computing Framework using GPU)

  • 송주영;공용준;심탁길;신의섭;성기진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.499-502
    • /
    • 2012
  • 빅 데이터 분석의 시대가 도래하면서 대용량 데이터의 특성과 계산 집약적 연산의 특성을 동시에 가지는 문제 해결에 대한 요구가 늘어나고 있다. 대용량 데이터 처리의 경우 각종 분산 파일 시스템과 분산/병렬 컴퓨팅 기술들이 이미 많이 사용되고 있으며, 계산 집약적 연산 처리의 경우에도 GPGPU 활용 기술의 발달로 보편화되는 추세에 있다. 하지만 대용량 데이터와 계산 집약적 연산 이 두 가지 특성을 모두 가지는 문제를 처리하기 위해서는 많은 제약 사항들을 해결해야 하는데, 본 논문에서는 이에 대한 대안으로 분산 컴퓨팅 프레임워크인 Hadoop MapReduce와 Nvidia의 GPU 병렬 컴퓨팅 아키텍처인 CUDA 흘 연동하는 방안을 제시하고, 이를 밀집행렬(dense matrix) 연산에 적용했을 때 얻을 수 있는 성능 개선 효과에 대해 소개하고자 한다.

대용량 파일 전송을 위한 능동적인 QoS 제공 방안의 설계 및 성능분석 (Design and Performance Analysis of an Active QoS Allocation Scheme for large File Transfer)

  • 김국한;이만희;변옥환;유인태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (C)
    • /
    • pp.283-285
    • /
    • 2003
  • 슈퍼컴퓨터 사용자들은 FTP(File Transfer Protocol)을 이용해서 대용량의 파일을 전송한다. 전송되는 데이터들은 승용차나 비행기 설계, 의약품 개발. 기상 예보 그리고 복잡한 수학적 계산 등과 같이 다양한 분야에 걸친 연구관련 데이터로서 고성능 슈퍼컴퓨터에 의한 연산 처리가 요구된다 기존의 FTP 는 네트워크 상태에 따라 전송 지연이나 데이터 손실 등의 문제로 사용자의 불편을 초래하였다. 이에 전송 성능을 효율적으로 높이고 데이터 손실을 최소화를 제공하는 연구가 필요하다. 근래의 TCP (Transmission Control Protocol) 성능 향상 연구에 관한 연구들의 관심은 크게 두 가지이다. 하나는 윈도우 사이즈 조절(auto-tuning)이고, 다른 하나는 Multi-stream 이다. 본 연구에서는 파일 전송 성능 향상을 위한 방법으로 윈도우 사이즈 조절 방법을 사용하였고, 네트워크 상태에 따라 QoS(quality of Service)를 제공한다. 이런 성능 향상 결과로 신뢰성 있는 네트워크를 제공하여 사용자들은 신속하게 데이터를 전송하며 연산처리 결과가 더욱 정확하다고 신뢰할 수 있다. 본 고에서는 대용량 파일을 전송 할 때 성능을 향상시키는 관련 연구를 알아보고 대용량 파일 전송 중 네트워크 상태에 따라 005를 능동적으로 작용하여 테스트하고 성능을 분석하였다.

  • PDF

대용량 실험데이터 고속전송 시스템 구현 (An Implementation of High Performance Transmission System for Large-scale Experimental Data)

  • 진두석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.506-507
    • /
    • 2021
  • 대용량 실험데이터를 생성하는 가속기, 전자현미경, 전파망원경 등과 같은 첨단 실험장비들의 기술적 발전으로, 생성되는 실험데이터의 규모가 폭발적으로 증가하고 있다. 이에 따라, 데이터 분석연구에 대용량 데이터의 저장이 가능하고, 데이터 분석에 필요한 고성능 계산 서버를 갖춘 전문 데이터센터의 활용이 증가하고 있다. 본 논문에서는 이러한 전문 데이터센터를 연계한 데이터 분석 연구환경구축에서 가장 기본이 되는 데이터수집을 위한 고성능 데이터 전송 시스템을 구현하고, 이를 적용한 사례를 통해 제안하는 시스템의 효율성을 검증한다.

국내 이동통신 서비스의 추가 주파수분배에 관한 연구 (A Study on the Additional Spectrum Allocation for Domestic Celluar Mobile Service)

  • 김종호;이재욱;박덕규
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2003년도 추계종합학술대회 논문집
    • /
    • pp.253-259
    • /
    • 2003
  • 최근 각 이동통신사업별로 기존의 CDMA 방식을 이용하여 IMT-2000의 서비스에 해당되는 대용량 데이터서비스를 제공하고 있다. 그러나 각 사업자 별로 할당된 현재의 주파수대역으로는 영상서비스를 기본으로 하는 대용량 데이터서비스를 제공하기 어려운 상황이며, 새로운 주파수대역의 추가 분배가 필요한 상태이다. 본 논문에서는 ITU-R에서 제시하고 있는 권고안을 기초로 국내 이동통신서비스 확대에 요구되는 추가 스펙트럼 요구량을 산출하였으며, 디지털 이동통신서비스를 위해 필요한 스펙트럼 효율의 정량화 및 추가 소요 주파수 대역을 계산하는 방법을 정량화 하였다.

  • PDF

Min-Hash를 이용한 효율적인 대용량 그래프 클러스터링 기법 (An Efficient Large Graph Clustering Technique based on Min-Hash)

  • 이석주;민준기
    • 정보과학회 논문지
    • /
    • 제43권3호
    • /
    • pp.380-388
    • /
    • 2016
  • 그래프 클러스터링은 서로 유사한 특성을 갖는 정점들을 동일한 클러스터로 묶는 기법으로 그래프 데이터를 분석하고 그 특성을 파악하는데 폭넓게 사용된다. 최근 소셜 네트워크 서비스와 월드 와이드 웹, 텔레폰 네트워크 등의 다양한 응용분야에서 크기가 큰 대용량 그래프 데이터가 생성되고 있다. 이에 따라서 대용량 그래프 데이터를 효율적으로 처리하는 클러스터링 기법의 중요성이 증가하고 있다. 본 논문에서는 대용량 그래프 데이터의 클러스터들을 효율적으로 생성하는 클러스터링 알고리즘을 제안한다. 우리의 제안 기법은 그래프 내의 클러스터들 간의 유사도를 Min-Hash를 이용하여 효과적으로 추정하고 계산된 유사도에 따라서 클러스터들을 생성한다. 실세계 데이터를 이용한 실험에서 우리는 본 논문에서 제안하는 기법과 기존 그래프 클러스터링 기법들과 비교하여 제안기법의 효율성을 보였다.

맵리듀스에서 데이터 큐브의 효율적인 계산 기법 (Efficient Computation of Data Cubes in MapReduce)

  • 이기용;박소정;박은주;박진경;최연정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.715-718
    • /
    • 2014
  • 맵리듀스(MapReduce)는 대용량 데이터의 병렬 처리에 사용되는 프로그래밍 모델이다. 데이터 큐브(data cube)는 대용량 데이터의 다차원 분석에 널리 사용되는 연산자로서, 주어진 차원 애트리뷰트들의 모든 가능한 조합에 대한 group-by 를 계산한다. 차원 애트리뷰트가 n 개일 때, 데이터 큐브는 총 $2^n$ 개의 group-by 를 계산한다. 본 논문은 맵리듀스 환경에서 데이터 큐브를 효율적으로 계산하는 방법을 제안한다. 제안 방법은 $2^n$ 개의 group-by 를 분할하고 이들을 ${\lceil}n/2{\rceil}$개의 맵리듀스 잡(job)을 통해 단계적으로 계산한다. 제안 방법은 각 맵리듀스 잡에서 맵 함수가 출력하는 중간결과의 크기를 최소화함으로써 총 계산 비용을 크게 줄인다. 실험을 통해 제안 방법은 기존 방법에 비해 데이터 큐브를 더 빠르게 계산함을 보인다.

대용량 데이터 스트림을 처리하는 과학계산 응용을 위한 효율적인 데이터 이동 기법 (Efficient Data Movement for Scientific Application Processing Large Size Data Stream)

  • 변은규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.170-173
    • /
    • 2015
  • 대규모 실험장비에서 발생하는 아주 큰 사이즈의 데이터를 처리하기 위해서 기존에는 수집 및 저장, 계산 장비로의 원거리 전송, 데이터 분석 등의 단계를 따로 처리해 왔다. 데이터의 양이 폭발적으로 증가하고 있고 동시에 데이터의 실시간 처리 요구가 증가하는 상황이다. 이에 본 연구에서는 추상화된 입출력 계층을 이용하여 마치 로컬 저장소에 있는 데이터를 사용하는 것과 같은 인터페이스를 통해 원거리에서 생성된 데이터 스트림을 실시간으로 이동하고 처리할 수 있는 기법을 소개한다. 또한 데이터 전처리 계산 위치를 송신 측으로 변경하여 대용량 데이터를 효과적으로 전송하기 기법을 제안한다.

대용량 컴뮤트 타임 임베딩을 위한 연산 속도 개선 방식 제안 (Proposing the Methods for Accelerating Computational Time of Large-Scale Commute Time Embedding)

  • 한희일
    • 전자공학회논문지
    • /
    • 제52권2호
    • /
    • pp.162-170
    • /
    • 2015
  • 컴뮤트 타임 임베딩을 구현하려면 그래프 라플라시안 행렬의 고유값과 고유벡터를 구하여야 하는데, $o(n^3)$의 계산량이 요구되어 대용량 데이터에는 적용하기 어려운 문제가 있다. 이를 줄이기 위하여 표본화 과정을 통하여 크기가 줄어든 그래프 라플라시안 행렬에서 구한 다음, 원래의 고유값과 고유벡터를 근사화시키는 Nystr${\ddot{o}}$m 기법을 주로 채택한다. 이 과정에서 많은 오차가 발생하는데, 이를 개선하기 위하여 본 논문에서는 그래프 라플라시안 대신에 가중치 행렬을 표본화하고 이로부터 구한 고유값과 고유벡터를 그래프 라플라시안의 고유값과 고유벡터로 변환하는 기법을 이용하여 대용량 데이터로 구성된 스펙트럴 그래프를 근사적으로 컴뮤트 타임 임베딩하는 기법을 제안한다. 하지만, 이 방식도 스펙트럼 분해를 계산하여야 하므로 데이터의 크기가 증가하면 적용하기 어려운 문제가 발생한다. 이의 대안으로, 스펙트럼 분해를 계산하지 않고도 데이터 집합의 크기에 영향을 받지 않으면서 컴뮤트 타임을 근사적으로 계산하는 방식을 구현하고 이들의 특성을 실험적으로 분석한다.