• 제목/요약/키워드: 데이터 처리량

검색결과 2,565건 처리시간 0.035초

플레이백 시간 예측 프로그램 개발 (Program development for playback time estimation)

  • 채동석;양승은;이재승
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.492-494
    • /
    • 2012
  • 저궤도 위성은 위성과 지상과의 통신시간이 제한되어 있으므로 제한된 시간에 위성의 대용량메모리(Mass Memory)에 저장된 데이터를 전송받아야 하는데, 이를 위해 저장되는 데이터 량을 정확히 예측할 수 있어야 하고, 저장된 데이터 량에 따라 지상으로 전송하는데 소요되는 시간을 예측할 수 있어야 한다. 본 논문은 위성에 저장되고 있는 Telemetry 종류에 따라 대용량메모리에 저장되는 데이터 량을 예측하고, 저장된 데이터 량에 따라 지상으로 전송하는데 소요되는 시간을 계산하기 위해 개발된 플레이백 시간 예측 프로그램에 대해 서술한 것이다.

대규모 분산 처리 프레임워크에 따른 대규모 그래프 처리 성능 비교 (A Performance Comparison of Distributed Data Processing Frameworks for Large Scale Graph Data)

  • 배경숙;공용준;심탁길;신의섭;성기진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.469-472
    • /
    • 2012
  • 최근 IT 분야의 화두로 '빅 데이터'가 떠오르고 있으며 많은 기업들이 이를 분석하여 이익을 증대하기 위한 노력을 하고 있다. 이에 구글은 초기에 맴리듀스라고 하는 대용량 분산처리 프레임워크 기술을 확보하여 이를 기반으로 한 서비스를 제공하고 있다. 그러나 스마트 단말 및 소설미디어 등의 출현으로 다양한 디지털 정보들이 그래프로 표현되는 추세가 강화되고 있으며 기존의 맵리듀스로 이를 처리하는 데에 한계를 느낀 구글은 Pregel 이라는 그래프 형 자료구조에 최적화된 또 다른 분산 프레임워크를 개발하였다. 본 논문에서는 일반적인 그래프 형 데이터가 갖는 특성을 분석하고, 대용량 그래프 데이터를 처리하는데 있어 맵리듀스가 갖는 한계와 Pregel은 어떤 방식으로 이를 극복하고 있는지를 소개한다. 또한 실험을 통하여 데이터의 특성에 따른 적절한 프레임워크의 선택이 대용량 데이터를 처리하는 데에 있어서 얼마나 큰 영향을 미치는지 확인한다.

집계 함수를 포함하는 조인 질의의 맵리듀스를 사용한 효율적인 처리 기법 (A Join Query with Aggregation functions Using Mapreduce)

  • 오소현;이기용
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 춘계학술발표대회
    • /
    • pp.132-135
    • /
    • 2015
  • 맵리듀스(MapReduce)는 분산 환경에서의 빅데이터(Big Data), 즉 대용량 데이터를 처리하는 프로그래밍 모델이다. 대용량의 데이터를 분석하기 위해서 집계 함수(Aggregation function)로 데이터를 처리할 수 있다. 본 논문에서는 맵리듀스 환경을 기반으로 SQL 쿼리에서 집계 함수를 더 적은 비용으로 수행하며 효율적으로 처리할 수 있는 두 가지 전략을 제안한다. 두 가지 전략 중 더 높은 성능을 보이는 전략을 더 효율적인 처리 방법으로 판단한다. 첫 번째 전략은 두 테이블을 Join하여 집계 함수를 처리하는 방법이다. 두 번째 전략은 집계 함수를 처리하여 Join에 참여할 튜플의 수를 최소로 줄인 후 Join을 수행하고 다시 집계 함수를 처리하는 방법이다. 두 제안 방법을 비교하기 위하여 실험을 한 결과 두 번째 전략이 더 적은 비용이 드므로 더 효율적인 처리 방법인 것으로 보인다.

경로 인덱스를 이용한 데이터 웨어하우스의 질의 처리 기법 (Query Processing Techniques for Data Warehouses using Path Indices)

  • 이정남;조완섭;이충세;김홍기
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.281-283
    • /
    • 1999
  • 본 논문에서는 객체-관계형 데이터베이스 관리 시스템(Object-Relational DBMS: ORDBMS) 기반의 데이터 웨어하우스(Data Warehouse)에서 성능 향상을 위한 인덱싱 기법과 이를 이용한 질의 처리 기법을 제안한다. 지금까지 관계형 DBMS를 기반으로 한 데이터 웨어하우스의 성능향상에 관한 연구는 활발히 이루어져 왔으나, ORDBMS에 기반한 데이터 웨어하우스의 구축 및 질의 처리 성능에 관한 연구는 거의 이루어지지 않고 있다. 데이터 웨어하우스는 기존의 데이터베이스와는 비교할 수 없을 만큼의 대용량 데이터를 가정하므로 ORDBMS를 이용하여 데이터 웨어하우스를 구축하는 경우에도 적절한 성능의 보장이 필수적으로 요구된다. 제안된 인덱싱 기법을 사용함으로써 데이터 웨어하우스 분석용 질의에 포함된 비용이 큰 조인과 그루핑 연산은 비용이 저렴한 인덱스 액세스 연산으로 대치되며, 데이터의 량과 거의 무관하게 질의 처리 비용이 고정되는 효과를 얻을 수 있다.

  • PDF

저궤도위성 탑재체 데이터 자동 전송 (Automatic payload data dump for the LEO satellite)

  • 채동석;양승은
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.641-642
    • /
    • 2011
  • 저궤도 위성은 지상과의 접축시간이 극히 제한되어 있어 위성에서 생성된 원격측정 데이터들을 위성의 대용량 메모리에 저장하였다가 지상과의 접촉시간에 저장된 데이터를 지상으로 전송하는 방식으로 운영된다. 위성에 저장할 수 있는 전체 데이터 크기는 대용량 메모리의 크기와 지상과의 통신 가용시간에 따라 제한을 받게 된다. 대용량 메모리 저장용량과 다운링크 버짓을 만족해야 하므로 일반적으로 각 탑재체로부터 수신하여 위성에 저장되는 원격측정 데이터들은 종류별로 일정한 주기를 가지게 되고 그 크기도 고정되어 있다. 그리고 각 데이터 종류별로 저장여부를 지상명령으로 조절할 수 있도록 되어 있다. 그러나 생성되는 데이터가 일정하지 않고 비주기성을 갖는 경우 데이터량을 예측할 수 없으므로 지상명령으로 데이터 저장여부를 제어하는 것은 거의 불가능하다. 이러한 경우에 생성되는 데이터량을 모니터링하면서 데이터를 전송할 수 있는 자동화된 데이터 통신 방식이 요구된다. 본 논문은 저궤도 위성 탑재체에서 비주기적으로 생성되는 데이터를 자동으로 전송받기 위한 데이터 자동 전송기능과 시험 결과에 대해서 기술하였다.

대용량 데이터를 위한 전역적 범주화를 이용한 결정 트리의 순차적 생성 (Incremental Generation of A Decision Tree Using Global Discretization For Large Data)

  • 한경식;이수원
    • 정보처리학회논문지B
    • /
    • 제12B권4호
    • /
    • pp.487-498
    • /
    • 2005
  • 최근 들어, 대용량의 데이터를 처리할 수 있는 트리 생성 방법에 많은 관심이 집중되고 있다 그러나 대용량 데이터를 위한 대부분의 알고리즘은 일괄처리 방식으로 데이터를 처리하기 때문에 새로운 데이터가 추가되면 이 데이터를 반영한 결정 트리를 생성하기 위해 처음부터 트리를 다시 생성해야 하다. 이러한 재생성에 따른 비용문제에 보다 효율적인 접근 방법은 결정 트리를 순차적으로 생성하는 접근 방법이다. 대표적인 알고리즘으로 BOAT와 ITI를 들 수 있으며 이들 알고리즘은 수치형 데이터 처리를 위해 지역적 범주화를 이용한다. 그러나 범주화는 정렬된 형태의 수치형 데이터를 요구하기 때문에 대용량 데이터를 처리해야하는 상황에서 전체 데이터에 대해 한번만 정렬을 수행하는 전역적 범주화 기법이 모든 노드에서 매번 정렬을 수행하는 지역적 범주화보다 적합하다. 본 논문은 수치형 데이터 처리를 위해 전역적 범주화를 이용하여 생성된 트리를 효율적으로 재생성하는 순차적 트리 생성 방법을 제안한다. 새로운 데이터가 추가될 경우, 전역적 범주화에 기반 한 트리를 순차적으로 생성하기 위해서는 첫째, 이 새로운 데이터가 반영된 범주를 재생성해야 하며, 둘째, 범주 변화에 맞게 트리의 구조를 변화시켜야한다. 본 논문에서는 효율적인 범주 재생성을 위해 샘플 분할 포인트를 추출하고 이로부터 범주화를 수행하는 기법을 제안하며 범주 변화에 맞는 트리 구조 변화를 위해 신뢰구간과 트리 재구조화기법을 이용한다. 본 논문에서 피플 데이터베이스를 이용하여 기존의 지역적 범주화를 이용한 경우와 비교 실험하였다.

Hadoop 기반의 대용량 데이터 보안 시스템에 관한 연구 (A Study on the Massive Data Security System of the Hadoop Based)

  • 김효남
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2016년도 제53차 동계학술대회논문집 24권1호
    • /
    • pp.305-306
    • /
    • 2016
  • 현재 스마트 시대에 살고 있는 우리는 매우 복잡하고 거미줄처럼 연결되어 있는 빅 데이터 환경에서 살고 있다. 이런 환경에서는 대용량 데이터를 효율적으로 관리하고 활용하는 것이 개인이나 기업들이 추구하려는 목표이다. 빅 데이터 시대에 데이터의 효율적인 관리와 활용을 위해 다양한 장비에서 수집되고 저장된 대용량 데이터에 대해서 일반적인 데이터 분석을 통한 보안 기술로는 상당한 시간과 자원 낭비가 수반된다. 이를 개선하기 위해 본 논문에서는 하둡을 이용하여 대용량 데이터에 대한 처리 및 분석을 통해 효과적인 보안 시스템을 제안한다.

  • PDF

중요도에 따른 분산 로그분석 스케줄링 (A Study on Scheduling of Distributed Log Analysis by the importance of the measure)

  • 백봉현;안병철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.1511-1514
    • /
    • 2009
  • 이기종(異機種) 시스템환경에서 발생하는 수많은 로그 데이터는 중요도에 따라 실시간 로그 분석이 필요하고 대용량의 로그 데이터의 경우 특정 시간내에 로그 분석 처리를 종료해야만 한다. 보안에 관련된 로그 정보의 경우 실시간 분석과 빠른 통계 처리를 요구할 것이며, 대용량의 비실시간성 로그 분석의 경우 로그 분석 및 통계처리를 주어진 특정 시간 내에 하여야 한다. 본 논문에서는 로그 데이터의 중요도에 따른 실시간 로그 분석 처리와 비실시간 대용량 통계 로그의 로그 분석 처리 마감 시간을 충족하는 로그 분석 스케줄링 정책을 제안한다.

위성기준점 안테나교체에 따른 수직위치 변동량의 정밀산정 (Precise Estimation of Vertical Position Displacement by Replacement of CORS Antennas)

  • 정광호;이영진
    • 한국측량학회지
    • /
    • 제30권4호
    • /
    • pp.343-352
    • /
    • 2012
  • 본 연구에서는 위성기준점의 안테나 교체로 인한 수직위치 변동량을 산출하기 위해 위성기준점의 데이터처리에 의해 산출된 좌표를 이용하는 방법을 사용하였다. 이를 위해 안테나 교체 전과 후의 위성기준점의 데이터를 정밀하게 처리하여 높이좌표를 산출하고, 안테나 교체 전후에 산출된 높이좌표 차이를 계산하는 방법으로 안테나의 수직위치 변동량을 산출하였다. 본 연구에서 산출된 수직위치 변동량을 적용하여 안테나교체 전후의 데이터를 처리한 결과 두 기간동안 산출된 수직좌표의 반복재현성(repeatability)은 평균적으로 7.9mm로 계산되었다. 이는 수직위치 변동량을 적용하지 않은 경우의 23.5mm에 비해 상당히 개선된 결과이며, 안테나의 교체 이전의 데이터처리 결과의 반복재현성과 유사한 수준인 것으로 판단되었다.

HMM을 이용한 HDFS 기반 동적 데이터 복제본 삭제 전략 (A Dynamic Data Replica Deletion Strategy on HDFS using HMM)

  • 서영호;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2014년도 제50차 하계학술대회논문집 22권2호
    • /
    • pp.241-244
    • /
    • 2014
  • 본 논문에서는 HDFS(Hadoop Distributed File System)에서 문제되고 있는 복제정책의 개선을 위해 HMM(Hidden Markov Model)을 이용한 동적 데이터 복제본 삭제 전략을 제안한다. HDFS는 대용량 데이터를 효과적으로 처리할 수 있는 분산 파일 시스템으로 높은 Fault-Tolerance를 제공하며, 데이터의 접근에 높은 처리량을 제공하여 대용량 데이터 집합을 갖는 응용 프로그램에 최적화 되어있는 장점을 가지고 있다. 하지만 HDFS 에서의 복제 메커니즘은 시스템의 안정성과 성능을 향상시키지만, 추가 블록 복제본이 많은 디스크 공간을 차지하여 유지보수 비용 또한 증가하게 된다. 본 논문에서는 HMM과 최상의 상태 순서를 찾는 알고리즘인 Viterbi Algorithm을 이용하여 불필요한 데이터 복제본을 탐색하고, 탐색된 복제본의 삭제를 통하여 HDFS의 디스크 공간과 유지보수 비용을 절약 할 수 있는 전략을 제안한다.

  • PDF