• 제목/요약/키워드: Large-memory data processing

검색결과 192건 처리시간 0.023초

SSD기반 RAID 시스템에서 빅데이터 유지 보수의 신뢰성을 향상시키기 위한 차등 수명 마감을 유도하는 안전한 IO 조절 기법 (A Safety IO Throttling Method Inducting Differential End of Life to Improving the Reliability of Big Data Maintenance in the SSD based RAID)

  • 이현섭
    • 디지털융복합연구
    • /
    • 제20권5호
    • /
    • pp.593-598
    • /
    • 2022
  • 최근 데이터의 생산량은 폭발적인 증가를 이루어왔고, 빅데이터를 안전하고 빠르게 저장하기 위한 대용량 저장 시스템이 다양하게 발전하고 있다. 저장시스템의 대표적인 구성은 빠른 데이터 처리속도를 가지고 있는 SSD를 신뢰성 높은 데이터 유지 보수가 가능한 RAID 그룹으로 사용하는 것이다. 그러나 SSD를 구성하는 낸드 플래시 메모리는 특정 횟수 이상 쓰기를 반복할 경우 열화가 발생하는 특징이 있기 때문에 RAID 그룹의 여러 SSD에서 동시에 불량이 발생할 가능성을 증가시킬 수 있다. 그리고 이러한 동시성 불량은 데이터를 복구할 수 없는 심각한 신뢰성의 문제를 초래할 수 있다. 따라서 본 논문에서는 이러한 문제를 해결하기 위해 RAID 그룹 내에서 각 SSD가 차등으로 수명 마감이 유도되도록 IO를 조절하는 방법을 제안한다. 본 논문에서 제안하는 기법은 SMART를 활용하여 각 SSD의 상태와 사용된 데이터 패턴에 따라 할당되는 IO 횟수를 단계별로 조절한다. 그리고 이 방법은 SSD의 차등 수명마감을 유도하기 때문에 RAID에서 대량의 동시성 불량이 발생하는 것을 방지하는 장점이 있다.

한시적 연관규칙을 위한 데이타 주도 탐사 기법 (Data-Driven Exploration for Transient Association Rules)

  • 조일래;김종덕;이도헌
    • 한국정보처리학회논문지
    • /
    • 제4권4호
    • /
    • pp.895-907
    • /
    • 1997
  • 연관규칙(asscociation rule) 탐사(mining)는 대용량 데이타베이스로부터 사건간의 동시 발생 경향을 발견하는 작업이다. 기존의 연관규칙은 전체 트랜잭션에 대하여 성립하는 사건 간의 연관 관계만을 고려하고 있다. 그러나 어떤 연관규칙은 비록 전체 시간구간에 대해서는 신뢰도가 그리 높지 않더라도 특징 기간에서 특별히 강한 신뢰도로 성립할 수 있고, 이러한 정보를 알 수 있다면 의사 결정에 매우 유용하리라고 생각한다. 본 논문 에서는 임의의 부분 시간구간에서 특별히 높은 신뢰도를 갖는 연관성을 한시적 연관규칙(transient assosiation rule)이라 정의하고, 대용량의 데이타베이스로부터 한시적 연관규칙이 성립하는 시간구간을 탐사하는 효율적인 알고리즘을 제안한다. 제안된 알고리즘은 불필요한 구간 검색을 배제할 수 있는 데이타 주도(data-driven) 검색 기법을 제시하고, 한 번의 데이타베이스 스캐닝(scaning)으로 다음 단계의 검색에 필요한 정보를 획득하여 주기억장치 상에 관리할 수 있도록 하는 효과적인 자료구조를 설계한다. 아울러 실험을 통해, 제안 알고리즘이 현장에 적용할 만한 시간 비용으로 수행됨을 보인다.

  • PDF

온톨로지 및 순서 규칙 기반 대용량 스트리밍 미디어 이벤트 인지 (Ontology and Sequential Rule Based Streaming Media Event Recognition)

  • 소치승;박현규;박영택
    • 정보과학회 논문지
    • /
    • 제43권4호
    • /
    • pp.470-479
    • /
    • 2016
  • UCC(User Created Contents) 형태의 다양한 영상 미디어 데이터가 증가함에 따라 의미 있는 서비스를 제공하기 위해 많은 분야에서 활발한 연구가 진행 중이다. 그 중 시맨틱 웹 기반의 미디어 분류에 대한 연구가 진행되고 있지만 기존의 미디어 온톨로지는 메타 정보를 이용하기 때문에 정보의 부재에 따른 한계점이 있다. 따라서 본 논문에서는 영상에서 인지되는 객체를 정하고 그 조합으로 구성된 서술 논리 기반의 온톨로지를 구축하고 영상의 장면에 따른 순서 기반의 규칙을 정의하여 이벤트 인지에 대한 기틀을 제안한다. 또한 증가하는 미디어 데이터에 대한 처리를 위해 분산 인-메모리 기반 프레임워크인 아파치 스파크 스트리밍을 이용하여, 영상 분류를 병렬로 처리하는 방법에 대해 설명한다. 유튜브에서 추출한 영상을 대상으로 대용량 미디어 온톨로지 데이터를 생성하고, 이를 이용하여 제시된 기법에 대한 성능 평가를 진행하여 타당성을 입증한다.

CUDA 프레임워크 상에서 스카이라인 질의처리 알고리즘 최적화 (Optimizing Skyline Query Processing Algorithms on CUDA Framework)

  • 민준;한환수;이상원
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권5호
    • /
    • pp.275-284
    • /
    • 2010
  • GPU는 대용량 데이터 처리를 위해 특화된 멀티 코어 기반의 스트림 프로세서로서 빠른 데이터 처리 속도 및 높은 메모리 대역 동의 장점을 가지며, CPU에 비해 가격이 저렴하다. 최근 이러한 GPU의 특성용 활용하여 범용 컴퓨팅 분야에 활용하고자 하는 시도가 계속되고 있다. 엔비디아에서 발표한 범용 병렬 컴퓨팅 아키텍처인 쿠다(CUDA) 프로그래밍 모델의 경우 프로그래머가 GPU 상에서 동작하는 범용 어플리케이션을 보다 손쉽게 개발할 수 있도록 지원한다. 본 논문에서는 쿠다 프로그래밍 모델을 이용하여 기본적인 중첩-반복 스카이라인 알고리즘을 병렬화시킨다. 그리고 스카이라인 알고리즘의 특성을 고려하여 GPU 자원용 효율적으로 사용할 수 있도록 GPU의 메모리 및 명령어 처리율에 중점을 두고 단계적인 최적화를 진행한다. 최적화 단계에 따라 각각 다른 성능 개선이 나타나는 것을 확인하였으며, 그 결과 기본 병렬 중첩-반복 알고리즘에 비해 평균 80%의 성능이 향상됨을 확인하였다.

대용량 그래프에서 k-차수 인덱스 테이블을 이용한 RDBMS 기반의 효율적인 최단 경로 탐색 기법 (RDBMS Based Efficient Method for Shortest Path Searching Over Large Graphs Using K-degree Index Table)

  • 홍지혜;한용구;이영구
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권5호
    • /
    • pp.179-186
    • /
    • 2014
  • 소셜 네트워크, 웹 페이지 링크, 교통 네트워크 등과 같은 최근의 네트워크들은 노드와 에지의 수가 방대한 빅 데이터이다. 소셜 네트워크 서비스나 네비게이션 서비스와 같이 이와 같은 네트워크를 이용하는 애플리케이션이 많아지고 있다. 대용량 네트워크는 전체를 메모리에 적재할 수 없어, 기존의 네트워크 분석 기술을 활용할 수 없다. 최근 대용량 그래프의 효율적 탐색을 제공하는 RDB 기반 연산자들이 프레임워크(Frontier-expand-merge framework, FEM)로 제안되었다. FEM은 효율적인 최단 경로 탐색을 위해 부분 최단 경로를 저장하는 RDB 기반의 인덱스 테이블을 구축하였다. 그러나 FEM의 인덱스 테이블은 최단 경로에 포함될 확률보다 인덱스의 거리에 의해 결정되기 때문에 인덱스 테이블 참조율이 떨어진다. 본 논문에서는 효율적인 최단 경로 탐색을 지원하는 인덱스 참조율이 높은 차수가 큰 노드들을 이용한 인덱스 테이블 구축 기법을 제안한다. 실험을 통하여 제안하는 인덱스 테이블 구축 기법이 실세계 데이터 셋에서 효율적인 최단 경로 탐색을 지원함을 보인다.

AVL 트리를 사용한 효율적인 스트림 큐브 계산 (Efficient Computation of Stream Cubes Using AVL Trees)

  • 김지현;김명
    • 정보처리학회논문지D
    • /
    • 제14D권6호
    • /
    • pp.597-604
    • /
    • 2007
  • 스트림 데이터는 끊임없이 고속으로 생성되는 데이터로써 최근 이러한 데이터를 분석하여 부가가치를 얻고자 하는 노력이 활발히 진행 중 이다. 본 연구에서는 스트림 데이터의 다차원적 분석을 위해 큐브를 고속으로 계산하는 방법을 제안한다. 스트림 데이터는 비즈니스 데이터와는 달리 정렬되지 않은 채로 도착하며, 데이터의 끝에 도달하지 않은 상태에서는 집계 결과를 낼 수 없어서, 고속으로 집계하는 과정에서 저장 공간의 낭비를 심하게 초래한다. 또한 큐브에 속한 집계 테이블들을 모두 생성하는 것은 시간/공간 측면에서 비효율적이라는 점이 지적되고 있다. 이러한 문제를 해결하기 위해 본 연구에서는 기존 연구들과 마찬가지로 큐브에 포함시킬 집계 테이블들을 사용자가 미리 정하도록 하였고, 정렬되지 않은 스트림 데이터를 고속으로 집계하는 과정에서 배열과 AVL 트리들로 구성된 자료구조를 집계 테이블의 임시 저장소로 사용하였다. 제안한 알고리즘은 생성하려는 큐브가 메모리에 상주할 수 없을 정도로 큰 경우에도 집계 연산을 수행할 수 있다. 이론적 분석과 성능 평가를 통해 제안한 큐브 계산 알고리즘이 실용적임을 입증하였다.

병렬 연산을 이용한 방출 단층 영상의 재구성 속도향상 기초연구 (Preliminary Study on the Enhancement of Reconstruction Speed for Emission Computed Tomography Using Parallel Processing)

  • 박민재;이재성;김수미;강지연;이동수;박광석
    • Nuclear Medicine and Molecular Imaging
    • /
    • 제43권5호
    • /
    • pp.443-450
    • /
    • 2009
  • 목적: 기존의 영상 재구성은 간소화된 투사 물리 모델을 사용하고 있다. 하지만 3D 재구성과 같은 실제적인 물리 모델은 시간이 많이 걸려서 임상에서 모든 데이터에 적용하기 힘들고, 복잡한 물리모델을 설명하기 위해 큰 메모리를 사용하면 한대의 일반적인 재구성 머신으로는 불가능하다. 개인 컴퓨터들에서도 큰 규모의 기술을 가능하게 하기위해, 병렬 연산을 이용한 빠른 재구성의 현실적인 분산메모리 모델을 제시한다. 대상 및 방법: 실제로 구현하는 가능성을 보기 위해 가상 컴퓨터들을 이용하여 선행 연구를 진행하였고, 다양한 가능성을 테스트하기 위해 상용서비스를 하고 있는 슈퍼컴퓨터(Tachyon)에서 성능 테스트를 하였다. 가장 많이 사용되는 2D 투사 영상과 실제적인 물리 모델인 3D 응답라인을 이용한 기댓값 최대화 알고리즘을 테스트하였다. 스터디 중 특정 반복횟수 이후에 속도가 최대 6배까지 느려지는 현상이 발견되어 컴파일러 최적화를 통해 병렬 효율의 극대화를 꾀하였다. 결과: Linux에서 MPICH와 NFS를 이용하여, 여러 컴퓨터에서 하나의 프로그램으로 분산 연산이 가능하였다. 병렬 연산을 했을 때 동일한 반복 연산에서 재구성된 영상간의 차이가 실수의 유효숫자(6bit) 정도임을 확인하였다. 2배의 연상장치를 사용했을 때 1.96배의 좋은 병렬화 효율을 보여주었다. 반복 연산 횟수가 증가함에 따라 느려지는 현상은 SSE를 이용한 Vectorization 방법을 사용했을 때 해결할 수 있었다. 결론: 이번 연구를 통해 일반 컴퓨터들을 이용한 현실적인 병렬 컴퓨터 시스템을 구성하여, 작은 메모리의 단일 일반 컴퓨터로는 불가능한 간단화 할 수 없는 복잡한 물리 과정도 영상 재구성 방법에 사용 가능하게 되었다.

주성분 분석을 이용한 지역기반의 날씨의 스트림 데이터 분석 (Stream Data Analysis of the Weather on the Location using Principal Component Analysis)

  • 김상엽;김광덕;배경호;류근호
    • 한국측량학회지
    • /
    • 제28권2호
    • /
    • pp.233-237
    • /
    • 2010
  • The recent advance of sensor networks and ubiquitous techniques allow collecting and analyzing of the data which overcome the limitation imposed by time and space in real-time for making decisions. Also, analysis and prediction of collected data can support useful and necessary information to users. The collected data in sensor networks environment is the stream data which has continuous, unlimited and sequential properties. Because of the continuous, unlimited and large volume properties of stream data, managing stream data is difficult. And the stream data needs dynamic processing method because of the memory constraint and access limitation. Accordingly, we analyze correlation stream data using principal component analysis. And using result of analysis, it helps users for making decisions.

블록 정합 움직임추정 알고리즘의 고속처리를 위한 시스토릭 어레이의 설계 (Design of Systolic Array for High Speed Processing of Block Matching Motion Estimation Algorithm)

  • 추봉조;김혁진;이수진
    • 한국컴퓨터정보학회논문지
    • /
    • 제3권2호
    • /
    • pp.119-124
    • /
    • 1998
  • 블록정합 움직임추정 알고리즘은 매우 많은 양의 계산 능력을 요구하고 현재 많은고속 알고리즘이 제안되었다. 기존의 움직임 추정에 대한 블록정합 알고리즘은 탐색 블록 데이터의 비 지역화로 인한 VLSI 규모가 커지는 문제와 입력데이터를 매번 입력해야 하는재 사용문제에 대한 단점을 가지고 있었다. 본 논문은 입출력 핀 수의 증가를 최대한 억제하면서 입력데이터의 재사용을 통한 VLSI 규모를 최소화 할 수 있는 고속 시스토릭 어레이를 설계하였다. 제안된 시스토릭 어레이는 탐색 블럭의 입력데이터를 반복적으로 재 사용하여 메모리 접근시간을 최소화시키고 알고리즘의 병렬성을 증가시켜 전체 처리요소의 연결이 시간적 공간적으로 지역화 되어 문제크기의 증가에 대한 시간적인 영향을 받지 않는 문제 독립적인 형태가 된다. 설계된 시스토릭 어레이는 이동벡터의 계산 복잡도가 O(N6)에서 O(N3)로 크게 향상되었으며 입촐력 핀의 수는O(N)을 가진다.

  • PDF

대용량 DNA서열 처리를 위한 서픽스 트리 생성 알고리즘의 개발 (Suffix Tree Constructing Algorithm for Large DNA Sequences Analysis)

  • 최해원
    • 한국산업정보학회논문지
    • /
    • 제15권1호
    • /
    • pp.37-46
    • /
    • 2010
  • 서픽스 트리는 데이터의 내부구조를 자세히 나타내고 선형시간 탐색이 가능한 효과적인 자료구조로서 DNA 서열분석 등에 유용하다. 그러나 서열을 서픽스 트리로 구축하는 경우 트리의 크기가 원본의 최소 30배 이상으로 커지므로 테라바이트(TB)급의 대용량 DNA 서열의 경우에 메모리상의 응용은 매우 어려운 문제점이 있다. 이에 본 논문에서는 디스크를 이용한 대용량 DNA의 서픽스 트리 응용기법을 제시한다. 이때 DNA 서열구조를 고려한 서픽스 트리 선형 탐색 특성 유지를 보장한다. 이를 검증하기 위하여 9G Byte의 유전자 단편 서열을 이용해 424G Byte의 서픽스 트리를 디스크에 구축한 다음, 임의의 질의 서열에 대해 KMP알고리즘과 비교한 결과 질의 응답시간에서 우수한 성능을 보였다.