• Title/Summary/Keyword: 데이터 분산

검색결과 3,169건 처리시간 0.051초

대용량 데이터의 내용 기반 검색을 위한 분산 고차원 색인 구조 (A Distributed High Dimensional Indexing Structure for Content-based Retrieval of Large Scale Data)

  • 최현화;이미영;김영창;장재우;이규철
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권5호
    • /
    • pp.228-237
    • /
    • 2010
  • 고차원 데이터에 대한 다양한 색인 구조가 제안되어 왔음에도 불구하고, 인터넷 서비스로서 이미지 및 동영상의 내용 기반 검색을 지원하기 위해서는 고확장성 지원 및 k-최근접점 검색 성능 향상을 지원하는 새로운 고차원 데이터의 색인 구조가 절실히 요구된다. 이에 우리는 다중 컴퓨팅 노드를 바탕으로 구축되는 분산 색인 구조로 분산 벡터 근사 트리(Distributed Vector Approximation-tree)를 제안한다. 분산 벡터 근사 트리는 대용량의 고차원 데이터로부터 추출한 샘플 데이터를 바탕으로 hybrid spill-tree를 구축하고, hybrid spill-tree외 말단 노드 각각에 분산 컴퓨팅 노드를 매핑하여 VA-file용 구축하는 두 레벨의 분산 색인 구조이다. 우리는 다중 컴퓨팅 노드들 상에 구축된 분산 벡터 근사 트리를 바탕으로 병렬 k-최근접점 검색을 수행함으로써 검씩 성능을 향상시킨다. 본 논문에서는 서로 다른 분포의 데이터 집합을 바탕으로 한 성능 시험 결과를 통하여, 분산 벡터 근사 트리가 기존의 고확장성을 지원하는 색인 구조와 비교하여 검색 정확도에 대한 손실 없이 더 빠른 k-최근접점 검색을 수행함을 보인다.

빅데이터 분산처리시스템의 품질평가모델 (A Quality Evaluation Model for Distributed Processing Systems of Big Data)

  • 최승준;박제원;김종배;최재현
    • 디지털콘텐츠학회 논문지
    • /
    • 제15권4호
    • /
    • pp.533-545
    • /
    • 2014
  • IT기술이 발전함에 따라, 우리가 접하는 데이터의 양은 기하급수적으로 늘어나고 있다. 이처럼 방대한 데이터들을 분석하고 관리하기 위한 기술로 등장한 것이 빅데이터 분산처리시스템이다. 기존 분산처리시스템에 대한 품질평가는 정형 데이터 중심의 환경을 바탕으로 이루어져 왔다. 그러므로, 이를 비정형 데이터 분석이 핵심인 빅데이터 분산처리시스템에 그대로 적용시킬 경우, 정확한 품질평가가 이루어질 수 없다. 따라서, 빅데이터 분석 환경을 고려한 분산처리시스템의 품질평가모델에 대한 연구가 필요하다. 본 논문에서는 소프트웨어 품질에 관한 국제 표준인 ISO/IEC9126에 근거하여 빅데이터 분산처리 시스템에서 요구되는 품질평가 요소를 도출하고, 이를 측정하기 위한 메트릭을 정의함으로써 새로이 품질평가모델을 제안한다.

독립적인 벡터 근사에 의한 분산 벡터 근사 트리의 성능 강화 (Performance Enhancement of a DVA-tree by the Independent Vector Approximation)

  • 최현화;이규철
    • 정보처리학회논문지D
    • /
    • 제19D권2호
    • /
    • pp.151-160
    • /
    • 2012
  • 지금까지 제안된 분산 고차원 색인의 대부분은 균일한 분포를 가지는 데이터 집합에서 좋은 검색 성능을 나타내나, 편향되거나 클러스터를 이루는 데이터의 집합에서는 그 성능이 크게 감소된다. 본 논문은 강하게 클러스터를 이루거나 편향된 분포를 가지는 데이터 집합에 대한 분산 벡터 근사 트리의 k-최근접 검색 성능을 향상시키는 방법을 제안한다. 기본 아이디어는 전체 데이터를 클러스터링하는 상위 트리의 말단 노드가 담당하는 데이터 공간의 크기를 계산하고, 그 공간 상의 특징 벡터를 근사하는 데 사용되는 비트의 수를 달리하여 벡터 근사의 식별 능력을 보장하는 것이다. 즉, 고밀도 클러스터에는 더 많은 수의 비트를 할당하는 것이다. 우리는 합성 데이터와 실세계 데이터를 가지고 분산 hybrid spill-tree와 기존 분산 벡터 근사 트리와의 성능 비교 실험을 수행하였다. 실험 결과는 확장된 분산 벡터 근사 트리의 검색 성능이 균일하지 않은 분포의 데이터 집합에서 크게 향상되었음을 보인다.

XMDR을 이용한 분산 DB의 동기화 에이전트 (A Synchronizing Agent in Distributed Database using XMDR)

  • 국윤규;정계동;최영근
    • 정보처리학회논문지A
    • /
    • 제12A권1호
    • /
    • pp.31-40
    • /
    • 2005
  • 본 논문에서는 분산되어 있는 데이터의 상호운용성을 보장하기 위하여 XMDR(XML Metadata Registry)을 제안하고, 이를 이용한 데이터 동기화 에이전트 시스템에 대하여 기술한다. XMDR은 데이터의 공유 및 교환에 있어 데이터 이질성 문제를 해결하기 위하여 사용된다. 데이터 이질성은 주로 동일한 정보에 대하여 서로 다르게 정의하거나 표현이 불일치되어 발생한다. 따라서 MDR 명세를 바탕으로 동기화 하려는 데이터 요소들을 분석하고, 이를 바탕으로 XML로 정의한 XMDR을 이용하여 해결할 수 있다. 본 논문에서 제안한 동기화 에이전트 시스템은 분산 데이터의 동기화 진행에 있어서, 데이터 상호운용을 위한 XMDR을 이용하여 데이터 이질성을 해결할 수 있으며, 또한 시스템 수와 동기화 요청빈도수 증가에 따른 에러 빈도수 감소를 통해 보다 신뢰성 있는 동기화 에이전트를 제공한다.

대용량 로그 데이터 처리를 위한 분산 실시간 자가 진단 시스템 (A Distributed Real-time Self-Diagnosis System for Processing Large Amounts of Log Data)

  • 손시운;김다솔;문양세;최형진
    • 데이타베이스연구회지:데이타베이스연구
    • /
    • 제34권3호
    • /
    • pp.58-68
    • /
    • 2018
  • 분산 컴퓨팅이란 다수의 서버로 구성된 분산 시스템에서 데이터를 효율적으로 저장 및 처리하는 기술이다. 따라서 분산 시스템을 구성하는 서버의 상태에 따라 분산 컴퓨팅의 성능에 큰 영향을 미친다. 본 논문은 분산 시스템에서 실시간으로 발생하는 시스템 자원의 로그 데이터를 수집하고 이상을 탐지하여 결과를 시각화하는 자가 진단 시스템을 제안한다. 먼저, 자가 진단 과정을 수집, 전달, 분석, 저장, 시각화의 다섯 단계로 구분한다. 다음으로, 자가 진단 과정이 실시간성, 확장성, 고가용성의 목표를 만족하도록 실시간 자가 진단 시스템을 설계한다. 본 시스템은 대표적인 실시간 분산 기술인 Apache Flume, Apache Kafka, Apache Storm을 기반으로 구현되어 실시간성, 확장성, 고가용성의 세 가지 목표를 만족할 수 있다. 또한, 자가 진단 과정에서 로그 데이터 처리의 지연을 최소화하도록 간단하지만 효과적인 이동 평균 및 3-시그마 기반 이상 탐지 기법을 사용한다. 본 논문의 결과를 통해, 분산 시스템 내에서 서버 상태를 실시간으로 진단할 수 있는 분산 실시간 자가 진단 시스템을 구축할 수 있다.

분산 컴퓨팅 환경에서 효율적인 유사 조인 질의 처리를 위한 행렬 기반 필터링 및 부하 분산 알고리즘 (Matrix-based Filtering and Load-balancing Algorithm for Efficient Similarity Join Query Processing in Distributed Computing Environment)

  • 양현식;장미영;장재우
    • 한국콘텐츠학회논문지
    • /
    • 제16권7호
    • /
    • pp.667-680
    • /
    • 2016
  • 하둡 맵리듀스와 같은 분산 컴퓨팅 플랫폼이 개발됨에 따라, 기존 단일 컴퓨터 상에서 수행되는 질의 처리 기법을 분산 컴퓨팅 환경에서 효율적으로 수행하는 것이 필요하다. 특히, 주어진 두 데이터 집합에서 유사도가 높은 모든 데이터 쌍을 탐색하는 유사 조인 질의를 분산 컴퓨팅 환경에서 수행하려는 연구가 있어 왔다. 그러나 분산 병렬 환경에서의 기존 유사 조인 질의처리 기법은 데이터 전송 비용만을 고려하기 때문에 클러스터 간에 비균등 연산 부하 분산의 문제점이 존재한다. 본 논문에서는 분산 컴퓨팅 환경에서 효율적인 유사 조인 처리를 위한 행렬 기반 부하 분산 알고리즘을 제안한다. 제안하는 알고리즘은 클러스터의 균등 부하 분산을 위해 행렬을 이용하여 예상되는 연산 부하를 측정하고 이에 따라 파티션을 생성한다. 아울러, 클러스터에서 질의 처리에 사용되지 않는 데이터를 필터링함으로서 연산 부하를 감소시킨다. 마지막으로 성능 평가를 통해 제안하는 알고리즘이 기존 기법에 비해 질의 처리 성능 측면에서 우수함을 보인다.

중소병원에서의 빅데이터 분석을 위한 분산 노드 관리 방안 (Management of Distributed Nodes for Big Data Analysis in Small-and-Medium Sized Hospital)

  • 류우석
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2016년도 춘계학술대회
    • /
    • pp.376-377
    • /
    • 2016
  • 빅데이터 분석을 위한 분산 데이터 처리 기술인 하둡 프레임워크의 성능은 데이터를 저장하고 맵리듀스를 수행하는 분산 노드 각각의 성능 및 네트워크의 성능 등의 요소에 영향을 받는다. 본 논문에서는 기존 하둡에서의 분산 노드 관리 기법을 분석하고, 중소병원의 전산 시스템 환경을 고려하여 중소규모의 병원에서 하둡을 도입하기 위해 필요한 분산 노드 관리 기법을 제시한다.

  • PDF

데이타 유사성 척도를 이용한 생산정보 데이타베이스의 분산 구조 설계 (A Database Design Method using a Data Similarity Metric: Its Application on Manufacturing Database)

  • 최태광;이준연;이국철;이춘열;김주현;이한표
    • 산업공학
    • /
    • 제8권3호
    • /
    • pp.269-278
    • /
    • 1995
  • 본 논문은 분산환경하에서 생산정보, 데이터 분석의 일 방안으로서 데이터의 관리 주체와 데이터들간의 유사성에 기초한 분산 기준을 제시한다. 제안된 분산기준은 데이터베이스 설계의 초기과정에서 네트워크 환경의 각 노드에서의 트랜젝션의 발생 수와 데이터 이용량의 예측이 용이하지 않은 경우에도 적용 가능하다는 점에서 가치를 지닌다. 제시된 설계 기준을 이용하여 생산정보 데이터베이스의 분산 모형을 설계, 제시한다.

  • PDF

효율적인 이벤트 데이터 전송을 위한 이벤트 필터링 채널의 설계 (A Design of Event Filtering Channel for Efficient Event Data Delivery)

  • 채영진;노희영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (A)
    • /
    • pp.376-378
    • /
    • 2002
  • 현재 클라이언트/서버 네트워크 환경은 시스템이 점점 대형화되면서 유지보수 및 네트워크 트래픽에 대한 문제로 인하여 분산 객체 개념을 이용한 분산 환경의 페러다임이 필요하게 되었다. 이에 OMG의 CORBA는 분산 환경을 위한 표준을 제공하며, 분산 객체간의 비동기 호출을 위한 이벤트 서비스를 명시하고 있다. 분산 객체간의 데이터 전송은 전체 시스템의 성능을 좌우하는 중요한 요인으로 평가받고 있으나 이벤트 서비스는 이벤트 데이터를 위한 필터링 기능을 제공하고 있지 않아 비효율적인 데이터 전송을 하고 있다. 본 논문에서는 이벤트 채널의 필터링을 위한 모듈을 정의하여 기존의 서비스에서 제공하는 이벤트 채널보다 효율적인 데이터 전송이 가능한 이벤트 필터링 채널을 설계한다.

  • PDF

분산 메모리 환경에서의 방대한 볼륨데이터의 압축기반 광선추적법 (Compression-Based Ray-Casting of Huge Volume Data on Distributed Memory Environments)

  • 송동섭;박상훈;임인성
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.634-636
    • /
    • 2000
  • 기존의 병렬 볼륨 렌더링 방법들은 프로세서간의 발생하는 많은 통신량 때문에 통신 속도가 매우 빠른 병렬컴퓨터를 이용하였고 통신속도가 느린 분산 환경에서는 구현이 불가능해 보였다. 또한 가시화하려는 볼륨 데이터도 점점 방대해지고 있는 실정이다. 이에 본 논문에서는 통신 속도에 구애받지 앉을뿐더러 매우 큰 볼륨데이터를 다루는 병렬/분산 볼륨 렌더링을 제안한다. 본 방법은 고비용을 필요로 하는 원격 메모리 접근 대신에 압축을 기반으로 하여 필요한 데이터를 지역 메모리에서 빠르게 복원함으로써 좋은 성능향상(speedup)을 나타낸다. 이것은 각 프로세서가 전체 볼륨 데이터를 모두 적재하고 있다는 것을 의미한다. 다라서 렌더링 과정중에 발생하는 프로세서간의 통신을 최소화할 수 있었고, 이런 방식은 높은 통신 비용으로 효율적 병렬/분산 처리가 힘든 분산 메모리 병렬 컴퓨터나 PC/워크스테이션 클러스터상에서 매우 적합하다.

  • PDF