• 제목/요약/키워드: Multidimensional Data Cube

검색결과 18건 처리시간 0.024초

다차원 대용량 저밀도 데이타 큐브에 대한 고밀도 서브 큐브 추출 알고리즘 (Dense Sub-Cube Extraction Algorithm for a Multidimensional Large Sparse Data Cube)

  • 이석룡;전석주;정진완
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권4호
    • /
    • pp.353-362
    • /
    • 2006
  • 데이타 웨어하우스는 기업이나 사회 전반에서 사용되는 방대한 데이타를 저장하고, 효율적인 분석을 가능하게 하는 데이타 저장소로써, 점점 그 활용도가 증가하고 있다. 본 연구에서는 이러한 데이타 웨어하우스 구축 기술의 핵심이 되는 다차원 데이타 큐브 (multidimensional data cube) 기술을 연구하는 데 목적이 있다. 고차원 데이타 큐브에는 필연적으로 내재하는 데이타의 희소성 (sparsity)에 의한 검색 오버헤드가 있다. 본 연구에서는 이러한 오버헤드를 현격하게 감소시키는 알고리즘을 제시함으로써, 데이타 웨어하우스의 효율을 높이는 데 기여한다. 즉, 고차원의 희소 데이타 큐브에서 데이타가 조밀하게 밀집된 영역들을 찾아 그 영역을 중심으로 서브 큐브를 구축하여, 데이타 검색 시에 전체의 데이타 큐브를 대상으로 하지 않고 해당 서브 큐브만으로 검색 대상을 제한시킴으로써 검색 효율을 높이는 알고리즘이다. 본 논문에서는 다 차원 대용량의 희소 데이타 큐브로부터 밀도가 높은 서브 큐브를 찾기 위하여 비트맵과 히스토그램에 기반한 알고리즘을 제안하며, 실험을 통하여 제안한 알고리즘의 효용성을 보여준다.

Z-인덱스 기반 MOLAP 큐브 저장 구조 (A Z-Index based MOLAP Cube Storage Scheme)

  • 김명;임윤선
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권4호
    • /
    • pp.262-273
    • /
    • 2002
  • MOLAP(multi-dimensional online analytical processing)은 데이타의 다차원적 분석 기술로서, 이는 질의 처리 속도를 높이기 위해 데이타를 큐브(cube)라고 불리는 다차원 배열에 저장하고 배열 인덱스를 사용하여 데이타를 엑세스한다. 큐브는 다양한 방식으로 디스크에 저장될 수 있으며 이 때 사용되는 방식에 따라 MOLAP의 주요 연산인 슬라이스와 다이스 연산 속도가 크게 영향을 받는다. 이러한 연산들을 효율적으로 처리하기 위해 다차원 배열을 작은 크기의 청크로 나누고 이 들 중에서 희박한 청크들을 압축하여 저장하는 기법이 [1]에 제안되어 있다. 이 방식에서는 청크들을 행우선 순서로 디스크에 저장한다. 본 연구에서는 청크들을 밀도와 인접도 기준으로 배치시킴으로써 슬라이스와 다이스 연산 속도를 향상시키는 방법을 제시한다. 청크 밀도를 이용하여 청크들을 디스크 블록 경계에 가능한 한 맞추었고, Z 인덱싱을 사하여 인접한 저밀도 청크들을 군집화 함으로써 디스크 I/O의 속도를 높였다. 제안한 큐브 저장 방식은 일반적 비즈니스 데이타의 분석에 흔히 사용되는 3~5차원의 큐브 저장에 효율적이라는 것을 실험적으로 보였다.

청크 기반 MOLAP 큐브를 위한 비트맵 인덱스 (A Bitmap Index for Chunk-Based MOLAP Cubes)

  • 임윤선;김명
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권3호
    • /
    • pp.225-236
    • /
    • 2003
  • 다차원 온라인 분석처리 (MOLAP, Multidimensional On-line Analytical Processing) 시스템은 데이타를 큐브라고 불리는 다차원 배열에 저장하고 배열 인덱스를 이용하여 데이타를 엑세스한다. 큐브를 디스크에 저장할 때 각 변의 길이가 같은 작은 청크들로 조각내어 저장하게 되면 데이타 클러스터링 효과를 통해 모든 차원에 공평한 질의 처리 성능이 보장되며, 이러한 큐브 저장 방법을 ‘청크기반 MOLAP 큐브’ 저장 방법이라고 부른다. 공간 효율성을 높이기 위해 밀도가 낮은 청크들은 또한 압축되어 저장되는데 이 과정에서 데이타의 상대 위치 정보가 상실되며 원하는 청크들을 신속하게 엑세스하기 위해 인덱스가 필요하게 된다. 본 연구에서는 비트맵을 사용하여 청크기반 MOLAP 큐브를 인덱싱하는 방법을 제시한다. 인덱스는 큐브가 생성될 때 동시에 생성될 수 있으며, 인덱스 수준에서 청크들의 상대 위치 정보를 보존하여 청크들을 상수 시간에 검색할 수 있도록 하였고, 인덱스 블록마다 가능한 많은 청크들의 위치 정보가 포함되도록 하여 범위 질의를 비롯한 OLAP 주요 연산 처리 시에 인덱스 엑세스 회수를 크게 감소시켰다. 인덱스의 시간 공간적 효율성은 다차원 인덱싱 기법인 UB-트리, 그리드 파일과의 비교를 통해 검증하였다.

OLAP를 이용한 설계변경 분석 방법에 관한 연구 (A Method for Engineering Change Analysis by Using OLAP)

  • 도남철
    • 한국CDE학회논문집
    • /
    • 제19권2호
    • /
    • pp.103-110
    • /
    • 2014
  • Engineering changes are indispensable engineering and management activities for manufactures to develop competitive products and to maintain consistency of its product data. Analysis of engineering changes provides a core functionality to support decision makings for engineering change management. This study aims to develop a method for analysis of engineering changes based on On-Line Analytical Processing (OLAP), a proven database analysis technology that has been applied to various business areas. This approach automates data processing for engineering change analysis from product databases that follow an international standard for product data management (PDM), and enables analysts to analyze various aspects of engineering changes with its OLAP operations. The study consists of modeling a standard PDM database and a multidimensional data model for engineering change analysis, implementing the standard and multidimensional models with PDM and data cube systems and applying the implemented data cube to core functions of engineering change management, the evaluation and propagation of engineering changes.

지식 표현 방식을 이용한 근사 질의응답 기법 (An Approximate Query Answering Method using a Knowledge Representation Approach)

  • 이선영;이종연
    • 한국산학기술학회논문지
    • /
    • 제12권8호
    • /
    • pp.3689-3696
    • /
    • 2011
  • 의사결정 지원시스템에서 작업자들은 대량의 데이터 집계 연산을 요구하며, 데이터에 대한 정확한 응답보다는 경향 분석에 더 많은 관심을 가진다. 그러므로 정확한 응답보다 빠른 근사 질의응답을 제공하는 것이 필요하며 그것을 실현하기 위한 근사질의 응답 기법의 연구가 필요하다. 따라서 본 논문에서는 기존 연구들의 단점을 보안하고 근사 응답의 정확성을 향상시킬 수 있는 Fuzzy C-Means (FCM) 클러스터링 기반 Adaptive Neuro-Fuzzy Inference System (ANFIS)을 이용한 근사 질의응답 기법을 제안한다. FCM-ANFIS을 이용한 근사 질의응답 기법은 다차원 데이터의 지식 표현 모델을 생성함으로써 거대한 다차원 데이터 큐브에 직접적인 접근 없이 집계 질의 수행이 가능하다. 비교실험을 통하여 제안된 기법이 기존의 NMF 기법보다 근사 질의응답의 정확성이 향상되었음을 확인한다.

맵리듀스를 이용한 정렬 기반의 데이터 큐브 분산 병렬 계산 알고리즘 (Sort-Based Distributed Parallel Data Cube Computation Algorithm using MapReduce)

  • 이수안;김진호
    • 전자공학회논문지
    • /
    • 제49권9호
    • /
    • pp.196-204
    • /
    • 2012
  • 최근 많은 응용 분야에서 대규모 데이터에 대해 온라인 다차원 분석(OLAP)을 사용하고 있다. 다차원 데이터 큐브는 OLAP 분석에서 핵심 도구로 여긴다. 본 논문에서는 맵리듀스 분산 병렬 처리를 이용하여 효율적으로 데이터 큐브를 계산하는 방법을 연구하고자 한다. 이를 위해, 맵리듀스 프레임워크에서 데이터 큐브 계산 방법으로 잘 알려진 PipeSort 알고리즘을 구현하는 효율적인 방법에 대해서 살펴본다. PipeSort는 데이터 큐브의 한 큐보이드에서 동일한 정렬 순서를 갖는 여러 큐보이드를 한 파이프라인으로 한꺼번에 계산하는 효율적인 방식이다. 이 논문에서는 맵리듀스 프레임워크에서 PipeSort의 파이프라인을 구현한 네 가지 방법을 20대의 서버에서 수행하였다. 실험 결과를 보면, 고차원 데이터에 대해서는 PipeMap-NoReduce 알고리즘이 우수한 성능을 보였으며, 저차원 데이터에 대해서는 Post-Pipe 알고리즘이 더 우수함을 보였다.

효율적인 ROLAP 큐브 생성 방법 (An Efficient ROLAP Cube Generation Scheme)

  • 김명;송지숙
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권2호
    • /
    • pp.99-109
    • /
    • 2002
  • ROLAP(Relational Online Analytical Processing)은 다차원적 데이타 분석을 위한 제반 기술로써, 전사적 데이타 웨어하우스로부터 고부가가치를 창출하는데 필수적인 기술이다. 질의처리 성능을 높이기 위해서 대부분의 ROLAP 시스템들은 집계 테이블들을 미리 계산해 둔다. 이를 큐브 생성이라고 하며, 이 과정에서 기존의 방법들은 데이타를 여러 차례 정렬해야 하고 이는 큐브 생성의 성능을 저하시키는 큰 요인이다. (1)은 MOLAP 큐브 생성 알고리즘을 통해 간접적으로 ROLAP 큐브를 생성하는 것이 훨씬 빠르다는 것을 보였다. 본 연구에서도 MOLAP 큐브 생성 알고리즘을 사용한 신속하고 확장적인 ROLAP 큐브 생성 알고리즘을 제시하였다. 분석할 입력 사실 테이블을 적절하게 조각내어 메모리 효율을 높였고, 집계 테이블들을 최소 부모 집계 테이블로부터 생성하도록 하여 큐브 생성 시간을 단축하였다. 제안한 방법의 효율성은 실험을 통해 검증하였다.

다차원 텍스트 큐브를 이용한 호텔 리뷰 데이터의 다차원 키워드 검색 및 분석 (Multi-Dimensional Keyword Search and Analysis of Hotel Review Data Using Multi-Dimensional Text Cubes)

  • 김남수;이수안;조선화;김진호
    • 정보화연구
    • /
    • 제11권1호
    • /
    • pp.63-73
    • /
    • 2014
  • 웹의 발달로 텍스트 등으로 이루어진 비정형 데이터의 활용에 대한 관심이 높아지고 있다. 웹상에서 사용자들이 작성한 대부분의 비정형 데이터는 사용자의 주관이 담겨져 있어 이를 적절히 분석할 경우 사용자의 취향이나 주관적인 관점 등의 아주 유용한 정보를 얻을 수 있다. 이 논문에서는 이러한 비정형 텍스트 문서를 다양한 차원으로 분석하기 하는데 OLAP(온라인 분석 처리)의 다차원 데이터 큐브 기술을 활용한다. 다차원 데이터 큐브는 간단한 문자나 숫자 형태의 정형적인 데이터에 대해 다차원 분석하는데 널리 사용되었지만, 텍스트 문장으로 이루어진 비정형 데이터에 대해서는 활용되지 않았다. 이러한 텍스트 데이터베이스에 포함된 정보를 다차원으로 분석하기 위한 방법으로 텍스트 큐브 모델이 최근에 제안되었는데, 이 텍스트 큐브는 정보 검색에서 널리 사용하는 용어 빈도수(Term Frequency)와 역 인덱스(Inverted Index)를 측정값으로 이용하여 텍스트 데이터베이스에 대한 다차원 분석을 지원한다. 이 논문에서는 이러한 다차원 텍스트 큐브를 활용하여 실제 서비스되고 있는 호텔 정보 공유 사이트의 리뷰 데이터 분석에 활용하였다. 이를 위해 호텔 리뷰 데이터에 대한 다차원 텍스트 큐브를 생성하였으며, 이를 이용하여 다차원 키워드 검색 기능을 제공하여 사용자 중심의 의미있는 정보 검색이 가능한 시스템을 설계 및 구현하였다. 또한, 본 논문에서 제안하는 시스템에 대해 다양한 실험을 수행하였으며 이를 통해 제안된 시스템의 실효성을 검증하였다.

XML 웨어하우스에 대한 다차원 분석 프레임워크 (A Multidimensional Analysis Framework for XML Warehouses)

  • 박병권;이종학
    • Asia pacific journal of information systems
    • /
    • 제15권4호
    • /
    • pp.153-164
    • /
    • 2005
  • Nowadays, large amounts of XML documents are available in the Internet. Thus, we need to analyze them multidimensionally in the same way as relational data. In this paper, we propose a new framework for multidimensional analysis of XML documents, which we call XML-OLAP. We base XML-OLAP on XML warehouses where all fact and dimension data are stored as XML documents. We build XML cubes from XML warehouses. We propose a new OLAP language for XML cubes, which we call XML-MDX. XML-MDX statements target XML cubes and use XQuery expressions to designate measure, axis and slicer. They incorporate text mining operations for aggregating text data. We apply XML-OLAP to the United States patent XML warehouse to demonstrate multidimensional analysis of XML documents.

XML을 이용한 웹 정보 추출 및 다차원 분석 (Web Information Extraction and Multidimensional Analysis Using XML)

  • 박병권
    • 한국멀티미디어학회논문지
    • /
    • 제11권5호
    • /
    • pp.567-578
    • /
    • 2008
  • 인터넷에 있는 방대한 양의 웹 페이지들을 분석하기 위해서는 웹 페이지에 내재된 정보를 추출하는 것이 필요하다. 본 논문에서는 웹 페이지로부터 정보를 추출하고 이를 XML 문서로 변환하여 다차원적으로 분석하는 방법을 제안한다. 웹 페이지로부터 정보를 추출하기 위하여 두 종류의 언어를 제안한다. 하나는 객체지향 모델에 의거하여 웹 정보 추출 규칙을 기술하기 위한 것이고, 다른 하나는 추출하고자 하는 정보를 찾기 위한 HTML 태그 패턴을 정규식으로 기술하기 위한 것이다. XML 문서에 대한 다차원 분석을 위하여 관계형 데이터에 대해 하는 것처럼 웨어하우스를 구축하고 이로부터 다양한 큐브를 생성하는 방법을 제안한다. 마지막으로 본 논문에서 제안한 방법을 미국특허 웹 페이지에 적용한 예를 통해 그 타당성을 보인다.

  • PDF