• 제목/요약/키워드: multidimensional data processing

검색결과 93건 처리시간 0.021초

패싯 기반 민원 다차원 분석을 위한 자동 분류 모델 (A Study on an Automatic Classification Model for Facet-Based Multidimensional Analysis of Civil Complaints)

  • 김나랑
    • 한국산업정보학회논문지
    • /
    • 제29권1호
    • /
    • pp.135-144
    • /
    • 2024
  • 시민의 의견인 민원은 다양한 사람들이 여러 주제에 대하여 반복·지속적으로 실시간 쏟아내기 때문에 담당자가 이를 읽고 분석하는데 한계가 있다. 이에 본 연구에서는 빅데이터 분석을 통해 주요 현안에 대한 여론 및 요구 사항을 파악하기 위하여 정성적인 분석에 패싯을 기반으로 한 정량적인 다차원 분석을 위한 자동 분류 모델을 제안하였다. 구체적으로 첫째, 패싯 이론과 정치분석모형을 기반으로 민원 특성을 분석하고 이를 정책 단계에 활용할 수 있는 새로운 분류 프레임워크를 제시하였다. 둘째, 민원 분석 및 처리에 따른 행정 업무를 감소시키고, 시민들의 정책참여를 용이하게 하기 위해 딥러닝을 활용하여 패싯 분석 프레임에 의해 자동으로 속성을 추출하고 분류 하였다. 본 연구결과는 학문적으로 민원 빅데이터의 특성을 이해하고 분석하는데 중요한 단초를 제공하여 향후 많은 후속 연구를 창출할 수 있을 것으로 기대되며, 공공분야를 넘어 교육, 산업, 의료 등 다른 분야에서의 비정형 데이터의 계량화를 위한 가이드 라인과 다차원 분석의 활용에 대한 이론적 근거를 제시할 수 있다. 실무적으로 대용량 전자 민원에 대한 처리체계 개선 및 딥러닝을 통한 자동화로 민원처리 업무의 효율성과 신속성을 높일 수 있으며, 다른 분야의 텍스트 데이터의 처리에 활용될 수 있을 것이다.

XML 질의처리를 위한 다차원 타입상속 색인구조의 할당기법 (An Assignment Method of Multidimensional Type Inheritance Indexes for XML Query Processing)

  • 이종학
    • 한국멀티미디어학회논문지
    • /
    • 제12권1호
    • /
    • pp.1-15
    • /
    • 2009
  • 본 논문에서는 XML 데이터베이스에서 XML 질의처리를 효율적으로 지원하기 위한 다차원 타입상속 색인구조(MD-TIX)들의 할당기법을 제시한다. MD-TIX는 중첩요소와 여러 타입상속 계층으로 이루어진 중첩술어의 처리를 효율적으로 지원하기 위하여 다차원 색인구조를 이용하는 색인기법이다. 본 논문에서는 타겟 타입 또는 도메인 타입의 대치가 있는 Xpath로 표현된 여러 중첩술어들의 접속으로 구성된 복합질의의 관점에서 MD-TIX 색인들의 할당에 따른 질의처리 기법들을 분석하고, 그 결과로서 가장 효과적인 객인 할당기법을 제시한다. 먼저, XML문서의 변경에 따른 MD-TIX 색인구조의 운용과 하나의 중첩술어를 가지는 질의처리에 대한 MD-TIX 색인의 할당에 대하여 분석한다. 그리고 경로들 사이에 공통의 부경로가 있는 겹침 경로 상에 주어지는 여러 개의 중첩술어들로 구성된 보다 일반적인 질의의 관점에서 MD-TIX 색인의 운용과 그 할당기법을 제시한다.

  • PDF

데이터 웨어하우스의 다차원 온라인 분석처리 시스템을 위한 저장구조의 물리적 설계기법 (A Physical Design Method of Storage Structures for MOLAP Systems of Data Warehouse)

  • 이종학
    • 한국멀티미디어학회논문지
    • /
    • 제8권3호
    • /
    • pp.297-312
    • /
    • 2005
  • 데이터 웨어하우스의 다차원 온라인 분석처리 시스템(MOLAP)에서 집계 연산은 중요한 기본 연산이다. 기존의 MOLAP 집계 연산은 다차원 배열구조를 기반으로 한 파일구조에 대해서 연구되어 왔다. 다차원 배열구조는 편중된 분포를 갖는 데이터에서는 잘 동작하지 못한다는 단점이 있다. 본 논문에서는 편중된 분포에도 잘 동작하는 다차원 파일구조를 사용한 MOLAP 저장구조의 물리적 설계기법을 제안한다. 먼저, 균일분포를 갖는 데이터에 대해서 집계 연산처리 성능이 다차원 파일구조상의 질의 영역의 모양과 다차원 파일구조의 도메인 공간을 이루는 페이지 영역의 모양 사이의 유사성에 따라 크게 영향 받음을 보이고, 이러한 특성을 이용하여 다차원 파일구조를 설계함으로써 다차원 온라인 분석처리의 성능을 향상시킨다. 그리고 편중된 분포에 대해서는 질의 영역별로 가중치를 부여한 정규화된 질의 영역의 모양을 이용함으로써 데이터의 분포에 따른 영향을 설계에 반영한다. 또한 본 논문에서는 실험을 통하여 이론적으로 제안한 MOLAP 저장구조의 물리적 설계기법이 실제 환경에서 정확히 동작함을 보인다. 실험결과에 의하면 이차원 파일구조의 경우 집계 연산처리를 위한 저장구조의 성능이 일곱 배 이상으로 향상됨을 확인하였다. 삼차원 이상의 파일구조에 대해서는 더욱더 큰 성능향상이 예상된다. 이러한 성능의 향상은 제안된 MOLAP 저장구조의 물리적 설계기법이 매우 유용함을 나타내는 것이다.

  • PDF

디지털 선박 내 다차원 센서 스트림 데이터의 효율적인 처리 (Efficient Processing of Multidimensional Sensor stream Data in Digital Marine Vessel)

  • 송병호;박경우;이진석;이경효;정민아;이성로
    • 한국통신학회논문지
    • /
    • 제35권5B호
    • /
    • pp.794-800
    • /
    • 2010
  • 디지털 선박에서는 선박 내의 각종 센서로부터 측정된 디지털 데이터에 대한 정확하고 에너지 효율적인 관리가 필요하다. 센서 네트워크에서 대용량의 입력 스트림 데이터 전체를 데이터베이스에 모두 저장하여 한꺼번에 처리하는 것은 효율적이지 못하다. 본 논문에서는 디지털 선박 내 센서 네트워크의 에너지 효율성과 정확성을 고려하여 여러 센서에서 지속적으로 들어오는 다차원 스트림 데이터의 처리 성능을 높이고자 한다. 디지털 선박 내에 다수 개의 센서(온도, 습도, 조도, 음성 센서)를 배치하고 효율적인 입력 스트림 처리를 위해서 슬라이딩 윈도우 기반으로 질의를 처리하고 Mjoin 방법으로 다중 질의 계획을 수립한 후 SVM 알고리즘을 통해 저장 데이터를 축소하는 효율적인 처리 기법을 제안한다. 분류된 데이터들 중 필요하지 않는 데이터는 자동으로 데이터베이스에서 삭제되고 유효한 데이터는 디지털 선박 모니터링 시스템에 이용하였다. 35,912개의 데이터 집합을 사용하여 실험한 결과 실제 입력되는 데이터보다 저장 공간의 18.3%를 축소함으로써 효과적임을 보였다.

관계형 데이타베이스에서 다차원 데이타의 뷰를 위한 효율적인 질의 변환 (An Efficient Query Transformation for Multidimensional Data Views on Relational Databases)

  • 신성현;김진호;문양세
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권1호
    • /
    • pp.18-34
    • /
    • 2007
  • 온라인 분석 처리(OLAP, On-Line Analytical Processing)에서는 다양한 분석을 효과적으로 처리하기 위해, 다차원 구조의 데이타를 열에 차원 애트리뷰트의 값이 표시되는 넓은 형태의 수평 테이블로 표현한다. 관계형 테이블들은 보통 애트리뷰트의 개수에 제한이 있으므로 이러한 수평 테이블을 직접저장하기 어렵고, 저장하더라도 많은 수의 널(null) 간을 갖는 희박(sparse) 테이블이 되기 쉽다. 따라서 관계 데이타베이스에서는 이러한 수평 테이블을 차원의 이름을 열로 갖는 수직 테이블로 바꾸어 저장할 수 있다. 이렇게 할 경우, 수평 뷰 테이블에 대한 OLAP 질의를 저장된 수직 테이블에 대한 질의로 변환하는 작업이 필요하다. 본 논문에서는 전통적인 관계 대수 연산자들 외에 최근 DBMS 버전들이 제공하는 PIVOT 연산자를 사용하여 수평적인 뷰의 질의를 효율적으로 변환하는 방법을 제안하였다. 이를 위해 PIVOT 연산과 동등한 관계 대수식을 만들고 이를 증명하였으며, 이 PIVOT 연산을 사용하여 수평적인 테이블에 대한 질의를 수직적인 테이블에 대한 질의로 변환하는 방법을 제시하였다. 또한 실험을 통해 제안한 변환 방법이 기존 방법에 비해 성능이 더욱 우수함을 보였다.

맵리듀스를 이용한 정렬 기반의 데이터 큐브 분산 병렬 계산 알고리즘 (Sort-Based Distributed Parallel Data Cube Computation Algorithm using MapReduce)

  • 이수안;김진호
    • 전자공학회논문지
    • /
    • 제49권9호
    • /
    • pp.196-204
    • /
    • 2012
  • 최근 많은 응용 분야에서 대규모 데이터에 대해 온라인 다차원 분석(OLAP)을 사용하고 있다. 다차원 데이터 큐브는 OLAP 분석에서 핵심 도구로 여긴다. 본 논문에서는 맵리듀스 분산 병렬 처리를 이용하여 효율적으로 데이터 큐브를 계산하는 방법을 연구하고자 한다. 이를 위해, 맵리듀스 프레임워크에서 데이터 큐브 계산 방법으로 잘 알려진 PipeSort 알고리즘을 구현하는 효율적인 방법에 대해서 살펴본다. PipeSort는 데이터 큐브의 한 큐보이드에서 동일한 정렬 순서를 갖는 여러 큐보이드를 한 파이프라인으로 한꺼번에 계산하는 효율적인 방식이다. 이 논문에서는 맵리듀스 프레임워크에서 PipeSort의 파이프라인을 구현한 네 가지 방법을 20대의 서버에서 수행하였다. 실험 결과를 보면, 고차원 데이터에 대해서는 PipeMap-NoReduce 알고리즘이 우수한 성능을 보였으며, 저차원 데이터에 대해서는 Post-Pipe 알고리즘이 더 우수함을 보였다.

실시간 헬스케어 서비스를 위한 스트림 데이터 시스템 프레임워크의 설계 (The Framework of Stream Data Processing System for Realtime Health Care Service)

  • 오택군;이연;배해영
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2011년도 제44차 하계학술발표논문집 19권2호
    • /
    • pp.21-22
    • /
    • 2011
  • The growth of using smartphone and tablet pc has enabled variety kinds of realtime applications. In these applications, the data which we called data stream is multidimensional, continuous, rapid, and time-varying. However the traditional Database Management System (DBMS) suffers from processing the real time and complex application, in this paper we proposed the framework for CCR Data Stream Server's design and implementation that compiled with Data Stream Database Management System (DSMS) and DBMS in EMR system. The system enables users not only to query stored CCR information from DBMS, but also to execute continues query for the real-time CCR Data Stream.

  • PDF

Noise Suppression of NMR Signal by Piecewise Polynomial Truncated Singular Value Decomposition

  • Kim, Daesung;Youngdo Won;Hoshik Won
    • 한국자기공명학회논문지
    • /
    • 제4권2호
    • /
    • pp.116-124
    • /
    • 2000
  • Singular value decomposition (SVD) has been used during past few decades in the advanced NMR data processing and in many applicable areas. A new modified SVD, piecewise polynomial truncated SVD (PPTSVD) was developed far the large solvent peak suppression and noise elimination in U signal processing. PPTSVD consists of two algorithms of truncated SVD (TSVD) and L$_1$ problems. In TSVD, some unwanted large solvent peaks and noises are suppressed with a certain son threshold value while signal and noise in raw data are resolved and eliminated out in L$_1$ problem routine. The advantage of the current PPTSVD method compared to many SVD methods is to give the better S/N ratio in spectrum, and less time consuming job that can be applicable to multidimensional NMR data processing.

  • PDF

VDCluster : 대용량 비디오 시퀀스를 위한 비디오 세그멘테이션 및 클러스터링 알고리즘 (VDCluster : A Video Segmentation and Clustering Algorithm for Large Video Sequences)

  • 이석룡;이주홍;김덕환;정진완
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권3호
    • /
    • pp.168-179
    • /
    • 2002
  • 본 논문에서는 비디오 저장이나 검색과 같은 비디오 정보 처리를 위한 중요한 기초 연구로써 비디오의 표현을 위한 효과적인 기법을 제안한다. 비디오 데이타 세트는 수초에서 수분 사이의 상연 시간을 갖는 비디오 클립들의 집합이며, 각 비디오 클립은 연속된 비디오 프레임들로 구성되어 있다. 이 비디오 클립은 다차원 데이타 시퀀스(multidimensional data sequence: MDS)로 표현될 수 있으며, 프레임 사이의 시간적인 정보를 고려하여 비디오 세그먼트로 나누어 지고, 한 클립 내에서 서로 유사한 세그먼트들은 다시 비디오 클러스터로 군집화된다. 따라서, 각 비디오 클립은 소수 개의 비디오 클러스터로 표현되어 진다. 본 논문에서 제안한 비디오 세그멘테이션 및 클러스터링 알고리즘 VDCLuster는 사전에 정의된 일정 수준의 클러스터링 품질을 보장하고 있으며, 다양한 비디오 시퀀스에 대한 실험을 통하여 알고리즘의 효과를 입증한다.

효율적인 ROLAP 큐브 생성 방법 (An Efficient ROLAP Cube Generation Scheme)

  • 김명;송지숙
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권2호
    • /
    • pp.99-109
    • /
    • 2002
  • ROLAP(Relational Online Analytical Processing)은 다차원적 데이타 분석을 위한 제반 기술로써, 전사적 데이타 웨어하우스로부터 고부가가치를 창출하는데 필수적인 기술이다. 질의처리 성능을 높이기 위해서 대부분의 ROLAP 시스템들은 집계 테이블들을 미리 계산해 둔다. 이를 큐브 생성이라고 하며, 이 과정에서 기존의 방법들은 데이타를 여러 차례 정렬해야 하고 이는 큐브 생성의 성능을 저하시키는 큰 요인이다. (1)은 MOLAP 큐브 생성 알고리즘을 통해 간접적으로 ROLAP 큐브를 생성하는 것이 훨씬 빠르다는 것을 보였다. 본 연구에서도 MOLAP 큐브 생성 알고리즘을 사용한 신속하고 확장적인 ROLAP 큐브 생성 알고리즘을 제시하였다. 분석할 입력 사실 테이블을 적절하게 조각내어 메모리 효율을 높였고, 집계 테이블들을 최소 부모 집계 테이블로부터 생성하도록 하여 큐브 생성 시간을 단축하였다. 제안한 방법의 효율성은 실험을 통해 검증하였다.