통합 검색 | Korea Science

Parallel Multithreaded Processing for Data Set Summarization on Multicore CPUs

Ordonez, Carlos;Navas, Mario;Garcia-Alvarado, Carlos
- Journal of Computing Science and Engineering
- /
- 제5권2호
- /
- pp.111-120
- /
- 2011
Data mining algorithms should exploit new hardware technologies to accelerate computations. Such goal is difficult to achieve in database management system (DBMS) due to its complex internal subsystems and because data mining numeric computations of large data sets are difficult to optimize. This paper explores taking advantage of existing multithreaded capabilities of multicore CPUs as well as caching in RAM memory to efficiently compute summaries of a large data set, a fundamental data mining problem. We introduce parallel algorithms working on multiple threads, which overcome the row aggregation processing bottleneck of accessing secondary storage, while maintaining linear time complexity with respect to data set size. Our proposal is based on a combination of table scans and parallel multithreaded processing among multiple cores in the CPU. We introduce several database-style and hardware-level optimizations: caching row blocks of the input table, managing available RAM memory, interleaving I/O and CPU processing, as well as tuning the number of working threads. We experimentally benchmark our algorithms with large data sets on a DBMS running on a computer with a multicore CPU. We show that our algorithms outperform existing DBMS mechanisms in computing aggregations of multidimensional data summaries, especially as dimensionality grows. Furthermore, we show that local memory allocation (RAM block size) does not have a significant impact when the thread management algorithm distributes the workload among a fixed number of threads. Our proposal is unique in the sense that we do not modify or require access to the DBMS source code, but instead, we extend the DBMS with analytic functionality by developing User-Defined Functions.
https://doi.org/10.5626/JCSE.2011.5.2.111 인용 PDF KPUBS

오디세우스/IR: 정보 검색 기능과 밀결합된 고성능 객체 관계형 DBMS (Odysseus/m: a High-Performance ORDBMS Tightly-Coupled with IR Features)

황규영;이민재;이재길;김민수;한욱신
- 한국정보과학회논문지:컴퓨팅의 실제 및 레터
- /
- 제11권3호
- /
- pp.209-215
- /
- 2005
상용 ORDBMS 개발사들은 자신의 DBMS에 사용자 정의 타입과 사용자 정의 함수를 추가하는 확장 방법을 제공하고 있다. 이러한 확장은 상위 레벨 인터페이스를 사용하여 이루어진다. 이러한 기법을 소결합(loose-coupling)이라 부른다. 소결합의 장점은 구현하기 쉽다는 것이나, 높은 성능이 요구되는 대용량 데이타베이스에서 새로운 데이타 타입과 연산을 추가하기에는 적합하지 않다. 본 논문에서는, 이러한 요구 조건.을 충족하기 위해 밀결합(tight-coupling)이라는 개념을 사용하는 것을 제안한다. 밀결합에서 새로운 데이타 타입과 연산은 DBMS의 엔진 내부에 통합된다. 따라서, 새로운 데이타 타입과 연산이 높은 성능으로 일관성 있게 제공된다. 이 밀결합 아키텍처는 정보 검색 기능과 공간 데이타베이스 기능을 한국과학기술원/첨단정보기술연구센터에서 개발 중인 객체 관계형 DBMS 오디세우스/IR에 통합하기 위해 사용되고 있다. 본 논문에서는, 오디세우스/1R을 소개하고 오디세우스/IR과 밀결합된 정보 검색 기능(미국 특허 등록)을 설명한다. 다음으로, 오디세우스/1R을 사용한 단일 시스템(non-parallel) 설정에서 2,000만건의 웹 페이지를 관리할 수 있는 웹 검색 엔진을 보인다.
PDF KSCI

메모리 상주 DBMS 기반의 OLTP 응용을 위한 다중프로세서 시스템 캐쉬 성능 분석 (Cache Performance Analysis of Multiprocessor Systems for OLTP Applications based on a Memory-Resident DBMS)

정용화;한우종;윤석한;박진원;이강우;김양우
- 한국정보과학회논문지:컴퓨팅의 실제 및 레터
- /
- 제6권4호
- /
- pp.383-392
- /
- 2000
다중프로세서 시스템에 대한 대부분의 기존 연구는 과학계산용 응용을 중심으로 수행되어 왔으며, 또 다른 응용 분야인 상용 응용을 이용한 연구는 아직까지 초보 단계에 머물고 있는 실정이다. 이는 상용 DBMS의 소스 프로그램을 액세스하기가 쉽지 않으며, POSTGRES와 같은 공개된 소스 프로그램을 액세스 할 수 있더라도 컴퓨터 구조 설계자가 수십만 라인의 그 소스 프로그램을 이해하여 의미있는 성능분석을 수행하기는 사실상 불가능하기 때문이다. 본 연구에서는 상용 응용을 이용하여 다중프로세서 시스템을 분석하기 위하여, SQL로 작성된 병렬 프로그램을 아키텍처 시뮬레이터 상에서 수행할 수 있는 EZDB라는 병렬 DBMS를 자체 개발하였다. EZDB가 POSTGRES와 다른점은 그 목적이 다중프로세서 시스템에서 상용 응용을 수행시키고 그 성능을 쉽게 분석할 수 있다는 점이다. EZDB의 유용함을 확인하기 위해, 본 논문에서는 다중프로세서 시스템에서 TPC-B 작업부하를 수행시켰을 때의 캐쉬 성능을 분석한다. 구축된 작업부하를 기반으로 프로그램 구동 시뮬레이션을 수행한 결과, 상용 응용에서 데이터 구조의 공유 특성이 매우 특별하며 국부성 및 작업 세트가 과학계산 응용의 경우와 매우 상이함을 확인하였다.
PDF

오디세우스/Parallel-OOSQL: 오디세우스 정보검색용 밀결합 DBMS를 사용한 병렬 정보 검색 엔진 (Odysseus/Parallel-OOSQL: A Parallel Search Engine using the Odysseus DBMS Tightly-Coupled with IR Capability)

류재준;황규영;이재길;권혁윤;김이른;허준석;이기훈
- 한국정보과학회논문지:컴퓨팅의 실제 및 레터
- /
- 제14권4호
- /
- pp.412-429
- /
- 2008
최근 들어 인터넷의 성장으로 인하여 문서의 양이 기하급수적으로 증가함에 따라, 대용량의 문서를 마르게 검색 할 수 있는 병렬 정보 검색 엔진에 대한 중요성이 더욱 대두되고 있다. 병렬 정보 검색 엔진을 구현하기 위하여서는 역 색인을 분할하고, 분할된 역 색인을 통하여 병렬적으로 검색하는 것이 필요하다. 역 색인을 분할하는 기존 방법으로는 1) 문서 식별자 분할 방법과 2) 식별자 분할 방법이 있다. 그러나 각 분할 방법은 다음과 같은 단점들을 가지고 있다. 문서 식별자 분할 방법은 문서의 추가가 용이하고 처리량(throughput)이 높은 반면에 top-k 질의 처리 성능이 좋지 않다. 그리고 식별자 분할 방법은 top-k 질의 처리 성능이 좋은 반면에 문서의 추가가 어렵고 처리량이 낮다. 본 논문에서는 이러한 단점들을 해결하기 위하여 혼합 분할 방법을 제안하고 이를 정보 검색 기능과 밀결합된 DBMS인 오디세우스에 실현한 병렬 정보 검색 엔진을 설계하고 구현한다. 먼저, 제안된 병렬 정보 검색 엔진인 오디세우스/parallel-OOSQL의 아키텍쳐를 설명한다. 그리고 체계적인 실험을 통하여 제안된 시스템의 유용성을 보인다. 실험 결과, 문서 식별자 분할 방법은 질의 처리 시간이 역 색인 분할의 블록의 개수에 근사적으로 역 비례함을 보였으며, 키워드 식별자 분할 방법은 top-k 질의 처리에 좋은 성능을 보였다. 본 논문에서 제안된 병렬 정보 검색 엔진은 세 가지 분할 방법을 모두 제공하기 때문에 응용 환경에 따라 분할 방법을 커스터마이즈함으로써 항상 좋은 성능을 낼 수 있다. 오디세우스/parallel-OOSQL 병렬 정보 검색 엔진은 각 슬레이브 노드 당 1억 건의 웹 문서를, 시스템 전체로는 수십억 건의 웹 문서를 인덱스하여 저장하고 질의를 처리할 수 있다.
PDF KSCI

분산 인 메모리 DBMS 기반 병렬 K-Means의 In-database 분석 함수로의 설계와 구현 (Design and Implementation of Distributed In-Memory DBMS-based Parallel K-Means as In-database Analytics Function)

구해모;남창민;이우현;이용재;김형주
- 정보과학회 컴퓨팅의 실제 논문지
- /
- 제24권3호
- /
- pp.105-112
- /
- 2018
데이터의 양이 증가하면서 단일 노드 데이터베이스로는 저장과 처리를 동시에 수행하기에는 부족하다. 따라서, 데이터를 분산시켜 복수 노드로 구성된 분산 데이터베이스에 저장되고 있으며 분석 역시 효율성을 위해 병렬 기능을 제공해야한다. 전통적인 분석 방식은 데이터베이스에서 분석 노드로 데이터를 이동시킨 후 분석을 수행하기 때문에 네트워크의 비용이 발생하며 사용자가 분석을 위해 분석 프레임 워크도 다를 수 있어야한다. 본 연구는 군집화 분석 기법인 K-Means 군집화 알고리즘을 관계형 데이터 베이스와 칼럼 기반 데이터베이스를 이용한 분산 데이터베이스 환경에서 SQL로 구현하는 In-database 분석 함수로의 설계와 구현 그리고 관계형 데이터베이스에서의 성능 최적화 방법을 제안한다.
https://doi.org/10.5626/KTCP.2018.24.3.105 인용 KSCI

고정 그리드를 이용한 병렬 공간 조인을 위한 비용 모델 (Cost Model for Parallel Spatial Joins using Fixed Grids)

김진덕;홍봉희
- 한국정보과학회논문지:데이타베이스
- /
- 제28권4호
- /
- pp.665-676
- /
- 2001
공간 데이타베이스에서 가장 비용이 큰 공간 연산자는 공간 조인이다. 공간 조인은 두개의 데이타 집합으로부터 공간적인 조건을 만족하는 두 객체 쌍의 집함을 구하는 것이다. 지난 수년동안 공간 조인의 순차 수행 시간은 많이 향상되었지만, 그 웅답시간은 사용자의 요구를 만족시키지 못하고 있다. 그래서 공간조 인의 병렬 수행에 대한 연구가 자연스럽게 대두되고 있다. 공간 데이타베이스 관리 시스템에서 공간 데이타 의 관리의 용이성 및 부분 지역 검색의 효율성 등을 위해 고정 크기의 격자 구조를 갖는 고정 그리드를 이용 할 수 있다. 그러나 지금가지 고정 그리드를 이용한 공간조인의 병렬 처리에 관한 연구는 거의 없다. 이 논문에서는 고정 그리드를 이용한 병렬 공간 조인 알고리즘의 성능을 예측하는 비용 모델을 제시하 였는데, 이는 최소 경계 사각형(Minimum Bounding Rectangle : MBR)의 비교 횟수. 디스크 접근 횟수,메시지 전송 횟수 등을 근거로 하였다. 실제 데이타 및 인위 데이타 집합을 이용한 실험은 제안한 비용 모델이 정확함을 보여주었다. 이 비용 모델은 복합 공간 질의의 비용을 예측할 필요가 있는 공간 질의 최 적화를 위한 유용한 도구가 될 것으로 기대된다.
PDF

분산 CUBIRD 상에서 세타 조인 및 중첩 SQL 병렬 질의처리를 지원하는 질의 재구성 기법 (Query Reorganization Scheme supporting Parallel Query Processing of Theta Join and Nested SQL on Distributed CUBRID)

양현식;김형진;장재우
- 한국콘텐츠학회:학술대회논문집
- /
- 한국콘텐츠학회 2014년도 추계 종합학술대회 논문집
- /
- pp.37-38
- /
- 2014
최근 SNS의 발전으로 인해 데이터의 양이 급격히 증가하였으며, 이에 따라 빅데이터 처리를 위한 분산 DBMS 기반 질의 처리 연구가 활발히 진행되고 있다. 이를 위해 CUBRID는 CUBRID Shard 서비스를 통해 데이터베이스를 shard 단위로 수평 분할하여 각기 다른 물리 노드에 데이터를 분산 저장하도록 지원한다. 그러나 CUBRID Shard는 shard간 데이터가 독립적으로 관리되기 때문에 세타 조인 및 중첩 질의와 같이 다수 서버에서의 테이블 참조가 필요한 질의는 처리가 불가능하다. 따라서 본 논문에서는 분산 CUBRID 상에서 세타 조인 및 중첩 SQL를 지원하는 질의 재구성 기법을 제안한다.
PDF

병렬 공간데이터베이스 시스템에서 공간 정보 처리 방안 (A Method to Process Spatial Information in Parallel Spatial DBMS)

김진덕
- 한국정보통신학회:학술대회논문집
- /
- 한국정보통신학회 2016년도 춘계학술대회
- /
- pp.811-812
- /
- 2016
최근 공간 정보는 생산 되는 양과 데이터의 생성 빈도 및 다양성으로 인해 기존의 공간 데이터베이스 시스템에서 처리하기 어렵다. 그래서 공간 정보는 빅데이터와 연계에 관한 시도가 활발히 진행되고 있다. 그러나 효율적인 단일할당, 다중할당 색인기반 공간 연산에 대한 연구는 거의 없다. 이 논문에서는 공간 연산 중 비용이 매우 큰 공간 조인을 빅데이터 시스템에서 처리하기 위한 고려요소를 제시하고자 한다. 구체적으로 맵리듀스 시스템의 태스크 할당을 위한 단일 할당 공간 색인방안을 설명하고, 불균일 분포가 심한 공간 정보의 특성을 고려한 부하 균등화 시 고려 요소를 제시하고자 한다. 맵리듀스와 같은 병렬 공간 데이터베이스 시스템에서의 두 가지 문제인 데이터 불균일 분포 문제와 경계 겹침 색인의 문제와의 연관성을 기술한다.
PDF

데이타베이스 공유 시스템에서 B-트리 인덱스를 위한 캐쉬 일관성 제어 (A Cache Consistency Control for B-Tree Indices in a Database Sharing System)

온경오;조행래
- 정보처리학회논문지D
- /
- 제8D권5호
- /
- pp.593-604
- /
- 2001
데이타베이스 공유 시스템(Database Sharing System:Dss)은 고성능의 트랜잭션 처리를 위해 제안된 구조이다. DSS에서 고속의 통신망으로 연결된 노드들은 별도의 메모리와 운영체제를 가지며, 데이타베이스를 저장하고 있는 디스크 모든 노드에 의해 공유된다. 빈번한 디스크 액세스를 피하기 위해 각 노드는 최근에 액세스한 데이타 페이지와 인덱스 페이지들을 자신의 메로리 버퍼에 캐싱한다. 일반적으로 B-트리 인덱스페이지들은 데이타 페이지에 비해 빈번하게 캐싱되고, Fetch, Fetch Next, 삽입, 그리고 삭제와 같은 복잡한 연산을 수행하므로, 높은 동시성을 지원하는 효율적인 캐쉬 일관성 기법이 필요하다. 본 논문에서는 DSS에서 B-트리 인덱스 페이지의 식별자와 리프 페이지의 PageLSN을 사용한 캐쉬 일관성 기법을 제안한다.
PDF

생태계 모방 시스템을 위한 OMNeT++ 기반 병렬 시뮬레이터의 설계 및 PC 클러스터 상에서의 성능 분석 (Design of an OMNeT++ based Parallel Simulator for a Bio-Inspired System and Its Performance on PC-Clusters)

문주선;낭종호
- 한국정보과학회논문지:시스템및이론
- /
- 제34권9호
- /
- pp.416-424
- /
- 2007
생태계 모방형 시스템[1]은 생태계에서 여러 객체들의 진화 및 협동 과정을 모방한 계산 모델로써, 기존의 알고리즘으로는 해결하기 어려운 문제들을 해결할 수 있는 방법으로 많은 연구가 진행되고 있다. 하지만, 이런 시스템은 많은 수의 객체가 진화 및 협동을 하는 과정을 필요로 하기 때문에 이런 시스템에 바탕을 둔 응용 시스템을 설계/분석하는데 많은 시간을 필요로 한다는 문제점을 가지고 있다. 본 논문에서는 이런 생태계 모방형 시스템의 동작을 확인할 수 있는 시뮬레이터를 여러 대의 PC상에서 동작하는 OMNeT++[2]를 확장하여 설계/구현하고, 몇 가지 응용 시뮬레이션을 통하여 그 유용성을 증명한다. 제안한 병렬 시뮬레이터에서는 Ecogent라는 객체가 진화/협동할 수 있는 기능을 제공하는 ERS 플랫폼을 OMNeT++에서 제공하는 기능으로 사상하여 여러 개의 플랫폼 상에서의 Ecogent가 동시에 진화/협동할 수 있게 함으로써 시뮬레이션 시간을 단축시킨다. 시뮬레이션 과정과 결과는 시뮬레이션 모니터 GUI를 통해서 실시간으로 확인할 수 있으며, 또한 시뮬레이션 결과의 체계적인 관리를 위하여 각 시뮬레이션 결과는 데이타베이스를 통해 저장되고 관리된다. 본 논문에서는 4개의 PC로 이루어진 PC cluster상에서 다양한 응용에 대한 생태계 모방형 시스템의 시뮬레이션 및 분석을 통하여 그 유용성을 검증하였다.
PDF KSCI

검색결과 10건 처리시간 0.023초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)