• Title/Summary/Keyword: 데이터 분할 평가

Search Result 494, Processing Time 0.03 seconds

Analysis and Evaluation of Data Partitioning Methods or On-line Scaling in a Shared Nothing Database Cluster (비공유 데이터베이스 클러스터에서 온-라인 확장을 위한 데이터 분할 기법의 분석 및 평가)

  • Jang, Yong-Il;Lee, Chung-Ho;Lee, Jae-Dong;Bae, Hae-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11c
    • /
    • pp.1859-1862
    • /
    • 2002
  • 비공유 데이터베이스 클러스터는 그 구조의 특성 상 동적인 질의 패턴의 변화, 특정 데이터에 대한 질의 집중에 의한 부하 불균형 및 집중, 사용자 증가에 의한 처리량 한계 등의 문제가 발생한다. 이러한 문제를 해결하기 위해 데이터베이스 클러스터는 최근에 제안된 온-라인 확장기법을 사용하며, 이 기법은 데이터 베이스의 확장성에 의해 큰 영향을 받는다. 일반적으로 클러스터 시스템에서 사용되는 데이터 분할 기법에는 키 값의 순서대로 분할하는 라운드-로빈 분할 기법, 해쉬 함수를 이용해 데이터를 분할하는 해쉬 분할 기법, 범위에 따라 각 노드에 데이터를 분할하는 범위 분할기법, 그리고 조건식에 따라 데이터를 분할하는 조건식 분할 기법이 있다. 본 논문에서는 이 네 가지 분할 기법의 특성을 정리하고, 비공유 데이터베이스 클러스터에서 확장성에 있어서 우수한 분할 기법을 각 분할 기법의 성능평가를 통해 얻는다. 성능평가에서는 각각의 분한 기법을 평가하기 위해 확장 시 발생되는 이동 데이터의 크기, 질의처리에 대한 영향, CPU 사용률, 그리고 온-라인 확장기법의 수행 시 발생되는 특성에 대한 영향을 분석하며, 얻어진 결과를 토대로 비공유 데이터베이스 클러스터에서 가장 적합하면서도 온-라인 확장 기법적용을 위해 확장성이 우수한 데이터 분할기법을 찾는다.

  • PDF

Simulation Based Performance Assessment of a LIDAR Data Segmentation Algorithm (라이다데이터 분할 알고리즘의 시뮬레이션 기반 성능평가)

  • Kim, Seong-Joon;Lee, Im-Pyeong
    • Journal of Korean Society for Geospatial Information Science
    • /
    • v.18 no.2
    • /
    • pp.119-129
    • /
    • 2010
  • Many algorithms for processing LIDAR data have been developed for diverse applications not limited to patch segmentation, bare-earth filtering and building extraction. However, since we cannot exactly know the true locations of individual LIDAR points, it is difficult to assess the performance of a LIDAR data processing algorithm. In this paper, we thus attempted the performance assessment of the segmentation algorithm developed by Lee (2006) using the LIDAR data generated through simulation based on sensor modelling. Consequently, based on simulation, we can perform the performance assessment of a LIDAR processing algorithm more objectively and quantitatively with an automatic procedure.

The segmentation of Korean word for the lip-synch application (Lip-synch application을 위한 한국어 단어의 음소분할)

  • 강용성;고한석
    • Proceedings of the IEEK Conference
    • /
    • 2001.09a
    • /
    • pp.509-512
    • /
    • 2001
  • 본 논문은 한국어 음성에 대한 한국어 단어의 음소단위 분할을 목적으로 하였다. 대상 단어는 원광대학교 phonetic balanced 452단어 데이터 베이스를 사용하였고 분할 단위는 음성 전문가에 의해 구성된 44개의 음소셋을 사용하였다. 음소를 분할하기 위해 음성을 각각 프레임으로 나눈 후 각 프레임간의 스펙트럼 성분의 유사도를 측정한 후 측정한 유사도를 기준으로 음소의 분할점을 찾았다. 두 프레임 간의 유사도를 결정하기 위해 두 벡터 상호간의 유사성을 결정하는 방법중의 하나인 Lukasiewicz implication을 사용하였다. 본 실험에서는 기존의 프레임간 스펙트럼 성분의 유사도 측정을 이용한 하나의 어절의 유/무성음 분할 방법을 본 실험의 목적인 한국어 단어의 음소 분할 실험에 맞도록 수정하였다. 성능평가를 위해 음성 전문가에 의해 손으로 분할된 데이터와 본 실험을 통해 얻은 데이터와의 비교를 하여 평가를 하였다. 실험결과 전문가가 직접 손으로 분할한 데이터와 비교하여 32ms이내로 분할된 비율이 최고 84.76%를 나타내었다.

  • PDF

Semi-automatic segmentation and quantitative data visualization for evaluation of myocardial function (심근의 기능 평가를 위한 반자동 분할 및 정량적 데이터의 시각화)

  • 이유경;최수미;김명희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.634-636
    • /
    • 2001
  • 본 논문에서는 단일광자방출 전산화 단층촬영영사(SPECT)을 이용하여 심근의 기능을 보다 쉽고 정확하게 평가하기 위해 반자동 분할 및 정량적 데이터를 시각화하는 인터페이스를 구현하였다. 먼저 반자동 분할에서는 환자영상에서 보여지듯이 심근 기능이 저하되어 부분적으로 심근이 불연속적으로 나타나는 영상에서도 내.외벽의 외각을 연속성을 가지고 견고하게 분리할 수 있도록 사용자가 간단히 조작할 수 있는 반자동 분리 인터페이스를 구현하였다. 또한 내.외벽으로 분리된 외곽선들을 이용하여 측정한 지역적 모션 데이터를 사용자가 보다 이해하기 쉽도록 Bull's eye 그래프를 이용하여 가시화하였다. 본 논문에서 구현한 반자동 분할 및 정량적 데이터의 시각화 인터페이스는 환자의 심근에 대한 기능 영상처럼 분석이 어려운 영상에서도 보다 견고하고 정확한 평가를 할 수 있도록 해준다.

  • PDF

Generation of Efficient Fuzzy Classification Rules Using Evolutionary Algorithm with Data Partition Evaluation (데이터 분할 평가 진화알고리즘을 이용한 효율적인 퍼지 분류규칙의 생성)

  • Ryu, Joung-Woo;Kim, Sung-Eun;Kim, Myung-Won
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.18 no.1
    • /
    • pp.32-40
    • /
    • 2008
  • Fuzzy rules are very useful and efficient to describe classification rules especially when the attribute values are continuous and fuzzy in nature. However, it is generally difficult to determine membership functions for generating efficient fuzzy classification rules. In this paper, we propose a method of automatic generation of efficient fuzzy classification rules using evolutionary algorithm. In our method we generate a set of initial membership functions for evolutionary algorithm by supervised clustering the training data set and we evolve the set of initial membership functions in order to generate fuzzy classification rules taking into consideration both classification accuracy and rule comprehensibility. To reduce time to evaluate an individual we also propose an evolutionary algorithm with data partition evaluation in which the training data set is partitioned into a number of subsets and individuals are evaluated using a randomly selected subset of data at a time instead of the whole training data set. We experimented our algorithm with the UCI learning data sets, the experiment results showed that our method was more efficient at average compared with the existing algorithms. For the evolutionary algorithm with data partition evaluation, we experimented with our method over the intrusion detection data of KDD'99 Cup, and confirmed that evaluation time was reduced by about 70%. Compared with the KDD'99 Cup winner, the accuracy was increased by 1.54% while the cost was reduced by 20.8%.

Splitting Policies of KDB-Tree for indexing of Moving Objects (이동체 색인을 위한 KDB-Tree 의 분할 정책)

  • 이창헌;임덕성;홍봉희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.19-21
    • /
    • 2002
  • 최근 이동통신 및 GPS 기술의 발달로 위치기반서비스 요구가 점점 증가하고 있고, 대용량의 위치데이터가 저장되는 위치기반서비스의 구현을 위한 이동체외 저장 및 검색에 관한 연구가 활발하다. 이동체의 위치 정보를 점으로 모델링하여 색인 할 경우 KDB-Tree의 성능이 우수하다. 그러나 KDB-Tree는 시공간에서의 이동체 위치데이터 색인을 고려할 경우 시간 도메인의 특성으로 인해 성능 저하의 문제를 발생시킨다. 본 논문에서는 이동체 위치데이터의 색인을 위한 KDB-Tree의 사용에서 시간 도메인의 특성을 반영한 분할 도메인 선정 방법과 분할 정책을 제시한다. 새로운 분할 정책은 색인의 공간활용도를 높이고 색인의 크기를 작게 하여 검색의 성능을 높인 최근 시간 분할 기법과 LD(Last Division) 분할 정책이다. 본 논문에서는 KDB-Tree의 변경된 분할 정책을 구현하고 성능평가론 수행한다. 이 성능 평가 실험을 통해서 변경된 분할 정책을 사용한 KDB-Tree에서 공간활용도가 높고 검색 성능이 우수함을 보인다.

  • PDF

Selectivity Estimation using Maximum Area Difference (최대 면적 차이 분할 방법을 이용한 선택률 추정)

  • 이미란;황환규
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.109-111
    • /
    • 2001
  • 공간데이터베이스에서 공간 질의를 최적화하기 위해서는 질의 결과 크기를 계산하는 것이 필수적이다. 그러나 공간 데이터베이스의 크기는 매우 방대하여 질의 결과 크기를 계산하는데 비용이 많이 든다. 이러한 문제를 해결하기 위해서는 실제 공간 데이터의 분포와 특성에 근접하도록 공간 데이터의 분포를 요약하여 이를 토대로 질의 결과 크기를 추정하는 것이 효과적이라 할 수 있다. 공간 분할 방법에는 균등분할 방법과 비균등 분할 방법이 있으면, 본 논문에서 제안한 방법은 1차원 데이터에 대한 선택률 추정기법 중에서 그 성능이 가장 우수하다고 평가된 바 있는 최대 면적 차이 분말을 공간 데이터베이스에 적용하여 공간 분할하는 것이다. 공간 데이터베이스에서 선택을 추정 방법은 공간 분할 방법에 따라 성능상의 차이가 있으며 본 논문은 기존의 방법과 제안한 방법을 실험을 통하여 선택률 추정의 정확성을 비교, 평가하여 제안한 방법이 우수함을 보였다.

  • PDF

A Partitioned Evolutionary Algorithm Based on Heuristic Evolution for an Efficient Supervised Fuzzy Clustering (효율적인 지도 퍼지 군집화를 위한 휴리스틱 분할 진화알고리즘)

  • Kim, Sung-Eun;Ryu, Joung-Woo;Kim, Myung-Won
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.667-669
    • /
    • 2005
  • 최근 새로운 데이터마이닝 방법인 지도 군집화가 소개되고 있다. 지도 군집화의 목적은 동일한 클래스가 한 군집에 포함되도록 하는 것이다. 지도 군집화는 데이터에 대한 배경 지식을 획득하거나 분류 방법의 성능을 향상시키기 위한 방법으로 사용된다. 그러나 군집화 방법에서 파생된 지도 군집화 역시 군집화 개수 설정 방법에 따라 효율성이 좌우된다. 따라서 클래스 분포에 따라 최적의 지도 군집화 개수를 찾기 위해 진화알고리즘을 적용할 수 있으나, 진화알고리즘은 대용량 데이터를 처리할 경우 수행 시간이 증가되어 효율성이 감소되는 문제가 있다. 본 논문은 지도 군집화보다 강인한인 지도 퍼지 군집화를 효율적으로 생성하기 위해 진화성이 우수한 휴리스틱 분할 진화알고리즘을 제안한다. 휴리스틱 분할 진화알고리즘은 개체를 생성할 때 문제영역의 지식을 반영한 휴리스틱 연산으로 탐색 시간을 단축시키고, 개체 평가 단계에서 전체 데이터 대신 샘플링된 부분 데이터들을 이용하여 진화하는 분할 진화 방법으로 수행 시간을 단축시킴으로써 진화알고리즘의 효율성을 높인다. 또한 효율적으로 개체를 평가하기 위해 지도 퍼지 군집화 알고리즘인 지도 분할 군집화 알고리즘(SPC: supervised partitional clustering)을 제안한다. 제안한 방법은 이차원 실험 데이터에 대해서 정확성과 효율성을 분석하여 그 타당성을 확인한다.

  • PDF

Level-wise Information Dispersal Protocol for Efficient Data Management (효율적인 데이터 관리를 위한 레벨-단위 데이터 분할 프로토콜)

  • Song, Sung-Keun;Youn, Hee-Yong;Lee, Bo-Kyoung;Choi, Joong-Sup;Park, Chang-Won;Lee, Hyung-Soo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11b
    • /
    • pp.1043-1046
    • /
    • 2002
  • 서바이벌 스토리지 시스템(Survivable Storage System)은 데이터의 가용성 및 보안성을 높이기 위해 여러 가지 분할 복제 기법들을 사용한다. 이러한 기법들을 정보의 중요도를 고려하지 않고 모든 데이터에 일괄적으로 적용하면, 시스템의 성능면에서 비효율적이다. 본 논문은 이를 해결하기 위해 정보의 중요도별로 다른 정보 분할 기법(IDS : Information Dispersal Scheme)를 적용하는 레벨 단위 데이터 분할 프로토콜을 제안하고 그 성능을 평가한다. 그 결과 제안된 방식은 정보의 중요도가 높을수록 데이터의 실질적인 가용성 및 보안성을 증가시킨다는 것을 볼 수 있다.

  • PDF

Hardware-based Level Set Method for Fast Lung Segmentation and Visualization (빠른 폐 분할과 가시화를 위한 그래픽 하드웨어 기반 레벨-셋 방법)

  • Park Seong-Jin;Hong He-Len;Shin Yeong-Gil
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06b
    • /
    • pp.268-270
    • /
    • 2006
  • 본 논문에서는 3차원 볼륨영상에서 객체를 빠르게 분할하고 동시에 대화식으로 분할과정을 가시화하기 위하여 그래픽 하드웨어를 사용한 레벨-셋 방법을 제안한다. 이를 위하여 첫째, GPU 내에서 효율적 연산을 수행하기 위해 메모리 관리방법을 제안한다. 이는 GPU 내 텍스쳐 메모리 형식에 적합하게 데이터를 패킹하고, CPU의 주메모리와 GPU의 텍스쳐 메모리를 관리하는 방법을 제시한다. 둘째, GPU 내에서 레벨-셋 값을 갱신하는 과정을 9가지 경우로 나누어 연산을 수행하게 함으로써 연산의 효율성을 높힌다. 셋째, front의 변화를 대화식으로 확인하고, 파라미터 변경에 따른 분할 과정을 효과적으로 측정하기 위하여 그래픽 하드웨어 기반 빠른 가시화 방법을 제안한다. 본 논문에서는 제안방법을 평가하기 위하여 3차원 폐 CT 영상데이터를 사용하여 육안평가를 수행하고, 기존 소프트웨어 기반 레벨-셋 방법과 수행시간 측면에서 비교 분석한다. 본 제안방법은 소프트웨어 기반 레벨-셋 방법보다 빠르게 영상을 분할하고 동시에 가시화함으로써 데이터 량이 많은 의료응용에 효율적으로 적용이 가능하다.

  • PDF