• 제목/요약/키워드: 데이터 분할 평가

검색결과 494건 처리시간 0.035초

비공유 데이터베이스 클러스터에서 온-라인 확장을 위한 데이터 분할 기법의 분석 및 평가 (Analysis and Evaluation of Data Partitioning Methods or On-line Scaling in a Shared Nothing Database Cluster)

  • 장용일;이충호;이재동;배해영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.1859-1862
    • /
    • 2002
  • 비공유 데이터베이스 클러스터는 그 구조의 특성 상 동적인 질의 패턴의 변화, 특정 데이터에 대한 질의 집중에 의한 부하 불균형 및 집중, 사용자 증가에 의한 처리량 한계 등의 문제가 발생한다. 이러한 문제를 해결하기 위해 데이터베이스 클러스터는 최근에 제안된 온-라인 확장기법을 사용하며, 이 기법은 데이터 베이스의 확장성에 의해 큰 영향을 받는다. 일반적으로 클러스터 시스템에서 사용되는 데이터 분할 기법에는 키 값의 순서대로 분할하는 라운드-로빈 분할 기법, 해쉬 함수를 이용해 데이터를 분할하는 해쉬 분할 기법, 범위에 따라 각 노드에 데이터를 분할하는 범위 분할기법, 그리고 조건식에 따라 데이터를 분할하는 조건식 분할 기법이 있다. 본 논문에서는 이 네 가지 분할 기법의 특성을 정리하고, 비공유 데이터베이스 클러스터에서 확장성에 있어서 우수한 분할 기법을 각 분할 기법의 성능평가를 통해 얻는다. 성능평가에서는 각각의 분한 기법을 평가하기 위해 확장 시 발생되는 이동 데이터의 크기, 질의처리에 대한 영향, CPU 사용률, 그리고 온-라인 확장기법의 수행 시 발생되는 특성에 대한 영향을 분석하며, 얻어진 결과를 토대로 비공유 데이터베이스 클러스터에서 가장 적합하면서도 온-라인 확장 기법적용을 위해 확장성이 우수한 데이터 분할기법을 찾는다.

  • PDF

라이다데이터 분할 알고리즘의 시뮬레이션 기반 성능평가 (Simulation Based Performance Assessment of a LIDAR Data Segmentation Algorithm)

  • 김성준;이임평
    • 대한공간정보학회지
    • /
    • 제18권2호
    • /
    • pp.119-129
    • /
    • 2010
  • 라이다데이터를 이용한 다양한 활용알고리즘이 개발되고 있지만, 대부분의 제안된 알고리즘은 정성적인 검증만이 수행되고 있다. 알고리즘의 객관적이고 정량적인 검증을 위해서는 대상에 대한 참값(true value)을 알아야 하지만, 라이다데이터는 데이터 특성상 참값을 알기 어렵다. 본 연구에서는 모의 라이다데이터는 분할 알고리즘의 성능을 평가할 수 있는 참값을 가지고 있다는 점에 착안하여, 모의 라이다데이터를 이용하여 분할 알고리즘의 성능을 보다 객관적/정량적으로 평가해보고자 하였다. 이를 위해 먼저, 1) 분할 알고리즘의 결과를 객관적으로 가늠할 수 있는 정량적인 평가요소들을 정의하고, 2) 3차원 도시모델을 입력 데이터로 모의 라이다데이터를 생성한 후, 3) 분할알고리즘을 적용하여 객체표면을 나타내는 평면패치를 생성하였다. 마지막으로 4) 성능평가지표를 기준으로 생성된 패치에 대한 분석을 자동화하여 수행하였다.

Lip-synch application을 위한 한국어 단어의 음소분할 (The segmentation of Korean word for the lip-synch application)

  • 강용성;고한석
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 제14회 신호처리 합동 학술대회 논문집
    • /
    • pp.509-512
    • /
    • 2001
  • 본 논문은 한국어 음성에 대한 한국어 단어의 음소단위 분할을 목적으로 하였다. 대상 단어는 원광대학교 phonetic balanced 452단어 데이터 베이스를 사용하였고 분할 단위는 음성 전문가에 의해 구성된 44개의 음소셋을 사용하였다. 음소를 분할하기 위해 음성을 각각 프레임으로 나눈 후 각 프레임간의 스펙트럼 성분의 유사도를 측정한 후 측정한 유사도를 기준으로 음소의 분할점을 찾았다. 두 프레임 간의 유사도를 결정하기 위해 두 벡터 상호간의 유사성을 결정하는 방법중의 하나인 Lukasiewicz implication을 사용하였다. 본 실험에서는 기존의 프레임간 스펙트럼 성분의 유사도 측정을 이용한 하나의 어절의 유/무성음 분할 방법을 본 실험의 목적인 한국어 단어의 음소 분할 실험에 맞도록 수정하였다. 성능평가를 위해 음성 전문가에 의해 손으로 분할된 데이터와 본 실험을 통해 얻은 데이터와의 비교를 하여 평가를 하였다. 실험결과 전문가가 직접 손으로 분할한 데이터와 비교하여 32ms이내로 분할된 비율이 최고 84.76%를 나타내었다.

  • PDF

심근의 기능 평가를 위한 반자동 분할 및 정량적 데이터의 시각화 (Semi-automatic segmentation and quantitative data visualization for evaluation of myocardial function)

  • 이유경;최수미;김명희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.634-636
    • /
    • 2001
  • 본 논문에서는 단일광자방출 전산화 단층촬영영사(SPECT)을 이용하여 심근의 기능을 보다 쉽고 정확하게 평가하기 위해 반자동 분할 및 정량적 데이터를 시각화하는 인터페이스를 구현하였다. 먼저 반자동 분할에서는 환자영상에서 보여지듯이 심근 기능이 저하되어 부분적으로 심근이 불연속적으로 나타나는 영상에서도 내.외벽의 외각을 연속성을 가지고 견고하게 분리할 수 있도록 사용자가 간단히 조작할 수 있는 반자동 분리 인터페이스를 구현하였다. 또한 내.외벽으로 분리된 외곽선들을 이용하여 측정한 지역적 모션 데이터를 사용자가 보다 이해하기 쉽도록 Bull's eye 그래프를 이용하여 가시화하였다. 본 논문에서 구현한 반자동 분할 및 정량적 데이터의 시각화 인터페이스는 환자의 심근에 대한 기능 영상처럼 분석이 어려운 영상에서도 보다 견고하고 정확한 평가를 할 수 있도록 해준다.

  • PDF

데이터 분할 평가 진화알고리즘을 이용한 효율적인 퍼지 분류규칙의 생성 (Generation of Efficient Fuzzy Classification Rules Using Evolutionary Algorithm with Data Partition Evaluation)

  • 류정우;김성은;김명원
    • 한국지능시스템학회논문지
    • /
    • 제18권1호
    • /
    • pp.32-40
    • /
    • 2008
  • 데이터 속성 값이 연속적이고 애매할 때 퍼지 규칙으로 분류규칙을 표현하는 것은 매우 유용하면서도 효과적이다. 그러나 효과적인 퍼지 분류규칙을 생성하기 위한 소속함수를 결정하기는 어렵다. 본 논문에서는 진화알고리즘을 이용하여 효과적인 퍼지 분류규칙을 자동으로 생성하는 방법을 제안한다. 제안한 방법은 지도 군집화로 클래스 분포에 따라 초기 소속함수를 생성하고, 정확하고 간결한 규칙을 생성할 수 있도록 초기 소속함수를 진화시키는 방법이다. 또한 진화알고리즘의 시간에 대한 효율성을 높이기 위한 방법으로 데이터 분할 평가 진화 방법을 제안한다. 데이터 분할 평가 진화 방법은 전체 학습 데이터를 여러 개의 부분 학습 데이터들로 나누고 개체는 전체 학습 데이터 대신 부분 학습 데이터를 임의로 선택하여 평가하는 방법이다. UCI 벤치마크 데이터로 기존 방법과 비교 실험을 통해 평균적으로 제안한 방법이 효과적임을 보였다. 또한 KDD'99 Cup의 침입탐지 데이터에서 KDD'99 Cup 우승자에 비해 1.54% 향상된 인식률과 20.8% 절감된 탐지비용을 보였고 데이터 분할 평가 진화 방법으로 개체평가 시간을 약 70% 감소시켰다.

이동체 색인을 위한 KDB-Tree 의 분할 정책 (Splitting Policies of KDB-Tree for indexing of Moving Objects)

  • 이창헌;임덕성;홍봉희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.19-21
    • /
    • 2002
  • 최근 이동통신 및 GPS 기술의 발달로 위치기반서비스 요구가 점점 증가하고 있고, 대용량의 위치데이터가 저장되는 위치기반서비스의 구현을 위한 이동체외 저장 및 검색에 관한 연구가 활발하다. 이동체의 위치 정보를 점으로 모델링하여 색인 할 경우 KDB-Tree의 성능이 우수하다. 그러나 KDB-Tree는 시공간에서의 이동체 위치데이터 색인을 고려할 경우 시간 도메인의 특성으로 인해 성능 저하의 문제를 발생시킨다. 본 논문에서는 이동체 위치데이터의 색인을 위한 KDB-Tree의 사용에서 시간 도메인의 특성을 반영한 분할 도메인 선정 방법과 분할 정책을 제시한다. 새로운 분할 정책은 색인의 공간활용도를 높이고 색인의 크기를 작게 하여 검색의 성능을 높인 최근 시간 분할 기법과 LD(Last Division) 분할 정책이다. 본 논문에서는 KDB-Tree의 변경된 분할 정책을 구현하고 성능평가론 수행한다. 이 성능 평가 실험을 통해서 변경된 분할 정책을 사용한 KDB-Tree에서 공간활용도가 높고 검색 성능이 우수함을 보인다.

  • PDF

최대 면적 차이 분할 방법을 이용한 선택률 추정 (Selectivity Estimation using Maximum Area Difference)

  • 이미란;황환규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.109-111
    • /
    • 2001
  • 공간데이터베이스에서 공간 질의를 최적화하기 위해서는 질의 결과 크기를 계산하는 것이 필수적이다. 그러나 공간 데이터베이스의 크기는 매우 방대하여 질의 결과 크기를 계산하는데 비용이 많이 든다. 이러한 문제를 해결하기 위해서는 실제 공간 데이터의 분포와 특성에 근접하도록 공간 데이터의 분포를 요약하여 이를 토대로 질의 결과 크기를 추정하는 것이 효과적이라 할 수 있다. 공간 분할 방법에는 균등분할 방법과 비균등 분할 방법이 있으면, 본 논문에서 제안한 방법은 1차원 데이터에 대한 선택률 추정기법 중에서 그 성능이 가장 우수하다고 평가된 바 있는 최대 면적 차이 분말을 공간 데이터베이스에 적용하여 공간 분할하는 것이다. 공간 데이터베이스에서 선택을 추정 방법은 공간 분할 방법에 따라 성능상의 차이가 있으며 본 논문은 기존의 방법과 제안한 방법을 실험을 통하여 선택률 추정의 정확성을 비교, 평가하여 제안한 방법이 우수함을 보였다.

  • PDF

효율적인 지도 퍼지 군집화를 위한 휴리스틱 분할 진화알고리즘 (A Partitioned Evolutionary Algorithm Based on Heuristic Evolution for an Efficient Supervised Fuzzy Clustering)

  • 김성은;류정우;김명원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.667-669
    • /
    • 2005
  • 최근 새로운 데이터마이닝 방법인 지도 군집화가 소개되고 있다. 지도 군집화의 목적은 동일한 클래스가 한 군집에 포함되도록 하는 것이다. 지도 군집화는 데이터에 대한 배경 지식을 획득하거나 분류 방법의 성능을 향상시키기 위한 방법으로 사용된다. 그러나 군집화 방법에서 파생된 지도 군집화 역시 군집화 개수 설정 방법에 따라 효율성이 좌우된다. 따라서 클래스 분포에 따라 최적의 지도 군집화 개수를 찾기 위해 진화알고리즘을 적용할 수 있으나, 진화알고리즘은 대용량 데이터를 처리할 경우 수행 시간이 증가되어 효율성이 감소되는 문제가 있다. 본 논문은 지도 군집화보다 강인한인 지도 퍼지 군집화를 효율적으로 생성하기 위해 진화성이 우수한 휴리스틱 분할 진화알고리즘을 제안한다. 휴리스틱 분할 진화알고리즘은 개체를 생성할 때 문제영역의 지식을 반영한 휴리스틱 연산으로 탐색 시간을 단축시키고, 개체 평가 단계에서 전체 데이터 대신 샘플링된 부분 데이터들을 이용하여 진화하는 분할 진화 방법으로 수행 시간을 단축시킴으로써 진화알고리즘의 효율성을 높인다. 또한 효율적으로 개체를 평가하기 위해 지도 퍼지 군집화 알고리즘인 지도 분할 군집화 알고리즘(SPC: supervised partitional clustering)을 제안한다. 제안한 방법은 이차원 실험 데이터에 대해서 정확성과 효율성을 분석하여 그 타당성을 확인한다.

  • PDF

효율적인 데이터 관리를 위한 레벨-단위 데이터 분할 프로토콜 (Level-wise Information Dispersal Protocol for Efficient Data Management)

  • 송성근;윤희용;이보경;최중섭;박창원;이형수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (중)
    • /
    • pp.1043-1046
    • /
    • 2002
  • 서바이벌 스토리지 시스템(Survivable Storage System)은 데이터의 가용성 및 보안성을 높이기 위해 여러 가지 분할 복제 기법들을 사용한다. 이러한 기법들을 정보의 중요도를 고려하지 않고 모든 데이터에 일괄적으로 적용하면, 시스템의 성능면에서 비효율적이다. 본 논문은 이를 해결하기 위해 정보의 중요도별로 다른 정보 분할 기법(IDS : Information Dispersal Scheme)를 적용하는 레벨 단위 데이터 분할 프로토콜을 제안하고 그 성능을 평가한다. 그 결과 제안된 방식은 정보의 중요도가 높을수록 데이터의 실질적인 가용성 및 보안성을 증가시킨다는 것을 볼 수 있다.

  • PDF

빠른 폐 분할과 가시화를 위한 그래픽 하드웨어 기반 레벨-셋 방법 (Hardware-based Level Set Method for Fast Lung Segmentation and Visualization)

  • 박성진;홍헬렌;신영길
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (B)
    • /
    • pp.268-270
    • /
    • 2006
  • 본 논문에서는 3차원 볼륨영상에서 객체를 빠르게 분할하고 동시에 대화식으로 분할과정을 가시화하기 위하여 그래픽 하드웨어를 사용한 레벨-셋 방법을 제안한다. 이를 위하여 첫째, GPU 내에서 효율적 연산을 수행하기 위해 메모리 관리방법을 제안한다. 이는 GPU 내 텍스쳐 메모리 형식에 적합하게 데이터를 패킹하고, CPU의 주메모리와 GPU의 텍스쳐 메모리를 관리하는 방법을 제시한다. 둘째, GPU 내에서 레벨-셋 값을 갱신하는 과정을 9가지 경우로 나누어 연산을 수행하게 함으로써 연산의 효율성을 높힌다. 셋째, front의 변화를 대화식으로 확인하고, 파라미터 변경에 따른 분할 과정을 효과적으로 측정하기 위하여 그래픽 하드웨어 기반 빠른 가시화 방법을 제안한다. 본 논문에서는 제안방법을 평가하기 위하여 3차원 폐 CT 영상데이터를 사용하여 육안평가를 수행하고, 기존 소프트웨어 기반 레벨-셋 방법과 수행시간 측면에서 비교 분석한다. 본 제안방법은 소프트웨어 기반 레벨-셋 방법보다 빠르게 영상을 분할하고 동시에 가시화함으로써 데이터 량이 많은 의료응용에 효율적으로 적용이 가능하다.

  • PDF