데이터 마이닝에서의 군집분석 알고리즘 비교 연구

  • Lee, Yeong-Seop;An, Mi-Yeong
    • 한국데이터정보과학회:학술대회논문집
    • 2003.05a
    • pp.19-25
    • 2003
  • 데이터베이스에 내재된 패턴이나 관계를 묘사한 것만으로도 의사결정에 필요한 정보를 제공할 수 있는데 이 데이터들의 변수들을 비슷한 특징을 가지는 소그룹으로 나누어 패턴을 찾는 것을 군집분석이라 한다. 이러한 군집 분석에는 분리군집방법과 계층적군집방법이 있는데, 재할당이 가능한 분리군집방법의 여러 알고리즘에 대해 비교해보자. 분리군집알고리즘에는 중심을 평균으로 하는 k-평균 알고리즘과, 중심을 메도이드로하는 PAM, CLARA, CLARANS 알고리즘이 있다. 이러한 알고리즘에 대한 이론과, 장단점을 설명하고, 분산과 중심들간의 평균 거리로 비교해 본다.

Analysis of latent growth model using repeated measures ANOVA in the data from KYPS (청소년패널자료 분석에서의 반복측정분산분석을 활용한 잠재성장모형)

  • Lee, Hwa-Jung;Kang, Suk-Bok
    • Journal of the Korean Data and Information Science Society
    • v.24 no.6
    • pp.1409-1419
    • 2013
  • We analyzed the data from KYPS using the latent growth model which has been widely studied as an analysis method of longitudinal data. In this study, we applied repeated measures ANOVA to unconditional model in order for faster decision of the unconditional model of the latent growth model. Also, we compared the six-type models, the quadratic model and the model of which repeated measures ANOVA is applied.

Effective Parallel Hash Join Algorithm Based on Histoftam Equalization in the Presence of Data Skew (데이터 편재 하에서 히스토그램 변환기법에 기초한 효율적인 병렬 해쉬 결합 알고리즘)

  • Park, Ung-Gyu;Choe, Hwang-Gyu;Kim, Tak-Gon
    • The Transactions of the Korea Information Processing Society
    • v.4 no.2
    • pp.338-348
    • 1997
  • In this pater, we first propose a data distribution framework to resolve load imbalance and bucket oerflow in parallel hash join.Using the histogram equalization technique, the framework transforms a histogram of skewed data to the desired uniform distribution that corresponds to the relative computing power of node processors in the system.Next we propose an effcient parallel hash join algorithm for handing skwed data based on the proposed data distribution methodology.For performance comparison of our algorithm with other hash join algorithms.we perform similation experiments and actual exeution on COREDB database computer with 8-node hyperube architecture. In these experiments, skwed data distebution of the join atteibute is modeled using a Zipf-like distribution.The perfomance studies undicate that our algorithm outperforms other algorithms in the skewed cases.

Joint Authoring in Distributed Multimedia Environments (분산 멀티미디어 환경에서의 공동 저작)

  • 성미영
    • Proceedings of the Korea Database Society Conference
    • 1995.12a
    • pp.117-126
    • 1995
  • 본 논문에서는 분산 환경에서 멀티미디어 문서를 공동 저작하는 시스템을 설계하는 데 있어서 고려해야 할 요구 사항들을 분석하였다. 또한 이들 요구 사항을 만족시키는 문서 구조 DMDA (Distributed Multimedia Document Architecture)의 기본 개념을 소개하였다. DMDA는 논리 구조 지향적이다. 표현 객체와 상대공간 합성의 도움으로 동적인 재배치가 가능하다. 또한 사용자 관점에 따를 문서 출력이 가능하고 버전 관리가 쉬운 구조로 되어 있다. 공동 작업 중에 문서 위에 행해진 표시나 주석은 표시객체에 담겨 분산된다 분산 멀티미디어 환경에서 문서를 편집 또는 공동 저작하는 시스템은 분산 객체들을 조합하여 하나의 문서를 만들 수 있기 위하여 논리 구조 지향적이고 구조 편집 지향적이어야 한다.

CPS Data Analysis Architecture using Open Source Projects (공개소스프로젝트를 이용한 사이버물리시스템 데이터분석아키텍처)

  • Lim, Yoojin;Choi, Eunmi
    • Annual Conference of KIPS
    • 2013.11a
    • pp.172-175
    • 2013
  • 사이버물리시스템(CPS)은 실시간 제약으로 타이밍에 민감한 특징이 있으며, 산업 영역에 적용시 시스템 동작과 안전필수 로그의 특정한 패턴을 나타내는 대용량의 실시간 데이터를 생성시킨다. 본 논문은 공개소스프로젝트인 하둡에코시스템을 이용한 CPS 데이터분석 아키텍처를 소개한다. CPS 처리의 특징 때문에 그 대용량의 데이터 처리는 하나의 머신에서 분석될 수 없으므로, 하둡에코시스템을 통하여 실시간 기반으로 생성되는 데이터를 저장하고 처리하는 시스템 아키텍처를 제안한다. 하둡분산파일시스템(HDFS)은 거대한 CPS 데이터의 저장을 위한 기본 파일시스템이고, 하이브는 데이터웨어하우징 처리를 위한 CPS 데이터분석에 사용된다. 플룸은 서버들로부터 데이터를 수집하고 HDFS에서 그 데이터를 처리하기 위해 사용되며, Rhive는 데이터 마이닝과 분석을 적용하기 위해 사용된다. 이러한 아키텍처를 개관하고, 또한 효과적인 데이터 분석을 위해 사용한 시스템 설계 전략을 소개한다.

Analysis of the Interference between Parallel Socket Connections and Prediction of the Bandwidth (병렬 연결 간의 트래픽 간섭 현상 분석 및 대역폭 예측)

  • Kim Young-Shin;Huh Eui-Nam;Kim Il-Jung;Hwang Jun
    • Journal of Internet Computing and Services
    • /
    • /
    • /
  • Recently, many researchers have been studied several high performance data transmission techniques such as TCP buffer Tuning, XCP and Parallel Sockets. The Parallel Sockets is an application level library for parallel data transfer, while TCP tuning, XCP and DRS are developed on kernel level. However, parallel socket is not analyzed in detail yet and need more enhancements, In this paper, we verify performance of parallel transfer technique through several experiments and analyze character of traffic interference among socket connections. In order to enhance parallel transfer management mechanism, we predict the number of socket connections to obtain SLA of the network resource and at the same time, affected network bandwidth of existing connections is measured mathematically due to the interference of other parallel transmission. Our analytical scheme predicts very well network bandwidth for applications using the parallel socket only with 8% error.

Performance Analysis of Load Balanced Metadata Catalog Service (부하분산 메타데이터 카탈로그 서비스의 성능 분석)

  • Ahn, Sunil;Lee, Sehoon;Kim, Namgyu;Hwang, Soonwook
    • Proceedings of the Korea Contents Association Conference
    • 2007.11a
    • pp.555-559
    • 2007
  • AMGA is a metadata catalogue service which offers access to metadata for files stored on the Grid. We evaluated the performance of AMGA and analyzed overhead in the current AMGA implementation. It had 700% poor throughput (read/insert per second) compared with the direct DB access. The biggest overhead was in managing GSI/SSL Connections, degrading throughput about 350%. We alsomeasured the throughput of load-balanced AMGA services, and it showed linear throughput improvement when we increased the number of AMGA server. In addition, we measured the throughputin the WAN environment, and it showed the number of the maximum connections that an AMGA server can handle is the most critical factor in the throughput.

A Workload Analysis of Distributed Object Store to Backend Storage (분산 오브젝트 저장 플랫폼의 스토리지 접근 워크로드 특성 분석)

  • Han, Yuil;Lee, Eunji
    • Annual Conference of KIPS
    • 2017.11a
    • pp.6-7
    • 2017
  • 디지털 데이터의 폭발적 증가와 형태의 다양화는 최근 비정형 대규모 저장 플랫폼의 급격한 확산을 이끌고 있다. 이러한 비정형 데이터 저장 시스템은 전통적인 파일시스템과 데이터를 저장 및 처리하는 방식이 상이하여 높은 성능을 위해서는 기존 하위 시스템의 최적화가 필요하다. 이에 본 논문에서는 최근 급부상하고 있는 분산 오브젝트 스토어인 Ceph을 중심으로 오브젝트 스토어의 스토리지 접근 패턴을 분석하는 연구를 수행한다. 본 연구는 상위 계층의 접근패턴을 구체적으로 이해함으로써 차세대 데이터 플랫폼을 효율적으로 지원할 수 있는 스토리지 시스템을 개발하는 데에 기여한다고 하겠다.

A Test-bed for DCAF (DeCentralized Analysis Farm) (탈중심분산팜(DeCentralized Analysis Farm)의 테스트베드 구축)

  • 조기현;오영도;권기환;한대희;손동철;김복주;이상산
    • Proceedings of the Korean Information Science Society Conference
    • 2003.04a
    • pp.46-48
    • 2003
  • 미국 페르미연구소에서 현재 수행되고 있는 고에너지물리 실험의 하나인 CDF 실험에서는 현재 303대의 Dual CUP 클러스터를 이용한 중심분석용팜(CAF, Central Analysis Farm)을 페르미 연구소 내에 구성하여 실제 데이터 처리 및 모의 시늉 데이터를 생산하는데 사용하고 있다. 그러나 페르미 연구소에서의 중심분석용팜(CAF)은 향후 그 자원이 충분치가 못하므로, 이에 참여하고 있는 여러 나라의 컴퓨팅 자원들을 공유할 수 있어야 한다. 따라서, 한국그룹은 경북대학교 고에너지물리연구소에 있는 PC 클러스터를 활용하여 탈중심분산팜 (DCAF, DeCenteralized Analysis Farm)을 국제공동연구로 설계하여 테스트베드를 구축하였다. 이 구성에는 CAF의 기술뿐만 아니라 페르미 연구소라는 원격에 있는 실험 데이터를 이용하여 job을 수행하므로 데이터 전송 기술인 SAM(Sequential data Access via Meta-data) 및 Kerberos의 보안 시스템, 그리드(Grid)를 포함하는 모든 IT 기술의 종합으로 이루어져있다.

GPS Data Partitioning Method for POI Extraction in Distributed Environment (분산 네트워크 환경에서 POI추출을 위한 GPS 데이터 분할 방법)

  • Oh, Joo-Seong;Heo, Yu-Kyung;Park, Jin-Gwan;Back, Jong-Sang;Jung, Min-A
    • Annual Conference of KIPS
    • 2015.04a
    • pp.172-175
    • 2015
  • 많은 사람들이 위치 기반 서비스를 사용하면서 위치 기반 서비스에서 사용되는 GPS 데이터는 기하급수적으로 증가하고 있다. 사용자들에게 필요한 정보를 제공하기위해서는 이러한 대량의 GPS 데이터를 처리하여 POI를 추출하고 분석하는 과정이 필요하다. 본 논문에서는 POI를 추출하고 관리 분석하기 위해 MapReduce 환경을 구축하고 DBSCAN 클러스터링 방법을 이용한다. 또한 분산 환경에서 DBSCAN 알고리즘을 수행하기 위해 K-Means를 이용한 데이터 분할 방법을 제안한다.