• 제목/요약/키워드: agglomerative clustering

검색결과 59건 처리시간 0.027초

응집 계층 군집화 기법을 이용한 이종 공간정보의 M:N 대응 클래스 군집 쌍 탐색 (Detection of M:N corresponding class group pairs between two spatial datasets with agglomerative hierarchical clustering)

  • 허용;김정옥;유기윤
    • 한국측량학회지
    • /
    • 제30권2호
    • /
    • pp.125-134
    • /
    • 2012
  • 본 연구는 두 공간정보의 대응 클래스 군집 쌍 탐색을 중심으로 의미론적 정합과정에서 발생하는 M:N 대응관계를 분석하는 방법을 제안한다. 객체의 공유 관계를 이용하여 클래스의 유사도를 측정하고 높은 유사도를 가지는 클래스들을 군집화함으로써 M:N 대응관계를 탐색하고자 한다. 클래스 사이의 유사도를 그래프 모형으로 표현하고 그래프 임베딩 기법을 적용하여 투영공간에서 클래스 사이의 거리가 클래스 중첩분석에 의한 국지적 유사도에 반비례하도록 개별 클래스들의 투영좌표를 계산하고 군집화를 수행함으로써 계층적 대응 군집 쌍을 탐색할 수 있다. 제안된 방법을 평가하기 위하여 경기도 수원시의 수치지형도와 연속지적도에 적용하여 수치지형도의 면 객체 레이어와 연속지적도의 필지 지목의 대응 군집 쌍을 탐색하였다. 탐색된 대응 클래스 쌍의 F-measure를 측정한 결과 약 0.80에서 0.35 사이의 다양한 값을 얻을 수 있었으며, 클래스 명칭과는 상이한 다양한 대응관계를 얻을 수 있었다.

국내 연안 해역 선박 항적 군집화를 위한 항적 간 거리 척도 개발 연구 (Research on the Development of Distance Metrics for the Clustering of Vessel Trajectories in Korean Coastal Waters)

  • 이승주;이원희;민지홍;조득재;박현우
    • 한국항해항만학회지
    • /
    • 제47권6호
    • /
    • pp.367-375
    • /
    • 2023
  • 본 연구에서는 국내 연안 해역 환경에서의 해상교통관제 서비스에 기여할 수 있는 항적 간 거리 척도를 개발하였다. 새로운 항적간 거리 척도는 전통적으로 위치 시계열 간의 유사도를 측정하는 데 활용되는 하우스도르프 거리(hausdorff distance)와 두 항적 간의 대지속력(Speed Over Ground, SOG)의 평균 간의 차이, 그리고 대지침로(Course Over Ground)의 분산 간의 차이를 가중합하여 설계되었다. 새로운 척도의 유효성을 검증하기 위하여 실제 AIS 항적 데이터와 병합 군집화 알고리즘을 활용한 기존 항적 간 거리 척도와의 비교 분석이 수행되었으며, 새로운 거리 척도를 활용한 항적 군집화 결과가 하우스도르프 거리(hausdorff distance), 그리고 다이내믹 타임 워핑 거리(Dynamic Time Warping distance) 등 기존 척도에 비해 항적 간 지리적 거리나 대지속도 및 대지침로 등 선박 거동 특성의 분포를 비슷하거나 그 이상의 수준으로 정교하게 반영하고 있음을 데이터 시각화로써 확인하였다. 정량적으로는 Davies-Bouldin 지표를 기준으로, 군집화 결과가 더욱 우수하거나 약간 낮은 수준을 기록한 한편, 거리 계산 효율성에서는 특히 우수함을 실증하였다.

사용자 질의어 특징을 반영한 하이라이트 기반 노래 가사 검색 (Highlight based Lyrics Search Considering the Characteristics of Query)

  • 김권양
    • 한국지능시스템학회논문지
    • /
    • 제26권4호
    • /
    • pp.301-307
    • /
    • 2016
  • 본 논문에서는 사용자들이 노래 가사를 입력으로 음악을 검색할 때 사용자의 질의어 특징을 반영한 검색 방법을 제안한다. 일반적으로 노래 가사 검색에서 사용자들이 작성하는 질의어들은 음악 하이라이트 부분에 해당된다는 점을 고려하여 본 논문에서는 노래 가사를 색인할 때, 하이라이트 부분이 더 중요하도록 만든다. 이를 위해 본 논문에서는 응집 계층 군집화를 사용하여 자동으로 음악 하이라이트 부분을 찾고, 하이라이트 부분과 그 주변 부분을 중요하게 고려할 수 있는 가우시안 중요도를 제안한다. 이 가우시안 함수는 평균을 하이라이트 부분으로 설정함으로써 하이라이트에서 가장 높은 값을 가지며, 주변부는 하이라이트보다 낮은 중요도를 가진다. 이렇게 얻어진 중요도와 함께 노래 가사를 색인함으로써 사용자들이 작성한 질의어에 대해 더 부합하는 검색 결과를 제공해준다. 실험에서 실사용자 5명에 대해 다양한 질의 타입들과 함께 평가하였으며, 가중치를 고려하지 않는 비교 모델보다 제안한 방법이 효과적임을 보인다.

Optimal Fuzzy Models with the Aid of SAHN-based Algorithm

  • Lee Jong-Seok;Jang Kyung-Won;Ahn Tae-Chon
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제6권2호
    • /
    • pp.138-143
    • /
    • 2006
  • In this paper, we have presented a Sequential Agglomerative Hierarchical Nested (SAHN) algorithm-based data clustering method in fuzzy inference system to achieve optimal performance of fuzzy model. SAHN-based algorithm is used to give possible range of number of clusters with cluster centers for the system identification. The axes of membership functions of this fuzzy model are optimized by using cluster centers obtained from clustering method and the consequence parameters of the fuzzy model are identified by standard least square method. Finally, in this paper, we have observed our model's output performance using the Box and Jenkins's gas furnace data and Sugeno's non-linear process data.

비구조화 P2P 시스템에서 이동에이전트를 이용한 Peer의 속성기반 계층적 클러스터링 (Property-based Hierarchical Clustering of Peers using Mobile Agent for Unstructured P2P Systems)

  • 마이클 안젤로 살보;마테오 로미오;이재완
    • 인터넷정보학회논문지
    • /
    • 제10권4호
    • /
    • pp.189-198
    • /
    • 2009
  • 비구조화 P2P 시스템은 오늘날 인터넷에서 가장 널리 사용되지만, 파일의 배치는 임의로 이루어지며, Peer와 컨텐츠간에는 어떤 상관관계도 존재하지 않는다. 또한 보낸 모든 질의가 원하는 데이터를 찾았는지에 대한 보장도 없다. 본 논문에서는 비구조화된 P2P시스템에서 군집형 계층 클러스터링을 사용하여 노드들을 클러스터화함으로써 검색을 향상시키는 방법을 제시한다. 제안한 기법과 k-means를 사용한 기법간에 노드 클러스터링을 위한 지연시간을 비교하였다. 또한 제안한 알고리즘, k-means 클러스터링, 클러스터링을 사용하지 않은 방법간에 한 네트워크 토폴로지에서 데이터를 찾기 위한 지연시간에 대해 시뮬레이션을 수행하였다. 시뮬레이션 결과 제안한 기법의 지연시간이 다른 방법들보다 짧았음을 알 수 있었다.

  • PDF

Extended Kepler Grid-based System for Diabetes Study Workspace

  • Hazemi, Fawaz Al;Youn, Chan-Hyun
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.230-233
    • /
    • 2011
  • Chronic disease is linked to patient's' lifestyle. Therefore, doctor has to monitor his/her patient over time. This may involve reviewing many reports, finding any changes, and modifying several treatments. One solution to optimize the burden is using a visualizing tool over time such as a timeline-based visualization tool where all reports and medicine are integrated in a problem centric and time-based style to enable the doctor to predict and adjust the treatment plan. This solution was proposed by Bui et. al. [2] to observe the medical history of a patient. However, there was limitation of studying the diabetes patient's history to find out what was the cause of the current development in patient's condition; moreover what would be the prediction of current implication in one of the diabetes' related factors (such as fat, cholesterol, or potassium). In this paper, we propose a Grid-based Interactive Diabetes System (GIDS) to support bioinformatics analysis application for diabetes diseases. GIDS used an agglomerative clustering algorithm as clustering correlation algorithm as primary algorithm to focus medical researcher in the findings to predict the implication of the undertaken diabetes patient. The algorithm was Chronological Clustering proposed by P. Legendre [11] [12].

맵리듀스를 이용한 다중 중심점 집합 기반의 효율적인 클러스터링 방법 (An Efficient Clustering Method based on Multi Centroid Set using MapReduce)

  • 강성민;이석주;민준기
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권7호
    • /
    • pp.494-499
    • /
    • 2015
  • 데이터 사이즈가 증가함에 따라서 대용량 데이터를 분석하여 데이터의 특성을 파악하는 것이 매우 중요해졌다. 본 논문에서는 분산 병렬 처리 프레임워크인 맵리듀스를 활용한 k-Means 클러스터링 기반의 효과적인 클러스터링 기법인 MCSK-Means (Multi centroid set k-Means)알고리즘을 제안한다. k-Means 알고리즘은 임의로 정해지는 k개의 초기 중심점들의 위치에 따라서 클러스터링 결과의 정확도가 많은 영향을 받는 문제점을 가지고 있다. 이러한 문제를 해결하기 위하여, 본 논문에서 제안하는 MCSK-Means 알고리즘은 k개의 중심점들로 이루어진 m개의 중심점 집합을 사용하여 임의로 생성되는 초기 중심점의 의존도를 줄였다. 또한, 클러스터링 단계를 거친 m개의 중심점 집합들에 속한 중심점들에 대하여 직접 계층 클러스터링 알고리즘을 적용하여 k개의 클러스터 중심점들을 생성하였다. 본 논문에서는 MCSK-Means 알고리즘을 맵리듀스 프레임워크 환경에서 개발하여 대용량 데이터를 효율적으로 처리할 수 있도록 하였다.

RAG 기반 계층 분류 (2) (RAG-based Hierarchical Classification)

  • 이상훈
    • 대한원격탐사학회지
    • /
    • 제22권6호
    • /
    • pp.613-619
    • /
    • 2006
  • 본 연구는 원격 탐사의 영상 처리에서 영상 분할의 상위 수준으로 응집 계층 clustering의 dendrogram을 통한 무감독 영상 분류를 제안한다. 제안된 알고리즘은 분광 영역에서 정의된 RAG (Regional Agency Graph)와 min-heap 자료 구조를 이용하여 MCSNP (Mutual Closest Spectral Neighbor Pair)의 집합을 검색하면서 합병을 수행하는 계층 clustering 방법이다. 계산 시간과 저장 기억의 사용에 대한 효율을 증가시키기 위해 분광적 인접성을 정의하는 분광 공간(spectral space)내의 다중 창을 사용하였고 RNV (Region Neighbor Vector)을 이용하여 합병에 의하여 변하는 RAG 갱신하였고 적정한 단계 수가 주어진다면 제안된 알고리즘은 집단 합병의 계층적 관계를 쉽게 해석 할 수 있는 dendrogram을 생성한다. 본 연구는 simulation 자료를 사용하여 광범위하게 제안된 알고리즘에 대한 평가 실험을 수행 하였으며 실험 결과는 알고리즘의 효율성을 입증하였다. 또한 한반도에서 관측된 방대한 크기의 QuickBird 영상의 적용 결과는 제안된 알고리즘이 무감독 영상 분류를 위한 강력한 수단임을 보여준다.

계층적 군집화 기법을 이용한 소스 코드 표절 검사 (Hierarchical Clustering Methodology for Source Code Plagiarism Detection)

  • 손기락;문승미
    • 정보교육학회논문지
    • /
    • 제11권1호
    • /
    • pp.91-98
    • /
    • 2007
  • 인터넷 통신의 발달 및 워드프로세서의 기능 향상으로 인해 일선 교육현장에서의 표절은 심각한 문제가 되고 있다. 본 연구에서는 C, C++, Java 등으로 작성된 프로그램 소스 코드들의 유사도를 측정하는 방법을 제시하고, 소스 코드를 계층적으로 군집화하고 표절 결과를 수형도로 시각화하는 방법을 제시한다. 채점자는 시각화된 수형도를 보고 임계값을 설정하여 표절 그룹을 분리할 수 있다. 실제 데이터에서 효과를 알아보기 위해서 학부 1학년생 컴퓨터 개론 및 실습과목 강의 중에 제출된 과제물 프로그램을 이용하여 실험해 보았으며, 유용하고 현실성 있는 방법임을 확인하였다.

  • PDF

군집분석을 이용한 국지해일모델 지역확장 (Regional Extension of the Neural Network Model for Storm Surge Prediction Using Cluster Analysis)

  • 이다운;서장원;윤용훈
    • 대기
    • /
    • 제16권4호
    • /
    • pp.259-267
    • /
    • 2006
  • In the present study, the neural network (NN) model with cluster analysis method was developed to predict storm surge in the whole Korean coastal regions with special focuses on the regional extension. The model used in this study is NN model for each cluster (CL-NN) with the cluster analysis. In order to find the optimal clustering of the stations, agglomerative method among hierarchical clustering methods was used. Various stations were clustered each other according to the centroid-linkage criterion and the cluster analysis should stop when the distances between merged groups exceed any criterion. Finally the CL-NN can be constructed for predicting storm surge in the cluster regions. To validate model results, predicted sea level value from CL-NN model was compared with that of conventional harmonic analysis (HA) and of the NN model in each region. The forecast values from NN and CL-NN models show more accuracy with observed data than that of HA. Especially the statistics analysis such as RMSE and correlation coefficient shows little differences between CL-NN and NN model results. These results show that cluster analysis and CL-NN model can be applied in the regional storm surge prediction and developed forecast system.