• 제목/요약/키워드: Hierarchical Agglomerative Clustering

검색결과 43건 처리시간 0.025초

비구조화 P2P 시스템에서 이동에이전트를 이용한 Peer의 속성기반 계층적 클러스터링 (Property-based Hierarchical Clustering of Peers using Mobile Agent for Unstructured P2P Systems)

  • 마이클 안젤로 살보;마테오 로미오;이재완
    • 인터넷정보학회논문지
    • /
    • 제10권4호
    • /
    • pp.189-198
    • /
    • 2009
  • 비구조화 P2P 시스템은 오늘날 인터넷에서 가장 널리 사용되지만, 파일의 배치는 임의로 이루어지며, Peer와 컨텐츠간에는 어떤 상관관계도 존재하지 않는다. 또한 보낸 모든 질의가 원하는 데이터를 찾았는지에 대한 보장도 없다. 본 논문에서는 비구조화된 P2P시스템에서 군집형 계층 클러스터링을 사용하여 노드들을 클러스터화함으로써 검색을 향상시키는 방법을 제시한다. 제안한 기법과 k-means를 사용한 기법간에 노드 클러스터링을 위한 지연시간을 비교하였다. 또한 제안한 알고리즘, k-means 클러스터링, 클러스터링을 사용하지 않은 방법간에 한 네트워크 토폴로지에서 데이터를 찾기 위한 지연시간에 대해 시뮬레이션을 수행하였다. 시뮬레이션 결과 제안한 기법의 지연시간이 다른 방법들보다 짧았음을 알 수 있었다.

  • PDF

위치 기반 서비스를 위한 계층 클러스터 기반 Cloaking 알고리즘 (Hierarchical Clustering-Based Cloaking Algorithm for Location-Based Services)

  • 이재흥
    • 한국전자통신학회논문지
    • /
    • 제8권8호
    • /
    • pp.1155-1160
    • /
    • 2013
  • 최근 스마트 폰 이용자 수가 증가하면서 다양한 위치 기반 서비스들이 주목을 받고 있다. 위치 기반 서비스는 사용자의 위치와 시스템이 가지고 있는 다양한 정보를 결합하여 사용자에게 유용한 정보를 전달해 주기도 하지만 이로 인한 개인 정보의 침해 가능성 역시 높은 것이 사실이다. 최근의 위치 기반 서비스에서의 프라이버시 관련 연구는 K-anonymity를 만족하는 Cloaking 영역 생성에 중점을 두고 있다. 본 논문에서는 위치 기반 서비스를 위한 계층 클러스터 기반 Cloaking 알고리즘을 제안한다. 제안 기법은 약간 변형된 응집 계층 클러스터링 기법을 사용해서 트리를 생성한 뒤, Reciprocity 성질을 만족시키는 Cloaking 영역을 생성한다. 제안 기법은 Reciprocity 성질을 만족시키며, Hilbert Cloak보다 작고 RC-AR과 비슷한 크기의 영역을 생성하며, 생성 속도는 Hilbert Cloak과 비슷하며 RC-AR보다는 훨씬 빠르다.

사용자 질의어 특징을 반영한 하이라이트 기반 노래 가사 검색 (Highlight based Lyrics Search Considering the Characteristics of Query)

  • 김권양
    • 한국지능시스템학회논문지
    • /
    • 제26권4호
    • /
    • pp.301-307
    • /
    • 2016
  • 본 논문에서는 사용자들이 노래 가사를 입력으로 음악을 검색할 때 사용자의 질의어 특징을 반영한 검색 방법을 제안한다. 일반적으로 노래 가사 검색에서 사용자들이 작성하는 질의어들은 음악 하이라이트 부분에 해당된다는 점을 고려하여 본 논문에서는 노래 가사를 색인할 때, 하이라이트 부분이 더 중요하도록 만든다. 이를 위해 본 논문에서는 응집 계층 군집화를 사용하여 자동으로 음악 하이라이트 부분을 찾고, 하이라이트 부분과 그 주변 부분을 중요하게 고려할 수 있는 가우시안 중요도를 제안한다. 이 가우시안 함수는 평균을 하이라이트 부분으로 설정함으로써 하이라이트에서 가장 높은 값을 가지며, 주변부는 하이라이트보다 낮은 중요도를 가진다. 이렇게 얻어진 중요도와 함께 노래 가사를 색인함으로써 사용자들이 작성한 질의어에 대해 더 부합하는 검색 결과를 제공해준다. 실험에서 실사용자 5명에 대해 다양한 질의 타입들과 함께 평가하였으며, 가중치를 고려하지 않는 비교 모델보다 제안한 방법이 효과적임을 보인다.

지적 구조 분석을 위한 새로운 클러스터링 기법에 관한 연구 (A novel clustering method for examining and analyzing the intellectual structure of a scholarly field)

  • 이재윤
    • 정보관리학회지
    • /
    • 제23권4호
    • /
    • pp.215-231
    • /
    • 2006
  • 패스파인더 네트워크를 사용하여 지적 구조의 분석과 규명을 시도한 여러 연구가 발표되었다. 패스파인더 네트워크는 다차원척도법에 비해서 여러 장점을 가지고 있지만 구축 알고리즘의 복잡도가 매우 높아서 실행 시간이 오래 걸리며, 전통적인 지적 구조 분석에 유용하게 사용되어온 군집분석을 함께 적용하기가 어려운 것이 단점이다. 이 연구에서는 이와 같은 패스파인더 네트워크의 약점을 보완할 수 있는 새로운 기법으로 병렬최근접이웃클러스터링(PNNC) 기법을 제안하였다. PNNC 기법의 클러스터링 성능을 전통적인 계층적 병합식 클러스터링 기법들과 비교해본 결과 효과성과 효율성 양면에서 기존 기법보다 우세한 것으로 확인되었다.

데이터마이닝에 의한 고객세분화 개발 (A Development of Customer Segmentation by Using Data Mining Technique)

  • 진서훈
    • 응용통계연구
    • /
    • 제18권3호
    • /
    • pp.555-565
    • /
    • 2005
  • 고객세분화는 기업이 관계하고 있는 고객을 이해하고 그 이해를 바탕으로 효과적인 고객관리를 수행하기 위해 필수적인 요소인데 데이터마이닝이 기업의 정보관리영역에 적극적으로 활용되면서 보다 과학적이고 최적화된 형태로 개발되고 있다. 본 연구에서는 신용카드고객 의 카드사용행태에 근거하여 각 고객을 서로 유사한 사용행태를 보이는 고객군으로 세분화하는 과정을 소개하였다. 고객이 실제로 신용카드를 사용하면서 발생시킨 거래정보에만 의존하여 고객세분화를 개발하였으며 이는 마케팅의 관점에서 상당히 의미있는 내용이 될 수 있다. 고객세분화의 개발을 위하여 데이터마이닝기법인 k-평균 군집방법과 최장연결법에 의한 계보적 군집방법을 단계적으로 활용하는 이단계 군집방법을 이용하였다.

계층적 군집화를 이용한 능동적 학습 (Active Learning based on Hierarchical Clustering)

  • 우호영;박정희
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권10호
    • /
    • pp.705-712
    • /
    • 2013
  • 능동적 학습(active learning)은 소수의 라벨 데이터로 구성된 훈련 집합이 주어진 경우에 분류기 학습에 가장 도움이 될 만한 언라벨드 데이터를 선택하여 전문가에 의한 라벨링을 통해 훈련 집합에 포함시키는 과정을 반복함으로써 분류기의 성능을 향상시키는 것을 목적으로 한다. 본 논문에서는 워드 연결(ward's linkage)을 이용한 계층적 군집화(hierarchical clustering)를 바탕으로 한 능동적 학습 방법을 제안한다. 제안된 방법은 각 군집에서 적어도 하나의 샘플을 포함하도록 초기 훈련 집합을 능동적으로 구성하거나 또는 기존의 훈련 집합을 확장함으로써 전체 데이터 분포를 반영할 수 있게 한다. 기존의 능동적 학습 방법들 중 대부분은 초기 훈련 집합이 주어져 있을 경우를 가정하는 반면에 제안하는 방법은 초기 클래스 정보를 가진 훈련 데이터가 주어지지 않은 경우와 주어진 경우에 모두 적용 가능하다. 실험을 통하여 제안하는 방법이 비교 방법들에 비해 분류기 성능을 크게 향상시킬 수 있는 효과적인 데이터 선택을 수행함을 보인다.

Optimal Fuzzy Models with the Aid of SAHN-based Algorithm

  • Lee Jong-Seok;Jang Kyung-Won;Ahn Tae-Chon
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제6권2호
    • /
    • pp.138-143
    • /
    • 2006
  • In this paper, we have presented a Sequential Agglomerative Hierarchical Nested (SAHN) algorithm-based data clustering method in fuzzy inference system to achieve optimal performance of fuzzy model. SAHN-based algorithm is used to give possible range of number of clusters with cluster centers for the system identification. The axes of membership functions of this fuzzy model are optimized by using cluster centers obtained from clustering method and the consequence parameters of the fuzzy model are identified by standard least square method. Finally, in this paper, we have observed our model's output performance using the Box and Jenkins's gas furnace data and Sugeno's non-linear process data.

응집 계층 군집화 기법을 이용한 이종 공간정보의 M:N 대응 클래스 군집 쌍 탐색 (Detection of M:N corresponding class group pairs between two spatial datasets with agglomerative hierarchical clustering)

  • 허용;김정옥;유기윤
    • 한국측량학회지
    • /
    • 제30권2호
    • /
    • pp.125-134
    • /
    • 2012
  • 본 연구는 두 공간정보의 대응 클래스 군집 쌍 탐색을 중심으로 의미론적 정합과정에서 발생하는 M:N 대응관계를 분석하는 방법을 제안한다. 객체의 공유 관계를 이용하여 클래스의 유사도를 측정하고 높은 유사도를 가지는 클래스들을 군집화함으로써 M:N 대응관계를 탐색하고자 한다. 클래스 사이의 유사도를 그래프 모형으로 표현하고 그래프 임베딩 기법을 적용하여 투영공간에서 클래스 사이의 거리가 클래스 중첩분석에 의한 국지적 유사도에 반비례하도록 개별 클래스들의 투영좌표를 계산하고 군집화를 수행함으로써 계층적 대응 군집 쌍을 탐색할 수 있다. 제안된 방법을 평가하기 위하여 경기도 수원시의 수치지형도와 연속지적도에 적용하여 수치지형도의 면 객체 레이어와 연속지적도의 필지 지목의 대응 군집 쌍을 탐색하였다. 탐색된 대응 클래스 쌍의 F-measure를 측정한 결과 약 0.80에서 0.35 사이의 다양한 값을 얻을 수 있었으며, 클래스 명칭과는 상이한 다양한 대응관계를 얻을 수 있었다.

계층적 군집화 기법을 이용한 소스 코드 표절 검사 (Hierarchical Clustering Methodology for Source Code Plagiarism Detection)

  • 손기락;문승미
    • 정보교육학회논문지
    • /
    • 제11권1호
    • /
    • pp.91-98
    • /
    • 2007
  • 인터넷 통신의 발달 및 워드프로세서의 기능 향상으로 인해 일선 교육현장에서의 표절은 심각한 문제가 되고 있다. 본 연구에서는 C, C++, Java 등으로 작성된 프로그램 소스 코드들의 유사도를 측정하는 방법을 제시하고, 소스 코드를 계층적으로 군집화하고 표절 결과를 수형도로 시각화하는 방법을 제시한다. 채점자는 시각화된 수형도를 보고 임계값을 설정하여 표절 그룹을 분리할 수 있다. 실제 데이터에서 효과를 알아보기 위해서 학부 1학년생 컴퓨터 개론 및 실습과목 강의 중에 제출된 과제물 프로그램을 이용하여 실험해 보았으며, 유용하고 현실성 있는 방법임을 확인하였다.

  • PDF

중복을 허용한 계층적 클러스터링에 의한 복합 개념 탐지 방법 (Hierarchical Overlapping Clustering to Detect Complex Concepts)

  • 홍수정;최중민
    • 지능정보연구
    • /
    • 제17권1호
    • /
    • pp.111-125
    • /
    • 2011
  • 클러스터링(Clustering)은 유사한 문서나 데이터를 묶어 군집화해주는 프로세스이다. 클러스터링은 문서들을 대표하는 개념별로 그룹화함으로써 사용자가 자신이 원하는 주제의 문서를 찾기 위해 모든 문서를 검사할 필요가 없도록 도와준다. 이를 위해 유사한 문서를 찾아 그룹화하고, 이 그룹의 대표되는 개념을 도출하여 표현해주는 기법이 요구된다. 이 상황에서 문제점으로 대두되는 것이 복합 개념(Complex Concept)의 탐지이다. 복합 개념은 서로 다른 개념의 여러 클러스터에 속하는 중복 개념이다. 기존의 클러스터링 방법으로는 문서를 클러스터링할 때 동일한 레벨에 있는 서로 다른 개념의 클러스터에 속하는 중복된 복합 개념의 클러스터를 찾아서 표현할 수가 없었고, 또한 복합 개념과 각 단순 개념(Simple Concept) 사이의 의미적 계층 관계를 제대로 검증하기가 어려웠다. 본 논문에서는 기존 클러스터링 방법의 문제점을 해결하여 복합 개념을 쉽게 찾아 표현하는 방법을 제안한다. 기존의 계층적 클러스터링 알고리즘을 변형하여 동일 레벨에서 중복을 허용하는 계층적 클러스터링(Hierarchical Overlapping Clustering, HOC) 알고리즘을 개발하였다. HOC 알고리즘은 문서를 클러스터링하여 그 결과를 트리가 아닌 개념 중복이 가능한 Lattice 계층 구조로 표현함으로써 이를 통해 여러 개념이 중복된 복합 개념을 탐지할 수 있었다. HOC 알고리즘을 이용해 생성된 각 클러스터의 개념이 제대로 된 의미적인 계층 관계로 표현되었는지는 특징 선택(Feature Selection) 방법을 적용하여 검증하였다.