• 제목/요약/키워드: 계층적 클러스터링 알고리즘

검색결과 100건 처리시간 0.025초

XML 스키마 클러스터링을 위한 효율적인 알고리즘 (An Efficient Algorithm for Clustering XML Schemas)

  • 임태우;이경호
    • 한국멀티미디어학회논문지
    • /
    • 제8권7호
    • /
    • pp.857-868
    • /
    • 2005
  • 스키마 클러스터링은 스키마의 통합을 위한 전처리 단계로서 중요하다. 본 논문에서는 XML 스키마를 클러스터링하기 위한 효율적인 방법을 제안한다. 제안된 방법은 먼저 스키마 사이의 유사도를 계산한다. 특히 두 스키마를 통합하는데 드는 비용이 적을수록 유사하다는 가정하에 스키마 사이의 유사도를 공통된 구조의 크기로 정의한다. 이를 위해서 경로 사이에 서로 대응하는 엘리먼트의 합이 최대가 되는 경로간의 일대일 매칭을 추출한다. 또한 계산된 유사도값에 기반하여 계층적 클러스터링 방법을 적용한다. 제안된 방법의 성능을 평가하기 위해서 다수의 XML 스키마를 대상으로 실험한 결과, $99\%$의 정확률과 $93\%$의 클러스터링률을 보여 기존의 알고리즘보다 우수하였다.

  • PDF

확장된 시퀀스 요소 기반의 유사도를 이용한 계층적 클러스터링 알고리즘 (A Hierarchical Clustering Algorithm Using Extended Sequence Element-based Similarity Measure)

  • 오승준
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권5호
    • /
    • pp.321-327
    • /
    • 2006
  • 최근 들어 상업적이거나 과학적인 데이터들의 폭발적인 증가를 볼 수 있다. 이런 데이터들은 항목들 간의 순서적인 면을 가지고 있는 시퀀스 데이터들이다. 그러나 항목들 간의 순서적인 면을 고려한 클러스터링 연구는 많지 않다. 본 논문에서는 이들 시퀀스 데이터들 간의 유사도를 계산하는 방법과 클러스터링 방법을 연구한다. 특히 다양한 조건을 고려한 확장된 유사도 계산 방법을 제안한다. splice 데이터 셋을 이용하여 본 논문에서 제안하는 클러스터링 방법이 기존 방법 보다 우수하다는 것을 보여준다.

  • PDF

MCL 알고리즘을 사용한 유전자 발현 데이터 클러스터링 (Clustering Gene Expression Data by MCL Algorithm)

  • 손호선;류근호
    • 전자공학회논문지CI
    • /
    • 제45권4호
    • /
    • pp.27-33
    • /
    • 2008
  • 유전자 발현 데이터의 분석 기법 중 무감독 학습 기반의 클러스터링 기법은 생물학적 변화와 진의 발현 정도를 이해하는데 자주 사용되는 방법이다. 생명공학 연구에 있어서 그래프 기반의 MCL 알고리즘은 그래프 내의 노드들을 클러스터링 하는 알고리즘으로 빠르고 효과적이다. 우리는 기존의 MCL 알고리즘을 개선하여 마이크로어레이 데이터에 적용시켰다. MCL 알고리즘 수행 시 inflation과 대각선 항의 두 요인을 조정하는 시뮬레이션을 실행하였으며, 마코브 행렬을 이용하여 변환하였다. 또한 개선된 MCL 알고리즘에서는 더 명확한 클래스를 구분하기 위하여 각 열의 평균을 구한 후 그 값을 임계치로 사용하였다. 따라서 수정된 알고리즘은 기존의 알고리즘들보다 정확도를 높일 수 있었다. 즉, 실제 실험 결과 기존에 알려진 클래스와 비교했을 때 평균 70%의 정확도를 보였다. 또한, 다른 클러스터링 기법, K-means 알고리즘, 계층적 클러스터링 그리고 SOM 알고리즘을 비교 분석하였으며, 그 결과 MCL 알고리즘이 다른 클러스터링 기법보다 더 좋은 결과를 보임을 알 수 있다.

계층적 센서 네트워크에서 트래픽 부하와 에너지를 고려한 클러스터 헤드 선정 알고리즘 (A Cluster-head Selection Algorithm in Hierarchical Sensor Network Considering Traffic load and Energy)

  • 김대영;조진성
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (A)
    • /
    • pp.433-435
    • /
    • 2005
  • 현재 무선 센서 네트워크에서 에너지 효율적인 라우팅을 위해 않은 알고리즘들이 발표 되고 있다. 그 중 클러스터링을 기반으로 하는 라우팅 알고리즘들은 싱크노드가 클러스터 내의 클러스터 헤드와 통신함으로써 센서노드들과 싱크노드 사이의 통신 횟수를 줄여 에너지 효율을 얻을 수 있다. 클러스터링 기반의 라우팅 알고리즘에서는 클러스터 내의 클러스터 헤드 선정이 무엇보다 중요하다. 그래서 본 논문에서는 효율적인 클러스터 헤드 선정 방안을 제안한다. 제안된 방안은 클러스터 내에서 노드의 잔존 에너지와 트래픽 로드를 가지고 클러스터 헤드를 효율적으로 결정함으로써 센서 네트워크의 생존시간을 최대화 한다.

  • PDF

의미 있는 태그 클러스터 구축을 위한 설계 방안 (A Design of Building a Meaningful Tag Cluster)

  • 박병재;우종우
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.658-661
    • /
    • 2008
  • 태깅은 웹 2.0의 핵심 기술 중 하나로, 매우 유연하고 역동적인 분류 체계를 제공한다. 하지만 유연성과 역동성의 확보에 의해 계층 구조나 연관 관계와 같은 태그의 관계성이 부족하거나 존재하지 않는 한계점을 가지고 있는 것 또한 사실이다. 이런 한계점을 보완하기 위한 방법으로 계층 관계를 형성하기 위한 계층 클러스터링 방법과, 연관 관계를 형성하기 위한 협업 필터링 방법이 존재한다. 이 두 가지 방법은 태그의 관계성을 제공하지만, 연관 관계와 계층 관계 중 하나만 제공한다는 단점을 가진다. 본 논문에서는 태그 검색 시 연관 관계뿐 아니라 계층 구조의 탐색을 제공해주기 위한 태그 클러스터링 알고리즘을 설계하였다. 제안한 알고리즘은 사용자 태그셋을 활용하여 태그의 유사성을 계산하는 방법을 제시하고, 기존의 시각화 방법(태그 구름)과 다른 새로운 형태로 시각화 할 수 있는 결과 데이터를 제공한다.

에드 혹 네트워크에서 노드의 동적 속성 기반 클러스터링 알고리즘 연구 (A clustering algorithm based on dynamic properties in Mobile Ad-hoc network)

  • 오영준;이강환
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 춘계학술대회
    • /
    • pp.400-401
    • /
    • 2014
  • 본 논문에서는 이동 에드혹 네트워크(Mobile Ad hoc Network: MANET)에서의 상황인식 기반의 스케쥴링 기법인 DDV(Dynamic Direction Vector)-hop알고리즘을 제안한다. 기존 MANET에서는 노드의 이동성으로 인한 동적 네트워크 토폴리지, 네트워크 확장성 결여의 대한 취약성을 지니고 있다. 본 논문에서는 계층적 클러스터 단위의 동적인 토폴로지에서 노드가 이동하는 방향성 및 속도에 대한 노드의 이동 속성 정보를 고려하여 클러스터를 생성 및 유지하는 DDV-hop 알고리즘을 제안한다. 제안된 알고리즘은 클러스터 헤드노드를 기준으로 클러스터 멤버노드의 방향성 및 속도의 속성 정보를 비교하여 유사한 노드간 클러스터링을 구성하고, 이로부터 헤드노드를 선택하는 방법이다. 실험결과, 제안하는 알고리즘이 네트워크의 부하를 감소시키고 네트워크 토폴로지를 안정적으로 유지할 수 있음을 확인하였다.

  • PDF

공간국부성을 최적화하는 클러스터링 방법 (A Clustering Method for Optimizing Spatial Locality)

  • 김홍기
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권2호
    • /
    • pp.83-90
    • /
    • 2004
  • 본 논문에서는 순환적인 검색공간과 장애물이 존재하는 검색공간에서 객체들을 클러스터링할 때 고려해야하는 CCD(Clustering with Circular Distance) 문제와 COD(Clustering with Obstructed Distance) 문제를 연구하였다. 그리고 다차원 검색공간에서 삽입이나 삭제가 빈번히 발생하는 객체들을 효율적으로 클러스터링하기 위한 새로운 클러스터링 알고리즘을 제안하였다. 제안한 클러스터링 알고리즘에는 CCD 및 COD 문제를 해결하기 위한 거리 함수가 정의된다. 그리고 최소의 연산 시간으로 높은 공간 국부성을 갖는 클러스터들을 생성하기 위한 클러스터링 방법이 포함된다.

이행적 폐쇄트리를 기반으로 한 점증적 웹 문서 클러스터링 (An Incremental Web Document Clustering Based on the Transitive Closure Tree)

  • 윤성대;고석범
    • 한국멀티미디어학회논문지
    • /
    • 제9권1호
    • /
    • pp.1-10
    • /
    • 2006
  • 기존의 문서 클러스터링 기법에는 k-means와 같이 수행속도가 우수한 기법과, 분류의 정확률이 우수한 계층적 집괴 클러스터링 기법이 있다. 두 기법은 각각 분류의 정확률 저하와 저속의 수행속도로서 상호 단점을 가지며, 새로운 문서를 삽입 할 때마다 문서 유사도를 재계산해야 하는 문제가 있다. 웹 정보의 특성은 잦은 문서의 추가를 통해 정보를 축적하는 것이다. 따라서 본 논문에서는 정확률이 우수한 계층적 집괴 클러스터링 기법을 기반으로 수행속도를 향상 시킬 수 있는 이행적 폐쇄 트리 기법을 제안하고, 또한 새로운 문서의 삽입과 삭제에 우수한 점증적인 클러스터링이 가능한 기법을 제안한다. 제안된 기법의 효율성을 검증하기 위하여 기존의 알고리즘과 정확률, 재현율, F-Measure, 수행속도에 대해 비교 평가 및 분석한다.

  • PDF

밀도함수를 이용한 근사적 퍼지 클러스처링 (Approximate Fuzzy Clustering Based on Density Functions)

  • 권석호;손세호
    • 한국지능시스템학회논문지
    • /
    • 제10권4호
    • /
    • pp.285-292
    • /
    • 2000
  • 자료 분석 과정을 살펴 보면 1) 자료가 갖는 경향 평가, 2) 클러스터 분석, 3) 클러스터의 타당성 조사라는 과정을 거쳐 이루어진다. 이 분석법은 2) 및 3) 단계의 반복 수행으로 인하여 많은 계산 시간이 소요되므로 비효율적인 방법이라 할 수 있다. 본 논문에서는, 이와 같은 단점을 보완하기 위하여 자료가 갖는 개략적 특성을 파악하여 자료 속에 존재하는 클러스터의 근사적 개수 및 중심을 정한 후, 이 정보를 기존의 일반적인 퍼지 클러스터링 알고리즘에 입력하여 클러스터링을 수행하는 밀도함수를 이용한 계층적 구조의 근사적 클러스터링 알고리즘을 제안하고, 예제를 통하여 제안된 알고리즘의 타당성을 보인다.

  • PDF

K-Means 클러스터링 성능 향상을 위한 최대평균거리 기반 초기값 설정 (Refining Initial Seeds using Max Average Distance for K-Means Clustering)

  • 이신원;이원휘
    • 인터넷정보학회논문지
    • /
    • 제12권2호
    • /
    • pp.103-111
    • /
    • 2011
  • 대규모 데이터에 대한 특성에 따라 몇 개의 클러스터로 군집화하는 클러스터링 기법은 계층적 클러스터링이나 분할 클러스터링 등 다양한 기법이 있는데 그 중에서 K-Means 알고리즘은 구현이 쉬우나 할당-재계산에 소요되는 시간이 증가하게 된다. 본 논문에서는 초기 클러스터 중심들 간의 거리가 최대가 되도록 하여 초기 클러스터 중심들이 고르게 분포되도록 함으로써 할당-재계산 횟수를 줄이고 전체 클러스터링 시간을 감소시키고자 한다.