• 제목, 요약, 키워드: 클러스터링

검색결과 2,160건 처리시간 0.041초

고정 그리드 파일의 객체 및 셀 클러스터링 알고리즘 (Object and Cell Clustering Algorithms of the Fixed Grid File)

  • 조대수;유진영;홍봉희
    • 한국정보과학회논문지:데이타베이스
    • /
    • v.28 no.1
    • /
    • pp.69-85
    • /
    • 2001
  • 공간 데이터베이스에서 효율적으로 공간 질의를 처리하기 위해서는 클러스터링을 통해서 이스크 접근 비용을 줄이는 것이 필요하다. 이 논문은 공간 지역성에 기반을 둔 여러 가지 클러스터링 알고리즘을 제안하고 실험을 통해 제안한 클러스터링 알고리즘의 성능을 평가하였다. 이 논문에서 제안하는 클러스터링 알고리즘은 객체 클러스터링 알고리즘과 셀 클러스터링 알고리즘으로 나뉜다. 객체 클러스터링 알고리즘은 정규 준할 공간 색인 구조에서 영역 분할 선과 겹치는 객체들의 저장 위치를 결정하는데 사용된다. 셀 클러스터링 알고리즘은 클러스터를 만들기 위해 정규 분할된 영역들을 그룹화하는데 사용된다. 실험결과 객체 클러스터링 알고리즘에서는 객체간의 거리를 이용한 경우에 대체로 좋은 성능을 보였지만, 버퍼 크기가 커지거나 데이터가 희박한 영역의 질의에 있어서는 알고리즘 별로 성능의 차이는 거의 없었다. 셀 클러스터링 알고리즘에 대한 실험에서는 이 논문에서 제안한 클러스터링 알고리즘은 N-순서화 기법에 의한 클러스터링 알고리즘에 비해 우수한 성능을 보였다. 특히 중복 참조도를 이용한 경우와 셀의 무게 중심간 거리를 이용한 방법이 가장 우수하였다.

  • PDF

후처리 웹 문서 클러스터링 알고리즘 (A Post Web Document Clustering Algorithm)

  • 임영희
    • 정보처리학회논문지B
    • /
    • v.9B no.1
    • /
    • pp.7-16
    • /
    • 2002
  • 웹 검색 엔진의 검색 결과를 클러스터링하는 후처리 클러스터링 알고리즘은 그 특성상 일반적인 클러스터링 알고리즘과는 다른 요구조건을 갖는다. 본 논문에서는 이러한 후처리 클러스터링 알고리즘의 요구조건들을 최대한 만족하는 새로운 클러스터링 알고리즘을 제안하고자 한다. 제안된 Concept ART는 문서 클러스터링에 있어 여러 가지 장점을 갖는 개념 벡터와 실시간 클러스터링 알고리즘으로 알려진 Fuzzy ART를 결합한 형태로써, 후처리 클러스터링뿐 아니라 범용의 클러스터링 알고리즘으로도 응용이 가능하다.

픽셀간의 칼라공간에서의 거리와 이웃관계를 고려하는 클러스터링을 통한 칼라영상 분할 (Color image segmentation based on clustering using color space distance and neighborhood relation among pixels)

  • 김황수;이화정
    • 한국정보과학회:학술대회논문집
    • /
    • /
    • pp.532-534
    • /
    • 1998
  • 본 논문에서는 칼라공간상의 거리와 이웃정보를 이용한 클러스터링을 통한 칼라영상 분할 방법을 제안한다. 영상의 픽셀들을 이웃관계를 유지하여 칼라공간으로 매핑한다. 칼라공간상에서 이웃하는 픽셀들을 클러스터링하여 영상의 세그먼트들을 찾는다. 클러스터링 방법으로서 인력을 모방하는 클러스터링(gravitational clustering)을 사용하였다. 이 방법으로 클러스터의 중심값과 클러스터 수를 미리 정해주지 않아도 자동적으로 결정할 수 있는 장점이 있다. gravitational 클러스터링에서 찾은 클러스터 수를 가지고 다른 클러스터링 방법에 입력으로 주어 결과를 비교해 본다. 본 논문에서는 이웃관계를 따라 클러스터링하는 것이 정확한 경계선을 찾는데 효과적임을 보여준다.

  • PDF

문서 수에 따른 가중치를 적용한 K-means 문서 클러스터링 (K-means Clustering Method according to Documentation Numbers)

  • 조시성;안동언;정성종;이신원
    • 대한전자공학회:학술대회논문집
    • /
    • /
    • pp.1557-1560
    • /
    • 2003
  • 본 논문에서는 이 문서 클러스터링 방법 중 계층적 방법인 Kmeans 클러스터링 알고리즘을 이용하여 문서를 클러스터링 하고자 한다. 기존의 Kmeans 클러스터링 알고리즘은 문서의 수가 많을 경우 하나의 클러스터링에 너무 많은 문서들이 할당되는 문제점이 있다. 이 치우침을 완화하고자 각 클러스터링에 할당된 문서 수에 따라서 문서에 가중치를 부여한 후 다시 클러스터링을 하는 방법을 제안하였다. 실험 결과는 정확률, 재현율을 결합한 조화 평균(F-measure)을 사용하여 평가하였으며 기존 알고리즘보다 9%이상의 성능 향상을 나타냈다.

  • PDF

웹마이닝을 위한 퍼지 클러스터링 알고리즘 (Fuzzy Clustering Algorithm for Web-mining)

  • 임영희;송지영;박대희
    • 한국지능시스템학회논문지
    • /
    • v.12 no.3
    • /
    • pp.219-227
    • /
    • 2002
  • 웹 검색 엔진의 검색 결과를 클러스터링하는 후처리 클러스터링 알고리즘은 그 특성상 일반적인 클러스터링 알고리즘과는 다른 요구조건을 갖는다. 본 논문에서는 이러한 후처리 클러스터링 알고리즘의 요구조건들을 최대한 만족하는 새로운 클러스터링 알고리즘을 제안하고자 한다. 제안된 Fuzzy Concept ART는 무서 클러스터링에 있어 여러 가지 장점을 갖는 개념 벡터와 실시간 클러스터링 알고리즘으로 알려진 Fuzzy ART를 퍼지이론에 기반하여 결합한 형태로써, 후처리 클러스터링뿐 아니라 범용의 클러스터링 알고리즘으로도 응용이 가능하다.

클러스터 내 분별 오류 최소화를 위한 퍼지 클러스터링 (Within-Cluster-Discriminative Fuzzy Clustering)

  • 허경용;이수종
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • /
    • pp.269-270
    • /
    • 2013
  • 퍼지 클러스터링은 유사도가 높은 데이터 포인트들이 동일한 클러스터에 포함되도록 하는 대표적인 비교사 학습 방법 중 하나이다. 이 논문에서는 클러스터링을 분류기의 전처리 단계에서 활용할 수 있도록 클러스터 내에서 분류 오류가 최소가 될 수 있도록 클러스터를 생성할 수 있는 새로운 퍼지 클러스터링 방법을 제안한다. 제안하는 클러스터링은 특징 벡터와 함께 클래스 라벨을 활용하므로 분류기와 결합하여 사용할 경우 기존 분류기와 함께 사용할 경우 보다 우수한 성능을 기대할 수 있다.

  • PDF

그리드 셀 기반 공간 클러스터링 방법 (Grid Cell Based Spatial Clustering Method)

  • 이동규;정정수;문상호
    • 한국정보과학회:학술대회논문집
    • /
    • /
    • pp.10-12
    • /
    • 2001
  • 대용량의 공간 데이터베이스로부터 임시적이고 유용한 지식을 자동적으로 추출하는 공간데이터 마이닝은 데이터양의 급격히 증가하면서 필요성이 더욱 증대되고 있다. 공간데이타 마이닝에서 데이터를 분석하여 유사한 그룹으로 분류하는 것은 중요한 분야이며, 이를 위해서는 공간 클러스터링 과정이 먼저 수행되어야 한다. 이러한 공간 클러스터링에서 가장 중요한 점은 클러스터링에 드는 비용의 감소와 점 공간객체에 한정된 클러스터링이 아닌 선 및 다각형 객체들의 클러스터링도 가능해야 한다. 본 본문은 이를 위하여 공간지역성을 보장하는 대표적인 공간분할 방법인 그리드 셀을 이용한다. 기존의 클러스터링에서 사용되는 객체들 간의 거리 계산을 인접한 그리드 셀들 간의 관계 연산으로 대체시키는 것이 핵심아이디어이다. 이 방법은 기존 클러스터링에서 객체들 간의 거리 계산으로 인한 비용을 현저하게 줄일 수 있고, 선 및 다각형 객체들의 클러스터링도 가능하게 하는 장점이 있다.

  • PDF

픽셀간의 칼라공간에서의 거리와 이웃관계를 고려하는 클러스터링을 통한 칼라영상 분할 (Color Image Segmentation based on Clustering using Color Space Distance and Neighborhood Relation Among Pixels)

  • 이화정;김황수
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • v.27 no.10
    • /
    • pp.1038-1045
    • /
    • 2000
  • 본 논문에서는 칼라공간상의 거리와 이웃정보를 이용한 클러스터링을 통한 칼라영상 분할 방법을 제안한다. 칼라영상의 한 픽셀은 칼라정보(R.G.B)와 위치정보(x.y)를 가진다. 대개의 칼라공간에서의 클러스터링방법은 픽셀을 (R,G,B)공간으로 변환후 (R,G,B)공간상의 분포만을 이용하지만 여기서는(R,G,B)와 (x.y)모두를 사용하여 클러스터링함으로 영상의 세그먼트들을 찾는다. 클러스터링 방법으로서 인력을 모방하는 중력 클러스터링(gravitational clustering)을 사용하였다. 이 방법은 클러스터의 중심값과 클러스터 수를 미리 정해주지 않아도 자동적으로 결정할 수 있는 장점이 있다. 중력 클러스터링에서 찾은 클러스터 수를 가지고 다른 클러스터링 방법(K-means)에 입력으로 주어 결과를 비교해 본다. 본 논문에서는 이웃관계를 따라 클러스터링하는 것이 정확한 경계선을 찾는데 효과적임을 보여준다.

  • PDF

커널을 이용한 전역 클러스터링의 비선형화 (A Non-linear Variant of Global Clustering Using Kernel Methods)

  • 허경용;김성훈;우영운
    • 한국컴퓨터정보학회논문지
    • /
    • v.15 no.4
    • /
    • pp.11-18
    • /
    • 2010
  • Fuzzy c-means(FCM)는 퍼지 집합을 응용한 간단하지만 효율적인 클러스터링 방법 중 하나이다. FCM은 여러 응용 분야에서 성공적으로 활용되어 왔지만, 초기화와 잡음에 민감하고 볼록한 형태의 클러스터들만 다룰 수 있는 문제점이 있다. 이 논문에서는 이러한 FCM의 문제점을 해결하기 위해 전역 클러스터링(global clustering) 기법과 커널 클러스터링(kernel clustering) 기법을 결합하여 새로운 비선형 클러스터링 기법인 커널 전역 FCM(kernel global fuzzy c-means, KG-FCM)을 제안한다. 전역 클러스터링은 클러스터링의 초기화를 위한 방법 중 하나로, 순차적으로 클러스터를 하나씩 추가함으로써 초기화에 민감한 FCM의 한계를 극복할 수 있도록 해준다. FCM의 잡음 민감성과 볼록한 클러스터들만 다룰 수 있는 한계를 극복하기 위한 방법은 여러 가지가 있으며 커널 클러스터링이 그 중 하나이다. 커널 클러스터링은 사용하는 커널을 바꿈으로써 쉽게 확장이 가능하므로 이 논문에서는 커널 클러스터링을 사용하였다. 두 방법을 결합함으로써 제안한 방법은 위에서 언급한 문제점들을 해결할 수 있으며, 이는 가상 및 실제 데이터를 이용한 실험 결과를 통해 확인할 수 있다.

인용문헌 표제를 이용한 문헌 클러스터링에 관한 연구 (Document Clustering Using Reference Titles)

  • 최상희
    • 정보관리학회지
    • /
    • v.27 no.2
    • /
    • pp.241-252
    • /
    • 2010
  • 본 연구에서는 원문헌의 표제가 문헌클러스터링에서 문헌의 주제를 나타내는데 효과적인 자질로 인식되고 있지만 동의어나 유사어를 포함하여 문헌의 주제를 대표하는데 한계가 있음을 인지하고 인용문헌의 표제로 클러스터링 자질을 확대하는 방안을 제시하였다. 문헌 클러스터링의 자질로 원 문헌의 표제 용어와 인용문헌의 표제 용어, 두 종류의 표제 용어를 혼합하여 적용하여 인용문헌의 표제가 클러스터링 성능을 향상시키는 정도를 측정하였다. 각 자질별로 계층적 클러스터링 기법 3개, within group average linkage, complete linkage, Ward 기법을 결합하여 클러스터를 생성하는 성능을 비교, 분석하였는데 원문헌과 인용문헌 표제어를 혼합하여 within group average linkage 기법으로 클러스터링 한 경우가 가장 좋은 결과를 나타내었다.