• Title/Summary/Keyword: 사전클러스터링

Search Result 77, Processing Time 0.031 seconds

Association-rule based ensemble clustering for adopting a prior knowledge (사전정보 활용을 위한 관련 규칙 기반의 Ensemble 클러스터링)

  • Go, Song;Kim, Dae-Won
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2007.11a
    • /
    • pp.67-70
    • /
    • 2007
  • 본 논문은 클러스터링 문제에서 사전 정보에 대한 활용의 효율을 개선시킬 수 있는 방법을 제안한다. 클러스터링에서 사전 정보의 존재 시 이의 활용은 성능을 개선시킬 수 있는 계기가 될 수 있으므로 그의 활용 폭을 늘리기 위한 방법으로 다양한 사용 방법의 적용인 semi-supervised 클러스터링 앙상블을 제안한다. 사전 정보의 활용 방법의 방안으로써 association-rule의 개념을 접목하였다. 클러스터 수를 다르게 적용하더라도 패턴간의 유사도가 높으면 같은 그룹에 속할 확률은 높아진다. 다양한 초기화에 따른 클러스터의 동작은 사전 정보의 활용을 다양화 시키게 되며, 사전 정보에 충족하는 각각의 클러스터 결과를 제시한다. 결과를 총 취합하여 association-matrix를 형성하면 패턴간의 유사도를 얻을 수 있으며 결국 association-matrix를 통해 클러스터링 할 수 있는 방법을 제시한다.

  • PDF

An Ensemble Clustering Algorithm based on a Prior Knowledge (사전정보를 활용한 앙상블 클러스터링 알고리즘)

  • Ko, Song;Kim, Dae-Won
    • Journal of KIISE:Software and Applications
    • /
    • v.36 no.2
    • /
    • pp.109-121
    • /
    • 2009
  • Although a prior knowledge is a factor to improve the clustering performance, it is dependant on how to use of them. Especial1y, when the prior knowledge is employed in constructing initial centroids of cluster groups, there should be concerned of similarities of a prior knowledge. Despite labels of some objects of a prior knowledge are identical, the objects whose similarities are low should be separated. By separating them, centroids of initial group were not fallen in a problem which is collision of objects with low similarities. There can use the separated prior knowledge by various methods such as various initializations. To apply association rule, proposed method makes enough cluster group number, then the centroids of initial groups could constructed by separated prior knowledge. Then ensemble of the various results outperforms what can not be separated.

Gene ontology based semi-supervised clustering method (유전자 온톨로지를 활용한 반지도 클러스터링 기법)

  • Go, Song;Kim, Dae-Won
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2008.04a
    • /
    • pp.183-187
    • /
    • 2008
  • 본 논문은 유전자의 기능이 비슷한 정도에 따른 사전정보의 값을 부여하며, 클러스터링시 사전정보를 활용할 수 있는 방법을 제시한다. 실세계 문제인 유전자는 각기 다양한 기능을 하는 특징적인 것으로 사전정보의 형태를 1과 0등으로 구분하던 과거의 방식으로는 정의하기가 어렵다. 유전자간의 비슷한 정도에 따라 사전정보의 값이 정해져야 하는 것은 필요하며, 이는 생물학자가 구축해놓은 유전자 온톨로지의 분석을 통하여 산출한다. 유전자 온톨로지는 기능별 카테고리로 분류하며, 세부 기능은 하위의 카테고리로 형성된 거대한 트리 구조의 형태를 띤다. 온톨로지 분석을 통해 형성된 사전정보의 값은 0과 1사이의 연속적인 값으로 형성이 되며, 이 값은 클러스터링 과정 중 거리 계산에 활용함으로써, 그 결과의 성능이 우수함을 보인다.

  • PDF

Task Duplication Based Clustering and Scheduling on Symmetric Multiprocessor Systems (대칭형 다중프로세서 시스템에서 태스크 중복기반의 클러스터링과 스케줄링)

  • 강오한;조경미;김기남;김시관
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04a
    • /
    • pp.97-99
    • /
    • 2003
  • 대칭형 다중프로세서 (SMP: Symmetric Multiprocessors) 시스템은 고성능의 병렬 연산을 위한 중요하고 효과적인 기반환경을 제공하고 있다. SMP에서 태스크 클러스터링과 스케줄링 기법은 시스템의 성능에 큰 영향을 미친다. 본 논문에서는 버스 기반의 SMP에서 사용할 수 있는 태스크 중복 기반의 클러스터링과 스케줄링 기법을 소개한다. 본 논문에서 제안한 클러스터링 기법에서는 휴리스틱을 사용하여 중복할 태스크를 선택한 후 프로세서에 할당하고, 스케줄링 기법에서는 잠재하는 통신 충돌을 방지하기 위하여 네트워크 통신 자원을 사전에 할당한다. 새로운 클러스터링과 스케줄링 기법의 성능을 확인하기 위하여 시뮬레이션에서는 통신비용의 변화에 대한 병렬연산시간을 비교하였다.

  • PDF

Web Service Information Clustering using Genetic Algorithm and Neural Network (유전자알고리즘과 신경망을 이용한 웹 서비스 정보 클러스터링)

  • 황중연;유춘식;김용성
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10a
    • /
    • pp.127-129
    • /
    • 2004
  • 오늘날, 웹서비스를 이용한 정보 검색을 하기 위해서는 UDDI 레지스트리의 전문적인 지식이 필요하다. 즉 웹 서비스를 명세하기 위해 사용된 카테고리와 이에 대한 값, 이름 등을 사전에 알고 있어야 한다. 그러나 일반 사용자들은 이러한 사전지식을 충분히 알고 있지 못하면 웹서비스에 대한 정보 검색을 쉽게 할 수 없다. 그러므로 일반 사용자들을 위해 웹서비스에 대한 점보를 카테고리에 맞게 분류하여 검색을 용이하게 할 수가 있다. 따라서 본 논문에서는 보다 효율적으로 웹서비스 정보를 분류하기 위해서 유전자 알고리즘과 신경망을 이용한 클러스터링 기법을 제안하는데 목적이 있다.

  • PDF

Web Service Information Clustering using Genetic Algorithm and Neural Network (유전자알고리즘과 신경망을 이용한 웹 서비스 정보 클러스터링)

  • Kim, Jin-Sung;Jeong, Hye-Jin;Yoo, Chun-Sik;Kim, Yong-Sung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.05a
    • /
    • pp.447-450
    • /
    • 2005
  • 오늘날 웹서비스에 대한 정보 검색 시스템들은 UDDI 레지스트리에 대한 전문적인 지식을 필요로 한다. 즉 웹서비스를 명세하기 위해 사용된 카테고리와 이에 대한 값, 이름 등을 사전에 알고 있어야만 검색이 가능하다. 그러나 일반 사용자들은 이러한 사전지식을 충분히 알고 있지 못하기 때문에 웹서비스에 대한 정보 검색이 쉽지가 않다. 그러므로 일반 사용자들을 위해 웹서비스에 대한 정보를 카테고리에 맞게 분류하면 웹서비스 검색을 보다 용이하게 할 수가 있다. 따라서 본 논문에서는 유전자 알고리즘과 신경망을 이용하여 보다 효율적으로 웹서비스 정보를 분류하는 클러스터링 기법을 제안한다.

  • PDF

Performance Evaluation for Word Clustering (용어 클러스터링의 성능 평가)

  • Park, Eun-Jin;Kim, Jae-Hoon;Ock, Cheol-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2005.10a
    • /
    • pp.43-49
    • /
    • 2005
  • 이 논문에서는 전자 사전의 뜻 풀이말을 이용하여 용어를 자동 분류하는 용어 클러스터링 시스템을 설계하였다. 클러스터링 성능에 영향을 미치는 요소로 자질 선택 자질 표현 그리고 유사도 측정 등이 있다. 이 논문에서는 이러한 요소들이 용어 클러스터링에 미치는 영향을 평가해보았다. 클러스터링 결과를 객관적으로 비교하기 위해서 용어 클러스터링 결과와 한국어 의미 계층망에서 추출한 정답 클러스터를 비교하였다 실험 결과, 용어의 뜻 풀이말만 자질로 사용한 방법보다는 뜻 풀이말 자질을 확장하는 방법이 훨씬 더 좋은 결과를 보였다.

  • PDF

A Clustering Algorithm based on Heuristic Evolution Algorithm (휴리스틱 진화 알고리즘을 이용한 클러스터링 알고리즘)

  • 강명구;류정우;김명원
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.78-80
    • /
    • 2000
  • 클러스터링이란 주어진 데이터들을 유사한 성질을 가지는 군집으로 나누는 것으로 많은 분야에서 응용되고 있으며, 특히 최근 관심의 대상인 데이터 마이닝의 중요한 기술로서 활발히 응용되고 있다. 클러스터링에 있어서 기존의 알고리즘들은 지역적 최적해에 수렴하는 것과 사전에 클러스터 개수를 미리 결정해야 하는 문제점을 가지고 있다. 본 논문에서는 병렬 탐색을 통해 최적해를 찾는 진화알고리즘을 사용하여 지역적 최적해에 수렴되는 문제점을 개선하였으며, 자동으로 적절한 클러스터 개수를 결정할 수 있게 하였다. 또한 진화알고리즘의 단점인 탐색공간의 확대에 따른 탐색시간의 증가는 휴리스틱 연산을 정의하여 개선하였다. 제안한 알고리즘의 성능 및 타당성을 보이기 위해 가우시안 분포 데이터를 사용하여 제안한 알고리즘의 성능이 우수함을 보였다.

  • PDF

A MapReduce-Based Workflow BIG-Log Clustering Technique (맵리듀스기반 워크플로우 빅-로그 클러스터링 기법)

  • Jin, Min-Hyuck;Kim, Kwanghoon Pio
    • Journal of Internet Computing and Services
    • /
    • v.20 no.1
    • /
    • pp.87-96
    • /
    • 2019
  • In this paper, we propose a MapReduce-supported clustering technique for collecting and classifying distributed workflow enactment event logs as a preprocessing tool. Especially, we would call the distributed workflow enactment event logs as Workflow BIG-Logs, because they are satisfied with as well as well-fitted to the 5V properties of BIG-Data like Volume, Velocity, Variety, Veracity and Value. The clustering technique we develop in this paper is intentionally devised for the preprocessing phase of a specific workflow process mining and analysis algorithm based upon the workflow BIG-Logs. In other words, It uses the Map-Reduce framework as a Workflow BIG-Logs processing platform, it supports the IEEE XES standard data format, and it is eventually dedicated for the preprocessing phase of the ${\rho}$-Algorithm that is a typical workflow process mining algorithm based on the structured information control nets. More precisely, The Workflow BIG-Logs can be classified into two types: of activity-based clustering patterns and performer-based clustering patterns, and we try to implement an activity-based clustering pattern algorithm based upon the Map-Reduce framework. Finally, we try to verify the proposed clustering technique by carrying out an experimental study on the workflow enactment event log dataset released by the BPI Challenges.

Optimal k-search and Its Application in k-medoid Clustering Algorithm based on Genetic Algorithm (유전자 알고리즘에 기반한 K-medoid 클러스터링 알고리즘에서의 최적의 k-탐색과 적용)

  • Ahn Sun-Young;Yoon Hye-Sung;Lee Sang-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06a
    • /
    • pp.55-57
    • /
    • 2006
  • k-medoid 클러스터링 알고리즘은 고정된 클러스터 수(k)를 가지고 실험하기 때문에 데이터에 대한 사전 지식이 없으면 올바른 분석이 어렵고, 클러스터 수를 변경하면서 여러 번 반복 실험하여 실험 결과에 대한 타당성을 조사해야 하기 때문에 데이터의 크기가 커질수록 시간 비용이 증가하는 단점이 생긴다. 본 논문에서는 k-medoid 클러스터링 알고리즘 분석에 있어서 가장 어려운 문제 중 하나인 적절한 클러스터 수 k를 사회 네트워크 분석 방법 중 매개중심 값을 이용하여 찾는 새로운 방법을 제안하고 이를 실제 마이크로 어레이 데이터에 적용하여 유전자 알고리즘에 기반한 k-medoid 클러스터링을 수행함으로써 좀 더 정확한 클러스터링 결과를 보인다.

  • PDF