• 제목/요약/키워드: Conceptual Clustering

검색결과 35건 처리시간 0.024초

효율적인 개념 클러스터링 기법 (An Efficient Conceptual Clustering Scheme)

  • 양기철
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제14권4호
    • /
    • pp.349-354
    • /
    • 2020
  • 본 논문에서는 개체를 자유롭게 설명하고 효율적으로 클러스터링을 수행 할 수 있는 개념 그래프 기반의 새로운 클러스터링 체계 Clustering scheme Based on Conceptual graphs(CBC)를 제안한다. 개념적 클러스터링은 기계 학습 기술 중 하나이다. 개념 클러스터링에서 개체 간의 유사성은 개체의 의미나 환경을 고려하지 않고 유사성을 결정하는 일반적인 클러스터링 체계와 달리 개념 구성원의 자격에 따라 결정된다. 이 논문에서는 다양한 개체를 개념 그래프로 자유롭게 설명하여 효율적인 개념 클러스터링을 수행 할 수 있는 새로운 개념 클러스터링 체계인 CBC를 소개한다.

Semantic Conceptual Relational Similarity Based Web Document Clustering for Efficient Information Retrieval Using Semantic Ontology

  • Selvalakshmi, B;Subramaniam, M;Sathiyasekar, K
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권9호
    • /
    • pp.3102-3119
    • /
    • 2021
  • In the modern rapid growing web era, the scope of web publication is about accessing the web resources. Due to the increased size of web, the search engines face many challenges, in indexing the web pages as well as producing result to the user query. Methodologies discussed in literatures towards clustering web documents suffer in producing higher clustering accuracy. Problem is mitigated using, the proposed scheme, Semantic Conceptual Relational Similarity (SCRS) based clustering algorithm which, considers the relationship of any document in two ways, to measure the similarity. One is with the number of semantic relations of any document class covered by the input document and the second is the number of conceptual relation the input document covers towards any document class. With a given data set Ds, the method estimates the SCRS measure for each document Di towards available class of documents. As a result, a class with maximum SCRS is identified and the document is indexed on the selected class. The SCRS measure is measured according to the semantic relevancy of input document towards each document of any class. Similarly, the input query has been measured for Query Relational Semantic Score (QRSS) towards each class of documents. Based on the value of QRSS measure, the document class is identified, retrieved and ranked based on the QRSS measure to produce final population. In both the way, the semantic measures are estimated based on the concepts available in semantic ontology. The proposed method had risen efficient result in indexing as well as search efficiency also has been improved.

The Effect of Bias in Data Set for Conceptual Clustering Algorithms

  • Lee, Gye Sung
    • International journal of advanced smart convergence
    • /
    • 제8권3호
    • /
    • pp.46-53
    • /
    • 2019
  • When a partitioned structure is derived from a data set using a clustering algorithm, it is not unusual to have a different set of outcomes when it runs with a different order of data. This problem is known as the order bias problem. Many algorithms in machine learning fields try to achieve optimized result from available training and test data. Optimization is determined by an evaluation function which has also a tendency toward a certain goal. It is inevitable to have a tendency in the evaluation function both for efficiency and for consistency in the result. But its preference for a specific goal in the evaluation function may sometimes lead to unfavorable consequences in the final result of the clustering. To overcome this bias problems, the first clustering process proceeds to construct an initial partition. The initial partition is expected to imply the possible range in the number of final clusters. We apply the data centric sorting to the data objects in the clusters of the partition to rearrange them in a new order. The same clustering procedure is reapplied to the newly arranged data set to build a new partition. We have developed an algorithm that reduces bias effect resulting from how data is fed into the algorithm. Experiment results have been presented to show that the algorithm helps minimize the order bias effects. We have also shown that the current evaluation measure used for the clustering algorithm is biased toward favoring a smaller number of clusters and a larger size of clusters as a result.

Descriptive and Systematic Comparison of Clustering Methods in Microarray Data Analysis

  • Kim, Seo-Young
    • 응용통계연구
    • /
    • 제22권1호
    • /
    • pp.89-106
    • /
    • 2009
  • There have been many new advances in the development of improved clustering methods for microarray data analysis, but traditional clustering methods are still often used in genomic data analysis, which maY be more due to their conceptual simplicity and their broad usability in commercial software packages than to their intrinsic merits. Thus, it is crucial to assess the performance of each existing method through a comprehensive comparative analysis so as to provide informed guidelines on choosing clustering methods. In this study, we investigated existing clustering methods applied to microarray data in various real scenarios. To this end, we focused on how the various methods differ, and why a particular method does not perform well. We applied both internal and external validation methods to the following eight clustering methods using various simulated data sets and real microarray data sets.

변형된 Category Utility를 이용한 점진 개념학습 (Incremental Conceptual Clustering Using Modified Category Utility)

  • 김표재;최진영
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2005년도 춘계학술대회 학술발표 논문집 제15권 제1호
    • /
    • pp.193-197
    • /
    • 2005
  • 점진적 개념 학습 알고리즘인 COBWEB은 클래스 정보가 주어지지 않은 사례들(instances)을 분류하기 위하여 사례의 속성과 값에 근거하여 학습하며 각 노드가 유사한 사례들의 집합인 클래스에 해당하는 분류 트리를 생성하는 알고리즘이다. 유사한 사례들을 같은 클래스로 분류하기 위한 기준으로 category utility가 사용되며 이는 클래스 내부의 유사도와 클래스간의 차이점을 최대화하는 방향으로 클래스를 분류한다 기존의 COBWEB에 사용되는 category utility는 클래스 사이즈와 예측 정확성 사이의 tradeoff 관계로 볼 수 있으며, 이로 인하여 예측 정확성은 약간 감소하나 클래스 사이즈가 커지는 방향으로 학습이 진행 될 수 있는 편향성(bias)를 가지고 있다. 이는 분류 트리에 불필요한 클래스 노드들(spurious nodes)을 생성하게 하여 학습 결과인 클래스 개념을 이해하는뎨 어렵게 한다. 본 논문에서는 클래스와 그에 속하는 사례들의 속성-값 분포를 고려하여 클래스와 속성의 연관성에 비례한 가충치를 더한 변형된 category utility를 제안하고, dataset에 대한 실험을 통하여 제안된 category utility가 기존의 큰 클래스 사이즈를 선호하는 bias를 완화시킴을 보이고자 한다.

  • PDF

SAHN 모델의 부분적 패턴 추정 방법에 대한 연구 (A Study on Partial Pattern Estimation for Sequential Agglomerative Hierarchical Nested Model)

  • 장경원;안태천
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2005년도 학술대회 논문집 정보 및 제어부문
    • /
    • pp.143-145
    • /
    • 2005
  • In this paper, an empirical study result on pattern estimation method is devoted to reveal underlying data patterns with a relatively reduced computational cost. Presented method performs crisp type clustering with given n number of data samples by means of the sequential agglomerative hierarchical nested model (SAHN). Conventional SAHN based clustering requires large computation time in the initial step of algorithm. To deal with this concern, we modified overall process with a partial approach. In the beginning of this method, we divide given data set to several sub groups with uniform sampling and then each divided sub data group is applied to SAHN based method. The advantage of this method reduces computation time of original process and gives similar results. Proposed is applied to several test data set and simulation result with conceptual analysis is presented.

  • PDF

용천수 유출량 클러스터링 해석을 이용한 제주도 지하수 순환 해석 (Clustering Analysis with Spring Discharge Data and Evaluation of Groundwater System in Jeju Island)

  • 김태희;문덕철;박원배;박기화;고기원
    • 한국지하수토양환경학회:학술대회논문집
    • /
    • 한국지하수토양환경학회 2005년도 총회 및 춘계학술발표회
    • /
    • pp.296-299
    • /
    • 2005
  • Time series of spring discharge data in Jeju island can provide abundant information on the spatial groundwater system. In this study, the classification based on time series of spring discharge was performed with clustering analysis: discharge rate and EC. Peak discharges are mainly observed in august or september. However, double peaks and late peaks of discharge are also observed at a plenty of springs. Based on results of clustering analysis, it can be deduced that GH model is not appropriate for the conceptual model of Groundwater system in Jeju island. EC distributions in dry season are also support the conclusion.

  • PDF

적응성 있는 차분 진화에 의한 함수최적화와 이벤트 클러스터링 (Function Optimization and Event Clustering by Adaptive Differential Evolution)

  • 황희수
    • 한국지능시스템학회논문지
    • /
    • 제12권5호
    • /
    • pp.451-461
    • /
    • 2002
  • 차분 진화는 다양한 형태의 목적함수를 최적화하는데 매우 효율적인 방법임이 입증되었다 차분 진화의 가장 큰 이점은 개념적 단순성과 사용의 용이성이다. 그러나 차분 진화의 수렴성이 제어 파라미터에 매우 민감한 단점이 있다. 본 논문은 새로운 교배용 벡터 생성법과 제어 파라미터의 적응 메커니즘을 결합한 적응성 있는 차분 진화를 제안한다. 이는 수렴성을 해치지 않으면서 차분 진화를 보다 강인하게 만들며 사용이 쉽도록 해준다. 12가지 최적화 문제에 대해 제안한 방법을 시험하였다. 적응성 있는 차분 진화의 응용 사례로써 이벤트 예측을 위한 교사 클러스터링 방법을 제안한다. 이 방법을 진화에 의한 이벤트 클러스터링이라 부르며 데이터 모델링 검증에 널리 사용되는 4 가지 사례에 대해 그 성능을 시험하였다.

개념분류기법을 적용한 한국에 명사분류 (Korean Noun Clustering Via Incremental Conceptual Clustering)

  • 정연수;조정미;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.50-55
    • /
    • 1995
  • 많은 언어관계들이 의미적으로 유사한 단어들의 집합에 적응된다. 그러므로 단어들을 의미가 비슷한 것들의 집합으로 분류하는 것은 아주 유용한 일이다. 본 논문에서는 말뭉치로부터의 동사와 명사의 분포정보를 이용하여 명사들을 분류하고자 한다. 한국어에서는 명사마다 문장에서 그 명사를 특정한 격으로 사용할 수 있는 동사들이 제한되어 있다. 그러므로 본 논문에서는 말뭉치에서 나타나는 명사와 그 명사를 특정한 격으로 사용하는 동사들의 분포정보로부터 명사들을 분류하는 방법을 제시한다. 형태소 해석된 50만 단어 말뭉치에서 가장 빈도수가 높은 명사 85단어를 대상으로 실험하였다. 명사와 동사의 구문정보를 사용하므로 의미적으로는 다르지만 쓰임이 비슷한 단어들도 같은 부류로 분류되었다. 의미적으로 애매성을 가지는 명사들의 경우도 실험결과를 나쁘게하는 요인이 되었다. 그리고, 좀더 좋은 결과를 얻기 위해서는 동사들도 의미가 유사한 것들로 분류한 후, 명사와 동사의 분포정보가 아닌 명사와 동사들의 집합의 분포정보를 이용하는 것도 종은 방법이 될 것이다.

  • PDF

헨릭 빕스코브 컬렉션에 나타난 패션 인스톨레이션의 표현 특성 (The Expressive Characteristics of Fashion Installation in Henrik Vibskov Collection)

  • 고현진
    • 복식
    • /
    • 제65권6호
    • /
    • pp.133-147
    • /
    • 2015
  • The aim of this study is to review the creative fashion installation of Henrik Vibskov, Danish designer. Its intention is to contribute useful information for more innovative fashion presentation. As a research method, document and case study were performed and his collections from 2004 F/W to 2016 S/S were analyzed. In fashion installation, the designer puts objects in meaningful spaces in order to convey a certain message, to make an integrated artwork, and to interact with spectator. It has been used in fashion exhibitions, as well as in the set design of fashion performance and fashion show. The results were as follows. Henrik Vibskov's fashion installation has three features, which are 1)conceptual theme approach that communicates a twisted and metaphoric message, with a poetic and interesting show title, 2) surrealistic scenography that plays with fragmentation of the human body, clustering of plastic and symbolic objects, innovative color transformations, and visual trickery between figures and the background, and 3) setting for multisensory performance that makes spectators interact by making artistic objects and surroundings, which stimulates the five senses. Henrik Vibskov's fashion installation can exist as an independent artwork, and not just as a supporting piece for a fashion show. It has both artistic and fashionable values, and can be an effective fashion presentation communicating his conceptual fashion themes.