• Title/Summary/Keyword: 클러스터 간 유사도

Search Result 107, Processing Time 0.022 seconds

A Study on ART1 Algorithm by Using Enhanced Similarity Test and Dynamical Vigilance Threshold (개선된 유사성 검증 방법과 동적인 경계 변수를 이용한 ART1 알고리즘에 관한 연구)

  • 민지희;홍제형;김재용;김광백
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2003.05b
    • /
    • pp.193-197
    • /
    • 2003
  • 기존의 ART1 알고리즘은 입력 패턴과 저장 패턴간의 유사성 검증 방법의 문제점과 경계 변수에 따라 클러스터의 수와 인식률이 좌우되는 문제점이 있다. 본 논문에서는 기존의 ART1 알고리즘을 개선하기 위하여 입력 패턴과 저장 패턴간의 Exclusive NOR의 놈(norm) 비율을 사용하는 유사성 측정 방법과 퍼지 접속 연산자를 이용하여 유사성에 따라 경계변수를 동적으로 조정하는 방법을 적용한 개선된 ART1을 제안한다. 제안된 방법에서는 1의 개수 비율이 아니라 같은 값을 가진 노드의 비율을 사용하여 유사성을 측정하고 경계 변수는 Yager의 합 접속 연산자를 사용하여 동적으로 조정한다. 제안된 방법의 성능을 확인하기 위하여 26개의 영문 패턴 분류 문제와 잡음이 있는 패턴 인식 문제를 대상으로 실험한 결과, 제안된 방법이 기존의 ART1 알고리즘 보다 경계 변수의 설정에 따라 민감하게 반응하지 않았고 인식률에서도 개선된 것을 확인하였다.

  • PDF

Couple Matching Platform through Style Analysis (스타일 분석을 통한 커플 매칭 플랫폼)

  • Choe, Hyeong Rak;Jo, Sung un;Kim, Dong Ha;Moon, Jae Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.868-871
    • /
    • 2019
  • 본연구는 커플들의 이미지 빅 데이터를 분석하여 각각 얼굴과 패션에 따라 유사한 유형 끼리 클러스터링 하여 새로운 사람 이미지가 주어졌을 때 해당 사람이 어느 유형에 속하는지 찾아내고 해당 유형의 사람들은 어떤 유형의 이성과 잘 맞는지 찾아 추천해주는 플랫폼이다. 빅 데이터를 수집하기 위하여 SNS상에서 커플들의 이미지를 크롤링하여 저장한다. 수집된 커플들의 이미지를 AI 머신 러닝으로 나이, 성별을 분석하여 미리 설정한 나이대의 이성 커플들의 이미지 만을 추려내서 각각 남, 여의 이미지를 분리하여 저장한다. 해당 이미지들로 비슷한 얼굴, 패션 유형의 사람들을 같은 클러스터로 모으고 CNN 으로 학습 시켜서 새로운 이미지가 들어올 경우 효율적으로 해당 이미지가 어느 클러스터에 속하는지 찾아낼 수 있도록 한다. 특정 이미지가 속하는 클러스터를 찾아내면 해당 클러스터에 속하는 사람들의 연인들이 어느 클러스터에 가장 많이 포함되어 있는지 찾아서 해당 클러스터 유형의 이성을 추천해준다. 웹과 어플리케이션으로 이루어진 플랫폼 서비스이며, 커플 매칭 기능 뿐만 아니라 매칭된 회원 간 연락 기능, 실제 커플의 이미지로 두 사람의 매칭도 확인 등의 부가적 기능 또한 인공 지능 서비스로 제공된다.

XML Document Clustering Based on Sequential Pattern (순차패턴에 기반한 XML 문서 클러스터링)

  • Hwang, Jeong-Hee;Ryu, Keun-Ho
    • The KIPS Transactions:PartD
    • /
    • v.10D no.7
    • /
    • pp.1093-1102
    • /
    • 2003
  • As the use of internet is growing, the amount of information is increasing rapidly and XML that is a standard of the web data has the property of flexibility of data representation. Therefore electronic document systems based on web, such as EDMS (Electronic Document Management System), ebXML (e-business extensible Markup Language), have been adopting XML as the method for exchange and standard of documents. So research on the method which can manage and search structural XML documents in an effective wav is required. In this paper we propose the clustering method based on structural similarity among the many XML documents, using typical structures extracted from each document by sequential pattern mining in pre-clustering process. The proposed algorithm improves the accuracy of clustering by computing cost considering cluster cohesion and inter-cluster similarity.

A Hierarchical Clustering for Browsing Retrieval Results (검색결과의 브라우징을 위한 계층적 클러스터링)

  • 윤보현;김현기;노대식;강현규
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.342-344
    • /
    • 2000
  • 대부분 웹 검색엔진들의 검색결과로 수십 혹은 수백만건의 문서가 제시되어 사용자가 원하는 문서를 찾는데 어려움이 있다. 이러한 문제를 해결하기 위해 본 논문에서는 검색 결과의 브라우징을 위한 검색 결과 문서에 대한 자동 클러스터링 방법을 제안한다. 문서간 유사도를 계산하기 위해 공통 키워드 빈도를 이용하고, 클러스터링 방법은 계층적 클러스터링을 사용하고, 각 클러스터에 대한 디스트립터를 추출하기 위해 빈도를 이용한다. 실험 결과, 완전 연결 방법이 가장 나은 정확도를 보였지만 계산시간이 많이 소요되어 동적 환경에 부적합하다는 것을 보였다. 아울러 집단 평균 연결이 정확도나 계산 시간 측면에서 우수함을 알수 있었다.

  • PDF

An Analysis of Ortholog Clusters Detected from Multiple Genomes (다종의 유전체로부터 탐지된 Ortholog 군집에 대한 분석)

  • Kim, Sun-Shin;Oh, Jeong-Su;Lee, Bum-Ju;Kim, Tae-Kyung;Jung, Kwang-Su;Rhee, Chung-Sei;Kim, Young-Chang;Cho, Wan-Sup;Ryu, Keun-Ho
    • Journal of KIISE:Databases
    • /
    • v.35 no.2
    • /
    • pp.125-131
    • /
    • 2008
  • It is very useful to predict orthologs for new genome annotation and research on genome evolution. We showed that the previous work can be extended to construct OCs(Ortholog Clusters) automatically from multiple complete-genomes. The proposed method also has the quality of production of InParanoid, which produces orthologs from just two genomes. On the other hand, in order to predict more exactly the function of a newly sequenced gene it can be an important issue to prevent unwanted inclusion of paralogs into the OCs. We have, here, investigated how well it is possible to construct a functionally purer OCs with score cut-offs. Our OCs were generated from the datasets of 20 procaryotes. The similarity with both COG(Clusters of Orthologous Group) and KO(Kegg Orthology) against our OCs has about 90% and inclines to increase with the growth of score cut-offs.

A Text Summarization Model Based on Sentence Clustering (문장 클러스터링에 기반한 자동요약 모형)

  • 정영미;최상희
    • Journal of the Korean Society for information Management
    • /
    • v.18 no.3
    • /
    • pp.159-178
    • /
    • 2001
  • This paper presents an automatic text summarization model which selects representative sentences from sentence clusters to create a summary. Summary generation experiments were performed on two sets of test documents after learning the optimum environment from a training set. Centroid clustering method turned out to be the most effective in clustering sentences, and sentence weight was found more effective than the similarity value between sentence and cluster centroid vectors in selecting a representative sentence from each cluster. The result of experiments also proves that inverse sentence weight as well as title word weight for terms and location weight for sentences are effective in improving the performance of summarization.

  • PDF

Performance Analysis by utilizing a Determination Method of Usenet News Groups (유즈넷 뉴스 그룹 결정 방법을 활용한 성능평가)

  • 김종완;김희재;김병익
    • Proceedings of the Korea Society for Industrial Systems Conference
    • /
    • 2004.06a
    • /
    • pp.67-72
    • /
    • 2004
  • 않은 양의 유즈넷 뉴스 중에서 사용자가 찾고자 하는 정확한 정보를 빠른 시간 안에 검색하고, 원하는 정보만 필터링 하는 것은 중요하다. 그러나 뉴스 문서는 이메일과 달라서 미리 자신에게 맞는 뉴스그룹을 등록해 주어야만 정보를 얻을 수 있다. 본 연구에서는 다양한 뉴스그룹들 중에서 사용자의 취향과 유사한 뉴스그룹들을 코호넨 신경망을 이용하여 추천해주는 방법을 제시한다. 신경망을 학습시키기 위한 뉴스 문서의 키워드들을 선택하기 위해 예제 문서들로부터 후보 용어들을 추출하고 퍼지 추론을 적용하여 대표 용어들을 선택한다. 하지만 신경망의 학습 패턴을 관찰해 보면, 많은 부분이 비어있는 희소성 문제를 발견할 수 있다. 이에 본 연구에서는 통계적인 결정계수를 도입하여 불필요한 차원을 제거한 후 신경망을 학습시키는 새로운 방법을 제안한다. 제안된 방법은 모든 차원을 활용할 때 보다 클러스터내 거리와 클러스터간 거리의 척도를 이용한 클러스터 중첩도 면에서 우수한 분류 성능을 보여줌을 확인하였다.

  • PDF

Usenet News Filtering by Using Statistical Coefficient of Determination (통계적 결정계수를 이용한 유즈넷 뉴스 필터링)

  • 김종완;김희재;김병만
    • Proceedings of the Korea Society for Industrial Systems Conference
    • /
    • 2003.11a
    • /
    • pp.747-752
    • /
    • 2003
  • 많은 양의 유즈넷 뉴스 중에서 사용자가 찾고자 하는 정확한 정보를 빠른 시간 안에 검색하고, 원하는 정보만 필터링 하는 것은 중요하다. 그러나 뉴스 문서는 이메일과 달라서 미리 자신에게 맞는 뉴스그룹을 등록해 주어야만 정보를 얻을 수 있다. 본 연구에서는 다양한 뉴스그룹들 중에서 사용자와 취향이 가장 유사한 뉴스그룹을 분류하여 뉴스 문서의 키워드들을 선택하기 위해 예제 문서들로부터 후보 용어들을 추출하고 퍼지 추론을 적용하여 대표용어들을 선택한다. 이에 본 연구에서는 통계적인 결정계수를 도입하여 불필요한 차원을 제거한 후 신경망을 학습시키는 새로운 방법을 제안한다. 제안된 방법은 모든 차원을 활용할 때 보다 클러스터간 거리와 표준편차, 클러스터간 거리의 척도 면에서 우수한 분류 성능을 보여줌을 확인하였다.

  • PDF

친환경 고에너지 물질로서의 금속-질소 클러스터 화합물의 안정성 예측

  • Choe, Chang-Hyeok;Jeong, Yu-Seong
    • Proceeding of EDISON Challenge
    • /
    • 2015.03a
    • /
    • pp.147-150
    • /
    • 2015
  • Polynitrogen Compounds (PNC)는 질소만으로 이루어진 물질을 칭하며, 주로 질소간의 단일 결합과 이중결합으로 이루어져 있다. 질소 간 단일결합에너지 38.4kcal/mole에 비해 유난히 큰 229kcal/mole의 삼중결합 에너지 덕택에 PNC는 고에너지 물질로 큰 각광을 받고 있다. PNC는 합성과정이 큰 흡열반응으로 실험이 까다로워 이론적인 연구가 많이 진행되어왔다. 그 중에서 고리형태의 $N_5{^-}$가 안정할 것으로 예측되며, 실험적으로도 발견되었다. $N_5{^-}$를 안정화시키기 위해 많은 연구가 진행되었으며 그 중 하나가 금속과의 결합을 통한 화합물의 안정화이다. 본 연구에서는 $N_5{^-}$와 Cyclopentadienyl($C_5H_5{^-}$)이 전자구조나 기하학적 구조가 매우 유사함에 착안하여 이미 상대적으로 많은 합성이 보고되어 있는 $M(C_5H_5)_3$, $M(C_5H_5)_4$의 전이금속 M구조에 대하여 아직 발견되지 않은 $M(N_5)_3$, $M(N_5)_4$ 화합물의 구조와 열역학적 안정성을 알아보도록 한다. 본 연구에서 찾아진 $Zr(C_5H_5)_4$은 현재까지 실험적으로 보고된 $M(C_7H_7)(C_5H_5)$ 클러스터 구조에 비해 질소함유량이 약 67% 더 높다.

  • PDF

A Case-Based Reasoning Method Improving Real-Time Computational Performances: Application to Diagnose for Heart Disease (대용량 데이터를 위한 사례기반 추론기법의 실시간 처리속도 개선방안에 대한 연구: 심장병 예측을 중심으로)

  • Park, Yoon-Joo
    • Information Systems Review
    • /
    • v.16 no.1
    • /
    • pp.37-50
    • /
    • 2014
  • Conventional case-based reasoning (CBR) does not perform efficiently for high volume dataset because of case-retrieval time. In order to overcome this problem, some previous researches suggest clustering a case-base into several small groups, and retrieve neighbors within a corresponding group to a target case. However, this approach generally produces less accurate predictive performances than the conventional CBR. This paper suggests a new hybrid case-based reasoning method which dynamically composing a searching pool for each target case. This method is applied to diagnose for the heart disease dataset. The results show that the suggested hybrid method produces statistically the same level of predictive performances with using significantly less computational cost than the CBR method and also outperforms the basic clustering-CBR (C-CBR) method.