• 제목/요약/키워드: Kmeans

검색결과 20건 처리시간 0.01초

문서 수에 따른 가중치를 적용한 K-means 문서 클러스터링 (K-means Clustering Method according to Documentation Numbers)

  • 조시성;안동언;정성종;이신원
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 Ⅲ
    • /
    • pp.1557-1560
    • /
    • 2003
  • 본 논문에서는 이 문서 클러스터링 방법 중 계층적 방법인 Kmeans 클러스터링 알고리즘을 이용하여 문서를 클러스터링 하고자 한다. 기존의 Kmeans 클러스터링 알고리즘은 문서의 수가 많을 경우 하나의 클러스터링에 너무 많은 문서들이 할당되는 문제점이 있다. 이 치우침을 완화하고자 각 클러스터링에 할당된 문서 수에 따라서 문서에 가중치를 부여한 후 다시 클러스터링을 하는 방법을 제안하였다. 실험 결과는 정확률, 재현율을 결합한 조화 평균(F-measure)을 사용하여 평가하였으며 기존 알고리즘보다 9%이상의 성능 향상을 나타냈다.

  • PDF

빅데이터 군집 분석을 이용한 학습성취도 예측 - 종단 연구를 중심으로 (Predicting Learning Achievement Using Big Data Cluster Analysis - Focusing on Longitudinal Study)

  • 고수정
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권9호
    • /
    • pp.1769-1778
    • /
    • 2018
  • 빅데이터를 활용한 가치가 증대됨에 따라서 기업 뿐 아니라 교육 분야에서도 빅데이터 분석 기술을 활용한 여러 연구가 진행되고 있다. 본 논문에서는 빅데이터 군집 분석을 이용하여 학습성취도를 종단적으로 예측하는 방법을 제안한다. 제안한 방법에서는 한국아동 청소년패널조사(KCYPS) 자료의 중학교 1학년 학생의 학습 습관 유형을 기반으로 학생들을 Kmeans 알고리즘을 이용하여 학습 습관이 비슷한 그룹으로 분류하고, 그룹의 특징을 추출한다. 다음으로, 이와 같이 추출한 그룹의 특징을 이용하여 테스트 집합의 중학교 1학년 학생을 코사인 유사도를 사용하여 비슷한 학습 습관을 갖는 그룹으로 분류한 후, 이웃을 선정하고 학습성취도를 예측하였다. 본 논문에서 제안한 방법은 중학교의 학습 습관이 대학 및 전공 만족도까지 밀접한 영향을 미쳐서 고등학교의 학습성취도 뿐만 아니라 대학 및 전공에 대한 만족도까지도 예측이 가능하다는 것을 증명하였다.

문서 수에 따른 가중치를 적용한 K-means 문서 클러스터링 (K-means Clustering Method according to Documentation Numbers)

  • 조시성;안동언;정성종;이신원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (상)
    • /
    • pp.345-348
    • /
    • 2003
  • 본 논문에서는 이 문서 클러스터링 방법 중 계층적 방법인 Kmeans 클러스터링 알고리즘을 이용하여 문서를 클러스터링 하고자 한다 기존의 Kmeans 클러스터링 알고리즘은 문서의 수가 많을 경우 하나의 클러스터링에 너무 많은 문서들이 할당되는 문제점이 있다. 이 치우침을 완화하고자 각 클러스터링에 할당된 문서 수에 따라서 문서에 가중치를 부여한 후 다시 클러스터링을 하는 방법을 제안하였다. 실험 결과는 정확률, 재현율을 결합한 조화 평균(F-measure)를 사용하여 평가하였으며 기존 알고리즘보다 9%이상의 성능 향상을 나타냈다.

  • PDF

Modeling of a Software Vulnerability Identification Method

  • Diako, Doffou jerome;N'Guessan, Behou Gerard;ACHIEPO, Odilon Yapo M
    • International Journal of Computer Science & Network Security
    • /
    • 제21권9호
    • /
    • pp.354-357
    • /
    • 2021
  • Software vulnerabilities are becoming more and more increasing, their role is to harm the computer systems of companies, governmental organizations and agencies. The main objective of this paper is to propose a method that will cluster future software vulnerabilities that may spread. This method is developed by combining the Multiple Correspondence Analysis (MCA), the Elbow procedure and the Kmeans Algorithm. A simulation was done on a dataset of 15713 observations. This simulation allowed us to identify families of future vulnerabilities. This model was evaluated using the silhouette index.

클러스터링 방법을 이용한 방사능 정상수치의 동위원소별 오염 분석 (Analysis of Radioactive Contamination Normal Level of Numerical Isotope using Clustering Methods)

  • 정용규;최정아;차병헌
    • 한국인터넷방송통신학회논문지
    • /
    • 제14권6호
    • /
    • pp.41-46
    • /
    • 2014
  • 여러 국가의 관련기관들은 지역 별로 방사능 정상범위를 제시해 주기적으로 검사하고 있으며 우리나라 역시 방사능 대책 인프라를 구축하여 항시 대비하고 있다. 특히 일본 후쿠시마 피폭사건과 같은 방사능오염이 빈번하게 발생함에 따라 방사능에 대한 사람들의 인식이 위험수준으로 변화하고 있다. 본 데이터는 방사능 정상수치와 관련해 미국정부에서 수집을 하여 각 속성정보들을 파악하고 초과한 수치를 비교분석하였다. 분석 방법으로는 군집화를 사용하고, 특히 EM 알고리즘과 SimpleKMeans 알고리즘을 토대로 실험하였다. 그 결과 정상범위 수치가 높을수록 초과할 확률이 높은 것으로 나타났으며 시간적비용이나 분석정도에 따라 사용할 알고리즘이 다를 수 있다는 것도 알 수 있다. 따라서 정상범위가 높은 지역일수록 해당 기관부처나 정부에서는 조사 빈도수를 높여 반영해야 한다.

Statistical bioinformatics for gene expression data

  • Lee, Jae-K.
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2001년도 제2회 생물정보학 국제심포지엄
    • /
    • pp.103-127
    • /
    • 2001
  • Gene expression studies require statistical experimental designs and validation before laboratory confirmation. Various clustering approaches, such as hierarchical, Kmeans, SOM are commonly used for unsupervised learning in gene expression data. Several classification methods, such as gene voting, SVM, or discriminant analysis are used for supervised lerning, where well-defined response classification is possible. Estimating gene-condition interaction effects require advanced, computationally-intensive statistical approaches.

  • PDF

빅데이터 K-평균 클러스터링을 위한 RHadoop 플랫폼 (RHadoop platform for K-Means clustering of big data)

  • 신지은;오윤식;임동훈
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권3호
    • /
    • pp.609-619
    • /
    • 2016
  • 본 논문에서는 대용량 데이터를 처리 및 분석하기 위해 RHadoop 플랫폼에서 실제 데이터와 모의 실험 데이터를 가지고 K-평균 클러스터링을 구현하고, MapReduce의 컴바이너 사용여부에 따른 처리 속도를 비교하고자 한다. 또한, K-평균 클러스터링에서 최적의 군집수 결정방법을 MapReduce 프로그램으로 구현하여 실제 데이터에 적용하고자 한다. 그리고 제안된 RHadoop 플랫폼의 확장 가능성을 보이기 위해 실제 데이터에서 R의 기본 패키지에서 kmeans() 함수와 bigmemory 패키지 상에서 유용한 bigkmeans() 함수와 처리 속도를 비교하고자 한다.

문장군집의 응집도와 의미특징을 이용한 포괄적 문서요약 (Generic Document Summarization using Coherence of Sentence Cluster and Semantic Feature)

  • 박선;이연우;심천식;이성로
    • 한국정보통신학회논문지
    • /
    • 제16권12호
    • /
    • pp.2607-2613
    • /
    • 2012
  • 지식 기반의 포괄적 문서요약은 문장집합의 구성이 요약 결과에 영향을 받는다. 이러한 문제를 해결하기 위해서 본 논문은 의미특징에 의한 군집과 문장군집의 응집도를 이용하여 포괄적 문서요약을 하는 새로운 방법을 제안한다. 제안 방법은 비음수행렬분해에서 유도되는 의미특징을 이용하여 문장을 군집하고, 문서의 내부구조를 잘 표현하는 문장군집들로 문서의 주제 그룹을 분류할 수 있다. 또한 문장군집의 응집도와 재군집에 의한 군집의 정재를 이용하여 중요한 문장을 추출함으로써 요약의 질을 향상시킬 수 있다. 실험결과 제안방법은 다른 포괄적 문서요약 방법에 비하여 좋은 성능을 보인다.

비지도학습 머신러닝에 기반한 베타파 상관관계 분석모델 (Beta-wave Correlation Analysis Model based on Unsupervised Machine Learning)

  • 최성자
    • 디지털융복합연구
    • /
    • 제17권3호
    • /
    • pp.221-226
    • /
    • 2019
  • 뇌파 파형중 베타파를 이용한 인간의 인지상태를 판별한다. 베타파는 인간의 인지상태중 스트레스 영역에 해당하는 특성이 있고, 이 영역에서 스트레스의 오버대역폭을 추출하기 위해서 저대역폭과 고대역폭 사이의 베타파간 상관관계를 분석해야 한다. 그러므로 본 논문에서는 효과적으로 베타파 상관관계를 분석하고 추출하기 위해 비지도학습 머신러닝을 이용한 Kmean 클러스터링 분석모델을 제시한다. 제시된 모델은 베타파 영역을 유사한 영역의 클러스터 군으로 분류하고 해당 클러스터링 범주에서 이상파형을 판별한다. 이상파형 판별을 위해 클러스터군의 밀집도와 정상범주 이탈영역을 기준으로 스트레스 위험군을 판별하고 판별된 스트레스 위험군에 대한 대처방안을 제공할 수 있다. 제시된 모델을 활용하면 뇌파파형을 통한 인지상태의 스트레스 지수분별이 가능하고, 개인의 인지상태에 대한 관리 및 응용이 가능하다. 또한 스트레스와 오피스증후군을 갖는 사람들에게 뇌파관리를 통해 개인의 삶에 대한 질적 향상에 도움을 준다.

리튬 이온 배터리의 자가 방전에 따른 내부 화학적 상태를 고려한 3-D K-means Clustering 스크리닝 기법 연구 (3-D K-means clustering method considering internal chemical state variation of self-dischareg of Li-ion battery)

  • 한동호;권상욱;김승우;임철우;김종훈
    • 전력전자학회:학술대회논문집
    • /
    • 전력전자학회 2019년도 추계학술대회
    • /
    • pp.150-151
    • /
    • 2019
  • 리튬 이온 배터리가 전기 자동차 및 다양한 어플리케이션에 적용됨에 따라 폐배터리의 수요 또한 증가하고 있다. 내부 화학적 상태가 상이한 배터리의 전기적 특성실험을 통해 파라미터를 선정할 수 있으며 전기적 특성 실험 전 후의 시간차에 따른 파라미터 변화를 반영하는 것이 필수적이다. 제조 공정과정의 파라미터의 측정값과 특성실험 후의 파라미터 재측정값을 비교함으로써 이를 3-D Kmeans Clustering 알고리즘에 반영하여 더욱 정밀한 셀 선별을 실시하였다.

  • PDF