• Title/Summary/Keyword: K means clustering

Search Result 1,118, Processing Time 0.033 seconds

Driving Characteristics Clustering use TCS Data (고속도로 통행료 수납자료를 이용한 주행특성 클러스터링 기법)

  • Kim, Dong-Keun;Park, Won-Sik;Yang, Young-Kyu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.04a
    • /
    • pp.1025-1028
    • /
    • 2009
  • 고속도로의 다양한 주행특성으로는 과속하는 차량, 휴게소나 기타목적의 이용차량, 운전자의 습관이나 피로도등이 있는데 이에 따라 고속도로 주행시간에 차이가 나타난다. 하지만 현재에는 이러한 특성을 고려하지 않고 통행시간 분류가 되고 있어 정확성과 신뢰성을 보장하지 못하고 있는 실정이다. 이에 본 연구에서는 데이터 분포에 따른 해석을 통하여 TCS데이터의 특성을 고려 할 수 있는 Fuzzy c-means 알고리즘과 단순히 임의의 초기값으로 분류하는 K-means와의 비교를 통해서 주행특성을 고려한 클러스터링 기법이 경우에 따라서 더 효과적이고 신뢰성 있는 분류방법이 될 수 있음을 증명하였다.

A Study on Optimization for Delivery Destination Clustering using Unsupervised Learning (비지도 학습 기반 클러스터링 기법을 활용한 도심 물류 배송지 최적화 연구)

  • Jeon, Hyungjun;Lim, HeuiSeok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.05a
    • /
    • pp.483-486
    • /
    • 2022
  • 최근 이커머스 시장의 지속적인 성장으로 빠른 배송과 대용량 물류 처리를 위한 효율적 배송 시스템 마련의 필요성이 증가하고 있다. 본 연구에서는 도심 물류 거점에서의 현재 배송 물량 할당의 불균등 문제를 실무적 관점에서 정의하고, 비지도 학습 기반 클러스터링 기법을 통해 불균등 배송 할당 문제를 개선해 보고자 했다. 분석 결과 K-means++ 알고리즘 기반 클러스터링에서 최적화된 물량 할당에 대한 개선 가능성을 검증할 수 있었다. 향후 지형 정보, 교통량 등의 상세 변수를 추가하여 머신러닝 기반의 물류 배송 최적화를 위한 연구 영역을 확장할 수 있을 것으로 기대된다.

Classification in Different Genera by Cytochrome Oxidase Subunit I Gene Using CNN-LSTM Hybrid Model

  • Meijing Li;Dongkeun Kim
    • Journal of information and communication convergence engineering
    • /
    • v.21 no.2
    • /
    • pp.159-166
    • /
    • 2023
  • The COI gene is a sequence of approximately 650 bp at the 5' terminal of the mitochondrial Cytochrome c Oxidase subunit I (COI) gene. As an effective DeoxyriboNucleic Acid (DNA) barcode, it is widely used for the taxonomic identification and evolutionary analysis of species. We created a CNN-LSTM hybrid model by combining the gene features partially extracted by the Long Short-Term Memory ( LSTM ) network with the feature maps obtained by the CNN. Compared to K-Means Clustering, Support Vector Machines (SVM), and a single CNN classification model, after training 278 samples in a training set that included 15 genera from two orders, the CNN-LSTM hybrid model achieved 94% accuracy in the test set, which contained 118 samples. We augmented the training set samples and four genera into four orders, and the classification accuracy of the test set reached 100%. This study also proposes calculating the cosine similarity between the training and test sets to initially assess the reliability of the predicted results and discover new species.

The use of support vector machines in semi-supervised classification

  • Bae, Hyunjoo;Kim, Hyungwoo;Shin, Seung Jun
    • Communications for Statistical Applications and Methods
    • /
    • v.29 no.2
    • /
    • pp.193-202
    • /
    • 2022
  • Semi-supervised learning has gained significant attention in recent applications. In this article, we provide a selective overview of popular semi-supervised methods and then propose a simple but effective algorithm for semi-supervised classification using support vector machines (SVM), one of the most popular binary classifiers in a machine learning community. The idea is simple as follows. First, we apply the dimension reduction to the unlabeled observations and cluster them to assign labels on the reduced space. SVM is then employed to the combined set of labeled and unlabeled observations to construct a classification rule. The use of SVM enables us to extend it to the nonlinear counterpart via kernel trick. Our numerical experiments under various scenarios demonstrate that the proposed method is promising in semi-supervised classification.

Vector-based word representation for media frame analysis: focused on covid-19 (언론사 프레임 분석을 위한 벡터기반의 단어 표현: 코로나 19 를 중심으로)

  • Lee, Da-In;Kim, Yu-Seop
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.11a
    • /
    • pp.877-880
    • /
    • 2020
  • 본 논문에서는 언론사 프레임 분석을 위해 2020 년 2 월 1 일부터 7 개월간 코로나 19 를 언급한 기사 데이터를 수집하여 단어 임베딩을 수행하고, 언론사별 중복단어 행렬로 K-Means Clustering 을 수행하여 군집별로 모인 언론사들의 분포를 살펴본다. 또한, 언론사별 중복되지 않는 유일단어들의 긍정, 부정, 정치적, 경제적 등의 특성에 따라 프레임을 분석하여 파악한다. 이를 통해, 특정 기간동안 코로나 19 관련 기사에서 나타나는 언론사별 프레임을 비교 및 분석하고자 한다.

Hairstyle Recognition Method for Realistic Video Conference System (실감 영상회의 시스템을 위한 헤어스타일 탐색 방법)

  • Hur, Jai-Young;Zhang, Xingjie;Park, Jong-Il
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2021.06a
    • /
    • pp.235-238
    • /
    • 2021
  • 최근 코로나 19로 인해 비대면 활동이 늘어나고 있다. 비대면 회의, 비대면 강의, 비대면 과제 등이 이에 해당한다. 그에 따라 가상공간을 활용한 활동 또한 많은 관심을 받고 있다. 가상공간에서 인물들 사이 원활한 소통 및 현실감을 위해서는 실사적인 인물묘사가 필요하다. 따라서 실제 인물의 헤어스타일과 유사한 헤어스타일을 자연스럽게 증강시켜주는 것이 매우 중요하다. 본 논문에서는 실사적인 아바타 생성을 위한 헤어스타일의 분류 및 탐색방법을 제안한다. 이를 위해 본 논문에서는 우선 PCA(Principal Component Analysis) 와 K-means clustering 을 통해 헤어스타일에 대한 군집화를 진행한다. 그리고 Shape Indexed features를 이용하여 군집화 된 결과로부터 제일 유사한 헤어스타일 탐색방법을 제안하고 그 효용을 입증하였다.

  • PDF

A Study on the Design and Implementation of AI-based Waste Recycling Automation System (AI 기반 쓰레기 분리수거 자동화 시스템 설계 및 구현에 관한 연구)

  • Kwon, Jun-Hyuk;Kim, Seung-Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.869-871
    • /
    • 2022
  • 현재 사회적 문제로 잘못된 자원 재활용 방법 및 경비 노동자 근로 환경 개선 필요성이 지속해서 대두되고 있으며, 최근 발생한 코로나바이러스로 인하여 배달 음식의 수요가 증가하여 각 가정에서 배출되는 쓰레기의 양이 매우 증가하였다. 이러한 사회적 문제를 효율적으로 대처하기 위하여 본 논문에서는 분리수거가 가능한 사물을 인식하여 AI 모듈로 객체 정보를 전송하고 전송된 정보에 따라 적절한 분리수거를 수행하는 스마트 분리수거 자동화 시스템을 개발하였다. 본 연구에서는 잘못된 객체 정보 전송을 최소화하고, 객체 인식률의 정확도를 높이기 위하여 많은 종류의 Custom dataset을 Yolo_Mark, Scaling Annoter Tool을 이용하여 직접 라벨링 하였으며 K-means Clustering 알고리즘을 적용하여 더욱 정확한 분리수거 자동화 시스템을 구현하였다. 본 연구를 바탕으로 불필요한 자원과 인력 낭비를 줄일 수 있으며, 인간이 아닌 시스템에 의해 통제되므로 더욱 정확한 분리수거가 가능하다.

A Study for Load Profile Generation of Electric Power Customer using Clustering Algorithm (클러스터링 기법을 이용한 전력 고객의 대표 부하패턴 생성에 대한 연구)

  • Kim, Young-Il;Choi, Hoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.05a
    • /
    • pp.435-438
    • /
    • 2008
  • 한전에서는 연간 전력 사용량이 높은 고압 고객에 대하여 전자식 전력량계를 설치하여 15분 단위로 전력 사용량을 수집하는 자동검침시스템을 운영하고 있다. 본 연구에서는 자동검침시스템을 통해 수집된 데이터를 이용하여 배전선로에 대한 부하를 분석하기 위해 자동검침 고객의 부하 데이터를 이용하여 클러스터링 기법을 통해 대표 부하패턴을 생성하는 방식을 제안하였다. 기존에는 계약종별 코드가 동일한 고객들의 부하패턴을 이용하여 15분 단위의 평균 사용량을 계산하여 대표 부하패턴을 생성하는 방식을 사용하였으나, 같은 계약종별 코드를 갖는 고객이라 할지라도 부하패턴이 다른 경우가 많아서 부하분석의 정확도를 떨어뜨렸다. 본 연구에서는 동일한 계약종별 코드를 갖는 고객에 대하여 15분 단위 자동검침 데이터를 이용하여 k-means 기법을 통해 고객을 분류하고 각 그룹마다 대표 부하패턴을 생성하는 방식을 제안하였다.

An Automated Way to Detect Tumor in Liver

  • Meenu Sharma. Rafat Parveen
    • International Journal of Computer Science & Network Security
    • /
    • v.23 no.10
    • /
    • pp.209-213
    • /
    • 2023
  • In recent years, the image processing mechanisms are used widely in several medical areas for improving earlier detection and treatment stages, in which the time factor is very important to discover the disease in the patient as possible as fast, especially in various cancer tumors such as the liver cancer. Liver cancer has been attracting the attention of medical and sciatic communities in the latest years because of its high prevalence allied with the difficult treatment. Statistics indicate that liver cancer, throughout world, is the one that attacks the greatest number of people. Over the time, study of MR images related to cancer detection in the liver or abdominal area has been difficult. Early detection of liver cancer is very important for successful treatment. There are few methods available to detect cancerous cells. In this paper, an automatic approach that integrates the intensity-based segmentation and k-means clustering approach for detection of cancer region in MRI scan images of liver.

Regional flood frequency analysis of extreme rainfall in Thailand, based on L-moments

  • Thanawan Prahadchai;Piyapatr Busababodhin;Jeong-Soo Park
    • Communications for Statistical Applications and Methods
    • /
    • v.31 no.1
    • /
    • pp.37-53
    • /
    • 2024
  • In this study, flood records from 79 sites across Thailand were analyzed to estimate flood indices using the regional frequency analysis based on the L-moments method. Observation sites were grouped into homogeneous regions using k-means and Ward's clustering techniques. Among various distributions evaluated, the generalized extreme value distribution emerged as the most appropriate for certain regions. Regional growth curves were subsequently established for each delineated region. Furthermore, 20- and 100-year return values were derived to illustrate the recurrence intervals of maximum rainfall across Thailand. The predicted return values tend to increase at each site, which is associated with growth curves that could describe an increasing long-term predictive pattern. The findings of this study hold significant implications for water management strategies and the design of flood mitigation structures in the country.