• 제목/요약/키워드: k-평균 클러스터링

검색결과 110건 처리시간 0.029초

시계열 데이터에 대한 클러스터링 성능 분석: Wavelet과 Autoencoder 비교 (Clustering Performance Analysis for Time Series Data: Wavelet vs. Autoencoder)

  • 황우성;임효상
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.585-588
    • /
    • 2018
  • 시계열 데이터의 특징을 추출하여 분석하는 과정에서 시게열 데이터가 가지는 고차원성은 차원의 저주(Course of Dimensionality)로 인해 데이터내의 유효한 정보를 찾는데 어려움을 만든다. 이러한 문제를 해결하기 위해 차원 축소 기법(dimensionality reduction)이 널리 사용되고 있지만, 축소 과정에서 발생하는 정보의 희석으로 인하여 시계열 데이터에 대한 군집화(clustering)등을 수행하는데 있어서 성능의 변화를 가져온다. 본 논문은 이러한 현상을 관찰하기 위해 이산 웨이블릿 변환(Discrete Wavelet Transform:DWT)과 오토 인코더(AutoEncoder)를 차원 축소 기법으로 활용하여 시계열 데이터의 차원을 압축 한 뒤, 압축된 데이터를 K-평균(K-means) 알고리즘에 적용하여 군집화의 효율성을 비교하였다. 성능 비교 결과, DWT는 압축된 차원수 그리고 오토인코더는 시계열 데이터에 대한 충분한 학습이 각각 보장된다면 좋은 군집화 성능을 보이는 것을 확인하였다.

지역화된 템플릿기반 동적 시간정합을 이용한 모바일 제스처인식 (Mobile Gesture Recognition using Dynamic Time Warping with Localized Template)

  • 최봉환;민준기;조성배
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권4호
    • /
    • pp.482-486
    • /
    • 2010
  • 최근 모바일기기에 탑재된 가속도 센서가 제스처기반 모바일 사용자 인터페이스에 활용됨에 따라 동적시간정합(Dynamic Time Warping, DTW)기반 인식기에 대한 연구가 활발하다. DTW는 학습샘플을 매칭 템플릿으로 사용하기 때문에 별도의 학습과정이 없다. 하지만 인식시 입력 데이터를 모든 템플릿과 비교해야하기 때문에 계산복잡도로 인하여 모바일환경에 적용하기 어렵다. 본 논문에서는 이러한 문제를 해결하기 위해 지역화된 소수의 템플릿을 사용하는 DTW기반 제스쳐 인식기를 제안한다. 지역화된 템플릿은 k-평균 클러스터링(k-means clustering)알고리즘을 사용하여 학습 제스처 셋의 유사한 패턴들을 k개의 그룹으로 묶고, 각 그룹의 중심(centroid)에 가까운 패턴을 DTW인식기의 템플릿으로 선택한다. 이러한 방법으로 템플릿수를 줄여 인식속도를 향상하고, 템플릿의 다양성을 유지하여 인식성능저하를 최소화한다. 실험 결과 제안하는 방법이 학습 템플릿을 전부 사용하는 DTW보다 약 5배 빠른 인식속도를 보였으며, 템플릿을 임의로 선택한 경우보다 안정적인 성능을 보임을 확인했다.

K-평균 군집화 데이터 증강을 통한 주가 심층 예측 (Deep Prediction of Stock Prices with K-Means Clustered Data Augmentation)

  • 한경훈;양희규;추현승
    • 인터넷정보학회논문지
    • /
    • 제24권2호
    • /
    • pp.67-74
    • /
    • 2023
  • 금융 분야에서 주가예측연구는 거래 안정성 및 이익 실현 등을 목적으로 한다. 기존의 통계적 예측기법은 무작위로 예측한 결과와 정확도 측면에서 비슷하거나 낮은 예측 신뢰도 때문에 실제 거래 결정에 참고 되기 어렵다. 인공지능 모델은 데이터특성과 변동패턴을 학습해 예측하기 때문에 향상된 정확도를 달성한다. 그러나 장기간의 시계열 데이터를 사용해 주가를 예측하는 것은 여전히 어려운 문제이다. 본 논문에서는 K-means 클러스터링 기반의 데이터 증강 및 입력 시퀀스의 Window-size 별 정규화 기법과 시계열 학습에 특화된 LSTM 모델을 활용하여 안정적이고 신뢰성 있는 주가예측 방법을 제안한다. 이를 통해 더욱 정확하고 신뢰성 있는 예측 결과를 얻고, 나아가 시장 안정성에 기여할 뿐 아니라 높은 수익도 추구할 수 있다.

노인 운전자의 공격적인 운전 상태 검출 기법 (A Method of Detecting the Aggressive Driving of Elderly Driver)

  • 고동우;강행봉
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권11호
    • /
    • pp.537-542
    • /
    • 2017
  • 공격적인 성향의 운전은 자동차 사고의 주요한 원인이 된다. 기존 연구에서는 공격적 성향의 운전을 검출하기 위해, 주로 청년을 대상으로 연구가 이뤄졌으며 기계학습의 순수한 Clustering 또는 Classification 기법을 통해 이뤄졌다. 그러나 노인들은 취약한 신체적 조건에 의해 젊은 운전자와는 다른 운전 강도를 가지고 있어 기존의 방식으로는 검출이 불가능 하며, 데이터를 보정하는 등의 새로운 방법이 필요하다. 그리하여, 본 연구에서는 기존의 클러스터링 기법(K-means, Expectation - maximization algorithm)에, 새롭게 제안하는 ECA(Enhanced Clustering method for Acceleration data)기법을 추가하여, 주행 차량에 위치한 스마트폰으로부터 수집된 가속도 데이터를 분석하고 공격적인 운전 형태를 검출해 낸다. ECA는 모든 피험자의 데이터에서 K-means와 EM을 통해 검출된 군집군의 데이터 중 높은 강도의 데이터를 선별하여, 특징을 스케일링한 값을 통해 모델링한다. 본 방식을 통해 기존의 연구의 순수한 클러스터링 방식과는 달리, 모든 청장년 및 노인 실험 참가자 개인들의 공격적인 운전 데이터가 검출되었으며, 클러스터링 기법간의 비교를 통해 K-means 기법이 보다 높은 검출 효율을 갖고 있음을 확인했다. 또한, K-means 방식을 검출한 공격적인 운전 데이터에서는 젊은 운전자가 노인운전자에 비해 1.29배의 높은 운전 강도를 가지고 있음을 발견했다. 이와 같이 본 연구에서 제안된 방식은 낮은 운전 강도를 갖고 있는 노인의 데이터에서 공격적인 운전을 검출 가능하게 되었으며, 특히. 제안된 방법은 노인 운전자를 위한 맞춤형 안전운전 시스템을 구축이 가능하며, 추후 다양한 연구을 통해 이상 운전 상태를 검출하고 조기 경보하는데 활용이 가능할 것이다.

단어 임베딩(Word Embedding) 기법을 적용한 키워드 중심의 사회적 이슈 도출 연구: 장애인 관련 뉴스 기사를 중심으로 (A Study on the Deduction of Social Issues Applying Word Embedding: With an Empasis on News Articles related to the Disables)

  • 최가람;최성필
    • 정보관리학회지
    • /
    • 제35권1호
    • /
    • pp.231-250
    • /
    • 2018
  • 본 논문에서는 온라인 뉴스 기사에서 자동으로 추출된 키워드 집합을 활용하여 특정 시점에서의 세부 주제별 토픽을 추출하고 정형화하는 새로운 방법론을 제시한다. 이를 위해서, 우선 다량의 텍스트 집합에 존재하는 개별 단어들의 중요도를 측정할 수 있는 복수의 통계적 가중치 모델들에 대한 비교 실험을 통해 TF-IDF 모델을 선정하였고 이를 활용하여 주요 키워드 집합을 추출하였다. 또한 추출된 키워드들 간의 의미적 연관성을 효과적으로 계산하기 위해서 별도로 수집된 약 1,000,000건 규모의 뉴스 기사를 활용하여 단어 임베딩 벡터 집합을 구성하였다. 추출된 개별 키워드들은 임베딩 벡터 형태로 수치화되고 K-평균 알고리즘을 통해 클러스터링 된다. 최종적으로 도출된 각각의 키워드 군집에 대한 정성적인 심층 분석 결과, 대부분의 군집들이 레이블을 쉽게 부여할 수 있을 정도로 충분한 의미적 집중성을 가진 토픽들로 평가되었다.

기대최대화 기반 사용자 클러스터링을 통한 D2D 광고 확산 (D2D Based Advertisement Dissemination Using Expectation Maximization Clustering)

  • 김준선;이호원
    • 한국통신학회논문지
    • /
    • 제42권5호
    • /
    • pp.992-998
    • /
    • 2017
  • 지역 기반 D2D 광고를 위하여 소스 단말은 인근에 분포되어 있는 불특정 다수의 사용자들에게 광고를 전송한다. 유효 범위 내에 사용자들이 무작위로 균일하게 분포되어 있는 경우, 광고 확산을 위하여 적절하게 목표지역을 설정하는 것은 매우 어려운 문제 중 하나이다. 본 논문에서는 기대최대화 기반 사용자 클러스터링을 이용한 D2D 광고 확산 알고리즘을 제안한다. 각 클러스터로 분류된 사용자들의 분포는 주성분을 통해 예측할 수 있다. 즉, 각 클러스터의 주성분을 이용하여 광고 확산을 위한 목표지역 및 확산 경로를 설정할 경우 예측한 사용자 분포를 따라 광고가 확산되는 효과를 기대할 수 있다. 시뮬레이션을 통해 전체 사용자 수 대비 광고를 수신한 사용자 수의 비율을 의미하는 포함확률과 사용자 당 평균 광고 수신 수에 대해 비교 분석한다.

클러스터링 기반의 최적 차량 운행 계획 수립을 위한 비교연구 (Comparative Analysis for Clustering Based Optimal Vehicle Routes Planning)

  • 김재원;신광섭
    • 한국빅데이터학회지
    • /
    • 제5권1호
    • /
    • pp.155-180
    • /
    • 2020
  • 화물의 수배송을 위한 차량의 배차 및 최적 경로 설계는 물류 서비스의 효율성 향상을 위한 가장 핵심적인 역할을 담당한다. 이 문제는 차량의 대수, 차량별 적재 용량, 차량의 총 이동거리와 같이 다양한 비용 요소를 동시에 고려해야 하기 때문이다. 최근 비용 최소화 및 운영 효율성 향상을 위해 TMS를 도입하는 사례가 증가하고 있으나, 현장에서 필요한 모든 요소를 고려하지 못한다는 한계가 존재한다. 이를 해결하기 위해 현장 전문가가 TMS의 결과를 경험과 직관에 기반하여 수정하는 과정이 필요하다. 본 연구에서는 지금까지 총 비용의 최소화에 집중하고 있는 기존 연구들과 달리 서비스에 투입되는 자원 활용의 효율성과 형평성을 동시에 높일 수 있는 방법을 제안한다. 이를 위해 Cluster-First Route-Second (CFRS)기법을 활용한다. 고객의 위치를 기준으로 네 가지 클러스터링 알고리즘(K-Means, K-Medoids, DBSCAN, Model-based)과 Fisher & Jaikumar 알고리즘을 적용하여 고객들을 군집화하였다. 이 후, 군집별 최적의 차량 경로 계획을 수립하였다. 수치 실험을 통해 본 연구에서 제안하는 CFRS 기법을 적용한 방안이 상대적으로 차량의 전체 이동거리와 평균 이동거리 및 이동시간이 더 절감될 수 있다는 사실을 확인하였다. 또한, 차량별 방문하는 고객의 수에 대한 편차가 더 낮다는 사실로부터 기본적인 차량 경로 배정 유형에 비해 본 연구에서 제안하는 방안이 상대적으로 형평성 있게 업무가 할당되었음을 확인할 수 있었다.

독립 요소 분석 기반의 KOMPSAT EOC영상 무감독 분류 (Unsupervised Classification of KOMPSAT EOC Imagery Based on Independent Component Analysis)

  • 변승건;이호영;이쾌희
    • 한국GIS학회:학술대회논문집
    • /
    • 한국GIS학회 2003년도 공동 춘계학술대회 논문집
    • /
    • pp.581-587
    • /
    • 2003
  • 독립 요소 분석 (Independent Component Analysis: ICA)는 텍스처를 의미 있는 특징으로 변환하는 강인한 영상 필터를 생성하기 위한 확률적 방법이다. ICA는 고차통계적 특성을 사용하여 ICA 필터와 독립 요소를 동시에 학습한다. 제안한 분류 방법은 fast ICA 알고리즘을 사용하여 KOMPSAT 영상으로부터 ICA 필터를 생성한 다음, 필터에 의해 투영된 텍스처들의 특징들을 독립 평면상에서 무감독 방법으로 분류한다. KOMPSAT 영상은 텍스처 성분이 뚜렷하지 않는 영역이 존재하기 때문에 본 논문에서는 투영된 특징 값들과 윈도우 내의 정규화된 평균 화소값으로 특징 벡터를 재구성하였다. 분류 방법으로는 K-means 클러스터링을 적용하였다. 6.6m 해상도를 가진 KOMPSAT 흑백 영상에 대해 제안한 방법은 우수한 분류 성능을 보인다.

  • PDF

시각적 특징을 기반한 샷 클러스터링을 통한 비디오 씬 탐지 기법 (Video Scene Detection using Shot Clustering based on Visual Features)

  • 신동욱;김태환;최중민
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.47-60
    • /
    • 2012
  • 비디오 데이터는 구조화되지 않은 복합 데이터의 형태를 지닌다. 이러한 비디오 데이터의 효율적인 관리 및 검색을 위한 비디오 데이터 구조화의 중요성이 대두되면서 콘텐츠 내 시각적 특징을 기반으로 비디오 씬(scene)을 탐지하고자 하는 연구가 활발히 진행되었다. 기존의 연구들은 주로 색상 정보만을 이용하여 샷(shot) 간의 유사도 평가를 기반한 클러스터링(clustering)을 통해 비디오 씬을 탐지하고자 하였다. 하지만 비디오 데이터의 색상 정보는 노이즈(noise)를 포함하고, 특정 사물의 개입 등으로 인해 급격하게 변화하기 때문에 색상만을 특징으로 고려할 경우, 비디오 샷 혹은 씬에 대한 올바른 식별과 디졸브(dissolve), 페이드(fade), 와이프(wipe)와 같은 화면의 점진적인 전환(gradual transitions) 탐지는 어렵다. 이러한 문제점을 해결하기 위해, 본 논문에서는 프레임(frame)의 컬러 히스토그램과 코너 에지, 그리고 객체 컬러 히스토그램에 해당하는 시각적 특징을 기반으로 동일한 이벤트를 구성하는 의미적으로 유사한 샷의 클러스터링을 통해 비디오 씬을 탐지하는 방법(Scene Detector by using Color histogram, corner Edge and Object color histogram, SDCEO)을 제안한다. SDCEO는 샷 바운더리 식별을 위해 컬러 히스토그램 분석 단계에서 각 프레임의 컬러 히스토그램 정보를 이용하여 1차적으로 연관성 있는 연속된 프레임을 샷 바운더리로 병합한 후, 코너 에지 분석 단계에서 병합된 샷 내 처음과 마지막 프레임의 코너 에지 특징 비교를 통하여 샷 바운더리를 정제하여 최종 샷을 식별한다. 키프레임 추출 단계에서는 샷 내 프레임간 유사도 비교를 통해 모든 프레임과 가장 유사한 프레임을 각 샷을 대표하는 키프레임으로 추출한다. 그 후, 비디오 씬 탐지를 위해, 컬러 히스토그램과 객체 컬러 히스토 그램에 해당하는 프레임의 시각적 특징을 기반으로 상향식 계층 클러스터링 방법을 이용하여 의미적인 연관성을 지니는 샷의 군집화를 통해 비디오 씬을 탐지하는 방법이다. 본 논문에서는 SDCEO의 프로토 타입을 구축하고 3개의 비디오 데이터를 이용한 실험을 통하여 SDCEO의 효율성을 평가하였고 샷 바운더리 식별의 성능의 정확도는 평균 93.3%, 비디오 씬 탐지 성능의 정확도는 평균 83.3%로 만족할만한 성능을 보였다.

사물인터넷의 에너지 효율을 위한 클러스터 속성 기반 데이터 교환 (Cluster Property based Data Transfer for Efficient Energy Consumption in IoT)

  • 이충산;전수빈;정인범
    • 정보과학회 논문지
    • /
    • 제44권9호
    • /
    • pp.966-975
    • /
    • 2017
  • 사물인터넷 환경에서는 센서 노드가 사물로 의미가 확장되고 각 사물들은 자신만의 의사결정을 통해 사물간 정보 수집 및 공유가 가능하다. 따라서 노드의 데이터를 싱크노드 또는 중앙 서버로 전송하는 것을 목적으로 하는 WSN 정보 수집 방법을 사물인터넷 환경에 그대로 적용하는 것은 비효율적이다. 또한 기존 WSN 방법은 주변 사물들의 정보를 수집하는 과정에서 모든 사물이 정보 수집에 참여하는 방식으로 구성되어 있기 때문에 전송횟수 증가 등의 다양한 문제가 발생한다. 본 논문에서는 각 사물들 간의 에너지 효율적인 정보 공유를 위한 클러스터링 및 속성 기반 데이터 교환 방법을 제안한다. 제안하는 방법은 우선 각 사물이 생산할 수 있는 데이터의 속성을 부여하여 클러스터를 구성한다. 데이터 교환시에는 부여된 속성을 이용해 데이터를 생산할 수 있는 사물들과 통신하여 에너지 효율성을 향상시킨다. 성능평가를 위해 TOSSIM을 이용하여 네트워크 수명, 평균 에너지 소비량 등을 측정하였다.