• 제목/요약/키워드: 결과 내 군집화

검색결과 153건 처리시간 0.033초

시각적 군집분석에 대한 전략 (Strategy for Visual Clustering)

  • 허문열
    • 응용통계연구
    • /
    • 제14권1호
    • /
    • pp.177-190
    • /
    • 2001
  • 전통적으로 많이 사용하는 군집분석의 방법들은 개체간의 거리를 고려하여 이들을 분류해 내는 것이며, 따라서 거리 측정 방법에 따라 여러 형태의 군집분석 방법이 나타나게 된다. 어떤 방법을 적용하던 간에 그 결과는 고정된 수치로써 나타난다. 다차원 자료의 구조파악이 몇 개의 수치로 나타나게 되면 어쩔 수 없이 정보의 손실이 발생하게 된다. 이를 보완하기 위해 시각적 매체를 동원하여 다차원 자료의 구조를 파악하는 연구가 있었으며, 이를 시각적 군집분석이라고 명명하고 있다. 본 연구에서는 시각적 군집분석에 대한 기본적 개념과 이를 위한 통계 도형의 활용, 구현방법 등에 대해 살펴보기로 한다.

  • PDF

시계열 데이터에 대한 클러스터링 성능 분석: Wavelet과 Autoencoder 비교 (Clustering Performance Analysis for Time Series Data: Wavelet vs. Autoencoder)

  • 황우성;임효상
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.585-588
    • /
    • 2018
  • 시계열 데이터의 특징을 추출하여 분석하는 과정에서 시게열 데이터가 가지는 고차원성은 차원의 저주(Course of Dimensionality)로 인해 데이터내의 유효한 정보를 찾는데 어려움을 만든다. 이러한 문제를 해결하기 위해 차원 축소 기법(dimensionality reduction)이 널리 사용되고 있지만, 축소 과정에서 발생하는 정보의 희석으로 인하여 시계열 데이터에 대한 군집화(clustering)등을 수행하는데 있어서 성능의 변화를 가져온다. 본 논문은 이러한 현상을 관찰하기 위해 이산 웨이블릿 변환(Discrete Wavelet Transform:DWT)과 오토 인코더(AutoEncoder)를 차원 축소 기법으로 활용하여 시계열 데이터의 차원을 압축 한 뒤, 압축된 데이터를 K-평균(K-means) 알고리즘에 적용하여 군집화의 효율성을 비교하였다. 성능 비교 결과, DWT는 압축된 차원수 그리고 오토인코더는 시계열 데이터에 대한 충분한 학습이 각각 보장된다면 좋은 군집화 성능을 보이는 것을 확인하였다.

붓스트랩 기법과 유전자 알고리즘을 이용한 최적 군집 수 결정 (Determination of Optimal Cluster Size Using Bootstrap and Genetic Algorithm)

  • 박민재;전성해;오경환
    • 한국지능시스템학회논문지
    • /
    • 제13권1호
    • /
    • pp.12-17
    • /
    • 2003
  • 데이터의 군집화를 수행할 때 최적 군집수 결정은 군집 결과의 성능에 많은 영향을 미친다. 특히 K-means 방법에서는 초기 군집수 K에 따라 군집결과의 성능 차이가 많이 나타난다. 하지만 대다수의 군집분석에서 초기 군집수의 결정은 경험을 바탕으로 하여 주관적으로 결정된다. 이때 개체수와 속성수가 증가하면 이러한 결정은 더욱 어려워지며 이때 결정된 군집수가 최적이 된다는 보장도 없다. 본 논문에서는 군집의 수를 자동으로 결정하고 그 결과의 유효성을 보장하기 위해 유전자 알고리즘에 기반한 최적 군집수 결정 방안을 제안한다. 데이터의 속성에 근거한 초기 해 집단이 생성되고, 해 집단 내에서 최적화된 군집수를 찾기 위해 교차 연산이 이루어진다. 적합도 값은 전체 군집화의 비 유사성의 합의 역으로 결정되어 전체적인 군집화 성능이 향상되는 방향으로 수렴된다. 또한 지역 국소값을 해결하기 위해 돌연변이 연산이 사용된다. 그리고 유전자 알고리즘의 학습 시간의 비용을 줄이기 위해 붓스트랩 기법이 적용된다

계층적 군집화를 이용한 근사 단어 필터링 기법 (Proximate Word Filtering by Hierarchical Clustering)

  • 김성환;조환규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.1101-1104
    • /
    • 2012
  • 단어 필터링은 유해정보를 차단위한 기본적인 기능이다. 그러나 악의적인 사용자는 필터링 시스템을 우회하기 위하여 금지 단어에 의도적인 변형을 가한다. 이에 대응하기 위해 일정 오류를 허용하여 필터링을 수행하는 근사 단어 필터링이 있다. 근사 단어를 검색하기 위한 문자열 색인 방법으로는 주로 기준 단어(Pivot)을 이용한 유클리드 공간에의 사상을 이용하는데, 이는 단어 필터링에 응용하기에는 근본적인 구조상의 한계점이 있다. 본 논문에서는 필터링 대상이 되는 단어 집합 내에서 군집화를 수행하여 계층적인 자료구조를 구성하고, 단어 필터링을 위한 필터링 질의(Filtering query)를 정의한 뒤 그에 적합한 탐색 상의 적용에 관하여 설명한다. 실험 결과 기존의 기준 단어(Pivot)을 이용한 색인 기법에 비하여 16.9%~26.6%의 탐색 속도 향상을 확인할 수 있었다.

군집화 기반 정상상태 식별을 활용한 시스템 에어컨의 냉매 충전량 분류 모델 개발 (Development of Classification Model on SAC Refrigerant Charge Level Using Clustering-based Steady-state Identification)

  • 김재희;노유정;정종환;최봉수;장석훈
    • 한국전산구조공학회논문집
    • /
    • 제35권6호
    • /
    • pp.357-365
    • /
    • 2022
  • 냉매 오충전은 에어컨에서 빈번하게 발생하는 고장 모드 중 하나로, 적정 충전량 대비 부족 및 과충전 모두 냉방 성능의 저하를 유발하므로 충전된 냉매량을 정확하게 판단하는 것이 중요하다. 본 연구에서는 퍼지 군집화 기법을 통한 정상상태 식별을 통해 냉매 오충전량을 다중 분류하는 모델을 개발하였다. 정상상태 식별을 위해 에어컨 운전 데이터에 대해 이동 평균 간의 차이를 활용한 퍼지 군집화 알고리즘을 적용하였으며, IFDR를 통해 기존 연구된 정상상태 판단 기법들과 식별 결과를 비교하였다. 이후, 시스템 내 상관성을 고려한 mRMR을 이용해 특징을 선택하였으며, 도출된 특징을 이용해 SVM 기반의 다중 분류 모델이 생성되었다. 제안된 방법은 시험 데이터를 통해 만족할 만한 분류 정확도와 강건성을 도출하였다.

인공 문법을 사용한 암묵 학습: EPAM IV를 사용한 모사 (Implicit Learning with Artificial Grammar : Simulations using EPAM IV)

  • 정혜선
    • 인지과학
    • /
    • 제14권1호
    • /
    • pp.1-9
    • /
    • 2003
  • 본 연구에서는 EPAM(Elementary Perceiver and Memorizer) Ⅳ를 사용하여 인공 문법이 사용된 암묵적 학습에서의 인간 수행을 모사하였다. 암묵 학습(implicit learning) 과제에서 참가자들은 인공 문법(rtificial grammar)을 사용해 만들어진 '문법적' 문자열과 무선적으로 만들어진 '비문법적' 문자열을 학습하였는데, 이 때 비문법적 문자열보다 문법적 문자열의 학습이 더 우수하였다. 또한 참가자들은 이전에 본 적이 없었던 새로운 문자열에 대해서도 그 문법성을 판단할 수 있었다. 단순 기억 시스템인 EPAM Ⅳ에 항목 내 군집화(within-item chunking) 기능을 추가하여 암묵 학습 과제에서의 인간수행을 모사한 결과, EPAM Ⅳ 또한 무선적인 문자열보다 문법적인 문자열을 보다 잘 학습하였고, 비문법적 문자열과 문법적 문자열을 구별할 수 있었다. 이러한 결과는 인공 문법을 사용한 암묵 학습 과제에서의 수행이 규칙 추상화보다는 군집화(chunking)에 근거한 재인 기억을 바탕으로 이루어짐을 시사한다.

  • PDF

대표 Unigram 군집화를 통한 유사중복문서 검출 최적화 (The Optimization of Near Duplicate Detection Using Representative Unigram Grouping)

  • 권영현;윤도현;안영민
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.291-293
    • /
    • 2012
  • SNS, 블로그의 이용이 늘어나면서, 문서의 복제와 재생산이 빈번하게 발생함에 따라 대용량 문서에서의 유사중복문서 검출이 큰 이슈로 제기되고 있다. 본 논문에서는 한국어 문서를 대상으로 이러한 문제를 해결하기 위해 품질을 유지하면서 신속하게 문서집합 중 유사중복문서를 검출하는 방법에 대해 제안한다. 제안하는 알고리즘에서는 문서를 대표하는 고빈도 Unigram Token을 활용하여 문서를 군집화함으로써 비교 대상을 최소화 하였다. 실험결과, 76만 문서에서 기존 방법 대비 평균 0.88의 Recall을 유지하면서도 중복을 검출하는데 있어서 십수초내에 처리가 가능함을 보였다. 향후 대용량 검색시스템 및 대용량 이미지, 동영상 유사중복 검출에도 활용할 수 있을 것으로 기대한다.

명암도 응집성 강화 및 분류를 통한 3차원 뇌 영상 구조적 분할 (Structural Segmentation for 3-D Brain Image by Intensity Coherence Enhancement and Classification)

  • 김민정;이정민;김명희
    • 정보처리학회논문지A
    • /
    • 제13A권5호
    • /
    • pp.465-472
    • /
    • 2006
  • 최근 대용량 의료영상 데이터로부터 인체 기관 또는 질환 부위 추출을 위한 영상 분할 기법이 매우 다양하게 제안되고 있으나, 뇌와 같이 다중 구조를 가지면서 구조간 경계 구분이 어려운 영상의 구조적 분할에는 한계를 가진다. 이를 위해 주로 복셀을 유한 개의 군집으로 분류하는 군집화 (clustering) 기법이 이용되나 이는 개별 복셀 단위의 연산을 수행함으로 인해 잡음의 영향을 받는 제한점이 있다. 그러므로 잡음의 영상을 최소화하고 영상 경계를 강화시키는 향상기법을 적용함으로써 보다 견고한 구조적 분할을 수행할 수 있다. 본 연구에스는 뇌 자기공명영상에 대하여 백질(white matter), 회백질(gray matter), 뇌척수액(cerebrospinal fluid)의 내부 구조를 효율적으로 추출하기 위한 필터링 기반 군집화에 의한 구조적 분할 기법을 제안한다. 우선 구조간 경계를 강화하고 구조 내 잡음을 약화시키기 위해 응집성 향상 확산 필터링(coherence enhancing diffusiion filtering)을 적용한다. 또한 이 과정을 통해 강화된 영상에 퍼지 c-means 군집화 기법을 적용하여 각 복셀이 속하는 구조에 해당하는 군집의 인덱스를 할당함으로써 구조적 분할을 수행한다. 제안된 구조적 분할기법은 기존의 가우시안 또는 일반적인 비등방성 확산 필터링과 군집화 기법을 적용한 기법에 비해 전문가의 수동분할 결과와의 일치 비율에 의한 분할 정확도를 향상시킴을 보였다. 또한 경계 부분에 있어서의 세밀한 분할을 통해 재생산 가긍하고 사용자 수동후 처리를 최소화할 수 있는 결과를 제시함으로써 형태적 뇌 이상 진단을 위한 효율적인 보조 수단을 제공한다.

사전 뜻풀이를 이용한 용언 의미 군집화 (Semantic Clustering of Predicates using Word Definition in Dictionary)

  • 배영준;최호섭;송유화;옥철영
    • 인지과학
    • /
    • 제22권3호
    • /
    • pp.271-298
    • /
    • 2011
  • 한국어의 어휘 의미 정보를 명확히 파악하기 위해서는 어휘 의미 체계를 구축해야 한다. 본 논문에서는 어휘 의미 체계 구축의 단계 중 하나인 용언의 의미 군집화를 연구하였다. 용언의 하위범주화 논항(주어 및 목적어)과 선택 제약정보, 부사의 결합정보를 이용한 이전의 연구와는 달리 의미태그가 부착된 사전 뜻풀이의 용언정보를 이용하여 용언의 의미 군집화를 시도하였고, 표제어와 뜻풀이 용언 사이 관계의 종개념과 유개념 관계를 이용하여 계층적 의미 군집화를 시도하였다. 그리고 특정 범주의 일반 샘플을 이용했던 특정 용언의 부류가 아닌, 사전에 존재하는 대부분의 용언들을 대상으로 연구를 진행하였다. 본 논문에서 다의어 수준에서 구분된 총 106,501개의 용언(85,754개의 동사와 20,747개의 형용사)을 대상으로 한국어 용언 의미계층 군집 2,748개를 생성하였다. 이 중 순환정의 군집은 130개가 나타났으며, 중간 계층의 서브군집으로 261개가 나타났다. 군집 내 계층의 최대 깊이는 16단계였다. 그리고 용언 의미 군집 평가를 위해 세종사태의미부류와 비교해 보았다. 그 결과 70.14%의 응집도를 보였다.

  • PDF

k-Modes 분할 알고리즘에 의한 군집의 상관정보 기반 빅데이터 분석 (A Big Data Analysis by Between-Cluster Information using k-Modes Clustering Algorithm)

  • 박인규
    • 디지털융복합연구
    • /
    • 제13권11호
    • /
    • pp.157-164
    • /
    • 2015
  • 본 논문은 융복합을 위한 범주형 데이터의 부공간에 의한 군집화에 대해서 다룬다. 범주형 데이터는 수치형 데이터에만 국한되지 않기 때문에 기존의 범주형 데이터들의 평가척도들은 순서화(ordering)의 부재와 데이터의 고차원성과 희소성으로 인하여 한계를 가지기 마련이다. 따라서 각각의 군집에 존재하는 범주형 속성들의 상호 유사도을 보다 근접하게 측정할 수 있는 조건부 엔트로피 척도를 제안한다. 또한 군집의 최적화를 위하여 군집내의 발산을 최소화하고, 군집간의 독립성을 향상시킬 수 있는 새로운 목적함수를 제안한다. 제안된 알고리즘의 성능을 4개의 알고리즘과 비교검증하기 위하여 5가지의 데이터에 대하여 실험을 수행하였다. 비교검증을 위한 평가척도는 정확도, f-척도와 적응된 Rand 색인이다. 실험을 통하여 제안된 방법이 평가척도에 의한 결과에서 기존의 방법들보다 좋은 성능을 보였다.