• 제목/요약/키워드: 결정군집

검색결과 505건 처리시간 0.029초

스키마간 연관성을 이용한 테이블 군집화 기법 (Table Clustering Using Inter-schema Association)

  • 조순이;이도헌
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.85-87
    • /
    • 2001
  • 업무 데이터 분석을 통한 종합적인 의사결정을 지원할 수 있도록 데이터웨어하우스, OLAP, 데이터마이닝을 적용하려는 기업의 요구가 많아졌다. 그래서 기초 데이터의 이해, 선별, 수집, 가공, 정제가 매우 중요한 과정이나 테이블명 및 속성명이 표준화되어있지 않고 코드나 시스템 카탈로그와 같은 기본 데이터는 부정확하고 부족하다. 본 논문에서는 거의 스키마 정보에만 의존하여 테이블의 의미적 연관성에 근거한 유사한 특성을 가진 집단끼리 분류하는 대략적인 군집분석 방법을 제안한다. 질의 수행시 사용자가 설정한 임계 거리에 ㄸ라 관련된 군집만 검색함으로써 신속한 응답시간을 보장하고, 분석시점에서 다양한 질의에 유연하게 대처할 수 있다는 장점이 있다. 또한 실제 데이터에 본 연구를 적용하여 산출한 군집결과와 사람이 매뉴얼하게 그룹핑한 군집결과와 비교한다.

  • PDF

군집행태가 정보기술도입에 미치는 영향

  • 박상혁;강태경;장철웅
    • 한국정보시스템학회:학술대회논문집
    • /
    • 한국정보시스템학회 2005년도 추계학술대회 발표 논문집
    • /
    • pp.435-440
    • /
    • 2005
  • 정보기술 도입과 관련된 주류 이론은 혁신확산이론과 기술수용모델이다. 특히 기술수용모델은 도입의사결정자가 합리적 사고를 한다는 전제가 이론 기저에 깔려 있다. 하지만, 실제 현실세계에서는 유행과 집단의식 등에 의해 정보기술을 도입하는 경우가 많다. ERP가 유행이면, 무조건 쫓아서 ERP를 도입하고, KM이 유행이면 또한 쫓아서 KM을 도입하는 현상이 보편적으로 일어나고 있다. 이러한 행태를 군집 행태라 한다. 군집행태는 정보에 대한 비대칭성이 커서 사람들이 느끼는 정보의 불확실성이 큰 경우에 사람들이 보이는 행태 중의 하나이다. 어느 한 사람이 특정한 행동을 하면 다른 사람들도 그를 따라 집단적으로 동일한 행동을 하는 것을 말한다. 그 사람이 왜 그러한 행동을 하는지를 알고 따라하는 것이 아니다. 그가 자신이 모르는 무엇인가를 알고 있다고 믿고 우선 따라 하는 것이 상책이라고 생각하는 것이다. 본 연구에서는 정보기술의 도입과 관련된 군집행태에 영향을 주는 요인을 찾아내고자 한다.

  • PDF

연속형 자료에 대한 나무형 군집화 (Tree-structured Clustering for Continuous Data)

  • 허명회;양경숙
    • 응용통계연구
    • /
    • 제18권3호
    • /
    • pp.661-671
    • /
    • 2005
  • 본 연구는 반복분할(recursive partitioning)에 의한 군집화 방법을 개발하고 활용 예를 보인다. 노드 분리 기준으로는 Overall R-Square를 채택하였고 실용적인 노드 분리 결정 방법을 제안하였다. 이 방법은 연속형 자료에 대하여 나무 형태의 해석하기 쉬운 단순한 규칙을 제공하면서 동시에 변수선택기능을 제공한다. 환용 예로서 Fisher의 붓꽃데이터와 Telecom 사례에 적용해 보았다. K-평균 군집화와 다른 몇 가지 사항이 관측되었다.

효율적 군집화를 위한 탐색 방법 연구 (A Study of Search Methodology for Efficient Clustering)

  • 전진호
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2010년도 추계학술대회
    • /
    • pp.571-573
    • /
    • 2010
  • 경제, 경영, 의료 및 공학 등 실세계의 많은 시스템들은 복잡한 현상을 갖는다. 이러한 특징의 시스템들을 이해하는 방법은 시스템에 대한 모델을 세우고 분석하는 것이다. 모델을 세우고 분석하는 과정은 두 단계로 이루어진다. 첫째, 데이터에 대하여 효율적 군집을 결정하는 과정, 둘째, 각 군집에 대한 적합한 모델을 생성하는 과정이다. 본 연구에서는 효율적 군집화를 위한 탐색 방법에 대하여 살펴본다.

  • PDF

시간단위 전력사용량 시계열 패턴의 군집 및 분류분석 (Clustering and classification to characterize daily electricity demand)

  • 박다인;윤상후
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권2호
    • /
    • pp.395-406
    • /
    • 2017
  • 전력 공급 시스템의 효율적인 운영을 위해 전력수요예측은 필수적이다. 본 연구에서는 군집분석과 분류분석을 이용하여 일 단위 시간별 전력수요량 시계열 패턴의 유형을 살펴보고자 한다. 전력거래소에서 수집된 2008년 1월 1일부터 2012년 12월 31일까지의 일 단위 시간별 전력수요량 데이터를 추세성분, 계절성분, 오차 성분으로 구성된 시계열 자료로 변환하여 사용하였다. 추세성분을 제거한 시계열 자료의 패턴을 구분하기 위한 군집 분석방법은 k-평균 군집분석 (k-means), 가우시안혼합모델 혼합 모델 군집분석 (Gaussian mixture model), 함수적 군집분석 (functional clustering)을 고려하였다. 주성분분석을 통해 24시간 자료를 2개의 요인로 축소한 후 k-평균 군집분석과 가우시안 혼합 모델, 함수적 군집분석을 수행하였다. 군집분석 결과를 토대로 2008년부터 2011년까지 총 4년간 데이터를 4가지 분류분석방법인 의사결정나무, RF (random forest), Naive bayes, SVM (support vector machine)을 통해 훈련시켜 2012년 군집을 예측하였다. 분석 결과 가우시안 혼합 분포기반 군집분석과 RF를 이용한 군집예측 결과의 성능이 가장 우수하였다.

음소 결정트리의 노드 분할을 위한 임계치 자동 결정 알고리즘 (The Automated Threshold Decision Algorithm for Node Split of Phonetic Decision Tree)

  • 김범승;김순협
    • 한국음향학회지
    • /
    • 제31권3호
    • /
    • pp.170-178
    • /
    • 2012
  • 본 논문에서는 코레일에서 운영중인 640개 기차역명의 음소기반의 음성인식을 위하여 트라이폰 단위의 음소 결정트리 구축 시 노드 분할 과정에서 사용되는 임계치의 결정에 있어 통계적 기법인 상관관계 분석과 회귀분석을 활용하여 군집화율을 추정하고 이를 이용한 평균 군집화율에 따른 임계치의 값에 의해 자동으로 결정하는 방법을 제안하였다. 제안된 방법의 유효성 검증을 위한 실험에서 기존의 일괄 적용된 Baseline 보다 1.4~2.3 %의 인식률 향상을 보였다.

Generalized Lasso를 이용한 공간 군집 기법 (Spatial Clustering Method Via Generalized Lasso)

  • 송은정;최호식;황승식;이우주
    • 응용통계연구
    • /
    • 제27권4호
    • /
    • pp.561-575
    • /
    • 2014
  • 본 논문에서는 질병과 연관성을 갖는 국소 공간 군집을 검출할 수 있는 벌칙 가능도 방법을 제안한다. 핵심적인 계산 알고리즘은 Tibshirani와 Taylor (2011)에 의해 제안된 일반화된 라소(generalized lasso)에 기반한다. 제안된 방법은 현재 널리 사용되고 있는 국소 공간 군집 방법인 Kulldorff의 기법에 비해 두가지 주요 장점을 가지고 있다. 첫째로, 제안된 방법은 사전에 군집의 크기를 미리 결정해 줄 필요가 없다. 둘째로, 임의의 설명변수를 공간 군집 탐색 기법에 고려할 수 있기 때문에 인구학적인 변수를 보정하였을 때 나타나는 국소 공간 군집을 찾는 것이 가능하다. 우리는 제안된 방법을 서울시 결핵 자료를 사용하여 설명한다.

MPEG-7 오디오 특징을 이용한 감성기반 음악검색 (Emotion-Based Music Retrieval using MPEG-7 Audio Descriptors)

  • 임지혜;이준환
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.334-337
    • /
    • 2011
  • 음원의 디지털화와 다양한 디지털 기기의 보급으로 인해 사용자는 더욱 쉽게 많은 양의 음악을 접할 수 있게 되었다. 많은 양의 음원중에서 사용자 개개인의 성향에 맞는 음악을 검색하기 위해 내용기반 음악검색과 감성기반 음악검색 방법 등이 제안되고 개발되고 있다. 본 논문에서는 감성기반 음악검색방법에서 다차원 벡터 형태의 MPEG-7 저수준 오디오 서술자들의 중요도를 결정하기 위한 새로운 방법을 제안하였다. 제안된 방법은 한 쌍의 대립되는 감성을 대표하는 음악들의 유사성을 다차원 서술자의 관점에서 측정한다. 그리고 이 유사관계를 러프 근사화와 군집 내/군집 간의 유사성 비율을 이용하여 서술자의 중요성을 결정하는데 사용한다. 이 중요성을 바탕으로 결정된 가중치는 여러 개의 오디오 서술자들의 유사성을 총체화하여 감성기반 음악검색에 이용된다.

신경망의 결정론적 이완에 의한 자기공명영상 분류 (Classification of Magnetic Resonance Imagery Using Deterministic Relaxation of Neural Network)

  • 전준철;민경필;권수일
    • Investigative Magnetic Resonance Imaging
    • /
    • 제6권2호
    • /
    • pp.137-146
    • /
    • 2002
  • 목적: 본 논문에서는 신경망을 이용한 자기공명영상의 분류에 있어 결정론적 이완 방법(deterministic relaxation)과 응집 군집화(agglomerative clustering) 방법에 의한 개선된 영상 분류방법을 제시한다. 제안된 방법은 신경망을 이용한 영상의 분류시 지역적 최소치로의 수렴문제와 입력 패턴의 증대로 인하여 수렴 속가 늦어지는 문제를 해결한다. 대상 및 방법: 신경망을 이용한 영상의 분류는 지역적 계산과 병렬 계산이 가능한 특성을 갖고 있어 기존의 통계적 방법을 대신하는 방법으로 주목을 받고 있다. 그러나 일반적으로 신경망에 의한 분류알고리즘이 지닌 문제점의 하나는 에너지함수가 항상 전역적 최소치로 수렴하지 않고 지역적 최소치로도 수렴할 수 있다는 점이고, 또 다른 문제점은 반복수렴을 수행하는 에너지함수의 수렴속도가 너무 늦다는 점이다. 따라서 지역적 최소치로의 수렴을 방지하고 전역적 최소치로의 수렴속도를 가속화시키기 위하여 본 논문에서는 결정적 이완 알고리즘의 하나인 MFA(Mean Field Annealing) 방법을 적용하여 지역적 최소치로의 수렴문제를 해결하는 방법을 제시한다. MFA는 모의 애닐링의 통계적 성질을 변수의 평균값에 적용하는 결정론적인 수정 법칙들로 대신하고, 이러한 평균값을 최소화함으로서 수렴속도를 개선한 방법이다 아울러 신경망이 갖고 있는 문제점인 과다한 클래스 패턴의 생성에 따른 처리속도 지연의 문제점을 해결하기 위하여 응집 군집화 알고리즘을 이용하여 영상을 구성하는 군집을 결정하여 신경망에 입력되는 값을 초기화하여 영상패턴이 증가되는 것을 제한하였다. 결과: 본 논문에서 제시된 응집 군집화 방법 및 결정론적 이완 방법은 신경망에 의한 자기공명영상의 분류 시 발생할 수 있는 지역적 최적 치로의 수렴 문제를 해결하여 전역적 최적화로 신속히 수렴함을 알 수 있었다. 결론: 본 논문에서는 클러스터의 분석과 결정론적 이완 방법에 의하여 신경망에 의한 자기공명영상의 분류결과를 향상시키기 위한 새로운 방법을 소개하였으며 실험결과를 통하여 그러한 사실을 확인할 수 있었다.

  • PDF

닮은패턴을 이용한 중첩영상 소거 동영상 화면복원법 (Establishment Moving Picture & Recover of Image Eliminated Overlap Pixel using Picture Resemblance pattern)

  • 진현수
    • 한국인터넷방송통신학회논문지
    • /
    • 제12권3호
    • /
    • pp.29-35
    • /
    • 2012
  • 본 논문에서는 MPEG(Moving Picture Experts Group) 영상 디코더에서 영상을 압축, 비교, 복원, 저장한후 디코딩 처리하는 방법을 종래의 픽셀 단위로 처리하는 방법과는 다르게 영상의 단위 화소 주변을 군집화소로 분류한 후 이를 클러스터링하여 오버랩정도를 결정 한다. 오버랩 정도의 임계치값을 결정하는데는 패턴식별을 취한후 샘플 패턴에 대한 기하구조의 파악과 결정함수의 도출로 활용된다. 특징공간이 4차원 이상이면 주어진 패턴 구조를 시각적으로 관찰할 수 없다. 이 때, 분포구조를 고찰해 볼수 있는 방법은 군집중심간의 거리, 군집별 패턴의 수 및 표준편차 등을 이용하는 방법이다. 임계치 값을 넘는 중복화면은 소거되고 넘지않는 군집화면은 패턴인식으로 복원된후 동영상으로 구현된다. 이방법이 기존의 픽셀 단위 처리하는 방법 과는 20%정도의 메모리 감축과 15%정도의 화면 복원에 성능이 향상된 것으로 판정된다.