• Title/Summary/Keyword: Correlation-based clustering algorithm

검색결과 53건 처리시간 0.027초

투사에 기초한 얼굴 인식 알고리즘들의 통계적 분석 (Statistical Analysis of Projection-Based Face Recognition Algorithms)

  • 문현준;백순화;전병민
    • 한국통신학회논문지
    • /
    • 제25권5A호
    • /
    • pp.717-725
    • /
    • 2000
  • 최근 수년간 얼굴인식에 관한 많은 알고리즘이 개발되었고 그 대다수가 view와 투사에 기초한 알고리즘이었다. 본 논문에서의 투사는 비단 직교 기저상에 영상을 투사하는 것으로 국한하지 않고 영상 화소값을 변환하는 일반적인 선형 변환으로써 상관관계, 주성분 분석, 클러스트링, gray scale 투사, 그리고 추적 필터매칭을 포함한다. 본 연구에서는 FERET 데이터베이스 상의 얼굴 영상을 평가한 알고리즘들을 세부적으로 분석하고자 한다. 투사에 기초한 알고리즘은 3단계로 구성된다. 첫 번째 단계는 off-line상에서 행하며 알고리즘 설계자에 의해 새로운 기저가 설정되거나 또는 학습을 통해 새로운 기저를 결정한다. 두 번째 단계는 on-line상에서 행해지며 영상을 설정된 새로운 기저상에 투사한다. 세 번째 단계는 on-line상에서 행해지며 영상내의 얼굴은 가장 인접한 이웃 분류자로 인식된다. 대부분의 평가 방법들은 단일 gallery 상에서의 성능 평가가 이루어짐으로써 알고리즘 성능을 충분히 측정하지 못하는 반면 본 연구에서는 독립된 galley들의 집합을 구성함으로써 각각의 다른 galley상에서 가지는 변화와 이들의 상대적 성능을 평가한\ulcorner.

  • PDF

빅 데이터의 자율 속성 감축을 위한 확장된 정보 엔트로피 기반 상관척도 (Extended Information Entropy via Correlation for Autonomous Attribute Reduction of BigData)

  • 박인규
    • 한국게임학회 논문지
    • /
    • 제18권1호
    • /
    • pp.105-114
    • /
    • 2018
  • 고객 유형 분석에 쓰이는 다양한 데이터 분석 방법은 고객들을 위한 맞춤형 콘텐츠를 기획하고, 보다 편리한 서비스를 제공하기 위하여 고객들의 유형과 특성을 정확히 파악하는 것이 매우 중요하다. 본 논문에서는 정보의 손실을 줄이기 위한 일환으로 정보 엔트로피를 확장하여 속성의 불확실성을 이용한 k-modes 군집분석 알고리즘을 제안한다. 따라서 속성에 대한 유사도의 측정은 두 가지의 측면에서 고려되어진다. 하나는 각 분할의 중심에 대한 각 속성간의 불확실성을 측정하는 것이고, 다른 하나는 각 속성이 가지는 불확실성에 대한 확률적 분포에 대한 불확실성을 측정하는 것이다. 특히 속성내의 불확실성은 속성의 엔트로피를 확률적 정보로 변환하여 불확실성을 측정하기 때문에 최종적인 불확실성은 비확률적인 척도와 확률적인 척도에서 고려되어 진다. 여러 실험과 척도를 통하여 제안한 알고리즘의 정확도가 최적의 초기치를 기반으로 군집분석을 수행한 결과에 준수함을 보인다.

빈발 패턴 네트워크에서 아이템 클러스터링을 통한 연관규칙 발견 (Discovering Association Rules using Item Clustering on Frequent Pattern Network)

  • 오경진;정진국;하인애;조근식
    • 지능정보연구
    • /
    • 제14권1호
    • /
    • pp.1-17
    • /
    • 2008
  • 데이터 마이닝은 대용량의 데이터에 숨겨진 의미있고 유용한 패턴과 상관관계를 추출하여 의사결정에 활용하는 작업이다. 그 중에서도 고객 트랜잭션의 데이터베이스에서 아이템(item) 사이에 존재하는 연관규칙을 찾는 것은 중요한 일이 되었다. Apriori 알고리즘 이후 연관규칙을 찾기 위해 대용량의 데이터베이스로부터 압축된 의미있는 정보를 저장하기 위한 데이터 구조와 알고리즘들이 많이 제안되어 왔다. 연관규칙을 발견하기 위한 기존의 연구들은 모든 규칙을 찾아내지만, 사람이 분석하기에 너무 많은 규칙이 생성되기 때문에 규칙을 분석하기 위한 일 또한 많은 과정을 거쳐야 한다. 본 논문에서는 빈발 패턴 네트워크(Frequent Pattern Network)라 부르는 자료 구조를 제안하고 이를 활용하였다. 네트워크는 정점과 간선으로 구성되며 정점은 아이템을 표현하고, 간선은 두 아이템 집합을 표현한다. 아이템의 빈도수를 이용하여 빈발 패턴 네트워크를 구성하고, 아이템 사이의 유사도를 측정한다. 그리고 클러스터 내의 아이템과는 유사도가 높고, 다른 클러스터의 아이템과는 유사도가 낮도록 클러스터를 생성한다. 클러스터를 이용해 연관규칙을 생성하고 실험을 통해 Apriori와 FP Growth 알고리즘과의 성능을 비교를 하였다. 그 결과 빈발 패턴 네트워크에서 신뢰도 유사도를 이용하는 것이 클러스터의 정확성을 높여줌을 볼 수 있었다. 그리고 전통적인 방법과 비교를 통해 빈발 패턴 네트워크를 이용하는 것이 최소지지도에 유연성을 가짐을 알 수 있었다.

  • PDF

고객별 구매빈도에 동적으로 적응하는 개인화 시스템 : 음료수 구매 예측에의 적용 (The Adaptive Personalization Method According to Users Purchasing Index : Application to Beverage Purchasing Predictions)

  • 박윤주
    • 지능정보연구
    • /
    • 제17권4호
    • /
    • pp.95-108
    • /
    • 2011
  • 인터넷 비즈니스의 활성화에 따라서 기업은 고객의 인물정보 및 거래정보를 활용하여 보다 맞춤화된 개인화 서비스를 제공하고 있다. 기존의 고객군별 예측기법은 유사한 고객들을 군집화하여 고객군별로 예측모델을 수립하는 것으로, 구매가 많고 충성도가 높은 핵심고객에게 요구되는 일대일 서비스를 제공하는 데는 한계가 있다. 반면 일대일 고객별 예측기법은 각 고객에게 고도로 맞춤화된 서비스를 제공하지만, 과거 구매이력이 많지 않은 고객 이나 신규 고객에게는 정확한 개인화 서비스를 제공하지 못한다. 본 연구는 고객의 구매빈도에 따라서 유사 고객들과의 군집화 수준을 동적으로 조정하는 새로운 지능형 개인화 시스템을 제안한다. 제안된 시스템은 과거 구매가 많은 고객들에 대해서는 일대일 예측모델을 수립하지만, 구매 빈도가 낮은 고객의 경우 다른 고객들과의 최적화된 군집화를 통해 예측모델을 수립한다. 본 기법을 Neilsen의 음료수 구매 데이터셋에 적용하여 고객의 일회 구매금액 및 구매품목을 예측한 결과, 기존 두 예측기법들에 비하여 적정한 계산비용(computational cost)으로 더욱 정확한 개안화 서비스를 제공할 수 있음을 확인하였다.

계량서지적 분석에서 지적구조 매핑을 위한 링크 삭감 알고리즘의 적합도 측정 (Measuring the Goodness of Fit of Link Reduction Algorithms for Mapping Intellectual Structures in Bibliometric Analysis)

  • 이재윤
    • 정보관리학회지
    • /
    • 제39권2호
    • /
    • pp.233-254
    • /
    • 2022
  • 지적구조 분석을 위해 가중 네트워크를 시각화해야 하는 경우에 패스파인더 네트워크와 같은 링크 삭감 알고리즘이 널리 사용되고 있다. 이 연구에서는 네트워크 시각화를 위한 링크 삭감 알고리즘의 적합도를 측정하기 위한 지표로 NetRSQ를 제안하였다. NetRSQ는 개체간 연관성 데이터와 생성된 네트워크에서의 경로 길이 사이의 순위 상관도에 기반하여 네트워크의 적합도를 측정한다. NetRSQ의 타당성을 확인하기 위해서 몇 가지 네트워크 생성 방식에 대해 정성적으로 평가를 했었던 선행 연구의 데이터를 대상으로 시험적으로 NetRSQ를 측정해보았다. 그 결과 품질이 좋게 평가된 네트워크일수록 NetRSQ가 높게 측정됨을 확인하였다. 40가지 계량서지적 데이터에 대해서 4가지 링크 삭감 알고리즘을 적용한 결과에 대해서 NetRSQ로 품질을 측정하는 실험을 수행한 결과, 특정 알고리즘의 네트워크 표현 결과가 항상 좋은 품질을 보이는 것은 아니며, 반대로 항상 나쁜 품질을 보이는 것도 아님을 알 수 있었다. 따라서 이 연구에서 제안한 NetRSQ는 생성된 계량서지적 네트워크의 품질을 측정하여 최적의 기법을 선택하는 근거로 활용될 수 있을 것이다.

도서 대출데이터를 활용한 남녀 노령자의 독서 주제 분석 (Analysis of Reading Domian of Men and Women Elderly Using Book Lending Data)

  • 조재인
    • 한국도서관정보학회지
    • /
    • 제50권1호
    • /
    • pp.23-41
    • /
    • 2019
  • 본 연구는 도서의 대출정보를 활용해 가중네트워크(PFNET :PathFinder Network) 분석을 수행함으로써 특수 계층으로서 남녀 노령자에 의해 자주 읽히는 도서의 주제와 특성을 이해하고 이들의 독서 양태가 일반 성인 남녀와 어떠한 차이를 보이는지 확인하였다. 이를 위해 남녀 노령자와 일반 성인 남녀로 구성된 4개 집단을 대상으로 도서관 빅데이터의 인기 대출도서를 기반으로 동시대출도서 행렬을 산출하고 이를 활용해 네트워크 분석을 수행하였다. 또한 PNNC(Parallel Nearest Neighbor Clustering) 알고리즘으로 대출도서 군집을 형성한 후 대출도서에 계산된 중심성지수를 기반으로 피어슨 상관분석(Pearson Correlation Analysis)을 수행해 집단간의 상관성을 파악하였다. 그 결과 자기계발, 재태크, 육아 등 다양한 분야의 도서를 대출하는 일반 성인 남녀에 비해 노령자 계층은 한국현대소설에 집중된 독서 활동을 하는 것으로 나타났으며, 특정 인기 저자의 저작에 집중된 도서 대출 경향을 보였다. 한편 여성 노령자가 일본소설, 영미소설을 포함해 상대적으로 다양한 분야를 대출하는 반면 남성 노령자는 극단적으로 한국대하소설에 집중하는 경향을 나타냈다. 상관분석에서도 남성 노령자는 성인 남성과 r=-0.222의 약한 음의 상관성을 보였으며, 다른 모든 집단과도 음의 방향성을 보여 대출 도서의 중심성이 반대 경향을 가지는 것으로 분석되었다.

Assessment through Statistical Methods of Water Quality Parameters(WQPs) in the Han River in Korea

  • Kim, Jae Hyoun
    • 한국환경보건학회지
    • /
    • 제41권2호
    • /
    • pp.90-101
    • /
    • 2015
  • Objective: This study was conducted to develop a chemical oxygen demand (COD) regression model using water quality monitoring data (January, 2014) obtained from the Han River auto-monitoring stations. Methods: Surface water quality data at 198 sampling stations along the six major areas were assembled and analyzed to determine the spatial distribution and clustering of monitoring stations based on 18 WQPs and regression modeling using selected parameters. Statistical techniques, including combined genetic algorithm-multiple linear regression (GA-MLR), cluster analysis (CA) and principal component analysis (PCA) were used to build a COD model using water quality data. Results: A best GA-MLR model facilitated computing the WQPs for a 5-descriptor COD model with satisfactory statistical results ($r^2=92.64$,$Q{^2}_{LOO}=91.45$,$Q{^2}_{Ext}=88.17$). This approach includes variable selection of the WQPs in order to find the most important factors affecting water quality. Additionally, ordination techniques like PCA and CA were used to classify monitoring stations. The biplot based on the first two principal components (PCs) of the PCA model identified three distinct groups of stations, but also differs with respect to the correlation with WQPs, which enables better interpretation of the water quality characteristics at particular stations as of January 2014. Conclusion: This data analysis procedure appears to provide an efficient means of modelling water quality by interpreting and defining its most essential variables, such as TOC and BOD. The water parameters selected in a COD model as most important in contributing to environmental health and water pollution can be utilized for the application of water quality management strategies. At present, the river is under threat of anthropogenic disturbances during festival periods, especially at upstream areas.

구조적 공백과 협업필터링을 이용한 추천시스템 (Recommender Systems using Structural Hole and Collaborative Filtering)

  • 김민건;김경재
    • 지능정보연구
    • /
    • 제20권4호
    • /
    • pp.107-120
    • /
    • 2014
  • 본 연구에서는 사회연결망분석기법 중 하나인 구조적 공백 분석 결과를 이용하여 추천과정에 사용자의 정성적이고 감성적인 정보를 반영할 수 있는 협업필터링 기반의 추천시스템을 제안한다. 협업필터링은 추천기술 중 가장 많이 활용되고 있지만 전통적으로 확장성과 희박성 등의 문제점뿐 만 아니라 사용자-상품 매트릭스의 선호도만을 이용하여 추천을 함으로써 사용자의 정성적이고 감성적인 정보를 추천과정에 반영하지 못한다는 한계점이 있다. 본 연구에서 제안하는 추천시스템은 사회연결망분석에서 중심성 분석과 함께 연결망 내의 주요개체를 탐지할 수 있는 구조적 공백 분석을 이용하여 연결망 내의 대표 사용자들을 추출한 후 이들을 중심으로 군집을 형성한 후 각 군집색인 협업필터링을 수행하는 과정을 통해 전통적인 협업필터링에서 반영하지 못했던 정성적, 감성적 정보를 반영한다. 한편, 군집색인 협업필터링을 수행함으로써 추천의 효율성을 높일 수 있는 장점도 있다. 본 연구에서는 실제 사용자들의 상품에 대한 선호도 평가점수와 사용자들의 사회연결망 정보를 수집하여 실험을 수행하고 전통적인 협업필터링과 다양한 형태의 협업필터링과의 추천성과 비교를 통하여 제안하는 시스템의 유용성을 확인한다. 비교모형으로는 전통적인 협업필터링, 임의 군집색인 기반 협업필터링, k평균 군집색인 기반 협업필터링을 이용한 추천시스템이며, 실험 결과, 제안한 모형이 다른 비교모형에 비해 추천성과의 정확도가 가장 우수하였다. 추천성과의 차이에 대한 통계적 유의성 검정 결과, 제안 모형은 전통적인 협업필터링 기반의 추천시스템과는 통계적으로 유의한 성과 차이가 없었으나, 다른 두 모형에 대해서는 통계적으로 유의한 성과의 차이가 있는 것으로 나타났다.

멀티채널 비음수 행렬분해와 정규화된 공간 공분산 행렬을 이용한 미결정 블라인드 소스 분리 (Underdetermined blind source separation using normalized spatial covariance matrix and multichannel nonnegative matrix factorization)

  • 오순묵;김정한
    • 한국음향학회지
    • /
    • 제39권2호
    • /
    • pp.120-130
    • /
    • 2020
  • 본 논문은 블라인드 소스 분리 분야에서 널리 사용되는 멀티채널 비음수 행렬 분해 기법의 단점을 개선하여 미결정 복잡한 혼합 환경에서 문제를 해결한다. 공간 공분산 행렬에 기반을 둔 기존의 연구들에서, 단일 채널의 파워게인 및 상관관계와 같은 값으로 구성된 행렬의 각 요소는 높은 분산으로 인해 분리된 소스의 품질을 저하시키는 경향이 있다. 이 논문에서는 추정된 소스들을 효과적으로 클러스터링하기 위해 레벨 및 주파수 정규화를 수행한다. 따라서 새로운 공간 공분산 행렬 및 효과적인 클러스터 쌍별 거리함수를 제안한다. 본 논문에서는 제안된 행렬을 공간 모델의 초기화에 활용하여 공간 모델의 향상된 추정과 이를 바탕으로 상향식 접근법에서의 계층적 응집 클러스터링에 활용함으로써 분리된 음원의 품질을 향상시켰다. 제안된 알고리즘은 'Signal Separation Evaluation Campaign 2008 development dataset'을 활용하여 실험을 하였다. 그 결과 객관적인 소스 분리 품질 검증 도구인 'Blind Source Separation Eval toolbox'를 활용하여 대부분의 성능향상지표에서의 향상을 확인하였으며, 특히 대표적인 수치인 SDR의 1 dB ~ 3.5 dB 정도의 성능우위를 검증하였다.

유아교육 박람회에서 데이터마이닝 기법을 이용한 전시 관람 행동 패턴 분석 (The Behavior Analysis of Exhibition Visitors using Data Mining Technique at the KIDS & EDU EXPO for Children)

  • 정민규;김혜경;최일영;이경전;김재경
    • 지능정보연구
    • /
    • 제17권2호
    • /
    • pp.77-96
    • /
    • 2011
  • 전시회는 전시업체가 새로운 상품이나 서비스를 관람객에게 알리기 위해 개최되는 것으로 효과적인 마케팅 수단으로 중요한 역할을 수행한다. 이처럼 전시회의 중요성이 점점 커짐에 따라, 국내 전시 산업은 많은 양적 성장을 이뤄왔다. 그러나, 양적 성장에 비해 전시 산업의 질적 성장은 이에 미치지 못하는 실정이다. 따라서 전시회의 질정 성장을 이루기 위해서는 관람객의 행동 패턴을 이해하여 관람객들의 전시 관람 수준과 만족도를 높일 필요성이 있다. 본 연구에서는 관람객들의 전시 관람 행동 패턴을 분석하기 위해 다음과 같은 연구 프레임워크를 사용한다. 첫 번째 단계는 본 연구의 방법론을 적용하기 적합한 전시회를 선정하는 단계이다. 두 번째 단계는 관찰 조사 방법을 수행하는 단계이다. 마지막 세 번째 단계는 수집된 자료들을 분석하는 단계이다. 분석 단계에서는 부스들의 개별 특성을 파악하였고, 더 나아가 관람객들의 전시 관람 행동 패턴을 분석하기 위해 데이터마이닝 기법을 사용하였다. 본 연구의 결과는 전시 기획자에게 유용한 정보를 제공할 뿐만 아니라 참관객들이 원하는 정보를 원하는 방식으로 제공하는 개인화서비스를 가능하게 하여 궁극적으로 전시회 관람의 질과 만족도를 크게 향상시킬 수 있을 것이라고 기대한다.