• 제목/요약/키워드: 고차원 행렬분해

검색결과 6건 처리시간 0.019초

고차원 데이터에서 공분산행렬의 추정에 대한 비교연구 (A Comparative Study of Covariance Matrix Estimators in High-Dimensional Data)

  • 이동혁;이재원
    • 응용통계연구
    • /
    • 제26권5호
    • /
    • pp.747-758
    • /
    • 2013
  • 공분산 행렬은 다변량 통계분석에서 중요한 역할을 하고 있으며 전통적인 다변량 분석의 경우 표본 공분산 행렬이 참공분산 행렬의 추정량으로 주로 사용되었다. 하지만 변수의 수가 표본의 크기보다 훨씬 큰 고차원 데이터와 같은 경우에는 표본 공분산 행렬은 비정칙행렬이 되어 기존의 다변량 기법을 사용하는 데 적절하지 않을 수가 있다. 최근 이러한 문제점을 해결하기 위해 축소추정, 경계추정, 수정 콜레스키 분해 추정 등의 새로운 공분산 행렬의 추정량들이 제안되었다. 본 논문에서는 추정량들의 성능에 영향을 미칠 수 있는 여러 현실적인 상황들을 가정하여 모의실험을 통해 참공분산 행렬의 추정량들의 성능을 비교하였다.

추천시스템에 활용되는 Matrix Factorization 중 FM과 HOFM의 비교 (Compare to Factorization Machines Learning and High-order Factorization Machines Learning for Recommend system)

  • 조성은
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권4호
    • /
    • pp.731-737
    • /
    • 2018
  • 추천 시스템은 컨텐츠, 온라인 커머스, 소셜 네트워크, 광고 시스템 등 많은 분야에서 사용자가 관심 있을 만한 정보를 선별 제안함을 목적으로 활발하게 연구되고 있다. 그러나 과거 선호도 데이터를 기반으로 제안하는 추천시스템이 많고 과거 데이터가 적거나 없는 사용자를 대상으로는 제공하기 어려우므로 낮은 성능을 보인다는 부문에서 문제점이 있다. 따라서 더욱 고차원적인 데이터 분석에 관한 관심이 증가하고 있고 Matrix Factorization이 주목받고 있다. 이 논문은 그 중 추천시스템에서 주목받는 Factorization Machines Learning(FM)모델과 고차원 데이터 분석인 High-order Factorization Machines Learning(HOFM)의 비교와 재연을 연구하고 제안 한다.

Matrix Factorization을 이용한 음성 특징 파라미터 추출 및 인식 (Feature Parameter Extraction and Speech Recognition Using Matrix Factorization)

  • 이광석;허강인
    • 한국정보통신학회논문지
    • /
    • 제10권7호
    • /
    • pp.1307-1311
    • /
    • 2006
  • 본 연구에서는 행렬 분해 (Matrix Factorization)를 이용하여 음성 스펙트럼의 부분적 특정을 나타낼 수 있는 새로운 음성 파라마터를 제안한다. 제안된 파라미터는 행렬내의 모든 원소가 음수가 아니라는 조건에서 행렬분해 과정을 거치게 되고 고차원의 데이터가 효과적으로 축소되어 나타남을 알 수 있다. 차원 축소된 데이터는 입력 데이터의 부분적인 특성을 표현한다. 음성 특징 추출 과정에서 일반적으로 사용되는 멜 필터뱅크 (Mel-Filter Bank)의 출력 을 Non-Negative 행렬 분해(NMF:Non-Negative Matrix Factorization) 알고리즘의 입 력으로 사용하고, 알고리즘을 통해 차원 축소된 데이터를 음성인식기의 입력으로 사용하여 멜 주파수 캡스트럼 계수 (MFCC: Mel Frequency Cepstral Coefficient)의 인식결과와 비교해 보았다. 인식결과를 통하여 일반적으로 음성인식기의 성능평가를 위해 사용되는 MFCC에 비하여 제안된 특정 파라미터가 인식 성능이 뛰어남을 알 수 있었다.

비부정 행렬 인수분해 차원 감소를 이용한 최근 인접 협력적 여과 (Nearest-Neighbor Collaborative Filtering Using Dimensionality Reduction by Non-negative Matrix Factorization)

  • 고수정
    • 정보처리학회논문지B
    • /
    • 제13B권6호
    • /
    • pp.625-632
    • /
    • 2006
  • 협력적 여과는 사용자 선호도를 예측하기 위해 그 사용자의 유형을 학습하는 데 목적을 둔 기술이다. 협력적 여과 시스템이 전자상거래에서 성공적인 기술일지라도 그들은 데이터의 고차원성과 희박성이라는 문제점을 갖는다. 본 논문에서는 이와 같은 문제점을 해결하기 위하여 비부정 행렬 인수분해(NNMF, Non-negative Matrix Factorization) 방법을 이용한 최근 인접 협력적 여과 방법을 제안한다. 행렬을 분해하기 위한 전처리로서 사용자 변동 계수를 이용하여 사용자-아이템 행렬의 결측치를 채우고, 이를 대상으로 비부정 분해 방식을 적용하여 행렬을 인수분해 한다. 비부정 분해 방식을 적용한 긍정 분해는 사용자들을 의미를 갖는 벡터로써 표현함으로써 사용자들을 의미 관계를 갖는 그룹으로 표현한다. 이와 같이 벡터로 표현된 사용자들은 벡터 유사도에 의해 그들간의 유사도를 계산한다. 계산된 유사도의 정도에 의해 이웃을 결정하고, 이웃들이 평가한 아이템에 대한 흥미도를 기반으로 새로운 사용자가 평가하지 않은 아이템에 대한 결측치를 예측한다.

오믹스 자료를 이용한 정준방법 비교 (A comparison study of canonical methods: Application to -Omics data)

  • 이승수;민은정
    • 응용통계연구
    • /
    • 제37권2호
    • /
    • pp.157-176
    • /
    • 2024
  • 생명현상의 복잡한 시스템에 대한 이해를 위한 융합분석의 중요성이 점점 커지고 있다. 하나의 연구대상을 다양한 관점에서 관찰하여 얻게 되는 여러 데이터의 융합분석은 통해 좀 더 대상에 대한 깊은 이해를 가능하게 한다. 본 연구에서는 그중에서도 특히 하나의 샘플에서 두개의 고차원 데이터가 생성된 경우 다룰 수 있는 분석인 공관성분석과 정준상관분석을 비교하였다. 정준상관분석의 경우 고차원 데이터를 다룰 수 없는 단점이 있기에, 해당 문제를 극복하기 위하여 능형상수를 이용하는 방법(CCA-ridge)과 각 데이터의 공분산행렬을 항등행렬로 가정하여 벌점화 특이값분해를 이용한 방법(CCA-PMD) 두 가지를 고려하였으며 각 방법을 NCI60 세포주 패널에서 얻은 RNA 시퀀싱 데이터와 단백질 시퀀싱 데이터 분석에 적용하였다. 그 결과 정준상관분석의 경우 두 정준변수간의 상관관계에 좀 더 집중하는 반면 공관성분석은 각 데이터의 선형조합간의 상관관계뿐 아니라 각 선형조합의 변동성을 함께 고려함을 확인할 수 있었다. 또한 공관성분석의 경우 여러가지의 가중치행렬을 고려하여 그 결과값을 비교하고 중요 시사점을 도출하였다.

최소 표현 라플라스 변환에 기초한 단계형 확률변수의 시뮬레이션에 관한 연구 (Simulation of the Phase-Type Distribution Based on the Minimal Laplace Transform)

  • 김선교
    • 한국시뮬레이션학회논문지
    • /
    • 제33권1호
    • /
    • pp.19-26
    • /
    • 2024
  • 단계형 확률분포는 마코프 체인이 특정 상태로 흡수되는 시점까지 거쳐가는 여러 단계에서 체재하는 시간들의 합으로 정의되며 대기행렬 시스템과 신뢰성 분석 모형 등에 광범위하게 사용된다. 연속적 단계형 분포의 경우 흡수 상태로 진입하기까지 거쳐가는 각각의 단계에서의 체재 시간이 지수분포를 따르므로 연속적 단계형 분포는 다양한 지수분포들의 합 또는 볼록 결합으로 나타낼 수 있다. 단계형 분포를 생성하는 가장 일반적이면서도 직관적인 방법은 마코비안 표현방법이라 불리는 초기 확률벡터와 전이 생성행렬에 의해 주어지는 조건부 확률을 이용하는 것이다. 적률이 주어진 상황에서 단계형 변수를 생성하는 방법에 대한 기존의 연구들은 대부분 적률을 마코비안 표현방법으로 변환하는 것을 전제로 하고 있다. 본 연구에서는 적률을 마코비안 표현방법으로 변환하지 않고 확률 분포함수를 결정하여 단계형 확률변수를 생성하는 방법에 대해 살펴보고 마코프 표현을 사용하는 기존의 방법 대신에 조단 분해법과 최소 표현 라플라스 변환을 이용하여 2계 단계형 확률변수를 분포함수를 결정하는 공식과 절차를 제시한다. 이러한 접근 방법은 고차원의 단계형 확률분포를 이용하여 대기행렬의 시뮬레이션을 하는 경우에 마코비안 표현방법의 전이행렬을 결정하여 변수를 생성하는 경우보다 효율적이다.