• 제목/요약/키워드: Symbolic Data Analysis (SDA)

검색결과 3건 처리시간 0.018초

Exploratory Methods for Joint Distribution Valued Data and Their Application

  • Igarashi, Kazuto;Minami, Hiroyuki;Mizuta, Masahiro
    • Communications for Statistical Applications and Methods
    • /
    • 제22권3호
    • /
    • pp.265-276
    • /
    • 2015
  • In this paper, we propose hierarchical cluster analysis and multidimensional scaling for joint distribution valued data. Information technology is increasing the necessity of statistical methods for large and complex data. Symbolic Data Analysis (SDA) is an attractive framework for the data. In SDA, target objects are typically represented by aggregated data. Most methods on SDA deal with objects represented as intervals and histograms. However, those methods cannot consider information among variables including correlation. In addition, objects represented as a joint distribution can contain information among variables. Therefore, we focus on methods for joint distribution valued data. We expanded the two well-known exploratory methods using the dissimilarities adopted Hall Type relative projection index among joint distribution valued data. We show a simulation study and an actual example of proposed methods.

Symbolic Cluster Analysis for Distribution Valued Dissimilarity

  • Matsui, Yusuke;Minami, Hiroyuki;Misuta, Masahiro
    • Communications for Statistical Applications and Methods
    • /
    • 제21권3호
    • /
    • pp.225-234
    • /
    • 2014
  • We propose a novel hierarchical clustering for distribution valued dissimilarities. Analysis of large and complex data has attracted significant interest. Symbolic Data Analysis (SDA) was proposed by Diday in 1980's, which provides a new framework for statistical analysis. In SDA, we analyze an object with internal variation, including an interval, a histogram and a distribution, called a symbolic object. In the study, we focus on a cluster analysis for distribution valued dissimilarities, one of the symbolic objects. A hierarchical clustering has two steps in general: find out step and update step. In the find out step, we find the nearest pair of clusters. We extend it for distribution valued dissimilarities, introducing a measure on their order relations. In the update step, dissimilarities between clusters are redefined by mixture of distributions with a mixing ratio. We show an actual example of the proposed method and a simulation study.

악성간암환자의 유전체자료 심볼릭 나무구조 모형연구 (Symbolic tree based model for HCC using SNP data)

  • 이태림
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권5호
    • /
    • pp.1095-1106
    • /
    • 2014
  • 본 연구에서는 악성간암환자의 생존기간에 영향을 주는 인자를 찾기 위하여 반응변수를 악성간암 환자의 생존을 임상변수의 정보와 SNP유전인자를 통합한 자료를 대상으로 이해하기 쉬운 나무구조 생존모형과 심볼릭자료분석을 실시하여 영향을 주는 유의한 인자 뿐 아니라 그 임계치를 구하여 임상적으로 유용한 결과를 찾아 임상에 적용하는 것이 목적이다. 악성간암환자의 임상자료를 계량화하여 통계적 예후진단 모형을 구함으로써 임상변수 간 숨겨진 변수간의 관계를 규명하고 생존기간 군에 따른 예측 분류모형을 구하여 현시적으로 진단후 예후에 영향을 주는 중요 임상변수와 유전체변수 그 임계치를 구하여 임상에서의 치료계획에 중요한 근거를 제시했다. 심볼릭데이터 분석 결과 정상, 만성 간염, 간염, 악성간염 등의 4개 군으로 구성된 1840명의 대상자를 분석 5 유전체의 20개 SNP가 밝혀진 바 있다. 즉 IL10-ht2가 악성간암의 발병에 매위 강한 관련이 있고 TGFB L10P-Prosms가 만성 간염 환자 중 악성간암 발생 위험을 줄여주는 유전체로 밝혀졌다. SNP변수와 질병군의 컴셉트 변수에 따라 상관정도를 원의 반지름 길이로 상대적으로 나타내 줌으로써 가장 판별력 있는 심볼릭변수를 상대적으로 비교할 수 있었다. 임상자료와 유전체자료를 통합하여 심볼릭 나무구조 생존모형을 구하여 생존기간을 군으로 한 나무구조모형을 유의한 변수와 기준치와 함께 구할 수 있었다.