정보병목기법에 기반한 유전자 발현 데이터의 이중 클러스터링

Double Clustering of Gene Expression Data Based on the Information Bottleneck Method

  • 김병희 (서울대학교 컴퓨터공학부 바이오지능 연구실) ;
  • 황규백 (서울대학교 컴퓨터공학부 바이오지능 연구실) ;
  • 장정호 (서울대학교 컴퓨터공학부 바이오지능 연구실) ;
  • 장병탁 (서울대학교 컴퓨터공학부 바이오지능 연구실)
  • 발행 : 2003.04.01

초록

기능 유전체학에서 클러스터링 기법은 고차원의 마이크로 어레이 데이터 분석을 위한 주된 도구 중의 하나이다. 본 논문에서는 정보병목(information bottleneck)기법 기반의 이중 클러스터링에 의한, 유전자 발현 데이터의 계층적 병합방식 클러스터링 기법을 제안한다. 정보병목기법은, 두 랜덤변수의 결합확률분포가 주어진 경우 두 변수의 상호 정보량을 최대한 보존하면서 한 변수를 압축하는 기법이며, 두 변수를 차례로 압축하는 것이 이중 클러스터링이다. 실제 마이크로 어레이 데이터인 NC160 데이터(암세포 내 유전자 발현 데이터)에 대한 실험에서, 먼저 유전자를 그 발현패턴에 따라 클러스터링 한 후 이를 이용하여 표본들을 클러스터링하고 그 성능을 다각도로 분석하였다. 상호 정보량과 유전자 및 표본 클러스터 수와 엔트로피 척도에 의한 성능을 검토해 본 결과, 표본이 추출 조직에 따라 구분 가능할 것이라는 가정을 검증할 수 있었으며, 적절한 클러스터의 수를 결정할 수 있는 임계점의 기준을 설정할 수 있었다.

키워드