배아 데이터의 효율적 검색을 위한 계층적 구조화 방법

Hierarchical Organization of Embryo Data for Supporting Efficient Search

  • 원정임 (한양대학교 전기정보통신 기술연구소) ;
  • 오현교 (한양대학교 전자컴퓨터통신학과) ;
  • 장민희 (한양대학교 전자컴퓨터통신학과) ;
  • 김상욱 (한양대학교 전자컴퓨터통신학과)
  • Won, Jung-Im (Research Institute of Electrical and Computer Engineering, Hanyang University) ;
  • Oh, Hyun-Kyo (Department of Electronics and Computer Engineering, Hanyang University) ;
  • Jang, Min-Hee (Department of Electronics and Computer Engineering, Hanyang University) ;
  • Kim, Sang-Wook (Department of Electronics and Computer Engineering, Hanyang University)
  • 투고 : 2011.02.14
  • 심사 : 2011.03.07
  • 발행 : 2011.03.25

초록

배아란 동물이나 식물과 같은 다세포 생물의 초기 단계를 의미한다. 배아의 단계에서 다세포 생물의 기초적인 체제가 결정되기 때문에 배아는 개체발생의 기구를 연구하는 중요한 연구대상이 된다. 생물학자들은 배아 연구를 위해 대용량의 배아 이미지 데이터를 소유하고 있으며, 이러한 대용량 데이터 중 원하는 이미지를 효율적으로 검색하기 위해서는 데이터 구조화가 필요하다. 데이터베이스 구조화를 위해 주로 사용되는 방법으로 계층적 클러스터링이 있다. 그러나 기존의 계층적 클러스터링 방법은 데이터베이스를 트리 형태로 구조화 하는 과정에서 클러스터의 크기와 클러스터 내의 객체 수를 동시에 고려하지 못하기 때문에 결과 클러스터링 트리가 경사 트리일 가능성이 매우 높다. 경사 트리인 경우 사용자가 원하는 이미지를 검색하기 위해 트리를 순회할 때 많은 시간이 걸린다. 따라서 본 논문에서는 대용량의 배아 이미지 데이터를 경사 되지 않으며 균형 상태에 가까운 트리 형태로 구조화하기 위한 방안을 제시한다. 제안하는 방안은 데이터베이스 내에 저장된 배아 이미지를 그래프로 변환하고 반복적으로 그래프 분할 알고리즘을 적용하여 클러스터를 생성한다. 이 때 클러스터의 크기와 클러스터 내의 객체 수를 동시에 고려하여 특정 클러스터의 크기가 지나치게 커지거나 객체 수가 많아지는 것을 방지한다. 실험을 통해서 제안하는 방안의 우수성을 규명하고 시각화 툴을 제공하여 사용자가 원하는 배아 이미지를 쉽게 찾을 수 있도록 돕는다.

Embryo is a very early stage of the development of multicellular organism such as animals and plants. It is an important research target for studying ontogeny because the fundamental body system of multicellular organism is determined during an embryo state. Researchers in the developmental biology have a large volume of embryo image databases for studying embryos and they frequently search for an embryo image efficiently from those databases. Thus, it is crucial to organize databases for their efficient search. Hierarchical clustering methods have been widely used for database organization. However, most of previous algorithms tend to produce a highly skewed tree as a result of clustering because they do not simultaneously consider both the size of a cluster and the number of objects within the cluster. The skewed tree requires much time to be traversed in users' search process. In this paper, we propose a method that effectively organizes a large volume of embryo image data in a balanced tree structure. We first represent embryo image data as a similarity-based graph. Next, we identify clusters by performing a graph partitioning algorithm repeatedly. We check constantly the size of a cluster and the number of objects, and partition clusters whose size is too large or whose number of objects is too high, which prevents clusters from growing too large or having too many objects. We show the superiority of the proposed method by extensive experiments. Moreover, we implement the visualization tool to help users quickly and easily navigate the embryo image database.

키워드

참고문헌

  1. U. Tepass and V. Hartenstein, "The Development of Cellular Junctions in the Drosophila Embryo," Developmental Biology, Vol. 161, No. 2, pp. 563-596, 1994. https://doi.org/10.1006/dbio.1994.1054
  2. S. Gilberta, J. Opitzc, and R. Raff, "Resynthesizing Evolutionary and Developmental Biology," Developmental Biology, Vol. 173, No. 2, pp. 357-372, 1997.
  3. J. Han and M. Kamber, Data mining: Concepts and Techniques, Morgan Kaufmann, 2006.
  4. G. Karypis, E. Han, and V. Kumar, "CHAMELEON: A Hierarchical Clustering Algorithm Using Dynamic Modeling," IEEE COMPUTER: Special Issue on Data Analysis and Mining, Vol. 32, No. 8, pp. 68-75, 1999.
  5. T. Zhang, R. Ramakrishnan, and M. Linvy, "BIRCH: An Efficient Data Clustering Method for Large Databases," In Proceedings of the ACM SIGMOD International Conference on Management of Data, pp. 103-114, 1996.
  6. S. Guha, R. Rastogi, and K. Shim, "CURE: An Efficient Clustering Algorithm for Large Databases," In Proceedings of the ACM SIGMOD International Conference on Management of Data, pp. 73-84, 1998.
  7. S. Guhal, R. Rastogi and K. Shim, "ROCK: A Robust Clustering Algorithm for Categorical Attributes," Information Systems, Vol. 25, No. 5, pp. 345-366, 2000. https://doi.org/10.1016/S0306-4379(00)00022-3
  8. R. Agrawal, J. Gehrke, D. Gunopulos and P. Raghavan, "Automatic Subspace Clustering of High Dimensional Data," Data Mining and Knowledge Discovery, Vol. 11, No. 1, pp. 5-33, 2005. https://doi.org/10.1007/s10618-005-1396-1
  9. C. Bohm, K. Kailing, P. Röger, and A. Zimek, "Computing Clusters of Correlation Connected Objects," In Proceedings of the ACM International SIGMOD Conference on Management of Data, pp. 455-466. 2004.
  10. A. Tung, X. Xu, and B. Ooi, "CURLER: Finding and Visualizing Nonlinear Correlation Clusters," In Proceedings of the ACM International SIGMOD Conference on Management of Data, pp. 467-478, 2005.
  11. A. Barla, F. Odone and A. Verri, "Histogram Intersection Kernel for Image Classification," In Proceedings of the ICIP International Conference on Image Processing, pp. 513-516. 2003.
  12. C. Faloutsos, Searching Multimedia Databases by Content, Kluwer Academic Publishers, 1996.
  13. 오 현교, 윤 석호, 김 상욱, "이미지 데이터베이스에서 매개변수를 필요로 하지 않는 클러스터링 및 아웃라이어 검출 방법," 대한전자공학회논문지, 제 47권 1호, 80-91쪽, 2010년.
  14. R. Kannan, S. Vempala, and A. Vetta. "On Clusterings Good, Bad, and Spectral," In Proceedings of the Annual Symposium on Foundations of Computer Science, 2000.
  15. A. Ng, M. Jordan, and Y. Weiss. "On Spectral Clustering: Analysis and an Algorithm," In Proceedings of Neural Information Processing Systems, 2001.
  16. G. Karypis and V. Kumar, "METIS 4.0: Unstructured Graph Partitioning and Sparse Matrix Ordering System," Technical Report, Department of Computer Science, University of Minnesota, 1998; http://www.cs.umn.edu/metis.
  17. G. Karypis and V. Kumar, "Multilevel Algorithms for Multi-constraint Graph Partitioning," Journal of Parallel and Distributed Computing, Vol. 48, No. 1, pp. 96-129, 1998. https://doi.org/10.1006/jpdc.1997.1404
  18. G. Karypis and V. Kumar, "hMETIS 1.5: A Hypergraph Partitioning Package," Technical Report, Department of Computer Science, University of Minnesota, 1998; http://winter.cs.umn.edu/-karypis/metis.
  19. BDGP: Berkeley Drosophila Genome Project (fruitfly.org).
  20. E. Frise, A. Hammonds1 and S. Celniker, "Systematic Image-driven Analysis of the Spatial Drosophila Embryonic Expression Landscape," Molecular Systems Biology, Vol. 6, No. 345, pp. 1-15, 2010.
  21. X. Yin, J. Han, and P. S. Yu, "Linkclus: Efficient Clustering via Heterogeneous Semantic Links," In Proceedings of the International Conference on Very Large Data Bases, pages 427-438, 2006.
  22. 송 석순, 김 상욱, 윤 석호, "블로그 공간에서의 링크 기반 클러스터링 방안," 대한전자공학회논문지, 제46권 3호, 42-49쪽, 2009년 5월.