• 제목/요약/키워드: Data normalization

검색결과 488건 처리시간 0.027초

An Iterative Normalization Algorithm for cDNA Microarray Medical Data Analysis

  • Kim, Yoonhee;Park, Woong-Yang;Kim, Ho
    • Genomics & Informatics
    • /
    • 제2권2호
    • /
    • pp.92-98
    • /
    • 2004
  • A cDNA microarray experiment is one of the most useful high-throughput experiments in medical informatics for monitoring gene expression levels. Statistical analysis with a cDNA microarray medical data requires a normalization procedure to reduce the systematic errors that are impossible to control by the experimental conditions. Despite the variety of normalization methods, this. paper suggests a more general and synthetic normalization algorithm with a control gene set based on previous studies of normalization. Iterative normalization method was used to select and include a new control gene set among the whole genes iteratively at every step of the normalization calculation initiated with the housekeeping genes. The objective of this iterative normalization was to maintain the pattern of the original data and to keep the gene expression levels stable. Spatial plots, M&A (ratio and average values of the intensity) plots and box plots showed a convergence to zero of the mean across all genes graphically after applying our iterative normalization. The practicability of the algorithm was demonstrated by applying our method to the data for the human photo aging study.

Normalization of Microarray Data: Single-labeled and Dual-labeled Arrays

  • Do, Jin Hwan;Choi, Dong-Kug
    • Molecules and Cells
    • /
    • 제22권3호
    • /
    • pp.254-261
    • /
    • 2006
  • DNA microarray is a powerful tool for high-throughput analysis of biological systems. Various computational tools have been created to facilitate the analysis of the large volume of data produced in DNA microarray experiments. Normalization is a critical step for obtaining data that are reliable and usable for subsequent analysis such as identification of differentially expressed genes and clustering. A variety of normalization methods have been proposed over the past few years, but no methods are still perfect. Various assumptions are often taken in the process of normalization. Therefore, the knowledge of underlying assumption and principle of normalization would be helpful for the correct analysis of microarray data. We present a review of normalization techniques from single-labeled platforms such as the Affymetrix GeneChip array to dual-labeled platforms like spotted array focusing on their principles and assumptions.

LED 열화 데이터에 대한 정규화 방법에 대한 연구 (Study on Normalization Method of LED Degradation Data)

  • 정의효;임홍우;형재필;정창욱;조정하;장중순
    • 한국신뢰성학회지:신뢰성응용연구
    • /
    • 제18권1호
    • /
    • pp.49-55
    • /
    • 2018
  • Purpose: To propose improved method for normalization, compare to the de facto international standard which is IESNA TM-21 or conventional normalization methods. Methods: Firstly, we analysed conventional methods and specified the problem of normalization method which is based on first measured data. Secondly, we proposed our approach which is based on the design specification. Lastly, we studied a real degradation data which is conducted for 15,000 hours. Conclusion: Proposed normalization method is better approach because it can reflect real data and design specification, and reduce distortion when analysing degradation data. Also, It is appliable to other long-life reliability items.

Comparison of Normalization Methods for Defining Copy Number Variation Using Whole-genome SNP Genotyping Data

  • Kim, Ji-Hong;Yim, Seon-Hee;Jeong, Yong-Bok;Jung, Seong-Hyun;Xu, Hai-Dong;Shin, Seung-Hun;Chung, Yeun-Jun
    • Genomics & Informatics
    • /
    • 제6권4호
    • /
    • pp.231-234
    • /
    • 2008
  • Precise and reliable identification of CNV is still important to fully understand the effect of CNV on genetic diversity and background of complex diseases. SNP marker has been used frequently to detect CNVs, but the analysis of SNP chip data for identifying CNV has not been well established. We compared various normalization methods for CNV analysis and suggest optimal normalization procedure for reliable CNV call. Four normal Koreans and NA10851 HapMap male samples were genotyped using Affymetrix Genome-Wide Human SNP array 5.0. We evaluated the effect of median and quantile normalization to find the optimal normalization for CNV detection based on SNP array data. We also explored the effect of Robust Multichip Average (RMA) background correction for each normalization process. In total, the following 4 combinations of normalization were tried: 1) Median normalization without RMA background correction, 2) Quantile normalization without RMA background correction, 3) Median normalization with RMA background correction, and 4) Quantile normalization with RMA background correction. CNV was called using SW-ARRAY algorithm. We applied 4 different combinations of normalization and compared the effect using intensity ratio profile, box plot, and MA plot. When we applied median and quantile normalizations without RMA background correction, both methods showed similar normalization effect and the final CNV calls were also similar in terms of number and size. In both median and quantile normalizations, RMA backgroundcorrection resulted in widening the range of intensity ratio distribution, which may suggest that RMA background correction may help to detect more CNVs compared to no correction.

다채널 이미지의 회전각 추정 (Rotation Angle Estimation of Multichannel Images)

  • 이봉규;양요한
    • 대한전기학회논문지:시스템및제어부문D
    • /
    • 제51권6호
    • /
    • pp.267-271
    • /
    • 2002
  • The Hotelling transform is based on statistical properties of an image. The principal uses of this transform are in data compression. The basic concept of the Hotelling transform is that the choice of basis vectors pointing the direction of maximum variance of the data. This property can be used for rotation normalization. Many objects of interest in pattern recognition applications can be easily standardized by performing a rotation normalization that aligns the coordinate axes with the axes of maximum variance of the pixels in the object. However, this transform can not be used to rotation normalization of color images directly. In this paper, we propose a new method for rotation normalization of color images based on the Hotelling transform. The Hotelling transform is performed to calculate basis vectors of each channel. Then the summation of vectors of all channels are processed. Rotation normalization is performed using the result of summation of vectors. Experimental results showed the proposed method can be used for rotation normalization of color images effectively.

빅데이터의 정규화 전처리과정이 기계학습의 성능에 미치는 영향 (Effectiveness of Normalization Pre-Processing of Big Data to the Machine Learning Performance)

  • 조준모
    • 한국전자통신학회논문지
    • /
    • 제14권3호
    • /
    • pp.547-552
    • /
    • 2019
  • 최근, 빅데이터 분야에서는 빅 데이터의 양적 팽창이 주요 이슈로 떠오르고 있다. 더군다나 이러한 빅데이터는 기계학습의 입력값으로 사용되어지고 있으며 이들의 성능을 향상시키기 위해 정규화 전처리가 필요하다. 이러한 성능은 빅데이터 컬럼의 범위나 정규화 전처리 방식에 따라 크게 좌우된다. 본 논문에서는 다양한 종류의 정규화 전처리 방식과 빅데이터 컬럼의 범위를 조절하면서 서포트벡터머신(SVM)의 기계학습방식에 적용함으로써 더욱 효과적인 정규화 전처리 방식을 파악하고자 하였다. 이를 위하여 파이썬언어와 주피터 노트북 환경에서 기계학습을 수행하고 분석하였다.

지진 이벤트 분류를 위한 정규화 기법 분석 (Analysis of normalization effect for earthquake events classification)

  • 장수;구본화;고한석
    • 한국음향학회지
    • /
    • 제40권2호
    • /
    • pp.130-138
    • /
    • 2021
  • 본 논문에서는 지진 이벤트 분류를 위한 다양한 정규화 기법 분석 및 효과적인 합성곱 신경망(Convolutional Neural Network, CNN)기반의 네트워크 구조를 제안하였다. 정규화 기법은 신경망의 학습 속도를 개선할 뿐만 아니라 잡음에 강인한 모습을 보여 준다. 본 논문에서는 지진 이벤트 분류를 위한 딥러닝 모델에서 입력 정규화 및 은닉 레이어 정규화가 모델에 미치는 영향을 분석하였다. 또한, 적용 은닉 레이어의 구조에 따른 다양한 실험을 통해 효과적인 모델을 도출하였다. 다양한 모의실험 결과 입력 데이터 정규화 및 제1 은닉 레이어에 가중치 정규화를 적용한 모델이 가장 안정적인 성능 향상을 보여 주었다.

분리된 고유공간을 이용한 잡음환경에 강인한 특징 정규화 기법 (Robust Feature Normalization Scheme Using Separated Eigenspace in Noisy Environments)

  • 이윤재;고한석
    • 한국음향학회지
    • /
    • 제24권4호
    • /
    • pp.210-216
    • /
    • 2005
  • 본 논문에서는 잡음에 강인한 음성인식을 위하여 고유공간에 기반을 둔 새로운 특징 정규화 기법을 제안한다. 일반적으로 평균과 분산의 정규화 (MVN)는 켑스트럼 상에서 수행된다. 그러나 최근에 고유공간을 이용한 MVN기법이 소개되었고, 그 고유공간 정규화 기법에서는 하나의 고유공간을 이용하였다. 이 과정에는 켑스트럼 상의 특징 벡터를 선형 주성분 분석 (PCA)행렬을 통하여 고유공간으로 변환시킨 후 MVN을 수행하는 과정이 포함된다. 이 방법에서는 전체 39차의 특징분포를 하나의 고유공간으로 표현하였다. 그러나 이 기법의 경우 전체 특징 분포를 표현함에 세밀함이 떨어지기 때문에 더욱 세밀한 분포의 표현을 위해 본 논문에서는 static 특징, 1차 미분 계수, 2차 미분계수에 각각 유일하고 독립적인 분리된 고유공간을 적용하는 것을 제안하였다. 또한 고유공간에서 정규화 된 훈련 데이터를 이용하여 모델을 만든다. 마지막으로 훈련 데이터의 분포와 잡음환경에서의 테스트 데이터의 분포 특성의 차이를 줄이기 위해 켑스트럼 상에서의 회전 기법을 적용시킨다. 그 결과, 기본적인 고유공간 정규화 기법보다 향상된 성능을 얻을 수 있었다.

시계열 데이터베이스에서 단일 색인을 사용한 정규화 변환 지원 서브시퀀스 매칭 (A Single Index Approach for Subsequence Matching that Supports Normalization Transform in Time-Series Databases)

  • 문양세;김진호;노웅기
    • 정보처리학회논문지D
    • /
    • 제13D권4호
    • /
    • pp.513-524
    • /
    • 2006
  • 정규화 변환은 시계열 시퀀스를 구성하는 엔트리들의 전체적인 패턴을 분석하는데 매우 유용하다. 본 논문에서는 단일 색인을 사용한 정규화 변환 지원 서브시퀀스 매칭 방법을 제안한다. 기존의 정규화 변환 지원 서브시퀀스 매칭 방법은 다양한 길이의 질의 시퀀스를 지원하기 위하여 여러 개의 색인을 생성해야 하고, 이에 따라 색인 저장 공간의 오버헤드와 색인 관리의 오버헤드가 발생한다. 본 논문에서는 하나의 색인을 사용하면서도 다양한 길이의 질의 시퀀스에 대한 정규화 변환을 지원하는 효율적인 서브시퀀스 매칭 방법을 제안한다. 이를 위하여, 우선 정규화 변환을 일반화한 포함-정규화 변환(inclusion-normalization transform) 개념을 제시한다. 포함 정규화 변환이란 색인에 저장할 윈도우에 대해서 해당 윈도우를 포함하는 서브시퀀스의 평균과 표준편차로 정규화하는 것으로서, 기본적인 정규화 변환을 윈도우 및 서브시퀀스 개념을 사용하여 확장한 것이다. 다음으로, 포함-정규화 변환을 기존 서브시퀀스 매칭 연구에 적용하기 위한 이론적 근거를 정리로서 제시하고 증명한다. 그리고, 이 방안을 구현하기 위한 색인 구성 알고리즘 및 서브시퀀스 매칭 알고리즘을 각각 제시한다. 실제 주식 데이터에 대한 실험 결과, 제안한 방법은 기존 방법에 비해 최대 $2.5{\sim}2.8$배까지 성능을 향상 시킨 것으로 나타났다. 본 논문에서 제안한 정규화 변환 지원 서브시퀀스 매칭은 정규화 변환 이외의 다른 변환을 지원하는 서브시퀀스 매칭으로 일반화 될 수 있다. 따라서, 제안한 방법은 정규화 변환을 포함하는 많은 다른 종류의 변환을 지원하는 서브시퀀스 매칭에 폭넓게 적용될 수 있는 좋은 연구결과라 사료된다.

Energy Feature Normalization for Robust Speech Recognition in Noisy Environments

  • Lee, Yoon-Jae;Ko, Han-Seok
    • 음성과학
    • /
    • 제13권1호
    • /
    • pp.129-139
    • /
    • 2006
  • In this paper, we propose two effective energy feature normalization methods for robust speech recognition in noisy environments. In the first method, we estimate the noise energy and remove it from the noisy speech energy. In the second method, we propose a modified algorithm for the Log-energy Dynamic Range Normalization (ERN) method. In the ERN method, the log energy of the training data in a clean environment is transformed into the log energy in noisy environments. If the minimum log energy of the test data is outside of a pre-defined range, the log energy of the test data is also transformed. Since the ERN method has several weaknesses, we propose a modified transform scheme designed to reduce the residual mismatch that it produces. In the evaluation conducted on the Aurora2.0 database, we obtained a significant performance improvement.

  • PDF