Abstract
For the hairy root of Panax ginseng, we have got mass spectrums from MALDI/TOF/MS analysis and Tandem mass spectrums from ESI/Q-TOF/MS analysis. While mass spectrum provides the molecular weights of peptide fragments digested by protease such as trypsin, tandem mass spectrum produces amino acid sequence of digested peptides. Each amino acid sequences can be a query sequence in BLAST search to identify proteins. For the specimens of animals or plants of which genome sequences were known, we can easily identify expressed proteins from mass spectrums with high accuracy. However, for the other specimens such as ginseng, it is difficult to identify proteins with accuracy since all the protein sequences are not available yet. Here we compared the mass spectrums and the peptide amino acid sequences with ginseng expressed sequence tag (EST) DB. The matched EST sequence was used as a query in BLAST search for protein identification. They could offer the correct protein information by the sequence alignment with EST sequences. 90% of peptide sequences of ESI/Q-TOF/MS are matched with EST sequences. Comparing 68% matches of the same sequences with the nr database of NCBI, we got more matches by 22% from ginseng EST sequence search. In case of peptide mass fingerprinting from MALDI/TOF/MS, only about 19% (9 proteins of 47 spots) among peptide matches from nr DB were correlated with ginseng EST DB. From these results, we suggest that amino acid sequencing using tandem mass spectrum analysis may be necessary for protein identification in ginseng proteome analysis.
인삼 모상근의 프로테옴 분석에 의해 얻은 질량분석 스펙트럼 데이터는 MALDI/TOF/MS에서 얻는 질량 스펙트럼과 ESI/Q-TOF/MS에서 얻는 탄뎀 질량 스펙트럼으로 구분된다. 질량 스펙트럼은 단백질이 효소에 의해 분해된 펩타이드들의 분자량 정보를 제공하며, 탄뎀 질량 스펙트럼에서는 아미노산 단위로 분해된 절편 단백질의 분자량으로부터 아미노산 서열을 결과로 얻는다. 펩타이드의 아미노산 서열을 BLAST로 검색하면 유사한 단백질을 GenBank에서 검색할 수 있다. 이러한 단백질 동정 방법은 완전한 유전체 서열이 알려진 생물체의 경우 높은 정확도로 단백질을 동정할 수 있으나, 그렇지 않은 경우는 유사한 단백질이 데이터베이스에 존재하지 않아 분석이 용이하지 않다. 본 연구에서는 질량 스펙트럼 및 절편 단백질의 아미노산 서열을 EST (expressed sequence tag) 서열과 비교하여 프로테옴 데이터와 일치하는 EST 서열을 찾아내고 이를 BLAST검색에 의해 단백질 동정에 활용하였다. ESI/Q-TOF/MS 에서 얻은 아미노산 서열은 길이는 짧지만 데이터의 신뢰도가 높으므로 EST 서열과의 연관 관계를 밝힘으로써 단백질에 대한 정보를 보완할 수 있었다. ESI/Q-TOF/MS에서 얻은 펩타이드의 아미노산 서열을 EST 서열과 비교한 결과 90%의 아미노산 서열이 EST DB에서 발견되었다. NCBI의 nr 데이터베이스에서 아미노산 서열을 검색하여 찾은 단백질이 68%임에 비하여, 인삼 EST 서열에 의한 검색이 22% 더 많은 결과를 얻었다. MALDI/TOF/MS의 질량 스펙트럼에서 nr 데이터베이스로 검색한 결과와 인삼 EST 데이터베이스를 검색한 결과가 일치하는 경우는 47개 중 9개인 19%에 불과하여, 탄뎀 질량 분석으로 아미노산 서열을 얻지 않고, 단지 질량 스펙트럼으로부터 단백질을 동정하는 방법으로는 단백질 동정의 정확한 결과를 기대하기 어려움을 확인하였다.