| |
本文以ECO2DBASE(Edition 6)为研究材料,探讨了利用蛋白质组表达图谱提供的生命动态活动信息提高基因组功能提示效果的可行性。在设计出一套较为完整的细胞功能簇(CRC)聚类方案的基础上,经考察,79个蛋白质聚成4个不同的CRC。结果显示出功能相关的蛋白质趋向于聚集在相同的CRC中,如9种氨酰tRNA合成酶和4种热休克蛋白分别准确地聚合到CRC2和CRC3中。这些结果提示:在蛋白质组研究资料比较充分的前提下, 通过有效的算法,蛋白质组表达图谱可以为基因组功能提示提供非常重要的序列相似性之外的功能信息。目前基因组功能注解主要采用序列相似性分析,而序列相似性较低(<20%~30%)的未知基因难以作出合理的功能预测,称为序列“孤儿”。有些序列即使在数据库中有相似基因,但相似基因的功能也是未知的。功能基因组学的兴起提供了SAGE,DNA
Chip等新手段,然而,据文献报道,组织中mRNA的丰度与蛋白质的丰度的统计相关并不显著[1]。蛋白质组学的研究为解决这些问题开辟了新途径。蛋白质组随发育阶段、驻留组织甚至所处的环境的变迁而改变,功能关联的蛋白质在表达水平上常常也存在相关性[2]。各功能蛋白质的动态变化可以通过两维凝胶电泳图谱反映出来,故可利用表达量等蛋白质组提供的特有信息推测基因产物的功能。由于这种信息是与序列相似性大小无关的,故可以与序列相似性方法结合起来,提高基因组功能提示的效果。目前有关研究涉及的目标蛋白质和图谱数量都很少[3,4],能否用于基因组水平还未见报道。本文以蛋白质组表达图谱为材料,经过相关分析和聚类分析,发现聚类结果与功能分类有很强的相关性,表达图谱提供的信息可以在类似本文的方法处理后用于基因组功能提示。
1 材料与方法
ECO2DBASE是Vanbogelen和Neidhardt[5]自80年代中期起就致力于构建的大肠杆菌蛋白质组数据库,有10种不同的外界环境,已发展到第6版[6]。以10种状态下的电泳图谱中表达量数据均已测定作为筛选条件,从该版本中提取出79种蛋白质构成待考察的数据集合,蛋白质编号为1~79。75~79为该版本新增,已鉴定功能,这里作为回顾性分析的材料,假设功能未知,经分类后检查预测结果是否与已知功能一致。此外功能未知蛋白质有26种。已知蛋白质的描述信息查自KEGG(Kyoto
Encyclopaedia of Genes and Genomes)[7],包括SWISS-PROT存取号,详细名称、酶学编号等。
方法如下:
1.1 计算两两蛋白质之间表达量变化的Pearson相关系数
1.2 运用UPGMA(使用算术平均的不加权对群法, unweighted pair-group method
using arithmetic averages)算法,将1.1的结果作聚类分析[8]
1.3 以1.2的结果绘制树系图,每个大分支形成一个蛋白质集合 我们将这种集合命名为细胞功能簇(cellular
role cluster,CRC)。分析每簇的功能特征,对未知蛋白质作出功能预测。
2 结果
按树系图的结构从左至右可划分出4个CRC:
Fig.1 Results of clustering of 79 proteins:CRC1~CRC4
Leaf number is denoted each protein in data set described
in the text.
* There are 18 proteins in this rectangle:6,27,42,73,14,15,
51,57,8,34,25,38,66,28,29,40,2,30,78.
CRC1:包含15种蛋白质,主要参与与能量有关的碳水化合物代谢,如三羧酸循环,代表蛋白质有SucA(72)(括号内数字为该蛋白质编号,以下同),SucB(41),SdhA(43)等。
CRC2:包含33种蛋白质,主要涉及蛋白质合成。最能证明这一点的是出现在79种蛋白质中的所有9种氨酰tRNA合成酶——LysRS(18),PheRS(21),ArgRS(27),GlyRS(28),ValRS(30),HisRS(40),PheRS(55),TyrRS(61),GlnRS(66)都无一例外地聚到CRC2中;而RpoA(2),RpoB(23),EF-Tu(25),EF-Ts(8),EF-G(20),RS1(6)等蛋白质都属于翻译和转录体系的组成分子,故也恰当地归入到CRC2。
CRC3:包含13种蛋白质,主要成员为热休克蛋白,如Hsp70(7),HtpG(13),HtpM(49),GroEL(5)。ATP合成酶的两个组分也在此CRC中。
CRC4:包含18种蛋白质,功能较为分散,有膜受体蛋白OmpA(33),冷休克蛋白Csp(56)和一些代谢蛋白质等。因此,此类CRC较难提取较明确的功能特征。
3 讨论
各种氨酰tRNA合成酶都聚到CRC2而热休克蛋白聚到CRC3的结果有力地证明了蛋白质组提供的表达信息的变化与蛋白质的生物学功能是相关的。从而未知蛋白质的功能可以从其属于何种CRC来推测。我们回顾性检验了76~79这4种蛋白质。76,77归于CRC3,76是葡萄糖渗透酶组分IIA,是重要的代谢调节蛋白,存取号P08837;77是烷基水合过氧化氢还原酶,存取号P26427,可由过氧化物压力诱导产生,与热休克反应有功能上的关联[9];78归于CRC2,是蛋白质合成延伸因子P,存取号P33398;79归于CRC1,是二氨基丁二酸(DAP)脱羧酶,功能属氨基酸代谢类,存取号P000681。结果表明,77,78,79蛋白质的功能预测明显与所属CRC一致。对于其他未知蛋白质,有一些已鉴定分子量和pI值,我们尝试用这两个指标搜索SWISS-PROT,查看返回的结果是否与其所在的CRC一致。以CRC3中的蛋白质F032.3(35)为例,将其pI=5.6,Mr=26475输入到EXPASY的TaqIdent[10]查询Swiss-Prot,在返回的结果中,PSPA-ECOLI与热休克蛋白功能相关。我们推测有可能F032.3就是PSPA-ECOLI。通过两类检验,可以认为由此作出的功能预测是可信的。
从我们的CRC聚类结果来看,蛋白质组所处的环境状态对结果有很大作用。在我们选用的材料中有10种状态,除一种普通态外,3种与营养条件有关,6种与温度条件有关,因此:CRC1的成员主要以营养代谢为主;CRC3中多是热休克蛋白;CRC2涉及蛋白质合成,在不同状态下合成强度有很大差别,也可以表现出规律性的变化来。CRC4缺乏明确功能描述可能由于其组成蛋白质与CRC1~CRC3相关较弱,成为剩下的一类。如果增加状态系列,它们可能分开到新的CRC中。同时,在CRC1~CRC3中,仍然有少数蛋白质的功能与同一CRC中的其他蛋白质差别很大,主要原因是已有的数据量较小,还不足以区分它们。因此在实际应用CRC聚类来预测未知蛋白质的功能时,要注意例外情况的出现。
蛋白质组技术方法尚未完全成熟,可以获得的全基因组规模的大量蛋白质在多种状态下的表达图谱还很有限,因此本文的CRC分类不可能很细致,只能作出较为粗略的功能预测。要得到理想的功能预测结果,必须结合各种功能预测手段。从长远来看,随着蛋白质组研究的进展,蛋白质组表达图谱对基因组功能提示的贡献将越来越重大。

|