| |
改善基因组功能预测方案是目前功能基因组学的迫切问题。生物进化历程会在分子序列上留下相应进化印记——直系同源簇的特异模体。在这一生物学事实的基础上,提出一个新的基因组功能预测方法:首先利用进化分析方法构建直系同源簇,再找到各直系同源簇的功能模体,这样可以形成特异的功能模体库。未知基因的功能预测可望通过搜索该功能模体库而得以高效、准确地完成。对5个家族的检验初步证实该方案是可行的。
在人类基因组计划的推动下,随着各种模式生物的完整基因组序列的迅速增加,基因组功能预测成为功能基因组学的研究热点。目前,它的主要任务是在基因组水平上注释每一个基因或基因产物的功能,以后将向非编码区和基因间相互作用等层次深入发展。目前有三大类方法可用于大通量功能注释工作:(1)用最大相似的同源基因的功能注释咨询序列[1];(2)用模体(motif)搜索[2,3],因为模体往往是功能相关的保守序列;(3)用Tatusov等人的COG(直系同源体簇)方法[4],即用不同种族的基因成对相似聚类法把它们划分成各种直系同源簇,从而可以用同一簇中的已知基因注释未知基因的功能。第一种方法会导致不少错误[5]。第二种方法未必是可靠的,因为功能相关模体可能不是功能特异的。例如具有溴域模体的蛋白质是一个多基因家族,有的表达染色质相互作用,有的表达转录调控等。第三种方法提高了功能预测的准确度,但仍然难以可靠地追踪同源基因在趋异进化中的功能演变事件,从而可能会错定直系同源簇[6]。从现代分子进化理论可知,相似序列未必是同源序列;同源序列未必具有相同功能;相同功能未必源自同源序列[7]。现在的同源序列是祖先序列漫长进化历程的产物。从而,如要从已知功能的同源基因正确推断目标基因的功能,就必须追溯和重现它们的进化关系史。与此有关的进化事件有物种形成、基因重复、基因丢失和基因横向迁移等。按照此进化关系分析实行功能注释是可靠的[8,9],但是相当繁琐,不适合大通量工作。
鉴此,自然发问:能否有一种既是严格的又是高效的基因组功能预测方案?这正是本文要追求的目标。我们的思路基于生物的进化历程必定会在分子序列上留下相应的进化印记,即家族特异模体和直系同源簇特异模体组成的功能特异模体。方法是首先用严格的进化分析方法把基因家族划分成各个直系同源簇,然后构建家族及每个直系同源簇的特异模体,借助已有的生物学事实,形成功能模体库。每一个未知基因产物的功能就用搜索此功能模体库来鉴定。
1 材料和方法(Materials and Methods)
1.1 材料
1.1.1 COG0468原核RecA家族(ATP依赖的蛋白质水解酶)
1.1.2 COG0249原核MutS家族(DNA错配修复酶)
1.1.3 COG0553原核SNF2家族(DNA/RNA螺旋酶)
1.1.4 Hedgehog家族(胚胎发育中的分泌型调节蛋白) 成员见结果部分。
1.1.5 MCM/P1家族(细胞DNA复制允证因子系统) 成员见结果部分。
1.2 方法
直系同源体簇的构建是整个预测系统的基础。如果基因之间是直系同源关系,则基因进化树与各基因所属物种的进化树是一致的。如果不一致,应分析各种进化事件,作出协调树,从而确定直系/旁系同源关系。
寻找功能模体的具体方法如下:
(1)结合生物学知识与BLAST搜索方法构建各种基因或其蛋白质家族。
(2)用CLUSTAL X[10]软件制作此种蛋白质家族的多重序列联配,对其中的可疑部分作适当的手工调整。 (3)用GCG软件包中的PAUP[11](Maximum
Parsimony),从(2)中的多重序列联配构建基因进化树。
(4)用NCBI的TAXONOMY[12],构建各基因所属物种的系统发育历史,即种族树。
(5) 若基因树与种族树有矛盾,则用genetree[13]构造协调树(reconciled tree)。
(6)按步骤(5)的结果划分各直系同源体簇(orthologous set),综合各簇中已知序列的生物学事实,形成该簇的功能描述。
(7)用MEME[14]软件,先找出此蛋白质家族的公有模体,再同样找出各个直系同源簇的特异模体,二者的结合即为各直系同源簇的功能模体。
2 结果(Results)
2.1 COG0468
图2(A)是此家族的系统发育树、图2(B)显示此家族基因树与种族树不一致,协调树[图2(C)]揭示出3个不同的直系同源体簇Os
Ⅰ~Ⅲ(Os,orthologous set,以下同),见表4。COG将三个直系同源簇混为一谈,显然是错误的。Os
I的功能以RecA为代表,为ATP依赖的蛋白水解酶,在严谨(SOS)反应中起重要作用;Os Ⅱ以Sms为代表,功能为修复内源烷基化。Os
Ⅲ的功能目前还未知。
家族模体为(用一致序列表示,以下同):
1 GGLPMGRIIEIYGPEGSGKTTLALHVM-
AQCQKNGKRCCYIDAEHALDQ
2 ELCMRLAKTGHIAIIMVDHVAKLGPKA-
EPEVEMHDQHCGLHARMMSKAMRR
3 FINQFRMKIGVMYGNPETTTGGNAMK-
FYESVRMEIRRIQALKD
4 LRVHKNKFAAPFEIGEFEMMFQ
Os Ⅰ中的特异模体为:YAKKLGVDIDNLLVAQPDHGEQA,从104位氨基酸至126位,在1号与2号家族模体之间。
Os Ⅰ的功能模体:家族模体+YAKKLGVDIDNLLVAQPDHGEQA
Os Ⅱ的功能模体:家族模体+WQGQCSACHA和PGSVAQVR
Os Ⅲ由于成员太少(<4),序列覆盖厚度不够,难以找到其特异模体。
2.2 COG0249
进化分析发现其种族树和基因树不一致[图3(A)],作出的协调树表明这个COG并非单个直系同源体簇组成,而是两个[图3(B)]:Os
Ⅰ由MutS、 HIN0122,sll1165组成;Os Ⅱ由HP0621、sll1772组成,这里,HP0621与MutS、HIN0122完全满足Tatusov等[3]给出的直系同源关系判定条件,但实际上却分属两簇。因此,COG无法区分此类情况,进化分析方法可以清楚地揭示两个直系同源簇之间的关系。实验证据也支持这一判断。MutS是参与DNA错配修复过程的,而在所有具有此功能的细菌中,都有MutL基因。幽门螺旋杆菌中却没有发现MutL基因[15],由此可知该蛋白质—(HP0621)不是大肠杆菌MutS在幽门螺旋杆菌中的直系同源体,而是旁系同源体。Os
Ⅰ的功能为错配修复,Os Ⅱ的功能为染色体分离[16]。
我们在搜寻模体时,考虑到序列厚度不够,我们加入了其他的细菌基因组的11个MutS家族成员,重新构造的进化关系显示仍然支持2个直系同源簇的结论。用加厚的数据集寻找模体,找到的家族特异模体与MutS家族中已知的4个模体互相覆盖。这是对我们找到的模体是否可靠的验证。
Os Ⅰ的功能模体为:家族模体+MQQYLKLKAQYPDALLFFRMGDFYECFYEDAKRAAQLL
DIVLT;
Os Ⅱ的功能模体为:家族模体+IIHGKGTG。
Fig.3 Evolutionary analysis of COGO249
(A)Gene tree and species tree of COG0249;(B)Reconciled
tree of COG0249.E.coli,Escherichia coli;H.pyl.,Helicobacter
pylori;H.inf.,Haemophilus influenzae;S.sp.,Synechocystis
sp..
2.3 COG0553
COG0553包含5个成员,基因树与种族树是一致的[图4(A)]。我们增加了一个物种:枯草杆菌,它含有两个SNF2家族的成员,sub1(存取号为g176371)和sub2(存取号为P54509)。加入后的基因树与种族树产生了不和谐[图4(B)],由此推断,实际上该家族包含两个直系同源簇[图4(C)]:Os
Ⅰ,包括HepA、 HIN0034、 sub2;Os Ⅱ,包括sll1366、 MG018、MP134、
sub1。从而看出,加入到考察范围中的种族越多,提供的判别信息越充分,划分直系同源簇也就越准确。COG方法无法解决此类错误。Os
Ⅰ的功能是DNA螺旋酶,Os Ⅱ的功能目前尚无实验资料。
Fig.4 Evolutionary analysis of COG0553
(A) Gene tree and species tree;(B) New gene tree and
species tree;(C) Reconciled tree.E.coli,Escherichia
coli;H.inf.,Haemophilus influenzae;S.sp.,Synechocystis
sp.;M.gen.,Mycoplasma genitalium;M.pne.,Mycoplasma pneumoniae;B.sub.,Bacillus
sub-tilis.
Os Ⅰ的功能模体:家族模体+RKYQMYGMDW。
Os Ⅱ的功能模体:家族模体+VVIDEAQGIKN。
已知SNF2家族的几个亚家族中有特异模体[17],如SNF2亚家族各成员在模体库中找到溴域。我们找到的模体是从头构建的,为测试二者是否吻合,我们将这个亚家族的6个成员,存取号为P25439、g902045、g505086、g545017、P22082、P32597组成一个直系同源体簇,找到的模体与溴域二者大部分区域重合在一起。这从另一个角度验证了寻找功能模体的方法是可信的。
2.4 Hedgehog家族
这一家族的蛋白质在发育过程中扮演重要角色。从鸡的SHH(sonic hedgehog)蛋白(存取号g631026)出发,用BLAST找到其在人、小鼠、大鼠等脊椎动物的同源蛋白共16个,组成Hedgehog家族。根据种族树,该家族分成3个Os:Os
Ⅰ为SHH,在肢体发育中起形态发生原作用;Os Ⅱ为IHH,调节软骨等组织的发育,成员之间有些差异;Os
Ⅲ为DHH,功能为调控精细胞发育[18]。可以看出斑马鱼(zebrafish)在SHH直系同源簇中有3个基因,它们作为一个整体与其他物种的SHH构成直系同源关系。这种现象提示直系同源体关系的复杂性,即一(多)对多直系同源关系是存在的。然而,在Mushegian等[19]找到的42个直系同源簇中,对每个簇来说,酵母、果蝇、线虫、人等每个物种都有且只有一个成员。由我们再分析,发现至少有7个簇(ADHX、ENOA、IF4E、NRM2、SODC、SYB、TFS-II)的组成并非如此单纯,Mushegian的结果有进一步修正的必要。
2.5 MCM/P1家族
MCM/P1家族具有非常重要的生物学功能—保证细胞在一个细胞周期中DNA只复制一次[20]。我们从酵母的MCM2(存取号P29469)蛋白质出发,用BLAST找到了一系列MCM/P1家族在人、小鼠、大鼠等真核的同源蛋白共38种。进化分析的结果清晰地揭示这是由6个直系同源体簇构成的庞大家族(图6
I~VI)。目前的实验研究表明,各个直系同源簇的功能各不相同,但对酵母来说,都是必需的。MCM2、MCM3、MCM5之间能形成稳定的复合物[21]。有趣的是,我们在目前已经测序的4种古核生物中找到了7种同源蛋白。在产甲烷简氏球菌中有4种成员,其他3种古核生物各有一个。因为目前认为古核生物与真核生物在复制、转录、翻译机制上是很相似的[22],而MCM/P1家族正与DNA复制有关,很可能与真核生物有直系同源的关系。BLAST搜索的结果支持这一点,即在E.coli等原核生物中找到的MCM2的同源蛋白的相似性分数很低,而在古核生物中的同源基因的相似性分数要高得多。这7种蛋白质和大肠杆菌的YIFB—ECOLI加入到真核MCM/P1家族中后,古核生物单独形成两个分支,一支由产甲烷简氏球菌中的4种蛋白质组成(图6
VIII),另一支由其余3个种族的蛋白质组成(图6 VII)。根据系统发育树可以推测:MCM/P1家族起源于真核与古核生物分支前的一种古老基因。这个基因在真核生物进化中很早就形成6种拷贝即MCM2~MCM7,并一直协同进化到高等生物。而在古核生物中保持一种拷贝,只是在古核生物的个别分支(如这里的产甲烷简氏球菌)发生基因重复,产生4种拷贝。由于在古核生物中这个家族还没有实验工作,这4种蛋白质的功能是如何特化的还不清楚。
家族模体有6个:
1 LADNGVCCIDEFDKMNDQDRTAIHEV-
MEQQTISIAKAGIHTTLNARCSILAAANP
2 RGDINVCMCGDPGTAKSQFLKYVEKF-
APRAVYTTGKGSSAVGLTAYVMRDPETRE
3 NKSKFVDFQTIKI6QEMPDQVPHGQIP-
RSMDVICDDDLVDKCQPGDRCDVTGIY
4 YGRYNPKKTPMQNIDLPHPILSRFDMI-
FIMKDECDEEQDRMLARHVVYMH
5 MSKDPDIYERLAKSIAPSIYGHEDIKKA-ILCMLFGGVRK
6 SWPITVRQLESMIRLSEAHAKMHCSDF-VEEEDVEEAIRLMQES
Os Ⅰ的功能模体:家族模体+ PQLSMVKY-NCNKCNFVLGPFFQSQNQEVKPGSCPECQSAG-PFEINMEETIYQNYQ
Os Ⅱ的功能模体:家族模体 +FYVGFEGS-FGSHHVSPRTLTACHLNCLVCVEGIVTKCSLV-RPKVIRSVHYCPAT
Os Ⅲ的功能模体:家族模体+MRNLNPE-DIDQLITISGMVIRTSQVIPEMQEAFFQCQVCA-HTTRVEIDRGRIAEP
Os Ⅳ的功能模体:家族模体+IQVMLRS-DANPTNIRQLKSDHMSHLVKIPGIIIAASAVRA-
KATRISIQCRSCRNT
Os Ⅴ的功能模体:家族模体+GVTGLRAL-
GVRDLSYKLVFLAC
Os Ⅵ的功能模体:家族模体+YTCDQCGAE-
TYQPIQSPTFMPLIMCPSQECQTNRSGGRLYM-QTRGS KFIKFQEMK
Fig.7 Schematic alignment of proteins in MCM/P1 family
我们考察了MCM/P1家族模体是否正确。当用旁系同源体集合的模体进行BLAST搜索时,显著同源的蛋白质有80~90种,包括每个直系同源簇的成员;当用直系同源簇的特异模体在上述蛋白质中搜索时,同一簇的蛋白质显示出显著同源性。六个亚家族的检验结果无一例外。用MCM2直系同源簇的功能模体搜索SWISS-PROT的结果显示:所有高分序列均为MCM2直系同源簇的成员(得分均大于70,e值小于4e-13)。同时,我们将MCM2直系同源簇中的MmMCM2抽出来,用剩余的5种蛋白质找到特异模体,再将此模体与MmMCM2作局部序列联配,准确地找到了高分匹配区域(如下):
这些结果再次证明本文提出的用分子进化印记作基因组功能预测的可行性。
3 讨论(Discussion)
通过上述例子的说明,我们已经看到进化分析方法的长处。从简单的同源性搜索到基因组水平上相似性聚集的COG搜索,再到多物种进化分析为基础的直系同源搜索,同源蛋白质的进化关系越来越清楚,而直系同源簇特异模体展现了分子进化的印记,从而能够重新利用快速的搜索算法,在基因组尺度上,对未知基因的功能作出更为精确的预测。
我们在作此项研究时,发现有一些值得深入讨论的问题。首先,除了模体的内容可以作为分子进化印记外,模体的组织,基因的组织,也是与分子进化相关联的。在大规模的运用此方案时,模体的位置关系可能提供附加的功能判定信息。第二,进化印记—功能模体在蛋白质三级结构上已经找到存在的证据[23]。在结构测定和结构预测提供更多结构数据的前提下,我们的方案可向结构模体拓展,以期作出更为精确的基因组功能预测。

|