2万多个人类基因能编码多少蛋白质
发布时间:2015-08-11
发布人:
健康报
选择阅读字号:[
大
中
小 ]
人类基因组编码的蛋白质数量不少于20万个。上海交通大学生命科学技术学院韦朝春副教授领衔的研究团队,通过DNA序列并结合其他证据预测人类基因组蛋白质得出上述结论。以博士研究生胡智强为第一作者的相关学术论文,日前在线发表于《自然》系列刊物《科学报告》上。专家认为,该研究提高了对基因组复杂性的理解,为生物医学研究提供了更完整的人类参考基因组注释。
据介绍,目前人们已经知道能够编码蛋白质的人类基因数量是2万多个,但由于可变剪切机制,同一个基因可以表达成多个不同的蛋白质,这2万多个人类基因究竟能编码多少个蛋白质目前仍是个谜。虽然各种高通量测序方法进展飞速,但很多蛋白质只在特定组织、一定的发育阶段或者特定条件下才表达,因此通过实验的方法检测人类所有蛋白质,在目前技术条件下几乎不可能。然而,从人类基因组序列直接预测蛋白质序列的方法可以避免这个缺陷。
韦朝春研究团队首先开发了一个直接从基因组序列从头预测可变剪切的方法,结合现有的海量基因表达数据,包括转录组和蛋白质组数据,找到了约3万个现有数据库中没有的蛋白质序列。随机抽样并设计实验验证表明,约85%的预测结果可以得到实验验证。这些蛋白质序列使现有数据库中完整的蛋白质序列数量增加到约9万个。和公共数据库中已有的蛋白质相比,这些新发现的蛋白质的表达具有更高的组织特异性,表达量相对较低,因而也更难被发现。根据这些结果,科研人员预测人类基因组编码的蛋白质数量不少于20万个。
澳大利亚阿德莱德大学、美国范德堡大学、中国第二军医大学和上海生物信息技术研究中心参与了该项目的合作研究。
据介绍,目前人们已经知道能够编码蛋白质的人类基因数量是2万多个,但由于可变剪切机制,同一个基因可以表达成多个不同的蛋白质,这2万多个人类基因究竟能编码多少个蛋白质目前仍是个谜。虽然各种高通量测序方法进展飞速,但很多蛋白质只在特定组织、一定的发育阶段或者特定条件下才表达,因此通过实验的方法检测人类所有蛋白质,在目前技术条件下几乎不可能。然而,从人类基因组序列直接预测蛋白质序列的方法可以避免这个缺陷。
韦朝春研究团队首先开发了一个直接从基因组序列从头预测可变剪切的方法,结合现有的海量基因表达数据,包括转录组和蛋白质组数据,找到了约3万个现有数据库中没有的蛋白质序列。随机抽样并设计实验验证表明,约85%的预测结果可以得到实验验证。这些蛋白质序列使现有数据库中完整的蛋白质序列数量增加到约9万个。和公共数据库中已有的蛋白质相比,这些新发现的蛋白质的表达具有更高的组织特异性,表达量相对较低,因而也更难被发现。根据这些结果,科研人员预测人类基因组编码的蛋白质数量不少于20万个。
澳大利亚阿德莱德大学、美国范德堡大学、中国第二军医大学和上海生物信息技术研究中心参与了该项目的合作研究。