叶凯(右一)和团队科研人员在实验室工作。 资料照片
“20多年来,国际植物研究领域中拟南芥参考基因组的标准一直由欧美国家定义,我们团队实现的拟南芥基因组质量是目前国际上的最高标准!”西安交大信息与生物医学交叉团队首席科学家叶凯自豪地说。
完整组装拟南芥基因组是当今科学界亟待破解的世界难题。该团队经过半年多研究,实现了仅剩两个缺口、碱基精度为99.9999%的高质量拟南芥基因组Col-XJTU。该基因组以哥伦比亚(Columbia)生态型和西安交通大学英文缩写命名,凸显了西安交大科研团队在拟南芥基因研究中的重要贡献,也为世界植物基因组学研究提供了中国智慧。
9月3日,该研究成果以“基于HiFi和ONT超长读长的拟南芥高质量基因组组装”为题,发表在国际生物信息学著名学术期刊《基因组蛋白质组与生物信息学报》。西安交大电信学部自动化学院教授叶凯、计算机学院副教授杨晓飞为论文共同通讯作者,自动化学院助理教授王博为第一作者,信息与生物医学交叉团队的多名博士和硕士研究生参与了该项研究工作。
值得一提的是,《基因组蛋白质组与生物信息学报》是由中国科学院主管的英文学术期刊。叶凯表示:“我们将所有的数据、研究成果发表在国内期刊,就是想把论文写在祖国的大地上,把拟南芥参考基因组的话语权掌握在自己手里!”
世界植物基因组学研究的中国智慧
旨在破译生命遗传密码的人类基因组计划是一项规模宏大,跨国、跨学科的科学探索工程,被誉为生命科学的“登月计划”。人类基因组计划在研究人类的过程中建立起来的策略、思想与技术,构成了生命科学领域新的学科——基因组学,可以用于研究微生物、植物及其他动物。
拟南芥的研究属于植物基因组研究范畴。拟南芥因其植株小、易繁殖、生长期短等特性,为遗传研究提供了极大的便利,在植物研究领域具有重要的地位,被科学家选为模式植物。目前,全世界有一半的植物学家、近万家实验室正在对拟南芥进行遗传分析、基因克隆和功能基因组等科学研究。这些研究成果可为粮食增产、农作物抗逆、植物保护等作出重要贡献。
在遗传研究中,基因的分析往往依赖于参考基因组。理论上,参考基因组应该是一个物种的全基因序列,但实际上,只有极少数动植物有100%的参考基因组。目前,拟南芥参考基因组还存在大量的缺失序列,尤其是在细胞分裂过程中起到重要作用的着丝粒序列和与衰老相关的端粒序列。这些序列存在大量高度重复的片段,给基因组组装带来了巨大困难,阻碍了科学家对该区域序列及其功能的研究。
西安交大信息与生物医学交叉团队以人工智能算法开发、生物医学大数据挖掘为手段,设计了综合利用不同测序技术优势的混合测序策略,提出细菌人工染色体为锚点的序列替换新策略,实现了仅剩两个缺口的高质量拟南芥基因组Col-XJTU。王博介绍:“拟南芥共有5条染色体,团队研究的Col-XJTU基因组完成了三号、四号及五号染色体着丝粒的无缺口组装,并完成了一号和二号染色体大部分着丝粒的组装。”
基因组的碱基准确性和结构准确性是评估参考基因组质量的指标。数据显示,Col-XJTU基因组的碱基准确性和结构准确性均高于目前国际通用的、由美国实现的拟南芥参考基因组TAIR10.1。
学科交叉,结出丰硕成果
西安交大信息与生物医学交叉团队隶属于叶凯青年科学家工作室。2016年3月,西安交大成立首个以科学家命名的青年科学家工作室,叶凯担任首席科学家。该工作室从事大数据挖掘、算法设计、细胞工程、基因组学等多领域的交叉研究工作,产出了多项原创性成果。2018年,叶凯领衔中英科学家以西安交大为第一作者单位在世界顶级期刊《科学》发表的“鸦片罂粟基因组及吗啡喃的合成”项目,在国际上首次公布了鸦片罂粟的高质量全基因组序列,引起行业内广泛关注。
此次团队实现的高质量拟南芥基因组Col-XJTU是又一项学科交叉研究成果。“作为学校学科交叉研究的试点团队,我们希望能继续在不同学科汲取营养,结出更加丰硕的科研成果。”叶凯说。
团队中来自不同专业背景的研究人员,经过交流研讨,在无数次的测试、优化中寻求组装拟南芥参考基因组的最优策略。杨晓飞介绍:“基于团队在鸦片罂粟及人类基因组组装所积累的经验,我们今年3月对拟南芥基因组做了初步组装,后又通过灵敏的、高精度的算法,捕捉到片段之间细小的差异,对组装进行了进一步优化。”
今年5月底,同时研究拟南芥参考基因组的剑桥大学、约翰斯·霍普金斯大学等科研团队在生命科学预印本平台“bioRxiv”上公开了他们的研究进展。“在预印本平台公开成果等于是在相关研究领域率先插了一面旗子。随后一周,我们也在‘bioRxiv’公布了成果。”叶凯介绍,“后来的研究数据证明,我们的拟南芥基因组组装质量比他们的高出很多。这说明我们现在把旗子插稳了!我们的成果使得拟南芥基因组染色体着丝粒和端粒方面的研究有了质的飞跃。”
组装完整的基因组面临的挑战,往往是那些测序技术无法区分的重复序列,也是目前西安交大信息与生物医学交叉团队实现的Col-XJTU拟南芥基因组还有两个缺口的原因。“我们要敢为人先,向‘无人之地’发起挑战。我们相信,继续努力,一定会有更大的突破!”王博说。