(文|谢文召 王朔 审核人|张红雨)6月22日,公司作物遗传改良国家重点实验室水稻研究团队联合广西大学、美国堪萨斯州立大学等多所高校合作完成籼稻珍汕97和明恢63的无缺口(gap-free)参考基因组,系统分析了着丝粒结构和位于11号染色体末端水稻抗性相关的结构变异区域。相关研究以“Two Gap-free Reference Genomes and a Global View of the Centromere Architecture in Rice”为题发表于Molecular Plant。
亚洲栽培稻主要分籼稻和粳稻两大类,其中,籼稻占全球水稻产量70%以上,且比粳稻具有更多遗传多样性。过去30年中,籼稻品种ZS97和MH63已成为水稻育种和基因组学重要模型系统,其杂交后代汕优63(SY63)是我国迄今种植面积最广的杂交水稻。本研究以ZS97和MH63为对象,采用高深度HiFi和CLR测序,结合多种组装方法和策略,完成它们无缺口基因组的组装解析,并对新的序列进行了精确注释,为阐明杂种优势机理夯实了基础。
两套无缺口参考基因组的共线性比较
通过比较两个水稻基因组各条染色体上的变异区域,研究团队发现在两者在11号染色体长臂末端存在大量结构变异(SVs),MH63中存在一个820 kb扩展区域(MH-E)和一个860 kb插入区域(MH-I),富含大量抗性相关基因。进一步在15个高质量水稻基因组中比较分析,发现它们均没有同时含有完整的MH-E和MH-I区域,MH63的独特基因组特征可部分地解释其对水稻病害的优良抗性。
研究团队首次定位了水稻完整的着丝粒区域,发现ZS97和MH63不同染色体的着丝粒区长度从0.6 Mb到1.8 Mb不等,差异很大。ZS97和MH63中着丝粒周边区域(着丝粒特异组蛋白CenH3的ChIP-Seq信号富集区)分别含有395和539个non-TE基因,其中约41%的基因转录并在多个组织中表达,而富含CentO重复序列的区域non-TE基因转录比例极低,表明大多数活跃转录的基因位于着丝粒的周围区域。在ZS97和MH63着丝粒区域分别鉴定到40和25个在其他水稻基因组中没有的基因,其中一些基因是这两个基因组所特有的,而有些则是由于其他水稻参考基因组的组装不完整而被遗漏的基因。CentO系统发育树分析表明,相同染色体之间比不同染色体之间的CentO相似性更高,支持CentO序列局部同质化的重复扩增事件模型。对着丝粒结构和基因含量的详细研究,尤其是对功能性着丝粒区的基因及其家族分析,将为解析杂种优势机理提供更全面的基础。
水稻是全世界主要主食之一,也是植物基因组学和育种的模型系统,是近20年前第一个测定基因组的作物。然而,迄今为止所有正式发表的高等生物参考基因组都包含缺口/缺失序列,公司水稻团队早在2020年底率先在BioRxiv(https://www.biorxiv.org/content/10.1101/2020.12.24.424073v2) 预印公布了两个籼稻的无缺口参考基因组序列,填补了全球基因组学领域空白。此次正式见刊报道的成果是植物中首例无缺口参考基因组,不仅为全面解析水稻着丝粒的结构和功能提供机会,促进了解植物的基因组结构和功能,而且对利用基因组育种手段培育21世纪农业气候适应性品种具有长期和持久影响。
公司博士毕业生宋佳明(现广西大学预聘副教授)、博士研究生谢文召和王朔为共同第一作者,美国堪萨斯州立大学Jesse Poland副教授、公司张建伟教授和广西大学陈玲玲教授为论文共同通讯作者。水稻研究团队张启发院士和美国亚利桑那大学Rod A. Wing教授参与项目指导。本研究得到国家重点研发计划、国家自然科学基金、湖北省自然科学基金创新群体、中央高校基本科研业务费专项资金和公司作物遗传改良国家重点实验室生物信息计算平台的支持。
ABSTRACT
Rice (Oryza sativa), a major staple throughout the world and a model system for plant genomics and breeding, was the first crop genome sequenced almost two decades ago. However, reference genomes of all higher organisms to date contain gaps and missing sequences. Here, we report, for the first time, the assembly and analyses of gap-free reference genome sequences of two elite O. sativa xian/indica rice varieties ‘Zhenshan 97 (ZS97)’ and ‘Minghui 63 (MH63)’ that are being used as a model system for studying heterosis and yield. Gap-free reference genomes provide the opportunity for a global view of the structure and function of centromeres. We show that all rice centromeric regions share conserved centromere-specific satellite motifs with different copy numbers and structures. In addition, the similarity of CentO repeats in the same chromosomes is higher than across chromosomes supporting a model of local expansion and homogenization. Both genomes had over 395 non-TE genes located in centromere regions, of which ∼41% are actively transcribed. Two large structural variants at the end of chromosome 11 affected the copy number of resistance genes between the two genomes. The availability of the two gap-free genomes lays a solid foundation for further understanding genome structure and function in plants and breeding climate resilient varieties.
原文链接:https://www.cell.com/molecular-plant/fulltext/S1674-2052(21)00230-6