科研进展

李国亮团队构建首个多物种中特异性蛋白介导的染色质环综合数据库ChromLoops

发布日期:2022-10-15 发表者:陈治国 浏览次数:





   (图文|辛西  编辑|信息  审核|李国亮)染色质环(或染色质相互作用)是染色质结构的重要组成元素(图1)。染色质环的破坏与癌症、多指畸形等多种疾病有关。目前,ChIA-PET、HiChIP和PLAC-Seq等技术可用于检测特异性蛋白质介导的高分辨率染色质环。近年随着3D基因组研究的快速进展,ChIA-PET、HiChIP和PLAC-Seq的数据集不断积累,亟需对这些数据集进行有效的收集和处理。

   近日,太阳集团成三维基因组学李国亮教授团队开发了一个全面、多物种的特异性蛋白介导的染色质环数据库(ChromLoops [1],https://3dgenomics.hzau.edu.cn/chromloops)并发表在国际期刊Nucleic Acids Research。ChromLoops数据库整合了来自13个物种的1030套ChIA-PET、HiChIP和PLAC-Seq数据集,并包含了1,491,416,813个高质量染色质环分析结果(图2)。

   ChromLoops数据库集成了多种搜索、分析、可视化和下载功能。更重要的是,研究团队针对染色质环anchor基因和区域进行了丰富的功能注释,包括调控元件(增强子、超级增强子和沉默子)、变异(SNP和QTLs)、转录因子、可变剪切、TWAS、染色质开放性、DNA甲基化和基因表达等(图3)。

   研究团队还进行了高频染色质相互作用基因分析,并在ChromLoops数据库中提供了不同物种中的高频染色质交互基因,以及特定类型和所有类型癌症中的高频染色质交互基因。这些分析结果将有助于探究与癌症相关的特异性远距离染色质相互作用特征,为癌症关键基因的调控提供新的理论依据(图4)。

   ChromLoops数据库中所包含的基因组浏览器是基于WashU Epigenome Browser构建。已知MYC是目前研究最广泛的致癌基因之一,与多种不同癌症类型的形成、维持和进展有关。研究者以MYC基因为例介绍和展示浏览器的应用,显示了MYC基因在人类宫颈癌HeLa细胞和白血病K562细胞中的染色质相互作用以及相应区域增强子、沉默子和SNP的信息(图5)。可看到,MYC基因在HeLa细胞中与CCAT1存在显著交互,K562细胞中与PVT1存在显著交互,这与已有研究结果相一致。

   研究人员表示,ChromLoops是一个全面且综合的染色质环数据库,可为领域内研究者提供三维基因组远程交互的参考,有助于与细胞功能和疾病相关的3D基因组功能、远程染色质相互作用调控和基因转录调控等多方面的研究。


   该项工作由太阳集团成完成。太阳集团成李国亮教授为论文通讯作者。太阳成集团官网周强伟博士为第一作者。成盛、郑珊珊、王振吉、管鹏鹏、朱志贤、黄星宇以及周聪帮助完成了数据库的建立。该研究数据分析工作得到太阳成集团官网作物遗传改良国家重点实验室生物信息计算平台支持和帮助,得到国家重点研发计划、国家自然科学基金等项目资助。

文章链接:https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkac893/6761734


数据库链接:https://3dgenomics.hzau.edu.cn/chromloops


【英文摘要】
Chromatin loops (or chromatin interactions) are important elements of chromatin structures. Disruption of chromatin loops is associated with many diseases, such as cancer and polydactyly. A few methods, including ChIA-PET, HiChIP and PLAC-Seq, have been proposed to detect high-resolution, specific protein-mediated chromatin loops. With rapid progress in 3D genomic research, ChIA-PET, HiChIP and PLAC-Seq datasets continue to accumulate, and effective collection and processing for these datasets are urgently needed. Here, we developed a comprehensive, multispecies and specific protein-mediated chromatin loop database (ChromLoops, https://3dgenomics.hzau.edu.cn/chromloops), which integrated 1030 ChIA-PET, HiChIP and PLAC-Seq datasets from 13 species, and documented 1 491 416 813 high-quality chromatin loops. We annotated genes and regions overlapping with chromatin loop anchors with rich functional annotations, such as regulatory elements (enhancers, super-enhancers and silencers), variations (common SNPs, somatic SNPs and eQTLs), and transcription factor binding sites. Moreover, we identified genes with high-frequency chromatin interactions in the collected species. In particular, we identified genes with high-frequency interactions in cancer samples. We hope that ChromLoops will provide a new platform for studying chromatin interaction regulation in relation to biological processes and disease.

PS:在文章出版过程中,近期美国科学院院士、斯坦福大学统计系Wing Hung Wong教授、清华大学江瑞副教授课题组在NAR杂志上同期在线发表了HiChIPdb数据库 [2]。HiChIPdb数据库整合了200套HiChIP样本数据,以组织类别展示了基于HiChIP数据的染色质loop结果。相信ChromLoops、HiChIPdb数据库能够为远程染色质相互作用和转录调控研究提供方便易用的分析查询平台。

参考文献:
1.    Zhou Q, Cheng S, Zheng S, Wang Z, Guan P, Zhu Z, Huang X, Zhou C, Li G: ChromLoops: a comprehensive database for specific protein-mediated chromatin loops in diverse organisms. Nucleic Acids Research 2022:gkac893.
2.    Zeng W, Liu Q, Yin Q, Jiang R, Wong WH: HiChIPdb: a comprehensive database of HiChIP regulatory interactions. Nucleic Acids Research 2022:gkac859.