(图文|周强伟 编辑|辛西 审核|李国亮)3月17日上午,太阳集团成“Happy Hour”2023年度第4期学术交流会在逸夫楼C314会议室举行。受副经理李国亮教授邀请,香港中文大学Wing-Kin Sung(宋永健)教授作了题为“Repeat-aware insertion calling and its application in human and Arabidopsis”的学术报告。报告吸引了众多师生参与。
Wing-Kin Sung教授首先介绍了不同类型的基因组结构变异(SV)及其对疾病的影响。相较于单碱基变异等基因组突变,结构变异数目少,但会影响更多基因组区域。基因组结构变异会造成基因缺失/增加、基因融合、病毒整合等事件,进而导致包括癌症在内的各种疾病。如由乙肝病毒(HBV)整合到人类基因组引起的基因组结构变异,是肝癌产生的重要原因;多种白血病中,由于基因组结构变异产生融合基因,从而导致白血病;植物中,基因组结构变异可导致不同表型或生长异常。因此,结构变异检测是一个重要的科学问题。
Wing-Kin Sung教授介绍了不同时期结构变异检测的原理和方法。随着新一代高通量测序技术发展,利用二代测序或三代测序数据检测结构变异已成为主流。近年来,利用新测序技术,Wing-Kin Sung教授研究团队在结构变异检测算法方面取得系列成果。他重点介绍了他们团队开发的两款基因组结构变异检测软件:TranSurVeyor和INSurVeyor。这两款软件可利用高通量测序数据检测非参考基因组插入序列,如HBV病毒的插入等。
TranSurVeyor是一款non-reference转座子检测软件。传统基于数据库的方法非常依赖参考转座子数据库。而不依赖数据库的方法则是一种全新检测方式,但由于高度重复的基因组结构和短读长等因素,该方法误差率高且无法检测新转座子。为提高检测精度,TranSurVeyor引入了“one-end remapping”策略,实现了短读长的再比对,以修正在插入序列区域的比对误差。同时,TranSurVeyor还引入了“SNV-aware filter”来减少一些因序列变异造成的错误比对,通过结合聚类和正负比例过滤等多种技术,TranSurVeyor的F1-score相较于其他方法提高至少3倍。更重要的是,TranSurVeyor即使在没有使用转座子数据库情况下,其检测效果仍不亚于其他依赖数据库的检测方法。
INSurVeyor是Wing-Kin Sung教授提出的另一种插入片段检测软件。该软件包括参考基因组引导的组装模块、局部重新组装模块、一致性重叠分析模块等,可通过Illumina配对末端全基因组测序数据检测不在参考基因组中的插入片段,如染色体异位和病毒整合,这些插入片段可能对诊断遗传疾病非常重要。
随后,Wing-Kin Sung教授介绍了这些工具在拟南芥中的应用。他们团队与太阳集团成杨庆勇教授合作,通过整合4个已发表方法开发出高性能的大片段InDel鉴定工具,并将其应用于由1047个拟南芥品系构成的自然群体中,通过全基因组关联分析(GWAS)鉴定到与重要性状相关的、新的大片段InDel。相比于拟南芥中已开发的工具AthCNV,IndelEnsembler在鉴定缺失变异(DEL)和重复变异(DUP)时准确性分别提高100%和30%。
最后,Wing-Kin Sung教授将INSurVeyor 应用在千人基因组计划的样本中,发现了位于内含子 ALU 中的、致病性的STR 扩增,这些扩增在常规基因组测序和分析中很难被发现和注释。Wing-Kin Sung教授开发的一系列基因组变异检测软件能准确、高效地检测出传统方法无法检测出的变异,从而有望成为新一代基因组学研究的重要工具。
此次报告引起现场师生极大关注,Wing-Kin Sung教授就研究结果与大家进行了深入交流探讨,会议在愉悦氛围中结束。