植物所科研人员开发了基因组组装质量评估和改进的新方法

近年来,随着测序技术和算法的开发,大量动植物基因组被陆续测序和组装,但是基因组组装质量参差不齐,存在不同程度的组装错误,影响了后续的相关研究。高质量的参考基因组对于基因的精准注释和功能研究以及比较基因组学和调控元件的挖掘等至关重要。虽然目前已经有一些基因组组装质量评估的方法,然而它们大多数仅提供了一个概述性的评估值,没有能够针对特定区域设置特定碱基给出精准度的评估。

中国科学院植物研究所焦远年研究组研究开发了一种新的不依赖参考基因组的组装质量评估工具CRAQ (Clipping information for Revealing Assembly Quality),可以在单碱基水平检测和评估基因组序列的精准度,并提供了相关纠错方案。

CRAQ通过将原始测序序列比对到组装的基因组上,基于序列比对产生的有效剪切对齐(clipping alignment)信息,精准地检测基因组中存在的组装错误。结合SMS长读长测序片段和NGS短读长测序片段与基因组比对的特征,CRAQ可以识别基因组内小规模的区域组装错误(CREs)和大范围的结构组装错误(CSEs)。不同类别的错误数量经过统计和标准化处理后被转化为两个组装质量评估指标:R-AQI和S-AQI,以反映不同层面的基因组组装质量。

此外,CRAQ能够将组装错误与基因组内的高杂合区域或单倍型差异区分开来,并在单碱基分辨率下指示低质量组装区域和潜在错误断点的位置。因此CRAQ能够帮助研究人员识别基因组中存在的嵌合片段,并将这些片段准确地拆分,以利于结合光学图谱或构象捕获(Hi-C)技术进一步构建结构更加准确的参考基因组。

相关成果于10月17日发表于国际学术期刊Nature Communications。植物所博士研究生李鹍鹏为论文第一作者,焦远年研究员为通讯作者,在读博士研究生徐鹏、已毕业博士研究生王金朋和助理研究员易欣参与了研究工作。研究得到了国家重点研发计划、国家自然科学基金、中国科学院青年交叉团队等项目的资助。

文章链接:

https://www.nature.com/articles/s41467-023-42336-w

(进化实验室供稿)


参考基因组组装质量评估的新方法


附件下载: