三代测序手艺(PacBio和Oxford Nanopore)可解决基因组重复区域的组装难题,,提高基因组完整性,,已成为发育、再生、肿瘤和其它疾病历程中细胞基因组组装的主流手艺。。其中,,纳米孔(Nanopore)测序手艺的迅速开展更使得测序本钱显著降低,,并且由于其可实现超长读长(高达1Mbp),,在重大基因组组装中具有自然优势。。然而,,现在Nanopore的测序过失漫衍普遍(10-30%,,图1A),,保存高过失局部区域(1000bp中保存50%测序过失,,图1B),,并且高过失局部区域的爆发随着测序读长增添而显著增添(图1C),,从而导致超长文库数据中20-30%的序列保存高过失区域。。现有的过失校正软件只能通过裁剪的方式剔除高过失局部区域,,显著降低了Nanopore序列完整性和组装完整性。。

图 1 Nanopore测序过失漫衍特征
ng电子游戏中山眼科中心肖传乐/刘奕志团队和中南大学王建新团队于2021年1月4日在Nature Communications杂志上联合揭晓题为“Efficient assembly of Nanopore reads via highly accurate and intact error correction”的研究论文,,提出了Nanopore渐进式校正组装模子,,开发了响应软件NECAT,,应用于组装高完整度的视网膜母细胞瘤基因组,,并发明了多个结构变异位点。。
研究者提出了渐进式序列校正战略,,首先选择高精度的序列校正过失率的区域(图2B),,之后优选校正后高精度序列校正高过失局部区域,,从而包管了序列校正速率和完整性(图2C);;另外,,研究者还提出渐进式组装战略,,通过校正后高精度的序列组装基因组骨架(图2D),,之后通过原始序列提升基因组完整度(图2E),,从而包管基因组组装效果的准确性和完整性。。研究者将上述模子开发了NECAT软件,,开放给海内外其它科研职员,,举行长达1年的体验提升。。

图2 NECAT校正组装流程图
随后,,研究者网络了多种模式生物Nanopore数据集举行性能测试,,效果批注:NECAT校正后序列平均精度可达95-98%,,可恢回复始数据中99%的高过失局部区域(HERS),,从而保存了序列长度完整性(表1);;NECAT组装完整性显着高于同类校正组装软件,,且组装过失量显著低于同类软件。。另外,,研究者将NECAT校正效果与多个组装软件连系使用发明:NECAT校正效果显著提高其它Nanopore组装软件的组装质量。。

表1 NECAT序列过失校正性能评估
最后,,研究者完成了视网膜母细胞瘤Nanopore测序,,并应用NECAT组装出了完整度较高母细胞瘤癌症基因组,,通过组装效果发明了许多高精度结构变异(SV)位点,,其许多位点都与现在实验报道和功效预测相符(图3)。。与原始数据SV检测要领相比,,NECAT组装效果检测SV精度显著高于现在SV检测要领。。上述效果批注,,通过NECAT序列校正,,显著降低高过失区域所造成的SV假阳性效果。。

图3 视网膜母细胞瘤基因组染色体图谱及SV位点
综上所述,,本研究提出的渐进式校正组装要领可以有用解决了Nanopore重大测序过失问题,,显著提高了Nanopore数据组装完整性、准确性和数据使用率。。另外,,通过NECAT序列校正,,可以有用降低高过失区域SV的假阳性。。
论文链接:https://www.nature.com/articles/s41467-020-20236-7