小头 发表于 2017-6-7 18:46:18

从染色体角度解析:植物基因组构建新潮流!



  随着三代PacBio测序和辅助组装新技术的发展,越来越多的基因组构建研究开始采用三代结合新技术的策略。今天小编分享一项该策略构建十字花科植物高质量基因组的研究,并为您介绍植物染色体水平基因组构建策略。





  研究内容及意义

  本研究利用Pacbio技术对三种与拟南芥近缘的十字花科植物(Arabis alpina、Euclidium syriacum和Conringia planisiliqua)分别利用FALCON和PBcR软件进行基因组de novo,并用BioNano光学图谱进行辅助组装,然后对 A. alpina 进行Chicago辅助组装,最终得到高质量的基因组 。

  为了改善组装质量,本研究通过对数据纠错方式和数据使用策略进行调整,使PacBio、BioNano、Chicago组装流程得到优化,其组装结果得到巨大改善,此外,该研究为相同物种不同新技术和相同技术不同组装策略的比较提供了案例。

  组装指标总览

  三个样本三代PacBio测序深度分别为86X、47X和54X,组装前分别利用小片段和三代数据自身进行纠错,并分别用Falcon和PBCR进行组装,两个软件组装Contig N50分别是770kb、3.3Mb、3.6Mb和914kb、975kb、1.5Mb。

  传统组装和纠错方式优化

  本研究采用全新的辅助组装策略,从图1中ABC看出,使用本文中的组装流程与普通流程相比能显著提高基因组组装质量;此外,采用两种方式进行纠错(图1 DEF),进一步保障了基因组组装质量。

  测序错误:利用二代小片段和三代数据进行自身纠错。

  组装错误:利用大片段、遗传图谱、BioNano、Chicago数据进行纠错。

  整合BioNano辅助组装

  通过光学图谱和contig比对可发现很多错误位点,通常做法会舍弃这些alignments,这种方式提升后的N50指标分别为1.4Mb、6.5Mb、6.9Mb;本研究改进后的策略会在错误位点打断,然后进行提升,N50指标分别为1.6Mb、8.9Mb、7.4Mb。进一步改善利用Falcon和PBCR提升后的结果来整合进行提升,其N50可达到2.3Mb、17.5Mb、8.9Mb(表1,图2)。

  整合Chicago组装

  对 A. alpina 利用Chicago数据对三代组装结果进行指标提升,采用传统的策略提升结果N50可达1.3Mb,通过Chicago纠错、整合PBcR数据并参照光学图谱后,N50可达到2Mb(表1)。

  最后利用HiRise整合两种新技术,可使N50提升至3.2Mb,迭代后可达3.8Mb(表1,图3)。

  染色体级别基因组构建策略

  以上研究尽管利用PacBio联合辅助组装新技术的策略得到了十字花科高质量基因组版本,但并没有真正组装至染色体水平,若想进进一步构建染色体级别基因组,加入Hi-C无疑是当前最为快速、有效的手段。

  Hi-C直接利用体内自然状态下的染色体进行文库构建,完美的保留了染色体DNA的完整性,因此产出片段跨度范围大,同时捕获染色体构像,将不同数据聚类并定位到相应染色体,从而将基因组组装到完整的染色体水平,该策略不仅在动物中得到很好的应用,在植物中也能达到很好的效果。

  注:利用Hi-C将山羊最终的染色体级别组装版本ARS1与先前发表的山羊RH图谱进行共线性分析,两者具有很高的的一致性,说明ARS1具有很高的准确性。不同颜色代表不同染色体。

  




  此外,除了已发表的研究外,今年PAG(国际动植物基因组)大会上也已经有研究人员将Hi-C辅助基因组组装用在了葡萄和苋菜上;同样,首创Chicago技术的Dovetail公司也对葡萄、腰果树和咖啡进行了Hi-C辅助组装测试。表2可以看到,在加入Hi-C技术后,基因组的指标有几倍甚至几十倍的提升。











页: [1]
查看完整版本: 从染色体角度解析:植物基因组构建新潮流!