三代测序技术对真核生物基因组组装的作用
北京看白癜风好专科医院 http://m.39.net/pf/bdfyy/bjzkbdfyy/ 摘要 二代测序对于无参考基因组的物种来讲是一个高性价比的测序技术,但基因组序列未知的物种占绝大多数。本研究利用三代测序技术,重新构建红豆(Vignaangularis)高质量的基因组序列图谱。三代测序技术较二代测序技术的conting提升倍的同时,gap数减少了倍。细致化的二三代技术间的相互比较可以明确地看出二代测序技术组装版本的基因缺失和片段化。本文采用三代测序技术组装出86%的红豆基因列,尽管仍需二代数据支持,但三代测序的组装版本几乎接近了真核生物基因组的全部组装。 研究背景基因组测序耗费巨大的人力和财力,但二代测序不能对复杂基因组的解决能力有限。三代基因组的平均读长为10Kb,对于二倍体人的基因组组装指标N50已达4.3Mb。对于无参考基因组物种的denovo组装,获得高密度的遗传图谱也非常重要,在已有基因组测序的物种中,仅有30%-60%的物种将conting/scaffold锚定至染色体。 研究目的本文选用东亚第二大谷类作物--红豆(Vignaangularis)为研究材料,红豆已大面积种质以保证其质量,免受低温和疾病胁迫。,但已报到的基因组序列只组装出基因组的70%,50%锚定至染色体,其限制了红豆相关性的分子生物学研究。采用三代测序技术构建高质量基因组序列图谱,对解决染色体锚定和物种进化都具有重要作用。 研究结果1二代测序基因组组装 采用Roche和Illumina二代测序平台,采用k-mer(k=25)分析,评估基因组大小为Mb,略大于C-value-based评估结果(0.55/C=Mb)。 组装版本1:采用Roche和Illumina测序平台,获得conting42,条,基因组覆盖度84%,N50为10.7Kb。组装为scaffold补洞后scaffoldN50为.4kb。 组装版本2:至采用Illumina平台,ALLPATHS-LG组装软件,获得46,contigs和3,scaffolds,基因组覆盖度分别为72.0%和87.6%。 2构建高密度遗传图谱 对野生型V.Nepalensis进行测序,利用其构建作图群体,获得F2代株植株,得到11个连锁群的个标记,标记的平均聚类与0.12cM,最大的gap为3.0cM。 3scaffold锚定染色体 组装版本1:8,条scaffold锚定到染色体,覆盖基因组的85.6%,但是有个标记存在矛盾性。表明1/3的scaffold锚定位点可能存在错误。 组装版本2:条scaffold锚定到染色体,但覆盖度为93.6%,其中1/5锚定到的scaffold扔存在错误。 4三代基因组测序 测序深度:51X,read平均读长为5.4Kb,最长为39.4Kb,4,条contigs覆盖基因组97.1%(Mb),N50为kb,最长的conting为7.5Mb,其长度均为二代测序的30倍。 5三代测序组装验证 将测序得到的4,条contigs中的条锚定到染色体上。覆盖度为83.1%,只有19个矛盾位点。与二代测序比对,存在个替换位点,8,个插入位点,38,个缺失位点。随机挑选91个indel信息利用一代测序验证,证明二代测序关于indel鉴定信息的正确性,尽管所有的替换位点在重复序列无法验证。并在拟南芥、黑腹果蝇已公布的PacBio信息中也同时证明该结果的存在。故用二代数据纠正三代数据的indel信息。 6最终的组装版本 组装版本3:整合所有的版本,2,scaffolds覆盖基因组Mb(95.2%),条scaffold锚定到染色体,覆盖基因组Mb(85.6%)。染色体长度范围从28.9Mb(LG10)to67.1Mb(LG1),染色体的gap比例为1.9%。 表1三个不同版本的组装指标图1三个组装版本的NG图 7注释 重复序列注释数量最大的为Assembly_3,最小的为Assembly_2。三个版本中重读序列所占比例分别为:Mb(43.0%)、Mb(35.1%)、Mb(50.6%)。重复在一定程度上反应了唯一结构注释的基因组序列的大小,其分别为:Mb,Mb,Mb。整合不同组织RNA样本的转录组数据进行注释,在Assembly_3版本中注释出编码蛋白基因31,个,其中30,genes(97.5%)锚定至染色体。 为了评估组装的完整性和准确性,筛选真核生物核心基因(CEGs)进行后续分析。CEGs在三个版本中的数量分别为,and。尽管其数量差距不大,但基于二代测序的CEGs长度比Assembly_3版本短10–20%,并且因为其中gaps和低质量的组装版本,在其中发现了大量的错误注释信息。例如图2b中,Vigan.02G030和Vigan.03G注释信息差异。 图2注释信息统计 8红豆基因组与其他豆科植物基因组完整性比较 已经发表的豆科植物基因组包括:大豆(Glycinemax)、苜蓿(Medicagotruncatula)、绿豆(V.radiata)、菜豆(Phaseolusvulgaris)、鹰嘴豆(Cicerarientinum)、木豆(Cajanuscajan)、红豆(Cajanuscajan)。尽管所以的版本中均含有96%的CEGs,锚定至染色体的CEGs基因却有不同。 表2红豆基因组组装版本与其他豆科植物的组装结果比较 图3不同豆科植物基因组组装结果比较 9红豆基因组的特点 构建了近乎完整的基因组序列图谱和高密度的遗传图谱,即可统计基因密度、重复序列数量、重组频率等数据。 图4.Anoverviewoftheazukibeangenome 文库构建策略 更多资讯请 |
转载请注明地址:http://www.hongtiankui.com/htkzpjs/8344.html
- 上一篇文章: 红豆配一宝,有哪些好处,这个你肯定不知道
- 下一篇文章: 消肿祛湿养血减肥红豆薏米汤的功效竟