摘要:全基因组序列数据的使用在家畜育种计划中具有巨大的潜力,可以提高发现变异基因的能力,同时能更准确和更持久地预测育种值而不是标记阵列。要了解家畜基因组序列数据的全部潜力,需要从大量的个体,甚至要从数百万个个体上获得基因组序列和表型数据,从而准确地估测构成数量性状基础的大量致病变异的影响。 低成本的测序策略结合估测法(imputation),能够以负担得起的成本为大量个体生成所需基因组序列的信息。低覆盖率使研究人员对大量个体进行基因组测序成为可能,这可以提高变异的发现率,特别是低频率的变异,并能加强根据基因组序列数据对整个群体的估测。 本文介绍了我们在一项研究中所采用的策略,该研究对来自9个商业品系的7 848头猪进行了全基因组测序,这些品系大部分处于低覆盖率范围。随后,我们证明,将该测序策略与“杂交剥离”估测法相结合,是一种可为大群家畜纯种系谱产生全基因组序列数据的有效策略。最后,我们测试了这些大数据集对合成表型的基因组预测的优势。 1 材料和方法 1.1 测序策略 我们对Genus plc公司的9个商业品系(PIC猪商业品系,公司位于美国田纳西州亨德森县)的7 848头猪的全基因组进行了测序。测序时,我们从每个品系中选择约2%(1.7%~2.5%)的猪。结果表明,大多数猪处于低覆盖率,目标覆盖率为1倍或2倍,一小部分猪处于较高的覆盖率,分别为5倍、 15倍或30倍。个体的平均覆盖率为4.1倍,但中位数为1.5倍。我们使用三步策略选择个体和这些个体的覆盖范围: 第一步:在纯种系谱中贡献最多基因型后代的父系和母系分别拥有2倍和1倍的覆盖率。 第二步:AlphaSeqOpt法第1部分用于识别在种群单倍型中占有最大比例的单倍型个体,并在控制总成本的前提下,为它们及其祖先分配一个介于0倍至30倍的最优水平的测序覆盖。 第三步:AlphaSeqOpt法第2部分用于识别累计覆盖率低(低于10倍)的单倍型个体,并对这些个体进行1倍测序,以增加单倍型的累计覆盖率(即大于或等于10倍)。 AlphaSeqOpt法使用根据阶段性标记阵列基因型推断的单倍型。 1.2 发现变异 将测序结果与Sscrofa 11.1参考基因组进行比对,利用一个基于GATK 3.8的Haplotype-Caller工具的数据来源找出变异。为了避免在应用低覆盖率序列数据时对GATK引入的参考等位基因产生误差,我们利用堆积函数提取了支持该等位基因的读取数,结果从这9个品系中共发现了6 000万个单核苷酸多态性(Single Nucleotide Polymorphisms,SNPs)。 1.3 估测全基因组序列数据 使用商业标记阵列对每个群体中的大多数个体进行基因分型,拥有15 000个低密度(Low Density,LD)或75 000个高密度(High Density,HD)全基因组标记。正如用AlphaPeel法测算的那样,采用杂交剥离估测法分别估测每个群体的全基因组序列。该方法通过两阶段,降低估测成本: • 多轨迹迭代剥离,可以根据数组中的该标记估计分离概率。 • 改进的单位点迭代剥离,可以基于序列数据旁侧数组的该标记的估测值,利用该序列数据大致估计任何其他变异位点上的分离概率。由于每条染色体中重组基因的数量有限,以及附近标记共同被遗传的概率很高,这种大致估测的精度损失可以忽略不计。9个品系估测出的猪总数约为35万头。 为了评估估测的准确性,我们使用了来自4个大小不同的群体在高覆盖率(15倍或30倍)下测序的284个个体。被检测个体的序列数据用留一法设计(leave-one-out design)可以完全掩盖。将估测的等位基因剂量与获得完整数据的等位基因剂量进行比较,认为是“真”值。 |
上一篇:宠物兔如何引进种公种母?
下一篇:青海选育二十载牦牛有了新品种