良种繁育

基因组预测的序列数据在家畜育种中的应用

日期：10-23 作者：黄选洋译- 小 + 大

摘要：全基因组序列数据的使用在家畜育种计划中具有巨大的潜力，可以提高发现变异基因的能力，同时能更准确和更持久地预测育种值而不是标记阵列。要了解家畜基因组序列数据的全部潜力，需要从大量的个体，甚至要从数百万个个体上获得基因组序列和表型数据，从而准确地估测构成数量性状基础的大量致病变异的影响。

低成本的测序策略结合估测法(imputation)，能够以负担得起的成本为大量个体生成所需基因组序列的信息。低覆盖率使研究人员对大量个体进行基因组测序成为可能，这可以提高变异的发现率，特别是低频率的变异，并能加强根据基因组序列数据对整个群体的估测。

本文介绍了我们在一项研究中所采用的策略，该研究对来自9个商业品系的7 848头猪进行了全基因组测序，这些品系大部分处于低覆盖率范围。随后，我们证明，将该测序策略与“杂交剥离”估测法相结合，是一种可为大群家畜纯种系谱产生全基因组序列数据的有效策略。最后，我们测试了这些大数据集对合成表型的基因组预测的优势。

1 材料和方法

1.1 测序策略

我们对Genus plc公司的9个商业品系(PIC猪商业品系，公司位于美国田纳西州亨德森县)的7 848头猪的全基因组进行了测序。测序时，我们从每个品系中选择约2％(1.7％～2.5％)的猪。结果表明，大多数猪处于低覆盖率，目标覆盖率为1倍或2倍，一小部分猪处于较高的覆盖率，分别为5倍、 15倍或30倍。个体的平均覆盖率为4.1倍，但中位数为1.5倍。我们使用三步策略选择个体和这些个体的覆盖范围：

第一步：在纯种系谱中贡献最多基因型后代的父系和母系分别拥有2倍和1倍的覆盖率。

第二步：AlphaSeqOpt法第1部分用于识别在种群单倍型中占有最大比例的单倍型个体，并在控制总成本的前提下，为它们及其祖先分配一个介于0倍至30倍的最优水平的测序覆盖。

第三步：AlphaSeqOpt法第2部分用于识别累计覆盖率低(低于10倍)的单倍型个体，并对这些个体进行1倍测序，以增加单倍型的累计覆盖率(即大于或等于10倍)。

AlphaSeqOpt法使用根据阶段性标记阵列基因型推断的单倍型。

1.2 发现变异

将测序结果与Sscrofa 11.1参考基因组进行比对，利用一个基于GATK 3.8的Haplotype-Caller工具的数据来源找出变异。为了避免在应用低覆盖率序列数据时对GATK引入的参考等位基因产生误差，我们利用堆积函数提取了支持该等位基因的读取数，结果从这9个品系中共发现了6 000万个单核苷酸多态性(Single Nucleotide Polymorphisms，SNPs)。

1.3 估测全基因组序列数据

使用商业标记阵列对每个群体中的大多数个体进行基因分型，拥有15 000个低密度(Low Density，LD)或75 000个高密度(High Density，HD)全基因组标记。正如用AlphaPeel法测算的那样，采用杂交剥离估测法分别估测每个群体的全基因组序列。该方法通过两阶段，降低估测成本：

• 多轨迹迭代剥离，可以根据数组中的该标记估计分离概率。

• 改进的单位点迭代剥离，可以基于序列数据旁侧数组的该标记的估测值，利用该序列数据大致估计任何其他变异位点上的分离概率。由于每条染色体中重组基因的数量有限，以及附近标记共同被遗传的概率很高，这种大致估测的精度损失可以忽略不计。9个品系估测出的猪总数约为35万头。

为了评估估测的准确性，我们使用了来自4个大小不同的群体在高覆盖率(15倍或30倍)下测序的284个个体。被检测个体的序列数据用留一法设计(leave-one-out design)可以完全掩盖。将估测的等位基因剂量与获得完整数据的等位基因剂量进行比较，认为是“真”值。

上一篇：宠物兔如何引进种公种母?

下一篇：青海选育二十载牦牛有了新品种