基因组选择的流程:
GS一般包括以下步骤(图1):首先建立参考群体(reference population),参考群体中每个个体都有已知的表型和基因型,通过合适的统计模型可以估计出每个SNP或不同染色体片段的效应值;然后对候选群体(candidate population)每个个体进行基因分型,利用参考群体中估计得到的SNP效应值来计算候选群体中每个个体的GEBV;最后,根据GEBV排名对个体进行选留,待选留个体(selected candidates)完成性能测定后,这些个体又可以被放入参考群体,用于重新估计SNP的效应值,如此反复。
研究目的:
基因组选择方法精准,快速的估计出基因组育种值,是通过高效的统计模型来完成,下面例举一下这些高效统计模型GS:
GS实质为全基因组范围的标记辅助选择,其理论基础是应用整个基因组的标记信息和各性状值来估计每个标记或染色体片段的效应值。然后将效应值累加和继而得到基因组育种值(GEBV),对GEBV值作出可靠的评估,弥补了在MAS中标记数量只能解释一部分遗传方差以及数量性状位点(QTL)定位难的问题。其中心任务是提升GEBV的准确性,并尽可能准确估计每个标记的效应。
GS方法分为两大类:直接型,间接型
2)直接型:参考群体和预测群体遗传信息构建的亲缘关系矩阵(G),作为随机效应的混合模型获取戴预测个体的估计育种值,如BLUP法,利用系谱信息构建个体间的亲缘关系矩阵作为随机效应,利用混合线性模型对随机效应进行预测BLUP,获得个体的估计育种值,相比于基于系谱构建的亲缘关系矩阵,G更能够反应个体间的遗传信息差异,我们称之为gBLUP
3)间接型:首先在参考群中估计标记效应,然后结合预测群的基因型信息将标记效应累加获得预测群的个体估计育种值,如代表性的方法:rrBLUP,Bayes系列(Lasso,Bayes A,BayesB,Bayes C,Bayes Cπ),他假设所有的标记都拥有同样的方差,Bayes的计算复杂度高。
影响GS的因素
1)标记类型和结构:SNP标记为主
2)标记密度:GS的准确性与密度成正比
3)资源参考群中的表型测定数:GS的准确性随着表型测定数的增加而增加
4)估计标记效应的世代数:成正比
5)性状的遗传特性:一般认为GS对低遗传力性状的选择更有利
6)资源参考群与预测群体的遗传距离
相关GS应用
1)Christensen 利用60000个丹系杜洛克猪群体上的SNPs,评估了料重比中GBEV的准确性,得出GEBV比基于血缘所得到的EBV的准确性更高
2)
GBLUP方法
GBLUP和一步法, 都属于GBLUP方法.
GEBV的方法是通过构建基因组关系矩阵(G矩阵)替换基于系谱信息构建的分子血缘关系矩阵(numerator relationship matrix, NRM或A矩阵),进而使用最佳线性无偏预测(best linear unbiased prediction, BLUP)方法直接估计GEBV,即GBLUP法。VanRaden[16]提出了G矩阵的构建方法,将SNP基因型进行编码,纯合基因型分别编码为1和-1,杂合基因型为0,假设pi为位点i的第二个等位基因的频率,则每个基因型编码后的值减去相应的处于哈代-温伯格平衡(Hardy-Weinberg equilibrium, HWE)时的均值2×(pi-0.5),得到Z矩阵,按照公式 (1-1)即可计算得到G矩阵:
与贝叶斯方法相比,GBLUP不需要先利用参考群体估计SNP标记效应,再计算GEBV;而是可以直接将有表型及无表型个体可以放在同一个模型中,同时估计出有表型和无表型个体的GEBV及其准确性[50]。从计算速度来讲,GBLUP比Bayes方法快很多,因此更加适用于现场应用时快速获得GEBV[51]。Azevedo等[52]比较了GBLUP与几种改进的Bayes LASSO之间的准确性,通过对多种不同遗传力、不同遗传基础性状的GEBV估计,认为GBLUP总体上表现最好,其次是BayesA或BayesB。
我看也有文献说是BayesB最好, 不过应用最广以及价值最大的目前是GBLUP没错
。。。。。其他的不一一例举了。
全基因组测序数据处理方法:
1.测序数据处理过程
对原始测序fastq文件进行处理需要进行mapping比对本无种参考序列的fasta格式,通常使用bwa工具,然后通过其他工具转换变成可以分析的基因型数据
GS的作用与展望
作为在传统育种方法和NAS基础上发展起来的新一代育种技术,GS实现了对候选个体从表型选择到基因组选择的突破,解决了动物个体肉质和抗性等性状难以选育的技术障碍,还可以实现低成本的早期选择。而且对迷住进行GS会大大提高种猪的繁殖性能。,但是GS在猪育种中同样也遇到的很多挑战:
1)GS的测序费很高,因为基因芯片分型成本高,GS的应用范围无法扩大
2)GS需要对数万个标记的效应进行估计,算法复杂度高,操作麻烦
3)计算时间长,获取GEBV的时间过长
GS方法对比与应用场景
随着商业化高密度SNP芯片的普及和二代测序价格的下降,GS越来越多被应用于除奶牛以外其他农业动植物的育种实践中,如猪(Sus scrofa)[7,8]、鸡(Gallus gallus)[9,10]、水产动物[11,12]、水稻(Oryza sativa)[13]、玉米(Zea mays)[14]等。尽管如此,基因分型成本仍然是GS技术推广和应用的重大障碍,大多数育种企业限于长久的基因分型成本投入而不敢大规模应用。多数已开展GS研究的研究院所或企业也囿于基因分型方面的投入,不得不通过缩小参考群体规模或降低标记密度来降低成本。较小的参考群或较低的标记密度一定程度上影响了GEBV的准确性,从而低估了GS技术在动物育种中的潜力,反而阻碍了这一技术的推广和应用。因此,降低个体分型费用一直是GS的研究热点之一。
GS最早是在奶牛中应用, 现在在猪, 鸡育种中开始应用, 在作物比如水稻, 玉米更要靠后, 主要是因为成本问题.
成本过高, 企业顾虑较大, 不敢大规模应用. 反应在参考群体较小, 降低芯片密度来降低成本. 这反过来影响GS的准确性. 恶性循环.
所以, 成本是最大的制约因素.
GS在猪育种中的应用
与奶牛不同,在猪的育种体系中,GS应用的前提是提高GEBV估计的准确性[58],这是因为在传统育种体系中,猪的世代间隔已经控制在较短的时间,很难再对其进行大幅缩减。因此,猪的GS应用主要是靠提高GEBV的准确性来获得额外的遗传进展,特别是对传统育种中选择准确性低的性状,如繁殖性状、屠宰性状、肉质性状、抗病性状等,GS具有更大的优势。
牛GS的显著效果是降低世代周期, 猪的应用时提高估算的准确性, 对于一些低遗传力的性状, 比如繁殖性状, 屠宰性状, 肉质性状, 抗病性等进行选择. 这在常规分析中, 选择效果较差.
参考文献:
谈成, 边成, 杨达, et al. 基因组选择技术在农业动物育种中的应用[J]. 遗传, 2017(11):82-94.
基于全基因组测序的表型预测方法研究及其体系构建_唐友