多位点关联分析在人和动植物遗传研究中的应用日益广泛。本文综述了以混合线性模型(mixed linear model,MLM)为框架下多位点关联分析的主要方法及重要软件平台,包括全基因组关联分析(genome-wide association study,GWAS)混合线性模型方法学的建立与发展,多位点模型方法的发展,多位点GWAS混合线性模型方法的发展,以及GWAS方法学研究的影响因素,最后展望了关联分析的发展方向。
[目的]本研究将FASTmrEMMA、最小角回归(least angle regression,LARS)和随机森林(random forest,RF)方法应用于全基因组选择,以提高植物数量性状预测的准确性和效率,为植物遗传和育种提供有益信息。[方法]对拟南芥自然群体的模拟数据和真实数据进行全基因组预测。在模拟数据分析中,设置不同的表型缺失率,以平均绝对误差(mean absolute error,MAE)、均方误差(mean squared error,MSE)、预测模型拟合度和计算时间为指标,比较基于最小角回归和随机森林的两阶段算法(two-stage algorithm based on least angle regression and random forest,TSLRF)、基于随机森林的两阶段变量选择(two-stage stepwise variable selection based on random forest,TSRF)、随机森林和全基因组最佳线性无偏预测(genomic best linear unbiased prediction,GBLUP)4种方法的优劣。在拟南芥真实数据研究中,针对长日照花期(days to flowering under long day,LD)、春化长日照花期(days to flowering under long day with vernalization,LDV)和短日照花期(days to flowering under short day,SD)实施全基因组预测,并利用这些表型预测值与观测值进行全基因组关联分析,以比较上述4种全基因组选择方法的性能。[结果]模拟研究表明:在不同表型缺失率下,TSLRF的全基因组预测准确度和预测模型拟合度均较高;真实数据的TSLRF分析也获得相似的结论,且检测到40个已报道与目标性状显著关联的基因。[结论]TSLRF方法的全基因组预测准确度和模型拟合度较高,计算速度快,为分子育种和优异亲本组合的预测提供理论依据。