lgn5830 - biometria de marcadores genéticos - tópico 15:...
TRANSCRIPT
Motivação Definição Métodos Estatísticos Aplicações Referências
LGN5830 - Biometria de Marcadores GenéticosTópico 15: Seleção Genômica
Letícia Aparecida de Castro LaraKaio Olímpio das Graças DiasAntonio Augusto Franco Garcia
Departamento de GenéticaESALQ/USP
2019
Motivação Definição Métodos Estatísticos Aplicações Referências
Conteúdo
1 Motivação2 Definição
RevisãoFundamentosAcurácia Preditiva
3 Métodos EstatísticosModelos OrtogonaisModelos MistosMúltiplos Ambientes
4 AplicaçõesPoliploidesPredição de Híbridos SimplesConsiderações Finais
5 Referências
Motivação Definição Métodos Estatísticos Aplicações Referências
Conteúdo
1 Motivação2 Definição
RevisãoFundamentosAcurácia Preditiva
3 Métodos EstatísticosModelos OrtogonaisModelos MistosMúltiplos Ambientes
4 AplicaçõesPoliploidesPredição de Híbridos SimplesConsiderações Finais
5 Referências
Motivação Definição Métodos Estatísticos Aplicações Referências
Conteúdo
1 Motivação2 Definição
RevisãoFundamentosAcurácia Preditiva
3 Métodos EstatísticosModelos OrtogonaisModelos MistosMúltiplos Ambientes
4 AplicaçõesPoliploidesPredição de Híbridos SimplesConsiderações Finais
5 Referências
Motivação Definição Métodos Estatísticos Aplicações Referências
Conteúdo
1 Motivação2 Definição
RevisãoFundamentosAcurácia Preditiva
3 Métodos EstatísticosModelos OrtogonaisModelos MistosMúltiplos Ambientes
4 AplicaçõesPoliploidesPredição de Híbridos SimplesConsiderações Finais
5 Referências
Motivação Definição Métodos Estatísticos Aplicações Referências
Conteúdo
1 Motivação2 Definição
RevisãoFundamentosAcurácia Preditiva
3 Métodos EstatísticosModelos OrtogonaisModelos MistosMúltiplos Ambientes
4 AplicaçõesPoliploidesPredição de Híbridos SimplesConsiderações Finais
5 Referências
Motivação Definição Métodos Estatísticos Aplicações Referências
Capítulo - 2017
Ferrão, LFV; Ortiz, R; Garcia, AAF, 2017Genomic Selection - State of the ArtIn: Genetic Improvement of Tropical CropsCampos, H; Caligari, P (eds.); Springer
Motivação Definição Métodos Estatísticos Aplicações Referências
Motivação
QTLs, GWAS e Seleção Genômica (SG)
Mapeamento é diferente de prediçãoO número de QTLs é sempre o mínimoO mapeamento de QTLs tem como objetivo principal o estudo daarquitetura genéticaDesequilíbrio de ligação, delineamentos genéticosSG não identifica QTLs com base em testes de hipóteses
Motivação Definição Métodos Estatísticos Aplicações Referências
Populações SG
y = Xβ+ e GEBV = Xβ
Allele Effects
Accuracy(r) GEBV = XβSelection based
on GEBV
TRAINING DATA SET (TRN)
*Large population*Phenotypic evaluations*Genotypic data (SNPs)
TESTING DATA SET (TST)
*Smaller population*Phenotypic evaluations*Genotypic data (SNPs)
BREEDING DATA SET
*Greenhouse*Genotypic data (SNPs)*Selection during the seedling phase
Allele Effects
Fonte: Ferrão, Ortiz, Garcia (2017)
Importante
Única população pode exercer as três funções
Validação Cruzada
Importância da fenotipagem e genotipagem
Motivação Definição Métodos Estatísticos Aplicações Referências
Revisão
Conteúdo
1 Motivação2 Definição
RevisãoFundamentosAcurácia Preditiva
3 Métodos EstatísticosModelos OrtogonaisModelos MistosMúltiplos Ambientes
4 AplicaçõesPoliploidesPredição de Híbridos SimplesConsiderações Finais
5 Referências
Motivação Definição Métodos Estatísticos Aplicações Referências
Revisão
Modelos Lineares
Modelos de Regressão Linear
Definida por função lineares, resume como a média dos valores de uma variável resposta(fenótipo) varia em função das variáveis preditoras (marcadores)
Regressão Linear Simples (Single Marker Analysis):
yj = µ+ βxj + ϵj
Onde:yj = valor fenotípico do indivíduo j (j = 1, 2, . . . , n)µ = termo constante da equação da reta (intercepto)xj = variável preditora (genótipo do SNP codificado como −1, 0, 1)β = coeficiente de regressão linear (efeitos genéticos)
ϵj = erro aleatório, ϵj ∼ N(0, σ2ϵ )
Motivação Definição Métodos Estatísticos Aplicações Referências
Revisão
Modelos Lineares
Modelos de Regressão Linear
Definida por função lineares, resume como a média dos valores de uma variável resposta(fenótipo) varia em função das variáveis preditoras (marcadores)
Regressão Linear Simples (Single Marker Analysis):
yj = µ+ βxj + ϵj
Onde:yj = valor fenotípico do indivíduo j (j = 1, 2, . . . , n)µ = termo constante da equação da reta (intercepto)xj = variável preditora (genótipo do SNP codificado como −1, 0, 1)β = coeficiente de regressão linear (efeitos genéticos)
ϵj = erro aleatório, ϵj ∼ N(0, σ2ϵ )
Motivação Definição Métodos Estatísticos Aplicações Referências
Revisão
Limitações
Limitação: um modelo para cada SNPIdeal: considerar um único modelo que estime o efeito dos SNPs simultaneamente:Modelo de Regressão Linear Múltipla
Notação Algébrica
yj = µ+ β1x1j + ...+ βpxpj + ϵj ou
yj = µ+p∑
i=1xijβi + ϵj
Notação Matricial (mais utilizado)
y = Xβ + ϵ β = (X′X)−1X′y
Onde:y = vetor de fenótiposX = matriz de incidência dos vetores dos coeficientes de regressãoβ = vetor de parâmetros do modelo (efeito dos SNPs)ϵ = vetor de erros, ϵj ∼ N(0, σ2
ϵ )
Motivação Definição Métodos Estatísticos Aplicações Referências
Revisão
Limitações
Limitação: um modelo para cada SNPIdeal: considerar um único modelo que estime o efeito dos SNPs simultaneamente:Modelo de Regressão Linear Múltipla
Notação Algébrica
yj = µ+ β1x1j + ...+ βpxpj + ϵj ou
yj = µ+p∑
i=1xijβi + ϵj
Notação Matricial (mais utilizado)
y = Xβ + ϵ β = (X′X)−1X′y
Onde:y = vetor de fenótiposX = matriz de incidência dos vetores dos coeficientes de regressãoβ = vetor de parâmetros do modelo (efeito dos SNPs)ϵ = vetor de erros, ϵj ∼ N(0, σ2
ϵ )
Motivação Definição Métodos Estatísticos Aplicações Referências
Revisão
Limitações
Limitação: um modelo para cada SNPIdeal: considerar um único modelo que estime o efeito dos SNPs simultaneamente:Modelo de Regressão Linear Múltipla
Notação Algébrica
yj = µ+ β1x1j + ...+ βpxpj + ϵj ou
yj = µ+p∑
i=1xijβi + ϵj
Notação Matricial (mais utilizado)
y = Xβ + ϵ β = (X′X)−1X′y
Onde:y = vetor de fenótiposX = matriz de incidência dos vetores dos coeficientes de regressãoβ = vetor de parâmetros do modelo (efeito dos SNPs)ϵ = vetor de erros, ϵj ∼ N(0, σ2
ϵ )
Motivação Definição Métodos Estatísticos Aplicações Referências
Fundamentos
Conteúdo
1 Motivação2 Definição
RevisãoFundamentosAcurácia Preditiva
3 Métodos EstatísticosModelos OrtogonaisModelos MistosMúltiplos Ambientes
4 AplicaçõesPoliploidesPredição de Híbridos SimplesConsiderações Finais
5 Referências
Motivação Definição Métodos Estatísticos Aplicações Referências
Fundamentos
Regressão Linear Múltipla
Por definição ...
Modelos de SG são extensões de modelos de regressãoAo contrário das demais abordagens, todos os marcadores são utilizados comopreditoresNão há qualquer teste de significância ou seleção de variável
Problemas Estatísticos:
Dimensionalidade : número de parâmetros (p) excede o número de observações (n)Multicolinearidade : preditores são não linearmente independentes
Overfitting : complexidade do modelo
Motivação Definição Métodos Estatísticos Aplicações Referências
Fundamentos
Regressão Linear Múltipla
Por definição ...
Modelos de SG são extensões de modelos de regressãoAo contrário das demais abordagens, todos os marcadores são utilizados comopreditoresNão há qualquer teste de significância ou seleção de variável
Problemas Estatísticos:
Dimensionalidade : número de parâmetros (p) excede o número de observações (n)Multicolinearidade : preditores são não linearmente independentes
Overfitting : complexidade do modelo
Motivação Definição Métodos Estatísticos Aplicações Referências
Fundamentos
Caso extremo
Seleção Genômica é o caso extremo de p >> n
βOLS = (X′X)−1X′y
X′X é uma matriz singular(X′X)−1 não possuem solução única, variância altíssima e há escassez de graus deliberdadeGianola: “La maldición de la dimensionalidad” (maximum-likelihood cannot be usedeither as an inferential or as a predictive machine)
Whittaker, JC; Thompson, R; Denham, MC, 2000Marker-assisted selection using ridge regressionGenetics Research 75: 249-252
Grande número de marcadores moleculares disponíveisSeleção de variáveis ou shrinkage (Ridge Regression)
Motivação Definição Métodos Estatísticos Aplicações Referências
Fundamentos
Caso extremo
Seleção Genômica é o caso extremo de p >> n
βOLS = (X′X)−1X′y
X′X é uma matriz singular(X′X)−1 não possuem solução única, variância altíssima e há escassez de graus deliberdadeGianola: “La maldición de la dimensionalidad” (maximum-likelihood cannot be usedeither as an inferential or as a predictive machine)
Whittaker, JC; Thompson, R; Denham, MC, 2000Marker-assisted selection using ridge regressionGenetics Research 75: 249-252
Grande número de marcadores moleculares disponíveisSeleção de variáveis ou shrinkage (Ridge Regression)
Motivação Definição Métodos Estatísticos Aplicações Referências
Fundamentos
Solução
Penalização
Também chamado de regularização ou shrinkage (encolhimento)Estimadores são penalizados de modo a diminuir a variância, a custo de aumentar oviés (trade-off)Método comum em Machine LearningErro quadrático médio (MSE)
MSE =1
nΣn
j=1(yj − f(xj))2
XXXXX
XX X X
XX X
XX
XXXXX
XX
X
X
XXX
XX
LowVariance
HighVariance
Low Bias
High Bias
Motivação Definição Métodos Estatísticos Aplicações Referências
Fundamentos
Desequilíbrio de Ligação
Ideia seminal (Meuwissen et al. 2001)
“With a dense marker map some markers will be very close to the QTL and probably inlinkage disequilibrium with it. Therefore, some marker alleles will be correlated withpositive effects on the quantitative trait across all families and can be used for selectionwithout the need to establish linkage phase in each family”.
QTLs
SNPs QTLs com diferentes efeitos
Marcadores em LD com os QTLs, independente da significância dos seusefeitos, explicarão grande parte da variação de um caráter quantitativo
Motivação Definição Métodos Estatísticos Aplicações Referências
Acurácia Preditiva
Conteúdo
1 Motivação2 Definição
RevisãoFundamentosAcurácia Preditiva
3 Métodos EstatísticosModelos OrtogonaisModelos MistosMúltiplos Ambientes
4 AplicaçõesPoliploidesPredição de Híbridos SimplesConsiderações Finais
5 Referências
Motivação Definição Métodos Estatísticos Aplicações Referências
Acurácia Preditiva
Acurácia Preditiva
Definição de acurácia
A acurácia da seleção genômica é definida como a correlação entre os GEBVse os TBVs (valor genético verdadeiro). No entanto, na prática não é possívelmedir os TBVs, logo uma estimativa da acurácia, denominada de capacidadepreditiva, é obtida pela correlação entre GEBVs e EBVs (valor genéticoestimado)
Fatores que afetam a acurácia
Sob controle : Tamanho efetivo (Ne), número de indivíduos genotipados, densidade demarcadores, relação entre pop. treinamento e validação
Não controlado : herdabilidade (em partes) e arquitetura genética
Motivação Definição Métodos Estatísticos Aplicações Referências
Acurácia Preditiva
Acurácia Preditiva
Zhou, Y; Vales, MI; Wang, A; Zhang, Z, 2017Systematic bias of correlation coefficient may explain negative accuracy of genomicpredictionBriefings in bioinformatics 18: 744-753
Motivação Definição Métodos Estatísticos Aplicações Referências
Acurácia Preditiva
Herdabilidade
Schmidt, P; Hartung, J; Bennewitz, J; Piepho, HP, 2019Heritability in Plant Breeding on a Genotype-Difference BasisGenetics Early online
Pressupostos
Dados balanceados e delineamentos ortogonaisEfeitos genotípicos → independentesVariâncias e covariâncias → constantesFenótipo → média aritmética por parcela
Motivação Definição Métodos Estatísticos Aplicações Referências
Acurácia Preditiva
Base Genética
Desequilíbrio de ligaçãoCo-segregaçãoParentesco genético-aditivo
Habier, D; Fernando, RL; Garrick, DJ, 2013Genomic BLUP decoded: A look into the black box of genomic predictionGenetics 194: 597-607
Motivação Definição Métodos Estatísticos Aplicações Referências
Acurácia Preditiva
Base Genética
Desequilíbrio de ligaçãoCo-segregaçãoParentesco genético-aditivo
Habier, D; Fernando, RL; Garrick, DJ, 2013Genomic BLUP decoded: A look into the black box of genomic predictionGenetics 194: 597-607
Motivação Definição Métodos Estatísticos Aplicações Referências
Acurácia Preditiva
Ganho de Seleção
Equação dos melhoristas:
GS =i× ra × σa
L
i = intensidade de seleçãora = acurácia preditiva (ou capa-cidade preditiva)σa = raiz quadrada da variânciaaditivaL = tempo necessário para comple-tar um ciclo de seleção
Plantas Perenes
HS Milho Não Avaliados
Sexual population
Apomictic tetraploid plants
Sexual tetraploidized plants
X
Apomictic hybrids
Sexual hybrids
Base population
Obtaining progenies
Evaluation
RecombinationNew cycles of recurrent selection
SelectionField Design
* Low selection intensity* Expensive intensity* Many replications and cutsSuperior sexual
plantsApomictic
tetraploid plants
X
Apomictic hybrids
Sexual hybrids
Performance evaluationand selection
New cultivars
Motivação Definição Métodos Estatísticos Aplicações Referências
Acurácia Preditiva
Ganho de Seleção
Equação dos melhoristas:
GS =i× ra × σa
L
i = intensidade de seleçãora = acurácia preditiva (ou capa-cidade preditiva)σa = raiz quadrada da variânciaaditivaL = tempo necessário para comple-tar um ciclo de seleção
Plantas Perenes
HS Milho Não Avaliados
Sexual population
Apomictic tetraploid plants
Sexual tetraploidized plants
X
Apomictic hybrids
Sexual hybrids
Base population
Obtaining progenies
Evaluation
RecombinationNew cycles of recurrent selection
SelectionField Design
* Low selection intensity* Expensive intensity* Many replications and cutsSuperior sexual
plantsApomictic
tetraploid plants
X
Apomictic hybrids
Sexual hybrids
Performance evaluationand selection
New cultivars
Motivação Definição Métodos Estatísticos Aplicações Referências
Acurácia Preditiva
Ganho de Seleção
Equação dos melhoristas:
GS =i× ra × σa
L
i = intensidade de seleçãora = acurácia preditiva (ou capa-cidade preditiva)σa = raiz quadrada da variânciaaditivaL = tempo necessário para comple-tar um ciclo de seleção
Plantas Perenes
HS Milho Não Avaliados
Sexual population
Apomictic tetraploid plants
Sexual tetraploidized plants
X
Apomictic hybrids
Sexual hybrids
Base population
RecombinationNew cycles of recurrent selection
Superior sexual plants
Apomictic tetraploid plants
X
Apomictic hybrids
Sexual hybrids
Performance evaluationand selection
New cultivars
Obtaining progenies
Genomic Selection
Trainingpopulation
Validationpopulation
Motivação Definição Métodos Estatísticos Aplicações Referências
Modelos Ortogonais
Conteúdo
1 Motivação2 Definição
RevisãoFundamentosAcurácia Preditiva
3 Métodos EstatísticosModelos OrtogonaisModelos MistosMúltiplos Ambientes
4 AplicaçõesPoliploidesPredição de Híbridos SimplesConsiderações Finais
5 Referências
Motivação Definição Métodos Estatísticos Aplicações Referências
Modelos Ortogonais
Modelos Ortogonais
Efeito Aditivo
WA =
2 − 2pk for AA1 − 2pk for Aa0 − 2pk for aa
WA =
1 for AA0 for Aa−1 for aa
Efeito de Dominância
WD =
−2q2k for AA2pkqk for Aa−2p2k for aa
WD =
−1/2 for AA1/2 for Aa−1/2 for aa
Motivação Definição Métodos Estatísticos Aplicações Referências
Modelos Mistos
Conteúdo
1 Motivação2 Definição
RevisãoFundamentosAcurácia Preditiva
3 Métodos EstatísticosModelos OrtogonaisModelos MistosMúltiplos Ambientes
4 AplicaçõesPoliploidesPredição de Híbridos SimplesConsiderações Finais
5 Referências
Motivação Definição Métodos Estatísticos Aplicações Referências
Modelos Mistos
RRBLUP - Ridge Regression Best Linear Unbiased Predictor
Considerando 5 genótipos avaliados para uma variável resposta y (médiasajustadas) e genotipados com 7 marcas.
Exemplo do Livro do Resende (2014) pg. 685-690
AA = 2, Aa =1, aa =0
Gen y SNP1 SNP2 SNP3 SNP4 SNP5 SNP6 SNP71 9.87 2 0 0 0 2 0 02 14.48 1 1 0 0 1 1 03 8.91 0 2 0 0 0 0 24 14.64 1 0 1 0 1 0 05 9.55 1 0 0 1 1 1 0
yj = µ+ β1x1j + β2x2j + ...+ β7x7j + ϵj
Motivação Definição Métodos Estatísticos Aplicações Referências
Modelos Mistos
RRBLUP - Ridge Regression Best Linear Unbiased Predictor
y = Xb+Wm+ ϵ
y = vetor de observações fenotípicasb = interceptom = vetor de efeitos aleatórios dos marcadoresϵ = vetor de resíduosX e W são as matrizes de incidência para b e m.
[XTX XTWW TX W TW + Iλ
] [bm
]=
[XT yW T y
]m = (W TW + Iλ)−1W T y
λ = σ2e/σ
2gi onde σ2
gi = σ2g/nq
Lambda é o parâmetro de penalização
Motivação Definição Métodos Estatísticos Aplicações Referências
Modelos Mistos
RRBLUP - Ridge Regression Best Linear Unbiased Predictor
Matriz de Incidência W
SNP1 SNP2 SNP3 SNP4 SNP5 SNP6 SNP72-2pi 0-2pi 0-2pi 0-2pi 2-2pi 0-2pi 0-2pi1-2pi 1-2pi 0-2pi 0-2pi 1-2pi 1-2pi 0-2pi0-2pi 2-2pi 0-2pi 0-2pi 0-2pi 0-2pi 2-2pi1-2pi 0-2pi 1-2pi 0-2pi 1-2pi 0-2pi 0-2pi1-2pi 0-2pi 0-2pi 1-2pi 1-2pi 1-2pi 0-2pi
Matriz de Incidência W
SNP1 SNP2 SNP3 SNP4 SNP5 SNP6 SNP71 -0.6 -0.2 -0.2 1 -0.4 -0.40 0.4 -0.2 -0.2 0 0.6 -0.4-1 1.4 -0.2 -0.2 -1 -0.4 1.60 -0.6 0.8 -0.2 0 -0.4 -0.40 -0.6 -0.2 0.8 0 0.6 -0.4
Motivação Definição Métodos Estatísticos Aplicações Referências
Modelos Mistos
RRBLUP - Ridge Regression Best Linear Unbiased Predictor
Matriz de Incidência W
SNP1 SNP2 SNP3 SNP4 SNP5 SNP6 SNP72-2pi 0-2pi 0-2pi 0-2pi 2-2pi 0-2pi 0-2pi1-2pi 1-2pi 0-2pi 0-2pi 1-2pi 1-2pi 0-2pi0-2pi 2-2pi 0-2pi 0-2pi 0-2pi 0-2pi 2-2pi1-2pi 0-2pi 1-2pi 0-2pi 1-2pi 0-2pi 0-2pi1-2pi 0-2pi 0-2pi 1-2pi 1-2pi 1-2pi 0-2pi
Matriz de Incidência W
SNP1 SNP2 SNP3 SNP4 SNP5 SNP6 SNP71 -0.6 -0.2 -0.2 1 -0.4 -0.40 0.4 -0.2 -0.2 0 0.6 -0.4-1 1.4 -0.2 -0.2 -1 -0.4 1.60 -0.6 0.8 -0.2 0 -0.4 -0.40 -0.6 -0.2 0.8 0 0.6 -0.4
Motivação Definição Métodos Estatísticos Aplicações Referências
Modelos Mistos
RRBLUP - Ridge Regression Best Linear Unbiased Predictor
[bm
]=
11.490−0.35260.27611.4467−1.3701−0.35260.5436−1.6376
V GG =
−0.44861.0763−1.76121.7033−0.5699
→
G1
G2
G3
G4
G5
V GG = yj =∑
wijmi
Note que podemos predizer genótipos não avaliadosATENÇÃO! Ef. médio subst. alélica α = a[1 + k(p1 − p2)]
Motivação Definição Métodos Estatísticos Aplicações Referências
Modelos Mistos
RRBLUP - Ridge Regression Best Linear Unbiased Predictor
[bm
]=
11.490−0.35260.27611.4467−1.3701−0.35260.5436−1.6376
V GG =
−0.44861.0763−1.76121.7033−0.5699
→
G1
G2
G3
G4
G5
V GG = yj =∑
wijmi
Note que podemos predizer genótipos não avaliadosATENÇÃO! Ef. médio subst. alélica α = a[1 + k(p1 − p2)]
Motivação Definição Métodos Estatísticos Aplicações Referências
Modelos Mistos
GBLUP - Genomic Best Linear Unbiased Predictor
y = Xb+ Zu+ ϵ
y = vetor de observações fenotípicasb = vetor de efeitos fixosu = vetor de efeitos aleatórios dos genótiposϵ = vetor de resíduosX e Z são as matrizes de incidência para b e u
[XTX XTZZTX ZTZ +A−1λ
] [bu
]=
[XT yZT y
]
u = [R−1 +G−1(σ2e/σ
2g)]
−1R−1(y −Xb)
A = WWT /[2∑m
i pi(1− pi)]
VanRaden (2008)EM, AI ..
Motivação Definição Métodos Estatísticos Aplicações Referências
Modelos Mistos
GBLUP - Genomic Best Linear Unbiased Predictor
y = Xb+ Zu+ ϵ
y = vetor de observações fenotípicasb = vetor de efeitos fixosu = vetor de efeitos aleatórios dos genótiposϵ = vetor de resíduosX e Z são as matrizes de incidência para b e u
[XTX XTZZTX ZTZ +A−1λ
] [bu
]=
[XT yZT y
]
u = [R−1 +G−1(σ2e/σ
2g)]
−1R−1(y −Xb)
A = WWT /[2∑m
i pi(1− pi)]
VanRaden (2008)EM, AI ..
Motivação Definição Métodos Estatísticos Aplicações Referências
Modelos Mistos
GBLUP - Genomic Best Linear Unbiased Predictor
A =
1.669 −0.145 −1.960 0.338 0.096−0.145 0.459 −0.145 −0.266 0.096−1.960 −0.145 4.089 −0.871 −1.1130.338 −0.266 −0.871 0.822 −0.0240.096 0.096 −1.113 −0.024 0.943
Note que A tem dimensão 5x5
Como predizer genótipos não avaliados?
Motivação Definição Métodos Estatísticos Aplicações Referências
Modelos Mistos
GBLUP - Genomic Best Linear Unbiased Predictor
A1 =
1.669 −0.145 −1.960 0.338 0.096 0.2 0.3−0.145 0.459 −0.145 −0.266 0.096 0.3 0.4−1.960 −0.145 4.089 −0.871 −1.113 0.4 0.50.338 −0.266 −0.871 0.822 −0.024 0.5 0.60.096 0.096 −1.113 −0.024 0.943 0.6 0.70.2 0.3 0.4 0.5 0.6 2 1.50.3 0.4 0.5 0.6 0.7 1.5 2
Note que A tem dimensão 7x7Os genótipos 6 e 7 serão preditos sem fenotipagem
Como estimar o efeito de cada SNP no GBLUP?
m = (W TW )−1W T u
Motivação Definição Métodos Estatísticos Aplicações Referências
Modelos Mistos
GBLUP - Genomic Best Linear Unbiased Predictor
A1 =
1.669 −0.145 −1.960 0.338 0.096 0.2 0.3−0.145 0.459 −0.145 −0.266 0.096 0.3 0.4−1.960 −0.145 4.089 −0.871 −1.113 0.4 0.50.338 −0.266 −0.871 0.822 −0.024 0.5 0.60.096 0.096 −1.113 −0.024 0.943 0.6 0.70.2 0.3 0.4 0.5 0.6 2 1.50.3 0.4 0.5 0.6 0.7 1.5 2
Note que A tem dimensão 7x7Os genótipos 6 e 7 serão preditos sem fenotipagem
Como estimar o efeito de cada SNP no GBLUP?
m = (W TW )−1W T u
Motivação Definição Métodos Estatísticos Aplicações Referências
Modelos Mistos
QTLs de Grande Efeito Conhecidos
Bernardo, R. 2013Genomewide Selection when Major Genes Are KnownCrop Science 54: 68-75
Modelo SG
yj = µ+p∑
i=1xijβi + ϵj
yj = µ+p∑
i=1xijβi + β∗ + ϵj
Note que β∗ é o efeito fixo do QTL conhecido a prioriCada QTL deve explicar > 10% VG
Motivação Definição Métodos Estatísticos Aplicações Referências
Múltiplos Ambientes
Conteúdo
1 Motivação2 Definição
RevisãoFundamentosAcurácia Preditiva
3 Métodos EstatísticosModelos OrtogonaisModelos MistosMúltiplos Ambientes
4 AplicaçõesPoliploidesPredição de Híbridos SimplesConsiderações Finais
5 Referências
Motivação Definição Métodos Estatísticos Aplicações Referências
Múltiplos Ambientes
Interação Genótipos por Ambientes
Escolha de Modelos
Y = G+ E +G : E + ϵ
Y = G+ E + ϵ
LRT
Motivação Definição Métodos Estatísticos Aplicações Referências
Múltiplos Ambientes
Múltiplos Ambientes
Considerando 2 genótipos (ng), 3 ambientes (ns) e 2 blocos (nb)(DBC em 3 ambientes)
yijk =
i = (1, ..., ng), ng = 2j = (1, ..., ns), ns = 3k = (1, ..., nb), nb = 2
Gen Env Block1 1 12 1 11 1 22 1 21 2 12 2 11 2 22 2 21 3 12 3 11 3 22 3 2
Motivação Definição Métodos Estatísticos Aplicações Referências
Múltiplos Ambientes
Múltiplos Ambientes
Considerando 2 genótipos (ng), 3 ambientes (ns) e 2 blocos (nb)(DBC em 3 ambientes)
yijk =
i = (1, ..., ng), ng = 2j = (1, ..., ns), ns = 3k = (1, ..., nb), nb = 2
Gen Env Block1 1 12 1 11 1 22 1 21 2 12 2 11 2 22 2 21 3 12 3 11 3 22 3 2
Motivação Definição Métodos Estatísticos Aplicações Referências
Múltiplos Ambientes
Múltiplos Ambientes
Considerando o modelo abaixo com efeito de genótipos dentro deambientes
y = Xs+ Z1b+ Z2g + ε
s é o efeito fixo de ambientesb é o efeito aleatório de blocosg é o efeito de genótipos dentro de ambientes
Motivação Definição Métodos Estatísticos Aplicações Referências
Múltiplos Ambientes
Múltiplos Ambientes
y111y211y112y212y121y221y122y222y131y231y132y232
=
1 0 0
1 0 0
1 0 0
1 0 0
0 1 0
0 1 0
0 1 0
0 1 0
0 0 1
0 0 1
0 0 1
0 0 1
s1s2s3
+
1 0
1 0
0 1
0 1
1 0
1 0
0 1
0 1
1 0
1 0
0 1
0 1
[b1b2
]+
1 0 0 0 0 0
0 1 0 0 0 0
1 0 0 0 0 0
0 1 0 0 0 0
0 0 1 0 0 0
0 0 0 1 0 0
0 0 1 0 0 0
0 0 0 1 0 0
0 0 0 0 1 0
0 0 0 0 0 1
0 0 0 0 1 0
0 0 0 0 0 1
g1s1g2s1g1s2g2s2g1s3g2s3
+
ε111ε211ε112ε212ε121ε221ε122ε222ε131ε231ε132ε232
Motivação Definição Métodos Estatísticos Aplicações Referências
Múltiplos Ambientes
Múltiplos Ambientes
Efeitos de blocos
b ∼ MVN(0nb, σ2
b Inb)
[b1b2
]∼ MVN
[(00
),
[σ2b 00 σ2
b
]]
Note que não existem covariâncias entre blocos
b1 ∼ N(0, σ2b ); b2 ∼ N(0, σ2
b )
Efeitos de genótipos
g ∼ MVN(0, Ing ⊗Gns×ns)
Motivação Definição Métodos Estatísticos Aplicações Referências
Múltiplos Ambientes
Considere G igual a UN
G = UN =
σ2g1 σg(1,2) σg(1,3)
σg(2,1) σ2g2 σg(2,3)
σg(3,1) σg(3,2) σ2g3
g1s1g2s1g1s2g2s2g1s3g2s3
∼ MVN
000000
,
σ2g1 0 σg(1,2) 0 σg(1,3) 00 σ2
g1 0 σg(1,2) 0 σg(1,3)
σg(1,2) 0 σ2g2 0 σg(3,2) 0
0 σg(1,2) 0 σ2g2 0 σg(3,2)
σg(1,3) 0 σg(3,2) 0 σ2g3 0
0 σg(1,3) 0 σg(3,2) 0 σ2g3
Motivação Definição Métodos Estatísticos Aplicações Referências
Múltiplos Ambientes
Para o efeito residualε ∼ MVN(0n, Ing×nb
⊗Rns×ns)
R =
σ2e1
0 0
0 σ2e2
0
0 0 σ2e3
ε111
ε211
ε112
ε212
ε121
ε221
ε122
ε222
ε131
ε231
ε132
ε232
∼ MVN
0
0
0
0
0
0
0
0
0
0
0
0
,
σ2e1
0 0 0 0 0 0 0 0 0 0 0
0 σ2e1
0 0 0 0 0 0 0 0 0 0
0 0 σ2e1
0 0 0 0 0 0 0 0 0
0 0 0 σ2e1
0 0 0 0 0 0 0 0
0 0 0 0 σ2e2
0 0 0 0 0 0 0
0 0 0 0 0 σ2e2
0 0 0 0 0 0
0 0 0 0 0 0 σ2e2
0 0 0 0 0
0 0 0 0 0 0 0 σ2e2
0 0 0 0
0 0 0 0 0 0 0 0 σ2e3
0 0 0
0 0 0 0 0 0 0 0 0 σ2e3
0 0
0 0 0 0 0 0 0 0 0 0 σ2e3
0
0 0 0 0 0 0 0 0 0 0 0 σ2e3
Motivação Definição Métodos Estatísticos Aplicações Referências
Múltiplos Ambientes
VCOV
g ∼ MVN(0, Ing ⊗Gns×ns) ε ∼ MVN(0n, Ing×nb⊗Rns×ns)
Diagonal(DIAG)
Compoundsymmetry(CS)
(CS )
First-orderautoregressive(AR1)
First-orderautoregressiveheterogeneous(AR1 )
Het
Het
Identity(ID)
Diagonal(DIAG)
Compoundsymmetry(CS)
Compoundsymmetryheterogeneous(CS )
First-orderautoregressive(AR1)
First-orderautoregressiveheterogeneous(AR1 )
Power(Po)
Powerheterogeneous(Po )
Unstructered(US)
Het
Het
Het
Diagonal(DIAG)
Compoundsymmetry(CS)
First-orderautoregressive(AR1)
First-orderautoregressiveheterogeneous(AR1 )Het
Compoundsymmetry(CS)
Identity(ID)
Diagonal(DIAG)
Compoundsymmetryheterogeneous(CS )
First-orderautoregressive(AR1)
Power(Po)
Powerheterogeneous(Po )
Het
Het
Identity(ID)
Diagonal(DIAG)
Compoundsymmetry(CS)
Compoundsymmetryheterogeneous(CS )
First-orderautoregressive(AR1)
First-orderautoregressiveheterogeneous(AR1 )
Power(Po)
Powerheterogeneous(Po )
Unstructered(US)
Het
Het
Het
Power(Po)
Compoundsymmetryheterogeneous(CS )
First-orderautoregressive(AR1)
Power(Po)
Powerheterogeneous(Po )
Het
Het
Identity(ID)
Diagonal(DIAG)
Compoundsymmetry(CS)
Compoundsymmetryheterogeneous(CS )
First-orderautoregressive(AR1)
First-orderautoregressiveheterogeneous(AR1 )
Power(Po)
Powerheterogeneou(Po )
Unstructered(US)
Het
Het
Het
Identity(ID)
Diagonal(DIAG)
Compoundsymmetry(CS)
Compoundsymmetryheterogeneous(CS )
First-orderfactor analytic(FA1)
Power(Po)
Het
Motivação Definição Métodos Estatísticos Aplicações Referências
Poliploides
Conteúdo
1 Motivação2 Definição
RevisãoFundamentosAcurácia Preditiva
3 Métodos EstatísticosModelos OrtogonaisModelos MistosMúltiplos Ambientes
4 AplicaçõesPoliploidesPredição de Híbridos SimplesConsiderações Finais
5 Referências
Motivação Definição Métodos Estatísticos Aplicações Referências
Poliploides
Efeito Aditivo
WA =
4 − 4pk for AAAA3 − 4pk for AAAa2 − 4pk for AAaa1 − 4pk for Aaaa0 − 4pk for aaaa
Efeito Aditivo
G =WW T
Σk4pkqk
Endelman, JB; Carley, CAS; Bethke, PC ... Thompson, AL; Yencho, GC, 2018Genetic variance partitioning and genome-wide prediction with allele dosageinformation in autotetraploid potatoGenetics 209: 77-87
Motivação Definição Métodos Estatísticos Aplicações Referências
Poliploides
Efeito de Dominância Digênica
Interação entre 2 alelosβAA = q2β
βAa = −pqβ
βaa = p2β
AAAA = 6βAA → 6q2β → (6p2 − 12p+ 6)βAAAa = 3βAA + 3βAa → (3q2 − 3pq)β → (6p2 − 9p+ 3)βAAaa = βAA + 4βAa + βaa → (q2 − 4pq + p2)β → (6p2 − 6p+ 1)βAaaa = 3βAa + 3βaa → (−3pq + 3p2)β → (6p2 − 3p)βaaaa = 6βaa → 6p2β → (6p2)β
Dominância Digênica Total
[6p2 − 3pX +1
2X(X − 1)]β = Qβ
Motivação Definição Métodos Estatísticos Aplicações Referências
Poliploides
Efeito de Dominância e Epistasia
Efeito de Dominância Digênica
D =QQT
Σk6p2kq
2k
Efeito Epistático Aditivo-Aditivo
G#G é o produto de Hadamard da matriz G
Endelman, JB; Carley, CAS; Bethke, PC ... Thompson, AL; Yencho, GC, 2018Genetic variance partitioning and genome-wide prediction with allele dosageinformation in autotetraploid potatoGenetics 209: 77-87
Motivação Definição Métodos Estatísticos Aplicações Referências
Poliploides
Seleção Genômica em Panicummaximum
Lara, LAC; Santos, MF; Jank, L; ... Zeng, Z-B; Garcia, AAF, 2019Genomic selection with allele dosage in Panicum maximum Jacq.G3 (Genes|Genomes|Genetics) Early online
Dados Fenotípicos e genotípicos
Espécie perene, alógama e autotetraploide570 indivíduos avaliados em campo530 indivíduos genotipados
Motivação Definição Métodos Estatísticos Aplicações Referências
Poliploides
Tassel-GBS Pipeline
* GBLUP
Augmented Block Design
Mixed Models
Discovery SNPs
Alignment
SuperMASSAAllele Dosage
Predictive Model Predictive Model
* Genomas de referências* Transcriptomas
Selection of VCOV matrices
Bowtie2
* BRR* Bayes A* Bayes B Software R
Frequentist approach Bayesian approach
* Bayes C BGLR R package* BLASSO
PHENOTYPICEVALUATION
Software ASReml-R
GENOTYPICEVALUATION Imputation
Software R
PREDICTIVEMODEL Software ASReml-R
Motivação Definição Métodos Estatísticos Aplicações Referências
Poliploides
Dosagem Alélica
Serang, O; Mollinari, M; Garcia, AAF, 2012Efficient Exact Maximum a Posteriori Computation for Bayesian SNP Genotyping in PolyploidsPLoS ONE 7: e30906
Gerard, D; Ferrão, LFV; Garcia, AAF; Stephens, M, 2019Genotyping polyploids from messy sequencing dataGenetics 210: 789-807
Motivação Definição Métodos Estatísticos Aplicações Referências
Poliploides
Acurácia Preditiva
Predictive Ability Standardized Predicted Residual Error Sum of SquaresA B
Traits
r2
PRES
S
ModelGBLUP
BRR
BayesA
BayesB
BayesC
BLASSO
Traits
0.1
0.2
0.3
0.4
OM CP IVD LDM RC PLB
−2
0
2
4
6
8
OM CP IVD LDM RC PLB
Motivação Definição Métodos Estatísticos Aplicações Referências
Poliploides
TD versus DD
OM
CPIVD
LDMR
CPLB
GBLUP BRR BA BB BC BL
0.0
0.1
0.2
0.3
0.4
0.0
0.1
0.2
0.3
0.4
0.0
0.1
0.2
0.3
0.4
0.0
0.1
0.2
0.3
0.4
0.0
0.1
0.2
0.3
0.4
0.0
0.1
0.2
0.3
0.4
Model
accu
racy
DosageTD
DD
Motivação Definição Métodos Estatísticos Aplicações Referências
Predição de Híbridos Simples
Conteúdo
1 Motivação2 Definição
RevisãoFundamentosAcurácia Preditiva
3 Métodos EstatísticosModelos OrtogonaisModelos MistosMúltiplos Ambientes
4 AplicaçõesPoliploidesPredição de Híbridos SimplesConsiderações Finais
5 Referências
Motivação Definição Métodos Estatísticos Aplicações Referências
Predição de Híbridos Simples
Predição de Híbridos Simples
Dias, KOG; Gezan, S; Guimarães, CT; ... Garcia, AAF; Souza, JC; Guimarães, LJM;Pastina, MM. 2018Improving accuracies of genomic predictions for drought tolerance in maize by jointmodeling of additive and dominance effects in multi-environment trialsHeredity 121: 24-37
Dados Fenotípicos e Genótipicos
308 híbridos simples190 linhagens cruzadas com testadoresExperimentos com e sem estresse hídrico.Dois anos e dois locaisCinco caracteres foram avaliados:GY, FM, FF, ASI, NE
Motivação Definição Métodos Estatísticos Aplicações Referências
Predição de Híbridos Simples
Partição de efeitos aditivos e não-aditivos
WS WWA AD A AD
h2 0,345 0,191 0,397 0,264d2 - 0,140 - 0,193H2 - 0,331 - 0,457pa 0,678 0,411 0,670 0,547pd - 0,589 - 0,399
AIC 4788,4 4567,9 3348,8 3342,1
Motivação Definição Métodos Estatísticos Aplicações Referências
Predição de Híbridos Simples
Predição de genótipos tolerantes à seca
Modelo FA
GSA = ∆A∆TA +ΨA; GSD = ∆D∆T
D +ΨD
cov(µg) = Ag ⊗GSA +Dg ⊗GSD
cov(µg) = Ag ⊗ (∆A∆TA +ΨA) +Dg ⊗ (∆D∆T
D +ΨD)
Motivação Definição Métodos Estatísticos Aplicações Referências
Predição de Híbridos Simples
Regressão Latente
Genótipos Estáveis
µis = λ1s × f1i + ...+ λks × fki + δis
Plot FA1 yj = µis xj = λ∗1s
Plot FA2 yj = µis − λ∗1s × f1s xj = λ∗
2s
Motivação Definição Métodos Estatísticos Aplicações Referências
Predição de Híbridos Simples
Múltiplos Caracteres
Fernandes, SB; Dias, KOG; Ferreira, DF; Brown, PJ. 2018Efciency of multi-trait, indirect, and trait-assisted genomic selection for improvementof biomass sorghumTheoretical and Applied Genetics 131: 747-755
Dados Fenotípicos e Genótipicos
453 linhagens de Sorgo Biomassa3 locais diferentesGenotipagem → GBSSeis caracteres foram avaliados:30 (H1), 60 (H2), 90 (H3), 120(H4), M, Y
0.00
0.25
0.50
0.75
Y YM YH1 YH2 YH3 YH4 YA
Acc
ura
cy
Standard Multi−trait Trait−assisted
Motivação Definição Métodos Estatísticos Aplicações Referências
Predição de Híbridos Simples
Precisão Experimental
Delineamentos Experimentais
Planejar o delineamento mais apropriado para o estudo de interesseGrupos de experimentos lado a ladoFonte: Dias et al., 2019
●
●
2006 2007 2008 2009 2010 2011 2012 2013
0.3
0.6
0.9
1.2
Varia
nces
of dif
feren
ces
Two_Lattices v = 64, b = 16, k = 8
_Lattice v = 100, b = 20, k = 10𝛼
Motivação Definição Métodos Estatísticos Aplicações Referências
Considerações Finais
Conteúdo
1 Motivação2 Definição
RevisãoFundamentosAcurácia Preditiva
3 Métodos EstatísticosModelos OrtogonaisModelos MistosMúltiplos Ambientes
4 AplicaçõesPoliploidesPredição de Híbridos SimplesConsiderações Finais
5 Referências
Motivação Definição Métodos Estatísticos Aplicações Referências
Considerações Finais
Considerações Finais
Avaliação Fenotípica
Delineamentos experimentais (P-rep Designs, Row-Column Designs, etc.)Fenotipagem em larga escala
Genotipagem
Genotipagem em larga escalaDescoberta de SNPs, chamada de genótiposImputação e filtros de qualidade
Genética-Estatística
Modelos frequentistas, bayesianosMúltiplos ambientes, múltiplos caracteresEfeitos aditivos e não aditivos
Motivação Definição Métodos Estatísticos Aplicações Referências
Considerações Finais
Considerações Finais
Avaliação Fenotípica
Delineamentos experimentais (P-rep Designs, Row-Column Designs, etc.)Fenotipagem em larga escala
Genotipagem
Genotipagem em larga escalaDescoberta de SNPs, chamada de genótiposImputação e filtros de qualidade
Genética-Estatística
Modelos frequentistas, bayesianosMúltiplos ambientes, múltiplos caracteresEfeitos aditivos e não aditivos
Motivação Definição Métodos Estatísticos Aplicações Referências
Considerações Finais
Considerações Finais
Avaliação Fenotípica
Delineamentos experimentais (P-rep Designs, Row-Column Designs, etc.)Fenotipagem em larga escala
Genotipagem
Genotipagem em larga escalaDescoberta de SNPs, chamada de genótiposImputação e filtros de qualidade
Genética-Estatística
Modelos frequentistas, bayesianosMúltiplos ambientes, múltiplos caracteresEfeitos aditivos e não aditivos
Motivação Definição Métodos Estatísticos Aplicações Referências
Principais Referências
Meuwissen, THE; Hayes, BJ; Goddard, ME, 2001Prediction of Total Genetic Value Using Genome-Wide Dense Marker MapsGenetics 157: 1819-1829
Habier, D; Fernando, RL; Garrick, DJ, 2013Genomic BLUP decoded: a look into the black box of genomic predictionGenetics 194: 597-607
Piepho, HP; Moehring, J; Melchinger, AE; Buchse, A. 2008BLUP for phenotypic selection in plant breeding and variety testingEuphytica 161: 209-228
De los Campos, G; Hickey, JM; Pong-Wong, R; Daetwyler, HD; Calus, MPL. 2013Whole-genome regression and prediction methods applied to plant and animalbreedingGenetics 193: 327-345
Endelman, JB; Carley, CAS; Bethke, PC ... Thompson, AL; Yencho, GC, 2018Genetic variance partitioning and genome-wide prediction with allele dosageinformation in autotetraploid potatoGenetics 209: 77-87