conteúdo cruzamentoscontrolados ...augustogarcia.me/biometria-de-marcadores/pdfs/aula14...milho1...
TRANSCRIPT
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
LGN5830 - Biometria de Marcadores GenéticosTópico 14: Mapeamento Associativo em Plantas
Antonio Augusto Franco Garciahttp://[email protected]
Departamento de GenéticaESALQ/USP
2019
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
Conteúdo
1 Desequilíbrio de LigaçãoIntroduçãoDefiniçõesDL: alelos de ummesmo locoDL: alelos de dois locos
2 Estrutura PopulacionalIntroduçãoCoeficiente de parentescoMarcadores Moleculares
3 Modelos estatísticosModelo estatístico I - QTLsModelo estatístico II - GSModelo estatístico III - Map. Assoc. (GWAS)
4 Referências
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
Introdução
Mapeamento de QTL’sZhu et al., The Plant Genome, 2008.
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
Introdução
Cruzamentos controlados vs grupo de genótipos
Germoplasma: coleção de indivíduos, coleta, genitores, corecollection, ...
Base mais ampla, maior possibilidade de aplicação dos resultados nalocalização de genes ou seleção assistida
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
Introdução
Populações experimentais
Até momento, estudamos populações provenientes de cruzamentoscontrolados (ex: RILs, F2, RC, F1)
Buscamos marcadores ligados entre si e com QTLs.
Princípio: gametas parentais ou recombinantes (mesmo que com anecessidade de estimar a fase de ligação)
Nesses casos, as frequências alélicas/genotípicas são conhecidas apriori
Exemplo: F2
p(A) = p(a) = 1/2
AB e ab: parentais;Ab e aB: recombinantes
As frequências dos diferentes tipos é função da fração de recombinação
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
Introdução
Populações experimentais
Estrutura populacional: conhecida (todos pertencem a mesmapopulação)
O parentesco entre os indivíduos é sempre o mesmo
Exemplo: F2
f = 14 (genitores não aparentados)
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
Introdução
População qualquer, loco bialélico
No caso do mapeamento associativo (painel), é necessárioconsiderar outras situaçõesPara os genótiposAA,Aa e aa (com frequências PAA, PAa e Paa,respectivamente, é necessário investigar se há maior tendência deassociação entre os alelos
Intraloco: A-A,A-a ou a-aInterloco: A eB,A e b, a eB, a e b
Desequilíbrio de fase gamética, ou de haplótipos
Desequilíbrio de ligação: pode ser quantificado usando algumamedida de associação entre os estados alélicos de pares de locos
Pode haver desequilíbrio devido a outras causas que não a ligaçãogenética!
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
Definições
Desequilíbrio de Ligação (DL)(João Ricardo B F Rosa)
Definição
DL é qualquer desvio das frequências alélicas em relação às frequênciasesperadas sob independência, indicando associação preferencial entrealelos de diferentes locos numa população (Lewontin & Kojima, 1960).
Fonte: Mackay, Nature Reviews Genetics, 2001.
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
Definições
Desequilíbrio de Ligação (DL)
DL e Ligação Física não são sinônimos
Locos em DL podem não estar ligadosTermos mais apropriados:
Desequilíbrio Gamético; Desequilíbrio da Fase Gamética.
Locos ligados podem ou não estar em DL (função do número derecombinações)
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
Definições
Fatores que Afetam o DL
1 Recombinação (crossing-overs)2 Mutação3 Deriva Genética4 Seleção5 Migração6 Estrutura Populacional
População
DL entre locos ligados e não ligados
Mapeamento: DL devido à ligação
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
Definições
Mapeamento de QTL’sZhu et al., The Plant Genome, 2008.
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
Definições
Mapeamento de QTL’sZhu et al., The Plant Genome, 2008.
DL necessariamenteentre locos ligados!
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
DL: alelos de ummesmo loco
Modelo
AA Aa aa
Freq. genotípica PAA PAa Paa
Gameta A A, a a
pA = PAA +1
2PAa
pa = Paa +1
2PAa
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
DL: alelos de ummesmo loco
Cruzamentos ao acaso
pA papA p2A pApapa papA p2a
PAA = p2A
PAa = 2pApa
Paa = p2a
Numa população qualquer, não sabemos se os cruzamentos ocorremao acasoÉ necessário portanto definir alguma medida que verifique se osalelos se associam ao acaso, ou se há alguma tendência deassociação preferencialEstatística: covariância (correlação)
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
DL: alelos de ummesmo loco
Variância
Alelo X Freq.(j = 1) A 1 pA(j = 2) a 0 pa
E(X) =∑j
pjxj = pA.1 + pa.0 = pA
E(X2) =∑j
pjx2j = pA.(1)
2 + pa.(0)2 = pA
V (X) = E(X2)− [E(X)]2 = pA − p2A
= pA(1− pA)
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
DL: alelos de ummesmo loco
Covariância
Alelo X Freq.(j = 1) A 1 pA(j = 2) a 0 pa
xixj Freq.x1 = A, x2 = A 1× 1 PAA
x1 = A, x2 = a 1× 0 PAa
x1 = a, x2 = A 0× 1 PaA
x1 = a, x2 = a 0× 0 Paa
Cov(x1, x2) = E(x1x2)− E(x1)E(x2)
= PAA − pA.pA
= PAA − p2A
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
DL: alelos de ummesmo loco
Medidas de Associação entre os alelos
Cov(x1, x2) = Cov(A, a) = PAA − p2A
r(A, a) =Cov(A, a)
V (X)
=PAA − p2ApA(1− pA)
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
DL: alelos de ummesmo loco
Equilíbrio de Hardy-Weinberg
Como visto anteriormente, sob H-W, PAA = p2ALogo,
r(A, a) =PAA − p2ApA(1− pA)
=0
pA(1− pA)= 0
Em outras palavras, não há associação preferencial entre os alelos, ouseja, as combinações são formadas ao acaso
Note que testar se a população está em H-W é o mesmo que testarse alelos de ummesmo loco estão correlacionados
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
DL: alelos de ummesmo loco
FIS
r(A, a) é também conhecida com coeficiente de endogamiaintra-populacional
Notação: FIS , fA
fA =PAA − p2ApA(1− pA)
logoPAA = p2A + fApApa
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
DL: alelos de ummesmo loco
Estimadores de máxima verossimilhança
Note que as frequências genotípicas podem ser modeladas usando adistribuição multinomial
Assim, a obtenção dos MLE’s é muito simples:
P̂AA =n1
n
P̂Aa =n2
n
P̂aa =n3
n
p̂A = P̂AA − 1
2P̂Aa
p̂a = P̂aa −1
2P̂Aa
f̂A = 1− P̂Aa
2p̂Ap̂a
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
DL: alelos de ummesmo loco
Testes de hipóteses
Usualmente,H0 : fA = 0
Teste de qui-quadrado: χ2A = nf̂2
A ∼ χ2[1]
Teste exato de Fisher (amostras reduzidas)
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
DL: alelos de dois locos
População qualquer
Faz sentido também avaliar se os alelosA eB possuem algumaassociação
Gametas AB Ab aB abFrequências PAB PAb PaB Pab
Associações ao acaso:
pB pbpA pApB pApbpa papB papb
Note que há relação com a ideia de ligação genética, mas em umoutro contexto (haplótipos)
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
DL: alelos de dois locos
Medidas de associação
AleloA X Freq.(j = 1) A 1 pA(j = 2) a 0 pa
E(X) = pA
E(X2) = pA
V (X) = pA(1− pA)
AleloB Y Freq.(j = 1) B 1 pB(j = 2) b 0 pb
E(Y ) = pB
E(Y 2) = pB
V (Y ) = pB(1− pB)
XY Freq.A,B 1 PAB
A, b 0 PAb
a,B 0 PaB
a, b 0 Pab
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
DL: alelos de dois locos
Covariância
Cov(X,Y ) = E(XY )− E(X)E(Y )
= PAB − pApB
= DAB
Portanto
PAB = pApB +DAB
Expansão:
PAB = pApB +DAB
PAb = pApb +DAb
PaB = papB +DaB
Pab = papb +Dab
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
DL: alelos de dois locos
Covariância
Seguindo o mesmo raciocínio usado anteriormente:
DAB = −DAb = −DaB = Dab
Logo:
PAB = pApB +D
PAb = pApb −D
PaB = papB −D
Pab = papb +D
Obviamente:
DAB = PAB − pApB
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
DL: alelos de dois locos
Correlação
ComoD é uma covariância, é possível usá-la para medir também acorrelação entre os alelos:
rAB =Cov(X,Y )√V (X) V (Y )
=DAB√
pA(1− pA)pB(1− pB)
=DAB√
pApBpapb
Como em situações reais o sinal de r não tem grande importância, éusual usar r2 como medida de associação (coeficiente dedeterminação)
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
DL: alelos de dois locos
População F2
Relações interessantes podem ser observadas entreD e r2 com afração de recombinação (que tambémmede associação entre osalelos)Em um F2, pA = pa = 1/2 e pB = pb = 1/2
Ainda, as freq. dos diferentes gametas sãoGametas PAB PAb PaB Pab
Frequências 1−ρ2
ρ2
ρ2
1−ρ2
Assim,
DAB =1− ρ
2− 1
4=
1− 2ρ
4
rAB =1−2ρ4√
(1/4)(1/4)= 1− 2ρ
Cuidado! Em pop. naturais, o desequilíbrio pode surgir mesmo entrelocos não ligados (seleção; oscilação, migração, etc).
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
DL: alelos de dois locos
D′
Por ser uma covariância,D depende das frequências alélicas,dificultando comparações entre populações diferentes
Uma alternativa muito usada é fazer um re-escalonamentoconsiderando o máximo valor queD pode apresentar na populaçãoem questão
Dmin = min{−pApB ; − (1− pA)(1− pB)}Dmax = max{pA(1− pB); pB(1− pB)}
D′ = DDmax
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
DL: alelos de dois locos
r²,D eD′
Note que os valores necessários para os cálculos são obtidos emsimples tabelas:
A a
B n1 n2
b n3 n4
P̂AB =n1
n
p̂A =n1 + n3
n
p̂a =n2 + n4
n
p̂B =n1 + n2
n
p̂b =n3 + n4
n
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
DL: alelos de dois locos
Por que medir o desequilíbrio de ligação?
Extensão na população em questão
Número de marcadores para cobrir as regiões em DL
A: marcador;B: QTL (ou QTN)
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
DL: alelos de dois locos
Exemplo
Milho 1
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
DL: alelos de dois locos
Exemplo
Milho 2
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
Introdução
Painel (População)
Possivelmente, principal causa de DL além de ligação
No mapeamento associativo, é muito importante ter informaçõessobre a estrutura populacional existente no painel
Essa estrutura é considerada nos modelos, de forma a controlar apresença de falsos positivos
Isto ficará mais claro quando estudarmos os modelos estatístico paramapeamentoVários métodos podem ser utilizados:
Genética de populações: FIS , FST , FIT
Genealogias (coef. parentesco)Marcadores molecularesAnálises multivariadasStructure. . .
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
Coeficiente de parentesco
Parentesco
O coeficiente de parentesco θXY é a probabilidade de que um alelotomado ao acaso no indivíduoX seja idêntico por descendência aum alelo também tomado ao acaso no indivíduo Y
SejaX com genótipo ab e Y com genótipo cd. Então,
θXY =1
4[P (a = c) + P (a = d) + P (b = c) + P (b = d)]
Os cálculos são feitos de forma recursiva, com base nas genealogias
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
Coeficiente de parentesco
A B
C D
E
F
library(kinship)Genealogia <- data.frame(ind=c("A","B","C","D","E","F"),
P1=c(0,0,"A","A","A","B"),P2=c(0,0,"B","B","D","E"))
attach(Genealogia)cfam <- makefamid(ind, P1, P2)kmat <- makekinship(cfam, ind, P1, P2)detach(Genealogia)
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
Coeficiente de parentesco
A B
C D
E
F
> Genealogiaind P1 P2
1 A 0 02 B 0 03 C A B4 D A B5 E A D6 F B E
> kmatA B C D E F
A 0.5000 0.0000 0.25 0.2500 0.375 0.1875B 0.0000 0.5000 0.25 0.2500 0.125 0.3125C 0.2500 0.2500 0.50 0.2500 0.250 0.2500D 0.2500 0.2500 0.25 0.5000 0.375 0.3125E 0.3750 0.1250 0.25 0.3750 0.625 0.3750F 0.1875 0.3125 0.25 0.3125 0.375 0.5625
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
Marcadores Moleculares
Similaridade, distância genética
Obviamente, marcadores moleculares podem ser usados paraestudar a estrutura populacional e também para estimar ocoeficiente de parentesco
É importante separar identidade por descendência de identidadepor estado (várias abordagens)
Conceitos: similaridade (Jaccard, Dice,...), distâncias genéticas
Análises de agrupamentos (dendrogramas, componentesprincipais,...)
Structure
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
Marcadores Moleculares
Structure
Sorgo
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
Marcadores Moleculares
Componentes Principais
Arroz
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
Modelo estatístico I - QTLs
Modelo fixo - QTLs
F = G+ E
yj = µ+Gi + ejy = Xθ + e
Que tipo de análise é feita se o modelo considerar apenas um único i(marcador)?Único i, mas agora modelando um QTL?E se i > 1, sendo um deles um QTL e os demais marcadores?E para i > 1, apenas QTLs?
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
Modelo estatístico II - GS
Modelo mistoModelo infinitesimal, R. A. Fisher
F = G+ E
yi = µ+Gi + ei
Gi: múltiplos genes, todos com pequeno efeito
Você concorda que faz sentido assumir que os efeitosGi sãoaleatórios (amostra de uma população) neste cenário?
Var-cov:
Vij =
{σ2e + σ2
G se i = j
2θijσ2G se i ̸= j
Duas variâncias para estimar
Atenção especial para θij
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
Modelo estatístico III - Map. Assoc. (GWAS)
Artigo
Yu, J.; Pressoir, G.; Briggs, W. H.; Bi, I. V.; Yamasaki, M.; Doebley, J. F.;McMullen, M. D.; Gaut, B. S.; Nielsen, D. M.; Holland, J. B.; Kresovich, S.;Buckler, E. S.A unified mixed-model method for association mapping thataccounts for multiple levels of relatednessNature Genetics 38(2): 203-208, 2005
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
Modelo estatístico III - Map. Assoc. (GWAS)
Contexto
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
Modelo estatístico III - Map. Assoc. (GWAS)
Contexto
• Ideal para análise associativa: não há estrutura nem relacionamento recente
• Tempo de coalescência muito longo: MRCA muito antigo
• Pouco realístico em plantas
Relacionamento familiar intragrupo. Coancestralidade recente
Estrutura de população e relacionamento familiar em graus variados (adaptação local e seleção diversificadora). Comum em plantas
Estrutura de População
Curr Opin Biotech 17:155-160 (2006)
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
Modelo estatístico III - Map. Assoc. (GWAS)
Cenário (a)
yi = µ+Gi + ei
yi = µ+ Sα+Gi + ei
Sα: efeito do SNP em questão (QTN, ou QTL)
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
Modelo estatístico III - Map. Assoc. (GWAS)
Q +KCenário (c)
No mapeamento associativo (QTN’s), apenas uma pequena parte davariação é devida ao loco em questão
Caso a variação dos outros efeitos (normalmente poligenes) não sejacontrolada, há redução do poder do teste
Há ainda grande chance de detecção de falsos positivos caso aestrutura populacional não seja considerada nas análises
O modeloQ +K busca aumentar a eficiência do mapeamento nessecontexto
Q: estrutura populacional
K : parentesco (“kinship”), associada ao background genético.Indivíduos aparentados têmmaior chance de compartilhar osmesmos genes. Aleatório: cada indivíduo é uma amostra do poolgênico
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
Modelo estatístico III - Map. Assoc. (GWAS)
Q +K
Abordagem: modelos mistosQ: inferida normalmente usando o Structure ou (mais recentemente)análise de componentes principaisK : marcadores
Modelo
y = Xβ + Sα+Qv+ Zu+ e
y: fenótipos;Xβ: efeitos fixos além do efeito do SNP e da populaçãoexperimental (delineamento);α: efeito do SNP (QTN); v: efeito (fixo) daestrutura populacional; u: efeitos (aleatórios) dos poligenes dobackground genético; e: vetor dos resíduos. V (u) = 2KVg (K : kinship).
Note que os efeitos do background genético serão incluídos namatriz de parentesco, que pode ser facilmente considerada nomodelo misto
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
Modelo estatístico III - Map. Assoc. (GWAS)
Resultados
Desequilíbrio de Ligação Estrutura Populacional Modelos estatísticos Referências
Principais Referências
Yu, J.; Pressoir, G.; Briggs, W. H.; Bi, I. V.; Yamasaki, M.; Doebley, J. F.;McMullen, M. D.; Gaut, B. S.; Nielsen, D. M.; Holland, J. B.; Kresovich, S.;Buckler, E. S.A unified mixed-model method for association mapping thataccounts for multiple levels of relatednessNature Genetics 38(2): 203-208, 2005
Zhu C., Gore M., Buckler E. S., Yu J.Status and Prospects of Association Mapping in PlantsPlant Genome 1: 5-20, 2008
Ersoz, E.S., J. Yu, and E.S. Buckler.Applications of linkage disequilibrium and association mapping incrop plantsGenomic assisted crop improvement: Vol. I: Genomics approaches andplatforms In R. Varshney and R. Tuberosa (ed.). Springer, 2008