lgn5830 - biometria de marcadores genéticos -...

12
Ordenação Análises Multiponto Funções de Mapeamento LGN5830 - Biometria de Marcadores Genéticos Tópico 5: Mapas Genéticos III Ordenação dos Locos (cont.), Estimativas Multiponto, Funções de Mapeamento Antonio Augusto Franco Garcia http://about.me/augusto.garcia [email protected] Departamento de Genética ESALQ/USP 2017 Ordenação Análises Multiponto Funções de Mapeamento Conteúdo 1 Ordenação Algoritmos 2 Análises Multiponto Motivação Cadeias de Markov Processo Markoviano Oculto Aplicação - Retrocruzamento 3 Funções de Mapeamento Função de Morgan Função de Haldane Função de Kosambi Ordenação Análises Multiponto Funções de Mapeamento Algoritmos Busca Exaustiva Princípio: comparar todas as ordens possíveis, segundo algum critério (ex: verossimilhança, SARF, PARF, SALOD) Exemplo - Mouse Data (M1, M3 e M14) LM1M3M14 r1.3, ˆ r3.14)=1, 922 × 10 -53 LM1M14M3 r1.14, ˆ r14.3)=4, 723 × 10 -89 LM3M1M14 r3.1, ˆ r1.14)=6, 789 × 10 -73 MAPMAKER/EXP Ordem LOD M1M3M14 log10 1,922×10-53 1,922×10-53 =0 M1M14M3 log10 4,723×10-89 1,922×10-53 = -35, 61 M3M1M14 log10 6,789×10-73 1,922×10-53 = -19, 45 Ordenação Análises Multiponto Funções de Mapeamento Algoritmos O Problema do Caixeiro Viajante Problema: Deve visitar n cidades. Qual a rota mais curta? Solução: somar o caminho total percorrido e escolher a menor rota

Upload: doanlien

Post on 09-Nov-2018

220 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: LGN5830 - Biometria de Marcadores Genéticos - …augustogarcia.me/Biometria-de-Marcadores/pdfs/aula5...Ordenação AnálisesMultiponto FunçõesdeMapeamento Algoritmos ProblemadoCaixeiroViajante

Ordenação Análises Multiponto Funções de Mapeamento

LGN5830 - Biometria de Marcadores GenéticosTópico 5: Mapas Genéticos III

Ordenação dos Locos (cont.), EstimativasMultiponto, Funções de

Mapeamento

Antonio Augusto Franco Garciahttp://about.me/augusto.garcia

[email protected]

Departamento de GenéticaESALQ/USP

2017

Ordenação Análises Multiponto Funções de Mapeamento

Conteúdo

1 OrdenaçãoAlgoritmos

2 Análises MultipontoMotivaçãoCadeias de MarkovProcesso Markoviano OcultoAplicação - Retrocruzamento

3 Funções de MapeamentoFunção de MorganFunção de HaldaneFunção de Kosambi

Ordenação Análises Multiponto Funções de Mapeamento

Algoritmos

Busca Exaustiva

Princípio: comparar todas as ordens possíveis, segundo algumcritério (ex: verossimilhança, SARF, PARF, SALOD)

Exemplo - Mouse Data (M1, M3 e M14)

LM1M3M14(r̂1.3, r̂3.14) = 1, 922× 10−53

LM1M14M3(r̂1.14, r̂14.3) = 4, 723× 10−89

LM3M1M14(r̂3.1, r̂1.14) = 6, 789× 10−73

MAPMAKER/EXPOrdem LOD

M1M3M14 log101,922×10−53

1,922×10−53 = 0

M1M14M3 log104,723×10−89

1,922×10−53 = −35, 61

M3M1M14 log106,789×10−73

1,922×10−53 = −19, 45

Ordenação Análises Multiponto Funções de Mapeamento

Algoritmos

O Problema do Caixeiro Viajante

Problema: Deve visitar n cidades. Qual a rota mais curta?Solução: somar o caminho total percorrido e escolher a menor rota

Page 2: LGN5830 - Biometria de Marcadores Genéticos - …augustogarcia.me/Biometria-de-Marcadores/pdfs/aula5...Ordenação AnálisesMultiponto FunçõesdeMapeamento Algoritmos ProblemadoCaixeiroViajante

Ordenação Análises Multiponto Funções de Mapeamento

Algoritmos

Problema do Caixeiro Viajante

Problema: Com aumento do número de cidades, o processo torna-seinviável, mesmo com supercomputadores

Exemplo

Computador que faz 1 bilhão de somas por segundo

Locos Ordens Tempo5 5!/2 Insignificante10 1.814.400 0,0162 seg15 653.837.184.000 2,5427 horas20 1, 2165× 1018 732,4 anos25 7, 7556× 1024 5.898.373.012,27 anos

(É possível rodar em processamento paralelo)

Ordenação Análises Multiponto Funções de Mapeamento

Algoritmos

Algoritmos Alternativos

1 Comando TRY (MAPMAKER/EXP)Ordena sub-ordem exaustivamente, e depois testa posição dosmarcadores remanescentes, um a um

2 Comando ORDER (MAPMAKER/EXP)Idem, mas de forma automática (cuidado!)

3 Seriation4 Rapid Chain Delineation5 ...

RIPPLEVerifica possíveis inversões entre marcadores próximos

Ordenação Análises Multiponto Funções de Mapeamento

Algoritmos

Rapid Chain Delineation (Doerge e Weir, 1996)

Algoritmo

A partir da matriz com as frações de recombinação:1 Inicie o primeiro grupo de ligação com o par de marcas com o menor r̂

2 O grupo de ligação é estendido com a adição de marcas remanescentes. Osterminais do grupo de ligação são candidatos à extensão da cadeia. As marcas comos menores r̂ são adicionadas uma a uma (somente ligações significativas).

3 Repetir o passo 2 até que nenhummarcador possa ser adicionado à cadeia.

4 Iniciar o passo 1, com a obtenção de outra cadeia. Repetir os passos 2 e 3.

5 Encerrar o processo quando não restaremmarcas remanescentes, ou quando asrestantes não estiverem significativamente ligadas a nenhuma outra.

Ordenação Análises Multiponto Funções de Mapeamento

Algoritmos

Rapid Chain Delineation

Exemplo

Com base na matriz abaixo, ordene os marcadores usando o RCD(assuma que estão ligados)

m1 m2 m3 m4

m1 0.030 0.035 0.042m2 0.100 0.125m3 0.230m4

Resp: m3 −m1 −m2 −m4

Page 3: LGN5830 - Biometria de Marcadores Genéticos - …augustogarcia.me/Biometria-de-Marcadores/pdfs/aula5...Ordenação AnálisesMultiponto FunçõesdeMapeamento Algoritmos ProblemadoCaixeiroViajante

Ordenação Análises Multiponto Funções de Mapeamento

Algoritmos

Outros algoritmos importantes

Seriation (Buetow e Chakravarti, 1987)

RECORD (van Os et al., 2005)

Unidirectional Growth (TAN e FU, 2006)

Ordenação Análises Multiponto Funções de Mapeamento

Motivação

Motivação

r̂ =n2 + n3

n1 + n2 + n3 + n4

Dados

AA AA

AA AA

...

AA AA

AA Aa

Aa AA

Aa Aa

Aa Aa

Aa AA

AA Aa

Ordenação Análises Multiponto Funções de Mapeamento

Motivação

Motivação

Dados

AA AA

AA AA

...

AA AA

AA Aa

Aa AA

Aa Aa

Aa Aa

Aa AA

AA Aa

P (n1) = P (Mi = AA) · P (Mi+1 = AA|Mi = AA), . . .

P (n1) P (n2) P (n3) P (n4)

1 0 0 00 1 0 01 0 0 01 0 0 00 1 0 00 0 1 00 0 1 00 0 0 1. . . . . . . . . . . .0 0 0 1

r̂ =∑

P (n1)×0+∑

P (n2)×1+∑

P (n3)×1+∑

P (n4)×0N

Ordenação Análises Multiponto Funções de Mapeamento

Motivação

Motivação

Dados

AA AA

AA

AA AA

AA AA

AA Aa

Aa

Aa AA

Aa Aa

...

(ingênuo)

P (n1) P (n2) P (n3) P (n4)

1 0 0 0½ ½ 0 01 0 0 01 0 0 00 1 0 00 ½ 0 ½0 0 1 0¼ ¼ ¼ ¼. . . . . . . . . . . .0 0 0 1

r̂ =∑

P (n1)×0+∑

P (n2)×1+∑

P (n3)×1+∑

P (n4)×0N

Page 4: LGN5830 - Biometria de Marcadores Genéticos - …augustogarcia.me/Biometria-de-Marcadores/pdfs/aula5...Ordenação AnálisesMultiponto FunçõesdeMapeamento Algoritmos ProblemadoCaixeiroViajante

Ordenação Análises Multiponto Funções de Mapeamento

Motivação

Motivação

Dados

AA AA AA AA

AA AA AA

AAAa AA AA

Aa AA AA Aa

AAAa AaAa

Aa AaAa

Aa AaAa AA

AA AA

AA Aa AaAa

...

P (n1) P (n2) P (n3) P (n4)

1 0 0 0>½ <½ 0 01 0 0 01 0 0 00 1 0 00 <½ 0 >½0 0 1 0>¼ <¼ <¼ <¼(?). . . . . . . . . . . .0 0 0 1

r̂ =∑

P (n1)×0+∑

P (n2)×1+∑

P (n3)×1+∑

P (n4)×0N

Ordenação Análises Multiponto Funções de Mapeamento

Motivação

Motivação

Objetivo

Para um dado par de locos, preciso calcular as probabilidades detodos os genótipos possíveis

P (Gk,i = g,Gk,i+1 = g′|Ok, r̂(s))

Numerador de r̂: número esperado de eventos de recombinação

(Esperança e dados incompletos, EM)

Dados perdidos: falhas na genotipagem, indivíduos perdidos,marcadores dominantes, erros (e QTLs)Quanto mais locos forem considerados, melhor o cálculo dasprobabilidades (estimativas multiponto)O valor de r dos locos auxiliares, se fosse conhecido, ajudaria noscálculos (EM?)

Ordenação Análises Multiponto Funções de Mapeamento

Cadeias de Markov

Modelo Gráfico Probabilístico

Três locos, um indivíduo

O’s: observações (“fenótipos”)G’s: genótipos (em alguns casos, ocultos)Interesse:

P (G1, O1, G2, O2, G3, O3) = P (G1) · P (O1|G1) · P (G2|G1, O1) ·P (O2|G1, O1, G2) ·P (G3|G1, O1, G2, O2) ·P (O3|G1, O1, G2, O2, G3)

Ordenação Análises Multiponto Funções de Mapeamento

Cadeias de Markov

Hidden Markov Model

Três locos, um indivíduo

Cadeia de Markov OcultaSignificado biológico intuitivo no caso dos mapas genéticosFatoração conveniente:

P (G1, O1, G2, O2, G3, O3) = P (G1) · P (O1|G1) · P (G2|G1) ·P (O2|G2) · P (G3|G2) · P (O3|G3)

Page 5: LGN5830 - Biometria de Marcadores Genéticos - …augustogarcia.me/Biometria-de-Marcadores/pdfs/aula5...Ordenação AnálisesMultiponto FunçõesdeMapeamento Algoritmos ProblemadoCaixeiroViajante

Ordenação Análises Multiponto Funções de Mapeamento

Cadeias de Markov

HMM

Ótimo modelo para calcular por exemplo P (O|G3 = AA)

Usando o teorema de Bayes, permite calcular P (G3 = AA|O)

Lembre-se que isto é necessário para estimar o mapa!

QTLs, marcadores dominantes, dados perdidos, F1 segregante, . . .

P (O|G3 = AA) =P (O,G3 = AA)P (G3 = AA)

Numerador: todas observações possíveis que incluamG3 = AA

P (G1): Probabilidade de Iniciação

P (O1|G1), P (O2|G2), P (O3|G3): Probabilidades de Emissão

P (G2|G1), P (G3|G2): Probabilidades de Transição

Ordenação Análises Multiponto Funções de Mapeamento

Cadeias de Markov

Introdução

Cadeias de Markov

t t+1 t+2 t+3

Propriedade Markoviana

A probabilidade de ocorrência de um estado no tempo t dependeapenas do estado anterior (t− 1).

Em outras palavras, independência condicional.

“Dado o presente, o futuro não depende do passado”

No contexto do mapeamento: ausência de interferência

Ordenação Análises Multiponto Funções de Mapeamento

Cadeias de Markov

Processo Markoviano Discreto

Exemplo - condições climáticas

Seqüência de observações do estadoem que o clima se encontra;

Estados: Chuvoso (S1), Nublado (S2) eEnsolarado (S3);

Tempo: de 24 em 24 horas, até um

dado tempo final T : T = 1, . . . , T ;

Ordenação Análises Multiponto Funções de Mapeamento

Cadeias de Markov

Processo Markoviano

aij é a probabilidade do estadoatual ser Sj dado que o anterior foiSi

Matriz de transição (Modelo)

As linhas devem somar 1

Page 6: LGN5830 - Biometria de Marcadores Genéticos - …augustogarcia.me/Biometria-de-Marcadores/pdfs/aula5...Ordenação AnálisesMultiponto FunçõesdeMapeamento Algoritmos ProblemadoCaixeiroViajante

Ordenação Análises Multiponto Funções de Mapeamento

Cadeias de Markov

Matriz de Transição

0%

0

10%

1 1 2

2

20%

3

3

4

30%

5

5

6

40%

6

7

7

50%

8

8

960%

10

10

11

1170%

12

12

13 80%

14

14

15 90%15

16

16

100%17

0%0

1

10%1

2

2

3

20%3

4

4

5

30%

5

6

6

740%

7

8

8

950%

9

10

111160%

121213

1370%

14141515

80%

16

16

17

17

90%

18

18

19

19

100%

20

0%

0

1

10%

1

2

2

3

3

20%4

4

5

530%

6

7

7

8

840%

9

9

10

10

50%11

11

12

13

60%13

14

14

15

15

70%

16

16

17

17

80%

18

19

19

20

20

90%

21

21

22

22

100%

23

Ordenação Análises Multiponto Funções de Mapeamento

Cadeias de Markov

Processo Markoviano

É possível determinar (por exemplo) qual é a probabilidade deocorrer uma determinada seqüência de estados no futuro.

Exemplo

Dia n ensolaradoDia n+ 1 chuvosoDia n+ 2 ensolaradoDia n+ 3 nubladoDia n+ 4 ensolarado

P (seq|Modelo) = P (ensol. dia n)× a31 × a13 × a32 × a23

= P (ensol. dia n)× 0, 1× 0, 3× 0, 1× 0, 2

= P (ensol. dia n)× 0, 0006

P (ensol. dia n): Probabilidade de Iniciação

Ordenação Análises Multiponto Funções de Mapeamento

Processo Markoviano Oculto

Cadeia observável

Tempos 1 2 3 4 5Estados (Urnas) 4 2 1 3 1

Cores verde azul vermelho amarelo vermelha

Note que a cor da bola indica diretamente a urna correspondenteÉ possível calcular

P (O|modelo) = P (verde, azul, vermelho, amarelo, vermelho)

= P (Urna 4,Urna 2,Urna 1,Urna 3,Urna 1)

Ordenação Análises Multiponto Funções de Mapeamento

Processo Markoviano Oculto

Modelo de Markov OcultoHMM - Hidden Markov Model

Urna 1 Urna 2 Urna 3 Urna 4

Tempos 1 2 3 4 5Cores verde azul vermelho amarelo vermelha

PERGUNTA Qual sequência de estados (urnas) é a mais provável?

Page 7: LGN5830 - Biometria de Marcadores Genéticos - …augustogarcia.me/Biometria-de-Marcadores/pdfs/aula5...Ordenação AnálisesMultiponto FunçõesdeMapeamento Algoritmos ProblemadoCaixeiroViajante

Ordenação Análises Multiponto Funções de Mapeamento

Processo Markoviano Oculto

Cadeia Oculta

Urna 1 Urna 2 Urna 3 Urna 4

Tempos 1 2 3 4 5Cores verde azul vermelho amarelo vermelha

RESPOSTA Várias sequências de urnas podem ser assumidas e, para cada umadelas, pode ser calculada P (O|modelo)Sequência mais provável: 4, 2, 1, 3, 1

SUPOSIÇÕES Note que (implicitamente) assumiu-se que

H =

1/4 1/4 1/4 1/41/4 1/4 1/4 1/41/4 1/4 1/4 1/41/4 1/4 1/4 1/4

e que a cor da bola sugere qual seria a urna correspondente.

Ordenação Análises Multiponto Funções de Mapeamento

Processo Markoviano Oculto

Função de Emissão

Note que agora a cor da bola não indica necessariamente a urnaContudo, para cada estado, é possível definir uma função deprobabilidades que associa as urnas à cor observada.Esta é chamada de Função de Emissão

Exemplo - Urna 4

P (vermelha|Urna 4) = 2/80

P (azul|Urna 4) = 4/80

P (amarela|Urna 4) = 1/80

P (verde|Urna 4) = 73/80

Ordenação Análises Multiponto Funções de Mapeamento

Processo Markoviano Oculto

Formalização (HMM)

Cadeia de Markov: conjunto de variáveis aleatórias {G1, G2, . . . , Gn}satisfazendo

P (Gi+1|Gi, . . . , G1) = P (Gi+1|Gi)

HMM: cadeia comGi’s não observáveis, mais um conjunto devariáveis aleatórias {O1, O2, . . . , On} observadasCadaOi depende apenas do respectivoGi

Ordenação Análises Multiponto Funções de Mapeamento

Processo Markoviano Oculto

HMM

Distribuição conjunta deOi eGi

1 Probabilidade de Iniciação: π(g) = P (G1 = g)

2 Probabilidade de Transição: P (Gi+1 = g′|Gi = g)

3 Probabilidade de Emissão: P (Oi = o|Gi = g)

Page 8: LGN5830 - Biometria de Marcadores Genéticos - …augustogarcia.me/Biometria-de-Marcadores/pdfs/aula5...Ordenação AnálisesMultiponto FunçõesdeMapeamento Algoritmos ProblemadoCaixeiroViajante

Ordenação Análises Multiponto Funções de Mapeamento

Aplicação - Retrocruzamento

Notação

Dados

G = {AA,Aa} (ouG = {BB,Bb}, etc)O = {A,H,−}

Gi , i = 1, . . . , n: genótiposOi , i = 1, . . . , n: fenótipos moleculares

Iniciação: π(gi)

π(AA) = 1/2π(Aa) = 1/2

Transição: tj(gj , gj+1)

H =

[(1 − ri) ri

ri (1 − ri)

]Emissão: P (Oi = o|Gi = g)

og A H −

AA 1 − ϵ ϵ 1Aa ϵ 1 − ϵ 1

Ordenação Análises Multiponto Funções de Mapeamento

Aplicação - Retrocruzamento

Cadeia Oculta

Em RCs, a cadeia é oculta em razão de dados perdidos, erros degenotipagem, ou mesmo presença de suposto QTL

Já em F2 e RILs, a cadeia é oculta também pela presença demarcadores dominantes

Para um dado loco (ex: G3), usando-se as propriedades markovianasé possível calcular probabilidades de interesse, como p. ex.P (G3 = AA|O) e P (G3 = Aa|O), usando P (O|G3 = AA),P (O|G3 = Aa) (lembre-se do exemplo apresentado)

Ordenação Análises Multiponto Funções de Mapeamento

Aplicação - Retrocruzamento

Dados perdidos

Exemplo

Iniciação: π(gi)

π(AA) = 1/2π(Aa) = 1/2

Transição: r = 0.10 (fixo)

H =

[0.90 0.100.10 0.90

]Emissão: ϵ = 0.01

og A H −

AA 0.99 0.01 1Aa 0.01 0.99 1

Ordenação Análises Multiponto Funções de Mapeamento

Aplicação - Retrocruzamento

Probabilidades

Exemplo

G1 G2

O1 O2 O3

G3 G4

O4

A A H

AA AA AA AA

Aa Aa Aa Aa

G1 G2

O1 O2 O3

G3 G4

O4

A A H

AA AA AA AA

Aa Aa Aa Aa

G1 G2

O1 O2 O3

G3 G4

O4

A A H

AA AA AA AA

Aa Aa Aa Aa

G1 G2

O1 O2 O3

G3 G4

O4

A A H

AA AA AA AA

Aa Aa Aa Aa

G1 G2

O1 O2 O3

G3 G4

O4

A A H

AA AA AA AA

Aa Aa Aa Aa

G1 G2

O1 O2 O3

G3 G4

O4

A A H

AA AA AA AA

Aa Aa Aa Aa

G1 G2

O1 O2 O3

G3 G4

O4

A A H

AA AA AA AA

Aa Aa Aa Aa

G1 G2

O1 O2 O3

G3 G4

O4

A A H

AA AA AA AA

Aa Aa Aa Aa

G1 G2

O1 O2 O3

G3 G4

O4

A A H

AA AA AA AA

Aa Aa Aa Aa

G1 G2

O1 O2 O3

G3 G4

O4

A A H

AA AA AA AA

Aa Aa Aa Aa

P (O|G3 = AA) ∝

π(G1)︷ ︸︸ ︷(1/2) ×

P (O1|G1)P (G2|G1)︷ ︸︸ ︷(0.99)(0.90) ×

P (O2|G2)P (G3|G2)︷ ︸︸ ︷(0.99)(0.90) ×

P (O3|G3)P (G4|G3)︷ ︸︸ ︷(1.00)(0.90) ×

P (O4|G4)︷ ︸︸ ︷(0.01) +

(1/2) × (0.99)(0.90) × (0.99)(0.90) × (1.00)(0.10) × (0.99)+(1/2) × (0.99)(0.10) × (0.01)(0.10) × (1.00)(0.90) × (0.01)+(1/2) × (0.99)(0.10) × (0.01)(0.10) × (1.00)(0.10) × (0.99)+(1/2) × (0.01)(0.10) × (0.99)(0.90) × (1.00)(0.90) × (0.01)+(1/2) × (0.01)(0.10) × (0.99)(0.90) × (1.00)(0.10) × (0.99)+(1/2) × (0.01)(0.90) × (0.01)(0.10) × (1.00)(0.90) × (0.01)+(1/2) × (0.01)(0.90) × (0.01)(0.10) × (1.00)(0.10) × (0.99) == 0.04292352

Page 9: LGN5830 - Biometria de Marcadores Genéticos - …augustogarcia.me/Biometria-de-Marcadores/pdfs/aula5...Ordenação AnálisesMultiponto FunçõesdeMapeamento Algoritmos ProblemadoCaixeiroViajante

Ordenação Análises Multiponto Funções de Mapeamento

Aplicação - Retrocruzamento

Probabilidades

Exemplo

G1 G2

O1 O2 O3

G3 G4

O4

A A H

AA AA AA AA

Aa Aa Aa Aa

P (O|G3 = Aa) ∝(1/2) × (0.99)(0.90) × (0.99)(0.10) × (1.00)(0.10) × (0.01)+

(1/2) × (0.99)(0.90) × (0.99)(0.10) × (1.00)(0.90) × (0.99)+

(1/2) × (0.99)(0.10) × (0.01)(0.90) × (1.00)(0.10) × (0.01)+

(1/2) × (0.99)(0.10) × (0.01)(0.90) × (1.00)(0.90) × (0.99)+

(1/2) × (0.01)(0.10) × (0.99)(0.10) × (1.00)(0.10) × (0.01)+

(1/2) × (0.01)(0.10) × (0.99)(0.10) × (1.00)(0.90) × (0.99)+

(1/2) × (0.01)(0.90) × (0.01)(0.90) × (1.00)(0.10) × (0.01)+

(1/2) × (0.01)(0.90) × (0.01)(0.90) × (1.00)(0.90) × (0.99) =

= 0.03981888

Ordenação Análises Multiponto Funções de Mapeamento

Aplicação - Retrocruzamento

Probabilidades

Método da “Força Bruta”

P (O|Gi = gi) =∑g1

. . .∑gi−1

∑gi+1

. . .∑gn

π(g1)n−1∏j=1

tj(gj , gj+1)n∏

j=1

e(gj , Oj)

Ordenação Análises Multiponto Funções de Mapeamento

Aplicação - Retrocruzamento

Probabilidades

Exemplo

AA AA AA AAAA AA AA AaAA Aa AA AAAA Aa AA AaAa AA AA AAAa AA AA AaAa Aa AA AAAa Aa AA Aa

P (O|G3 = AA) ∝ (1/2) × (0.99)(0.90) × (0.99)(0.90) × (1.00)(0.90) × (0.01)

+ (1/2) × (0.99)(0.90) × (0.99)(0.90) × (1.00)(0.10) × (0.99)

+ (1/2) × (0.99)(0.10) × (0.01)(0.10) × (1.00)(0.90) × (0.01)

+ (1/2) × (0.99)(0.10) × (0.01)(0.10) × (1.00)(0.10) × (0.99)

+ (1/2) × (0.01)(0.10) × (0.99)(0.90) × (1.00)(0.90) × (0.01)

+ (1/2) × (0.01)(0.10) × (0.99)(0.90) × (1.00)(0.10) × (0.99)

+ (1/2) × (0.01)(0.90) × (0.01)(0.10) × (1.00)(0.90) × (0.01)

+ (1/2) × (0.01)(0.90) × (0.01)(0.10) × (1.00)(0.10) × (0.99)

= 0.04292352

Ordenação Análises Multiponto Funções de Mapeamento

Aplicação - Retrocruzamento

Probabilidades

Exemplo

AA AA Aa AAAA AA Aa AaAA Aa Aa AAAA Aa Aa AaAa AA Aa AAAa AA Aa AaAa Aa Aa AAAa Aa Aa Aa

P (O|G3 = Aa) ∝ (1/2) × (0.99)(0.90) × (0.99)(0.10) × (1.00)(0.10) × (0.01)

+ (1/2) × (0.99)(0.90) × (0.99)(0.10) × (1.00)(0.90) × (0.99)

+ (1/2) × (0.99)(0.10) × (0.01)(0.90) × (1.00)(0.10) × (0.01)

+ (1/2) × (0.99)(0.10) × (0.01)(0.90) × (1.00)(0.90) × (0.99)

+ (1/2) × (0.01)(0.10) × (0.99)(0.10) × (1.00)(0.10) × (0.01)

+ (1/2) × (0.01)(0.10) × (0.99)(0.10) × (1.00)(0.90) × (0.99)

+ (1/2) × (0.01)(0.90) × (0.01)(0.90) × (1.00)(0.10) × (0.01)

+ (1/2) × (0.01)(0.90) × (0.01)(0.90) × (1.00)(0.90) × (0.99)

= 0.03981888

Page 10: LGN5830 - Biometria de Marcadores Genéticos - …augustogarcia.me/Biometria-de-Marcadores/pdfs/aula5...Ordenação AnálisesMultiponto FunçõesdeMapeamento Algoritmos ProblemadoCaixeiroViajante

Ordenação Análises Multiponto Funções de Mapeamento

Aplicação - Retrocruzamento

Probabilidades

Exemplo

Lembre-se que o objetivo é calcular P (G3 = AA|O) e P (G3 = Aa|O)Reescalonando (Teorema de Bayes):

P (G3 = AA|O) = 0.04292352/(0.04292352 + 0.03981888) = 0.5188P (G3 = Aa|O) = 0.03981888/(0.04292352 + 0.03981888) = 0.4812

Ordenação Análises Multiponto Funções de Mapeamento

Aplicação - Retrocruzamento

Algoritmo

Em situações reais, este tipo de cálculo é inviável (2n−1

possibilidades num RC)Pode-se fazer uso de dois conjuntos de probabilidades:αi(g) = P (O1, . . . , Oi, Gi = g)βi(g) = P (Oi+1, . . . , On|Gi = g)

α’s e β’s são calculados por indução (recursão) (equações forward ebackward), usando a propriedade Markovianaαi+1(g) = e(g,Oi+1)

∑g′ αi(g

′)ti(g′, g)

βi−1 =∑

g′ βi(g′)ti−1(g, g

′)e(g′, Oi)

Finalmente:

P (Gi = g|O) = P (Gi = g,O)/P (O) = αi(g)βi(g)/∑g′

αi(g′)βi(g′)

Ordenação Análises Multiponto Funções de Mapeamento

Aplicação - Retrocruzamento

Estimativa da Fração de Recombinação

Usando HMMs, é possível obter MLE’s dos valores de r de cadaintervalo usando informação de todos os marcadoressimultaneamente (estimativas multiponto)

Inicialmente, toma-se um vetor r(s) com frações de recombinaçãopara todos os intervalos do grupo de ligação de interesse

Para cada intervalo, calcula-se

γki(g, g′|r̂(s)) = P (Gk,i = g,Gk,i+1 = g′|Ok, r̂(s))

Esta é a probabilidade do indivíduo k possuir genótipos g e g′ nosmarcadores i e i+ 1, dadas as informações multiponto e a estimativaatual de r (algoritmo EM)

Lembre-se do exemplo inicial mostrando o fundamento do método

Ordenação Análises Multiponto Funções de Mapeamento

Aplicação - Retrocruzamento

Estimativa da Fração de Recombinação

Finalmente,

r̂(s+1)i =

∑k

∑g,g′

γki(g, g′|r̂(s))p(g, g′)/N

p(g, g′) é a proporção de eventos de recombinação no intervalo se oindivíduo tiver genótipos g e g′ neste intervaloEste é o MLE multiponto da fração de recombinação para qualquersituação

Ufa...

Page 11: LGN5830 - Biometria de Marcadores Genéticos - …augustogarcia.me/Biometria-de-Marcadores/pdfs/aula5...Ordenação AnálisesMultiponto FunçõesdeMapeamento Algoritmos ProblemadoCaixeiroViajante

Ordenação Análises Multiponto Funções de Mapeamento

Aplicação - Retrocruzamento

Análises Multiponto

Através do algoritmo EM, obtemos estimativas multiponto demáxima verossimilhança das frações de recombinação entre osmarcadores

Com isso completa-se a construção do mapa: estimativa da ordem edas distânciasNote que todas as frações de recombinação são estimadassimultaneamente

Os bons softwares de mapeamento implementam essa abordagemmultiponto

Atenção

Sempre que possível, essa abordagemmultiponto deve ser empregada, jáque produz resultados muito superiores

Ordenação Análises Multiponto Funções de Mapeamento

Função de Morgan

Fração de Recombinação vs Distância

Frações de recombinação não podem ser somadas

Funções de Mapeamento: desenvolvidas para corrigir isso

Relação: r12 = r1 + r2 − 2Cr1r2

mij = f(rij)

Unidade paramij : Morgan ou cM

Ordenação Análises Multiponto Funções de Mapeamento

Função de Morgan

Morgan, 1928

mij = rij

Uso: apenas pequenos segmentos cromossômicos

0.0 0.1 0.2 0.3 0.4 0.5

0.0

0.1

0.2

0.3

0.4

0.5

r

m

Morgan

Ordenação Análises Multiponto Funções de Mapeamento

Função de Haldane

Haldane

Pressuposições:Ausência de interferência (C = 1)Distribuição de Poisson para os eventos de recombinação

mij = −1

2log(1− 2rij)

As distâncias podem agora ser somadas

0.0 0.1 0.2 0.3 0.4 0.50.

00.

10.

20.

30.

40.

5

r

m

MorganHaldane

Page 12: LGN5830 - Biometria de Marcadores Genéticos - …augustogarcia.me/Biometria-de-Marcadores/pdfs/aula5...Ordenação AnálisesMultiponto FunçõesdeMapeamento Algoritmos ProblemadoCaixeiroViajante

Ordenação Análises Multiponto Funções de Mapeamento

Função de Kosambi

Kosambi

Extensão da função de HaldaneBaseia-se em observações empíricas:

Se r1 e r2 são pequenas, r12 ∼ r1 + r2 (C = 0)Se r1 e r2 são medianas, r12 ∼ r1 + r2 − r1r2 (C = 1/2)Se r1 e r2 são grandes, r12 ∼ r1 + r2 − 2r1r2 (C = 1)

mij =1

4log

1 + 2rij1− 2rij

Ordenação Análises Multiponto Funções de Mapeamento

Função de Kosambi

Kosambi

Geralmente, mais adequada que a função de Haldane

0.0 0.1 0.2 0.3 0.4 0.5

0.0

0.1

0.2

0.3

0.4

0.5

r

m

MorganHaldaneKosambi

Ordenação Análises Multiponto Funções de Mapeamento

Função de Kosambi

Principais Referências

Rabiner, L.R.A Tutorial on Hidden Markov Models and Selected Applications inSpeech RecognitionProceedings Of The IEEE. 77 77: 257-286, 1989

Lander, ES; Green, P.Construction of multilocus genetic linkage maps in humansProc. Natl. Acad. Sci. USA 84: 2363-2367, 1987

Jiang, C; Zeng, Z.-B.Mapping quantitative trait loci with dominant and missing markers invarious crosses from two inbred linesGenetica 101: 47-57, 1997

Broman, KW; Sen, SA Guide to QTL Mapping with R/qtlSpringer (ed.) Apêndice D, 2009