inferência estatística e aplicações ii a reversão tuberculínica é um fato cuja ocorrência,...

Inferência Estatística e Aplicações II

Edson Zangiacomi Martinez

Departamento de Medicina SocialFMRP/USP

[email protected]

Métodos Bayesianos

Edson ZangiacomiMartinez

Ciê

ncia

Hoj

e, ju

lho

de 2

006

Thomas Bayes

Thomas Bayes

1702 - 1761

Thomas Bayes

• Reverendo presbiteriano e matemático amador.• Publicação, em 1763, “An essay towards solving a

problem in the doctrine of chances”, Philosophical Transactions of the Royal Society ofLondon.

• Texto apresentado por seu amigo Richard Price, que o encontrou entre os pertences de Bayes após a sua morte.

• Laplace (1774, 1781): desenvolvimentos posteriores (talvez independentes) dos princípios Bayesianos.

Pensamento Bayesiano

• Softwares que filtram os nossos e-mails, classificando-os como indesejados ou desejados.

• Mars Rovers são programados para “pensar Bayesianamente” enquanto passeiam pelo planeta Marte.

• Economia, medicina e saúde, engenharia, ciências sociais, etc., etc., etc........

Pesquisa em saúde

• Filosofia dominante: – interpretação freqüentista.

Modeloexperimental

Modeloexperimental DadosDados

ObjetivosHipóteses

Amostra

InferênciaEstatística


Testes de hipótesesIntervalos de confiança

Bayesianismo

Distribuiçãoa priori

VerossimilhançaxDistribuiçãoa posteriori ∝

Este é o Teorema de Bayes !

Bayesianismo como filosofia

x∝Distribuiçãoa posteriori


Verossimilhança

Inferência racional Subjetividade Experiência empírica

Razão humana Universo físico

Exemplo – método clássico

• Objetivo: estimar a taxa de prevalência (θ ) de uma doença

População

Amostra den indivíduos


• Modelo estatístico:

• Yi = 1 se o i-ésimo indivíduo é portador da doença

• Yi = 0 se o i-ésimo indivíduo não é portador da doença

• i = 1, 2, ..., n

• ( ) ( ) 10 ;1,0 ;1 1≤≤=−==

−θθθθ i

yy

ii yyYP ii


• Função de verossimilhança:

( ) ( ) 10 ;1,0 ;1 1≤≤=−==

−θθθθ i

yy

ii yyYP ii

( ) ( ) ( ) ∑−∑=−= == −

=

−

∏n

i i

n

i iiiyny

n

i

yyL 11 11

1

1θθθθθ Y


• Função de verossimilhança:

( ) ( ) 10 ;1,0 ;1 1≤≤=−==

−θθθθ i

yy

ii yyYP ii

( ) ( ) ( ) ∑−∑=−= == −

=

−

∏n

i i

n

i iiiyny

n

i

yyL 11 11

1

1θθθθθ Y

• Função de “log-verossimilhança”:

( ) ( ) ( )θθθ −∑−+∑= == 1lnln 11ni i

ni i ynyYl


• Estimador de máxima verossimilhança:

( ) ( ) ( )θθθ −∑−+∑= == 1lnln 11ni i

ni i ynyYl

=∑

= =

n

yni i1θ̂

Número de portadores da doença na amostraNúmero de indivíduos na amostra


• Estimador de máxima verossimilhança:

=∑

= =

n

yni i1θ̂

Número de portadores da doença na amostraNúmero de indivíduos na amostra

Em uma amostra de 100 indivíduos, encontramos 18 portadores da doença

%18100

18ˆ ==θ

Método clássico

Modeloexperimental

Modeloexperimental DadosDados

Objetivo:Estimar aprevalênciada doença.

Amostra:n = 10018 portadores



Estimativa: 18%Intervalo de confiançaIC 95%: (10,4% ; 25,5%)

A prevalência da doença na população é

cerca de 15%

Probabilidadea priori

Probabilidadea posteriori

Método Bayesiano

Dados amostrais

experiência

profissional


cerca de 15%


Probabilidadea posteriori

Método Bayesiano

Dados amostrais

experiência

profissional

( ) ( ) ∑−∑= == −n

i i

n

i i ynyL 11 1 θθθ Y

( ) =θp

( ) ( ) ( )YY θθθπ Lp∝


cerca de 15%


experiência

profissional

A prevalência da doença na

população não é menor que

1%

A prevalência da doença na

população não é maior que 40%

0.0 0.2 0.4 0.6 0.8 1.0

0

1

2

3

4

θ ~ Beta( 1,86 ; 10,55 )

( ) 155,10186,1 )1( −− −∝ θθθp

θ ~ Beta( 1,86 ; 10,55 )

( ) ( ) ∑−∑= == −n

i i

n

i i ynyL 11 1 θθθ Y

( ) ( ) ( )YY θθθπ Lp∝


Distribuiçãoa posteriori

Método Bayesiano

Dados amostrais

n = 100

18 portadores

18100

1

=∑=i

iy

( ) )55,92;86,19(~ BetaYθπ

(priori conjugada)

0.0 0.2 0.4 0.6 0.8 1.0

0

2

4

6

8

10

PrioriPriori

PosterioriPosteriori

Seja a taxa de prevalência estimada pela média da distribuição a posteriori

%7,1755,9286,19

86,19ˆ ≈+

=Bayesθ

( ) )55,92;86,19(~ BetaYθπ

0.0 0.1 0.2 0.3 0.4

0

2

4

6

8

10

95%

Intervalos de credibilidade

ICr 95%: (11,2% ; 25,2%)

( ) )55,92;86,19(~ BetaYθπ

Priori “não informativa”

Eu tenho pouca informação sobre a prevalência da

doença na população...

São distribuições a priori minimamente informativas em algum sentido.

Priori “não informativa”

• Método de Bayes-Laplace– Base no princípio da equiprobabilidade.

• Método de Jeffreys– Invariância a transformações monótonas.

– Base na medida de informação de Fisher.

– No exemplo anterior, θ ~ Beta( 1/2 ; 1/2 ) e

( ) )5,82;5,18(~ BetaYθπ

%3,185,825,18

5,18ˆ ≈+

=Bayesθ

Um outro exemplo...

YX

θ

YX

θ

Para cada Locus, i = 1,2,...,17,eu poderia considerar

Yi ~ Binomial(Xi ,θi)

YX

θ

Para cada Locus, i = 1,2,...,17,eu poderia considerar

Yi ~ Binomial(Xi ,θi)

Mas, como X é grande e θ é pequeno, possoconsiderar

Yi ~ Poisson(λi) onde λi = Xi θi

Modelo


( ) ( )!

,i

y

ii

x

iiiiy

xexyYP

iii θθ

θ−

==

Modelo


( ) ( )!

,i

y

ii

x

iiiiy

xexyYP

iii θθ

θ−

==

“Reparametrização”: θi = exp(αi)

Prioris: αi ~ N(α; σα2)

α ~ N(0;10000)σα

2 ~ Gamma(0,1 ; 0,1)

0.00250.0034610.0015430.002433

0.00290.0050650.0012190.0026240,00284951755

0.00360.0057050.0014150.0029770,00346261733

0.00740.01030.0032930.0060640,007964141758

0.00430.0067960.0018560.0036530,00454581760

0.00030.0028192.777E-40.00119001746

0.00110.0035575.823E-40.0016950,00113521762

0.00480.0056190.0014330.0029760,00345461737

0.00050.003214.282E-40.0014420,0005711753

0.00380.0056370.0014260.0029570,00340561762

0.00200.004127.686E-40.0019840,00170131764

0.00100.0040647.783E-40.0019950,00171231752

0.00050.0032164.278E-40.0014350,00057811730

0.00290.0050640.0011840.0026010,00283851762

0.00150.0036165.912E-40.0016960,00113621760

0.00310.0055720.0013970.0029630,00343861745

0.00410.0073230.0021210.0040140,00512591756

0.00290.0061280.0016030.0032940,00398471757

97.5%2.5%medianobservados artigo

Um outro exemplo...

Motivação

• Ruffino-Netto A. Cálculo do risco de infecção tuberculosa levando em consideração pessoas perdidas de seguimento. Rev. Divisão Nac.

Tuberculose 1976; 20(80): 383-90.

• Proposta de um modelo determinístico.

Ruffino Netto, 1976

K

R0

reatores

N0 não

reatores

Provatuberculínica

K

R0

reatores

N0 não

reatores

I

reatores

N não

reatores

Pn

perdidos

R

reatores

Pr

perdidos

K

R0

reatores

N0 não

reatores

I

reatores

N não

reatores

Pn

perdidos

R

reatores

Pr

perdidos

Pressuposto:A reversão tuberculínica é um fato cuja ocorrência, além de poucofreqüente, envolve alguns anos após o organismo previamente infectado conseguir esterilizar o bacilo de Kock nele existente.

Taxas de Transferências

λ3

K

R0

reatores

N0 não

reatores

I

reatores

N não

reatores

Pn

perdidos

R

reatores

Pr

perdidos

λ1

Pi

Reatores e

perdidos

λ2

(assumimos

λ1 = λ3)

Taxas de Transferências

θ : taxa de infecção

K

R0

reatores

N0 não

reatores

I

reatores

N não

reatores

Pn

perdidos

R

reatores

Pr

perdidos

Equações diferenciais

( )[ ]θλ +−= 10 exp tNN

( )[ ] ( ){ }ttN

I 2112

0 expexp λθλθλλ

θ−−+−

−−=

( )tRR 20 exp λ−=

(Ruffino Netto, 1976)

Proposta de um novo modelo (Bayesiano)

Notação

KPn + PrI + RNTotal

R0PrR0

Reatores no

início do

estudo

(T0 = 1)

N0PnIN

Não reatores

no início do

estudo

(T0 = 0)

Total(S = 0)

Reatores ao

final do estudo

(T1 = 1)

Não reatores ao

final do estudo

(T1 = 0)

Pessoas

perdidas de

seguimento

Pessoas presentes ao final do

estudo

(S = 1)

Modelo Bayesiano

• Taxa de infecção:� P(T1 = 1 | T0 = 0) = θ

• Probabilidades de perda de seguimento:� λ1 = P( S = 0 | T1 = 0, T0 = 0)

� λ2 = P( S = 0 | T1 = 1)

• E ainda:� P(T0 = 1) = β

Modelo Bayesiano

P( S = 1 , T1 = 1, T0 = 0)

=P( S = 1 | T1 = 1, T0 = 0) P(T1 = 1, T0 = 0)

= P( S = 1 | T1 = 1, T0 = 0) P(T1 = 1 | T0 = 0) P(T0 = 0)

= (1 – λ1) θ (1 – β)

Probabilidades

βλ2 β(1 – λ2) β0

Reatores no

início do

estudo

(T0 = 1)

1 – βλ2 θ (1 – β) +λ1 (1 – θ)

(1 – β)

(1 – λ2) θ

(1 – β)

(1 – λ1) (1 – θ)

(1 – β)

Não reatores

no início do

estudo

(T0 = 0)

Total(S = 0)

Reatores ao

final do estudo

(T1 = 1)

Não reatores ao

final do estudo

(T1 = 0)

Pessoas

perdidas de

seguimento

Pessoas presentes ao final do

estudo

(S = 1)

Verossimilhança

( ) 0)1()1()1()1( 2211NRPrPiPnNPiIRIPiNPiPn

L ββθθλλλλξ −−−−= +−+++−

)',,,( 21 βθλλξ =onde

Indivíduos reatores ao final do estudo e perdidos de seguimento (Pi)

−−+−

−

)1)(1()1(

)1(,~,|

12

2

βθλβθλ

βθλξ PnBinomialPnPi

Distribuições a priori

• θ ~ Beta ( aθ, bθ )

• β ~ Beta ( aβ, bβ )

• λ1 ~ Beta ( a1, b1 )

• λ2 ~ Beta ( a2, b2 )

Algoritmo de amostradores de Gibbs

• θ | I, N, Pn, Pi, aθ, bθ ~ Beta(I + Pi + aθ, N + Pn – Pi + bθ),

• β | Pr, R, N0, aβ, bβ ~ Beta(R0 + aβ, N0 + bβ),

• λ1 | N, Pn, Pi, a1, b1 ~ Beta(Pn – Pi + a1, N + b1)

• λ2 | I, R, Pi, a2, b2 ~ Beta(Pi + a2, I + R + b2)

−−+−

−

)1)(1()1(

)1(,~,|

12

2

βθλβθλ

βθλξ PnBinomialPnPi

Exemplo

K

R0

reatores

N0 não

reatores

I

reatores

N não

reatores

Pn

perdidos

R

reatores

Pr

perdidos

10001000

100100

11001100

880880

1010

110110

9090

1010

Algoritmo Bayesiano

• θ ~ Beta ( 1/2, 1/2 )• β ~ Beta ( 1/2, 1/2 )• λ1 ~ Beta ( 1/2, 1/2 )• λ2 ~ Beta ( 1/2, 1/2 )

• Geradas 10 mil amostras (burn-in samples)• Geradas 500 mil amostras• Saltos tamanho 10• Convergência: Gelman e Rubin• Software WinBugs

Software WinBugs

Resultados

7,49% 10,91%9,13%-β

0,57% 1,99%1,17%1,12 %θ

5,29% 17,12%10,46%10,54%λ2

9,16% 13,07%11,03%11,66%λ1

Intervalo de credibilidade 95%

Estimativaa posteriori

Modelodeterminístico

Parâmetro

Modelo Bayesiano

Vantagens

• Incorporação da opinião de especialistas sobre os parâmetros de interesse.

• WinBugs: software “bom e de graça”.

Desvantagens

• É necessário um bom entendimento teórico para o uso de um método Bayesiano: distribuições de probabilidade, cadeias de Markov, métodos Monte Carlo, diagnósticos de convergência, etc...

• Uso de softwares como o WinBugs pode ser um obstáculo ao usuário com poucos conhecimentos de linguagens de programação.

Citações no MEDLINEBusca pelo termo “bayesian”

0

200

400

600

800

1000

1200

1400

1600

1950 1960 1970 1980 1990 2000 2010

ano

Núm

ero

de c

itaçõ

es

Citações no MEDLINECitações a cada 10 mil indexações

ano

Inci

dênc

ia (

artig

os/1

0.00

0)

0

5

10

15

20

25

1960 1970 1980 1990 2000 2010

Citações no MEDLINECitações a cada 10 mil indexações

ano

Inci

dênc

ia (

artig

os/1

0.00

0)

0

5

10

15

20

25

1960 1970 1980 1990 2000 2010

Curva de Malthus y(ano) = 0,0169 exp [0,158 (ano – 1962)]

Citações a cada 10 mil indexações

y(ano) = 0,0169 exp [0,158 (ano – 1962)]

0

1000

2000

3000

4000

5000

6000

7000

8000

9000

10000

1950 1960 1970 1980 1990 2000 2010 2020 2030 2040 2050 2060

ano

Inci

dênc

ia (

artig

os/1

0.00

0)

20482048

Edson Zangiacomi Martinez

• Professor Associado do Departamento de Medicina

Social, da Faculdade de Medicina de Ribeirão Preto

(FMRP), Universidade de São Paulo (USP).

• Bacharel em Estatística (UNICAMP)

• Mestre em Estatística (UFSCar)

• Doutor em Ciências Médicas (UNICAMP)

• Livre-Docente (USP)

E-Mail: [email protected]

Métodos Bayesianos

Departamento de Medicina Social

Centro de Métodos Quantitativos (CEMEQ)

Faculdade de Medicina de Ribeirão Preto

Universidade de São Paulo (USP)

2010

www.fmrp.usp.br/rms

inferência estatística e aplicações ii a reversão tuberculínica é um fato cuja ocorrência,...

Documents