inferência estatística e aplicações ii a reversão tuberculínica é um fato cuja ocorrência,...
TRANSCRIPT
Inferência Estatística e Aplicações II
Edson Zangiacomi Martinez
Departamento de Medicina SocialFMRP/USP
Thomas Bayes
• Reverendo presbiteriano e matemático amador.• Publicação, em 1763, “An essay towards solving a
problem in the doctrine of chances”, Philosophical Transactions of the Royal Society ofLondon.
• Texto apresentado por seu amigo Richard Price, que o encontrou entre os pertences de Bayes após a sua morte.
• Laplace (1774, 1781): desenvolvimentos posteriores (talvez independentes) dos princípios Bayesianos.
Pensamento Bayesiano
• Softwares que filtram os nossos e-mails, classificando-os como indesejados ou desejados.
• Mars Rovers são programados para “pensar Bayesianamente” enquanto passeiam pelo planeta Marte.
• Economia, medicina e saúde, engenharia, ciências sociais, etc., etc., etc........
Pesquisa em saúde
• Filosofia dominante: – interpretação freqüentista.
Modeloexperimental
Modeloexperimental DadosDados
ObjetivosHipóteses
Amostra
InferênciaEstatística
InferênciaEstatística
Testes de hipótesesIntervalos de confiança
Bayesianismo
Distribuiçãoa priori
VerossimilhançaxDistribuiçãoa posteriori ∝
Este é o Teorema de Bayes !
Bayesianismo como filosofia
x∝Distribuiçãoa posteriori
Distribuiçãoa priori
Verossimilhança
Inferência racional Subjetividade Experiência empírica
Razão humana Universo físico
Exemplo – método clássico
• Objetivo: estimar a taxa de prevalência (θ ) de uma doença
População
Amostra den indivíduos
Exemplo – método clássico
• Modelo estatístico:
• Yi = 1 se o i-ésimo indivíduo é portador da doença
• Yi = 0 se o i-ésimo indivíduo não é portador da doença
• i = 1, 2, ..., n
• ( ) ( ) 10 ;1,0 ;1 1≤≤=−==
−θθθθ i
yy
ii yyYP ii
Exemplo – método clássico
• Função de verossimilhança:
( ) ( ) 10 ;1,0 ;1 1≤≤=−==
−θθθθ i
yy
ii yyYP ii
( ) ( ) ( ) ∑−∑=−= == −
=
−
∏n
i i
n
i iiiyny
n
i
yyL 11 11
1
1θθθθθ Y
Exemplo – método clássico
• Função de verossimilhança:
( ) ( ) 10 ;1,0 ;1 1≤≤=−==
−θθθθ i
yy
ii yyYP ii
( ) ( ) ( ) ∑−∑=−= == −
=
−
∏n
i i
n
i iiiyny
n
i
yyL 11 11
1
1θθθθθ Y
• Função de “log-verossimilhança”:
( ) ( ) ( )θθθ −∑−+∑= == 1lnln 11ni i
ni i ynyYl
Exemplo – método clássico
• Estimador de máxima verossimilhança:
( ) ( ) ( )θθθ −∑−+∑= == 1lnln 11ni i
ni i ynyYl
=∑
= =
n
yni i1θ̂
Número de portadores da doença na amostraNúmero de indivíduos na amostra
Exemplo – método clássico
• Estimador de máxima verossimilhança:
=∑
= =
n
yni i1θ̂
Número de portadores da doença na amostraNúmero de indivíduos na amostra
Em uma amostra de 100 indivíduos, encontramos 18 portadores da doença
%18100
18ˆ ==θ
Método clássico
Modeloexperimental
Modeloexperimental DadosDados
Objetivo:Estimar aprevalênciada doença.
Amostra:n = 10018 portadores
InferênciaEstatística
InferênciaEstatística
Estimativa: 18%Intervalo de confiançaIC 95%: (10,4% ; 25,5%)
A prevalência da doença na população é
cerca de 15%
Probabilidadea priori
Probabilidadea posteriori
Método Bayesiano
Dados amostrais
experiência
profissional
A prevalência da doença na população é
cerca de 15%
Probabilidadea priori
Probabilidadea posteriori
Método Bayesiano
Dados amostrais
experiência
profissional
( ) ( ) ∑−∑= == −n
i i
n
i i ynyL 11 1 θθθ Y
( ) =θp
( ) ( ) ( )YY θθθπ Lp∝
A prevalência da doença na população é
cerca de 15%
Probabilidadea priori
experiência
profissional
A prevalência da doença na
população não é menor que
1%
A prevalência da doença na
população não é maior que 40%
0.0 0.2 0.4 0.6 0.8 1.0
0
1
2
3
4
θ ~ Beta( 1,86 ; 10,55 )
( ) 155,10186,1 )1( −− −∝ θθθp
θ ~ Beta( 1,86 ; 10,55 )
( ) ( ) ∑−∑= == −n
i i
n
i i ynyL 11 1 θθθ Y
( ) ( ) ( )YY θθθπ Lp∝
Distribuiçãoa priori
Distribuiçãoa posteriori
Método Bayesiano
Dados amostrais
n = 100
18 portadores
18100
1
=∑=i
iy
( ) )55,92;86,19(~ BetaYθπ
(priori conjugada)
0.0 0.2 0.4 0.6 0.8 1.0
0
2
4
6
8
10
PrioriPriori
PosterioriPosteriori
Seja a taxa de prevalência estimada pela média da distribuição a posteriori
%7,1755,9286,19
86,19ˆ ≈+
=Bayesθ
( ) )55,92;86,19(~ BetaYθπ
0.0 0.1 0.2 0.3 0.4
0
2
4
6
8
10
95%
Intervalos de credibilidade
ICr 95%: (11,2% ; 25,2%)
( ) )55,92;86,19(~ BetaYθπ
Priori “não informativa”
Eu tenho pouca informação sobre a prevalência da
doença na população...
São distribuições a priori minimamente informativas em algum sentido.
Priori “não informativa”
• Método de Bayes-Laplace– Base no princípio da equiprobabilidade.
• Método de Jeffreys– Invariância a transformações monótonas.
– Base na medida de informação de Fisher.
– No exemplo anterior, θ ~ Beta( 1/2 ; 1/2 ) e
( ) )5,82;5,18(~ BetaYθπ
%3,185,825,18
5,18ˆ ≈+
=Bayesθ
YX
θ
Para cada Locus, i = 1,2,...,17,eu poderia considerar
Yi ~ Binomial(Xi ,θi)
Mas, como X é grande e θ é pequeno, possoconsiderar
Yi ~ Poisson(λi) onde λi = Xi θi
Modelo
Yi ~ Poisson(λi) onde λi = Xi θi
( ) ( )!
,i
y
ii
x
iiiiy
xexyYP
iii θθ
θ−
==
“Reparametrização”: θi = exp(αi)
Prioris: αi ~ N(α; σα2)
α ~ N(0;10000)σα
2 ~ Gamma(0,1 ; 0,1)
0.00250.0034610.0015430.002433
0.00290.0050650.0012190.0026240,00284951755
0.00360.0057050.0014150.0029770,00346261733
0.00740.01030.0032930.0060640,007964141758
0.00430.0067960.0018560.0036530,00454581760
0.00030.0028192.777E-40.00119001746
0.00110.0035575.823E-40.0016950,00113521762
0.00480.0056190.0014330.0029760,00345461737
0.00050.003214.282E-40.0014420,0005711753
0.00380.0056370.0014260.0029570,00340561762
0.00200.004127.686E-40.0019840,00170131764
0.00100.0040647.783E-40.0019950,00171231752
0.00050.0032164.278E-40.0014350,00057811730
0.00290.0050640.0011840.0026010,00283851762
0.00150.0036165.912E-40.0016960,00113621760
0.00310.0055720.0013970.0029630,00343861745
0.00410.0073230.0021210.0040140,00512591756
0.00290.0061280.0016030.0032940,00398471757
97.5%2.5%medianobservados artigo
Motivação
• Ruffino-Netto A. Cálculo do risco de infecção tuberculosa levando em consideração pessoas perdidas de seguimento. Rev. Divisão Nac.
Tuberculose 1976; 20(80): 383-90.
• Proposta de um modelo determinístico.
K
R0
reatores
N0 não
reatores
I
reatores
N não
reatores
Pn
perdidos
R
reatores
Pr
perdidos
Pressuposto:A reversão tuberculínica é um fato cuja ocorrência, além de poucofreqüente, envolve alguns anos após o organismo previamente infectado conseguir esterilizar o bacilo de Kock nele existente.
Taxas de Transferências
λ3
K
R0
reatores
N0 não
reatores
I
reatores
N não
reatores
Pn
perdidos
R
reatores
Pr
perdidos
λ1
Pi
Reatores e
perdidos
λ2
(assumimos
λ1 = λ3)
Taxas de Transferências
θ : taxa de infecção
K
R0
reatores
N0 não
reatores
I
reatores
N não
reatores
Pn
perdidos
R
reatores
Pr
perdidos
Equações diferenciais
( )[ ]θλ +−= 10 exp tNN
( )[ ] ( ){ }ttN
I 2112
0 expexp λθλθλλ
θ−−+−
−−=
( )tRR 20 exp λ−=
(Ruffino Netto, 1976)
Notação
KPn + PrI + RNTotal
R0PrR0
Reatores no
início do
estudo
(T0 = 1)
N0PnIN
Não reatores
no início do
estudo
(T0 = 0)
Total(S = 0)
Reatores ao
final do estudo
(T1 = 1)
Não reatores ao
final do estudo
(T1 = 0)
Pessoas
perdidas de
seguimento
Pessoas presentes ao final do
estudo
(S = 1)
Modelo Bayesiano
• Taxa de infecção:� P(T1 = 1 | T0 = 0) = θ
• Probabilidades de perda de seguimento:� λ1 = P( S = 0 | T1 = 0, T0 = 0)
� λ2 = P( S = 0 | T1 = 1)
• E ainda:� P(T0 = 1) = β
Modelo Bayesiano
P( S = 1 , T1 = 1, T0 = 0)
=P( S = 1 | T1 = 1, T0 = 0) P(T1 = 1, T0 = 0)
= P( S = 1 | T1 = 1, T0 = 0) P(T1 = 1 | T0 = 0) P(T0 = 0)
= (1 – λ1) θ (1 – β)
Probabilidades
βλ2 β(1 – λ2) β0
Reatores no
início do
estudo
(T0 = 1)
1 – βλ2 θ (1 – β) +λ1 (1 – θ)
(1 – β)
(1 – λ2) θ
(1 – β)
(1 – λ1) (1 – θ)
(1 – β)
Não reatores
no início do
estudo
(T0 = 0)
Total(S = 0)
Reatores ao
final do estudo
(T1 = 1)
Não reatores ao
final do estudo
(T1 = 0)
Pessoas
perdidas de
seguimento
Pessoas presentes ao final do
estudo
(S = 1)
Verossimilhança
( ) 0)1()1()1()1( 2211NRPrPiPnNPiIRIPiNPiPn
L ββθθλλλλξ −−−−= +−+++−
)',,,( 21 βθλλξ =onde
Indivíduos reatores ao final do estudo e perdidos de seguimento (Pi)
−−+−
−
)1)(1()1(
)1(,~,|
12
2
βθλβθλ
βθλξ PnBinomialPnPi
Distribuições a priori
• θ ~ Beta ( aθ, bθ )
• β ~ Beta ( aβ, bβ )
• λ1 ~ Beta ( a1, b1 )
• λ2 ~ Beta ( a2, b2 )
Algoritmo de amostradores de Gibbs
• θ | I, N, Pn, Pi, aθ, bθ ~ Beta(I + Pi + aθ, N + Pn – Pi + bθ),
• β | Pr, R, N0, aβ, bβ ~ Beta(R0 + aβ, N0 + bβ),
• λ1 | N, Pn, Pi, a1, b1 ~ Beta(Pn – Pi + a1, N + b1)
• λ2 | I, R, Pi, a2, b2 ~ Beta(Pi + a2, I + R + b2)
−−+−
−
)1)(1()1(
)1(,~,|
12
2
βθλβθλ
βθλξ PnBinomialPnPi
Exemplo
K
R0
reatores
N0 não
reatores
I
reatores
N não
reatores
Pn
perdidos
R
reatores
Pr
perdidos
10001000
100100
11001100
880880
1010
110110
9090
1010
Algoritmo Bayesiano
• θ ~ Beta ( 1/2, 1/2 )• β ~ Beta ( 1/2, 1/2 )• λ1 ~ Beta ( 1/2, 1/2 )• λ2 ~ Beta ( 1/2, 1/2 )
• Geradas 10 mil amostras (burn-in samples)• Geradas 500 mil amostras• Saltos tamanho 10• Convergência: Gelman e Rubin• Software WinBugs
Resultados
7,49% 10,91%9,13%-β
0,57% 1,99%1,17%1,12 %θ
5,29% 17,12%10,46%10,54%λ2
9,16% 13,07%11,03%11,66%λ1
Intervalo de credibilidade 95%
Estimativaa posteriori
Modelodeterminístico
Parâmetro
Modelo Bayesiano
Vantagens
• Incorporação da opinião de especialistas sobre os parâmetros de interesse.
• WinBugs: software “bom e de graça”.
Desvantagens
• É necessário um bom entendimento teórico para o uso de um método Bayesiano: distribuições de probabilidade, cadeias de Markov, métodos Monte Carlo, diagnósticos de convergência, etc...
• Uso de softwares como o WinBugs pode ser um obstáculo ao usuário com poucos conhecimentos de linguagens de programação.
Citações no MEDLINEBusca pelo termo “bayesian”
0
200
400
600
800
1000
1200
1400
1600
1950 1960 1970 1980 1990 2000 2010
ano
Núm
ero
de c
itaçõ
es
Citações no MEDLINECitações a cada 10 mil indexações
ano
Inci
dênc
ia (
artig
os/1
0.00
0)
0
5
10
15
20
25
1960 1970 1980 1990 2000 2010
Citações no MEDLINECitações a cada 10 mil indexações
ano
Inci
dênc
ia (
artig
os/1
0.00
0)
0
5
10
15
20
25
1960 1970 1980 1990 2000 2010
Curva de Malthus y(ano) = 0,0169 exp [0,158 (ano – 1962)]
Citações a cada 10 mil indexações
y(ano) = 0,0169 exp [0,158 (ano – 1962)]
0
1000
2000
3000
4000
5000
6000
7000
8000
9000
10000
1950 1960 1970 1980 1990 2000 2010 2020 2030 2040 2050 2060
ano
Inci
dênc
ia (
artig
os/1
0.00
0)
20482048
Edson Zangiacomi Martinez
• Professor Associado do Departamento de Medicina
Social, da Faculdade de Medicina de Ribeirão Preto
(FMRP), Universidade de São Paulo (USP).
• Bacharel em Estatística (UNICAMP)
• Mestre em Estatística (UFSCar)
• Doutor em Ciências Médicas (UNICAMP)
• Livre-Docente (USP)
E-Mail: [email protected]
Métodos Bayesianos
Departamento de Medicina Social
Centro de Métodos Quantitativos (CEMEQ)
Faculdade de Medicina de Ribeirão Preto
Universidade de São Paulo (USP)
2010
www.fmrp.usp.br/rms