cálculo do tamanho amostral e da potência...
TRANSCRIPT
-
Clculo do tamanho amostrale da potncia estatstica
Paulo Nogueira
-
Exemplo 1
Existe diferena na eficcia do Salbutamol e do ipratropium no tratamento da Asma?
O investigador delineou um ensaio aleatorizado do efeito destes frmacos na FEV1 (Forced Experatory Volume durante um segundo) aps uma semana do tratamento.
Um estudo anterior relatou que a mdia do FEV1 em pessoas com asma tratadas 2.0 litros, com desvio padro de 1.0 litros.
O investigador pretende ser capaz de detectar uma diferena de 10% ou mais na mdia de FEV1 entre os dois grupos de tratamento.
Quantos pacientes so necessrios em cada grupo (Salbutamol e ipratropium ) para alfa (bi-caudal) de 5% e uma potncia de 80%?
-
Variveis
Que variveis esto envolvidas neste problema?
De que tipo so estas variveis? Como usual estudar (estatisticamente)
este problema, qual o teste usado?
-
Hipteses
Qual a hiptese em estudo? Qual a hiptese nula? Qual a hiptese alternativa?
-
Termos
Que termos do problema so novos?
-
Exemplo 2
Fumadores idosos tm maior incidncia de cancro da pele do que os no fumadores?
Uma reviso da literatura cientfica pr existente sugere que a incidncia 5 anos de cancro da pele cerca de 0,20 nos no fumadores idosos.
A um nvel de alfa de 5% (bi-caudal) e uma potncia de 80%, quantos fumadores e no fumadores necessrio estudar para determinar se a incidncia 5 anos de cancro da pele pelo menos 0,30 nos fumadores?
-
Variveis
Que variveis esto envolvidas neste problema?
de que tipo so estas variveis? Como usual estudar (estatisticamente)
este problema, qual o teste usado?
-
Hipteses
Qual a hiptese em estudo? Qual a hiptese nula? Qual a hiptese alternativa?
-
Termos
Que termos do problema so novos?
-
Para que serve a estatstica?
Qual o seu principal objectivo?
NoNoes breves de Estates breves de Estatsticastica
-
Para que serve a estatstica?
Qual o seu principal objectivo?
obter concluses sobre a populao usando uma
amostra!
PopulaoAmostragem
Uma ou mais variveis(X) so observadas
Amostra
NoNoes breves de Estates breves de Estatsticastica
Recolha, organizao, classificao, anlise e interpretao de dados atravs da criao de instrumentos adequados: quadros, grficos, permitindo de uma maneira geral fazer inferncias a partir de um conjunto de dados.
-
PopulaoAmostragem
Uma ou mais variveis(X) so observadas
Amostra
Verdadeiro valor
medio
mdia
NoNoes de Estates de Estatsticastica
Populao conjunto de objectos, indivduos ou resultados experimentais acerca do qual se pretende estudar alguma caracterstica comum. Aos elementos da populao chamamos unidades estatsticas.
Amostra parte ou subconjunto da populao que observada com o objectivo de obter informao para estudar a caracterstica pretendida.
-
1. Estatstica Descritiva
Explorar, apresentar e resumir os dados da amostra. (tabelas, Grficos, medidas de localizao, medidas de
disperso, etc.) 2. Inferncia Estatstica
Afirmaes sobre parmetros da populao. (Estimativas pontuais, intervalos de confiana, Testes de
hipteses)
NoNoes breves de Estates breves de Estatsticastica
-
Tipos de VariveisQualitativasQuantitativas
Exemplos de variveis
X - indica o Sexo (Masculino, Feminino).X - representa a Altura (cm).X - representa o Nmero de filhos.X - representa o Grupo Sanguneo.
X - representa o Colesterol (mg/dL)X - representa o Resultado do Tratamento
(melhoria, sem alteraes, pioria).
NoNoes breves de Estates breves de Estatsticastica
-
QualitativasNominais
No existe uma ordem entre as categoriasExemplos:
Sexo (dicotmica), Grupo sanguneo (policotmico).
Ordinais
Existe uma ordem naturalExemplos:
Resultado do tratamento ( - ; = ; + )Habilitaes literriasClasse social.
NoNoes de Estates de Estatsticastica
-
Quantitativas
Discretas (contagens)
Exemplos:
N. de elementos do agregado familiar.Nmero de glbulos brancos numa amostra de sangue.
Contnuas
Exemplos:Altura, Idade, Presso arterial.
NoNoes de Estates de Estatsticastica
-
Testes de Hipteses
Hiptese
Estatstica de teste
Distribuio da estatstica de teste
Deciso (Regio Crtica)
H0: No existe efeito vs. H1: Existe efeito Hiptese nula Hiptese alternativa
Varia conforme a natureza do problema
Ou rejeito a hiptese nula o que significa que existe um efeito de tratamento
Ou no rejeito a hiptese nula o que significa que no existem evidncias
de um efeito de tratamento
Varia conforme a natureza do problema
-
Aceitar ou No rejeitar?
Do ponto de vista estatstico puro no se diz Aceito H0,
porque existem sempre erros.
O facto de no se rejeitar H0 pode ter duas causas:
Ou o efeito no existe
Ou no existe potncia para mostrar o efeito.
-
Interpretao dos p-values
O p-value a probabilidade de observar os dados quando a
hiptese nula verdadeira.
Por exemplo num ensaio clnico
Estamos interessados na diferena observada entre dois
grupos de tratamento.
Relacionamos ento os dados com a provvel variao numa
amostra devida ao acaso quando a hiptese nula verdadeira
na populao.
Regra geral,
Se o p-value > 0,05 o resultado do teste no
significativo
Se o p-value < 0,05 o resultado do teste significativo(rejeita-se a hiptese nula)
Se o p-value < 0,01 Pode-se dizer que o resultado
muito significativo
-
Erros de Tipo I e Tipo II
Existem sempre erros ao fazer um teste de hipteses.
Deciso: H0
Realidade: H0
Verdadeira
Verdadeira
Falsa
Falsa Erro I
Erro II
confiana
1 1 1 1
Potncia
1 1 1 1
-
[ ] [ ]a verdadeir H|HRejeitar I tipode erro 00PP ==
[ ] [ ]falsa H|HRejeitar NoII tipode erro 00PP ==
[ ]Falsa H|HRejeitar 1 00PPotncia ==
-
POPULAOConjunto de elementos que partilham pelo menos uma caracterstica comum
Coleco completa de unidades, a partir da qual se podem constituir amostras (universo)
AMOSTRAUma parte seleccionada de uma populao
UNIDADE DE OBSERVAOCada um dos elementos da amostra
Amostragem
-
Passos para a amostragem
Definio do tamanho da amostra nmero de elementos a seleccionar
Sobre dimensionamento para precaver as perdas ou no respostas
Escolha de uma boa lista (pool) da populao
Mtodo aleatrio para a seleco dos elementos
Mtodo rigoroso de colheita dos dados
-
Recolha da amostra(como que eu fao a recolha da amostra?)
No h respostas mgicas!
Devemos procurar no incorrer em erros sistemticos? Erros que a metodologia estatstica no
controla
-
Que factores podem afectar o fenmeno que estamos a medir? Tempo? Espao/geografia? Vegetao/gua?
Evitar erro sistemtico! No fazer amostragem sempre
no mesmo dia da semana; mesma hora do dia.
No deixar amostragem depender do critrio pessoal Fazer plano de amostragem Fazer aleatorizao
-
A amostra recolhida numa nica sesso ou em vrias?
Uma nica sesso pode no cobrir toda a variabilidade existente
aleatorizar
-
Planear! Conceber uma grelha
Listar freguesias/localidades/reas Listar, listar, listar
Seleccionar aleatoriamente Recolher
-
1 2 3 4
5 6 7 8
9 10 11 12
13 14 15 16
Lista de nmeros aleatriosExcelSPSSEtc.
-
716109
4334
710119
117516
122616
511116
1610113
14155
6512
7131316
10577
313138
613613
47167
147910
127116
Sequncia de nmeros aleatriosObtida com o EXCEL (Folha de dados)
-
Leitura da lista de nmeros aleatrios Escolher ao acaso uma posio (apontar de olhos
fechados) Numa lista feita expressamente para o efeito no muito
importante verificar esta regra Escolher uma direco (esq-dta) ou (cima-para-
baixo) Listar nmero Se o nmero repetido ignorar e passar ao
seguinte Se o nmero no existe nos nossos itens (ex 18 e s
temos itens de 1 a 16) ignorar e passar ao seguinte
-
Exemplo
Vamos ler a esq-dta (em linha) Escolher 3 unidades amostrais Escolhida posio inicial suponhamos
linha 4, coluna 2 6;13 O nmero seguinte 6 novamente, j faz
parte da lista, passamos ao seguinte 8 A lista final 6;13;8
-
1 2 3 4
5 6 7 8
9 10 11 12
13 14 15 16
resultado
Amostra probabilstica todos os elementos tiveram a mesma probabilidade de fazer parte da amostra
-
Regra prtica para fazer uma lista no Excel Numa qualquer clula, escrever:
=int(aleatrio()*k+1) Arrastar frmula ao longo de vrias clulas k o nmero mximo de itens da lista
A funo aleatrio() voltil, sempre que fizermos alguma operao no excel a lista muda.
-
Tamanho da amostra(qual a dimenso da amostra que preciso?)
Perguntas comuns que no se devem fazer! Qual o tamanho de amostra significativo? Qual o tamanho de amostra representativo
para o meu caso?
-
Coisas que se deve evitar dizer: No h dados nenhuns sobre este meu tema;
No se sabe nada sobre o assunto; Estamos a partir do zero.
Se for o caso, o que se pode fazer estmais ou menos bem definido
-
Tamanho da amostra(qual a dimenso da amostra que preciso?)
Situaes usuais Uma populao
Propores/prevalncias Mdias
Duas populaes Comparao de Propores Comparao de Mdias Correlao Risco relativo
Correlao Vrias populaes
ANOVA Regresso Emparelhamento
Propores Mdias
-
Tamanho da amostra(qual a dimenso da amostra que preciso?)
Situaes usuais Uma populao
Propores/prevalncias Mdias
Duas populaes Comparao de Propores Comparao de Mdias Correlao Risco relativo
Vrias populaes ANOVA
Emparelhamento Propores Mdias
Situaes mais comuns
-
Tamanho da amostra(qual a dimenso da amostra que preciso?)
Situaes usuais Uma populao
Propores/prevalncias Mdias
Duas populaes Comparao de Propores Comparao de Mdias Correlao Risco relativo
Vrias populaes ANOVA
Emparelhamento Propores Mdias
Situaes mais fceis
-
Para determinar um tamanho de amostra o investigador tem de responder a diversas
questes
Qual a variao dos dados? Qual o erro que tolera na concluso de
que existe um efeito/diferena quando na realidade ele(a) no existe?
Qual a magnitude do efeito/diferena a detectar?
Qual a certeza com que queremos detectar o efeito/diferena?
-
Passos para a amostragem
Definio do tamanho da amostra nmero de elementos a seleccionar
Sobre dimensionamento para precaver as perdas ou no respostas
Escolha de uma boa lista (pool) da populao
Mtodo aleatrio para a seleco dos elementos
Mtodo rigoroso de colheita dos dados
-
Linguagem estatstica
Erro tipo I () Probabilidade de rejeitar a hiptese nula quando verdadeira
Erro tipo II () Probabilidade de no rejeitar a hiptese nula quando esta falsa
Potncia (1-) Probabilidade de rejeitar a hiptese nula quando falsa
Confiana (1-) Probabilidade de no rejeitar a hiptese nula quando verdadeira
Quantis de distribuies Normal T-de-student F
Diferena (Effect size)
-
A considerar
Qual a variao dos dados? Quando se trata de uma proporo
(estimar a prevalncia de asma regio Norte)
Basta ter a estimativa da proporo (estimar a prevalncia de carraas na regio Norte)
No um problema muito grave
Quando se trata de uma mdia (nvel de colesterol numa populao especfica)
necessrio ter uma noo do valor mdio esperado e da respectiva varincia
reviso bibliogrfica
Estudo piloto
-
A considerar
Qual o erro que toleramos na concluso de que existe um efeito/uma diferenaquando na realidade ele(a) no existe?
Estamos a falar do alfa, , nvel de significncia
usual usar-se 5%
-
A considerar
Qual a magnitude do efeito a detectar? Unidades (pontos) percentuais
Diferena das mdias
-
A considerar
Qual a certeza com que queremos detectar o efeito/diferena? Estamos a falar da potncia
So usuais valores de 90%, No invulgar o uso de 80%
Maior potncia = maior tamanho da amostra
-
Frmula simples para determinar a dimenso da amostra
Para uma mdia
s o desvio padro d a diferena que se pretende ser capaz de
detectar
2
24
d
sn =
-
exemplo
Um investigador procura determinar o QI mdio em indivduos do 3Ciclo de uma determinada rea urbana com um intervalo de confiana de +-6 pontos
Um estudo anterior determinou que o desvio padro do QI do mesmo tipo de indivduos numa cidade semelhante era 15 pontos.
Determine o tamanho de amostra necessrio para cumprir os objectivos do investigador com um nvel de confiana de 95%.
-
Exemplo (continuao)
So necessrios pelo menos 25 indivduos
256
1542
2
=
=n
-
Frmula simples para determinar a dimenso da amostra
Para uma proporo/prevalncia
Esta frmula idntica da mdia com s^2=p(1-p) d a diferena que se pretende ser capaz de detectar
2
)1(4
d
ppn
=
-
exemplo
Um investigador pretende determinar a sensibilidade de um novo teste de diagnstico para um determinado cancro.
Com base em informao dum estudo piloto, espera que 80% dos pacientes com esse cancro tenham teste positivo.
Quantos pacientes so necessrios para estimar um intervalo de confiana de 95% para a sensibilidade do teste na forma 0,80+-0,05?
-
Exemplo (continuao)
So necessrios pelo menos 256 pacientes
25605,0
2,08,042
=
=n
-
Exemplo (continuao)
641,0
2,08,042
=
=n
640001,0
2,08,042
=
=n
Nota: preciso 4 x maior = tamanho da amostra 16 x maior
-
Como dimensionar uma amostra?Como dimensionar uma amostra?
Considere-se d a preciso absoluta: (((( )))) 2
1Vzd ====
Para uma Populao Infinita (Amostragem Com Reposio):
Estimao de : 2
2
21
2
d
zn
=
Estimao de p :2
2 )1(2
1
d
ppz
n
====
-
Usando as frmulas rigorosas no exemplo anterior (proporo) fixando o size effectem 0,05
O Tamanho amostral seria 246 para alfa 5%
seria 173 para alfa 10% seria 425 para alfa 1%
-
Usando as frmulas rigorosas no exemplo anterior (para a mdia) fixando alfa em 5%
O Tamanho amostral seria 24 para effectsize 0,05
seria 61 para effect size 0,1 seria 6146 para effect size 0,01
-
Frmula simples para determinar a dimenso da amostra
Para comparar duas propores
( )( )210
116
pp
ppn
=
2
10 ppp+
=
-
exemplo
Em duas regies, A e B, fez-se uma estimativa da percentagem de Rhipicephalus sanguineus e que as estimativas apontaram para uma proporo de 30% no conjunto de todas as carraas encontradas na regio A, na regio B a mesma proporo foi de 25%. Qual devia ser o tamanho amostral para que fosse possvel averiguar se estas duas populaes so distintas?
-
Exemplo (continuao)
3,00 =p
25,01 =p
127605,0
)275,01(275,0162
=
=n
275,0=p
necessrio amostrar pelo menos 1276 carraas em cada regio
-
Exemplo (continuao)
5,00 =p
45,01 =p
159605,0
)475,01(475,0162
=
=n
475,0=p
necessrio amostrar pelo menos 1596 carraas em cada regio
Suponhamos que as prevalncia estimadas so 50% e 45% repectivamente
-
Usando as frmulas rigorosas no exemplo anterior os resultados anlogos seriam
1246 1562
-
Voltando aos exemplos iniciais
-
Exemplo 1
Existe diferena na eficcia do Salbutamol e do ipratropium no tratamento da Asma?
O investigador delineou um ensaio aleatorizado do efeito destes frmacos na FEV1 (Forced Experatory Volume durante um segundo) ap uma semana do tratamento.
Um estudo anterior relatou que a mdia do FEV1 em pessoas com asma tratadas 2.0 litros, com desvio padro de 1.0 litros.
O investigador pretende ser capaz de detectar uma dierena de 10% ou mais na mdia de FEV1 esntre is dois grupos de tratamento.
Quantos pacientes so necessrios em cada grupo (Salbutamol e ipratropium ) para alfa (bi-caudal) de 5% e uma potncia de 80%?
-
Variveis
Que variveis esto envolvidas neste problema?
de que tipo so estas variveis? Como usual estudar (estatisticamente)
este problema, qual o teste usado?
-
Hipteses
Qual a hiptese em estudo? Qual a hiptese nula? Qual a hiptese alternativa?
-
Exemplo 2
Fumadores idosos tm maior incidncia de cancro da pele do que os no fumadores?
Uma reviso da literatura cientfica pr existente sugere que a incidncia 5 anos de cancro da pele cerca de 0,20 nos no fumadores idosos.
A um nvel de alfa de 5% (bi-caudal) e uma potncia de 80%, quantos fumadores e no fumadores necessrio estudar para determinar se a incidncia 5 anos de cancro da pele pelo menos 0,30 nos fumadores?
-
Variveis
Que variveis esto envolvidas neste problema?
de que tipo so estas variveis? Como usual estudar (estatisticamente)
este problema, qual o teste usado?
-
Hipteses
Qual a hiptese em estudo? Qual a hiptese nula? Qual a hiptese alternativa?
-
Fundamentos para a determinao do tamanho
amostralPaulo Nogueira
-
Medio de variveis primrias
O investigador tem de decidir que variveis sero includas nos clculos
E.g. o uso de uma varivel dicotmica, como o gnero/sexo, como primria resultar numa amostra maior do que se for usada uma escala de 7 pontos
-
Medio de variveis primrias
Um mtodo de determinar o tamanho amostral (TA) especificar as margens de erro para os itens que so tidos como vitais para o inqurito/estudo
necessria uma estimao do TA para cada um desses itens
-
Medio de variveis primrias
Uma vez completos esses clculos, teremos N menores para variveis numricas, continuas N maiores para variveis categoriais e dicotmicas
Se os n so todos muito prximos escolher o maior
Se os n variam substancialmente pode ser difcil escolher o maior Oramento Excesso de preciso
Considerar o relaxamento de algum dos objectivos Desistir de alguns itens
-
Estimao do erro
Cochran (1997) usa dois factores chave:
1. O risco que o investigador est disposto a aceitar a margem de erro
2. O nivel, alfa, o nvel de risco que o investigador est disposto a aceitar de que a verdadeira margem de erro exceda a margem de erro aceitvel (erro tipo 1)
Nas frmulas de cochran o alfa est integrado no t
-
Margem de erro aceitvel
Dados categoriais 5% Dados contnuos 5%
-
Estimao da varincia
A estimao da varincia para as variveis primrias um elemento vital para na determinao do clculo do TA
O investigador no controla e esta tem de ser incorporada nas frmulas
Solues1. Fazer amostragem em dois passos2. Usar dados de um estudo piloto3. Usar dados de estudos anteriores da mesma populao ou de
populaes semelhantes4. Estimar ou adivinhar a estrutura da populao usando a ajuda
lgica de alguns resultados matemticos
-
Estimao da varincia (cont)
Racionais que podem ser usados: Variveis categoriais usar 50%
Variveis numricas ou contnuas Limites esperados dividir por 6 (nmero de desvios
padro onde recaem aproximadamente 99% dos valores)
-
Determinao do tamanho amostral - bsico
Dados numricos/contuos
Exemplo Alfa = 0,05 Escala de 7 pontos Erro aceitvel 3% Estimativa do desvio
padro 7/6 = 1.167
2
22
d
stno
=
118)03.0*7(
167.196.12
22
=
=on
-
Determinao do tamanho amostral bsico (cont)
Supondo que o tamanho da populao conhecido N=1679
O valor obtido n =118 excede 5% da populao
1679*0,05 = 84 Deve corrigir-se o TA
final
N
n
nn
0
0
1+
=
111
1679
1181
118=
+
=n
-
Determinao do tamanho amostral bsico (cont)
Considerar oversampling Correio acrescentar 40-50%
Oneroso mas necessrio
Mtodos que podem ser usados para antecipar a taxa de resposta
1. Fazer amostragem em dois passos2. Usar resultados de estudos piloto3. Usar taxas de resposta de estudos anteriores semelhantes4. Estimar a taxa de resposta (outros investigadores,
literatura, etc)
-
Determinao do tamanho amostral bsico (cont)
Dados categoriais
Exemplo Alfa = 0,05 Erro aceitvel 5% Estimativa do desvio
padro da escala 0,5
2
2 )1(
d
pptno
=
38405.0
5.05.096.12
2
=
=on
-
Determinao do tamanho amostral bsico (cont)
Supondo que o tamanho da populao conhecido N=1679
O valor obtido n =118 excede 5% da populao
1679*0,05 = 84 Deve corrigir-se o TA
final
N
n
nn
0
0
1+
=
313
1679
3841
384=
+
=n
-
Outras consideraes sobre o clculo amostral
Anlise de regresso Para usar a regresso linear mltipla a razo para o
nmero de variveis independentes no deve ser nunca abaixo de 5.
Caso contrrio existe elevado risco de overfitting resultado demasiado especficos da amostra e pouco generalizveis para a populao
Uma razo mais conservativa de 10 observaes para cada varivel apontada como ideal pela literatura
Estas razes so crticas para regresses que usam variveis contnuas, onde em regra necessrio menor TA
-
Outras consideraes sobre o clculo amostral (cont)
Exemplo Populao N=1679
TA dados categoriais n=111 TA dados contnuos n=313
3162Categorial
1122Contnuo
10 para 15 para 1
Nmero de regressoresTipo varivel
-
Anlise Factorial
Mesmo racional que para a regresso linear
No fazer com menos de 100 observaes
Aumentar a amostra torna loads mais baixos significativos