€¦ · created date: 6/16/2011 11:05:16 am
TRANSCRIPT
Anreos
A lée¡m 0A oETERillilA0Ao D0 rAüAilHo DA At 0STBA Et il'¡vEsTtcAqóEs
tPtDEliloLóGlcAs
The llgic of sample s¡ze determ¡natiln in epidemiological research
Ronir Raggio Luizl, Monica M. F. Magnanini,
RESUMoUma das perguntas mais freqüentcs por partc dos pesquisadores da área da Saúde,seja para um estudo em labo¡atório, clinico ou cpidcmiotógico, sc rcfe¡c ao númcrode elementos que deve ser invcstigado a $m dc se tcr um cstudo "confiável" ou"sigli6cativo", Ou scja, dcscja-sc sabcr qual o tamanho da amostra. Basicamcntc,o ta¡nanho da a¡nostm dcpendc da prccisáo dcscjada, dc a¡üít¡io do pesquisador.Entender a lógica por trás da sua detcrminagño é fundamental pam o plancjamcntoc suportc ¿s conclusóes dc qualqucr invcstigagáo cpidcmiológica. Estc artigo procuraexplorar as idéias e os ele$entos influcntcs na dctcrminagáo do tamanho da amostra.
PALAVR^s-c HAvITamanho amostral, precisáo, cstatística, pcsquisa cpidemiológica
Aas'r'RAc'r'Resea¡clrcrs arc very much co¡rccmcd about thc Dumbm of units tl¡at nccd to bcinvestigated in ordcr to generate "rcliablc" or "significant" rcsults from laboratory,clinical, and epidemiologic studics. Brielly, thcy would likc to know whar an adcquatcsample size should be. In essencc, samplc sizc rclics on tl¡c dcsired statistical prccision,as establishcd by investigator. Understanding of thc logic const¡uct wlúch standsbehind it is required for consistcnt rcsca¡ll¡ dcvclopment. This papcr prcsents thcunde*ying principles involved in sample size detcrmination.
Key wordsSample size, precision, statistics, cpidcmiological research
tPr1Íessor de Bioestatisica d0 NESC/UFRJ e da FM/UFRJ.! Estatísüca do NESC/UFRJ
CÁoG¡ros S¡úoc Corrrrvr, Rro Dr J^[Et¡o, I (2]:9.28,2000 - I
I
lRoun R¡eero Lurz, M0¡rca M, F, M¡e¡¡¡ ¡¡
L IN |RorJUe^o
Uma das perguntas mais freqr-ientes por parte dos pesquisadores da
área de saúde, seja para um estudo em laboratório, clínico ouepidemiológico, se refere ao número de elementos (cobaias, pacientes ouindivíduos) que deve ser investigado a fim de se ter um estudo ou amostra
"confiável" ("representativo(a)" ou "significativo(a)"). Ou seja, deseja-se
saber qual o tamanho da amostra.
As aspas nos adjetivos citados sáo para reproduzir as palavras utiliza-das pelos pesquisadores, cabendo logo um primeiro esclarecimento a fimde se obter alguma uniformidade semantica. Pode-se considerar que umestudo é "confiável" (na linguagem utilizada, mas que se refere ao concei-
to de "validade") se ele reproduz a verdade dos fatos. Entretanto, qual-quer estudo pode falhar neste aspecto por dois tipos de erros: o errosistemático ou viés e o erro aleatório, este natural de qualquer processo
amostral. Admitindo-se que a amostra seja aleatória, premissa necessária
para qualquer estudo onde o cálculo do tamanho da amostra constituauma tarefa preliminar, espela-se que náo haja nenhnm erro sistemático.
Isto é, espera-se obter uma amostra "representativa" da populagáo daqual se pretende fazer alguma inferéncia. Qualquer erro seria enteo atri-buível ao erro aleatório. quanto ao termo "significativo(a)" utilizado pe-
los pesquisadores, pode-se atribuí-lo á expectativa deles em obter resulta-
dos (dados) que ge¡em testes e statisticamente "significativos" (p-valor pe-
queno).
Assim, diferente do conceito de validade, ao tamanho amostral asso-
cia-se o conceito de precisáo. E a imprecisáo é o prego a ser pago porqualquer investigagáo onde uma amostra aleatória esteja presente. Nocaso de uma amostra náo-aleatória, situagáo muito comum na investiga-
gáo em saúde, o conceito de validade é fundamental, dado que qualqueranalise estatística feita com esses dados deve estar condicionada á hipóte-
se de que a amostra estudada se "comporta" tal como se comportariativesse ela sido selecionada aleatoriamente. E freqüente o caso onde opesquisador já tem a sua máo uma amostra neo-aleatória (os casos de
uma certa doenqa registrados em um hospital num certo período, porexemplo) e quer saber se esse tamanho amostral é "suficiente" para res-
ponder certa pergunta. Nesses casos, é mais prudente uma discussáo con-
10 - C¡o¡nros Sarto€ Corrry^, Rto 0r J¡[Et¡o, I (2): 9-28, 2000
A LóGrca DA DE¡ERMlr¡C¡o Do ra[Ailr0 oA aMosTn¡ rr rilrrsTrcagóEs aprDrM¡0rócrc^s I
sistente de validade do que de tamanho amostral, mesmo porque qual-
quer eventual avaliagáo de tamanho amostral "pequeno" seria de dificilsolugáo dada as freqüentes limitagóes operacionais de se coletar mais
casos. Poderia se recomendar entáo, uma vez discutida a questáo da
validade, a realizaEáo do estudo com aquele tamanho amostral disponí-vel, inforrnando a precisáo encontlada, mesmo que esta náo tenha sido
aquela que se desejaria. Estudos estatisticamente "náo-significativos" tam-bém sáo importantes de serem relatados, seja como base para futuros
estudos ou sistematizaEóes, seja pela eventual significáncia clínica dos seus
resultados. Diferente do conceito de significáncia estatística, significánciaclínica se refere a um resultado cuja magnitude seja de tal forma expres-
siva que merega ser considerado pelo pesquisador.
Ainda sobre uma amostra náo-aleatória, é comum a situaqáo onde opesquisador dispóe de toda uma populagáo embora possa acreditar estar
trabalhando com uma amostra, Todos os pacientes internados em certohospital, por exemplo, constituem uma populaEáo. Se o interesse é só
nesta populagáo, náo há razáo para se fazer nenhum tipo de inleréncia(construgáo de interualos de confianga ou cálculo de p-valores), bastando
uma descrigáo dos dados. Por outro lado, pode-se imaginar estes pacien-
tes como sendo uma amostra de outros pacientes (internados em outros
hospitais) e, aí entáo, seria legítimo fazer inferéncias estatísticas. Maisuma vez a questáo da validade deve ser conside|ada com cuidado, já que
a populaEáo referenciada freqüentemente náo é claramente definida.Como último comentário introdutór'io, para se calcular um tamanho
amostral é necessário se ter uma pe¡'gLlnta bastante específica. Quer'-seuma amostra especificamente para qué? E comum, também, a situaqáo
onde o pesquisador tem um enorme questionário e quer sabet'quantosindivíduos ele precisa investigar par'a traEar um "perfil" de uma certa
populagáo. Neste caso, é dificil uma resposta satisfatór'ia porque, na rea-
lidade, para cada pergunta daquele questionário havelia um tamanhoamostral associado. Uma saida seria verificar qual pergunta exigiria, para
uma precisáo desejada, um tamanho amostral maior', entáo adotálo. Istofaria com que, para as outras perguntas teriamos uma amostla maior dr¡
que a necessária. Felizmente, na maioria dos estudos epidemiológicos, as
perguntas náo sáo táo abrangentes como "qual o perfil de uma popula-
CaDEBIos S^úDE Corr¡rva, Rro 0€ Ja¡rrso, 8 (2): 9-28,2000- I I
lR0nn Ra66r0 [ur¿, Mon¡c¡ M. F. M¡ol¡¡ru
gáo?", podendo freqüentemente ser respondidas pela estimaEáo de umparametro populacional. "Com que freqüéncia surgem novos casos de
AIDS na cidade X por ano?", "há mais hipertensos na comunidade Xque na comunidade Y?", "exposigáo E está relacionada á doenga D?" e"droga A é melhor que droga B no tratamento para a doenqa D?" sáo
exemplos de perguntas que podem entáo ser respondidas através de amos-
tras que estimem grandezas associadas a elas.
2. El.llrlN |os IN¡I.UENTES NA Du l !:,RNrN^q^o Do r'^\t^NHo ^NrostRAL
Voltando á questáo do tamanho da amostra, é intuitivo perceber ser ele
dependente do eno aleatório mencionado acima. Há uma relagáo inversa
entre o erro e o tamanho da amostra. Amostras "grandes" estáo associadas
a erros "pequenos" e amostras "pequenas" a en'os "grandes". E, assim, a
gmsso mdo, parecem náo haver amostras "grandes" nem amostras "pe-quenas". Há amostras que sáo compativeis com o erro que se "tolera"cometer em um particular estudo. Isto náo melhora muito o problema de
determinagáo do tamanho da amostra, mas pelo menos transfere paraquem deve ser o responsável pela solugáo: o pesquisador. Isto porque amagnitude do erro tolerável deve ser atribuído por ele, de tal sorte que seu
estudo tenha reconhecimento pela comunidade cientifica.
Entretanto, náo é somente o erro tolerável de amostragem o únicoelemento que pode afetar o tamanho da amostra. Por exemplo, diante de
um estudo de preval€ncia, é intuitivo imaginar que quanto mais rara fora doenqa, maior deverá ser o tamanho da amostra. No caso de um estudo
comparativo, um estudo de coorte por exemplo, é também intuitivo con-
siderar que, quanto maior for a diferenga realmente existente enre as
incidéncias nos gn¡pos exposto e náo-exposto, menor será a amostra totalnecessária para detecáJa. Em havendo, de fato, uma diferenga entre
estas incidéncias, mas de "pequena" magnitude, somente uma amostra
"grande" será capaz de detectá-la.
No caso de um estudo onde se quer estimar a média de uma variávelcontínua (por exemplo, glicemia), é também intuitivo perceber que, quantomaior for a variabilidade desta variável, maior será o tamanho da amosranecessáúa para se estimar sua média, com uma precisáo desejada.
12 - C¡o¡¡r¡os S¡úoE Cor.lva, Rro or Jrrtrao, S {2):9-28,2000
A LóGtcÁ D¡ oErE¡xltÁCÁo Do TAx¡tilt0 o¡ ai¡ostB¡ E¡ livEsTtcacoEs EptDÉr¡r0L0Gtcas I
Além destes elementos que, intuitivamente, perxebemos inlluir no ta-
manho da amostra, há ainda outros que exigem uma maio¡' rellexáo. Oprocesso de inferir a partir de uma amostra pode-se dar pol estimagáo de
um parámetro populacional ou pelo teste de uma hipótese, sendo o cálcu-
lo do tamanho da amostra dependente de um desses objetivos. Sob umprocesso de estimagáo, é possível que seja selecionada uma amostra que
resulte numa estimativa cujo valor possa estar fora dos limites estabeleci-
dos pelo erro tolerável mencionado acima, incorrendo, assim, em umoutro erro que se gostaria de poder minimizar. O tamanho da amostra
mais uma vez é um regulador deste erro, e vice-versa. Esta idéia é amesma daquela presente na construgAo de intervalos de confianga e será
usada na segáo seguinte para desenvolver um raciocinio geral pala ocálculo do tamanho da amostra. Este último erro é conhecido como nível
de significáncia (ct), com valor complementar igual á confianga desejada
(l- a)(Soares & Siqueira, 19997.
Se o objetivo do estudo é testar uma hipótese colocada a prinri (bipó-tese nula = H,), entáo um outro erro pode acontecer. E possível que esta
hipótese náo seja verdadeira e o estudo, em fungáo do tamanho da amos-
tra, nAo ser capaz de rejeitá-la. Entretanto, este eri'o náo é somente de-
pendente do tamanho da amostra, dependendo também de alternativas
áquela hipótese. Para um tamanho de amostra e um erro g fixados,
valores alternativos müto distantes daquele estabelecido a prinri teráo unerro associado menor, e valores alternativos próximos, um erro maior,Este erro é conhecido como B e seu complementar, l-p, como o poder(Soares & Siqueira, 1999). Assim, fixados um rl e uma hipótese alternati-va, quanto maior a amostra, maiol será também o poder do estudo em
indicar a hipótese alternativa, quando de fato ela for verdadeira (Ler.y &Lemeshow, 1999). A fixagáo de uma hipótese alternativa deve respeitar'
condigóes impostas pelo pesquisador, de modo a se conseguir um tama-nho amostral que tenha um poder "razoável" para se detectar a diferenga
entre as hipóteses nula e alternativa. Esta diferenga deve tel alguma rele-
váncia "clínica", ou seja, uma diferenga que, se de fato existe, o estudo
náo deve deixar de captáJa.
Um outro elemento eventualmente importante na deterninagáo do
tamanho da amostra é o tamanho da populagáo. Observa-se com relagáo
a este elemento, entretanto, uma curiosidade que su¡preende os pesquisa-
C¡DEnilos S^rioE Corrrvr, Rro oe Jrrrrno, 8 (21: 9-28,2000- l3
I
I Bo¡¡¡ R¡ocro Lurz, lilonrcl M. t. M¡al¡¡¡n
dores. A intuigáo dita que quanto maior a populagáo maior deve ser a
amostra para representá-la, com uma precisáo desejada. Isto, entretanto,
é "parcialmente" verdadeiro. E verdadeiro porque, de fato, quanto maiora populagáo maior deverá ser a amostra. Porém, mostra-se que esta
lelagáo só é importante para populagóes "pequenas". Para populagóes
"¡pandes", o tamanho da amostra náo será substancialmente influencia-
do pelo tamanho da populaqáo, podendo esta ser considerada como infi-nita. Em outras palawas, o que importa é o tamanho da amostra e náo a
fiaqáo amostral (relagáo amostra/populaqáo). Uma fragáo amostral de
l0o/o, por exemplo, pode gerar uma amostra gigantesca ou muito peque-
na, dependendo do tamanho da populagáo. Esta propriedade será ilustra-
da mais á frente.
3. ,Asplc |os IEóRtcos
3.1 Dr:sr:¡rvol.r t:¡lDo u\t R \ctr )(:i\to cl:R^t.
Para entendimento da lógica que está por trás do cálculo do tamanho
de uma amostra, seja o problema de se estimar uma prevaléncia. Quan-do se estuda inferéncia estatística, aplende-se quer para um deterninadotamanho amostral (z), pode+e estimar a preva.léncia de uma doenga,
incorporando sua precisáo, a partir da construqáo de um intervalo de
confianga (Soares & Siqueira, 1999). Por outro lado, quando se aprende
amostragem discute-se o conceito de erro-padráo (-E4, q"e se refere a
uma medida de variabilidade de um estimador de um parámeuopopulacional e depende do tamanho da amostra (n) (Fleiss, l98l). Esses
conceitos seráo usados para se determinar o tamanho de uma amostra
para um estudo de prevaléncia.
O erro-padráo para uma proporgáo .EP6 é dado por:
EPF =
onde P é a prevaléncia. Assim, os limites do lntervalo de confianga de
95o/o para a prevaléncia P, aproximando-se pela distribuigáo normal, sáo
dados entáo Dor:
(r)P(l-P)
n
14 C¡o¡¡¡os SaúDE C0tE¡tv¡, Rro ¡E J¡rrrño, I (2): 9.28, 2000
A LÓotcr Dt o€rtixrxaoÁo Do T¡Ía¡Ho DA a¡ostBA r¡ r¡ycsrcAcé[8 EpTDH|loLéorc¡s I
Ptl,96
onde P é a prevaléncia amostra.l (Fleiss, l98l) e 1,96 é o valor tabelado
da distribuigáo nornal padronizada (p= 6 e o = l) correspondente a umintervalo de 9570.
Associado ao intervalo de confianga de 950/o, tem-se um d = 0,05. Entáo,
para um ct qualquer, tem-se urn intervalo de confianga de 100(l-a )%. E,
lembrando da distribuigáo normal padronizada, para cada o há um valor
zút2tzJ qLre o intervalo entre -zd2 e z* corresponde a uma probabiüdade de
100(l-C[)%. Assim, de forrna geral, os limites do intervalo de confianga de
100(l-o)% para a prevaléncia P podem ser ilusrados pela desigualdade:
u-,r,P=r=F*,",,p-Isto é, a prevaléncia amostral (p) dista do parámetro de interesse, a
prevaléncia populacional P, por um erro € tal que
m-P)"=rrrrl-T
(2)
A partir desta expressáo, fica fácil calcular um tamanho amostral para
se estimar uma prevaléncia e reconhecer seus elementos influentes. Ele-
vando ao quadrado ambos os lados da equagáo acima, tem-se:
e' - "3p
P(l-P)
(3)
(4)
E, explicitando em z.zlreg- e¡n=*.
(6)
Assim, no cálculo dci tamanho amostral para estimar uma prevalénciaé necessário informar trés elementos:
l) o erro tolerável de amostragem (e). Isto é, quanto de afastamento
entre a prevaléncia popuiacional (parámetro desconhecido) e a estimativa
a ser obtida na amostra o pesquisador tolela. Exempüficando, se o pes-
quisador estabelece um eno absoluto de 2o/o (e=0,02) para a estimagáo de
uma prevaléncia que ele acredita ser de 30V0, entáo ele estaria satisfeito
C^DEf, 0s SaúoE Cor¡r¡vr, Bro !E J¡¡ú¡0, I {2): 9"28,2000- 15
I Ro¡rn R¡ono Lu¡¿, Mo¡rc¡ M. F. M¡e¡¡r¡n¡
com qualquer valor entre 2go/o e 32o/o para a sua estimativa;
2) o erro ct (através do zr2).Isto é, a probabilidade de que a estimativa
a ser obtida pela amostra esteja além do limite tolerável de l€ . Este erronáo apresenta muita dificuldade para sua determinaqáo, sendo quase que
uma regra o valor de 5% (com correspondente zúz=1,96), inclusive paraqualquer outro tipo de investigagáo epidemiológica. Os valores de 0= l0o/o
Q"/2=1,64) e d,=lo/o (zrr=2,58) sáo também referéncias clássicas. É im-portante observar a diferenga entre os erros t e d, e entender porqué umé mais facil de ser arbitrado que o outro.
3) a prevaléncia P. A dependéncia sobre este elemento costuma in-comodar os pesquisadores já que esta é exatamente a informagáo que eles
desejam conhecer, sendo necessário, entáo, arbitrar um valor (ou utilizarresultados de estudos similares, ou ainda, na hipótese de náo haver ne-
nhuma informagáo, [azer um estudo-piloto). Ao invés de se preocuparmuito com o P isoladamente, pode-se olhar a dependéncia em fungáo de
(l-.fl e observar que este produto toma seu valor máximo quando F0,5.Portanto, se náo se quer arbitrar nenhum valor utiliza-se o valor máximo(0,5x0,5=0,25), maximizando-se assim o tamanho da amostra. Por outrolado, o que pode causar estranheza é o fato de para doenqas raras o
tamanho da amostra ser cada vez menor, já que (l-fl diminui em fun-gáo de P, diminuindo assim o tamanho da amostra para uma precisáo
desejada. A explicaqáo é que, pala cr e e fixados, uma diminuigáo em Pimplica em um erro relativo maior. Um estudo com um t=50lo, porexemplo, é bastante diferente quando se tem um F500/o de quando se
tem um FlOVo. No primeiro, o erro relativo é de l0% (0,05/0,5) en-
quanto que no segundo o erro relativo é de 50% (0,05/0,10). Imagineentáo um estudo com um t=50/o em uma populagáo com prevalénciaesperada de l%. De fato, com um erro táo grande quanto esse (em
relagáo á prevaléncia), uma amostra pequena é suficiente.
3.2 O l:nno nur.n rrvo (e. )
O problema acima poderia ser contornado pelo pesquisador infor-mando um eno absoluto, €, que fosse compatível com a prevalénciapresumida (ou esperada). Entretanto, pode-se facilmente generalizar oproblema do cálculo do tamanho da amostra quando se quer controlar oerro relativo ao invés do erro absoiuto.
16 - C¡or¡¡os SÁúDE CoL€Ív¡, Rro or Jllrrro, I (2): 9-28, 2000
A Ló6rca oa DÉrE¡xmÁc¡o D0 r¡¡¡uro 0Á ar¡0sr¡¡ rx n¡vrslrcagors E¡rorxrorócrc¡s I
A partir da expressáo (4), diüdindo-se ambos os lados da equaqao porP de modo a relativizar o erro g. tem-se:
¿ 'a.12
PPE, fazendo-se e/.Fe", tem-se
zo/2 FUn"'= prl ,
Assim, elevando ao quadrado e explicitando em z, obtém-se um ta-
manho amostral para prevaléncia a paltir do erro relativo:
zlog* r¡
-"-' (e)
Deve-se observar que as duas expressdes desenvolvidas, (6) e (9), sao
equivalentes. O pesquisador ao arbitrar um erro tolerável absoluto e umapreval€ncia presumida, obtém imediatamente o erro relativo, e üce-vena.Basta, portanto, a identificaqáo de apenas um deles.
Todo este desenvolümento até aqui para estudos de preval€ncia se
aplica diretamente a um estudo de incidéncia. Assim como a prevaléncia,
a incidéncia (acumulada) também é uma proporgáo. A diferenga obüa-mente está na interpretaqáo epidemiológica destas medidas de freqüéncia.
3.3 O r¡¡¡¡r.lHo D^ PoPUrAqAo (¡9Pelas expressóes (6) e (9), viu+e que o tamanho amostral náo depen-
dia do tamanho da populagáo. A razáo é que estas expressóes foramobtidas supondo uma populagáo infinita. Na realidade, quando a popula-gáo náo é táo grande, a expressáo para o erro-padráo da prevaléncia temuma corregáo, passando a depender também do tamanho da populagáo,
e é dado nor
EPF -onde o termo
(10)
N-nN-l (l l)
é conhecido como fator de corregáo para populagáo finita (Lely &Lemeshow, 1999). Percebe-se pela Tabela I que quando N cresce muito
(7)
(B)
N -n P(l- P)
CaDtfxos SaúDE CoLr¡rvA, Rro o! J¡¡Er¡o, 8 (2):9-28,2000- 17
I Ro¡rn R¡ee¡o Lurz, M0¡rc¡ il. F. MaGraf¡r l
(N+oo¡, este fator converge para l. Outra forma de entender o efeito
desta corregáo é verificar que quando a populagáo é finita, as probabili-dades de selegáo de cada unidade náo sáo mais iguais (dadas por l/AJ),
caracterizando um desenho amostral "sem reposigáo", diferente do dese-
nho anterior que pode-se considelar "com reposigáo". O termo acima é a
razáo entre as imprecisóes desses dois desenhos, que como será discutido
na segáo seguinte, é conhecido como efeito de desenho (,r'q¿f).
Tafrla l: Convcrgincia do fator (N-¡l/t'J-L)cm fungáo do tarnanho proporcional para
trós t¡ma¡rhos amostrais
Considerando-se agora o tamanho da populagáo, o tamanho da amos-
tra pode ser obtido de forma análoga ao caso anterior, utilizando-se o
novo valor para EP, . Assim,
e = zol2(1 2)
Elevando ao quadrado ambos os lados da equagáo acima e, após
algumas manipulagóes algébricas, obtém-se o seguinte tamanho amostral
para uma prevaléncia (ou incidéncia acumulada):
z:/,NP(l- P)n=
e2(N-l)+z3pP(1-P) ', (13)
onde os elementos influentes e, P e z2 rrsáo aqueles já definidos anterior-mente e N é o tamanho da populaqáo.
Pode-se agora observar o papel do tamanho da populaqáo sobre otamanho da amostra. Foi dito que o tamanho da populagáo tem um
18 - C¡ornrios S¡úoE CorEry¡, ¡ro 0€ Jaifl¡o, I (2): 9-28, 2000
N -n P(r- P)
A !óctcl 0a ot¡Enütil¡!¡o oolAt¡¡uio o¡ aüosl¡a É[¡ l{vEsTtoaQóEs tptDtttotoctc¡s I
efeito importante no cálculo do tamanho da amostra apenas para popula-
9óes "pequenas". Para populagóes "glandes", náo é necessário se preocu-par com ele. Uma vez fixados os valores de e, P e z2r, o tamanhoamostral z pode ser escrito somente como fungáo de N. A Figura l, a
seguir, ilustra esta propriedade, fixando uma prevaléncia presumida F0,5(ou 50%) e combinando dois valores pan a, (5o/o e l%) e e (0,05 e 0,07).
Percebe-se que o tamanho da amostla coüverge para um certo valor ámedida que o tamanho da populagáo aumenta. Quando o =5% e e=0,05,este valor é igua.l a 384, obtido a partir da expressáo (6). Para todas as
curvas ilustradas, o tamanho amostral muda bastante quando se altera otamanho populacional de 500 para 1000 individuos. Entretanto, quando
se altera de 6500 para 7000, uma variaEáo populacional também de 500
individuos, o tamanho amostral náo se altera tanto.
Figura l: Tamanho amostral scgundo o tama¡l¡o populacional para sc cstimar uma
prevalóncia, prcsumida em 50o/,,
rAlñ=5% o €lto=0,05
-Alf¡=l%
€
'A]f¿--5% e eFo:0,07- - Alfa=l%e
orb¿a1dsq2qpqlqlsab@sqrsqf sqrooqtf sqToq/tq,o-.8,-8tq
Embora este exemplo tenha sido construído para apenas dois valores
de t e c[ e para um valor fixado P, pala quaisquer outras combinagóes de
valores a forma da fungáo será a mesma. O que difere é a "velocidade"com que ocone a convergéncia para um tamanho amostral, Isto e, paraalgumas combinagóes de valores e , P e a, pode-se pcrceber. mais
"rapidamente" a convergéncia que pal'a outras.
De forma análoga ao caso de uma populagáo considerada infinita,pode-se chegar facilmente a um tamanho de amostra, considerando tam-bém o tamanho populacional, onde se considere o erro relativo 9,, e neo
700ó{n500
400
' 3oo
200
100
0
C¡0Ei¡o$ SaúDr Courrvl, f,ro oE J^rErB0,8 (2): 9-28,2000- 19
II Ro¡r¡ 8a66r0 Lur¿, Monc¡ M. F, M¡e¡¡lrru
o erro absoluto e. Ou seja, após algum algebrismo,
n--z:pN(r- P)
e:p(N -r)+ zh,(- p)
3.4 O r¡¡r'r'o Dn DEsENHo (¿¿lF)
Outra característica que exerce influ€ncia no tamanho amostral é odesenho amostral, isto é, de que forma as unidades amostrais sáo
selecionadas. Os principais desenhos amostrais sáo amostragem aleatíriasimples (,41S), com ou sem reposigáo, amostragem estraúfrc da (estrai e
amostragem por conglomerados (cluster) (Silva, 1998).
As expressóes colocadas até agora para o erro-padráo, tanto para popu-
lagáo infinita quanto finita, sáo obtidas para um processo de amostragem
aleatória simples, que do ponto de üsta teórico é o mais simples. Para
estimagáo de uma proporqáo popr-rlacional (ou de um parámetro 0 qualquer),
as expressóes para o erro-padráo, tanto para uma amostragem estratilicada
quanto para conglomerados, sáo mais complexas. Entretanto, do ponto de
vista prático (ou operacional), uma amostragem por conglomerados é mais
simples e, freqüentemente, a mais usada (Lery & Lemeshow, 1999). Mas
determinar um tamanho amostral sob este desenho é mais dificil devido á
forma mais complexa de seu erro-padráo.
De forma geral, para a estimagáo de um parámero 0 tem-se a
seguinte relagáo
EPu^, < EP s <EP.bb,. (15)
Isto é, usar conglomeragáo implica em uma maior imprecisáo na
estimativa que usar uma amostragem a.leatória simples, que por sua vez,
implica em mais imprecisáo que uma amostra esratificada. Embora esta
relagáo valha na prática, ela náo é matematicamente verdadeira, poden-
do.se encontrar casos onde seja inversa (Bolfarine & Bussab, 1994). Em
outras palavras, para uma mesma precisáo, uma amostragem por conglo-
merados deve exigir uma amostra maior que uma amostragem aleatóriasimples, e uma amostragem estratificada seria a que exigiria o menor
tamanho amostral.
20 - C¡otn¡os SaúoE C0LEÍV¡, Rro 0E J^{Er¡o, I (2)t g-28, 2000
(14)
A Ló6rca !A DErERrna0¡0 0o tar¡mo 0A A¡0sr¡a Er r¡vEsTrGAQoEs rprDELl0róGtcts I
Nestas circunstáncias, o ideal seria entáo trabalhar com amostras
estratificadas. Entretanto, tal como a amostragem aleatória simples, ela é
freqüentemente de dificil operacionalizaqáo, dependendo, além de umcadastro geral, da informagáo sobre qual estrato a unidade pertence.
Além disso, se há muita heterogeneidade entre os estratos, o que seria
bom no sentido de diminuir o erro-padráo, ter uma medida geral para a
popr,rlagáo pode ser de pouca utilidade para o pesquisador. Mais interes-
sante seria manter a informagáo por estrato.
Em sendo entáo a amostragem pol conglomerados a de mais láciloperacionalizagáo, como calcular de forrna simples um tamanho amostmlpara estimagáo de um parámetro usando este desenho? Define-se umaquantidade conhe cida por def (design ffia= efeito de desenho) como sendoa tazáo entre as imprecisóes associadas á estimagáo de um parámetro sob .
dois desenhos amostrais. Usando a amostragem aleatíria simples comoreferéncia, tem-se:
d"fr -- EPi?'"'
' EPÍ^t (r6)
O def funciona como urn "preEo" a ser pago pelo pesquisad<.rr por rersua tarefa facilitada ao investigar apenas os c/zs&rs sorteados, aumentandosua imprecisáo deüdo ás possíveis correlaqóes das unidades amostr.ais
dentro e entre os chnters. Um valol de def=l é, obviamente, indicagáo de
que a conglomeragáo nl,o tem nenhum eleito sobre o tamanho amostral
quando comparada com a amostragem aleatória simples.
Assim, pode-se simplificar o cálculo do tamanho amostral usando ateoria da Amostragem Aleatória Simples quando o estudo deve ser feitopor Conglomeragáo, corrigindo a imprecisáo maior devido a este dese-
nho amostral através de algum valor para o d4f. Surge, por outro lado,
uma outra dificuldade que é saber qual o valor a ser atribuido ao dzfparase corrigir adequadamente o tamanho amostr.al. Para se at buir um valorrazoável deveria se ter uma idéia da var.iabilidade das observagóes entre e
dentro dos cltsters, o que freqüentemente nao se disp6e. No caso de umestudo de prevaléncia, quanto mais próximas as prevaléncias entre os
cltutns, menor seria o drf necessáno. Na prática, salvo em situagóes especiais,
um def de 1,4 ou 1,5 (uma correqáo no tamanho amostral entre 4090 e
CADE¡{os S¡úoE Corrrrvr, Rro ol Jaxr¡¡o, I (2): 9-28,2000- 21
I
I H0¡rn Ra0Gr0 L0rr, il0ftc¡ M. F, MaGrailrrl
50o/o) já deve ser suficiente para resguardar a precisáo desejada do
pesquisador.
3.5 GEN¡rRAr.rz^NDo
De forma geral, o tamanho amostral para se estimar um parámetro
populacional 0 qualquer (como prevaléncia, incidéncia, risco relativo, razáo
de chances, média, diferenga de duas proporgóes ou diferenga de duas
média$ pode ser obtido através da expressáo seguinte, que relaciona o
erro tolerável de amostragem á idéia de intervalo de confianga para
estimagáo do parámetro 0. A premissa necessária é_o conhecimento da
expressáo do erro-padráo associado a um estimador, 0, daquele parámetro.
A regra geral é:
onde EP6 é o erro-padráo do estimador 0. O tamanho amostral estará
sempre embutido em EP6. Uma vez identificada a expressáo EP6, basta
explicitáJa em z e, assim, obter-se uma expressáo para o tamanho amostral
para estimagáo de um parámetro 0. Pela expressáo acima, os elementos
€ e c[ (as especificagóes de erros) certamente exercem inlluéncia em z eeventuais outros elementos influentes apareceráo dependendo da expres-
sáo para EP6.
Poder-se-ia listar aqui os erros-padróes dos principais estimadores
envolvidos numa investigagáo epidemiológica (Sahai & Khurshio, 1996),
Entretanto, dada a assimetria das distribuigóes amostrais de alguns deles,
suas expressóes sáo mais complexas, apresentando-se numa escala
logarítmica (freqüentemente de base r). Mesmo assim, poder-se-ia a partirdelas e algum algebrismo obter o tamanho amostral utilizando a equaqáo
geral acima.
4. Tts ¡ n¡¡no u\t¡ HrPór'r:sr;
Se, por outro lado, o pesquisador tem como objetivo testar uma hipó-
tese previamente estabelecida, surge um outro elemento influente na de-
terminaqáo do tamanho amostral. Suponha que a situagáo de interesse
seja investigar se um novo tratamento é melhor que um tratamento tradi-cional, cuja proporgáo de sucesso é conhecida ser de 700lo. A pergunta
22 - C¡oenros S¡úoG ColrÍva, Rro oe Jrl:lno, I (2): 9-28, 2000
(l i)
A Ló6rca oÁ DrrEÍxrxÁc¡o D0 ¡a¡¡¡{ro oÁ ¡i¡osTFA ![¡ l{yrslrc¡g0Es Ep¡oo¡rorocrc^s I
inicial é quantos doentes precisaria investigar para decidir ou náo pelo
tratamento alternativo com uma margem de erro aceitável. Isto é, se o
tratamento novo de fato é melhor, por exemplo com um sucesso de B0o/0,
gostaria de se poder eütar que o estudo náo fosse capaz de chegar a esta
conclusáo deüdo a uma amostra pequena.
Ou seja, deseja-se controlar o erro p, sendo esse o elemento novo a
ser considerado na determinagáo do tamanho amostral. Se, por outrolado o tratamento novo náo é melhor, também náo é desejável acidental-mente concluir que este é melhor. Ou seja, o interesse está em controlaro erro c[. Se o tratamento tradicional é satisfatório, seria conveniente um(l pequeno. Entretanto, se náo, poderia se relaxar um pouco no d, e exigirmais do p. A determinagáo dos valores de cr e p depende de cada estudo.
Q¡lanto menor um, maior será o outro. A maneira de se ter ambos
pequenos é aumentando o tamanho da amostla.
Para se chegar a um tamanho amostral com este novo elemento,
considere a Figura I a seguir. As duas culas representam a distribuigáoamostral para a proporgáo amostral ip ) de sucesso no tratamento novosob os dois valores hipotetizados no exemplo (P,,=7ooto, compativel com otradicional, e P^=80o/o). A "largura" de cada uma dessas curvas é dada
pelo seu erro-padráo que depende do tamanho da amostra e do valor.
hipotetizado. Para um "certo" tamanho amosral, há um valor limite pque um resultado a partir dele conduziria erroneamente á rejeigáo da
hipótese {,=76070 com uma probabilidade de até go/o. Simultaneamenre,
em sendo verdadeira a hipótese P^=80o/o, um resultado atép conduziria á
aceitagáo daquela hipótese, também enoneamente, com uma probabili-dade de até p%. O que se quer é determinar qual é este "certo" tamanhoamostral. Utilizando a normal padronizada, sob {,=70V0, tem-se
E sob P"=B0o/o,
:+ p=0,7 +z.P
+ p=0,8-"pP
p -0,7zs
p-0'8-zR=--:' 10,8x0,21,
CÁoEnilo8 S¡úoE Coreívr, Rro or Jrruno, I (2): 9-28,2000- 23
lR0ir¡ Brc0ro Lürz, M0¡rcr M, F. ll^6rr¡r¡l
Igualando-se as duas últimas expressóes para p e
explicitando em z, terp-setP".¡i,21 + ,'uffi'/
'1= (os-offEstabelecendose d,=So/o (com zo= I ,64) e p=26070 1-"r zu = 0,84), chega-
se a um tamanho amostral de ll9 unidades. Isto é. com ll9 unidades o
pesquisador teria um poder de 800/o (l-B) de detectar uma proporgáo de
sucesso de B07o do tratamento no!'o com um nível de sipnificáncia de 590.
Fiqura 2
(18)
De forma geral tem-se entáo a seguinte expressáo para determinagáo
do tamanho amostral para se testar uma hipótese sobre uma proporgáo:
lzo (ls)n=(Po- 1)'
Esta expressáo se aplica pa¡a um teste unilateral. Isto é, no exemplo,
apenas valores acima de 70Vo estariam sendo considerados. Se deseja-se umteste bilateral, poderia usar a expressáo acima substituindo zopor zrr(Ievy& Lemeshow, 1999).
5. ExTENsóls
De maior aplicagáo em investigagóes epidemiológicas sáo os estudos
24 - C¡ora¡os S¡r¡o: Co!rr|v^, Br0 oG J^¡Etno, I (2)l 9-28, 2000
Po(l- P) + zu 1(r- 1)l'
A Ló6rc¡ D¡ DrrEnxÍit0Á0 00 tarailflo oÁ ar¡osr¡¡ rr¡ Í{yEsl|6ag0Es E?l0E t0ro6tcas I
comparativos - os ensaios clínicos e os estudos observacionais do tipocoorte e caso-controle - onde quer-se estudar a associageo entre duas
variáveis dicotómicas, classicamente denominadas exposigáo e doenga.
Em qualquer um desses trés desenhos, pode-se calcular um tamanhoamostral a partir da comparagño de duas proporgóes, sendo que no caso-
controle a comparagáo seria sobre as proporgdes de expostos. De formageral, o tamanho amostral para a comparagáo entre duas proporgóes
segue a mesma lógica já discutida para o caso de uma única amostra,
tanto para estimagáo quanto para testes de hipóteses. A diferenga básica
é que agora tem-se duas amostras e, assim, será necessário ser estabelecido a priori pelo pesquisador uma razáo desejada entre os dois tamanhos
amostrais. As formulas também ficam mais complexas, principalmentequando se tem proporgóes pequenas.
Como em epidemiologia as medidas de associagáo conhecidas comoRisco Relativo e Razáo de Chances tém larga aplicagáo e intelpretagóes
imediatas, pode-se construir tama¡rhos amostrais diretamente para estima-gáo destes parámetros. As expressóes para seus erros-padróes sáo mais
complexas (Sahai & Khurshio, 1996), o que impede uma expressáo simples
para determinagáo do tamanho amostlal. I\{as a identificaqáo dos elemen-
tos influentes e sua interpretagáo seguem a mesma lógicajá apresentada.
Embora náo táo freqüente numa investigagáo epidemiológica, umpesquisador pode estar interessado em conhecel qual o nivel médio de
uma variável numérica, por exemplo, glicemia ou colesterol em umapopulaqáo. Tal como no caso da estimagáo de uma proporgáo, o tama-nho amostral para a estimagáo de uma média populacional pode ser
facilmente obtido a partir da expressáo pala o erro-padráo da médiaamostral (X-), utilizando-se o raciocínio desenvolvido na segáo 3.5. Con-siderando uma populagáo inñnita (amostlagem aleatória simples "comreposigáo"), tem-se:
(2 0)
E no caso de uma populagáo finita de tamanho N,
(21)
6r\lnEPx =
EPx =
CaoER¡os S¡úDE CotÉrrvr, Rro or Jnlrrno, I {2): 9.28, 2000 - 25
I Ro¡r¡ R¡eero Lu¿, ilorrcr M. F, Mr6railtill
onde o é o desvio-padráo populacional da variável em estudo. A analogia
com a estimagáo de uma proporgáo é imediata, observando-se que6 = ltP(l - P) . Assim, os tamanhos amostrais para estimagáo de uma
média podem ser obtidos tanto para um erro absoluto (e) quanto para um
erro relativo (e) da mesma maneira como aqueles obtidos para a estima-
9áo de uma proporgáo.
Para o caso de um teste de hipótese a analogia também é imediata.
Pela segáo 4, pode-se calcular um tamanho amostral para um teste bilate-ral de uma média, supondo populagáo infinita, através de:
(2o,, + zu)2o2 ¡ee\,= ,,
onde o é o desvio-padráo populacional da variável em estudo. Como
esta inforrnagáo náo é conhecida (é populacional), pode-se usar no seu
lugar alguma inforrnagáo disponível em outros estudos similares. Umrecurso que pode ser útil é obseruar que a diferenga entre o máximo e o
mínimo (a amplitude amostral) pode fornecer alguma informagáo sobre o
desvio-padráo. Supondo que os dados sáo normais, a amplitude corresponde
a aproximadamente seis vezes o desvio-padráo,
Em epidemiologia, a comparagáo de duas médias encontra mais apli-
cagóes nos estudos clinicos. Por exemplo, um pesquisador pode estar
interessado em saber se há difelenca entre dois tratamentos alternativos
para controle de uma variável numérica, colesterol, por exemplo. Háuma diferenga na redugáo média do colesterol para estes tratamentos? Otamanho amostral necessário para este tipo de investigagáo segue tam-bém a mesma lógica anterior. O erro-padráo associado á diferenga entre
duas médias é:
(23)
Freqüentemente, assume-se que os desvios-padróes dos dois grupos
sáo iguais. Assim, um tamanho amostral, em cada grupo, para umteste bilateral da diferenga entre duas médias seria dado por:
2(2",r+zu)2c2. (24)
"-- ¿' '
onde é d o valor hipotetizado para a diferenqa entre as médias.
26 - C¡ot¡¡os S¡úDE CoLc¡rva, Br0 o¡ JaiEtno, I (2): 9.28, 2000
or,r,--FÉ
A LoGrc¡ oa DErEnxr¡¡o¡o 00 TA¡^rir0 D¡ ¡[¡0$¡i¡ E,l rivEsrcacóEs EproÉrrorocrcÁs I
6. CoNcr.usAo
Em síntese, para a deterninagáo do tamanho de uma amostra énecessária a colocagáo de uma pelgunta específica que possa ser respon-
dida pela estimagáo de uma par'ámetro populacional. Pela distribuigáoamostral de um estimador deste parámetro e através de seu erro-padráoassociado, pode-se obter um tamanho amostral seguindo o raciocíniogeral desenvolvido na segáo 3,5, permitindo-se assim identificar clara-mente seus elementos influentes.
Uma outra característica importante na determinaEáo do tamanhoamostral é que qualquer estudo esta¡'á sujeito á perda de dados por razóes
diversas e magnitudes diferenciadas, dependendo do estudo. O pesquisa-
dor obtém seu tamanho amostral em cima de especificagóes de erro que
ele julgou pertinentes, mas que seráo alteradas se houver perda de dados.
Q¡rerendo se resguardar de sua precisáo, o pesquisador deve majorar umpouco sua amosfa a fim de compensar eventuais perdas. É dificil estabe-
lecer um valor de compensagáo, pois cada estudo estará sujeito a diferen-tes níveis de perda. Mas, arriscando uma regra geral, um acréscimo de
20% poderia ser recomendado. Por outro lado, mais importante do que
um eventual aumento na imprecisáo devido a uma perda grande seria
considerar a possibilidade das unidades perdidas serem "diferentes" das
obtidas, implicando em potenciais üeses no estudo.
Como último comentário, e concretamente fhlando, qualquer tama-nho amostral para uma investigagáo epidemiológica implicará em custos.
Entáo, a determinagáo do tamanho amostral nem sempre poderá estar
restrita a uma discussáo puramente sobre imprecisáo. Como objetiva-mente este conceito é determinante no tamanho da amostra, em havendo
limitagáo de recursos, o pesquisador poderá chegar a um tamanho amostral
"viável" se relaxar um pouco em suas especificagóes de erro.
R¡rrnErcns BrBuoGRAFtcAs
Bot.l',lnlnr, H.; Bussan, W. O. Elnnmtos de Amostragmt. Belo Horizonte,XI SINAPE. 1994,
Ft,etss, J. L. Statütical Methods for Rates and hoputions.2 ed. New York:
John Wiley & Sons. l98l.
C¡D€R os SAúoÉ CorrÍv¡, R¡o DE JÁr{Etno, I l2lt S-28,2000- 27
I R0ü. n¡0e|0 [urz, llorrcr ll. t. ilrGñ^xrrl
Lcw, P. S.; LnltmHow, S. So*plug of Popuktions: n¿tlnds and
oQPlirnti*t. New York: John Wiley & Sons. 1999.
Sn,v4 N. N. Axustragan probabilí:lica: mn eurso inhodutórin. Sáo Paulo:
Enusp. 19{18.
Sornts, J. F.; Stqut:tn,r, A. L. Inhodt4Fo d Estatístüa Midita. Belo
Horizonte: Dep"' de Estatística da UFMG. 1999.
Snnnr, H.; KHunsHto, A. StoJistüs ;n Epideninbg Methnds, Temiques, and
Appliratinns. Boca Raton: CRC Press. 1996.
28 - C¡on¡o¡ Srú¡¡ Corrrrrr, 8ro 0E J^xfl¡o, I (2)r 9-28, t000