€¦ · created date: 6/16/2011 11:05:16 am

20
Anreos A lée¡m 0A oETERillilA0Ao D0 rAüAilHo DA At 0STBA Et il'¡vEsTtcAqóEs tPtDEliloLóGlcAs The llgic of sample s¡ze determ¡natiln in epidemiological research Ronir Raggio Luizl, Monica M. F. Magnanini, RESUMo Uma das perguntas mais freqüentcs por partc dos pesquisadores da área da Saúde, seja para um estudo em labo¡atório, clinico ou cpidcmiotógico, sc rcfe¡c ao númcro de elementos que deve ser invcstigado a $m dc se tcr um cstudo "confiável" ou "sigli6cativo", Ou scja, dcscja-sc sabcr qual o tamanho da amostra. Basicamcntc, o ta¡nanho da a¡nostm dcpendc da prccisáo dcscjada, dc a¡üít¡io do pesquisador. Entender a lógica por trás da sua detcrminagño é fundamental pam o plancjamcnto c suportc ¿s conclusóes dc qualqucr invcstigagáo cpidcmiológica. Estc artigo procura explorar as idéias e os ele$entos influcntcs na dctcrminagáo do tamanho da amostra. PALAVR^s-c HAvI Tamanho amostral, precisáo, cstatística, pcsquisa cpidemiológica Aas'r'RAc'r' Resea¡clrcrs arc very much co¡rccmcd about thc Dumbm of units tl¡at nccd to bc investigated in ordcr to generate "rcliablc" or "significant" rcsults from laboratory, clinical, and epidemiologic studics. Brielly, thcy would likc to know whar an adcquatc sample size should be. In essencc, samplc sizc rclics on tl¡c dcsired statistical prccision, as establishcd by investigator. Understanding of thc logic const¡uct wlúch stands behind it is required for consistcnt rcsca¡ll¡ dcvclopment. This papcr prcsents thc unde*ying principles involved in sample size detcrmination. Key words Sample size, precision, statistics, cpidcmiological research tPr1Íessor de Bioestatisica d0 NESC/UFRJ e da FM/UFRJ. ! Estatísüca do NESC/UFRJ CÁoG¡ros S¡úoc Corrrrvr, Rro Dr J^[Et¡o, I (2]:9.28,2000 - I

Upload: others

Post on 22-May-2020

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: €¦ · Created Date: 6/16/2011 11:05:16 AM

Anreos

A lée¡m 0A oETERillilA0Ao D0 rAüAilHo DA At 0STBA Et il'¡vEsTtcAqóEs

tPtDEliloLóGlcAs

The llgic of sample s¡ze determ¡natiln in epidemiological research

Ronir Raggio Luizl, Monica M. F. Magnanini,

RESUMoUma das perguntas mais freqüentcs por partc dos pesquisadores da área da Saúde,seja para um estudo em labo¡atório, clinico ou cpidcmiotógico, sc rcfe¡c ao númcrode elementos que deve ser invcstigado a $m dc se tcr um cstudo "confiável" ou"sigli6cativo", Ou scja, dcscja-sc sabcr qual o tamanho da amostra. Basicamcntc,o ta¡nanho da a¡nostm dcpendc da prccisáo dcscjada, dc a¡üít¡io do pesquisador.Entender a lógica por trás da sua detcrminagño é fundamental pam o plancjamcntoc suportc ¿s conclusóes dc qualqucr invcstigagáo cpidcmiológica. Estc artigo procuraexplorar as idéias e os ele$entos influcntcs na dctcrminagáo do tamanho da amostra.

PALAVR^s-c HAvITamanho amostral, precisáo, cstatística, pcsquisa cpidemiológica

Aas'r'RAc'r'Resea¡clrcrs arc very much co¡rccmcd about thc Dumbm of units tl¡at nccd to bcinvestigated in ordcr to generate "rcliablc" or "significant" rcsults from laboratory,clinical, and epidemiologic studics. Brielly, thcy would likc to know whar an adcquatcsample size should be. In essencc, samplc sizc rclics on tl¡c dcsired statistical prccision,as establishcd by investigator. Understanding of thc logic const¡uct wlúch standsbehind it is required for consistcnt rcsca¡ll¡ dcvclopment. This papcr prcsents thcunde*ying principles involved in sample size detcrmination.

Key wordsSample size, precision, statistics, cpidcmiological research

tPr1Íessor de Bioestatisica d0 NESC/UFRJ e da FM/UFRJ.! Estatísüca do NESC/UFRJ

CÁoG¡ros S¡úoc Corrrrvr, Rro Dr J^[Et¡o, I (2]:9.28,2000 - I

Page 2: €¦ · Created Date: 6/16/2011 11:05:16 AM

I

lRoun R¡eero Lurz, M0¡rca M, F, M¡e¡¡¡ ¡¡

L IN |RorJUe^o

Uma das perguntas mais freqr-ientes por parte dos pesquisadores da

área de saúde, seja para um estudo em laboratório, clínico ouepidemiológico, se refere ao número de elementos (cobaias, pacientes ouindivíduos) que deve ser investigado a fim de se ter um estudo ou amostra

"confiável" ("representativo(a)" ou "significativo(a)"). Ou seja, deseja-se

saber qual o tamanho da amostra.

As aspas nos adjetivos citados sáo para reproduzir as palavras utiliza-das pelos pesquisadores, cabendo logo um primeiro esclarecimento a fimde se obter alguma uniformidade semantica. Pode-se considerar que umestudo é "confiável" (na linguagem utilizada, mas que se refere ao concei-

to de "validade") se ele reproduz a verdade dos fatos. Entretanto, qual-quer estudo pode falhar neste aspecto por dois tipos de erros: o errosistemático ou viés e o erro aleatório, este natural de qualquer processo

amostral. Admitindo-se que a amostra seja aleatória, premissa necessária

para qualquer estudo onde o cálculo do tamanho da amostra constituauma tarefa preliminar, espela-se que náo haja nenhnm erro sistemático.

Isto é, espera-se obter uma amostra "representativa" da populagáo daqual se pretende fazer alguma inferéncia. Qualquer erro seria enteo atri-buível ao erro aleatório. quanto ao termo "significativo(a)" utilizado pe-

los pesquisadores, pode-se atribuí-lo á expectativa deles em obter resulta-

dos (dados) que ge¡em testes e statisticamente "significativos" (p-valor pe-

queno).

Assim, diferente do conceito de validade, ao tamanho amostral asso-

cia-se o conceito de precisáo. E a imprecisáo é o prego a ser pago porqualquer investigagáo onde uma amostra aleatória esteja presente. Nocaso de uma amostra náo-aleatória, situagáo muito comum na investiga-

gáo em saúde, o conceito de validade é fundamental, dado que qualqueranalise estatística feita com esses dados deve estar condicionada á hipóte-

se de que a amostra estudada se "comporta" tal como se comportariativesse ela sido selecionada aleatoriamente. E freqüente o caso onde opesquisador já tem a sua máo uma amostra neo-aleatória (os casos de

uma certa doenqa registrados em um hospital num certo período, porexemplo) e quer saber se esse tamanho amostral é "suficiente" para res-

ponder certa pergunta. Nesses casos, é mais prudente uma discussáo con-

10 - C¡o¡nros Sarto€ Corrry^, Rto 0r J¡[Et¡o, I (2): 9-28, 2000

Page 3: €¦ · Created Date: 6/16/2011 11:05:16 AM

A LóGrca DA DE¡ERMlr¡C¡o Do ra[Ailr0 oA aMosTn¡ rr rilrrsTrcagóEs aprDrM¡0rócrc^s I

sistente de validade do que de tamanho amostral, mesmo porque qual-

quer eventual avaliagáo de tamanho amostral "pequeno" seria de dificilsolugáo dada as freqüentes limitagóes operacionais de se coletar mais

casos. Poderia se recomendar entáo, uma vez discutida a questáo da

validade, a realizaEáo do estudo com aquele tamanho amostral disponí-vel, inforrnando a precisáo encontlada, mesmo que esta náo tenha sido

aquela que se desejaria. Estudos estatisticamente "náo-significativos" tam-bém sáo importantes de serem relatados, seja como base para futuros

estudos ou sistematizaEóes, seja pela eventual significáncia clínica dos seus

resultados. Diferente do conceito de significáncia estatística, significánciaclínica se refere a um resultado cuja magnitude seja de tal forma expres-

siva que merega ser considerado pelo pesquisador.

Ainda sobre uma amostra náo-aleatória, é comum a situaqáo onde opesquisador dispóe de toda uma populagáo embora possa acreditar estar

trabalhando com uma amostra, Todos os pacientes internados em certohospital, por exemplo, constituem uma populaEáo. Se o interesse é só

nesta populagáo, náo há razáo para se fazer nenhum tipo de inleréncia(construgáo de interualos de confianga ou cálculo de p-valores), bastando

uma descrigáo dos dados. Por outro lado, pode-se imaginar estes pacien-

tes como sendo uma amostra de outros pacientes (internados em outros

hospitais) e, aí entáo, seria legítimo fazer inferéncias estatísticas. Maisuma vez a questáo da validade deve ser conside|ada com cuidado, já que

a populaEáo referenciada freqüentemente náo é claramente definida.Como último comentário introdutór'io, para se calcular um tamanho

amostral é necessário se ter uma pe¡'gLlnta bastante específica. Quer'-seuma amostra especificamente para qué? E comum, também, a situaqáo

onde o pesquisador tem um enorme questionário e quer sabet'quantosindivíduos ele precisa investigar par'a traEar um "perfil" de uma certa

populagáo. Neste caso, é dificil uma resposta satisfatór'ia porque, na rea-

lidade, para cada pergunta daquele questionário havelia um tamanhoamostral associado. Uma saida seria verificar qual pergunta exigiria, para

uma precisáo desejada, um tamanho amostral maior', entáo adotálo. Istofaria com que, para as outras perguntas teriamos uma amostla maior dr¡

que a necessária. Felizmente, na maioria dos estudos epidemiológicos, as

perguntas náo sáo táo abrangentes como "qual o perfil de uma popula-

CaDEBIos S^úDE Corr¡rva, Rro 0€ Ja¡rrso, 8 (2): 9-28,2000- I I

Page 4: €¦ · Created Date: 6/16/2011 11:05:16 AM

lR0nn Ra66r0 [ur¿, Mon¡c¡ M. F. M¡ol¡¡ru

gáo?", podendo freqüentemente ser respondidas pela estimaEáo de umparametro populacional. "Com que freqüéncia surgem novos casos de

AIDS na cidade X por ano?", "há mais hipertensos na comunidade Xque na comunidade Y?", "exposigáo E está relacionada á doenga D?" e"droga A é melhor que droga B no tratamento para a doenqa D?" sáo

exemplos de perguntas que podem entáo ser respondidas através de amos-

tras que estimem grandezas associadas a elas.

2. El.llrlN |os IN¡I.UENTES NA Du l !:,RNrN^q^o Do r'^\t^NHo ^NrostRAL

Voltando á questáo do tamanho da amostra, é intuitivo perceber ser ele

dependente do eno aleatório mencionado acima. Há uma relagáo inversa

entre o erro e o tamanho da amostra. Amostras "grandes" estáo associadas

a erros "pequenos" e amostras "pequenas" a en'os "grandes". E, assim, a

gmsso mdo, parecem náo haver amostras "grandes" nem amostras "pe-quenas". Há amostras que sáo compativeis com o erro que se "tolera"cometer em um particular estudo. Isto náo melhora muito o problema de

determinagáo do tamanho da amostra, mas pelo menos transfere paraquem deve ser o responsável pela solugáo: o pesquisador. Isto porque amagnitude do erro tolerável deve ser atribuído por ele, de tal sorte que seu

estudo tenha reconhecimento pela comunidade cientifica.

Entretanto, náo é somente o erro tolerável de amostragem o únicoelemento que pode afetar o tamanho da amostra. Por exemplo, diante de

um estudo de preval€ncia, é intuitivo imaginar que quanto mais rara fora doenqa, maior deverá ser o tamanho da amostra. No caso de um estudo

comparativo, um estudo de coorte por exemplo, é também intuitivo con-

siderar que, quanto maior for a diferenga realmente existente enre as

incidéncias nos gn¡pos exposto e náo-exposto, menor será a amostra totalnecessária para detecáJa. Em havendo, de fato, uma diferenga entre

estas incidéncias, mas de "pequena" magnitude, somente uma amostra

"grande" será capaz de detectá-la.

No caso de um estudo onde se quer estimar a média de uma variávelcontínua (por exemplo, glicemia), é também intuitivo perceber que, quantomaior for a variabilidade desta variável, maior será o tamanho da amosranecessáúa para se estimar sua média, com uma precisáo desejada.

12 - C¡o¡¡r¡os S¡úoE Cor.lva, Rro or Jrrtrao, S {2):9-28,2000

Page 5: €¦ · Created Date: 6/16/2011 11:05:16 AM

A LóGtcÁ D¡ oErE¡xltÁCÁo Do TAx¡tilt0 o¡ ai¡ostB¡ E¡ livEsTtcacoEs EptDÉr¡r0L0Gtcas I

Além destes elementos que, intuitivamente, perxebemos inlluir no ta-

manho da amostra, há ainda outros que exigem uma maio¡' rellexáo. Oprocesso de inferir a partir de uma amostra pode-se dar pol estimagáo de

um parámetro populacional ou pelo teste de uma hipótese, sendo o cálcu-

lo do tamanho da amostra dependente de um desses objetivos. Sob umprocesso de estimagáo, é possível que seja selecionada uma amostra que

resulte numa estimativa cujo valor possa estar fora dos limites estabeleci-

dos pelo erro tolerável mencionado acima, incorrendo, assim, em umoutro erro que se gostaria de poder minimizar. O tamanho da amostra

mais uma vez é um regulador deste erro, e vice-versa. Esta idéia é amesma daquela presente na construgAo de intervalos de confianga e será

usada na segáo seguinte para desenvolver um raciocinio geral pala ocálculo do tamanho da amostra. Este último erro é conhecido como nível

de significáncia (ct), com valor complementar igual á confianga desejada

(l- a)(Soares & Siqueira, 19997.

Se o objetivo do estudo é testar uma hipótese colocada a prinri (bipó-tese nula = H,), entáo um outro erro pode acontecer. E possível que esta

hipótese náo seja verdadeira e o estudo, em fungáo do tamanho da amos-

tra, nAo ser capaz de rejeitá-la. Entretanto, este eri'o náo é somente de-

pendente do tamanho da amostra, dependendo também de alternativas

áquela hipótese. Para um tamanho de amostra e um erro g fixados,

valores alternativos müto distantes daquele estabelecido a prinri teráo unerro associado menor, e valores alternativos próximos, um erro maior,Este erro é conhecido como B e seu complementar, l-p, como o poder(Soares & Siqueira, 1999). Assim, fixados um rl e uma hipótese alternati-va, quanto maior a amostra, maiol será também o poder do estudo em

indicar a hipótese alternativa, quando de fato ela for verdadeira (Ler.y &Lemeshow, 1999). A fixagáo de uma hipótese alternativa deve respeitar'

condigóes impostas pelo pesquisador, de modo a se conseguir um tama-nho amostral que tenha um poder "razoável" para se detectar a diferenga

entre as hipóteses nula e alternativa. Esta diferenga deve tel alguma rele-

váncia "clínica", ou seja, uma diferenga que, se de fato existe, o estudo

náo deve deixar de captáJa.

Um outro elemento eventualmente importante na deterninagáo do

tamanho da amostra é o tamanho da populagáo. Observa-se com relagáo

a este elemento, entretanto, uma curiosidade que su¡preende os pesquisa-

C¡DEnilos S^rioE Corrrvr, Rro oe Jrrrrno, 8 (21: 9-28,2000- l3

Page 6: €¦ · Created Date: 6/16/2011 11:05:16 AM

I

I Bo¡¡¡ R¡ocro Lurz, lilonrcl M. t. M¡al¡¡¡n

dores. A intuigáo dita que quanto maior a populagáo maior deve ser a

amostra para representá-la, com uma precisáo desejada. Isto, entretanto,

é "parcialmente" verdadeiro. E verdadeiro porque, de fato, quanto maiora populagáo maior deverá ser a amostra. Porém, mostra-se que esta

lelagáo só é importante para populagóes "pequenas". Para populagóes

"¡pandes", o tamanho da amostra náo será substancialmente influencia-

do pelo tamanho da populaqáo, podendo esta ser considerada como infi-nita. Em outras palawas, o que importa é o tamanho da amostra e náo a

fiaqáo amostral (relagáo amostra/populaqáo). Uma fragáo amostral de

l0o/o, por exemplo, pode gerar uma amostra gigantesca ou muito peque-

na, dependendo do tamanho da populagáo. Esta propriedade será ilustra-

da mais á frente.

3. ,Asplc |os IEóRtcos

3.1 Dr:sr:¡rvol.r t:¡lDo u\t R \ctr )(:i\to cl:R^t.

Para entendimento da lógica que está por trás do cálculo do tamanho

de uma amostra, seja o problema de se estimar uma prevaléncia. Quan-do se estuda inferéncia estatística, aplende-se quer para um deterninadotamanho amostral (z), pode+e estimar a preva.léncia de uma doenga,

incorporando sua precisáo, a partir da construqáo de um intervalo de

confianga (Soares & Siqueira, 1999). Por outro lado, quando se aprende

amostragem discute-se o conceito de erro-padráo (-E4, q"e se refere a

uma medida de variabilidade de um estimador de um parámeuopopulacional e depende do tamanho da amostra (n) (Fleiss, l98l). Esses

conceitos seráo usados para se determinar o tamanho de uma amostra

para um estudo de prevaléncia.

O erro-padráo para uma proporgáo .EP6 é dado por:

EPF =

onde P é a prevaléncia. Assim, os limites do lntervalo de confianga de

95o/o para a prevaléncia P, aproximando-se pela distribuigáo normal, sáo

dados entáo Dor:

(r)P(l-P)

n

14 C¡o¡¡¡os SaúDE C0tE¡tv¡, Rro ¡E J¡rrrño, I (2): 9.28, 2000

Page 7: €¦ · Created Date: 6/16/2011 11:05:16 AM

A LÓotcr Dt o€rtixrxaoÁo Do T¡Ía¡Ho DA a¡ostBA r¡ r¡ycsrcAcé[8 EpTDH|loLéorc¡s I

Ptl,96

onde P é a prevaléncia amostra.l (Fleiss, l98l) e 1,96 é o valor tabelado

da distribuigáo nornal padronizada (p= 6 e o = l) correspondente a umintervalo de 9570.

Associado ao intervalo de confianga de 950/o, tem-se um d = 0,05. Entáo,

para um ct qualquer, tem-se urn intervalo de confianga de 100(l-a )%. E,

lembrando da distribuigáo normal padronizada, para cada o há um valor

zút2tzJ qLre o intervalo entre -zd2 e z* corresponde a uma probabiüdade de

100(l-C[)%. Assim, de forrna geral, os limites do intervalo de confianga de

100(l-o)% para a prevaléncia P podem ser ilusrados pela desigualdade:

u-,r,P=r=F*,",,p-Isto é, a prevaléncia amostral (p) dista do parámetro de interesse, a

prevaléncia populacional P, por um erro € tal que

m-P)"=rrrrl-T

(2)

A partir desta expressáo, fica fácil calcular um tamanho amostral para

se estimar uma prevaléncia e reconhecer seus elementos influentes. Ele-

vando ao quadrado ambos os lados da equagáo acima, tem-se:

e' - "3p

P(l-P)

(3)

(4)

E, explicitando em z.zlreg- e¡n=*.

(6)

Assim, no cálculo dci tamanho amostral para estimar uma prevalénciaé necessário informar trés elementos:

l) o erro tolerável de amostragem (e). Isto é, quanto de afastamento

entre a prevaléncia popuiacional (parámetro desconhecido) e a estimativa

a ser obtida na amostra o pesquisador tolela. Exempüficando, se o pes-

quisador estabelece um eno absoluto de 2o/o (e=0,02) para a estimagáo de

uma prevaléncia que ele acredita ser de 30V0, entáo ele estaria satisfeito

C^DEf, 0s SaúoE Cor¡r¡vr, Bro !E J¡¡ú¡0, I {2): 9"28,2000- 15

Page 8: €¦ · Created Date: 6/16/2011 11:05:16 AM

I Ro¡rn R¡ono Lu¡¿, Mo¡rc¡ M. F. M¡e¡¡r¡n¡

com qualquer valor entre 2go/o e 32o/o para a sua estimativa;

2) o erro ct (através do zr2).Isto é, a probabilidade de que a estimativa

a ser obtida pela amostra esteja além do limite tolerável de l€ . Este erronáo apresenta muita dificuldade para sua determinaqáo, sendo quase que

uma regra o valor de 5% (com correspondente zúz=1,96), inclusive paraqualquer outro tipo de investigagáo epidemiológica. Os valores de 0= l0o/o

Q"/2=1,64) e d,=lo/o (zrr=2,58) sáo também referéncias clássicas. É im-portante observar a diferenga entre os erros t e d, e entender porqué umé mais facil de ser arbitrado que o outro.

3) a prevaléncia P. A dependéncia sobre este elemento costuma in-comodar os pesquisadores já que esta é exatamente a informagáo que eles

desejam conhecer, sendo necessário, entáo, arbitrar um valor (ou utilizarresultados de estudos similares, ou ainda, na hipótese de náo haver ne-

nhuma informagáo, [azer um estudo-piloto). Ao invés de se preocuparmuito com o P isoladamente, pode-se olhar a dependéncia em fungáo de

(l-.fl e observar que este produto toma seu valor máximo quando F0,5.Portanto, se náo se quer arbitrar nenhum valor utiliza-se o valor máximo(0,5x0,5=0,25), maximizando-se assim o tamanho da amostra. Por outrolado, o que pode causar estranheza é o fato de para doenqas raras o

tamanho da amostra ser cada vez menor, já que (l-fl diminui em fun-gáo de P, diminuindo assim o tamanho da amostra para uma precisáo

desejada. A explicaqáo é que, pala cr e e fixados, uma diminuigáo em Pimplica em um erro relativo maior. Um estudo com um t=50lo, porexemplo, é bastante diferente quando se tem um F500/o de quando se

tem um FlOVo. No primeiro, o erro relativo é de l0% (0,05/0,5) en-

quanto que no segundo o erro relativo é de 50% (0,05/0,10). Imagineentáo um estudo com um t=50/o em uma populagáo com prevalénciaesperada de l%. De fato, com um erro táo grande quanto esse (em

relagáo á prevaléncia), uma amostra pequena é suficiente.

3.2 O l:nno nur.n rrvo (e. )

O problema acima poderia ser contornado pelo pesquisador infor-mando um eno absoluto, €, que fosse compatível com a prevalénciapresumida (ou esperada). Entretanto, pode-se facilmente generalizar oproblema do cálculo do tamanho da amostra quando se quer controlar oerro relativo ao invés do erro absoiuto.

16 - C¡or¡¡os SÁúDE CoL€Ív¡, Rro or Jllrrro, I (2): 9-28, 2000

Page 9: €¦ · Created Date: 6/16/2011 11:05:16 AM

A Ló6rca oa DÉrE¡xmÁc¡o D0 r¡¡¡uro 0Á ar¡0sr¡¡ rx n¡vrslrcagors E¡rorxrorócrc¡s I

A partir da expressáo (4), diüdindo-se ambos os lados da equaqao porP de modo a relativizar o erro g. tem-se:

¿ 'a.12

PPE, fazendo-se e/.Fe", tem-se

zo/2 FUn"'= prl ,

Assim, elevando ao quadrado e explicitando em z, obtém-se um ta-

manho amostral para prevaléncia a paltir do erro relativo:

zlog* r¡

-"-' (e)

Deve-se observar que as duas expressdes desenvolvidas, (6) e (9), sao

equivalentes. O pesquisador ao arbitrar um erro tolerável absoluto e umapreval€ncia presumida, obtém imediatamente o erro relativo, e üce-vena.Basta, portanto, a identificaqáo de apenas um deles.

Todo este desenvolümento até aqui para estudos de preval€ncia se

aplica diretamente a um estudo de incidéncia. Assim como a prevaléncia,

a incidéncia (acumulada) também é uma proporgáo. A diferenga obüa-mente está na interpretaqáo epidemiológica destas medidas de freqüéncia.

3.3 O r¡¡¡¡r.lHo D^ PoPUrAqAo (¡9Pelas expressóes (6) e (9), viu+e que o tamanho amostral náo depen-

dia do tamanho da populagáo. A razáo é que estas expressóes foramobtidas supondo uma populagáo infinita. Na realidade, quando a popula-gáo náo é táo grande, a expressáo para o erro-padráo da prevaléncia temuma corregáo, passando a depender também do tamanho da populagáo,

e é dado nor

EPF -onde o termo

(10)

N-nN-l (l l)

é conhecido como fator de corregáo para populagáo finita (Lely &Lemeshow, 1999). Percebe-se pela Tabela I que quando N cresce muito

(7)

(B)

N -n P(l- P)

CaDtfxos SaúDE CoLr¡rvA, Rro o! J¡¡Er¡o, 8 (2):9-28,2000- 17

Page 10: €¦ · Created Date: 6/16/2011 11:05:16 AM

I Ro¡rn R¡ee¡o Lurz, M0¡rc¡ il. F. MaGraf¡r l

(N+oo¡, este fator converge para l. Outra forma de entender o efeito

desta corregáo é verificar que quando a populagáo é finita, as probabili-dades de selegáo de cada unidade náo sáo mais iguais (dadas por l/AJ),

caracterizando um desenho amostral "sem reposigáo", diferente do dese-

nho anterior que pode-se considelar "com reposigáo". O termo acima é a

razáo entre as imprecisóes desses dois desenhos, que como será discutido

na segáo seguinte, é conhecido como efeito de desenho (,r'q¿f).

Tafrla l: Convcrgincia do fator (N-¡l/t'J-L)cm fungáo do tarnanho proporcional para

trós t¡ma¡rhos amostrais

Considerando-se agora o tamanho da populagáo, o tamanho da amos-

tra pode ser obtido de forma análoga ao caso anterior, utilizando-se o

novo valor para EP, . Assim,

e = zol2(1 2)

Elevando ao quadrado ambos os lados da equagáo acima e, após

algumas manipulagóes algébricas, obtém-se o seguinte tamanho amostral

para uma prevaléncia (ou incidéncia acumulada):

z:/,NP(l- P)n=

e2(N-l)+z3pP(1-P) ', (13)

onde os elementos influentes e, P e z2 rrsáo aqueles já definidos anterior-mente e N é o tamanho da populaqáo.

Pode-se agora observar o papel do tamanho da populaqáo sobre otamanho da amostra. Foi dito que o tamanho da populagáo tem um

18 - C¡ornrios S¡úoE CorEry¡, ¡ro 0€ Jaifl¡o, I (2): 9-28, 2000

N -n P(r- P)

Page 11: €¦ · Created Date: 6/16/2011 11:05:16 AM

A !óctcl 0a ot¡Enütil¡!¡o oolAt¡¡uio o¡ aüosl¡a É[¡ l{vEsTtoaQóEs tptDtttotoctc¡s I

efeito importante no cálculo do tamanho da amostra apenas para popula-

9óes "pequenas". Para populagóes "glandes", náo é necessário se preocu-par com ele. Uma vez fixados os valores de e, P e z2r, o tamanhoamostral z pode ser escrito somente como fungáo de N. A Figura l, a

seguir, ilustra esta propriedade, fixando uma prevaléncia presumida F0,5(ou 50%) e combinando dois valores pan a, (5o/o e l%) e e (0,05 e 0,07).

Percebe-se que o tamanho da amostla coüverge para um certo valor ámedida que o tamanho da populagáo aumenta. Quando o =5% e e=0,05,este valor é igua.l a 384, obtido a partir da expressáo (6). Para todas as

curvas ilustradas, o tamanho amostral muda bastante quando se altera otamanho populacional de 500 para 1000 individuos. Entretanto, quando

se altera de 6500 para 7000, uma variaEáo populacional também de 500

individuos, o tamanho amostral náo se altera tanto.

Figura l: Tamanho amostral scgundo o tama¡l¡o populacional para sc cstimar uma

prevalóncia, prcsumida em 50o/,,

rAlñ=5% o €lto=0,05

-Alf¡=l%

'A]f¿--5% e eFo:0,07- - Alfa=l%e

orb¿a1dsq2qpqlqlsab@sqrsqf sqrooqtf sqToq/tq,o-.8,-8tq

Embora este exemplo tenha sido construído para apenas dois valores

de t e c[ e para um valor fixado P, pala quaisquer outras combinagóes de

valores a forma da fungáo será a mesma. O que difere é a "velocidade"com que ocone a convergéncia para um tamanho amostral, Isto e, paraalgumas combinagóes de valores e , P e a, pode-se pcrceber. mais

"rapidamente" a convergéncia que pal'a outras.

De forma análoga ao caso de uma populagáo considerada infinita,pode-se chegar facilmente a um tamanho de amostra, considerando tam-bém o tamanho populacional, onde se considere o erro relativo 9,, e neo

700ó{n500

400

' 3oo

200

100

0

C¡0Ei¡o$ SaúDr Courrvl, f,ro oE J^rErB0,8 (2): 9-28,2000- 19

Page 12: €¦ · Created Date: 6/16/2011 11:05:16 AM

II Ro¡r¡ 8a66r0 Lur¿, Monc¡ M. F, M¡e¡¡lrru

o erro absoluto e. Ou seja, após algum algebrismo,

n--z:pN(r- P)

e:p(N -r)+ zh,(- p)

3.4 O r¡¡r'r'o Dn DEsENHo (¿¿lF)

Outra característica que exerce influ€ncia no tamanho amostral é odesenho amostral, isto é, de que forma as unidades amostrais sáo

selecionadas. Os principais desenhos amostrais sáo amostragem aleatíriasimples (,41S), com ou sem reposigáo, amostragem estraúfrc da (estrai e

amostragem por conglomerados (cluster) (Silva, 1998).

As expressóes colocadas até agora para o erro-padráo, tanto para popu-

lagáo infinita quanto finita, sáo obtidas para um processo de amostragem

aleatória simples, que do ponto de üsta teórico é o mais simples. Para

estimagáo de uma proporqáo popr-rlacional (ou de um parámetro 0 qualquer),

as expressóes para o erro-padráo, tanto para uma amostragem estratilicada

quanto para conglomerados, sáo mais complexas. Entretanto, do ponto de

vista prático (ou operacional), uma amostragem por conglomerados é mais

simples e, freqüentemente, a mais usada (Lery & Lemeshow, 1999). Mas

determinar um tamanho amostral sob este desenho é mais dificil devido á

forma mais complexa de seu erro-padráo.

De forma geral, para a estimagáo de um parámero 0 tem-se a

seguinte relagáo

EPu^, < EP s <EP.bb,. (15)

Isto é, usar conglomeragáo implica em uma maior imprecisáo na

estimativa que usar uma amostragem a.leatória simples, que por sua vez,

implica em mais imprecisáo que uma amostra esratificada. Embora esta

relagáo valha na prática, ela náo é matematicamente verdadeira, poden-

do.se encontrar casos onde seja inversa (Bolfarine & Bussab, 1994). Em

outras palavras, para uma mesma precisáo, uma amostragem por conglo-

merados deve exigir uma amostra maior que uma amostragem aleatóriasimples, e uma amostragem estratificada seria a que exigiria o menor

tamanho amostral.

20 - C¡otn¡os SaúoE C0LEÍV¡, Rro 0E J^{Er¡o, I (2)t g-28, 2000

(14)

Page 13: €¦ · Created Date: 6/16/2011 11:05:16 AM

A Ló6rca !A DErERrna0¡0 0o tar¡mo 0A A¡0sr¡a Er r¡vEsTrGAQoEs rprDELl0róGtcts I

Nestas circunstáncias, o ideal seria entáo trabalhar com amostras

estratificadas. Entretanto, tal como a amostragem aleatória simples, ela é

freqüentemente de dificil operacionalizaqáo, dependendo, além de umcadastro geral, da informagáo sobre qual estrato a unidade pertence.

Além disso, se há muita heterogeneidade entre os estratos, o que seria

bom no sentido de diminuir o erro-padráo, ter uma medida geral para a

popr,rlagáo pode ser de pouca utilidade para o pesquisador. Mais interes-

sante seria manter a informagáo por estrato.

Em sendo entáo a amostragem pol conglomerados a de mais láciloperacionalizagáo, como calcular de forrna simples um tamanho amostmlpara estimagáo de um parámetro usando este desenho? Define-se umaquantidade conhe cida por def (design ffia= efeito de desenho) como sendoa tazáo entre as imprecisóes associadas á estimagáo de um parámetro sob .

dois desenhos amostrais. Usando a amostragem aleatíria simples comoreferéncia, tem-se:

d"fr -- EPi?'"'

' EPÍ^t (r6)

O def funciona como urn "preEo" a ser pago pelo pesquisad<.rr por rersua tarefa facilitada ao investigar apenas os c/zs&rs sorteados, aumentandosua imprecisáo deüdo ás possíveis correlaqóes das unidades amostr.ais

dentro e entre os chnters. Um valol de def=l é, obviamente, indicagáo de

que a conglomeragáo nl,o tem nenhum eleito sobre o tamanho amostral

quando comparada com a amostragem aleatória simples.

Assim, pode-se simplificar o cálculo do tamanho amostral usando ateoria da Amostragem Aleatória Simples quando o estudo deve ser feitopor Conglomeragáo, corrigindo a imprecisáo maior devido a este dese-

nho amostral através de algum valor para o d4f. Surge, por outro lado,

uma outra dificuldade que é saber qual o valor a ser atribuido ao dzfparase corrigir adequadamente o tamanho amostr.al. Para se at buir um valorrazoável deveria se ter uma idéia da var.iabilidade das observagóes entre e

dentro dos cltsters, o que freqüentemente nao se disp6e. No caso de umestudo de prevaléncia, quanto mais próximas as prevaléncias entre os

cltutns, menor seria o drf necessáno. Na prática, salvo em situagóes especiais,

um def de 1,4 ou 1,5 (uma correqáo no tamanho amostral entre 4090 e

CADE¡{os S¡úoE Corrrrvr, Rro ol Jaxr¡¡o, I (2): 9-28,2000- 21

Page 14: €¦ · Created Date: 6/16/2011 11:05:16 AM

I

I H0¡rn Ra0Gr0 L0rr, il0ftc¡ M. F, MaGrailrrl

50o/o) já deve ser suficiente para resguardar a precisáo desejada do

pesquisador.

3.5 GEN¡rRAr.rz^NDo

De forma geral, o tamanho amostral para se estimar um parámetro

populacional 0 qualquer (como prevaléncia, incidéncia, risco relativo, razáo

de chances, média, diferenga de duas proporgóes ou diferenga de duas

média$ pode ser obtido através da expressáo seguinte, que relaciona o

erro tolerável de amostragem á idéia de intervalo de confianga para

estimagáo do parámetro 0. A premissa necessária é_o conhecimento da

expressáo do erro-padráo associado a um estimador, 0, daquele parámetro.

A regra geral é:

onde EP6 é o erro-padráo do estimador 0. O tamanho amostral estará

sempre embutido em EP6. Uma vez identificada a expressáo EP6, basta

explicitáJa em z e, assim, obter-se uma expressáo para o tamanho amostral

para estimagáo de um parámetro 0. Pela expressáo acima, os elementos

€ e c[ (as especificagóes de erros) certamente exercem inlluéncia em z eeventuais outros elementos influentes apareceráo dependendo da expres-

sáo para EP6.

Poder-se-ia listar aqui os erros-padróes dos principais estimadores

envolvidos numa investigagáo epidemiológica (Sahai & Khurshio, 1996),

Entretanto, dada a assimetria das distribuigóes amostrais de alguns deles,

suas expressóes sáo mais complexas, apresentando-se numa escala

logarítmica (freqüentemente de base r). Mesmo assim, poder-se-ia a partirdelas e algum algebrismo obter o tamanho amostral utilizando a equaqáo

geral acima.

4. Tts ¡ n¡¡no u\t¡ HrPór'r:sr;

Se, por outro lado, o pesquisador tem como objetivo testar uma hipó-

tese previamente estabelecida, surge um outro elemento influente na de-

terminaqáo do tamanho amostral. Suponha que a situagáo de interesse

seja investigar se um novo tratamento é melhor que um tratamento tradi-cional, cuja proporgáo de sucesso é conhecida ser de 700lo. A pergunta

22 - C¡oenros S¡úoG ColrÍva, Rro oe Jrl:lno, I (2): 9-28, 2000

(l i)

Page 15: €¦ · Created Date: 6/16/2011 11:05:16 AM

A Ló6rca oÁ DrrEÍxrxÁc¡o D0 ¡a¡¡¡{ro oÁ ¡i¡osTFA ![¡ l{yrslrc¡g0Es Ep¡oo¡rorocrc^s I

inicial é quantos doentes precisaria investigar para decidir ou náo pelo

tratamento alternativo com uma margem de erro aceitável. Isto é, se o

tratamento novo de fato é melhor, por exemplo com um sucesso de B0o/0,

gostaria de se poder eütar que o estudo náo fosse capaz de chegar a esta

conclusáo deüdo a uma amostra pequena.

Ou seja, deseja-se controlar o erro p, sendo esse o elemento novo a

ser considerado na determinagáo do tamanho amostral. Se, por outrolado o tratamento novo náo é melhor, também náo é desejável acidental-mente concluir que este é melhor. Ou seja, o interesse está em controlaro erro c[. Se o tratamento tradicional é satisfatório, seria conveniente um(l pequeno. Entretanto, se náo, poderia se relaxar um pouco no d, e exigirmais do p. A determinagáo dos valores de cr e p depende de cada estudo.

Q¡lanto menor um, maior será o outro. A maneira de se ter ambos

pequenos é aumentando o tamanho da amostla.

Para se chegar a um tamanho amostral com este novo elemento,

considere a Figura I a seguir. As duas culas representam a distribuigáoamostral para a proporgáo amostral ip ) de sucesso no tratamento novosob os dois valores hipotetizados no exemplo (P,,=7ooto, compativel com otradicional, e P^=80o/o). A "largura" de cada uma dessas curvas é dada

pelo seu erro-padráo que depende do tamanho da amostra e do valor.

hipotetizado. Para um "certo" tamanho amosral, há um valor limite pque um resultado a partir dele conduziria erroneamente á rejeigáo da

hipótese {,=76070 com uma probabilidade de até go/o. Simultaneamenre,

em sendo verdadeira a hipótese P^=80o/o, um resultado atép conduziria á

aceitagáo daquela hipótese, também enoneamente, com uma probabili-dade de até p%. O que se quer é determinar qual é este "certo" tamanhoamostral. Utilizando a normal padronizada, sob {,=70V0, tem-se

E sob P"=B0o/o,

:+ p=0,7 +z.P

+ p=0,8-"pP

p -0,7zs

p-0'8-zR=--:' 10,8x0,21,

CÁoEnilo8 S¡úoE Coreívr, Rro or Jrruno, I (2): 9-28,2000- 23

Page 16: €¦ · Created Date: 6/16/2011 11:05:16 AM

lR0ir¡ Brc0ro Lürz, M0¡rcr M, F. ll^6rr¡r¡l

Igualando-se as duas últimas expressóes para p e

explicitando em z, terp-setP".¡i,21 + ,'uffi'/

'1= (os-offEstabelecendose d,=So/o (com zo= I ,64) e p=26070 1-"r zu = 0,84), chega-

se a um tamanho amostral de ll9 unidades. Isto é. com ll9 unidades o

pesquisador teria um poder de 800/o (l-B) de detectar uma proporgáo de

sucesso de B07o do tratamento no!'o com um nível de sipnificáncia de 590.

Fiqura 2

(18)

De forma geral tem-se entáo a seguinte expressáo para determinagáo

do tamanho amostral para se testar uma hipótese sobre uma proporgáo:

lzo (ls)n=(Po- 1)'

Esta expressáo se aplica pa¡a um teste unilateral. Isto é, no exemplo,

apenas valores acima de 70Vo estariam sendo considerados. Se deseja-se umteste bilateral, poderia usar a expressáo acima substituindo zopor zrr(Ievy& Lemeshow, 1999).

5. ExTENsóls

De maior aplicagáo em investigagóes epidemiológicas sáo os estudos

24 - C¡ora¡os S¡r¡o: Co!rr|v^, Br0 oG J^¡Etno, I (2)l 9-28, 2000

Po(l- P) + zu 1(r- 1)l'

Page 17: €¦ · Created Date: 6/16/2011 11:05:16 AM

A Ló6rc¡ D¡ DrrEnxÍit0Á0 00 tarailflo oÁ ar¡osr¡¡ rr¡ Í{yEsl|6ag0Es E?l0E t0ro6tcas I

comparativos - os ensaios clínicos e os estudos observacionais do tipocoorte e caso-controle - onde quer-se estudar a associageo entre duas

variáveis dicotómicas, classicamente denominadas exposigáo e doenga.

Em qualquer um desses trés desenhos, pode-se calcular um tamanhoamostral a partir da comparagño de duas proporgóes, sendo que no caso-

controle a comparagáo seria sobre as proporgdes de expostos. De formageral, o tamanho amostral para a comparagáo entre duas proporgóes

segue a mesma lógica já discutida para o caso de uma única amostra,

tanto para estimagáo quanto para testes de hipóteses. A diferenga básica

é que agora tem-se duas amostras e, assim, será necessário ser estabelecido a priori pelo pesquisador uma razáo desejada entre os dois tamanhos

amostrais. As formulas também ficam mais complexas, principalmentequando se tem proporgóes pequenas.

Como em epidemiologia as medidas de associagáo conhecidas comoRisco Relativo e Razáo de Chances tém larga aplicagáo e intelpretagóes

imediatas, pode-se construir tama¡rhos amostrais diretamente para estima-gáo destes parámetros. As expressóes para seus erros-padróes sáo mais

complexas (Sahai & Khurshio, 1996), o que impede uma expressáo simples

para determinagáo do tamanho amostlal. I\{as a identificaqáo dos elemen-

tos influentes e sua interpretagáo seguem a mesma lógicajá apresentada.

Embora náo táo freqüente numa investigagáo epidemiológica, umpesquisador pode estar interessado em conhecel qual o nivel médio de

uma variável numérica, por exemplo, glicemia ou colesterol em umapopulaqáo. Tal como no caso da estimagáo de uma proporgáo, o tama-nho amostral para a estimagáo de uma média populacional pode ser

facilmente obtido a partir da expressáo pala o erro-padráo da médiaamostral (X-), utilizando-se o raciocínio desenvolvido na segáo 3.5. Con-siderando uma populagáo inñnita (amostlagem aleatória simples "comreposigáo"), tem-se:

(2 0)

E no caso de uma populagáo finita de tamanho N,

(21)

6r\lnEPx =

EPx =

CaoER¡os S¡úDE CotÉrrvr, Rro or Jnlrrno, I {2): 9.28, 2000 - 25

Page 18: €¦ · Created Date: 6/16/2011 11:05:16 AM

I Ro¡r¡ R¡eero Lu¿, ilorrcr M. F, Mr6railtill

onde o é o desvio-padráo populacional da variável em estudo. A analogia

com a estimagáo de uma proporgáo é imediata, observando-se que6 = ltP(l - P) . Assim, os tamanhos amostrais para estimagáo de uma

média podem ser obtidos tanto para um erro absoluto (e) quanto para um

erro relativo (e) da mesma maneira como aqueles obtidos para a estima-

9áo de uma proporgáo.

Para o caso de um teste de hipótese a analogia também é imediata.

Pela segáo 4, pode-se calcular um tamanho amostral para um teste bilate-ral de uma média, supondo populagáo infinita, através de:

(2o,, + zu)2o2 ¡ee\,= ,,

onde o é o desvio-padráo populacional da variável em estudo. Como

esta inforrnagáo náo é conhecida (é populacional), pode-se usar no seu

lugar alguma inforrnagáo disponível em outros estudos similares. Umrecurso que pode ser útil é obseruar que a diferenga entre o máximo e o

mínimo (a amplitude amostral) pode fornecer alguma informagáo sobre o

desvio-padráo. Supondo que os dados sáo normais, a amplitude corresponde

a aproximadamente seis vezes o desvio-padráo,

Em epidemiologia, a comparagáo de duas médias encontra mais apli-

cagóes nos estudos clinicos. Por exemplo, um pesquisador pode estar

interessado em saber se há difelenca entre dois tratamentos alternativos

para controle de uma variável numérica, colesterol, por exemplo. Háuma diferenga na redugáo média do colesterol para estes tratamentos? Otamanho amostral necessário para este tipo de investigagáo segue tam-bém a mesma lógica anterior. O erro-padráo associado á diferenga entre

duas médias é:

(23)

Freqüentemente, assume-se que os desvios-padróes dos dois grupos

sáo iguais. Assim, um tamanho amostral, em cada grupo, para umteste bilateral da diferenga entre duas médias seria dado por:

2(2",r+zu)2c2. (24)

"-- ¿' '

onde é d o valor hipotetizado para a diferenqa entre as médias.

26 - C¡ot¡¡os S¡úDE CoLc¡rva, Br0 o¡ JaiEtno, I (2): 9.28, 2000

or,r,--FÉ

Page 19: €¦ · Created Date: 6/16/2011 11:05:16 AM

A LoGrc¡ oa DErEnxr¡¡o¡o 00 TA¡^rir0 D¡ ¡[¡0$¡i¡ E,l rivEsrcacóEs EproÉrrorocrcÁs I

6. CoNcr.usAo

Em síntese, para a deterninagáo do tamanho de uma amostra énecessária a colocagáo de uma pelgunta específica que possa ser respon-

dida pela estimagáo de uma par'ámetro populacional. Pela distribuigáoamostral de um estimador deste parámetro e através de seu erro-padráoassociado, pode-se obter um tamanho amostral seguindo o raciocíniogeral desenvolvido na segáo 3,5, permitindo-se assim identificar clara-mente seus elementos influentes.

Uma outra característica importante na determinaEáo do tamanhoamostral é que qualquer estudo esta¡'á sujeito á perda de dados por razóes

diversas e magnitudes diferenciadas, dependendo do estudo. O pesquisa-

dor obtém seu tamanho amostral em cima de especificagóes de erro que

ele julgou pertinentes, mas que seráo alteradas se houver perda de dados.

Q¡rerendo se resguardar de sua precisáo, o pesquisador deve majorar umpouco sua amosfa a fim de compensar eventuais perdas. É dificil estabe-

lecer um valor de compensagáo, pois cada estudo estará sujeito a diferen-tes níveis de perda. Mas, arriscando uma regra geral, um acréscimo de

20% poderia ser recomendado. Por outro lado, mais importante do que

um eventual aumento na imprecisáo devido a uma perda grande seria

considerar a possibilidade das unidades perdidas serem "diferentes" das

obtidas, implicando em potenciais üeses no estudo.

Como último comentário, e concretamente fhlando, qualquer tama-nho amostral para uma investigagáo epidemiológica implicará em custos.

Entáo, a determinagáo do tamanho amostral nem sempre poderá estar

restrita a uma discussáo puramente sobre imprecisáo. Como objetiva-mente este conceito é determinante no tamanho da amostra, em havendo

limitagáo de recursos, o pesquisador poderá chegar a um tamanho amostral

"viável" se relaxar um pouco em suas especificagóes de erro.

R¡rrnErcns BrBuoGRAFtcAs

Bot.l',lnlnr, H.; Bussan, W. O. Elnnmtos de Amostragmt. Belo Horizonte,XI SINAPE. 1994,

Ft,etss, J. L. Statütical Methods for Rates and hoputions.2 ed. New York:

John Wiley & Sons. l98l.

C¡D€R os SAúoÉ CorrÍv¡, R¡o DE JÁr{Etno, I l2lt S-28,2000- 27

Page 20: €¦ · Created Date: 6/16/2011 11:05:16 AM

I R0ü. n¡0e|0 [urz, llorrcr ll. t. ilrGñ^xrrl

Lcw, P. S.; LnltmHow, S. So*plug of Popuktions: n¿tlnds and

oQPlirnti*t. New York: John Wiley & Sons. 1999.

Sn,v4 N. N. Axustragan probabilí:lica: mn eurso inhodutórin. Sáo Paulo:

Enusp. 19{18.

Sornts, J. F.; Stqut:tn,r, A. L. Inhodt4Fo d Estatístüa Midita. Belo

Horizonte: Dep"' de Estatística da UFMG. 1999.

Snnnr, H.; KHunsHto, A. StoJistüs ;n Epideninbg Methnds, Temiques, and

Appliratinns. Boca Raton: CRC Press. 1996.

28 - C¡on¡o¡ Srú¡¡ Corrrrrr, 8ro 0E J^xfl¡o, I (2)r 9-28, t000