leitura crítica de artigos científicos - sboc - 2011 - pt

108

Upload: ana-claudia-leite

Post on 24-Dec-2015

63 views

Category:

Documents


20 download

DESCRIPTION

Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

TRANSCRIPT

Page 1: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt
Page 2: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 9

Caros Associados da SBOC e Congressistas do XVII Congresso Brasileiro de Oncologia,

Vocês estão recebendo o Manual de Leitura Crítica de Artigos Científicos elaborado pela SBOC,sob a coordenação do Dr. Wagner Brant Moreira e do Bioestatístico do Departamento de Pesquisae Bioestatística da SBOC, Sr. Luciano Rios Scherrer. Esse manual foca-se nas orientações práticaspara o Oncologista Clínico quanto à seleção, leitura e interpretação da qualidade dos textospublicados e disponíveis na prática oncológica diária, com as devidas orientações de como fazê-lo.

A decisão de elaboração desse material partiu de sugestão do Dr. Brant, que já haviaparticipado de dois outros trabalhos realizados pela SBOC, ao longo das décadas de 80 e 90 naárea de estatística. Também pela demanda dos associados quanto a uma boa orientação de comodirecionar estudos e adquirir conhecimento, diante da miríade de novas pesquisas em grande partefinanciadas, suportadas e realizadas pela Indústria Farmacêutica, com evidentes vieses deprogramação, realização e análises de dados.

A SBOC espera contribuir com esse material para a melhoria da qualidade de aquisição dainformação e na racionalização da aplicabilidade dos conhecimentos oncológicos.

Agradecemos ao Dr. Brant e a todos os demais autores pela contribuição à SBOC e a todos osassociados na elaboração desse material.

Gramado-RS, 26 de outubro de 2011.

Atenciosamente,

Enaldo Melo de LimaPresidente da SBOC

Editorial

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:29 Page 9

Page 3: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

10 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

Em 1983, ao assumir a presidência da SBOC, o Dr. Sebastião Cabral Filho, convidou os Drs.José Francisco Soares, da uFMG, e Flávio Celso Bartman, da uNICAMP, ambos estatísticos, paraproduzirem um texto que ensinasse aos oncologistas brasileiros os rudimentos da estatísticamédica. uma comissão formada por Alfredo Daura Jorge, Sebastião Cabral Filho, Wagner BrantMoreira, Eugênio Del Vigna Filho e Ângela Maria Garcia de Vasconcelos foi constituída com afinalidade de assessorar os estatísticos e municiá-los de exemplos próprios da especialidade.

Na época estavam recentes os esforços dos ingleses e canadenses na divulgação dosconhecimentos estatísticos e na decisão sobre busca e análise da melhor evidência científica.Tratava-se, portanto, de uma iniciativa moderna e pioneira.

Finalmente, em 1985, por ocasião do IV Congresso Brasileiro da SBOC, um livreto contendo 99páginas foi distribuído a todos os associados. A participação do CEOMG (Centro de Estudos ePesquisas Oncológica de Minas Gerais) através dos seus associados Drs. Eugênio Del Vigna Filho(físico-médico) e Wagner Brant Moreira (oncologista clínico) e de sua bibliotecária, Ângela MariaGarcia de Vasconcelos, foi fundamental para o sucesso da empreitada, o que foi registrado pelosautores no prefácio.

Em 1993, ao assumir pela segunda vez a presidência da SBOC, o Dr. Sebastião Cabral Filho,julgou ser oportuno o aprofundamento dos temas abordados pelo primeiro texto. Convidounovamente o Dr. José Francisco Soares que, juntamente com Wagner Brant Moreira, EduardoCarvalho Brandão (oncologista clínico), Ângela Maria Garcia de Vasconcelos e Jória MartinhoGonçalves (estatística), ficaram encarregados da tarefa.

Somente em 1997 o segundo texto, já sob a forma de livro, ficou pronto para distribuição aosoncologistas, o que foi feito durante o X Congresso Brasileiro da SBOC. Esta obra, além dosfundamentos da estatística médica, continha diretivas para a busca de informações através demeios disponíveis pela internet. Havia, também, preocupação com a qualidade da evidênciacientífica e valorização da tomada de decisão médica. Mais uma vez, um trabalho pioneirocolocando a SBOC à frente das outras entidades médicas brasileiras.

Em 2009, ao assumir pela segunda vez a presidência da SBOC, o Dr. Enaldo Melo de Limaexpressou sua preocupação com a qualidade dos conhecimentos estatísticos dos oncologistasdiante do grande avanço da especialidade ocorrido nos últimos 10 anos. Concordamos que o temanecessitava ser revisitado e fiquei encarregado de apresentar um projeto e constituir uma comissãode colaboradores para produzir um novo texto. Logo ficou evidente que a tarefa seria hercúlea e otexto muito longo e complexo, poderia não despertar o interesse dos oncologistas, já tão asso-berbados de trabalho e aquisição de novos conhecimentos. Ficou decidido que o foco seria acapacitação dos oncologistas para uma leitura crítica dos principais tipos de artigos científicosutilizados para a tomada de decisão clínica.

Na comissão então constituída, alguns ficaram encarregados de produzir os textos, outros delê-los e propor modificações em uma interação entre estatísticos e médicos que já havia produzidobons frutos no passado. Devido à minha experiência de participação nos dois textos anteriores,coube-me o papel de editor com a tarefa de organizar o material, produzir alguns textos, propormodificações e decidir sobre o formato ideal.

Apresentação

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:29 Page 10

Page 4: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 11

A obra finalizada sob a forma deste livro foi um trabalho coletivo onde a participação de todosfoi de fundamental importância para a sua qualidade. Por não ser possível categorizar o papel decada um, os colaboradores foram listados na ordem alfabética dos nomes.

Agradeço a todos vocês pelo empenho e pela compreensão quando modificações foramdecididas e implementadas.

Cumprimento o Dr. Enaldo Melo de Lima pela sua visão, liderança e desprendimento em prolda oncologia brasileira.

Esperamos que este trabalho esteja à altura dos textos anteriormente publicados e que possaservir ao aprimoramento técnico dos oncologistas brasileiros.

Wagner Brant Moreira

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:29 Page 11

Page 5: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 15

1.1. Introdução

Historicamente, a decisão médica era baseada na experiência pessoal, em observações deterceiros e no entendimento dos mecanismos fisiopatológicos das doenças (1). No final da década de1980 e início dos anos 90, devido ao custo em elevação da atenção médica, surgiu um novo paradigmapara a tomada de decisão, com foco na intervenção médica visando a melhoria de resultados, aênfase no significado que o resultado tem para o paciente e o público em geral, além da explícitadocumentação da qualidade da evidência científica (2).

Esta nova prática médica foi denominada de medicina baseada em evidência. Na realidadedesde a Grécia antiga, a medicina procurou ser baseada em evidências (2). A mudança ocorreu naênfase à tomada de consciência quanto à qualidade da evidência científica disponível.

Ela foi saudada como uma maneira democrática do exercício da medicina, por não ser baseada naautoridade daquele que está tomando a decisão, e como uma forma de não desperdiçar recursos, dequalquer natureza, em atitudes cujo benefício para o paciente seja incerto. No entanto, alguns de seusconceitos foram desvirtuados, principalmente por agentes de fontes pagadoras dos serviços de saúde,que passaram a interpretar a ausência de evidência de alto nível científico como ausência de evidênciaútil. Segundo Woolf e George(2) as decisões baseadas em evidências são obtidas a partir da melhor evi-dência disponível naquele momento para responder àquela questão que está sendo proposta (2).

Segundo Sackett et al (3), em tradução literal, “medicina baseada em evidência é o uso consciente,explícito e judicioso da melhor evidência existente, para a tomada de decisões, acerca do cuidado depacientes individuais”. O melhor médico é aquele que usa tanto a sua experiência clínica quanto amelhor evidência científica sendo que nenhuma das duas isoladamente é suficiente para a boaprática médica.

Ainda mais, como um dos focos é o significado que o resultado da intervenção tem para opaciente, sua participação na tomada de decisões é fundamental (3,4).

1.2. Qualidade da evidência

Vários autores propuseram uma hierarquia para definição da qualidade da evidência científicaem medicina, que está descrita no quadro 1.1 (5).

Capítulo 1Escolha do artigo a ser lido

NíveisI

IIIII

IV

Tipos de estudos clínicosExperimento clínico randomizado de alto poder estatístico (grande número de pacientesincluídos) ou metanálise de múltiplos experimentos randomizados.Experimento clínico randomizado de baixo poder estatístico (poucos pacientes incluídos).Estudo prospectivo não randomizado.Estudo coorte e caso-controle.Estudos retrospectivos; relato de casos.

QUADRO 1.1 - Níveis de evidência em artigos médicos(5)

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:30 Page 15

Page 6: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

16 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

Como está descrito, o maior nível de evidência é fornecido pelos estudos prospectivos randomizadosde alto poder estatístico e pelas revisões sistemáticas com metanálise de vários destes estudos.

Outros sistemas de avaliação da qualidade da evidência científica foram propostos, mas o maisusado atualmente é o sistema GRADE (Grades of Recomendation, Assessment, Development andEvaluation) adotado inclusive pela Organização Mundial de Saúde e pela Cochrane Collaboration.Este sistema é baseado na graduação da qualidade da evidência e na força das recomendaçõesmédicas subseqüentes, introduzindo, então, o valor da tomada de decisão médica; suas definiçõesestão descritas no quadro 1.2 (6,7).

Alta qualidade: pesquisa adicional tem pouca probabilidade de mudar nossa confiança naestimativa do efeito estudado.Exemplos: estudo randomizado sem limitações sérias; estudo observacional bem realizado e comefeito muito grande.

Qualidade moderada: pesquisa adicional pode ter impacto importante na nossa confiança naestimativa do efeito estudado e pode mudar esta estimativa.Exemplos: estudo randomizado com limitações sérias; estudo observacional bem realizado e comefeito grande.

Baixa qualidade: pesquisa adicional provavelmente terá importante impacto na nossaconfiança na estimativa do efeito e é bem provável que mude esta estimativa.Exemplos: estudo randomizado com limitações muito sérias; estudo observacional comimportantes limitações ou baixo poder.

Qualidade muito baixa: qualquer estimativa do efeito é muito incerta.Exemplos: estudos randomizados com limitações muito sérias e resultados inconsistentes; estudosobservacionais com limitações sérias; relato de casos ou de série de casos.

QUADRO 1.2 - Qualidade da evidência e definições segundo o sistema GRADE (6,7)

Estes dois sistemas de qualificação da evidência científica coexistem em muitos textos. Oprimeiro, com foco no tipo de estudo clínico, é útil para avaliar como a informação foi obtida. Osegundo sistema, com foco na capacidade do estudo em fazer estimativas com confiança, é maisútil na tomada de decisão em ambiente clínico.

1.3 Decisão médica em Oncologia

Recapitulando, falamos até o momento em qualidade da evidência, em confiança na nossaestimativa, no significado que a intervenção médica tem para o paciente e na sua participação natomada de decisão médica. Na realidade há estudos mostrando que pacientes que participamativamente do processo decisório ficam mais satisfeitos e há sugestão de que, também, podem termelhores resultados terapêuticos (8).

De fato, as décadas iniciadas em 1980 e 1990 presenciaram o surgimento de outra novidadena abordagem médica: a decisão médica compartilhada. Ela é definida como interações simultâneasentre o médico e o paciente em todos os estágios do processo decisório. O médico contribui cominformações científicas acerca dos procedimentos disponíveis, seus riscos e benefícios; o paciente

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:30 Page 16

Page 7: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 17

fornece informações pessoais sobre sua doença, seu estilo de vida e seus valores. Ambos discutemsobre opções de conduta e negociam uma conduta mediante acordo mútuo (9). Trata-se, então, deum processo dinâmico e, frequentemente, muito complexo.

Às vezes, a abordagem médica obtém resultados tão evidentes e sem muitas opções que o médicotoma a decisão sem dar ao paciente chance de escolha. No entanto, em oncologia, muitas decisões sãodependentes da preferência do paciente por não haver uma escolha ótima que seja adequada a todos.

Neste ambiente, decisão compartilhada é considerada a melhor opção por garantir uma atençãomédica focada no paciente, por estar em conformidade com os seus direitos e desejos, por melhorar asatisfação dos pacientes com os procedimentos e por, potencialmente, melhorar os próprios resultados (10).

No entanto, qualquer que seja a abordagem indicada em cada caso, cabe ao médico estar deposse da melhor informação científica disponível e ter condições de explicá-la aos seus pacientes.

Foge ao escopo deste manual uma análise detalhada do processo decisório em oncologia,embora percebamos a sua importância na nossa prática diária. Nossa pretensão é auxiliar o onco-logista clínico a proceder a uma leitura crítica da literatura científica, saber avaliar qual a qualidadeda evidência assim obtida e extrair dela as informações necessárias à sua tomada de decisão.

1.4. Como decidir qual artigo deve ser lido

Devido à pletora de artigos científicos sendo publicados nas incontáveis revistas médicas, épraticamente impossível ter acesso a toda informação existente.

De qualquer forma, e apesar do cuidado dos melhores periódicos, nem todos os artigos temuma qualidade ótima e nem toda informação de boa qualidade é útil naquele preciso momento.

Portanto, alguma sistematização na escolha da leitura científica é necessária.O departamento de Epidemiologia Clínica e Bioestatística da universidade McMaster, do

Canadá, publicou, em 1981, uma sistematização sobre como decidir qual artigo científico deve serlido na íntegra. um resumo, levemente modificado, está descrito na figura 1.1 (11).

Ler secção Material e Métodos

Observar o título: é útil ou interessante?

Qual seu objetivo?

Decisão sobre uso de teste diagnóstico

Há comparação cega com umpadrão ouro para o diagnóstico?

Foram incluídos pacientesem início da doença?

O tipo de estudo forneceevidência de alto nível?

A alocação de pacientesfoi, realmente, aleatória?

Determinar etiologia oucausalidade

Decisão sobreterapêutica

Estudar curso clínico eprognóstico de uma doença

NÃO LER ESTEARTIGO

Verificar os autores: boa referência?

Ler o resumo: os resultados, se válidos, seriam úteis

Considerar aplicabilidade: os resultados, se válidos se aplicariam à sua prática?

FIGURA 1.1 - Critérios para a decisão de qual artigo deve ser lido

não

sim

sim

sim

sim

simsim sim

simsim

sim

sim sim sim

sim

não

não

não não não não

não

não

sim

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:30 Page 17

Page 8: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

18 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

Este guia é motivado pela necessidade constante de atualização dos médicos, na falta crônicade tempo para ler todos os artigos e, baseia-se na eliminação precoce daqueles artigos que nãopossuam qualidade ou utilidade naquele momento. Os médicos, assim procedendo, podem focarnaqueles poucos que têm tanto validade quanto aplicabilidade à sua prática clínica (11).

Os primeiros três itens descritos já nos permitem eliminar artigos sem interesse, autores ouinstituições de reconhecida má fama científica ou temas sem utilidade no momento.

O quarto item é um pouco mais complexo e no artigo original (11) recomendava que seconsiderasse o local onde o estudo foi realizado. Na realidade os autores pretendiam que fosseavaliado o tipo de paciente incluído no estudo para saber se os resultados assim obtidos, casofossem considerados válidos, se aplicariam aos pacientes do leitor do artigo. Ao usar a referênciaao local de realização do estudo, eles chamaram a atenção para o fato de que testes diagnósticos,ou mesmo tratamentos, desenvolvidos em uma unidade de atenção terciária de saúde (centrosespecializados) podem não se aplicar ao médico de família comprometido com a atenção primária.

Em oncologia, atualmente, os estudos são, frequentemente, multinstitucionais e/ouinternacionais e, portanto, este conceito de localização não se aplica. Mas permanece a necessidadede se avaliar a aplicabilidade dos resultados.

Se o leitor responder SIM aos quatro quesitos iniciais, antes de se dedicar à tarefa de ler asecção “Material e Métodos”, ele deve clarear qual é seu objetivo na leitura do referido artigo.

De um modo geral, podemos classificá-los em quatro grandes grupos: decidir sobre o uso deum teste diagnóstico em seus pacientes, aprender sobre o curso clínico ou fatores prognósticosde uma doença, determinar etiologia ou causalidade ou escolher entre diferentes tratamentos.

Se o objetivo é a avaliação de um novo teste diagnóstico, deve-se verificar se o estudocompara este método com um padrão-ouro e se esta comparação foi cega, ou seja, o teste foiaplicado e/ou interpretado por quem não sabia se determinado paciente estava realmente doenteou sadio. Outras características do teste, tais como especificidade e sensibilidade, e dos pacientes,como a prevalência da doença naquela população incluída no estudo, devem ser claramentedescritas(12). Voltaremos a este tema em maior profundidade no capítulo 4.

Se a intenção for aprender sobre o curso clínico ou fatores prognósticos de uma doença, aprimeira pergunta é se todos os pacientes incluídos encontravam-se no mesmo ponto da histórianatural da patologia. Ao proceder desta forma há garantia de que os pacientes que faleceram ouse curaram sejam incluídos juntamente com aqueles nos quais a doença persistiu por um períodomais longo (13). Outras características importantes serão estudadas no capítulo 5.

Em relação à etiologia ou causalidade, a principal questão inicial é sobre a qualidade daevidência científica. Estudos randomizados são considerados aqueles que fornecem a evidênciamais forte e geralmente pode-se confiar em suas conclusões. No entanto, na prática nem sempreé possível desenvolver um estudo randomizado para se estabelecer uma causalidade. Por exemplo,não se pode induzir uma infecção aguda em um grupo de pessoas (e não em outro grupo) para seavaliar a possível causa de uma nefrite aguda. Isto é claramente antiético. Então, com freqüência,estudos de causalidade são estudos de Coorte e, embora, passíveis de vieses, seus resultadospodem, às vezes, ser confiáveis. Outro tipo de estudo eventualmente utilizado é o do tipo caso-controle que embora produza uma evidência científica fraca é o único desenho possível emcondições muito raras. Nestas circunstâncias podemos ser forçados, mesmo com alguma relutância,a confiar nos seus resultados. Para constar, a descrição de série de casos produz evidência científicatão fraca que não deve ser usada nos estudos de causalidade (14).

Na escolha de qual o melhor tratamento para um determinado paciente, a principal perguntainicial é se o estudo alocou os pacientes aos diferentes tratamentos de maneira aleatória. Estaquestão será melhor abordada no capítulo 8, mas podemos afirmar brevemente que o estudo

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:30 Page 18

Page 9: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 19

randomizado elimina a maioria dos vieses que levam aos falsos resultados dos estudos não-randomizados. Será muito mais provável beneficiarmos o nosso paciente e muito menos provávelprejudicá-lo, se nossa decisão terapêutica for baseada em experimentos clínicos bem realizados (15).Evidentemente, em algumas situações o estudo randomizado não está disponível. Em oncologiaisto ocorre mais frequentemente quando o evento é raro, como por exemplo, em neoplasia debaixa incidência, nos casos de recidiva após várias linhas terapêuticas ou naquelas neoplasias deprognóstico tão ruim que qualquer benefício terapêutico pode ser considerado relevante. Noentanto, o conhecimento assim obtido é sempre uma informação incompleta sujeita a incerteza degrandeza desconhecida e deve ser utilizada com prudência e desconfiança.

Após estas considerações, se o leitor considerar que o artigo deva ser lido, o próximo passo éa leitura da secção material e métodos.

O corpo deste Manual pretende auxiliar o oncologista nesta tarefa e a ser capaz de julgar aqualidade dos vários tipos de estudos clínicos.

Os autores deste manual e a diretoria da SBOC desencorajam, com veemência, a aquisiçãode conhecimentos através da leitura única do resumo do artigo científico. Mesmo artigos científicospublicados em periódicos de renome com revisão feita por peritos, podem conter erros eimperfeições.

Mesmo artigos bem elaborados e com conclusões confiáveis podem não se aplicar a todos ospacientes.

Somente a leitura crítica, aliada à reflexão e à experiência clínica, fornece ao médico oselementos essenciais para a decisão de qualidade.

Referências

1. Evidence-Based Medicine Working Group. Evidence-based medicine. A new approach toteaching the practice of medicine.JAMA. 1992 Nov 4;268(17):2420-5.

2. Woolf SH, George JN. Evidence-based medicine. Interpreting studies and setting policy.HematolOncol Clin North Am. 2000 Aug;14(4):761-84. Review.

3. Sackett DL, Rosenberg WM, Gray JA, Haynes RB, Richardson WS. Evidence based medicine: whatit is and what it isn't.BMJ.1996 Jan 13;312(7023):71-2.

4. Guyatt GH, Haynes RB, Jaeschke RZ, Cook DJ, Green L, Naylor CD, Wilson MC, Richardson WS.users'Guides to the Medical Literature: XXV. Evidence-based medicine: principles for applying the users'Guides to patient care. Evidence-Based Medicine Working Group.JAMA. 2000 Sep 13;284(10):1290-6.

5. Lyman GH, Eisenberg PD, Canellos GP, Browman GP. Evidence-Based Oncology Meets ClinicalExperience: Opportunities and challenges. ASCO Educational Book, 2001; 263-71.

6. Guyatt GH, Oxman AD, Vist GE, Kunz R, Falck-Ytter Y, Alonso-Coello P, et al; GRADE Working Group.GRADE: an emerging consensus on rating quality of evidence and strength ofrecommendations.BMJ. 2008 Apr 26;336(7650):924-6.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:30 Page 19

Page 10: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 23

2.1. Histórico

Desde a antiguidade a Estatística está presente na vida do homem. As necessidades queexigiam o conhecimento numérico surgiram anos antes de Cristo, por exemplo, com orecenseamento das populações. Os registros egípcios de presos de guerra em 5000 a.C. foram osprimeiros dados estatísticos disponíveis. Outro momento importante na história da estatísticaocorreu em 3000 a.C., quando os egípcios registraram a falta de mão-de-obra relacionada àconstrução de pirâmides.

Em 2238 a.C., foi realizado o primeiro recenseamento na China com fins agrícolas ecomerciais. Em 600 a.C., todos os egípcios tinham que declarar suas profissões e fontes de rendasao governo de suas províncias, com a penalidade de morte para quem não o fizesse.

No Brasil, a formação da estatística está ligada a alguns fatos importantes como:a) 1º censo geral da população brasileira em 1872;b) Criação do Instituto Brasileiro de Geografia e Estatística (IBGE) em 1936;c) Início do ensino de Estatística nas escolas: Escola Nacional de Ciências Estatísticas (ENCE –

Rio de Janeiro) e Escola de Estatística da Bahia, em 1953;d) Inclusão da Estatística no Ensino Fundamental e Médio em 1997.Hoje em dia a estatística é uma ferramenta indispensável para todo profissional que analisa

informações diariamente para tomar decisões, pois seu campo de aplicação se estende a váriasáreas do conhecimento humano. Porém, devido à facilidade de alguns aplicativos estatísticos,muitos pesquisadores se sentem aptos a fazerem análises estatísticas sem um conhecimento maisprofundo de conceitos e teorias, o que muitas vezes gera interpretações equivocadas ou atéerrôneas.

A literatura médica está repleta de artigos nos quais técnicas estatísticas são usadas e paraavaliar criticamente as evidências numéricas apresentadas, deve-se ter algum conhecimento deestatística.

2.2. Objetivos da estatística

A estatística é um conjunto de técnicas que permite coletar, organizar, descrever, analisar einterpretar dados, numéricos ou não, provenientes de estudos ou experimentos realizados emqualquer área do conhecimento.

Antes da coleta dos dados, deve ser feito um planejamento estatístico com a finalidade degarantir que as hipóteses de interesse do pesquisador possam ser testadas. O planejamentoestatístico é necessário, pois o que se procura são dados confiáveis que confirmem ou não ashipóteses formuladas pelo pesquisador, relacionadas aos objetivos específicos da pesquisa.

A verificação das hipóteses se realiza com a aplicação de métodos de análise estatística. Aaplicação desses métodos depende da maneira como os dados foram coletados. O planejamento

Capítulo 2Princípios gerais da Estatística

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:30 Page 23

Page 11: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

24 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

do experimento e a análise estatística dos seus resultados estão associados e devem ser aplicadosem uma seqüência lógica na pesquisa científica, nas diversas áreas do conhecimento.

O planejamento de uma pesquisa consiste de diversas etapas, que dependem de um bomentendimento entre o pesquisador e o estatístico planejador.

Os seguintes passos fazem parte de um planejamento estatístico:1) Definição da coleta dos dados: como coletar amostras representativas da população de

interesse e cálculo do tamanho da amostra;2) Definição das variáveis a serem analisadas;3) Definição das medidas descritivas, tabelas e gráficos;4) Definição da análise inferencial: diferença entre grupos; diferença entre tempos; associação

entre variáveis (correlações); relações temporais (sobrevida); acurácia de um testediagnóstico; modelos de previsão.

2.2.1 Coleta dos dados

Para a coleta dos dados é necessário definir qual é a população de interesse e quaisinformações (variáveis) serão obtidas de cada um dos elementos.

População é o grande conjunto de dados que contém a(s) característica(s) de interesse em umdeterminado estudo. O termo população refere-se não somente a uma coleção de indivíduos, mastambém ao alvo (objeto) sobre o qual reside nosso interesse.

Amostra é qualquer subconjunto extraído da população, em geral com tamanho sensivel-mente menor, isto é, são alguns elementos representativos da população.

A seleção dos elementos que irão compor a amostra pode ser feita de várias maneiras edependerá do conhecimento que se tem da população e da quantidade de recursos disponíveis.Nesse passo, tenta-se fornecer um subconjunto de elementos o mais parecido possível com apopulação que lhe dá origem.

Existem dois métodos de amostragem:a) Probabilísticos, onde cada elemento da população possui a mesma probabilidade de ser

selecionado. Os métodos de amostragem probabilísticos envolvem as técnicas deamostragem: casual ou aleatória simples, estratificada, sistemática e por conglomerados.Na amostragem casual (aleatória simples), os elementos da amostra são selecionados aoacaso e todos têm a mesma chance de serem escolhidos.Na amostragem estratificada, a população de interesse apresenta alguma característica(estratificação) conhecida a priori, que será utilizada para dividi-la em estratos e de cadaestrato será selecionada uma amostra aleatória.Na amostragem sistemática, os elementos são escolhidos na mesma ordem, por exemplo,a cada 10 ou a cada 20 ou a cada k elementos.Na amostragem por conglomerados, a área populacional é dividida em seções que sãoselecionadas aleatoriamente e todos os elementos das seções selecionadas fazem parte daamostra.

b) Não probabilísticos, onde há escolha deliberada dos elementos da amostra. Esse método não permite a generalização dos resultados da amostra para a população e envolve técnicasde amostragem de conveniência (acidental ou intencional), onde os elementos selecionadossão de fácil acesso.

uma vez selecionada a amostra, as características de interesse (variáveis) são obtidas paraconfirmar ou não as hipóteses formuladas pelo pesquisador.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:30 Page 24

Page 12: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 25

Variáveis são características observadas, medidas ou contadas nos elementos da amostra,como por exemplo, sexo, estado civil, peso, altura, etc, e que podem variar, isto é, assumir um valordiferente para cada elemento da amostra. uma variável pode ser quantitativa (discreta ou contínua)ou qualitativa (nominal ou ordinal).

Variável quantitativa é uma variável numérica. Variável quantitativa discreta pode ser vistacomo resultante de contagens, assumindo assim, em geral, valores inteiros. Exemplos: número defilhos, número de dias de internação, etc. Variável quantitativa contínua assume valores emintervalos dos números reais e, geralmente, é proveniente de uma mensuração. Exemplos: peso,altura, etc.

um subtipo especial de variável quantitativa contínua, e de muita utilidade em oncologia, éa denominada variável data ou tempo até ocorrência de um evento de interesse. A expressão gráficadesta variável é apresentada, nos artigos científicos, sob a forma de uma curva de sobrevida. Háduas maneiras de se coletar dados para a caracterização desta variável: pode-se calculardiretamente, para cada indivíduo, o intervalo de tempo de interesse e expressá-lo por um valornumérico contínuo (por exemplo, 33 meses), ou pode-se assinalar as datas de início e final dointervalo de interesse, deixando que o software estatístico escolhido processe esta informação daforma solicitada. Esta é a forma preferida, hoje em dia, devido às facilidades de computação.

Variável qualitativa é uma variável não numérica cujos resultados possíveis representamatributos e/ou qualidades. Variável qualitativa ordinal segue certa ordenação, indicandointensidades crescentes de realização. Exemplo: Tamanho (pequeno, médio, grande), classe social(baixa, média, alta), nível de instrução (ensino fundamental, ensino médio, ensino superior), etc.Variável qualitativa nominal não apresenta nenhuma ordenação nas possíveis realizações. Exemplo:sexo, estado civil, fumante (sim, não), etc.

uma vez coletados os dados de todas as variáveis envolvidas num estudo, o próximo passo éorganizar esses dados para apresentá-los.

2.2.2. Organização dos dados

Geralmente, os dados das variáveis são coletados através de entrevistas realizadas com ospacientes ou de prontuários dos pacientes arquivados em hospitais. As informações dos pacientes(sexo, idade, escolaridade, resultados de exames laboratoriais, etc.) ficam em fichas, as quais devemser armazenadas para que possam ser analisadas.

O armazenamento dos dados deve ser feito através de um banco de dados (tabela com osdados brutos, isto é, de cada unidade de observação), que poderá ser lido ou exportado emdiferentes softwares (estatísticos ou não), como Excel, SAS, SPSS, etc. No banco em Excel, a primeiralinha da planilha deve conter os nomes das variáveis. Cada coluna da planilha está associada a umacaracterística (variável). Cada linha da planilha está associada a uma unidade de observação (porexemplo, paciente). Não se deve colocar a informação de duas variáveis na mesma coluna (porexemplo, tabagismo: fuma 2 maços de cigarro por dia). Nesse caso, uma coluna deve conterinformação sobre tabagismo (sim ou não) e, no caso de sim, outra coluna deve conter a informaçãonúmero de cigarros diários ou semanais. Deve-se, também, padronizar as unidades de medida.Segue abaixo um exemplo de ficha clínica e de banco de dados.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:30 Page 25

Page 13: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

26 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

Para facilitar o armazenamento das informações de um estudo, na maioria das vezes énecessário codificar os níveis das variáveis categorizadas, pois texto livre está associado a algunsinconvenientes, tais como:

a) Dificuldade de leitura de diferentes caligrafias;b) Dificuldade de armazenamento em meio eletrônico;c) Falta de uniformidade (melhorou um pouco; melhorou, mas ainda sente dor).

A codificação deve contemplar os seguintes itens:I) Todas as possíveis categorias devem ser incluídas.II) Nos casos envolvendo muitas categorias, algumas podem ser agrupadas dependendo de sua utilização no estudo.III) Em muitas situações uma categoria rotulada “Outros” pode ser incluída. Em outras situações categorias rotuladas: “Não aplicável” ou “Não informado” também podem ser incluídas.IV) Cada unidade de investigação deve ser classificada em uma única categoria. Situações em que se deseja classificar algumas unidades de investigação em mais do que uma categoriapodem ser contornadas redefinindo a variável, criando uma categoria rotulada “Duas ou mais”ou gerando uma nova variável dicotômica (com níveis Sim e Não) para cada nível da variáveloriginal.V) Sempre que possível, as categorias devem ter rótulos (M = Masculino, F = Feminino ou numéricos 1 = Masculino, 2 = Feminino).VI) Os códigos devem obedecer à ordenação natural das categorias (1 = ruim, 2 = razoável, 3 = bom, 4 = excelente).

uma vez que os dados foram tabulados, o próximo passo é realizar uma análise descritivapara conhecer as informações dos mesmos, o que será estudado no próximo capítulo.

No entanto, é importante ressaltar que a análise exploratória dos dados constitui uma fasepreliminar na análise, destinada a obter informações que indiquem possíveis modelos a seremutilizados numa fase final, que seria chamada inferência estatística (ou análise confirmatória dedados)

2.2.3 Análise confirmatória e Interpretação dos dados

Nesta etapa, o maior interesse do pesquisador é tirar conclusões que o auxilie na resoluçãodo problema. É possível arriscar algumas generalizações, as quais envolverão algum grau deincerteza, pois o pesquisador pode não estar seguro de que o observado naquela amostra reflitao comportamento da população. Para atingir esse objetivo, o pesquisador utiliza os métodos deinferência estatística.

Sexo: [X] Mas. [ ] Fem.Idade: 35 anosEscolaridade: [ ] Ensino Fundamental [ ] Ensino Médio [X] Ensino SuperiorPeso: 87 kgAltura: 1,78 metrosPressão arterial: 15 / 12 mmHgHipertensão arterial: [ ] Não [X] Sim Tempo de diagnóstico (ano)___________

FIGURA 2.1 - Exemplo de ficha para um paciente

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:30 Page 26

Page 14: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 27

Com a análise e interpretação dos dados, o pesquisador tem subsídios para a tomada dedecisões diante de incertezas e para as justificativas científicas dessas decisões.

2.3 Tipos de estatística

A Estatística subdivide-se em duas áreas: estatística descritiva e estatística inferencial.A estatística descritiva é, em geral, utilizada na etapa inicial da análise, objetivando tirar

conclusões de modo informal e direto a respeito de características de interesse. Em outras palavras,pode ser definida como um conjunto de técnicas destinadas a descrever e resumir os dados paratirar conclusões a respeito de características de interesse sem pretender conclusões de caráterextensivo.

A estatística inferencial ou inferência estatística é o estudo de técnicas que possibilitam aextrapolação das informações e conclusões obtidas a partir da amostra para a população.

O uso de informações da amostra para concluir sobre o todo faz parte da atividade diária damaioria das pessoas. Basta observar como uma cozinheira verifica se o prato que ela estápreparando tem ou não a quantidade adequada de sal. Essa decisão é baseada em procedimentoamostral.

A inferência estatística é a conceituação formal desse princípio intuitivo do dia-a-dia, paraque possa ser utilizado cientificamente em situações mais complexas.

um tópico muito utilizado na área médica para tomada de decisões é o Teste de Hipóteses queserá estudado no capítulo 4.

Referências

1.Bussab WO, Morettin PA. Estatística Básica. 5ed. São Paulo :Saraiva, 2003.2.Fonseca JS, Martins GA. Curso de Estatística. 3ed. São Paulo:Atlas, 1982.3.Pagano M, Gauvreau K. Princípios de Bioestatística. São Paulo: Pioneira Thomson Learning, 2004.4.Triola MF. Introdução à Estatística. 10ed. Rio de Janeiro :LTC, 2008.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:30 Page 27

Page 15: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 31

3.1. Introdução

Neste capítulo, serão abordados alguns aspectos que podem ser utilizados para organizar,resumir e descrever um conjunto de dados. Os elementos básicos necessários para esta abordagemsão: tabelas de freqüência, gráficos e medidas descritivas. Vale ressaltar que tais elementos devemconsiderar a natureza dos dados.

As técnicas estudadas neste capítulo permitem detectar anomalias e inconsistência nos dados,apresentá-los de forma que a tabela e a visualização proporcionem maior compreensão nainterpretação e caracterizar o perfil dos pacientes.

3.2 Montagem do banco de dados e Classificação das Variáveis

A seguir será descrito, resumidamente, um exemplo utilizado no restante do capítulo parailustrar os métodos estatísticos. Nota-se que este exemplo foi adaptado, ou seja, as informaçõescontidas no banco de dados são hipotéticas, a fim de atingir os objetivos propostos para o capitulo.

Trata-se de um estudo retrospectivo, caso e controle, com informações dos prontuários de39 pacientes com câncer de mama. Definiram-se os casos como aquelas pacientes associadas àgravidez ou lactação e os controles como aquelas pacientes que não estavam associadas à gravidezou lactação. Todas estas pacientes foram acompanhadas no período compreendido entre janeirode 1980 e dezembro de 2000. Integram o prontuário as seguintes variáveis listadas na tabela 3.1.

Após sua coleta nos prontuários, os dados devem ser inseridos em uma planilha eletrônica,em que cada linha indica um paciente e cada uma das colunas denomina uma variável que, comovimos anteriormente, é uma característica de interesse que é medida em cada paciente da amostraou população. A tabela 3.2 representa a planilha das pacientes com câncer de mama contendo 39linhas e 10 colunas. A última coluna, denominada sg1 expressa o intervalo de tempo desde a datado diagnóstico até a data da última consulta, em meses.

Capítulo 3Organização e síntese de dados

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:31 Page 31

Page 16: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

32 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

De acordo com a tabela 3.2, por exemplo, a variável idade assume valores numéricos em anos.A presença de gravidez nas pacientes foi codificada como 1 se estiver associada à gravidez e 0 senão estiver associada. Isto não significa que a variável caso-controle apresente valores numéricoscomo da variável idade. Portanto essas duas variáveis têm naturezas distintas no que tange aosseus valores. Mediante este acontecimento, o primeiro passo para realizar as análises estatísticasserá classificar a natureza das variáveis como quantitativa, qualitativa ou datas, como definidas nocapítulo 2.

Podemos notar, no entanto, que a classificação da natureza das variáveis depende de certasparticularidades. Exemplificando, a variável idade, medida em anos e meses, pode ser consideradacomo qualitativa ordinal, caso seja apurada no banco de dados em faixa etária (0 a 5 anos, 6 a 10anos e acima de 10 anos). Por outro lado, a variável idade, medida em anos e meses, pode serconsiderada como quantitativa discreta, caso seja apurada no banco de dados em anos completos.

As demais variáveis, da maneira que se encontram no banco de dados, podem ser classificadascomo qualitativas (SCC, FuP, GM e T), datas (DDIAG, DuCONS) e quantitativa (N).

3.3 Tabelas de Freqüências e Gráficos

Recebe a denominação dados brutos, à reunião de toda a informação resultante da coleta dedados, e armazenada em uma planilha eletrônica. Evidentemente, extrair de imediato a informaçãoa partir dos dados brutos seria uma tarefa árdua caso o número de linhas e de colunas da planilhafosse elevado.

Tabela 3.1 - Variáveis medidas no estudo caso-controle: prognóstico do câncer de mamaassociado à gravidez ou lactação

NPIdade da Paciente (IDE)Presença da gravidez, Caso eControleData do diagnóstico (DDiag)Grau de Malignidade (GM)

Tamanho do Tumor (T)

Número de Nódulos LinfáticosAxilares acometidos (N)Data da última consulta (DUCONS)Estado Atual (FUP)

Número de prontuárioMedida em anos

0 - Controle1 - Caso

dd/mm/aa0-G11-G22-G3

9-Ignorado0-T01-T12-T23-T34-T45-TX

9-IgnoradoMedido em valor absoluto

dd/mm/aa0-Viva

1-ÓbitoFonte: dados hipotéticos.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:31 Page 32

Page 17: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 33

Para melhor análise dos dados é necessário apresentá-los e descrevê-los de forma organizadae sucinta. As ferramentas utilizadas para esta tarefa são as tabelas, os gráficos e as medidasnuméricas. Passaremos a estudá-los de acordo com a natureza dos dados.

Tabela 3.2 - Planilha do Banco de dados no estudo de Prognóstico do câncer de mamaassociado à gravidez ou lactação

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:31 Page 33

Page 18: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

34 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

3.3.1 Variáveis Qualitativas (Ordinais e Nominais)

Com base no banco de dados da tabela 3.2, a variável caso-controle, classificada como variávelqualitativa nominal, será resumida por meio de uma tabela de freqüência. Denomina-se tabela defreqüência uma tabela que contém as categorias da variável representada em cada linha, Caso eControle, neste exemplo. Para cada categoria da variável associamos na primeira coluna a contagemde ocorrências (freqüência absoluta) e para a segunda coluna, relacionamos em cada categoria ospercentuais que essas contagens representam do total (freqüência relativa). Esse tipo de tratamentodos dados representa distribuição de freqüência das pacientes segundo a variável Caso-Controle,como descrito na tabela 3.3.

Tabela 3.3 - Distribuição da amostra segundo variável Caso-Controle

Status Caso-ControleCasoControleTotal

Freqüência Absoluta (n)221739

Freqüência Relativa (%)56%44%

100.0%

Fonte: Dados da pesquisa

Tabela 3.4 - Distribuição da amostra segundo o tamanho do tumor

Tamanhodo TumorT1T2T3T4TxIgnoradoTotal

Freqüência Absoluta (n)

597

1422

39

FreqüênciaRelativa (%)

12,8%23,1%17,9%35,9%5,1%5,1%

100,0%

Freqüência AbsolutaAcumulada(n)

51421353739----

Freqüência RelativaAcumulada (%)

12,8%35,9%53,8%89,7%94,9%

100,0%----

Fonte: Dados da pesquisa

Compõe o banco de dados da tabela 3.2, uma amostra de 39 pacientes com câncer de mamacomposta por 22 mulheres grávidas (56%) e 17 mulheres sem a presença de gravidez (44%). Atabela 3.3 exibe essa distribuição.

Observe que, para variáveis cujas categorias apresentam ordenação (qualitativas ordinais), aslinhas da tabela de freqüência devem ser dispostas na ordem existente das categorias. Nesse caso,faz sentido adicionar duas colunas contendo as freqüências acumuladas (absoluta e relativa). Afreqüência acumulada até uma determinada categoria é calculada pela soma das freqüências detodas as categorias da variável, menores ou iguais à categoria considerada. Ilustrando, até umtamanho de tumor classificado por T4, foram encontrados 35 pacientes, o que corresponde 89,7%do total (tabela 3.4).

A utilização de recursos visuais na elaboração de gráficos para ilustrar as tabelas de freqüênciaspode ser mais facilmente compreendida, permitindo a interpretação rápida das suas principaiscaracterísticas. Em função disto, abordaremos, neste momento, dois tipos de gráficos para variáveisqualitativas (gráfico de setor e gráfico de colunas).

O gráfico de setor, popularmente conhecido como gráfico de pizza ou de torta, representadoem um sistema de coordenadas polares, consiste na divisão de um disco em setores circulares

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:31 Page 34

Page 19: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 35

correspondentes às freqüências de cada categoria da variável analisada. Como exemplo, mostramosna figura 3.1 o gráfico de setor para a variável caso-controle, obtida a partir da tabela 3.3. Repareque as informações da figura 3.1 são as mesmas da tabela 3.3.

FIGURA 3.1 - Distribuição da amostra segundo a variável Caso-Controle

FIGURA 3.2 - Gráfico de Colunas segundo o tamanho do tumor

O gráfico de colunas é representado por um plano cartesiano onde no eixo das abscissas estãorepresentadas as categorias da variável, enquanto no eixo das ordenadas estão representadas asfreqüências (absoluta ou relativa). Neste gráfico, cada coluna representa uma categoria com alturaassociada a sua freqüência (absoluta ou relativa). A figura 3.2 apresenta o gráfico de colunas paraa variável tamanho do tumor, obtida a partir da tabela 3.4. Note que as informações da figura 3.2são as mesmas da tabela 3.4.

um ponto importante a se dizer a respeito de ambos os gráficos é que as freqüências relativasdas categorias devem somar 100%. Além disso, a construção do gráfico de setor se adapta melhorpara variáveis qualitativas nominais, enquanto para variáveis qualitativas ordinais a sugestão seriao gráfico de colunas.

3.3.2 Variáveis Quantitativas (Discretas e Contínuas)Particularmente, quando nos deparamos em situações em que a variável quantitativa discreta

apresenta poucos valores, é comum adotarmos o mesmo procedimento realizado anteriormente,para as variáveis qualitativas ordinais, assumindo que cada valor é uma categoria e que exista uma

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:31 Page 35

Page 20: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

36 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

ordem natural entre as categorias. Exemplificando, a tabela 3.5 indica a distribuição do número denodos linfáticos axilares acometidos, que assumiu onze valores distintos.

Tabela 3.5 - Número de nodos linfáticos axilares acometidos nas pacientes com câncer demama

Número deNodosLinfáticosAxilaresAcometidos01234567891011Total

FreqüênciaAbsoluta

(n)

932222421246

39

FreqüênciaRelativa

(%)

23,1%7,7%5,1%5,1%5,1%5,1%

10,3%5,1%2,6%5,1%

10,3%15,4%

100,0%

Freqüência Absoluta

Acumulada(n)

91214161820242627293339----

Freqüência Relativa Acumulada

(%)

23,1%30,8%35,9%41,0%46,2%51,3%61,5%66,7%69,2%74,4%84,6%

100,0%----

Fonte: Dados da pesquisa

Analisando a tabela 3.5 e a figura 3.3, o maior percentual de nodos linfáticos axilaresacometidos nas pacientes, é de 23,1% que corresponde a 0 nodos (nenhum nodo). Compõem opercentual restante, 15,4% de pacientes com 11 nodos, 10,3% de pacientes com 10 nodos, 10,3%de pacientes com 6 nodos e 7,7% de pacientes com 1 nodo, entre outros descritos naquela figura.

FIGURA 3.3 - Distribuição do número de nodos linfáticos axilares nas pacientes com câncerde mama

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:31 Page 36

Page 21: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 37

Por outro lado, se a variável é contínua ou, se é discreta, mas assume um grande número devalores distintos, considerar cada valor como uma categoria na tabela de freqüência e no gráficode colunas ficaria inviável. Nestes casos, para se ter uma melhor visualização do seu comporta-mento de modo a facilitar sua compreensão, é conveniente agrupar os valores em classes ouintervalos. Normalmente, essas classes contém intervalos iguais.

uma questão polêmica quanto à construção da tabela de freqüência para variáveisquantitativas seria a determinação do número de classes e a amplitude da classe. Repare que adistribuição de freqüência pode ser diferente quando mudamos o número e a amplitude de classesda tabela. Amplitudes muito grandes para as classes resumem demais a informação dos dados,pois poucas classes são construídas. Entretanto, amplitudes muito pequenas gerariam muitasclasses, dificultando a interpretação dos dados. uma sugestão para estabelecer o número declasses, adequadamente, é utilizar a fórmula desenvolvida pelo matemático Sturges; muitosprogramas estatísticos adotam este critério. Portanto toma-se como número de classes o inteiromais próximo encontrado pela seguinte fórmula:

Fórmula de Sturges: i =1 + 3,3 log n

Onde i = número de classesn = número total de dadoslog= logaritmo na base 10

Esta fórmula é utilizada como referencial, mas ajustes no número das classes são permitidospara tornar a tabela mais clara.

A tabela 3.6 ilustra a representação da variável quantitativa idade da Tabela 3.2 em umavariável qualitativa faixa etária.

Tabela 3.6 - Freqüência para Idade

Faixa Etária

22 2626 3030 3434 3838 4242 46Total

Freqüência Absoluta (n)

139

1664

39

FreqüênciaRelativa (%)

2,56 %7,69 %

23,08 %41,03 %15,40 %10,24 %

100,00 %

Freqüência AbsolutaAcumulada(n)

14

13293539----

Freqüência RelativaAcumulada (%)

2,56 %10,26 %33,33 %74,36 %89,76 %

100,00 %----

Fonte: Dados da pesquisa

Em relação aos elementos da tabela de freqüência da Tabela 3.6, podemos enumerar as classes,que são os agrupamentos de valores num intervalo de abrangência. Para o exemplo da Tabela 3.6encontramos seis classes. Cada classe é constituída de um limite inferior e um limite superior. Osímbolo “ ” estabelece inclusão do valor do limite inferior e exclusão do valor do limite superiornum intervalo de classe. A amplitude de um intervalo de classe é a diferença entre o limite superiore inferior de uma classe, que, nesse exemplo, é 4. A freqüência absoluta é a quantidade deobservações de uma classe. Finalizando, a freqüência relativa é obtida em termos percentuais dafreqüência absoluta.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:31 Page 37

Page 22: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

FIGURA 3.4 - Histograma da idade

FIGURA 3.5 - Histograma de dados hipotéticos da idade de pacientes sendo ajustado pelacurva de distribuição normal

38 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

A representação visual da distribuição de freqüência de uma variável quantitativa é realizadapor meio de um gráfico denominado histograma, mostrado na Figura 3.4. Histograma é umconjunto de retângulos justapostos com as bases sobre um eixo dividido em classes do mesmotamanho e altura igual à freqüência absoluta ou relativa da classe correspondente.

Note que é opcional a determinação da freqüência absoluta ou freqüência relativa naconstrução do histograma, pois a escolha não muda a forma da distribuição. É preferível o uso dafreqüência relativa no histograma, pois ela facilita a comparação com outros histogramas, ainda queapresentem tamanhos de amostras distintos. Outra vantagem do uso da freqüência relativa éestabelecer uma relação entre o histograma e a função de distribuição Normal.

Os resultados apontaram, conforme mostram a tabela 3.6 e a figura 3.4, que 64,11% daspacientes com câncer de mama, nesta amostragem, possuem idade entre 30 a 38 anos, sendo quedeste percentual, 41,03% apresentam idade entre 34 a 38 anos.

Ao se construir o histograma da idade na figura 3.4, obtém-se uma poligonal, aproximadamente,simétrica. Em situações deste tipo, é comum adotarmos a função de distribuição Normal (ougaussiana) para descrever o fenômeno estudado. O objetivo de se aproximar uma função dedensidade aos dados (neste exemplo utilizou-se a função normal) é devido à facilidade do cálculode área e esta área corresponde à probabilidade de interesse. A figura 3.5 ilustra dados hipotéticosde idade de pacientes sendo ajustados pela curva da distribuição normal; nela está assinalado quea probabilidade de pacientes com idade igual ou maior do que 35 anos é dada pela área sombreada.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:31 Page 38

Page 23: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

FIGURA 3.6 - Curva de distribuição normal

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 39

A distribuição de probabilidade normal desempenha papel preponderante em inferênciaestatística. Nesta área da estatística, a média amostral é a variável de maior interesse e conhecer asua distribuição de probabilidade é de grande relevância. Supondo uma coleta de amostra superiora 30 pacientes, podemos usar a distribuição normal como modelo adequado para descrever osresultados da média amostral, mesmo se a população de onde a amostra foi retirada não seguir adistribuição normal. Esse é o resultado do Teorema Central do Limite (principal teorema naEstatística) e que mostra a grande importância da distribuição normal.

Em se tratando da curva de distribuição normal (figura 3.6), entende-se que dois parâmetrosdevem ser pré-especificados para que possa calcular as probabilidades de interesse. O primeiroparâmetro é a média (m), que determina o valor do centro da curva, enquanto que o desvio-padrão(s) é o segundo e este determina a largura da curva normal. Assim, quanto menor o valor do desvio-padrão, menor variabilidade dos dados e, portanto, menor a largura da curva.

Com relação às características da distribuição normal, pode-se dizer que:• A média (m) da distribuição corresponde ao valor da mediana e moda;• A curva normal é assintótica ao eixo x em ambas as direções, ou seja, suas extremidades

prolongam para o infinito;• A curva normal, além de ter uma área total igual a 1, é simétrica em torno da média.

Muitos métodos estatísticos baseiam-se na suposição de normalidade dos dados, tais comoteste t, ANOVA (análise de variância), coeficiente de correlação de Pearson, análise de regressão, etc.Caso a suposição de normalidade da variável de estudo seja violada, classificamos a variável comoassimétrica, ou seja, a variável não apresenta distribuição normal, e, sendo assim, devemos escolhertestes não-paramétricos para a análise estatística, quando não for possível corrigir esta violação ouquando não for possível propor outra distribuição de probabilidade. Os testes estatísticos não-paramétricos exigem menos pré-requisitos, mas produzem testes de significância com menos poderde detecção, quando comparados com os testes paramétricos.

A suposição de normalidade dos dados é avaliada por meio de testes específicos disponíveisem programas estatísticos. Os dois mais comuns são o teste Shapiro-Wilks e o teste de Kolmogorov-Smirnov. Cada um calcula o nível de significância para as diferenças em relação a uma distribuiçãonormal (HAIR et al., 2009). Se este nível de significância, calculado pelo programa estatístico,apresentar valor p>0,05, por exemplo, podem ser empregados testes paramétricos na análise dosdados.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:31 Page 39

Page 24: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

40 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

3.4 Medidas Descritivas

A descrição dos dados coletados em uma amostragem ou obtidas de toda a população-alvo,permite uma idéia da sua distribuição, mas não fornece valores numéricos necessários aos cálculosestatísticos. Isto é feito pelas medidas descritivas.

3.4.1 Medidas de Tendência Central uma maneira de descrever os dados de uma forma mais condensada do que usando as

tabelas de freqüência para variáveis quantitativas é representar por um valor único. Este valor únicoé um número que seja o mais semelhante possível aos demais números do conjunto. Assim, define-se este número como uma medida central ou que tende ao centro.

Existem três medidas de tendência central para representar as variáveis quantitativas dobanco de dados: a média, a mediana e a moda. Definiremos cada uma dessas medidas de formasucinta e abordaremos seus pontos positivos e negativos.

I . MédiaA medida de tendência central mais usual é a média aritmética, calculada pela soma de todas

as observações de um conjunto de dados dividida pelo tamanho do mesmo.

II . MedianaA mediana é definida como sendo o valor, em um conjunto de dados ordenados de maneira

crescente, que os separa em dois subgrupos de mesmo tamanho. Entende-se que é um valor talque a metade dos valores do banco de dados são maiores ou iguais à mediana, enquanto a outrametade é menor ou igual a ela.

III . ModaO valor mais freqüente de um conjunto de dados é denominado Moda. Quando dois valores

aparecem com a mesma freqüência máxima, cada um deles é uma moda, e o conjunto se dizbimodal. Se mais de dois valores ocorrem com a mesma freqüência máxima, cada um deles é umamoda, e o conjunto é multimodal. Quando não existe um valor mais freqüente que os demais, oconjunto não tem moda (amodal).

Nos recursos visuais, no caso específico, o histograma, a moda ocorre representada por umpico de freqüência. Em algumas situações, observam-se histogramas com dois picos, sendoclassificada como distribuição bimodal. Neste caso, há indícios de que a população estudada é, defato, um cruzamento de duas populações estatísticas. Exemplificando, suponha que a variávelaltura dos pacientes de uma clínica seja coletada, considerando conjuntamente os homens emulheres, e, em seguida, representada visualmente por um histograma. Pela figura 3.7, ohistograma apresentou dois picos de freqüência nas classes, demonstrando a existência de duaspopulações, uma vez que, em âmbito geral, os homens são mais altos do que as mulheres.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:31 Page 40

Page 25: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 41

IV . Exemplo de medidas de tendência centralÉ imprescindível apresentar os valores de todas as medidas de tendência central, simulta-

neamente, em uma tabela. A título de ilustração apresentamos, na tabela 3.7, as medidas deresumo para a variável idade das pacientes com câncer de mama do banco de dados da tabela 3.2.

FIGURA 3.7 - Histograma das estaturas (metros)

Tabela 3.7 - Medidas de tendência central para a variável idade das pacientes com câncerde mama

VariávelIdade (anos)

n39

Média35,58

Mediana35,2

Moda35

Fonte: Dados da pesquisa

Para representar a idade das pacientes com câncer de mama do banco de dados, usando amédia, pode-se dizer que a idade média das pacientes é de 35,58 anos. Quanto à mediana,interpreta-se que a metade das pacientes tem idade menor ou igual a 35,2 anos e a outra metadetem idade maior ou igual a 35,2 anos. No conjunto de dados existe uma moda, apenas um valor quese repete com maior freqüência, a idade de 35 anos. Assim, conforme ficou evidente a partir dosresultados da tabela 3.7, as três medidas de tendência central apresentam valores semelhantesentre si. Mas isso só acontece quando a variável segue uma distribuição de freqüências específica(distribuição gaussiana, também denominada de Normal).

V . Vantagens e Desvantagens de medidas de tendência centralA média é uma das medidas mais utilizadas no quesito resumo de medidas, pois apresenta

propriedades estatísticas mais interessantes, no que diz respeito ao assunto métodos de estimação.O cálculo da média leva em consideração todos os valores do banco de dados. Por este motivo amédia é sensível a valores extremos (muito grande ou muito pequeno), ou seja, o valor calculadodesloca a representação do centro. Em situações desse tipo é aconselhável utilizar-se da mediana,pois não é afetada pelos extremos do conjunto.

Apesar da moda não ser uma medida de tendência central muito conhecida, ela apresentapontos positivos em relação às demais. Especificamente, em situações onde a variável de interessepossui distribuição de freqüências bimodais ou multimodais.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:31 Page 41

Page 26: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

42 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

Observe que as medidas de tendência central podem ser usadas como uma medida-resumo,tanto para as medidas discretas como para as contínuas.

3.4.2 Medidas de Dispersão ou de VariabilidadeNem sempre uma única medida é capaz de resumir, satisfatoriamente, um conjunto de dados.

Suponha uma situação em que dois grupos de pacientes, caso e controle, estão sendo avaliados emrelação à sua idade. É natural utilizarmos como medida de resumo o cálculo da média pararepresentar cada grupo. Entretanto, percebe-se que ambos os grupos apresentaram a mesma idademédia. Neste caso, torna-se necessário construir uma medida que permita efetuar uma análise dograu de dispersão dos dados.

Nesta seção, abordaremos três medidas de dispersão ou de variabilidade (amplitude total,desvio-padrão e coeficiente de variação), apresentando seus pontos positivos e negativos.

I . Amplitude TotalAmplitude total é a diferença entre o maior e o menor valor observado no conjunto numérico. Apesar de ser uma medida fácil de calcular, a amplitude total possui limitações, pois considera

apenas os extremos do conjunto de dados (máximo e mínimo), desprezando todos os outros valores.

II . Variância e Desvio-PadrãoSe por um lado há limites para o uso da amplitude total para a obtenção do grau de dispersão é,

então, razoável propor uma medida que leve em consideração todas as diferenças do conjunto dedados.

Por convenção, adota-se a média como valor referencial para calcular as diferenças dos valoresdo conjunto em relação a ela. Note que teremos um desvio (diferença) para cada elemento dobanco de dados. Se, por ventura, arriscássemos calcular o desvio médio, o resultado daria semprezero. A explicação a este fato é que a soma de desvios negativos com positivos se anulam. Por estemotivo, se fez necessário, como sugestão, elevar ao quadrado cada desvio.

Para sintetizar, a Variância é definida como a média aritmética de todos os desvios ao quadrado.A Variância representa uma medida de variabilidade, porém esta medida é expressa em

unidade diferente da unidade dos dados originais. Por esta razão utilizaremos o Desvio-Padrão(D.P) que soluciona tal problema.

O Desvio-Padrão (D.P) exige o calculo prévio da Variância para que seja extraída desta a raizquadrada. um ponto importante a se dizer sobre o Desvio-Padrão é que o valor calculado é semprepositivo.

Pode-se dizer que a interpretação do desvio-padrão representa a distância típica (padrão)dos dados em relação à média. Isto significa que quanto maior o desvio-padrão, maior hetero-geneidade existe entre os dados.

III . Coeficiente de Variação Ao realizar o cálculo do desvio-padrão, ocasionalmente, nos deparamos com a dificuldade

de classificá-lo como uma medida de baixa variação ou de alta variação. Por exemplo, um desvio-padrão de 10 unidades pode ser classificado como baixa variação se a média é de 1000 unidades;entretanto, se a média é igual 100 unidades, um desvio-padrão de 10 unidades significa uma altavariação.

uma medida de variabilidade que condensa as duas informações (média e desvio padrão) éo coeficiente de variação, que consiste na divisão entre o desvio-padrão (D.P) e a média aritmética(c) multiplicado por 100.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:31 Page 42

Page 27: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 43

Assim, entende-se que quanto menor o valor do coeficiente de variação, menor é a sua dispersão,ou seja, os dados são mais homogêneos.

Como o Coeficiente de Variação não possui unidade de medida, ou seja, é adimensional,permite a comparação das variabilidades de diferentes conjuntos de dados.

IV . Intervalo de Confiança de 95%Além dessas medidas de dispersão, em estatística, existe outra medida muito usada em

oncologia que é o Intervalo de Confiança de 95%. O fato das estimativas pontuais serem poucoconfiáveis impõe ao pesquisador o uso de estimativas intervalares. Restringir-nos-emos em definir,apenas, seu conceito, uma vez que em cada tipo de situação existe uma fórmula específica para ocálculo do Intervalo de Confiança de 95%. Denomina-se Intervalo de Confiança de 95% ao intervalode valores entre um parâmetro amostral (tipos de parâmetros amostrais existentes: média, medianaproporção, desvio-padrão, coeficiente de correlação, risco relativo, odds ratio, hazard ratio, etc) nosquais, com uma probabilidade (ou nível de confiança) de 95%, se situará o parâmetro populacional.Para compreender melhor como é realizado o cálculo, é necessário que o leitor examine osconceitos de distribuição normal, erro-padrão do parâmetro, nível de confiança, valor crítico e nível designificância (α) em livros estatísticos.

V . Exemplo de medidas de variabilidadeVamos supor que estejamos interessados em saber qual grupo, entre casos ou controles, é

mais semelhante entre si com relação à idade das pacientes. Essa informação é obtida por meio demedidas de dispersão ou variabilidade. O grupo controle é, em média, 2 anos mais velho do que ogrupo dos casos. Ao avaliarmos a medida de variabilidade dos dois grupos utilizando o desvio-padrão, arriscaríamos a dizer que o grupo de casos é menos homogêneo quanto à idade do que ogrupo controle. Ao realizarmos essa suposição, estamos esquecendo que, mesmo que comparandounidades iguais, as medidas de idade dos dois grupos variam em escalas distintas. Para suprir estaquestão, utilizaríamos a medida de coeficiente de variação. Nesta, percebe-se que o grupo doscasos é um pouco mais heterogêneo (disperso) quanto à idade do que o grupo controle (tabela 3.8).

Em âmbito geral, podemos considerar como um parâmetro de homogeneidade dos dados umcoeficiente de variação menor do que 25%. Em casos onde se espera uma dispersão maior entreos pacientes, essa faixa de homogeneidade dos dados deve ser redefinida.

Tabela 3.8 - Estatística Descritiva para idade por grupo de caso-controle

Grupo Caso-ControleCasoControle

Casos

2217

Média

34,8036,60

Variância

27,2813,25

D.P

5,223,64

Coef.Variação

15%9,95%

I.C 95%Média

[32,62- 36,98][34,87- 38,33]

Fonte: Dados da pesquisa

No grupo caso a idade está situada, em 95% das pacientes entre 32,6 e 37,0 anos e no grupocontrole entre 34,8 e 38,3 anos. Como as médias estão contidas em ambos os intervalos deconfiança, há grande probabilidade (95%) de que não exista diferença significativa entre os grupos,no que diz respeito à idade.

3.4.3 Medidas de PosiçãoVerificamos que a mediana separa o conjunto de dados em duas partes de mesmo tamanho,

em que cada parte contém o mesmo número de elementos. Contudo, um mesmo conjunto de

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:31 Page 43

Page 28: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

44 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

dados pode ser dividido em mais partes que contenham a mesma quantidade de elementos.Exemplos de medidas de posição:

• mediana: divide o conjunto de dados em duas partes iguais (Md).• quartis: divide o conjunto de dados em quatro partes iguais (Q¯1, Q¯2, Q¯3) .• decis: divide o conjunto de dados em dez partes iguais(D¯1, D¯2, D¯3, D¯4, D¯5, D¯6,

D¯7, D¯8, D¯9).• percentis: divide o conjunto de dados em 100 partes iguais (P¯1, P¯2, P¯3, P¯4, P¯5, P¯6,

P¯7, P¯8... P¯99).Entende-se que os percentis estabelecem uma relação de equivalência com os decis e quartis,

veja na tabela 3.9.

Tabela 3.9 - Relação de equivalência entre percentis, decis e quartis

QuartisQ1= P25

Q2= P50

Q3= P75

DecisD1= P10

D2= P20

D3= P30

D4= P40

D5= P50

D6= P60

D7= P70

D8= P80

D9= P90

A utilidade principal das medidas de posição é ajudar a estabelecer pontos de corte com umadeterminada freqüência nos valores da variável. Vejamos, na tabela 3.10, as interpretações doprimeiro quartil (Q¯1) e do percentil noventa e cinco (P95) quanto à variável idade das pacientesde câncer de mama do banco de dados. Observa-se que 25% das pacientes apresentam idadesmenores ou iguais a 33,1 anos, enquanto que 75% das pacientes apresentam idades maiores ouiguais a 33,1 anos, no que se refere ao primeiro quartil (Q¯1). Já para o percentil noventa e cinco(P95), 95% das pacientes apresentam idades menores ou iguais a 43,4 anos, enquanto que 5% daspacientes apresentam idades maiores ou iguais a 43,4 anos.

Tabela 3.10 - Medidas de posição dos percentis, decis e quartis quanto à idade daspacientes com câncer de mama

VariávelIdade

P527,4

D129,6

Q133,1

D333,3

Mediana35,2

Q338,7

D943,1

P9543,4

Fonte: Dados da pesquisa

3.4.4 Medidas de RiscoEntendemos como risco, a relação proporcional entre as grandezas que correspondem à

medida de ocorrência de um evento em relação a outro.Trata-se de medidas que permitem a comparação entre diferentes populações e,

eventualmente, a combinação de resultados de diferentes estudos.Apresentaremos nessa seção as duas principais medidas de risco (risco relativo e razão das

chances) para análise de Tabelas de Contingência do tipo 2x2.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:31 Page 44

Page 29: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 45

Tabelas de Contingência do tipo 2x2 são tabelas em que as contagens correspondem a duasvariáveis qualitativas, e cada uma delas possui duas categorias. As categorias de uma variável estãopresentes nas linhas da tabela enquanto as categorias da outra estão presentes nas colunas, comopode ser visto na tabela 3.11.

Tabela 3.11 - Contingência 2x2 Genérica

Grupo

CasoControleTotal

Presença da doençaSim

ac

a+c

Nãobd

b+d

Total

a+bc+d

n

I . Risco RelativoImaginem que os pacientes de uma determinada população sejam classificados segundo o

Grupo, Casos e Controle, e a presença ou ausência de uma determinada doença, denotados porSim e Não, respectivamente, conforme a tabela 3.11.

Logo, para se obter o Risco Relativo, devemos calcular primeiramente:Estimativa do risco da Presença da doença no grupo Caso:

Estimativa do risco da Presença da doença no grupo Controle :

A divisão entre o risco da presença da doença no grupo Caso e o risco da presença da doençano grupo Controle é denominada Risco Relativo de doença (RR), matematicamente definido por:

Note que a estimativa do Risco Relativo só pode ser feita para estudos prospectivos, estudosde coorte e experimentos clínicos aleatorizados, pois os grupos formados são previamente definidospelo pesquisador.

Tomemos como exemplo um estudo coorte que examina os fatores de risco para o câncer demama entre as mulheres que participaram do 1º Levantamento Nacional de Exame de Nutrição ede Saúde. Nesse estudo há dois grupos: mulheres que deram à luz pela primeira vez com 25 anosou mais e mulheres que deram à luz pela primeira vez com menos de 25 anos. Em uma amostra de4.540 mulheres que deram à luz seus primeiros filhos antes de 25 anos, 65 desenvolveram o câncerde mama. Das 1.628 mulheres que deram à luz seus primeiros filhos com 25 anos ou mais, 31desenvolveram o câncer de mama, tais informações estão sintetizadas na tabela 3.12.

Tabela 3.12 - Exemplo de Tabela de Contingência 2x2

Faixa Etária para primeiragestação a termoMenos de 25 anos 25 ou mais anosTotal

Diagnóstico de câncer de MamaSim653196

Não447515976072

Total

4.54016286168

Fonte: Pagano e Gauvreau, 2004

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:31 Page 45

Page 30: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

46 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

Empregando a notação sugerida, o risco do grupo de mulheres com mais de 25 anosapresentar câncer de mama é de 1.90%, enquanto o risco de câncer de mama no grupo demulheres com idade menor que 25 anos resulta 1.43%. Portanto, o risco relativo é de 1,33. Estevalor indica que as mulheres que deram à luz pela primeira vez com 25 anos ou mais têm umaprobabilidade de desenvolver câncer de mama 33% maior do que aquelas que deram à luz commenos de 25 anos.

Vale ressaltar que, normalmente, a medida de risco relativo é maior que 1,0, pois, hipoteti-amente, a exposição ao fator de risco deve aumentar a prevalência da condição. No entanto, quandoo risco relativo é inferior a 1,0, o fator passa a ser denominado fator de prevenção. Esse mesmoargumento é válido para a medida razão das chances, que será definida na próxima seção.

Finalizando, se o risco relativo (assim como a razão das chances) é próximo de 1,0, a pesquisaapresentará indícios que o fator não se relaciona com a condição estudada.

II . Razão das Chances (odds ratio)Em estudos retrospectivos, do qual faz parte o estudo de caso e controle, o tamanho dos

grupos não é conseqüência de sua incidência real na população, mas uma decisão do pesquisadorbaseado na questão científica proposta. Sendo assim, não se aplica o cálculo do risco relativo e, porisso, utilizaremos a medida razão das chances.

Chance pode ser definida como o número de vezes que um evento ocorreu dividido pelonúmero de vezes em que ele não ocorreu. Na tabela 3.11 a chance de doença no grupo caso é dadapor a/b e no grupo controle por c/d.

Razão das chances expressa a relação de ocorrência da doença nos grupos caso e controle eé dada por a/b÷c/d, ou de forma simplificada:

Vejamos um exemplo de aplicação da razão das chances para o banco de dados de mulheresgrávidas com câncer de mama. Nesse estudo, as pacientes apresentavam ausência e presença degravidez, tinha como finalidade observar o estado atual (vivo ou óbito) nestes dois grupos. Asinformações desse estudo estão resumidas a seguir:

Tabela 3.13 - Exemplo de Tabela de Contingência 2x2 para pacientes com câncer de mama

Grupo

CasoControleTotal

Estado AtualÓbito

161127

Vivo66

12

Total

221739

Fonte: dados da pesquisa

Empregando a notação sugerida de RC, pode-se dizer que a razão das chances do estado atualda tabela 3.13 é de 1.45. Este valor indica que a chance de ocorrência de óbito no grupo de mulheresgrávidas (caso) é 1.45 vezes a chance no grupo de mulheres não grávidas (controle). Vale ressaltarque este valor bruto, sem nenhuma avaliação da sua variabilidade (como, por exemplo, seu intervalode confiança de 95%), não nos permite tirar conclusões.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:31 Page 46

Page 31: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 47

3.4.5 Medidas de SobrevidaPara apurar a medida de sobrevida em um banco de dados, são necessários dois componentes:

o tempo até a ocorrência de um evento determinado e o tipo de evento final.Em relação ao tempo até o evento, os três elementos básicos para o seu cálculo são o tempo

inicial, a escala da medida e o tempo em que o evento final ocorreu. Para o primeiro elemento,tempo inicial, é comum utilizarmos a data do início do tratamento de doenças ou do diagnóstico.Quanto ao segundo elemento, normalmente, é utilizado o mês como escala de medida. Contudo,em algumas situações clínicas, é usual utilizarmos a escala dias ou anos. Por último, o tempo emque o evento final ocorreu pode ser a data do óbito (curva de sobrevida global), a data de recidivade uma neoplasia (curva de sobrevida livre da doença ou de recidiva) ou a data em que aprogressão de uma doença foi documentada (sobrevida livre de progressão). Assim, a partir dadiferença entre as datas do terceiro e primeiro componente, com base na medida de escala definidapelo pesquisador, obtém-se a variável tempo até evento.

Em relação ao evento final, pode tratar-se do óbito do paciente, da recidiva ou progressão deuma doença ou do que é denominado de censura.

É comum que os resultados dos estudos clínicos sejam relatados antes que todos os pacientesincluídos apresentem qualquer tipo de evento considerado falha. Isto pode ocorrer por perda deacompanhamento do paciente no decorrer do estudo ou por ausência de falha até o término dapesquisa. Estes pacientes são chamados censurados, porque entende-se que o tempo de falhadesses pacientes é superior ao tempo registrado até o último acompanhamento. Note que, mesmoque alguns pacientes sejam censurados, todas as informações provenientes de um estudo desobrevida devem ser apuradas na análise estatística. Portanto, para se obter a variável evento final,de natureza dicotômica, cada paciente do banco de dados deverá ser classificado pela presença dacensura, codificada por 0, ou ocorrência de falha, codificada por 1.

Desta forma, a variável de interesse em análise de sobrevivência é representada por duascolunas (tempo até evento e tipo de evento final) na planilha eletrônica que constitui o banco dedados.

I . Função Sobrevivência A importância de métodos de análise de sobrevida está em saber a chance de sofrer o

desfecho em cada ponto no tempo, já que o prognóstico expresso por uma taxa sumária, como porexemplo, sobrevida em 5 anos, não contém essa informação.

um grande problema quando se usa variável função de sobrevivência é que os pacientes entramem momentos diferentes no estudo, frequentemente ao longo de anos. Mas os resultados são anali-sados em um só tempo, e neste momento, os pacientes têm diferentes períodos de seguimento.

O que se deseja é achar uma forma do paciente contribuir para a curva de sobrevida por todoo tempo em que estiver sendo seguido.

O modelo mais utilizado, em oncologia, é o Estimador de Kaplan-Meier para a função desobrevivência. Entende-se que a função de sobrevivência é a probabilidade de um pacientesobreviver a um tempo especificado. Em oncologia, a função de sobrevivência pode serdenominada de sobrevida global, sobrevida livre de recidiva, sobrevida livre de progressão, etc.

A título de ilustração, a tabela 3.14, exibe, desde o primeiro até o vigésimo oitavo intervalo detempo de falha, os cálculos da estimativa de Kaplan-Meier para a sobrevida global das mulherescom câncer de mama. Repare que a última coluna dessa tabela apresenta a sobrevida global daspacientes para variados intervalos.

Todas as pacientes estavam vivas no período inicial (t = 0) e se mantêm até a primeira morteque ocorre em 1,38 meses. Logo, a estimativa da sobrevida global é 1,00 no intervalo entre 0 a 1,38

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:31 Page 47

Page 32: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

48 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

meses exclusive. No segundo intervalo, (1,38 - 2,3), existem 39 pacientes que estavam vivas (sobrisco) antes de 1,38 meses e 1 paciente morreu. Dessa forma, a probabilidade de uma pacientesobreviver no segundo intervalo é de 97,4%. Assim, analogamente, para qualquer intervaloespecificado, a sobrevida global foi calculada em termos de probabilidade.

Observe que a sobrevida global tanto no 26º mês quanto no 36º mês são iguais (0,486), poisa sobrevida global é uma função escada com saltos somente nos tempos de falha.

Tabela 3.14 - Sobrevida global das pacientes com câncer de mama

Intervalo (meses)

[0 - 1,38) [1,38 - 2,3)[2,3 - 4,27)[4,27 - 10,84)[10,84 - 11,04)[11,04 - 12,35)[12,35 - 12,65)[12,65 - 12,94)[12,94 - 13,27)[13,27 - 15,05)[15,05 - 15,28)[15,28 - 15,93)[15,93 - 16,3)[16,3 - 17,84)[17,84 - 18,5)[18,5 - 19,81)[19,81 - 19,88)[19,88 - 21,22)[21,22 - 25,49)[25,49 - 36,14)[36,14 - 36,4)[36,4 - 40,28)[40,28 - 44,35)[44,35 - 83,48)[83,48 - 103,7)[103,7 - 144,7)[144,8 - 152,7)[152,7 - 300)

Número de pacientessob risco

393938363534323130292827262524232221191817161514121153

Número deFalhas

0111111111111111111111111111

Número deCensuras

0010010000000000010000010512

SobrevidaGlobal

1,000,9740,9490,9220,8960,8700,8420,8150,7880,7610,7340,7070,6790,6520,6250,5980,5710,5440,5150,4860,4580,4290,4010,3720,3410,3100,2480,165

Fonte: Dados da pesquisa

Conforme a tabela 3.14, a probabilidade de uma paciente jovem com diagnóstico de câncerde mama estar viva aos 20 meses é de 0,544 (ou seja, 54,4%).

Diante dos dados obtidos na tabela 3.14, a construção de um gráfico pode ser mais facilmentecompreendida. Este gráfico é elaborado mantendo o valor da sobrevida constante entre osintervalos. A figura 3.8A apresenta o gráfico da sobrevida global das pacientes com câncer de mama.Note que a sobrevida global não atinge o valor zero; isto ocorre em situações nas quais o maiortempo observado na amostra for uma censura. As censuras são representadas, na figura 3.8A, por

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:32 Page 48

Page 33: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 49

pequenos segmentos verticais ao longo do período analisado, [0-300]. Por exemplo, entre o período[150-300], encontramos dois pequenos segmentos verticais, ou seja, existem 2 censuras.

FIGURA 3.8 A - Sobrevida global das pacientes com câncer de mama (Gráfico de Kaplan-Meier).

A partir dos resultados obtidos pelo método de Kaplan-Meier é interessante obter estimativasdos percentis. um exemplo de percentil é o tempo mediano de vida que é bastante usado na prática.O cálculo da mediana é realizado por meio de uma interpolação linear. INTERPOLAÇÃO LINEAR éuma técnica de cálculo que permite apurar, por aproximação, um valor desconhecido que seencontra entre dois valores fornecidos. Freqüentemente, as tabelas de sobrevivência não fornecemo valor exato necessário para efetuar os cálculos solicitados pelo pesquisador – daí a importânciado método de interpolação linear: através deste, contornamos essa dificuldade, obtendo, medianteuma proporção simples, o valor desconhecido por meio de outros valores próximos, presentes natabela.

Fórmula da interpolação linear:

Onde: a e b são pontos conhecidos da tabela, menor valor e maior valor, respectivamente. S(a) e S(b) são as curvas de sobrevivências nos pontos a e b, respectivamente. x é o ponto desconhecido entre a e b e S(x) é a curva de sobrevivência no ponto x.

Vejamos como se calcula o tempo mediano de vida para a Tabela 3.14. Entende-se que o tempomediano de vida (x, ponto desconhecido) representa o tempo em que 50% dos pacientessobrevivem, logo S(x) = 0,50. Os valores de sobrevida, da tabela 3.14, próximos de 0,50 são: 0,486e 0,515 que correspondem S(b) e S(a), respectivamente. Os pontos a e b associados as suasrespectivas sobrevidas são: 21,22 meses e 36,14 meses. Assim, uma vez definido todos osparâmetros, substituímo-nos na fórmula da interpolação linear:

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:32 Page 49

Page 34: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

50 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

Portanto, 28,94 meses é uma estimativa do tempo em que 50% das pacientes sobrevivem.Esta abordagem de estimar o tempo mediano é semelhante a conectar por retas as estimativas deKaplan-Meier, em vez de se utilizar a sobrevida na forma de escada. Esta abordagem, geralmente,produz uma melhor representação da distribuição contínua dos tempos até ocorrência de umevento, razão pela qual deve ser preferida (COLOSIMO et al., 2002). Note que os programasestatísticos não baseiam o cálculo do tempo mediano ou outro tempo neste critério descrito.

Repare que a fórmula da interpolação aplicada para o tempo mediano de vida também podeser apurada para outros percentis. Exemplificando, suponha que desejamos encontrar o tempo devida que 25% dos pacientes permanecem vivos. Assim, substituímos a probabilidade de 50% para25% na fórmula de interpolação linear, temos:

Portanto, 151,1 meses é uma estimativa do tempo em que 25% dos pacientes sobrevivem.

II . Função taxa de falha Além da função de sobrevivência, existe a função taxa de falha, também denominada de

função de risco, e utilizada, geralmente, como uma medida de síntese para a sobrevida.Podemos definir como taxa da ocorrência de falha em um determinado intervalo de tempo

à probabilidade de que a falha ocorra no intervalo especificado, considerando que estaainda não ocorreu antes do tempo . Logo, a taxa de falha no intervalo t1 é calculada emtermos da função de sobrevivência e expressa por:

Onde: t1 e t2 são tempos especificados, menor valor e maior valor, respectivamente. S(t1) e S(t2) são as curvas de sobrevivências nos tempos t1 e t2, respectivamente.

é a taxa de falha no intervalo .

Note que se considerarmos um intervalo de tempo muito pequeno para , a taxapassa a ser denominada taxa de falha instantânea no tempo t condicional à sobrevivência até otempo t. A função taxa de falha instantânea é muito utilizada na prática para descrever ocomportamento do tempo de vida dos pacientes. A figura 3.8B mostra a comparação entre curvasde função de risco de dois grupos de pacientes (mulheres grávidas e não grávidas) com câncer demama. O comportamento crescente das curvas indica que a taxa de falha dos dois grupos depacientes aumenta com o decorrer do tempo.

A partir da razão da função de risco entre dois grupos, mulheres grávidas e não grávidas(Figura 3.8B), calcula-se a razão de risco instantânea no tempo t (hazard ratio). Ela equivale ao riscorelativo aplicado à variável data e é muito útil em cálculos estatísticos.

Para o exemplo do banco de dados de pacientes com câncer de mama, o valor encontrado damedida de riscos proporcional (hazard ratio) foi de 1,22. Este valor indica que o risco de uma mulhergrávida com câncer de mama falecer é 1,22 vezes maior, em comparação com uma mulher nãográvida com câncer de mama. Nesse caso, como o risco proporcional é próximo de 1, há indíciosque o fator gravidez não se relaciona com risco de óbito, mas para se fazer uma afirmação comgrau conhecido de certeza, seria necessário o cálculo do intervalo de confiança de 95% e o valor p.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:32 Page 50

Page 35: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 51

Vale ressaltar que a função taxa de falha é mais informativa do que a função sobrevivência.Suponhamos que determinado paciente com câncer de pulmão tenha sobrevivido por 2 anos apóso diagnóstico. Qual o prognóstico deste paciente? A curva de sobrevida não nos dará esta respostaà primeira vista, mas ela é facilmente visualizada em uma curva de função de risco. Por outro lado,a diferença entre curvas de sobrevida agrega informação de grande importância clínica, que é amagnitude da diferença.

Matematicamente, a função de risco é a negativa da inclinação da curva de sobrevida quandoesta é construída em escala logarítmica, e fornece a variação do risco ao longo do tempo.

O uso da função de risco é fundamental para o modelo de riscos proporcionais de Cox (modelode Cox), como veremos em capítulo posterior.

Alguns exemplos da função da taxa de falha são descritos na figura 3.9, onde a curva Arepresenta risco constante ao longo do tempo; na curva B o risco é crescente e na C é decrescente.A curva D representa o risco da população geral. (32)

FIGURA 3.8 B - Comparação da função taxa de falha das pacientes com câncer de mama em doisgrupos (grávidas e não grávidas).

FIGURA 3.9 - Curvas da função da taxa de falha

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:32 Page 51

Page 36: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

52 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

3.5 Gráficos para o Cruzamento de Variáveis

Não raro em uma pesquisa clínica desejamos estabelecer relações ou associações entre duasou mais variáveis. Para compreender melhor o tipo de relação entre tais variáveis, mencionaremos,nesta seção, ferramentas gráficas apropriadas em cada situação, que serão descritas a seguir.

3.5.1 Gráfico de dispersão (2 variáveis quantitativas)O gráfico de dispersão é um gráfico em que são representados, em um plano cartesiano, os

diversos pares de valores observados em duas variáveis quantitativas. Este gráfico permite umaavaliação, por meio das nuvens de pontos, de uma provável relação (do tipo: linear, quadrática,polinomial, exponencial, etc) entre as variáveis ou uma adequação de uma expressão matemática.Além disso, é útil para comparar o efeito de dois tratamentos no mesmo paciente, desde que asduas variáveis estudadas sejam quantitativas.

Vejamos um exemplo da utilização do gráfico de dispersão baseado no banco de dados daspacientes grávidas. Tendo em vista que este banco apresenta somente 2 variáveis quantitativascontínuas, sobrevida global e idade, portanto o eixo horizontal do gráfico representa a variávelidade e o eixo vertical representa a variável sobrevida global. Na figura 3.10 mostramos a relaçãoentre sobrevida e idade, de acordo com todas as pacientes grávidas.

FIGURA 3.10 - Diagrama de dispersão entre idade e sobrevida

Avaliando o gráfico de dispersão, entendemos que não existe nenhum tipo de relação entreidade e sobrevida das pacientes, logo, seria inviável propor algum tipo de expressão matemáticaneste caso. A razão dessa conclusão é devido ao fato de que os pontos do gráfico não exibemnenhum padrão de valores crescentes, ou decrescentes, de idade que correspondem a valorescrescentes da sobrevida, ou seja, o gráfico não apresenta qualquer padrão definido. Contudo, asconclusões embasadas nesse tipo de gráfico tendem a ser subjetivas, necessitando, portanto, detécnicas estatísticas (Correlação e Análise de Regressão).

Vejamos um exemplo de comparação entre dois tratamentos. Para tal, foram examinados 15pacientes, tendo sido medidos os volumes de refluxos na veia poplítea, através de ultrassonografia,nas posições de pé e deitado (tabela 3.15). Deseja-se verificar se a posição (em pé ou deitado) influina medição do volume de refluxo.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:32 Page 52

Page 37: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 53

As informações de cada posição (em pé ou deitado) são classificadas como dados emparelhados(ou pareados), pois os mesmos pacientes foram utilizados na mesma amostra. Logo, por meio dográfico de dispersão (figura 3.11), podemos verificar a diferença entre as duas posições.

FIGURA 3.11 - Gráfico de dispersão dos volumes de refluxos (litro por minuto) medida em 15pacientes em pé e deitado avaliado pela ultra-sonografia.

Tabela 3.15 - Volumes de refluxos (litros por minuto medida em 15 pacientes em pé edeitado, avaliados pela ultrassonografia.

Pacientes010203040506070809101112131415

Volume do Refluxo em pé (litr/min)0,7030,3760,2810,4350,2250,2290,0910,4130,1220,2770,1820,5410,6230,3850,285

Volume do Refluxo deitado (litr/min)0,420,150,240,120,110,160,070,170,070,250,080,330,4

0,150,18

Fonte: Dados hipotéticos.

Conforme descrito na figura 3.11, a reta traçada no diagrama de dispersão corresponde àsituação em que o volume de refluxo do paciente é o mesmo nas duas posições Como os pontosestão abaixo dessa reta, significa que, em todos os indivíduos, o volume de refluxo na posição empé é maior do que na posição deitado.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:32 Page 53

Page 38: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

FIGURA 3.12 - Box–plot do cruzamento entre idade e caso-controle das pacientes com câncer demama.

FIGURA 3.13 - Box–plot do cruzamento entre idade e caso-controle das pacientes com câncer demama.

3.5.3 Gráfico de Colunas múltiplas (2 variáveis qualitativas) É a representação simultânea de dois fenômenos de natureza qualitativa num mesmo gráfico.

Essa simultaneidade tem como finalidade permitir a comparação entre os fenômenos estudados.Vejamos a construção do gráfico de colunas. A figura 3.13 descreve a situação do evento final (óbitoou vivo) nos casos e controles. Entende-se que o grupo de mulheres grávidas (caso) apresenta maiorfreqüência de óbitos do que o das mulheres não grávidas (grupo controle).

54 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

3.5.2 Box-plot (1 variável quantitativa e 1 variável qualitativa) O gráfico de Box plot é um gráfico simbolizado por uma ou mais caixas. O nível superior da

caixa é representado pelo terceiro quartil (3Q) enquanto para o nível inferior é representado peloprimeiro quartil (1Q). Já o traço no interior da caixa é definido pela mediana (2Q). Além disso, constacomo informação o máximo e o mínimo representados por segmentos de reta. Este gráfico nos dáentendimento a respeito das medidas de tendência central, medidas de variabilidade e detectadiferenças entre os grupos do banco de dados analisado. Exemplificando, o cruzamento da variávelIdade com a variável Caso-Controle é apropriado para construir tal gráfico. O resultado é apresentadona figura 3.12, onde se percebe que as mulheres do grupo controle apresentam idade medianasuperior ao das mulheres do grupo caso; no entanto, as mulheres grávidas (caso) apresentam maiorvariabilidade de idade, pois o comprimento de sua caixa é maior.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:32 Page 54

Page 39: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

FIGURA 3.14 - Gráfico de linha entre a variável mês da última consulta e quantidade depacientes na última consulta.

FIGURA 3.15 - Gráfico de linha entre a variável mês da ultima consulta e quantidade depacientes na última consulta.

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 55

3.5.4 Gráfico de Linhas (1 variável quantitativa e 1 variável data) O gráfico de linha descreve o comportamento de um conjunto de valores de uma mesma

variável quantitativa (discreta ou contínua) no decorrer do tempo. O indicador de tempo érepresentado no eixo horizontal do gráfico de linha, enquanto a variável quantitativa é definida noeixo vertical. Este gráfico é de grande utilidade quando se deseja analisar a evolução temporal(aumento, estabilidade e declínio dos valores) da variável estudada, pois permite visualizardiferenças entre um período e os outros períodos subseqüentes. Na figura 3.14, nota-se que onúmero de mulheres grávidas que realizaram a última consulta ao longo dos meses da pesquisa émaior nos meses de janeiro e março.

um aspecto importante a ser ressaltado na construção deste gráfico é a definição da escala devalores do eixo vertical. Se alterarmos o final da escala de valores do eixo vertical, tanto parapequenos valores quanto para grandes valores, encontraremos comportamentos distintos na linha.Exemplificando, se definimos o eixo vertical finalizado no ponto quarenta (figura 3.15), a variaçãoda linha ao longo do tempo poderá ser menos abrupta do que a variação da linha ao longo dotempo considerando um eixo vertical finalizado com um valor de seis (figura 3.14).

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:32 Page 55

Page 40: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

56 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

3. 6 Resumo

3.6.1 Classificação das Variáveis Para cada tipo de variável existem técnicas mais apropriadas para resumir as informações, daí

a importância de classificar corretamente cada variável. uma classificação muito utilizada é:

3.6.2 Síntese dos dados Alguns procedimentos adequados a cada tipo de variável:Para as variáveis qualitativas nominais: Tabelas (distribuição de freqüência absoluta e

relativa, tabela de dupla entrada), Gráficos (setores e colunas simples ou múltiplas) e Medidas(moda, risco relativo e razão das chances).

Para as variáveis qualitativas ordinais: Tabelas (distribuição de freqüência absoluta e relativa,freqüência absoluta acumulada, freqüência relativa acumulada, tabela de dupla entrada), Gráficos(setores e colunas simples ou múltiplas) e Medidas (mediana, moda, risco relativo e odds ratio).

Para as variáveis quantitativas: Tabelas (distribuição de freqüência absoluta e relativa,freqüência absoluta acumulada, freqüência relativa acumulada, tabela de dupla entrada), Gráficos(histograma, gráfico de dispersão, box-plot e gráfico de linhas) e Medidas (média aritmética,mediana, primeiro e terceiro quartil, percentil, variância, desvio-padrão, coeficiente de variação).

Para as variáveis que medem o tempo até a ocorrência de um evento: tabela (tabela desobrevida), gráfico (gráfico de Kaplan-Meier) e medida (mediana).

Referências

1. Arango HG. Bioestatística: teórica e computacional. 2 ed. Rio de Janeiro: Guanabara Koogan, 2005.

2. Colosimo, E. Análise de Sobrevivência Aplicada. São Paulo: Blucher,2001.

3. Colosimo, EA, Ferreira, FF, Oliveira, MD, Souza, CB. Empirical Comparisons between Kaplan-Meierand Nelson-Aalen Survival Functions Estimators. J. Statist. Comput. Simul., 2002; 72(4): 299-308.

4. Crespo AA. Estatística Fácil.São Paulo: Saraiva, 2000.

5. Freund JE, Simon GA. Estatística Aplicada. 9ed. Porto Alegrel:Bookman, 2000.

6. Hair JR JF, Anderson RE, Tatham RL, Black WC. Análise Multivariada de dados. 6ed. Porto Alegre:Bookman, 2009.

7. Huff D. How To Lie With Statistics. New York:W.W. Norton & Company, 142 p.1982.

Qualitativa

Nominal

OrdinalQuantitativa

Discreta

Contínua

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:32 Page 56

Page 41: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 57

8. Lopes PA. Probabilidades e Estatística. Rio de Janeiro :Reichmann e Affonso Editores, 174p.1999.

9. Magalhães MN, Lima ACP. Noções de Probabilidade e Estatística. 7ed. São Paulo: uSP, 2010.

10. Reis EA, Reis IA . Análise Descritiva de Dados: Síntese Numérica. 2002. Relatório Técnico,Departamento de Estatística-uFMG. Disponível em:http://lattes.cnpq.br/3773191587995244.

11. Reis IA, Reis E A. Associação entre Variáveis Qualitativas: Teste Qui-quadrado, Risco Relativo eRazão de Chances. 2001. Relatório Técnico, Departamento de Estatística-uFMG. Dis´ponívelem:http://lattes.cnpq.br/3773191587995244.

12. Reis EA, Reis IA. Análise Descritiva de Dados- Tabelas e Gráficos. 2001. Relatório Técnico,Departamento de Estatística-uFMG. Disponível em: http://lattes.cnpq.br/3773191587995244.

13. Simes RJ, Zelen M.Exploratory Data Analysis and the use of Hazard Function for InterpretingSurvival Data: An Investigator’s Primer. J Clin Oncol, 1985; 3:1418-31.

14. Soares JF, Comini C. Introdução à Estatística. 2ed. Rio de Janeiro: LTC, 2002, 340 p.

15. Soares JF, Siqueira AL. Introdução à Estatística Médica. 2ed. Belo Horizonte: COOPMED, 2002.

16. Triola MF. Introdução à Estatísitica. 7 ed. Rio de Janeiro: LTC,2005.

17. Vieira S. Introdução à bioestatística. 3ed. rev. Ampl. Rio de Janeiro: Elsevier, 1980.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:32 Page 57

Page 42: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

58 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:32 Page 58

Page 43: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 61

Inferência estatística pode ser definida como um conjunto de procedimentos que nos permitetirar conclusões acerca de populações, a partir do estudo de amostras coletadas desta população.

No capítulo 3 aprendemos a quantificar características de uma população ou grupo de dados,fazer estimativas e, principalmente, saber a precisão destas estimativas.

Os testes de hipóteses, que fazem parte da inferência estatística, incluem um amplo conjuntode procedimentos, mas no que diz respeito à oncologia, o mais importante são os testes designificância estatística, por fornecer indicações sobre a extensão da diferença entre os valores médiosde 2 ou mais agrupamentos de dados e qual a probabilidade desta diferença ser devida ao acaso.

Trata-se de ferramenta amplamente usada em várias áreas do conhecimento humano nasquais os dados envolvidos estão sujeitos à variabilidade.

No contexto deste Manual, estamos interessados na comparação entre dois, ou mais, grupos,como por exemplo, tratamentos, procedimentos diagnósticos, dietas, etc.

Este tema deverá ser subdividido nos seguintes tópicos:4.1) Hipóteses a serem testadas4.2) Critério de decisão4.3) Erros tipos I e II, nível de significância e o poder do teste4.4) Probabilidade de significância (valor p)4.5) Hipóteses unilaterais X bilaterais (one-sided e two-sided)4.6) Critérios de escolha e exemplos

4.1. Hipóteses a serem testadas

uma hipótese é uma alegação a respeito de um determinado problema. Em termosestatísticos, uma hipótese é uma afirmação sobre um parâmetro de uma população, tais comomédia, proporção, desvio-padrão, coeficiente de correlação, etc. uma vez definida a hipótese, estadeverá ser comprovada ou rejeitada. A ferramenta de comprovação é denominada teste de hipótese.

Na comparação entre dados numéricos, sujeitos a variabilidade, extraídos de amostras deuma mesma população, uma diferença real entre eles pode não ser evidente à primeira vista. Aafirmativa inversa, ou seja, de que a ausência de diferença real pode não ser evidente à primeiravista, também é verdadeira.

Por convenção, podemos formular os problemas através de 2 hipóteses:a.1) Hipótese nulaQuando temos um problema de comparação de dois tratamentos é usual fixar como hipótese

de interesse a inexistência de diferença entre os dois tratamentos comparados. A hipótese a sertestada é chamada de hipótese nula (H0).

a.2) Hipótese AlternativaA hipótese nula deve ser comparada com uma hipótese alternativa, denominada H1. Para

Capítulo 4Testes de Hipóteses

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:32 Page 61

Page 44: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

62 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

cada situação existem muitas hipóteses alternativas adequadas. Seguindo convenção, a hipótesealternativa é a inexistência de igualdade entre os tratamentos.

Exemplo:H0 : pc = pt versus H1: pc ≠ pt

Onde pc e pt são respectivamente as probabilidades de se observar a resposta de interesseentre os controles e entre os pacientes do grupo tratamento.

É importante notar que as hipóteses definidas se referem à comparação do parâmetropopulacional dos pacientes controles com o parâmetro populacional do grupo tratamento. Noentanto, para testar estas hipóteses são empregados resultados baseados em amostras. Logo, osresultados amostrais são generalizados, após o teste de hipótese, para todo o universo estudado.

Existem situações inerentes a alguns experimentos clínicos nos quais hipóteses diferentespodem ser utilizadas, como veremos no próximo capítulo.

4.2. Critério de decisão

Após decidirmos as hipóteses a serem testadas, teremos que construir um critério baseado noqual a hipótese H0 será julgada. O critério de decisão é baseado na estatística de teste. De umaforma bem genérica e intuitiva podemos dizer que a estatística do teste mede a discrepância entreo que foi observado na amostra e o que seria esperado se a hipótese nula fosse verdadeira.Rejeitaremos a hipótese nula se o valor da estatística de teste for “grande”, o que traduziria umadiscrepância entre os dados. Na prática para se decidir quão “grande” é o valor da estatística deteste é necessária a comparação entre o valor obtido e o valor estabelecido em uma distribuiçãohipotética de dados. Pequenas diferenças podem ser devido ao acaso em função da variabilidadedos dados; quanto maior a diferença menor é a probabilidade do acaso para sua explicação. Nestacircunstância uma relação de causa e efeito, ou de concomitância, pode ser inferida.

Para que cálculos estatísticos possam ser realizados, vários critérios necessitam ser definidosa priori, como veremos em seguida.

4.3 - Erros tipo I e II (nível de significância e poder do teste)

A decisão de rejeitar H0 quando de fato ela é verdadeira é chamada de erro tipo I. Para evitá-lo, escolhemos um critério de decisão que torna este erro pouco provável. Na literatura, aprobabilidade de cometer esse erro recebe o nome de nível de significância do teste, sendorepresentado pela letra grega a(alfa).

Há um segundo tipo de erro, erro tipo II, que consiste em não rejeitar a hipótese nula sendoque ela é falsa. Isto implicaria na não liberação do novo tratamento, cujo efeito real não está sendopercebido. É representado por b(beta).

Convencionou-se que o erro mais sério seria o tipo I. O quadro 4.1 a seguir sintetiza os errospossíveis associados a cada decisão tomada em um teste de hipóteses.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:32 Page 62

Page 45: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 63

A capacidade de um teste identificar diferenças que realmente existem, ou seja, de rejeitar H0quando é realmente falsa, é denominada poder do teste e é definida como 1 - b.

4.4. Probabilidade de significância (valor p)

Existem duas opções para expressar a conclusão final de um teste de hipóteses. A primeiraconsiste em comparar o valor da estatística de teste com o ponto crítico a partir da distribuiçãoteórica, específica para o teste, para um valor pré-fixado do nível de significância (por exemplo 5%ou 1%), conforme descrito na figura 4.1.

Conclusão do teste

Não rejeitar H0Rejeitar H0

Situação H0 verdadeira

decisão corretaerro tipo I

RealH0 falsa

erro tipo IIdecisão correta

QUADRO 4.1 - Erros possíveis associados a teste de hipóteses

FIGURA 4.1 - Conclusão para um teste de hipótese. Na primeira curva, a estatística de testese encontra fora da área de rejeição, logo não rejeito Ho. Para a segunda curva, a estatísticade teste se encontra dentro da área de rejeição, logo rejeito H0.

Na segunda opção, a mais usada, o interesse é quantificar a ocorrência do que foi observadoou de resultados mais extremos, sob a hipótese da igualdade dos grupos. Assim, essa opção, baseia-se na probabilidade de ocorrência de valores iguais ou superiores ao assumido pela estatística deteste, sob a hipótese de que H0 seja verdadeira, conforme mostrado na figura 4.2.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:32 Page 63

Page 46: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

64 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

Este número é chamado de probabilidade de significância ou valor p e freqüentemente éindicado apenas por p. Como o valor p é calculado supondo-se que H0 seja verdadeira, duasconjecturas podem ser feitas quando se obtém um valor muito pequeno. um evento que éextremamente raro pode ter ocorrido ou a hipótese H0 não deve ser verdadeira, isto é, a conjecturainicial e conservadora não parece plausível.

De um modo geral, na área médica, considera-se que valor p menor ou igual a 0,05 indicaque há evidências para rejeitar H0, ou seja, há diferença significativa entre os grupos.

Nas outras situações a diferença encontrada não é significante, do ponto de vista estatístico.Esses pontos de corte são arbitrários e não se deve dar uma importância exagerada a eles. Éinaceitável que os resultados de dois estudos em que os valores p sejam 0,045 e 0,055 sejaminterpretados de forma diferente para a= 0,05. Esses valores devem levar a conclusões muitoparecidas e não diametralmente opostas (significativo e não significativo).

4.5 Hipóteses bilaterais versus unilaterais

As hipóteses alternativas, respectivamente para o teste de comparação de proporções, demédias ou de medianas (no caso de testes não-paramétricos) são: H1: p1 ¹ p2 e H1: µ1 ¹ µ2

Mas podem ser desmembradas como: H1: p1 > p2 ou H1: p1 < p2 e H1: µ1 > µ2 ou H1: µ1 < µ2.Estas hipóteses assumem, portanto, que qualquer um dos dois grupos pode ter uma

proporção ou média maior do que o outro. Por isto este tipo de hipótese é denominada bilateral.O valor p bilateral é a probabilidade de se obter em qualquer direção uma diferença igual ou maisextrema do que a observada.

Existe também a possibilidade de se formular hipóteses alternativas unilaterais (H1), como a seguir:

FIGURA 4.2 - CConclusão para um teste de hipótese. Na primeira curva, o valor p é maior doque o nível de significância (alfa), logo não rejeito H0. Para a segunda curva, o valor p émenor do que o nível de significância(alfa), logo rejeito H0.

Situação(1)(2)

ProporçõesH1: p1 > p2H1: p1 < p2

MédiasH1: µ1 > µ2H1: µ1 < µ2

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:32 Page 64

Page 47: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 65

Nestes casos, as comparações são estabelecidas em uma determinada direção. Assim, porexemplo, ao se comparar um procedimento novo com o padrão, estamos avaliando se a inovaçãodeve ser recomendada. Portanto, a escolha de hipóteses unilaterais ou bilaterais influenciadecisivamente a interpretação dos resultados da análise estatística.

As duas opções de testes (unilateral ou bilateral) estão disponíveis em programas decomputador. Em geral, o valor p para teste bilateral é o dobro do valor p correspondente à hipóteseunilateral (figura 4.3).

FIGURA 4.3 - Opções de testes de hipóteses (unilateral ou bilateral).

Há circunstâncias em que hipótese unilateral é a melhor forma de se descrever a questão deinteresse. Em estudos comparando uma inovação de um procedimento padrão, a hipótesealternativa mais interessante é que a inovação é superior, um apelo à hipótese unilateral.

um teste unilateral também pode ser justificado quando se pode afirmar que uma das direçõescontempladas pela hipótese bilateral é completamente inconcebível.

O argumento mais forte contra o uso de hipóteses unilaterais é que, por maior que seja aevidência de que um tratamento seja superior ao outro, nunca se tem certeza absoluta do querealmente pode acontecer. Embora existam razões para esperar que novas drogas, ou novosprocedimentos, sejam melhores que os do grupo controle (caso contrário o estudo não estariasendo realizado), ainda assim existe a possibilidade, mesmo que remota, de que seus resultadossejam piores. Na comparação de uma droga com o placebo, não se pode descartar a possibilidadede que a droga tenha um efeito deletério, e portanto, não deva ser recomendada.

Na escolha entre hipótese bilateral e unilateral os seguintes aspectos devem ser considerados:1. O tipo de hipótese adotado deve preceder a análise dos dados, isto é, a escolha não deve

ser influenciada pelo resultado da amostra.2. O teste bilateral é mais conservador que o unilateral. Na maioria dos casos, testes unilaterais

são vistos como uma maneira de se exagerar a força dos achados. Se houver qualquer dúvida, deve-se optar pelo teste bilateral.

3. Segundo alguns autores, a distinção entre testes unilaterais e bilaterais não é de funda-mental importância na interpretação dos resultados, desde que fique claro qual foi usado.

4. Mesmo quando o teste unilateral pode ser justificado, pode-se encontrar resistência editorialpara publicar tais achados.

5. Teste bilateral é a forma padrão, usada em periódicos médicos.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:32 Page 65

Page 48: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

66 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

Alguns estatísticos e editores de jornais acreditam que o valor p unilateral nunca deva serusado. O primeiro argumento é a uniformidade de apresentação dos resultados, tal que umdeterminado valor p tenha um mesmo significado em todos os artigos. Segundo, acreditam quesituações que justificam o uso do testes unilaterais são extremamente raras. Terceiro, em estudossobre importantes questões, como a regulamentação de uma droga, o valor p é apenas um fatorusado na tomada de decisões. O critério de que o valor p seja menor que 0,05, em geral éinsuficiente para estabelecer eficiência e pelo menos o teste bilateral é mais conservador.

Aceitando estes argumentos e considerando a padronização já existente na maioria dosperiódicos médicos, recomendamos o uso rotineiro de hipóteses bilaterais.

4.6 Critérios de escolha e exemplos

4.6.1 Critérios de escolha

Dentre os inúmeros testes e técnicas estatísticos que se apresentam no contexto de umtrabalho de pesquisa, é natural certo grau de desorientação inicial quanto à identificação daquelesque são ou não aplicáveis a cada situação. Para realizar as escolhas adequadas, é importanteconsiderar alguns parâmetros básicos dos dados a serem analisados, tais como:

• N° de Amostras: O número de grupos distintos sendo analisados.• Relações Entre Amostras: Refere-se a duas ou mais amostras consistirem ou não de múltiplas medidas das mesmas entidades ou de entidades relacionadas (serem ou não pareadas oucasadas).

• Escala Numérica: A forma que os dados foram registrados (escala qualitativa, quantitativa discreta e quantitativa contínua).

• Distribuição: A densidade de probabilidade (distribuição de probabilidade) dos dados (Normal ou Não-Normal).

• Dependência Entre Variáveis: O conhecimento de que uma variável pode contribuir ou não para o conhecimento de outras (respectivamente, serem associadas ou independentes entre si).

São estes os fatores que determinam quais os procedimentos gráficos e analíticos possíveispara cada combinação de número de amostras e tipos de dados.

A tabela 4.2 abaixo indica as técnicas estatísticas que podem ser aplicadas para a comparaçãoentre os parâmetros de dois ou mais grupos de dados.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:32 Page 66

Page 49: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 67

O quadro a seguir mostra as técnicas analíticas e procedimentos gráficos aplicáveis quandose quer verificar a existência e/ou caracterizar a relação entre duas ou mais variáveis.

Tabela 4.2 - Testes estatísticos utilizados na comparação entre parâmetros de duas oumais amostras

ComparaçõesN° deAmostras2

2

2

2

2

2≥3

≥3

≥3≥3

≥3

≥3

Tipo deRelaçãoPareadas

Pareadas

Pareadas

Não-Pareadas

Não-Pareadas

Não-PareadasPareadas

Pareadas

PareadasNão-Pareadas

Não-Pareadas

Não-Pareadas

Distribuição

Normal

Não-Normal

Não-Normal

Normal

Não-Normal

Não-NormalNormal

Não-Normal

Não-NormalNormal

Não-Normal

Não-Normal

Escala Numérica

Quant. ContínuaQuant. discretaQuant. discreta,Quant. contínua

QualitativaDicotômica*

Quant. ContínuaQuant. discretaQuant. discreta,Quant. contínua

QualitativaQuant. ContínuaQuant. discretaQuant. discreta,Quant. contínua

QualitativaQuant. ContínuaQuant. discretaQuant. discreta,Quant. contínua

Qualitativa

Análises Aplicáveis

Teste t de StudentPareado

Sign-Test, WilcoxonMatched-Pairs TestTeste de McNemar

Teste t de Student

Teste Mann-Whitney u

Teste de Qui-Quadrado ANOVA c/ Medidas

RepetidasTeste de Friedman

Teste Q de CochranANOVA c/ Grupos

IndependentesTeste de Kruskal-Wallis

Teste de Qui-Quadrado* Variável com apenas dois valores ou duas categorias (variável binária).

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:32 Page 67

Page 50: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

68 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

Os quadros acima apontam para as análises de dados possíveis nas diversas situações depesquisa, porém, não indicam exatamente os procedimentos a serem adotados em cada situação.Isso ocorre devido ao fato de que a decisão final depende não apenas das restrições matemáticas,mas também dos objetivos do estudo e da própria natureza dos achados que vão sendoproduzidos. É importante, contudo, ter em mente que as tabulações apresentadas constituem ummapa de referência que deixa claro espaço para ações, dentro do qual pode se manifestar aliberdade do pensador analítico.

4.6.2 Exemplos

I - Testes paramétricosIlustraremos alguns testes estatísticos da tabela 4.3 acima omitindo no entanto, o cálculo da

estatística de teste, que é fornecido pelos programas estatísticos usuais.

Variável dicotômica: amostras independentesNeste caso, a variável de interesse é a ocorrência de um determinado evento, como o

desenvolvimento de uma doença, ou a presença de certo atributo, por exemplo, albinismo.usaremos exemplo citado por Siqueira e Teixeira (2002), a propósito do tratamento de

pacientes aidéticos com AZT ou placebo e cujos resultados são descritos na tabela 4.4.

Tabela 4.3 - Técnicas analíticas e procedimentos gráficos usados na determinação darelação entre duas ou mais variáveis

N° de Variáveis2

2

2

≥3

≥3

≥3

≥3

Escala Numérica dasVariáveis

Quantitativacontínua

Quant. discreta e/ouQuant. contínua

Qualitativa

Quantitativa contínua

Qualitativa

Quantitativa contínua

Qualitativadicotômica* (Variável-

Resposta) eQualitativa ouQuantitativa

(variáveis explicativas)

Distribuição

Normal

Não-Normal

Não-Normal

Normal ouNão-Normal

Não-Normal

Normal e/ouNão-Normal

Normal e/ouNão-Normal

AnálisesAplicáveis

Correlação dePearson, Regressão

Linear SimplesCorrelação de

SpearmanOdds Ratio, Teste de

Qui-QuadradoRegressão Múltipla

(Linear e Não-linear)

AnáliseDiscriminante

Regressão LinearMúltipla, Regressão

Não-Linear

Regressão Logística

Gráficos Aplicáveis

Diagrama deDispersão (X,Y)

Diagrama deDispersão (X,Y)

---

Diagrama Previsão vs.Observação

---

---

---

* Variável com apenas dois valores ou duas categorias (variável binária).

Relação / Associação

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:32 Page 68

Page 51: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

O valor da estatística de teste foi de 13,14. Como este valor é maior que 3,84, obtido dadistribuição de X2

1 para um nível de significância de 0,05, rejeita-se a hipótese de igualdade entreos grupos de tratamento e controle. Em outras palavras, decidimos com 95% de confiança que háevidência do efeito do AZT. Para obtermos a probabilidade de significância devemos calcular aprobabilidade de encontrar valores maiores que 13,14, isto é, P[X2

1 ≥ 13,14], sendo verdadeira ahipótese de igualdade das proporções. Da tabela da distribuição do X2

1, vemos que este valor éaproximadamente 0,0001, ou seja, o valor p é 0,0001.

Baseado neste estudo, é possível afirmar, com 95% de certeza, que o AZT tem efeito deprolongar a vida de pacientes com AIDS, sendo esta a primeira evidência necessária para a liberaçãodo medicamento.

FIGURA 4.4 - Distribuição qui-quadrado e o valor da estatística de teste.

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 69

O problema da comparação das probabilidades de ocorrência do evento ou do atributo nosdois grupos é formulado através das hipóteses

H0: p AZT vivo = p AZT morto = p Placebo vivo = p Placebo morto H1: pelo menos 1 grupo diferente

Tabela 4.4 - Número de sobreviventes tratados com AZT ou placebo

AZTPlaceboTotal

Vivo144121265

Morto1

1617

Total145137282

Fonte: Siqueira e Teixeira (2002)

Grupo Situação

Calculado o valor da estatística do teste (teste do X2), é preciso decidir se este é ou não um valor‘grande’. Assim, para se tomar uma decisão sobre a igualdade ou não das duas proporções, é precisoconhecer o comportamento, isto é, a distribuição estatística dos valores de X2 quando as proporçõessão iguais. Esta distribuição foi obtida e recebeu o nome de qui-quadrado com 1 grau de liberdade,é indicada por X2

1 e está sintetizada em tabelas de fácil utilização. A figura 4.4 ilustra a distribuiçãodo X2 com 1 grau de liberdade.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:32 Page 69

Page 52: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

70 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

Apresentaremos, agora, um teste para a comparação entre 2 proporções: o teste Z. Trata-sede um teste aproximado que requer grandes amostras para a sua aplicação. um critério é exigir quen1p1 e n2p2 excedam o valor 5.

Queremos testar a hipótese de equivalência entre dois tratamentos:

H0: p1 = p2 versus H1: p1 ≠ p2

Com o objetivo de comparar a eficácia de dois preventivos contra náusea, dividiu-sealeatoriamente uma amostra de 400 marinheiros em dois grupos de 200. um grupo recebeu apílula A e o outro a pílula B, sendo que no 1º grupo 152 não enjoaram durante uma tempestade eno outro grupo apenas 132. Há indicações de que a eficácia das pílulas A e B seja a mesma?

Sejam pA e pB as proporções de marinheiros que não enjoam, respectivamente com as pílulasA e B. Temos nA = 200 e nB = 200,

O valor da estatística de teste é: 2,22

FIGURA 4.5 - Curva normal com o valor da estatística de teste e o ponto crítico.

Fixando-se o nível de significância em 5%, rejeita-se H0. O valor p encontrado para Z é 0,026.Portanto pode-se concluir, com confiança de 95%, que as duas pílulas não são igualmente efetivas.Há indicações de que a pílula A oferece maior proteção contra náuseas comparada à pílula B.

Variável dicotômica: amostras pareadasForam avaliados 100 doentes com cefaleias frequentes. Os mesmos 100 doentes tomaram

durante um mês um determinado medicamento A e no mês seguinte o medicamento B. Pediu-seaos pacientes que registrassem se durante cada mês tiveram ou não dores de cabeça.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:33 Page 70

Page 53: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 71

O teste apropriado para esta situação é o teste de McNemar.As hipóteses são:H0: A percentagem de doentes com cefaléias usando o medicamento A é igual a percentagem

de doentes com cefaleias usando o medicamento B. H1: A percentagem de doentes com cefaléias usando o medicamento A é diferente da

percentagem de doentes com cefaleias usando o medicamento B.O valor da estatística do teste de McNemar é: 6,86, conforme ilustrado na figura 4.6.

FIGURA 4.6 - Estatística de teste do teste de McNemar.

Tabela 4.5 - Pacientes com cefaléias frequentes usandos dois tipos de medicamentos

Medicamento B

Sem cefaléiaCom cefaléiaTotal

Sem cefaléia451762

Com cefaléia4

3438

Total

4951

100

Fonte: http://medicina.med.up.pt/im/im2004/teoricas/categoricas.ppt

Medicamento A

Este valor deve ser comparado com 3,84 para um nível de significância de 5%. Ou seja, comuma confiança de 95% a percentagem de doentes com cefaléias usando o medicamento A édiferente da percentagem de doentes com cefaleias usando o medicamento B.

Resposta Contínua: amostras independentesAgora apresentaremos a metodologia para comparar dois grupos de pacientes (por exemplo,

doentes vs não doentes) em relação a uma resposta contínua, por exemplo pressão sistólica. Testa-se então, nesse caso, a igualdade das médias das respostas de dois tratamentos.

Sejam μ1 e μ2 as médias da variável estudada para os dois grupos, respectivamente. Ashipóteses a serem testadas são:

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:33 Page 71

Page 54: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

72 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

H0: μ1 = μ2 versus H1 :μ1 ≠ μ2

Vamos apresentar agora, o teste mais conhecido (o teste t para duas amostras) e adequadopara situações em que as respostas aos dois tratamentos são variáveis quantitativas comdistribuição normal (gaussiana) para os dois grupos. Assim, as suposições para se usar este testesão que as variáveis estudadas têm distribuições gaussianas com o mesmo desvio padrão. Paraisso, deve-se realizar o teste de normalidade (Kolmogorov-Smirnov) e o teste de duas variâncias(teste de Fisher).

um estudo relata os resultados de um ensaio clínico aleatorizado, duplo-cego, realizado como objetivo de comparar a tianeptina com o placebo. Participaram desse estudo pacientes de BeloHorizonte, Campinas e Rio de Janeiro.

Sucintamente, o ensaio consistiu em administrar a droga a dois grupos de pacientes,compostos de forma aleatória, e quantificar a depressão através da escala de MADRS, em que osvalores maiores indicam maior gravidade da doença. O escore foi obtido para cada paciente 7, 14,21, 28 e 42 dias após o início do ensaio.

Pelo planejamento adotado, os dois grupos não diferiam em termos de depressão no iníciodo ensaio. Assim, uma evidência sobre o efeito da tianeptina é obtida comparando-se os doisgrupos ao fim de 42 dias.

A Tabela 4.6 apresenta os escores finais dos pacientes dos dois grupos admitidos em BeloHorizonte.

Tabela 4.6 - Escore final na escala MADRS de pacientes dos dois grupos admitidos em BeloHorizonte

GrupoPlacebo

Tianeptina

Escores6 33 21 26 10 29 33 29

37 15 2 21 7 26 13

10 8 17 4 17 14 9 4 21 3 7 10 29 13 14 2

Fonte: Siqueira e Teixeira (2002)

Para se efetuar o teste t é preciso usar as seguintes informações:n1 = 15 x1= 20,53 s1 = 11,09n2 = 16 x2= 11,37 s2 = 7,26

A estatística de teste encontrada foi igual a 2,74, que comparando com o valor de t29;0,975 =2,045 leva à rejeição da igualdade entre os dois grupos no nível de 5% (figura 4.7). O valor pencontrado foi 0,0104.

Para aplicarmos o teste t é necessário que os dois grupos comparados tenham a mesmavariabilidade, o que nem sempre ocorre na prática. No caso de amostras grandes (n1 e n2 > 30)dispomos de um teste em que não é necessária qualquer suposição adicional sobre s2

1 e s22, ou

seja, as variâncias podem ser iguais ou diferentes: o teste Z para comparação de médias.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:33 Page 72

Page 55: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 73

um estudo foi feito em um grande número de pacientes para comparar dois agentesanestésicos, o halotano, de efeito poderoso, mas que pode causar complicações em pacientes comproblemas cardíacos e a morfina, que tem pequeno efeito na atividade cardíaca. Todos pacientesforam submetidos a uma cirurgia de rotina para reparo ou substituição da válvula cardíaca. Paraobter duas amostras comparáveis, eles foram alocados aleatoriamente a cada tipo de anestesia.

A fim de estudar o efeito desses dois tipos de anestesia, foram registradas variáveishemodinâmicas, como pressão sanguínea antes da indução da anestesia, após a anestesia, masantes da incisão, e em outros períodos importantes durante a operação. A questão que surge é seo efeito do halotano e da morfina na pressão sanguínea é o mesmo. A média e o desvio-padrão dosdois grupos encontram-se a seguir:

Tabela 4.7 - Média e desvio-padrão da pressão sanguínea (mmHg) segundo o tipo deanestesia

Informações sobre a amostra

Média Desvio-padrãon

Halotano66,912,261

Morfina73,214,461

Anestesia

Fonte: Siqueira e Teixeira (2002)

FIGURA 4.7 - Distribuição de t com grau de liberdade de 29 para nível de significância de5,0%.

Nas condições do problema, as hipóteses são:H0: μ1 = μ2 e H1 :μ1 ≠ μ2Isto é, devemos testar a diferença entre as pressões sanguíneas médias de indivíduos

anestesiados com halotano ou morfina.Como as amostras são grandes, podemos usar o teste Z, cujo valor da estatística do teste é de

-2,61Adotando um nível de significância de 5%, o resultado é estatisticamente significativo, já que

|-2,61| > 1,96 (figura 4.8). Além disso, o valor p = 0,009, que é menor que o valor de α estipulado,indicando que os dois anestésicos não são equivalentes.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:33 Page 73

Page 56: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

74 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

Variável contínua ou discreta: amostras pareadasConsideremos a seguinte pergunta: será que o armazenamento da amostra do sangue

influencia o valor da medida do colesterol e do triglicérides? Neste caso, o problema de interesse é uma comparação entre dois grupos de medidas: de

triglicérides, por exemplo. É razoável supor, e existem evidências empíricas neste sentido, que adistribuição estatística do nível de triglicérides é normal (gaussiana). No entanto, é aconselhávelusar o teste de normalidade para o nível de triglicérides. Se o possível efeito do armazenamentose dá apenas no aumento ou decréscimo na média da distribuição, não na sua variabilidade, entãoas hipóteses a serem testadas são:

H0: μ1 = μ2 e H1 :μ1 ≠ μ2

Onde μ1 e 2 são as médias antes e depois do armazenamento. A escolha de H0 implica que, naausência de outras evidências, consideremos que o armazenamento não tem efeito. Intuitivamente,o critério de decisão, a ser utilizado para testar H0, deve ser baseado nas diferenças entre os níveisencontrados de triglicérides nas duas ocasiões das medidas. Se houver influência do armazena-mento, então essas diferenças devem ser diferentes de zero.

O problema de escolha de um critério de decisão reduz-se a escolher uma forma de verificarse as diferenças são provenientes de uma distribuição com média zero.

um exemplo semelhante pode ser ilustrado pelo estudo cujo objetivo era avaliar a efetividadede uma dieta combinada com um programa de exercícios físicos na redução do nível sérico decolesterol.

A tabela abaixo mostra os níveis de colesterol de 12 participantes no início e no final doprograma.

FIGURA 4.8 - Teste da diferença entre as pressões sanguíneas médias de indivíduosanestesiados com halotano ou morfina.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:33 Page 74

Page 57: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 75

Quanto maior o valor d (que representa a média das diferenças x1- x2) maior a evidência deque o programa reduz o nível de colesterol; quanto menor a variabilidade das diferençasindividuais, maior a chance de se detectar um efeito médio significativo, isto é, uma reduçãosignificativa do colesterol devido à ação do programa e não ao acaso. Estes aspectos podem seravaliados através do teste t.

Sejam µa e µd respectivamente as médias dos níveis de colesterol antes e depois do programa.Para testar a hipótese de que o programa altera o nível de colesterol (H0: µa = µd x H1: µa ≠ µd) seráaplicado o teste t (11 graus de liberdade).

Apenas dois participantes tiveram o nível de colesterol aumentado após o programa, maspor pequenas quantidades (5 e 8 mg/dl). As médias antes e depois do programa são respectiva-mente 244,25 e 224,08, correspondente a uma redução média de 20,12 mg/dl (d = 20,17). Aestatística de teste foi de 3,02 (p = 0,012), isto é, há evidência de que, em média, o programa alterao nível de colesterol (figura 4.9).

FIGURA 4.9 - Teste t para as médias antes e depois do programa

Tabela 4.8 - Níveis de colesterol no início e no final do programa

Início (x1)201231221260228237326235240267284201

Final (x2)200236216233224216296195207247210209

Diferençad = x1-x2

1-55

274

213040332074-8

Desviod- d

-19,16-25,16-15,166,83

-16,160,839,83

19,8312,83-0,1653,83-28,16

Desvio ao quadrado(d-d)2

367,36633,36230,0346,69

261,360,69

96,69393,36164,69

0,032898,03793,36

Fonte: Arango (2005).

Programa

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:33 Page 75

Page 58: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

76 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

II - Testes Não Paramétricos Os testes estudados até agora envolviam problemas nos quais a distribuição da população em

estudo era conhecida, ou pelo menos nunca colocada em causa, e as hipóteses testadas apenasenvolviam parâmetros populacionais.

No entanto, outros tipos de problemas podem ser colocados: se a distribuição de umapopulação é desconhecida e se pretender testar a hipótese de uma distribuição particular paraaquela população, que fazer?

Os testes denominados testes não paramétricos ou testes de distribuição livre constituem umaalternativa para este e outros tipos de problemas.

O termo “distribuição livre” é popularmente usado para indicar que os métodos são aplicáveisindependentemente da forma da distribuição.

Estes métodos são, em geral, fáceis de aplicar, pois podem ser usados quando as hipótesesexigidas por outras técnicas não são satisfeitas.

Relembramos aqui que os testes paramétricos estudados até agora comportam umadiversidade de suposições fortes a que o seu emprego deve subordinar-se: as observações devemser extraídas de populações com distribuição normal, as variáveis em estudo devem ser medidasem escala intervalar ou de razão, de modo a que seja possível utilizar operações aritméticas sobreos valores obtidos das amostras (adição, multiplicação, obtenção de médias, etc.).

Apesar de haver certas suposições básicas associadas à maioria das provas não paramétricas,essas suposições são em menor número e mais fracas do que as associadas às provas paramétricas.

Servem para pequenas amostras e, além disso, a maior parte das provas não paramétricasaplica-se a dados medidos em escala ordinal e, alguns, a dados em escala nominal.

Dentre uma vasta gama de testes não paramétricos disponíveis, foram selecionados, paraanálise neste capítulo, apenas alguns testes de utilização freqüente ou que complementam, dealguma forma, os testes paramétricos discutidos anteriormente.

Em resumo, nos exemplos mencionados anteriormente, os testes aplicados foram baseadosem distribuições de probabilidade, denominado testes paramétricos; contudo, abordaremos nospróximos exemplos testes não paramétricos, ou seja, testes que não possuem distribuição deprobabilidade.

Resposta Contínua ou Discreta: duas amostras independentesO teste de Mann-Whitney é a versão não paramétrica do teste t. Sendo assim, o interesse é

testar se as medianas são iguais ou diferentes entre si.A tabela ao lado exibe a taxa de uréia de pacientes renais e sua condição quanto à presença

de insuficiência renal aguda (IRA).Neste tipo de situação, cruzamento de uma variável quantitativa (uréia) com uma variável

dicotômica (IRA), é viável empregar o teste de Mann-Whitney.usando um programa de estatística adequado, temos que a estatística de teste foi de -2,76.

Este valor corresponde a um valor p = 0,00289. Como o valor-p é menor que o nível de significânciade 5%, logo pode-se dizer que existe uma diferença, significativa, entre a taxa de uréia deportadores ou não portadores de IRA.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:33 Page 76

Page 59: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 77

Resposta Contínua ou Discreta: três ou mais amostras independentesO teste de Kruskall Wallis é utilizado quando não é possível aplicar a Anova, pois os dados

não seguem distribuição normal. Sendo assim, as hipóteses são definidas pela mediana e não pelamédia.

A tabela abaixo mostra o índice de Massa Corporal (IMC) e o grau de estadiamento do câncercolorretal em 18 pacientes submetidos a cirurgia. O objetivo é verificar se o grau de estadiamentodesta doença se relaciona o IMC.

usando um software adequado, temos que a estatística de teste foi de 0,758. Este valorcorresponde a um valor-p = 0,685. Como o valor-p é maior que o nível de significância de 5%,pode-se dizer que o estadiamento do câncer colorretal não se correlacionou com o índice de MassaCorporal.

Resposta Contínua ou Discreta: duas amostras pareadasO teste de Wilcoxon é utilizado quando não é possível aplicar o teste t pareado, pois os dados

não seguem distribuição normal, ou seja, é a versão não paramétrica do teste t pareado. Sendoassim, o interesse é testar se as medianas são iguais ou diferentes entre si.

A tabela abaixo mostra o nível máximo de concentração (NMC) de 12 pacientes selecionadosaleatoriamente, antes e depois da ingestão de determinada droga. O objetivo deste estudo eratestar a eficácia desta droga em relação à capacidade de aprendizado.

Tabela 4.9 - Pacientes segundo a taxa de uréia (mg/100ml) e a presença ou não de IRA

Paciente010203040506070809101112

Uréia92

12068707763263338252115

IRASimSimSimSimSimSimNãoSimNãoNãoNãoNão

Fonte: Arango (2005).

Tabela 4.10 - IMC de três grupos de pacientes

Estadiamento I22.4127.9919.5719.5619.1522.21

Estadiamento II22.2628.2418.3722.107.33

22.21

Estadiamento III20.8322.3118.2220.8818.7321.27

Fonte: Dados Fictícios

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:33 Page 77

Page 60: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

78 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

usando um programa de estatística adequado, temos que a estatística de teste foi de 1,44.Este valor corresponde a um valor-p = 0,074 para o teste unilateral. Como o valor-p é maior que onível de significância de 5%, pode-se dizer que o uso da nova droga não aumenta a capacidade deaprendizado. Recomenda-se fazer o teste com um número maior de pacientes para se ter umamelhor conclusão sobre o efeito real da droga.

Resposta Contínua ou Discreta: três ou mais amostras pareadasO teste de Friedman é uma generalização do teste de Wilcoxon para situações de mais de

duas opções na comparação de dados. Este teste é utilizado quando não é possível aplicar o testeAnova com medidas repetidas, pois os dados não seguem distribuição normal. Sendo assim, ashipóteses são definidas pela mediana e não pela média.

A tabela 4.12 mostra dados fictícios sobre 25 pacientes, com diagnóstico de metástase emcoluna vertebral. Para cada paciente, foi aplicado o questionário VAS (Escala Analógica Visual), emuma escala de 0 a 10, para avaliação de dor no período pré-operatório, pós-operatório e um anoapós a cirurgia. O objetivo é avaliar a evolução da dor em pacientes com lesão metastática emcoluna vertebral operados por abordagem posterior.

usando um software adequado, temos que a estatística de teste foi de 7,96. Este valorcorresponde a um valor-p = 0,000 para o teste bilateral. Como o valor-p é menor que o nível designificância de 5%, pode-se dizer que os valores de VAS diferem entre si quando comparadosestatisticamente os períodos pré-operatório, pós-operatório e um ano após a cirurgia.

Observe que o teste de Friedman apenas conclui que pelo menos uma situação difere dasdemais. Neste caso, é necessário realizar comparação de dois a dois grupos para identificar ahierarquia desta diferença.

Tabela 4.11 - Níveis máximos de atenção/concentração, em segundos, em uma amostrade 12 indivíduos, antes e depois da ingestão da droga de teste

Paciente010203040506070809101112

NMC Antes9

1612285

33171318122614

NMC Depois14221823114015182231198

Fonte: Arango (2005).

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:33 Page 78

Page 61: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 79

A Tabela 4.13 mostra os resultados da comparação de dois a dois entre Escala Analógica Visual(VAS) para avaliação da dor no pré-operatório, pós-operatório e um ano após cirurgia.

Tabela 4.12 - Escala Analógica Visual (VAS) para avaliação da dor no pré-operatório, pós-operatório e um ano após cirurgia, em uma amostra de 25 indivíduos

Paciente01020304050607080910111213141516171819202122232425

VAS pré-operatório5697879637889

1084

1010108878

107

VAS pós-operatório1005829637880602

1008877647

VAS um ano após cirurgia0000819605080002

1058586087

Fonte: Arango (2005).

Tabela 4.13 - Teste de comparação múltipla entre a Escala Analógica Visual (VAS) paraavaliação da dor no pré-operatório, pós-operatório e um ano após cirurgia

Comparação Múltipla de VASVAS pré-operatório (1º)VAS pós-operatório (2º)VAS pré-operatório (1º)VAS um ano após cirurgia (3º)VAS pós-operatório (2º)VAS um ano após cirurgia (3º)

Mediana8.006.008.005.006.005.00

Valor p0.000**

0.000**

0.074

Conclusão1º > 2º

1º > 3º

2º = 3º

Nota: – As probabilidades de significância (valor p) referem-se ao teste de Wilcoxon– Valor p em negrito indica diferença significativa.– Os resultados significativos foram identificados com asteriscos, de acordo com o nível de significância das comparaçõesmúltiplas, a saber: valor p < 0.0167** .

Resultados

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:33 Page 79

Page 62: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

80 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

Em análise comparativa da Escala Analógica Visual (VAS), verificou-se que a Escala AnalógicaVisual no pré-operatório é maior do que os demais momentos, pois o valor p < 0,05. Enquanto quea Escala visual no pós-operatório e no ano após a cirurgia são iguais, valor p > 0,05 (Tabela 4.13).

Para as comparações múltiplas, o nível de significância fica dividido por três (a/3), por se tratarde comparações entre 3 grupos, ou seja, será considerado significativa aquela comparação cujovalor p for inferior a 0,0167.

Para casos em que existam n comparações o nível de significância fica dividido por n (a/n).

Referências

1. Siqueira AL. Teixeira FJS. Introdução a Estatística Médica. 2ed. Belo Horizonte: COOPMED, 2002.

2. Triola M.Introdução à Estatística. 10ed. Rio de Janeiro: LTC, 2008, p.722-801.

3. Arango HG. Bioestatística: teórica e computacional. 2ed.Rio de Janeiro. Guanabara Koogan, 2005.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:33 Page 80

Page 63: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 83

Podemos definir os testes diagnósticos de acordo com a finalidade, em três tipos clínicosdistintos: a) rastreamento de doença em pessoas assintomáticas; b) diagnóstico de doença empessoa com suspeita (sintomas ou sinais de doença); c) avaliar a progressão da doença ou respostaao tratamento.

Podemos ainda defini-los, de acordo com o tipo de resultado fornecido, em:a) Quantitativo: quando expresso em resultados numéricos (por medidas) podendo ser

subdivididos em:a.1) Resultados dicotômicosa.2) Resultados contínuosb) Qualitativos: quando apresentam resultados descritivos e que dependem da percepção

humana como, por exemplo, os exames de imagem.No entanto, mesmo testes qualitativos podem ser submetidos a escores e fornecer resultados

numéricos. um bom exemplo é a classificação Bi-RADS para mamografia. Segundo Orel et al(1) anegatividade de biópsia para a detecção de câncer de mama foi de 87% na categoria 0, 100% nascategorias 1 e 2, 98% na categoria 3, 70% na categoria 4 e de 3% na categoria 5.

A apresentação de resultados numéricos permite a realização de estudos de performance doteste, facilitando a compreensão de suas qualidades e limitações e das situações nas quais estáindicado.

5.1 Performance dos testes diagnósticos

São cinco as principais características de performance dos testes diagnósticos com resultadosnuméricos: sensibilidade, especificidade, valor preditivo (positivo e negativo), acurácia e razão deverossimilhança (positiva e negativa)(2).

Para um melhor entendimento destes conceitos usaremos uma tabela 2x2 conforme descritoabaixo:

Capítulo 5Artigos sobre Testes Diagnósticos

Tabela 5.1 - Modelo tabela 2x2

Condição do pacienteResultado do testePositivoNegativoTotal

Doentes

ac

a+c

Não-doentes

bd

b+d

Total

a+bc+d

a+b+c+d(N)

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:33 Page 83

Page 64: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

84 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

Sensibilidade: é a probabilidade de resultado positivo nos doentes (verdadeiro positivo) e écalculado como: a/(a+c).

Especificidade: é a probabilidade de resultado negativo nos não-doentes (verdadeironegativo) e é calculado como: d/b+d.

Valor preditivo positivo: é a probabilidade da presença da doença quando o teste é positivoe é calculado como: a/a+b.

Valor preditivo negativo: é a probabilidade da ausência de doença quando o teste énegativo: d/c+d.

Acurácia: é a probabilidade do teste fornecer resultados corretos, ou seja, ser positivo nosdoentes e negativo nos não doentes. Expresso de outra forma é a probabilidade dos verdadeirospositivos e verdadeiros negativos como uma proporção de todos os resultados e é calculado como:(a+d)/(a+b+c+d), também expresso como (a+d)/N.

A razão de verossimilhança (RV): é a probabilidade de um determinado resultado em alguémcom a doença dividida pela probabilidade do mesmo resultado em alguém sem a doença etambém pode ser positiva ou negativa.

a)

Verificando nas fórmulas acima, podemos reescrever a RV positiva comoSensibilidade

(1-Especificidade)

b)

que pode, também, ser escrito como (1-Sensibilidade)

Especificidade

Sensibilidade e especificidade descrevem a proporção do resultado positivo ou negativo emquem, sabidamente está, ou não, doente. Por este motivo é necessário outro exame, consideradocomo padrão-ouro, na diferenciação entre doente e não doente. Como, na prática, não sabemosquem realmente está doente antes de realizarmos o teste, estas características são de pouco valorclínico. São fundamentais, no entanto, para a avaliação inicial de um novo teste. Como são valoresnão influenciados pela prevalência da doença, podem ser utilizados em diferentes populações e,também, para comparar o potencial diagnóstico de testes diferentes. Valores preditivos positivose negativos contêm informações sobre o poder do teste (sensibilidade e especificidade) e dapopulação a ser examinada (prevalência da doença), sendo uma medida de maior utilidade clínica.Por outro lado por serem dependentes da prevalência da doença, não podem ser generalizadospara pacientes com perfil diferente daquele do estudo clínico inicial e não permitem a comparaçãoentre diferentes testes diagnósticos(3).

Razão de verossimilhança, por tratar-se de uma razão entre a probabilidade de umdeterminado resultado do teste em pessoas doentes sobre o mesmo resultado em pessoas sadias,fornece seu resultado sob a forma de um valor relativo, ou seja, um número sem unidade,permitindo então, sua utilização em fórmulas de cálculo de probabilidade de doença apóscombinação de testes. Outra característica da RV é poder ser utilizada em testes diagnósticos com

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:33 Page 84

Page 65: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 85

resultados contínuos. Permite, ainda, o cálculo de tabelas e nomogramas que auxiliam orefinamento diagnóstico, levando-se em consideração características próprias de cada paciente.Sua principal desvantagem é a dificuldade de ser calculado, principalmente em situações clínicas.

A acurácia é uma característica principalmente utilizada quando se deseja transformar umteste com resultados numéricos contínuos em testes dicotômicos, através da determinação de umponto de corte.

5.2 Aplicação prática

A nossa necessidade clínica é entender a utilidade de um teste diagnóstico para orastreamento das populações sadias, para o diagnóstico de uma determinada doença em pessoascom suspeita ou para avaliar a progressão ou resposta a um determinado tratamento.

Quando a intenção for o diagnóstico de uma doença, como nos casos de exames derastreamento, o melhor teste é aquele com alta especificidade porque terá mais impacto no valorpreditivo positivo. Ou seja, se o teste der resultado positivo é muito pouco provável que a pessoanão esteja, de fato, doente.

Quando a intenção for afastar o diagnóstico de uma doença ou condição, como por exemplo,em paciente suspeito de recidiva ou progressão, considera-se que o melhor teste deve ter altasensibilidade porque terá mais impacto no valor preditivo negativo. Ou seja, se o teste der resultadonegativo é muito pouco provável que a pessoa esteja, de fato, doente(3).

Em relação aos testes com resultados quantitativos contínuos existem duas formas deutilização clínica.

1º- Transformá-los em teste dicotômicos através da escolha de um ponto de corte que definaos resultados positivos e negativos, o que é feito geralmente através de utilização da curva ROC(Receiving Operator Characteristic) que tem este nome porque foi construída, inicialmente, para aanálise de sinais de radares para a detecção de aviões, na segunda guerra mundial.

2º- O uso da RV na detecção da probabilidade da presença de uma doença, de acordo com oresultado atual do teste.

5.2.1 A curva ROCA curva ROC também denominada de relative operating characteristics curve, define as

características operacionais de um teste com valores numéricos contínuos.Para melhor entender o conceito e sua importância prática utilizaremos um exemplo fictício.Tomemos o teste ilustrado na figura 5.1 que pode assumir valores entre 0,3 a 4,8.

Consideremos que, em comparação com outro teste considerado como padrão-ouro para detecção

de uma determinada doença, podemos afirmar, com toda certeza, que pessoas com valores < 1 sãonormais e aquelas com valores > 4,0 estão doentes. Para valores entre 1,0 e 4,0 há incidênciavariável de doentes e não doentes.

Se por exemplo, desejarmos transformar estes valores contínuos em dicotômicos e elegermoso valor 2,0 como ponto de corte para positividade ou negatividade do teste veremos, conformeassinalado na figura 5.1, que entre os doentes 10% serão falso-negativo e entre os sadios 50%serão falso-positivos.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:33 Page 85

Page 66: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

86 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

A curva ROC é traçada colocando-se no eixo das abscissas (x) as probabilidades de ocorrênciade resultados falso-positivos, que também pode ser expresso como 1-especificidade. No eixo dasordenadas (y) colocamos as probabilidades de ocorrência de resultados verdadeiro-positivos quetambém podem ser expressos como a sensibilidade do teste para aquele valor. Na figura 5.2 umacurva ROC foi construída baseada no exemplo fictício assinalado na figura 5.1.

FIGURA 5.1 - Curva de frequência de resultado do teste fictício em populações sabidamente sadia e doente.

FIGURA 5.2 - Curva ROC do teste fictício descrito na figura 5.1

Neste tipo de representação, a área sob a curva define a probabilidade do teste em detectaros verdadeiro-positivos e os verdadeiro-negativos, ou seja, expressa a acurácia do teste. A linhatraçada em diagonal, a 45 graus, expressa a acurácia de 50% e significa que o teste é tão bomquanto qualquer escolha ao acaso, como por exemplo, jogar uma moeda tipo cara ou coroa.

Na linha arqueada situada à esquerda encontra-se uma acurácia de 85%, que significa que em85% das vezes em que for utilizado, o teste discriminará os verdadeiro-positivos e os verdadeiro-negativos; isto também significa que em 15% das vezes fornecerá um falso resultado.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:33 Page 86

Page 67: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 87

O ponto de maior acurácia do teste é aquele situado a maior distância da linha dos 45 graus.Consideremos novamente a figura 5.2; se decidirmos que o ponto de corte está localizado

no ponto A, que corresponde ao valor de 2,0 do teste, estaremos aptos a detectar 90% dos doentes,mas incluiremos nesta categoria 50% dos sadios. Em uma doença aguda ou de evolução rápidacom alto risco de morte ou lesão irreversível, é fundamental diagnosticar a maioria dos doentesmesmo à custa de alta porcentagem de falso-positivo. Chamamos a este limiar de brando, porqueele maximiza a descoberta de indivíduos doentes, às custas de alto número de falso-positivos.

Se considerarmos, o ponto de corte no valor 3,0 do teste, localizado no ponto B da curva dafigura 5.2, estaremos aptos a considerar como sadios 90% das pessoas realmente não doentes. Poroutro lado, detectaremos apenas 50% dos doentes. Este limiar é denominado de severo porquereduz o número de falso-positivos às custas de não detectar muitos indivíduos realmente doentes.Em uma patologia de evolução lenta ou sem risco imediato para o paciente, mas cujo tratamentoseria de alto risco (como por exemplo, quimioterapia em caso de recidiva de câncer), este deve sero critério a ser usado na determinação do ponto de corte do teste para a definição da positividadeou negatividade.

5.2.2 Razão de verossimilhança (RV)Raramente um teste é aplicado sem uma justificativa para seu uso, ou seja, há sempre a

probabilidade da existência de uma doença. Nestas circunstâncias devem ser usadas as proprie-dades da teoria da probabilidade. Thomas Bayes descreveu regras para o uso de probabilidadescondicionais, ou seja, como a variação na probabilidade pré-teste pode influenciar no diagnósticofinal, mas um estudo mais aprofundado do tema não é objetivo deste texto.

Como vimos anteriormente, a RV pode ser muito útil neste refinamento do diagnóstico emsituações clínicas. Para facilitar o entendimento destes conceitos utilizaremos um exemplo citadopor Deeks (3) e modificado para servir aos nossos propósitos.

Na tabela 5.2 é reproduzida a probabilidade de diagnóstico de câncer baseado na espessurado endométrio conforme medido por ultrassonografia transvaginal em pacientes na pós-menopausa, com sintoma recente de sangramento vaginal e que foram submetidos, em seguida,a curetagem uterina.

Tabela 5.2 - Diagnóstico anatomopatológico de câncer do endométrio em relação àespessura do endométrio medida por ultrassonografia transvaginal

Diagnóstico de Câncer de endométrioSimNãoTotal

Espessamento do endométrio (mm)

< 4,00

518518

5,02

8688

6,0-1013

232245

11-1528

117145

16-20273865

21-25171734

> 26271643

Total114

10241138

A RV pode ser calculada para cada valor de espessura do endométrio percebido pelo exame.Na tabela 5.3 foi construída uma escala de RV positiva baseado nestes dados. Na realidade estainformação não tem muita utilidade clínica. Sua importância está na sua capacidade de ser incluídaem fórmulas que permitam um diagnóstico mais preciso na presença de características própriasde cada paciente.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:33 Page 87

Page 68: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

88 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

A aplicação do teorema de Bayes aos testes diagnósticos pode ser expressa pela seguintefórmula(3):

chance atual da doença = chance pré- teste X RV

Ou seja, a chance de presença da doença depende da chance pré-teste que é função indiretada prevalência da doença e de características próprias do paciente multiplicada pelo valor da RVdo resultado do teste efetivamente encontrado naquele paciente.

Como vimos anteriormente, chance (ou odds) não é um valor de fácil apreensão imediata. Noentanto, ela pode ser transformada em probabilidade segundo a seguinte, e simples, fórmula:

Probabilidade = Chance Chance + 1

usando estes conceitos e os dados fornecidos pela tabela 5.3, construímos a tabela 5.4. Nestapopulação a chance pré-teste foi calculada como sendo 1/9 por ser esta a relação entre o númerode pacientes com diagnóstico de câncer de endométrio (114) dividido pelo número de pacientessem diagnóstico de câncer do endométrio(1024).

Tabela 5.3 - Cálculo da razão de verossimilhança para espessura endometrial nodiagnóstico de câncer de endométrio

Espessura endométrio(mm)<4,05,06,0-1011-1516-2021-25>26Total

Ca de endométrioSim (%)

0(0)2(1,8)

13(11,4)28(24,6)27(23,7)17(14,9)27(23,7)114(100)

Não (%)518(50,6)

86(8,4)232(22,7)117(11,4)

38(3,7)17(1,7)16(1,6)

1024(100)

RV+0/50,6 =0

1,8/8,4 =0,211,4/22,7 =0,524,6/11,4= 2,223,7/3,7 =6,414,9/1,7 =8,8

23,7/1,6 =14,8

Tabela 5.4 - Chance e probabilidade de câncer de endométrio de acordo com espessuraendometrial à ultrassonografia

Espessura endométrio(mm)<4,05,06,0-1011-1516-2021-25>26

Chance pré-teste

1/91/91/91/91/91/91/9

RV

00,20,52,26,48,8

14,8

Chance pós-teste

00,022=1:450,055=1:180,25=1:400,71=1:1,4

1,00=1:1,001,64=5:3

Probabilidadeda doença

0%2,15%5,21%20,0%41,5%50,0%

Notas: Chance da doença nesta população: 1/9 (114 com doença sobre 1024 sem doença)

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:33 Page 88

Page 69: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 89

Para exemplificar como podemos refinar o diagnóstico diante de um caso clínico específicoe utilizando os conhecimentos obtidos da literatura, vejamos as seguintes situações.

Qual a probabilidade de câncer de endométrio em uma mulher de 62 anos de idade, comhistória de sangramento vaginal, com passado de terapia de reposição hormonal (TRH) comestrógeno, sem uso concomitante de progesterona, por mais de 5 anos e com ultrassonografiaendovaginal mostrando espessura endometrial de 22mm?

A primeira resposta seria consultar a tabela 5.4, e concluir que ela tem cerca de 50%probabilidade do diagnóstico de câncer de endométrio.

No entanto, podemos refinar este diagnóstico e para isto, em primeiro lugar, necessitamossaber qual é a chance pré-teste, ou seja, qual a prevalência da doença nesta faixa etária. Como nãotemos este dado com precisão em relação à população brasileira, usaremos uma chance dereferência.

Segundo Weiderpass et al (4) a chance de uma mulher na pós-menopausa que recebeu terapiahormonal com estrógeno isolado, por mais de 5 anos, de desenvolver câncer de endométrio é de5,60 vezes maior do que uma mulher que não fez a reposição. Na população do estudo, constituídapor mulheres suecas com idade entre 50 e 74 anos, a chance do câncer de endométrio foi de 687casos em 3270 controles sadios (0,21 ou 1:4,8).

Se a nossa paciente pertencer a uma população semelhante à do estudo, podemos concluirque seu risco de estar com câncer de endométrio, considerando o resultado da ultrassonografia, éde 91%.

Como podemos ver, a probabilidade da presença da doença é bem maior do que à primeiraimpressão.

A sequência de cálculos que fornecem esta resposta é de simples execução.Consideremos a chance pré-teste de 1:4,8.Consideremos, também, o aumento de risco devido à TRH de 5,6 vezes; a chance desta

paciente, antes da realização do teste, pode ser calculada como a chance média (1:4,8) multiplicadapelo aumento de risco pela TRH (5,6) → 1:4,8 x 5,6 = 1,17. A chance atual, após o teste, para câncerde endométrio é encontrada multiplicando-se a chance pré-teste (1,17) pela RV do resultado daultrassonografia (8.8) que é igual a 10,3.

A probabilidade atual da doença é fornecida pela transformação de chance em probabilidade,ou seja, 10,3/(10,3+1)=0,91 que corresponde a 91%.

E se esta mesma paciente apresentasse espessura endometrial de 8,8 mm? Consulta à tabela5.4 nos faria supor que a probabilidade do diagnóstico de câncer seria de 5,21%. No entanto,seguindo os mesmos cálculos realizados anteriormente, concluímos que a probabilidade atual dapresença da neoplasia é de aproximadamente 37%.

Estes exemplos nos alertam para a importância da análise das várias características deperformance dos testes diagnósticos.

É pouco provável, contudo, que em situações clínicas tenhamos tempo para cálculos destanatureza. No entanto, existem tabelas e nomogramas que permitem uma apreciação mais rápidada questão. Para um estudo mais aprofundado recomendamos a leitura do artigo de Fagan (5).

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:33 Page 89

Page 70: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

90 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

Referências

1. Orel SG, Kay N, Reynolds C, Sullivan DC. BI-RADS categorization as a predictor ofmalignancy.Radiology. 1999 Jun;211(3):845-50.

2. Greenhalgh T. How to read a paper. Papers that report diagnostic or screening tests.BMJ. 1997Aug 30;315(7107):540-3. Review.

3. Deeks JJ. using evaluations of diagnostic tests: understanding their limitations and making themost of available evidence.Ann Oncol. 1999 Jul;10(7):761-8. Review.

4.Weiderpass E, Adami HO, Baron JA, Magnusson C, Bergström R, Lindgren A, Correia N, Persson I.Risk of endometrial cancer following estrogen replacement with and without progestins.J NatlCancer Inst. 1999 Jul 7;91(13):1131-7.

5. Fagan TJ. Letter: Nomogram for Bayes theorem.N Engl J Med. 1975 Jul 31;293(5):257.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:33 Page 90

Page 71: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

Capítulo 6Artigos sobre Fatores Prognósticos

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 93

Fator prognóstico é qualquer característica do paciente ou do tumor que pode ser usado parase prever a história natural da neoplasia, naquele paciente, em termos de qualquer resultadopreviamente escolhido, como por exemplo, resposta a um tratamento, tempo de sobrevida global, etc.

Há muitas razões para se estudar os fatores prognósticos de uma determinada neoplasia: acapacidade de predição da evolução da doença, a alocação de paciente a grupos de riscodiferenciados, a possibilidade de ajustamento na elegibilidade ou estratificação de pacientesincluídos em estudos clínicos, a possibilidade de ajustes estatísticos que permitam comparaçõesmais adequadas e eventualmente possibilitem escolhas de diferentes tratamentos para gruposdiversos de pacientes(1).

No entanto, a tentativa de correlacionar características de pacientes ou da neoplasia a umdesfecho escolhido não é tarefa fácil, como veremos em seguida.

Chamaremos de covariáveis os fatores e/ou características com possibilidade de associaçãocom o desfecho. Ao desfecho chamaremos de variável de resultado que, em oncologia, éfrequentemente a resposta a um determinado tratamento, o tempo de sobrevivência global ousobrevivência livre de eventos tais como recidiva local ou à distância.

uma das dificuldades dos estudos de fatores prognósticos está na categorização dascovariáveis. Como qualquer variável, elas podem ser classificadas em quantitativas (discretas oucontínuas) e qualitativas (ordinais ou nominais), conforme já descrito no capítulo 3. As variáveis deresultado, por outro lado, geralmente são qualitativas nominais do tipo dicotômico, como porexemplo, resposta ao tratamento (sim ou não) ou variáveis datas, como por exemplo, tempo desobrevida. Cada tipo de variável impõe abordagem estatística diferenciada.

Outra dificuldade é que a análise da correlação entre covariáveis e variável de resultadopertence ao campo de estudo da análise exploratória de dados e não há um modo único, econsiderado ótimo, de se proceder a esta análise(2).

Há, inclusive, controvérsias entre os estatísticos sobre a melhor metodologia a ser utilizada(3).Diante deste cenário, recomendamos ao oncologista leitor de artigos sobre fator prognóstico

que proceda com muito cuidado e que não aceite a conclusão dos autores sem uma criteriosarevisão dos procedimentos médicos e estatísticos utilizados e, se eles se adequam aos critériosdefinidos pelo NCI-EORTC Working Group on Cancer Diagnostics, denominado REMARK (reportingrecomendations for tumor marker prognostic studies)(4), para sua publicação e que estão descritos noquadro 6.1.

6.1 Desenho do estudo

Os estudos ideais de fatores prognósticos são prospectivos, com planejamento detalhadodos objetivos e definição das covariáveis e das variáveis de resultado mais adequadas. Os pacientesdevem ter diagnóstico recente, serem seguidos por tempo suficiente e serem submetidos apenasao tratamento padrão ou, quando possível, a nenhum tratamento.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:34 Page 93

Page 72: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

94 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

No entanto, devido ao custo elevado e o longo tempo necessário à observação, os estudosprospectivos são raros em oncologia. Na maioria das vezes os estudos são retrospectivos baseadosem dados armazenados, que tem a vantagem de serem baratos e possuírem tempo longo deobservação, mas a desvantagem de que as informações clínicas podem ser incompletas(3).

Este tipo de estudo apresenta vários problemas metodológicos, mas o mais importante é odado faltante, principalmente quando as análises são baseadas em técnicas de regressão, comoveremos mais à frente.

De um modo geral, considera-se que os dados devem ser completos para cada covariável emmais de 80% dos pacientes(1). uma das condutas mais utilizadas na presença de dados ausentes emmais de 20% dos registros, é a eliminação da covariável. No entanto, a exclusão de uma covariávelpossivelmente importante, comprometerá o resultado da análise.

QUADRO 6.1 - Recomendações para publicação de estudos de marcadores tumoraisprognósticos (REMARK)(4)

Introdução:1) Definir o marcador examinado, os objetivos do estudo e qualquer hipótese pré-especificadaMateriais e Métodos:

Pacientes:2) Descrever as características (p. ex. estágio da doença ou comorbidades) dos pacientes inclusivea sua origem e os critérios de inclusão e exclusão.3) Descrever os tratamentos recebidos e como foram escolhidos (p, ex. randomização ou não)

Características dos espécimes:4) Descrever tipo de material biológico usado (incluindo amostras de controles) e métodos depreservação e armazenamento.

Métodos de ensaio:5) Especificar o método de ensaio utilizado e fornecer (ou citar) um protocolo detalhado incluindoreagentes ou kits usados e os procedimentos de controle de qualidade, critérios dereprodutibilidade e métodos de qualificação. Especificar se, e como, os ensaios foram feitoscegamente em relação à variável de resultado do estudo.

Desenho do estudo:6) Definir método de seleção dos casos (incluindo se prospectivo ou retrospectivo) e seestratificação ou agrupamento (p. ex. por estágio ou idade) foram usados. Especificar o períodode tempo em que os casos foram incluídos, o fim do período de acompanhamento e tempomediano de observação.7) Definir precisamente todas as variáveis de resultado usadas.8) Listar todas as variáveis inicialmente examinadas ou consideradas para inclusão nos modelos.9) Fornecer racional para o tamanho da amostra.

Métodos de análise estatística:10) Especificar todos os métodos incluindo detalhes de qualquer procedimento de seleção devariável e outras questões relacionadas à construção do modelo: como os pressupostos dosmodelos foram classificados e qual o tratamento para os dados faltantes.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:34 Page 94

Page 73: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 95

6.2 Tamanho da amostra

O estudo do fator prognóstico é enquadrado, como vimos anteriormente, nos casos de análiseexploratória de dados, o que significa que várias comparações entre eles é realizada. Tal condutaaumenta a chance de que uma correlação falsa apareça como verdadeira por puro acaso.

Existem vários métodos de se calcular o tamanho da amostra dependendo do tipo dacovariável, da variável de resultado escolhida, do tamanho do efeito esperado, da técnica estatísticaempregada e da prevalência do fator prognóstico principal na amostragem. Para um estudo maisaprofundado recomendamos a leitura do texto de Simon e Altman (3).

Quando se usa modelos de regressão – na realidade os modelos mais citados na literatura –uma regra básica é que o número de eventos seja igual ou maior do que 10 vezes o número decovariáveis a serem avaliadas(5), quando a variável de resultado for binária, ou 15 vezes quando avariável de resultado for tempo até ocorrência de um evento, como por exemplo, a sobrevida(6). Estaé uma orientação geral para o oncologista leitor embora não isenta de controvérsias; na realidadehá uma técnica de cálculo do tamanho da amostra para cada análise específica de regressão.

Para que um estudo de fator prognóstico possa ser considerado de boa qualidade, as técnicasde cálculo do tamanho da amostra devem ser definidas, com clareza, na secção material e métodos.

11) Definir como os valores do marcador foram manejados na análise; se relevante, descrevermétodos para a determinação de pontos de corte.

Resultados:Dados:12) Descrever o fluxograma dos pacientes no estudo, incluindo o número incluído em cadaestágio da análise e razões para a sua retirada. Relatar especialmente o número total depacientes, e em cada subgrupo, e o número de eventos.13) Relatar as características demográficas básicas (pelo menos idade e sexo), variáveisprognósticas doença-específicas conhecidas e o marcador tumoral, incluindo valores faltantes.

Análise e apresentação:14) Mostrar a relação do marcador com as variáveis prognósticas conhecidas.15) Apresentar análise univariada mostrando a relação entre o marcador e a variável de resultadocom o efeito estimado (p. ex. razão de risco e probabilidade da sobrevivência). Fornecer, depreferência, análises semelhantes para todas variáveis. Para variável de resultado do tipo tempo-até-evento a inclusão da curva de Kaplan-Meyer é recomendada.16) Para as análises multivariadas relatar o efeito estimado com intervalos de confiança.17) Entre os resultados relatados, fornecer o efeito estimado com intervalo de confiança de umaanálise na qual o marcador e as variáveis prognósticas conhecidas sejam incluídas, independentedo seu significado estatístico.18) Se realizado, relatar outras investigações tais como avaliação de pressupostos, análise desensibilidade e estudos de validação interna.

Discussão:19) Interpretar os resultados no contexto das hipóteses predefinidas ou outros estudosrelevantes; incluir a discussão das limitações do estudo.Discutir implicações para pesquisa futura e o valor clínico dos resultados.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:34 Page 95

Page 74: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

96 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

6.3 Identificação dos fatores prognósticos

Existem vários métodos de identificação de fatores prognósticos dependendo do tipo edistribuição das covariáveis, do tipo de variável de resultado e do objetivo do estudo (se apenasidentificar um fator correlacionado ao prognóstico ou otimizar decisões terapêuticas)(6).

O tema é extenso e não cabe neste contexto a análise de todas as possibilidades. De um modogeral, em oncologia, são utilizados modelos de regressão e o método da partição recursiva cujoresultado é uma árvore de classificação também denominada de árvore de decisão(5,6).

6.3.1 Modelos de RegressãoRegressão é um método de estimativa da relação numérica entre variáveis. O termo foi

cunhado por Galton (1886) em estudos da altura de pessoas em uma população; ele verificou quehavia uma tendência dos valores se acumularem em torno da média, o que equivale dizer que paismuito altos tinham filhos menores e pais muito baixos, filhos maiores. Este fenômeno foidenominado de regressão em direção à média.

De um modo geral os métodos de regressão determinam como mudanças em uma variávelafetam o comportamento de outra variável (ou outras), sendo que o coeficiente de regressão é ovalor numérico que define a relação entre as variáveis e o efeito na variável de resultado(2).

Os modelos de regressão mais utilizados são regressão logística quando a variável deresultado for binária e regressão de riscos proporcionais (o modelo de Cox é o mais utilizado)quando a variável de resultado for tempo até ocorrência de eventos e os dados são censurados(por exemplo, sobrevida).

Como vimos anteriormente, os métodos de regressão não funcionam muito bem quando onúmero de covariáveis é muito grande. Portanto, a primeira tarefa é a eliminação daquelasnitidamente não associadas ao prognóstico, para simplificar as análises subseqüentes.

A principal técnica de redução de dados é a regressão de componente principal incompletaque utiliza técnicas matemáticas complexas e que fogem ao escopo deste texto. É muito usada napesquisa de genes como fatores preditores, onde geralmente tem-se um número muito grandede covariáveis e poucos pacientes estudados. Harrel et al (5) consideram que os modelos deregressão baseados na análise dos componentes principais incompletos são mais estáveis, mesmoquando a amostragem é pequena.

Esta técnica tem como principais desvantagens o fato do modelo ser de difícil interpretaçãoe que, como cada variável recebe um peso, pode ser difícil decidir qual deve ser eliminada(5).

Outra técnica é a análise univariada que consiste em avaliar cada variável, isoladamente, emrelação à variável de resultado e eliminar aquelas que não apresentam correlação. Outro objetivoda análise univariada é caracterizar melhor cada covariável com relação a pontos de corte oucategorias(1).

uma das desvantagens é o uso do valor p (significância estatística) como critério para eliminaras variáveis. De um modo geral, quando o número de covariáveis é muito grande e muitos testesdeverão ser feitos, recomenda-se o valor de p>0,01 como critério de eliminação(1).

A análise propriamente dita é chamada de análise multivariada, porque consiste no estudodo efeito de cada covariável levando-se em consideração as demais covariáveis. O objetivo éidentificar aqueles fatores que influenciam o prognóstico de uma neoplasia de forma independente,ou seja, que não são correlacionados uns aos outros.

A análise de regressão passo-a-passo (stepwise regression analysis) é o método maisempregado, em oncologia, embora com algumas restrições(7,9), para seleção do melhor modelo.Pode ser realizada através de uma seleção anterógrada (forward selection) na qual a primeira

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:34 Page 96

Page 75: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 97

covariável incluída no modelo é aquela associada à variável de resultado com maior significânciaestatística. A próxima covariável a ser adicionada é aquela que é mais significativa após o ajuste paraa presença da primeira covariável. E assim sucessivamente até que a adição de algum novo fatornão mais apresente significância estatística (p<0,05). Outra técnica é denominada de eliminaçãoretrógrada (backward elimination) onde todas as covariáveis são adicionadas ao modelo para, então,serem eliminadas progressivamente aquelas de menor significância até que todas as covariáveisrestantes sejam consideradas importantes.

Eventualmente estes dois métodos podem produzir modelos diferentes(3).Estudos comparativos com outros métodos de regressão revelaram que a análise passo-a-

passo é valida quando a amostragem é grande e quando a relação entre o número de eventos deinteresse (por exemplo, óbito) e o número de covariáveis for maior do que 10:1(5).

6.3.2 Modelos de partição recursivaPartição recursiva (PR) é uma técnica não paramétrica usada para definir subgrupos

prognósticos com a finalidade de produzir um modelo de fácil aplicabilidade na prática clínica(6).Em termos gerais, PR é um método de análise de dados para relacionar uma variável dependente(Y) a uma coleção de variáveis independentes, ou preditores (X), com o intuito de descobrir, ouentender, a relação Y=f(X).

A análise inicia-se com a identificação de uma covariável que melhor divida (partilha) o grupototal de pacientes em dois subgrupos com o prognóstico mais diferente possível. Para tal, cadacovariável e seus vários possíveis pontos de corte são tratados em relação à variável de resultadoaté que uma correlação com o menor valor p seja escolhida, desde que este valor seja <0,05.

O processo é repetido separadamente para cada um dos dois subgrupos, inicialmente obtidos,para as covariáveis restantes. A repetição deste processo de divisão sucessiva (recursão) dá origema uma estrutura com aspecto de árvore e é realizada até que uma regra de parada, previamentedeterminada, seja obtida. De um modo geral, os dois critérios de parada mais comumente usadossão o valor p (interrompe-se quando o valor de p for >0,05, ou seja, não haja diferença estatísticaentre os subgrupos) ou o número mínimo de pacientes em um dos subgrupos. Às terminaçõesindivisíveis dos ramos chama-se de nodos(5).

Ao término do processo vários nodos com características diferentes são definidos podendodar origem a uma árvore complexa e de pouca utilidade. Os vários ramos são, então, podados emum processo que agrupa nodos com relações semelhantes à variável de resultado, ou seja, nodoscom resposta objetiva ou com sobrevida semelhantes, por exemplo(7).

Este processo de poda reduzirá as opções a poucos subgrupos prognósticos que, emborapossa ter características diferentes, certamente têm a mesma relação com a variável de resultado.

Langendijk et al (8) fornecem um bom exemplo do uso desta técnica na definição do grupo derisco em 810 pacientes com câncer de cabeça e pescoço tratados com cirurgia e radioterapia pós-operatória(8). O uso desta metodologia deu origem à arvore descrita na figura 6.1, sendo que avariável de resultado foi o controle loco-regional (CLR) em 5 anos.

Para todos os pacientes, o CLR em 5 anos foi de 77% e o fator com o maior valor da estatísticafoi condição da margem cirúrgica (teste log-rank= 20,02; p<0,0001) dividindo o grupo em margemcirúrgica livre de neoplasia (CLR em 5 anos em 82% dos 521 pacientes) e margem cirúrgica exíguaou acometida (CLR em 5 anos em 66% dos 280 pacientes).

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:34 Page 97

Page 76: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

98 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

O processo prossegue até que nenhuma partição adicional seja possível e sete nodos finaisforam obtidos. Agrupando nodos de resultados semelhantes (poda), os autores definiram trêsgrupos de risco assim denominados:

1. Classe I (risco intermediário): margem cirúrgica livre e sem extensão extranodal; CLR em 5anos em 91% de 234 pacientes;

2. Classe II (alto risco): T1, T2, e T4 com margem acometida ou exígua ou metástase em 1linfonodo com extensão extranodal; CLR em 5 anos em 78% de 336 pacientes;

3. Classe III (risco muito alto): T3 com margem acometida, ou exígua, ou vários linfonodosacometidos com extensão extranodal ou N3; CLR em 5 anos em 58% de 231 pacientes.

um achado contra-intuitivo e que os autores não souberam explicar é o melhor prognósticode pacientes com neoplasia classificada como T4 em relação a T3.

O modelo de PR tem como qualidades a produção de grupos de risco que permitem prediçõesmais próximas da realidade da decisão clínica(8), não sofre com o problema dos dados ausentes(6)

e é uma técnica flexível e não paramétrica. E, mais importante, permite uma análise em categoriahierarquizada tornando possível a identificação dos fatores que teriam importância prognóstica emalguns subgrupos, mas não seriam relevantes quando se considera toda a população em estudo(7).

As principais desvantagens da PR são a produção eventual de estruturas muito complexas, de difícilpoda e interpretação, a necessidade de transformar variáveis contínuas em dicotômicas, o que poderesultar em perda de informação e a incapacidade de avaliar a importância de uma covariávelisolada(6,7).

FIGURA 6.1 - Árvore de classificação obtida por partição recursiva em pacientes comcarcinoma espinocelular de cabeça e pescoço tratados com cirurgia e radioterapia pós-operatória.% = probabilidade de controle locoregional da doença

Fonte: Obtido, com modificações, a partir de Langendijk et al (8).

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:34 Page 98

Page 77: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 99

6.4 Validação

uma vez concluído um modelo, é necessário avaliar sua capacidade de predição do resultadoem novos pacientes, ou seja, necessita ser validado.

Os dois métodos mais utilizados para validação são a discriminação e a calibração. As maneirasmais comuns de proceder são a validação externa e a interna.

6.4.1 Métodos de validaçãoDiscriminação é a determinação da capacidade do modelo em classificar ou separar pacientes

com diferentes comportamentos em relação à variável de resultado(6).Harrel et al(5) propuseram um método de avaliar a discriminação que denominaram de índice

de concordância ou índice C que definiram como a probabilidade de que, para qualquer par depacientes escolhidos aleatoriamente, aquele com melhor resultado real é exatamente o que possuio melhor resultado previsto. Esta operação é repetida várias vezes e um índice de concordânciaentre as partes é calculado. Quando C é igual a 0,5 não há discriminação, ou seja, a distribuiçãoocorre por acaso e quando seu valor é 1,0 há discriminação perfeita(9).

Quando a variável de resultado é dicotômica, o índice C é idêntico à área sob a curva ROC domodelo.

um dos problemas deste método é decidir o quanto de discriminação deve ser consideradapara justificar o uso de um determinado modelo? Não há uma resposta estatística para estaquestão; considerações clínicas são fundamentais para a decisão de qual o índice C adequado a cadasituação. Em um artigo científico de boa qualidade os autores devem assinalar qual o índice C foiconsiderado adequado e por qual motivo.

Calibração, às vezes denominada de confiabilidade, diz respeito ao grau de concordânciaentre o resultado previsto pelo modelo e aquele realmente obtido na prática(5,6,9).

FIGURA 6.2 - Gráfico hipotético da calibração de modelos preditivos

A figura 6.2 mostra um gráfico hipotético de calibração onde no eixo X são colocados os valoresprevistos pelo modelo e no eixo Y aqueles valores realmente encontrados na prática. A linha cheiamostra calibração perfeita, ou seja, o que foi previsto foi realmente encontrado. Por outro lado alinha pontilhada revela que o modelo subestimou o resultado nos pacientes com baixo risco, masapresentou calibração adequada para aqueles de alto risco(9).

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:34 Page 99

Page 78: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

100 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

De um modo geral recomenda-se avaliar a capacidade de discriminação e a calibração paracada modelo preditivo. No entanto, em algumas situações pode haver conflito entre os doismétodos e não há regra de conduta definida para estas situações (9). A decisão final deve levar emconsideração a situação clínica no qual o modelo preditivo será empregado.

um estudo de boa qualidade deve discutir estas questões e justificar a decisão final.

6.4.2 Procedimentos de validaçãoPara avaliar a qualidade de um modelo preditivo, o ideal seria desenvolvê-lo em uma

amostragem que é denominada de treinamento e testá-la em uma amostragem de validaçãodenominada de teste (5).

Existem dois tipos de procedimentos de validação: a externa e a interna:

I - Validação externa:O modelo é desenvolvido em uma amostragem e o teste é realizado em outra amostragem

independente da primeira.Embora seja o procedimento considerado ideal ele é raramente realizado devido à sua maior

complexidade e custos.

II - Validação interna:O tratamento e o teste são feitos na mesma amostragem e para evitar viés, algumas

estratégias são utilizadas:A) Divisão de amostragem:A amostragem é dividida, a priori, nos subgrupos de treinamento e de teste. O risco desteprocedimento é a possibilidade de desequilíbrio na distribuição de covariáveis ou variável deresultado, entre os dois subgrupos, o que produziria uma avaliação inadequada acerca docomportamento do modelo (6).Quando este procedimento for usado deve ser acompanhado de uma avaliação criteriosa dadistribuição de todas as variáveis, entre os dois subgrupos.B) Validação cruzada (cross-validation):É uma forma especial de divisão de amostragem, na qual se define, a priori, a percentagemque será usada como treinamento e como teste. Os dados são então distribuídos aleatoria-mente entre os dois subgrupos. Este procedimento é repetido várias vezes (os autores citamde 100 a 200 repetições) até que praticamente todos os pacientes em algum, momentoparticiparam de ambos os subgrupos.A grande vantagem deste procedimento é reduzir a possibilidade de desequilíbrio nadistribuição entre os subgrupos.C) Bootstrapping:Trata-se de termo sem tradução em português e que denomina um tipo de procedimentoque uma vez iniciado segue seu curso sem ajuda externa. Em estatística o termo é usado emvárias técnicas que são denominadas, no geral, como métodos de re-amostragem.No contexto da validação de modelos preditivos diz respeito à técnica na qual amostras

aleatórias são retiradas da amostragem geral de tal forma que alguns pacientes podem não serincluídos e outros podem sê-lo em mais de uma vez. Em cada amostragem o modelo é calculado.Este processo é repetido inúmeras vezes (1000, 10.000, etc) dependendo da situação clínica e donúmero de variáveis no modelo. um gráfico final é produzido e comparado com a capacidadepreditiva do modelo de treinamento.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:34 Page 100

Page 79: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 101

6.5 Conclusões

um exemplo interessante do uso destas técnicas foi publicado por van Dijk et al (10) quereavaliaram os procedimentos utilizados para a elaboração da classificação prognóstica doInternational Germ Cell Consensus (IGCC) para pacientes com diagnóstico de tumores germinativosnão seminomatosos.

Os autores construíram três modelos preditivos e os compararam com a classificação do IGCC.um modelo denominado de 5R foi baseado na regressão multivariada de Cox no qual oscoeficientes de regressão foram utilizados para a construção de um sistema de escores. umsegundo modelo, também baseado na regressão de Cox, mas com análise das interações baseadana eliminação retrógrada, foi denominado de 5Ri. E o terceiro modelo baseado na partição recursivacom construção de uma árvore de classificação foi denominado de 5T.

A validação foi do tipo interno usando as técnicas de bootstrapping e a discriminação foirealizada através do cálculo de estatística C.

Os autores encontraram o valor de C de 0,732 para a classificação IGCC, de 0,732 para omodelo 5R, de 0,735 para o modelo 5Ri e de 0,718 para o modelo 5T. uma tentativa de melhorar adiscriminação classificando os pacientes em 5 grupos prognósticos, no lugar dos 3 grupos daclassificação IGCC, mostrou melhora pouco significativa no modelo.

Eles, então, concluíram que a classificação IGCC é adequada para uso clínico, que o modelo 5Rnão acrescentou nenhuma melhora, que o modelo 5Ri teve uma performance superior à do IGCCe que o modelo 5T foi significativamente pior.

Por outro lado o estudo de Langendijk et al(8) e que serviu de exemplo descrito na figura 6.1,mostrou que a partição recursiva produziu um modelo mais útil do que a regressão multivariada.No entanto, este estudo não procedeu a técnicas de validação, o que reduz a força de suasconclusões.

De um modo geral a decisão sobre qual modelo deve ser utilizado depende do objetivo doestudo.

Se a finalidade for identificar um novo fator de possível valor prognóstico em um ambienteonde vários outros fatores já são conhecidos, os modelos de regressão são os mais indicados.

No entanto, se a finalidade do estudo é o auxílio na tomada de decisão clínica, o melhormodelo é o de partição recursiva com a construção de uma árvore de classificação e a definição degrupos de riscos.

Referências

1.George SL. Identification and assessment of prognostic factors.Semin Oncol. 1988 Oct;15(5):462-71.

2. Bland M. Regression and correlation. In: Bland M. (ed). An Introduction to Medical Statistics.Oxford: Oxford university Press, 1987, p. 188-215.

3. Simon R, Altman DG. Statistical aspects of prognostic factor studies in oncology.Br J Cancer. 1994Jun;69(6):979-85. Review.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:34 Page 101

Page 80: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

102 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

4. McShane LM, Altman DG, Sauerbrei W, Taube SE, Gion M, Clark GM; Statistics Subcommittee ofthe NCI-EORTC Working Group on Cancer Diagnostics. Reporting recommendations for tumormarker prognostic studies (REMARK).J Natl Cancer Inst. 2005 Aug 17;97(16):1180-4.

5. Harrell FE Jr, Lee KL, Matchar DB, Reichert TA. Regression models for prognostic prediction:advantages, problems, and suggested solutions.Cancer Treat Rep. 1985 Oct;69(10):1071-77.

6. Halabi S, Owzar K. The importance of identifying and validating prognostic factors inoncology.Semin Oncol. 2010 Apr;37(2):e9-18. Review.

7. Ciampi A, Lawless JF, McKinney SM, Singhal K. Regression and recursive partition strategies in theanalysis of medical survival data.J Clin Epidemiol. 1988;41(8):737-48.

8. Langendijk JA, Slotman BJ, van der Waal I, Doornaert P, Berkof J, Leemans CR. Risk-groupdefinition by recursive partitioning analysis of patients with squamous cell head and neckcarcinoma treated with surgery and postoperative radiotherapy.Cancer. 2005 Oct 1;104(7):1408-17.

9. Vickers AJ, Cronin AM. Traditional statistical methods for evaluating prediction models areuninformative as to clinical value: towards a decision analytic framework.Semin Oncol. 2010Feb;37(1):31-8. Review.

10. van Dijk MR, Steyerberg EW, Stenning SP, Dusseldorp E, Habbema JD. Survival of patients withnonseminomatous germ cell cancer: a review of the IGCC classification by Cox regression andrecursive partitioning.Br J Cancer. 2004 Mar 22;90(6):1176-83.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:34 Page 102

Page 81: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

Capítulo 7Estudos sobre Causalidade e Etiologia

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 105

7.1 Introdução

Relembrando o que foi dito no capítulo 1 os estudos randomizados, também denominadosde experimentos clínicos, são aqueles que fornecem evidência de mais alto nível e geralmentepodemos confiar em suas conclusões. No entanto, na prática nem sempre é possível desenvolverum estudo randomizado para se estabelecer uma causalidade. Então, com freqüência, estudos decausalidade são observacionais.

Nos estudos observacionais não existe manipulação de intervenções diretas sobre ospacientes em estudo. Assim o pesquisador fica limitado à observação dos dados e suas caracte-rísticas, pois ele coleta informações sobre as medidas de interesse, mas não interfere no evento.

Nesse tipo de estudo, os níveis das variáveis explicativas (fatores) são observados pelopesquisador, enquanto nos experimentos clínicos, os níveis das variáveis explicativas (fatores) sãofixados pelo pesquisador.

Os estudos observacionais podem ser divididos em:1) Descritivos : relato de caso ou de série de casos;2) Caso-controle;3) Coorte.

7. 2 Estudos Descritivos

São aqueles que descrevem as características da amostra (variáveis em estudo), sem sepreocupar em estabelecer relações entre elas.

Sua importância está no estudo de doenças raras, na aferição dos resultados de umadeterminada Instituição e na geração de hipóteses a serem testadas pelos outros tipos de pesquisaclínica.

Os critérios para avaliação da sua qualidade são a confiabilidade da Instituição e dos autoresdo estudo, o número de casos estudados em relação à incidência da patologia, a descriçãodetalhada das características da amostragem incluída com especial atenção, em Oncologia, aosfatores prognósticos, a homogeneidade dos tratamentos empregados e a descrição detalhada doscritérios de inclusão e exclusão de pacientes.

A principal característica de um estudo descritivo é a ausência de um grupo de comparação,ou seja, o objetivo é a descrição de um fato médico.

Seguem os estudos que se encaixam nesta classificação:

7.2.1. Estudo de casosO estudo de casos consiste na cuidadosa e minuciosa descrição, por um ou mais médicos, do

diagnóstico e evolução da doença de um pequeno número de pacientes. É o tipo mais básico deestudo clínico e tem grande tradição na medicina. Também serve para elucidar os mecanismos das

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:34 Page 105

Page 82: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

106 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

doenças e dos tratamentos, a partir de estudos clínicos e laboratoriais altamente detalhados emetodologicamente sofisticados de um paciente ou de um pequeno grupo de pacientes.

7.2.2 . Estudo de uma série de casosClínicos usam os dados dos arquivos de suas instituições para produzir artigos que consistem

na apresentação de forma organizada dos resultados dos seus tratamentos preferidos, na descriçãodos pacientes tratados e na divulgação de outras informações que julgam relevantes. Os artigoscom estas características são chamados de estudos de uma série de casos. São de boa qualidadese baseados em um conjunto de casos, onde há uniformidade de tratamento.

Estudos de uma série de casos não fornecem informações confiáveis para comparação entretratamentos, nem podem ser a base para opiniões sobre etiologia. Isto porque não são estudoscomparativos. As opiniões sobre a etiologia, prevenção e terapêutica, freqüentemente encontradasnas conclusões destes artigos, devem ser vistas como o primeiro elo de uma cadeia de evidênciasa serem obtidas, e não como opinião definitiva. Mesmo com estas limitações, estes estudos sãofundamentais para o avanço do conhecimento médico em patologias raras.

7.2.3 . Dados institucionais Com este nome agrupamos os estudos que apresentam dados coletados por instituições

estatais, como por exemplo, o “Registro Nacional de Patologia Tumoral“, publicado pelo Ministérioda Saúde, em que um total de 442 laboratórios espalhados por todo o território nacional contribuiucom mais de meio milhão de diagnósticos que foram codificados e compilados. Apesar destapublicação não apresentar todos os diagnósticos durante um dado período de tempo, nem umaamostra probabilística, gera muita informação útil. De forma particular, destaca-se a distribuiçãorelativa por idade, sexo e local do câncer.

7.3 Estudos Caso-controle

O estudo caso-controle é um estudo observacional retrospectivo, isto é, os dados são coletadosa partir de informações do passado, através da análise de registros, entrevistas e assim por diante.O objetivo desse estudo é identificar a freqüência com que ocorrem as exposições nos diferentesgrupos (casos e controles). Os indivíduos de uma mesma população são selecionados para o estudoem função da presença ou não da característica de interesse (casos ou não-casos = controles). Estacaracterística de interesse geralmente é alguma doença, mas não é uma regra ser uma doença.

Este tipo de estudo parte da doença e estuda a exposição, visando a busca de fatores de risco.Podem ser divididos em dois subtipos:

• Não-pareado: formação dos grupos de casos e controles de forma independente; no entanto,em sua totalidade os dois grupos apresentam características comparáveis

• Pareado: emparelhamento em que há um controle específico bem definido atribuído paracada caso, semelhante em relação às características que poderiam influenciar nos resultados finais,como sexo, idade, etc.

O estudo caso-controle é aplicado em identificação de fatores prognósticos de uma doença,estudos do impacto de intervenções diagnósticas ou terapêuticas, entre outros. Esse estudo é umaalternativa ao estudo de coorte (que será mencionado a seguir) na investigação das associaçõesexposição-doença

Em um estudo caso-controle, os indivíduos com e sem a característica ou doença de interessesão escolhidos pelo pesquisador. Assim, a probabilidade de doença (prevalência) nos grupos

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:34 Page 106

Page 83: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 107

exposto e não-exposto não pode ser determinada. No entanto, pode-se calcular a probabilidadede exposição para ambos os casos e controles. A comparação das chances de exposição entre casose controles é a forma de avaliar a associação entre exposição e a característica ou doença deinteresse. Portanto, não é possível,como vimos no capítulo 3, o uso do risco relativo como variávelde resultado neste tipo de estudo. Deve-se usar, então, a razão das chances.

Há algumas vantagens e desvantagens no estudo caso-controle. As vantagens desse estudosão listadas abaixo:

• É útil para estudar eventos raros ou com longo período de indução e exposições freqüentes;• Permite tamanhos de amostras relativamente pequenos;• Exige pouco tempo em sua execução;• É muito útil na identificação de fatores de risco que possam auxiliar na determinação da

etiologia de doenças novas;• É relativamente barato comparado com o estudo de coorte (que será mencionado a seguir).

Tanto o custo quanto a operacionalização são mais baratos, principalmente para doenças raras ecom longo período de indução.

As desvantagens desse estudo são listadas a seguir:• Pode ser difícil de determinar se a exposição precedeu a doença, bem como o nível de

exposição (viés de memória levando a viés temporal);• Em algumas situações é difícil definir a população fonte e o grupo controle adequado. Deve-

se ter cuidado na seleção de indivíduos do grupo controle para que não sejam selecionadoscontroles não representativos da população de referência;

• Não proporciona estimador de prevalência ou incidência;• Inapropriado quando não se conhece o resultado de interesse ao começo do estudo ou

quando o resultado é uma variável contínua.

Exemplo de um estudo caso-controle (PAGANO e GAuVREAu, 2004): Considere os dados de umestudo caso-controle para avaliar fatores de risco para o câncer de mama. Esse estudo examina os efeitosdo uso de contraceptivos orais. Em um estudo caso-controle, os investigadores iniciam pela identifi-cação dos grupos de indivíduos com a característica ou doença de interesse (casos) e sem a caracte-rística ou doença (controles) e retornam no tempo para determinar se a exposição em questão estavapresente ou ausente para cada indivíduo. Entre as 989 mulheres que tinham câncer de mama, 273usaram previamente contraceptivos orais e 716 não usaram. Das 9.901 mulheres que não tinhamcâncer de mama, 2.641 usaram previamente contraceptivos orais e 7.260 não usaram. Assim, comoenunciado no capítulo 3, a razão de chances (OR) de desenvolvimento do câncer de mama é dada por:

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:34 Page 107

Page 84: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

108 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

uma razão de chances de 1,05 implica que as mulheres que usaram contraceptivos orais têmchance de desenvolver câncer de mama que é somente 1,05 vezes maior do que a chance das quenão usaram, conforme as conclusões do estudo acima citado.

7.4 Estudos Coorte

Em um estudo de coorte os grupos (chamados coortes) que compartilham fatores comuns deexposição, como por exemplo, fumantes e não fumantes, são acompanhados ao longo do tempoe periodicamente investigados por pesquisadores que vão coletando e agrupando prospectiva-mente vários dados sobre estes grupos de pessoas.

Nestes estudos parte-se da exposição em busca da avaliação do desfecho (por exemplo, aocorrência de uma doença). Se uma associação entre exposição e desfecho for encontrada, suamagnitude pode ser descrita em termos de risco relativo, por exemplo.

O estudo de coorte também é conhecido como estudo de incidência, estudo longitudinal oude seguimento. É utilizado para avaliação da etiologia de doenças (por exemplo, associação entrehábito de fumar e câncer de pulmão), avaliação da história natural de doenças (por exemplo,evolução de pacientes com HIV positivo), entre outros estudos. Eles são prospectivos, mas podem,eventualmente, ser retrospectivos (históricos)

Em estudos de coorte a população referência é definida segundo a situação de exposição,sendo seguida para a observação da ocorrência de casos novos da característica ou doença deinteresse. A maioria dos estudos de coorte tem como objetivo primário comparar a incidência dacaracterística ou doença de interesse entre indivíduos expostos e não expostos, a partir do cálculode medidas de associação baseadas em diferenças ou em razão de incidências.

Há algumas vantagens e desvantagens no estudo de coorte. As vantagens desse estudo sãolistadas abaixo:

• A exposição precede a característica ou doença de interesse, o que torna ausente aambigüidade temporal;

• Permite o cálculo direto das medidas de incidência nos grupos de expostos e não expostose a avaliação de exposições raras;

• É menos sujeito a erros de seleção do que o estudo caso-controle;• Podem ser avaliadas várias características de interesse. As desvantagens desse estudo são listadas a seguir:• Geralmente é caro e difícil de operacionalizar;• É ineficiente para doenças raras e com longo período de indução;• Os resultados do estudo podem ficar comprometidos caso ocorra perda de participantes ao

longo do seguimento;• É menos indicado para avaliação de intervenções (terapêuticas ou preventivas), devido ao

fato de não ser realizada alocação aleatória destas, que faz com que fatores de seleção econfundimento não controlados possam comprometer o estudo.

Exemplo de um estudo de coorte (PAGANO e GAuVREAu, 2004): Considere um estudo queexamina os fatores de risco para o câncer de mama entre as mulheres que participaram do 1ºLevantamento Nacional de Exame de Nutrição e de Saúde. Nesse estudo há dois grupos: mulheresque deram à luz pela 1ª vez com 25 anos ou mais (expostas ao câncer de mama) e mulheres quederam à luz pela 1ª vez com menos de 25 anos (não expostas ao câncer de mama). Em uma amostrade 4.540 mulheres que deram à luz seus primeiros filhos antes de 25 anos, 65 desenvolveram o

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:34 Page 108

Page 85: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 109

câncer de mama. Das 1.628 mulheres que deram à luz seus primeiros filhos com 25 anos ou mais,31 desenvolveram o câncer de mama. Assim, conforme descrito no capítulo 3, o risco relativo (RR)de desenvolvimento do câncer de mama é dado por:

um risco relativo de 1,33 implica que as mulheres que deram à luz pela 1ª vez com 25 anosou mais têm uma probabilidade de desenvolver câncer de mama 33% maior do que aquelas quederam à luz com menos de 25 anos, segundo os resultados do estudo acima citado.

7.5 Conclusões

Como foi dito no início deste capítulo, os experimentos clínicos produzem evidências de altonível, o que significa que a correlação entre o fator causal e o efeito em estudo apresenta um altograu de confiabilidade. No entanto, em oncologia raramente é possível desenhar um estudorandomizado para estabelecimento de causalidade.

O próximo tipo de estudo, em grau de confiabilidade, é do tipo coorte. O principal risco destedesenho é a não uniformidade das coortes em relação a fatores não diretamente ligados aoresultado, mas que podem influenciar no desfecho. Por exemplo, em um estudo correlacionandoatividade física com a ocorrência de infarto do miocárdio, é fundamental que as coortes sejamequilibradas em relação à idade, porque é mais provável que pessoas mais jovens tenham atividadefísica mais intensa e sejam menos propensas ao infarto sem que uma condição tenha qualquerrelação com a outra.

Antes de se aceitar uma relação de causa e efeito detectada por um estudo coorte, éfundamental avaliar sua consistência, ou seja, se o estudo foi repetido por outros autores e se osresultados são semelhantes.

Os estudos caso-controle por estarem sujeitos a vieses de vários tipos, não devem serutilizados, a rigor, como fonte de estudo de causalidade. São exceções, contudo, as patologias deocorrência rara ou como um estudo inicial antes que um estudo coorte ou experimento clínicopossa ser realizado. Esta prática é comum e saudável, uma vez que o estudo caso-controle é maisrápido de ser realizado e é mais barato. Não é recomendável, no entanto, aceitar suas conclusõescomo verdade e se basear nelas para tomada de decisões sobre causalidade.

Referências

1. Pagano M, Gauvreau K. Princípios de Bioestatística. São Paulo: Pioneira Thomson Learning, 2004.

2. Trout KS.How to read clinical journals: IV. To determine etiology or causation. Can Med Assoc J.1981 Apr 15;124(8):985-90.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:34 Page 109

Page 86: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

110 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:34 Page 110

Page 87: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

Capítulo 8Estudos sobre Decisão TerapêuticaExperimento Clínico

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 113

8.1. Princípios gerais

um ensaio clínico ou experimento clínico é um estudo planejado em voluntários humanosdesenhado para avaliar a efetividade de uma ou mais formas de tratamento, ou intervençãomédica.

Esses experimentos podem ser conduzidos para avaliar qualquer intervenção que pode serconsiderada um tratamento em potencial, como por exemplo: drogas, procedimentos cirúrgicos,dietas, etc.

A pesquisa clínica foi iniciada cerca de 60 anos atrás, com um ensaio para comparar estrep-tomicina associada com repouso versus somente repouso no tratamento de tuberculose pulmonar(MRC, 1948).

Quando um ensaio clínico é conduzido com um medicamento, o processo é dividido em fasescom objetivos específicos e seguindo padrões de segurança ditados por convenções internacionais.

Assim que todas as etapas forem realizadas, as autoridades regulatórias avaliam os resultadose registram o fármaco, que poderá ser prescrito por médicos e dentistas, se os resultados foremsatisfatórios.

8.2 Principais tipos de estudos em oncologia

A validação de uma nova droga se dá ao longo de várias etapas: pré-clínica e clínica. Omomento pré-clínico é aquele em que o fármaco é testado em laboratórios e em animais deexperimentação (seguindo normas de proteção a esses animais, que se não forem satisfeitas, podelevar ao cancelamento do estudo), antes de serem testados em seres humanos e tem como objetivoprincipal verificar como esta substância se comporta em um organismo. O momento clínico éaquele em que o fármaco é testado em seres humanos e é composto por quatro fases sucessivas.

Fase I conhecida como farmacologia clínica e toxicidade, fase II conhecida como investigaçãoclínica inicial (investiga eficácia e segurança do fármaco), fase III conhecida como avaliação dotratamento em escala total e fase IV conhecida como vigilância pós-marketing. Após resultadossatisfatórios na fase III, o medicamento pode ser aprovado pelas entidades regulatórias do país.

Segue abaixo a descrição de cada fase de um estudo clínico.

8.2.1 Fase IO objetivo principal desta fase é avaliar a segurança do fármaco que está sendo testado pela

primeira vez em seres humanos. Nesta fase, o fármaco é testado em doses crescentes, geralmenteem pequenos grupos de voluntários sadios (10 a 30 pessoas). Dependendo do fármaco estudado,os pacientes não precisam necessariamente ser sadios. Em oncologia, especialmente, devido ao

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:35 Page 113

Page 88: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

114 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

grande risco de toxicidade da maioria das drogas, os indivíduos voluntários em geral têm neoplasiaincurável. No entanto, devem estar necessariamente em boas condições clínicas e com funçõesorgânicas preservadas. Se o fármaco se mostrar seguro na fase I, pode-se prosseguir para a fase II.

8.2.2 Fase IIOs objetivos desta fase são avaliar a eficácia de um medicamento ou esquema terapêutico (às

vezes denominado de estudo fase IIA) ou identificar um tratamento promissor a ser testado emestudos fase III (fase IIB).

De um modo geral, um estudo fase II inclui um número maior de pacientes do que os estudosfase I, mas bem menor do que os de fase III (geralmente 70 a 100 pacientes).

O desenho deste tipo de estudo, classicamente, inclui apenas um grupo terapêutico cujosresultados são comparados com um grupo histórico. Devido à alta probabilidade de resultadosfalso-positivos (de fato, em oncologia, até 60% dos esquemas considerados promissores emestudos fase II não mostraram superioridade em estudos fase III) (1), ao grande número de novasdrogas a serem testadas e aos recursos limitados, foi proposto o desenho denominado estudo faseII randomizado.

Cannistra, em editorial do Journal of Clinical Oncology de julho/2009, afirma ser necessária acriação de roteiros para a publicação de estudos fase II semelhantes ao CONSORT para aqueles defase III(2). Neste ínterim, ele propõe algumas orientações para a submissão de artigos naqueleperiódico.

O referido autor classifica os estudos randomizados de fase II em três grupos principais:1º - Desenho de seleção randomizada: neste modelo não há comparação com tratamento

padrão, mas os pacientes são aleatoriamente designados para dois ou mais grupos experimentais,geralmente avaliando doses diferentes de um mesmo medicamento ou esquemas diversos deadministração. O melhor subgrupo é escolhido, baseado em um critério de resposta previamentedeterminado e sem rigor estatístico para a definição de um resultado inegavelmente superior. Oescolhido é, então, encaminhado para estudo de fase III.

2º - Desenho de comparação randomizada: neste modelo há comparação com tratamentopadrão ou placebo e é um tipo de estudo que se assemelha aos de fase III. No entanto, em nomede maior agilidade na obtenção de resultados, um número menor de pacientes é incluído e apossibilidade de erro tipo I (falso positivo) é elevado, estando na casa dos 10-20% na maioria dosestudos. Devido, ainda, ao menor número de pacientes, este pequeno subgrupo pode não serrepresentativo da população alvo, a estimativa do tamanho do efeito pode ficar comprometidapor fornecer intervalos de confiança muito amplos e uma avaliação mais aprimorada dos efeitoscolaterais pode não ser possível. Por todas estas razões trata-se de estudos para a geração dehipóteses, não servindo para a validação de um novo tratamento. Seu principal objetivo é identificardrogas ou esquemas promissores, com possível alta taxa de sucesso em estudos fase III.

3º - Desenho de interrupção randomizada: neste modelo todos pacientes recebem o trata-mento experimental e dependendo da resposta uma atitude é tomada:

a) pacientes que respondem: o mesmo esquema é mantido;b) pacientes que não respondem: o tratamento é interrompido;c) pacientes com doença estável: são randomizados para prosseguir com o mesmo tratamento

ou receber placebo.

A despeito de todos os cuidados têm sido relatados resultados falso-positivos, em estudosfase II, da ordem de 20% a mais de 40%(3).

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:35 Page 114

Page 89: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 115

8.2.3 Fase IIIO objetivo desta fase é comparar o novo fármaco com o fármaco ou tratamento padrão

existente em um número maior de pacientes (100 a 1.000 pacientes). Nesta fase os estudos sãorandomizados, ou seja, os pacientes são divididos em dois grupos através de um sorteio. Os gruposdesta fase são: controle (recebe o fármaco ou tratamento padrão) e caso ou experimental (recebeo novo fármaco). Os estudos de fase III são realizados algumas vezes para verificar se a combinaçãode dois fármacos é melhor do que a utilização de um fármaco somente. Estudos desta fase sãofreqüentemente referidos como comparative trials ou controlled trials.

Estudos de equivalência, superioridade e de não-inferioridadeEm experimentos clínicos, muitas vezes é de interesse mostrar que a droga não é inferior, é

superior ou é equivalente à terapia padrão que tem demonstrado ser eficaz e segura para aindicação. Este objetivo de equivalência em ensaios clínicos não é incomum, principalmentequando o fármaco estudado é considerado menos tóxico, mais fácil de administrar, ou menosdispendioso do que a terapia padrão. No entanto, em Oncologia os estudos de equivalência nãosão muito utilizados.

Na maioria das vezes, ao compararmos tratamentos, queremos testar se estes são diferentesem relação a alguma variável. Assim, as hipóteses podem ser:

H0: Os tratamentos são iguais X H1: Os tratamentos são diferentes.Rejeitar H0 implica em evidências de que os tratamentos não são similares (aquilo que

desejamos mostrar).

Em um teste de equivalência, temos as seguintes hipóteses:H0: A eficácia do novo tratamento está fora do intervalo que representa similaridade clínica. H1: A eficácia do novo tratamento está dentro do intervalo que representa similaridade clínica.Rejeitar H0 implica em evidências de que os tratamentos são similares.

Em um teste de superioridade, temos as seguintes hipóteses:H0: A eficácia do novo tratamento está abaixo do limite superior do intervalo que representa

similaridade clínica. H1: A eficácia do novo tratamento está acima do limite superior do intervalo que representa

similaridade clínica.Rejeitar H0 implica em evidências de que o novo tratamento é superior ao padrão.

Em um teste de não-inferioridade, temos as seguintes hipóteses:H0: A eficácia do novo tratamento está abaixo do limite inferior do intervalo que representa

similaridade clínica. H1: A eficácia do novo tratamento está acima do limite inferior do intervalo que representa

similaridade clínica.Neste caso, rejeitar H0 implica em evidências de que o novo tratamento é não inferior ao

padrão.

Para os testes de equivalência, não-inferioridade ou superioridade, deve-se estabelecer umvalor que represente uma diferença clinicamente importante, chamada de D.

Passo-a-passo do teste de equivalência:1) Estabelecer a diferença clinicamente importante (D);

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:35 Page 115

Page 90: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

116 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

2) Estabelecer o par de hipóteses H0 e H1:H0: d≤ -D ou d≥ D (A diferença está fora do intervalo considerado clinicamente importante)H1: -D < d < D (A diferença está dentro do intervalo considerado clinicamente importante)Onde d é a diferença populacional entre os tratamentos;3) Escolher a;4) Observar o valor crítico t(1-a) na tabela apropriada;5) Calcular a estatística:

,

onde d é a diferença amostral entre os tratamentos e S é o desvio padrão;6) Rejeitar H0 se o valor da estatística calculada for maior do que o valor crítico da tabela.

Passo-a-passo do teste de superioridade:1) Estabelecer a diferença clinicamente importante (D);2) Estabelecer o par de hipóteses H0 e H1:H0: d ≤ D (A diferença é menor ou igual à clinicamente importante)H1: d > D (A diferença é maior do que a máxima clinicamente importante);3) Escolher a;4) Observar o valor crítico t(1-a) na tabela apropriada;5) Calcular a estatística:

6) Rejeitar H0 se o valor da estatística calculada for maior do que o valor crítico da tabela.

Passo-a-passo do teste de não-inferioridade:1)Estabelecer a diferença clinicamente importante (D);2) Estabelecer o par de hipóteses H0 e H1:H0: d ≤ -D (A diferença é menor ou igual à mínima clinicamente importante)Ha: d > -D (A diferença é maior do que a mínima clinicamente importante);3)Escolher a;4)Observar o valor crítico t(1-a) na tabela apropriada;5)Calcular a estatística:

6) Rejeitar H0 se o valor da estatística calculada for maior do que o valor crítico da tabela.

Resumo das hipóteses alternativas dos testes de equivalência, superioridade e não-inferioridade:

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:35 Page 116

Page 91: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 117

Exemplo (Teste de equivalência): um método de medição do índice cardíaco é a termo-diluição (TD), em que é colocado um cateter no coração. uma proposta de método não invasivo éa bioimpedância (BI) em que um instrumento unido ao paciente pela pele, indica o índice cardíacoatravés de ligações elétricas. BI é clinicamente útil, se ficar provado que é equivalente a TD.

Para julgar que BI é equivalente a TD, foi estabelecido que sua média deve estar dentro de 20%da média de TD, que é conhecida a partir de repetidos experimentos como sendo igual a 2,75L./min./m2. Calculando 20% de 2,75, temos que D = 0,55.

Denominando d = µTD – µBI (diferença entre as médias), como BI não pode ser nem superiore nem inferior a TD, precisa-se de duas faces do teste bilateral:

H0: d ≤ -0,55 ou d ≥ 0,55 X H1: -0,55 < d < 0,55.Em 96 pacientes estudados, a média para BI foi de 2,68 L./min./m2. Podemos, então, calcular

a estimativa de D (d): d = 2,75 – 2,68 d = 0,07, assim como a estatística apropriada, t = 18,1(aproximação para a distribuição t-Student, considerando o desvio padrão de 0,0265):

t=(∆-d)/s=(0,55-0,07)/0,0265=18,1Estabelecendo a= 5%, temos o valor de 1,66 para t0,95. Como t = 18,1 é maior do que t0,95,

rejeita-se H00 ao nível de significância de 5%, isto é, há evidências para aceitar a equivalência entreos métodos.

8.2.4 Fase IVNesta fase os estudos são realizados para se confirmar que os resultados obtidos na fase III são

aplicáveis em uma grande população doente, pois aqui o fármaco já foi aprovado para sercomercializado. A vantagem dos estudos desta fase é que eles permitem acompanhar os efeitos dosmedicamentos em longo prazo e em grandes amostras, permitindo achados relevantes para novasindicações do fármaco.

8.3. Avaliação da qualidade do experimento clínico

De acordo com Carneiro(4), para avaliar a qualidade de um experimento clínico, deve-severificar uma série de questões com relação à validade, importância e aplicabilidade dos resultados.

Validade dos resultados:1) Verificar se a quantidade de indivíduos com a característica ou doença de interesse foi bem

definida, isto é, se a amostra é representativa da população em geral.2) Verificar se os critérios de inclusão e exclusão são lógicos e claros.3) Verificar se o diagnóstico da doença estava bem caracterizado, pois a definição precisa do

diagnóstico é de fundamental importância nos ensaios clínicos. Se existir alguma incerteza sobreo diagnóstico, esta deverá sempre ser claramente indicada.

4) Verificar se os indivíduos doentes foram aleatorizados, pois em um experimento clínicoválido, os doentes devem ser distribuídos nos grupos de análises (experimentais e controles) combase num processo aleatório imprevisível. A principal vantagem da aleatorização é a distribuiçãodos fatores de confundimento desconhecidos.

5) Verificar se o método de aleatorização foi explicado, pois qualquer que seja o seu tipo, ométodo de aleatorização deve sempre ser descrito.

6) Verificar se a distribuição foi ocultada. Após uma aleatorização bem sucedida torna-senecessário garantir que a distribuição dos doentes nos grupos para os quais foram inicialmentealeatorizados seja feita sem erros.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:35 Page 117

Page 92: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

118 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

7) Verificar se os indivíduos doentes foram analisados nos grupos para os quais tinham sidoaleatorizados inicialmente (análise por intenção-de-tratamento ou intention-to-treat analysis).

8) Verificar se o tamanho da amostra foi estatisticamente calculado, pois o tamanho de umaamostra de um experimento clínico não pode ser definido de qualquer maneira. Deve ser calculadocom rigor, para que o estudo possa provar o que se propôs e, se o resultado final for negativo, nãoter sido por um problema de insuficiência de amostragem. Os fatores levados em consideração nocálculo da amostra são: a porcentagem de resultados esperados em cada grupo, o erro tipo I (nívelde significância, a), o erro tipo II e, para resultados contínuos, a média e o desvio padrão.

9) Verificar se os indivíduos doentes nos grupos em comparação eram semelhantes em termosdos seus fatores de prognóstico conhecidos, pois os grupos devem ser iguais com relação àscaracterísticas demográficas, clínicas, laboratoriais, etc. Porém, mesmo com uma aleatorizaçãocompetentemente desenhada e implementada, pode acontecer que os grupos não estejamequilibrados. Neste caso, deve-se analisar se as diferenças são suficientemente importantes paraanular os resultados ou se, pelo contrário, não influenciam a alocação de causalidade dosresultados.

10) Verificar se, com exceção do tratamento em estudo, todos os indivíduos doentes foramtratados da mesma maneira.

11) Verificar se foi ocultado aos indivíduos doentes o grupo a que pertenciam, isto é, o estudofoi cego.

12) Verificar se foram ocultados aos investigadores os grupos em estudo, pois os investigadoresnão devem saber quais tratamentos administram para cada grupo para evitar o viés de performance.Muitas vezes o conhecimento prévio de qual tratamento o doente irá receber, altera o compor-tamento do investigador responsável pela condução do estudo. Quando pacientes e investigadoresnão sabem qual o tratamento recebido por cada grupo, o estudo é chamado duplo cego.

13) Verificar se foram ocultados aos analisadores dos dados os grupos em estudo,principalmente se a interpretação sobre a evolução dos resultados for subjetiva; neste caso osanalisadores de resultados não poderão saber a qual grupo cada doente pertencia.

14) Verificar se o seguimento (follow-up) final foi superior a 80%. É inevitável que algunsdoentes não terminem o estudo, especialmente se sua duração for longa. Se o número dos quesaem é muito elevado, isto constitui um problema, já que se sabe que os doentes que saem têmum prognóstico diferente dos que permanecem no estudo. Se as razões de abandono não serelacionarem com o prognóstico, então estas saídas poderão não influenciar os resultados.

Importância dos resultados:15) Verificar se a dimensão do efeito terapêutico foi importante. Na definição da importância

dos resultados, existe uma distinção entre a significância estatística e a relevância clínica. Podeexistir um resultado estatisticamente significativo cuja diferença absoluta seja tão pequena quenão tenha relevância clínica.

16) Verificar se a estimativa do efeito é suficientemente precisa. Para determinar a precisão dosresultados é calculado o intervalo de confiança, isto é, o intervalo dentro do qual se espera que ovalor real de uma medida estatística se situe, e que define o nível de confiança respectivo. Quantomenor for o intervalo de confiança, mais precisos são os resultados.

17) Verificar se esse efeito tem importância clínica.

Aplicabilidade dos resultados:18) Verificar se os doentes do estudo são semelhantes aos da prática clínica do médico

individual.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:35 Page 118

Page 93: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 119

19) Verificar se foram considerados todos os resultados clínicos importantes.20) Verificar se os benefícios do tratamento sobrepõem-se aos potenciais riscos e custos da

sua implementação.Concluindo, os experimentos clínicos, como instrumentos de determinação do benefício e

risco de intervenções terapêuticas (farmacológicas ou outras), constituem peças de evidênciaabsolutamente fundamentais para a prática clínica, necessitando, portanto, de uma abordagemsistematizada da sua qualidade metodológica e prática. O esquema proposto por Carneiro(4),apresentado acima, poderá ser de grande utilidade para análise e aplicação dos dados dainvestigação terapêutica.

Referências

1. Kola I, Landis J. Can the pharmaceutical industry reduce attrition rates?Nat Rev Drug Discov.2004 Aug;3(8):711-5.

2. Cannistra SA. Phase II trials in journal of clinical oncology.J Clin Oncol. 2009 Jul 1;27(19):3073-6.

3. Lee JJ, Feng L. Randomized phase II designs in cancer clinical trials: current status and futuredirections.J Clin Oncol. 2005 Jul 1;23(19):4450-7. Review.

4. Carneiro AV. Como avaliar a investigação clínica. O exemplo da avaliação crítica de um ensaioclínico. J Port Gastrenterol. 2008;15(1):30-6.

5.Bussab, W. O.;Morettin, P. A., Estatística Básica. 5ed. São Paulo: Saraiva, 2003.

6. Fonseca JS, Martins GA. Curso de Estatística. 3ed. São Paulo: Atlas, 1982.

7. Pagano M. Gauvreau K. Princípios de Bioestatística. São Paulo: Pioneira Thomson Learning, 2004.

8. Triola MF. Introdução à Estatística. 10 ed. Rio de Janeiro: LTC, 2008.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:35 Page 119

Page 94: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

120 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:35 Page 120

Page 95: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

Capítulo 9Estudos sobre Experimento ClínicoRevisão Sistemática

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 123

9.1.Introdução

Comparação entre diferentes estudos clínicos, com o objetivo de chegar a uma síntese deconhecimento, é prática médica antiga, chamada revisão da literatura. É geralmente apresentadasob a forma narrativa e durante várias décadas este foi o método de sumarizar o conhecimentoobtido através da pesquisa clínica em áreas como epidemiologia, diagnóstico, prognóstico etratamento, de várias doenças.

No entanto, este tipo de revisão é considerado incompleto e pouco preciso devido à ausênciade uma busca estruturada e reprodutível dos artigos, na seleção tendenciosa destes artigos e daausência da análise formal da qualidade de cada um deles, além de fornecer apenas um resumoqualitativo (1).

Devido ao acentuado aumento do número de publicações nos últimos anos, tornou-seimperativa a realização de síntese do conhecimento adquirido e, então, uma nova tecnologia foiintroduzida com o nome de revisão sistemática. Ela baseia-se na adoção de estratégias objetivase reprodutíveis de recuperação dos estudos considerados relevantes, sua avaliação crítica e síntesedos seus resultados. O tratamento quantitativo da integração e análise dos dados é denominadametanálise (2).

Revisão sistemática, segundo Deeks (3), é aquela revisão baseada numa busca rigorosa e amplada literatura sendo que os métodos e critérios usados para localizar, selecionar, avaliar e sintetizaras informações científicas são pré-definidos e relatados explicitamente.

9.2 Tipos de revisão sistemática

Existem vários tipos de revisão sistemática com diferentes indicações e graus de complexidade(3).

I) Revisão bibliográfica ou qualitativa:Neste tipo de estudo, apesar do rigor na recuperação dos artigos e na correta descrição dos

métodos empregados, não é possível uma síntese formal e quantitativa dos resultados. É a únicarevisão factível, quando os grupos de pacientes e/ou os resultados apresentam grande variabilidadeinter-estudos.

Apesar de ser considerada a forma mais simples de revisão sistemática é utilizada parafornecer uma orientação geral sendo usada em temas mais complexos.

II) Revisão metodológica:São revisões sobre a metodologia usada nos artigos científicos, não se importando com seus

resultados. Na prática são estudos visando à revisão do desenho dos experimentos clínicos utilizados paraavaliar uma determinada intervenção ou à revisão da aplicação de um específico método de análise.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:35 Page 123

Page 96: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

124 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

A revisão metodológica é muito importante na detecção de deficiências na qualidade dapesquisa em determinado tema.

III) Revisão exploratória:São revisões com ênfase em fatores que possam modificar a eficácia de um tratamento. Aqui

o objetivo é procurar relações entre resultados de diversos experimentos ou diferenças em cenários,tipos de pacientes incluídos, intervenções (como, por exemplo, dosagens diferentes dos medicamentosutilizados) ou variáveis de resultado.

São estudos que requerem a inclusão de grande número de experimentos, são muitocomplexos e se utilizam de métodos estatísticos especiais denominados meta-regressão para testarassociações.

IV) Revisão sistemática de resultados:É o tipo de revisão sistemática mais comumente utilizada na prática clínica e seus principais

elementos são a rigorosa recuperação de artigos relevantes, a descrição pormenorizada de todosos procedimentos utilizados e tratamento numérico dos dados através de métodos estatísticosdenominados de metanálise.

Este tipo de revisão inclui estudos sobre testes diagnósticos, sobre prognóstico, métodospreventivos e intervenções terapêuticas, sendo, às vezes, também, chamada de revisão sistemáticade intervenção.

Produz conclusões de grande poder estatístico e acentuado valor clínico.O desenvolvimento do nosso tema nos itens subseqüentes diz respeito à revisão sistemática

de resultados.

9.3 Revisão de Resultados

A revisão sistemática de resultados tornou-se uma ferramenta tão poderosa na síntese doconhecimento médico, que um número impressionante de estudos tem sido publicado a cada ano.Estima-se que cerca de 2.500 novas revisões, escritas em inglês, são indexadas anualmente noMedline(4).

Devido às evidências de grande variabilidade na qualidade dos estudos publicados, umconjunto de normas foi desenvolvido em 1999 sob o nome de QuOROM (quality of reporting ofmeta-analysis) para servir de guia para autores interessados em publicar uma revisão sistemática.

Em 2005 ficou evidente que estas normas necessitavam de revisão e ampliação e, em 2009,foi publicada uma atualização sob o nome de PRISMA (preferred reporting items for systematic reviewand meta-analysis)(4). Embora os autores deixem claro que não se trata de uma ferramenta deavaliação de qualidade, toda revisão sistemática para ser considerada de boa qualidade deve conteros 27 itens descritos naquela declaração, bem como seguir as recomendações estabelecidas emcada um dos referidos itens. Aos colegas interessados em aprofundar-se no tema recomendamos aleitura do texto original(4).

Na prática preferimos a abordagem sugerida por Deeks (3) que descreve as principais etapasmetodológicas utilizadas e que servem de orientação para a sua avaliação crítica. Estas etapasestão descritas no quadro 9.1.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:35 Page 124

Page 97: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 125

Os erros mais comuns devem-se ao fato da revisão ser um estudo retrospectivo, ou seja, oconhecimento prévio dos resultados pode influenciar no planejamento e na seleção dos estudosa serem incluídos, a seleção tendenciosa de publicações (publication bias) que privilegia aquelascom resultados positivos e, por último, a variabilidade entre os diferentes trabalhos.

No entanto, cada uma das etapas descritas no quadro 9.1 pode conter fontes de erros eabordaremos cada um destes itens de forma a auxiliar o leitor na avaliação da qualidade dasrevisões sistemáticas.

I) Definição da questão:uma revisão sistemática de boa qualidade baseia-se numa questão clínica bem formulada e

passível de ser respondida. O tipo de questão é que define todos os passos subsequentes.Segundo Counsell (5), uma boa questão clínica deve conter quatro componentes básicos:1º) Caracterização do tipo de paciente envolvido;2º) Definição do tipo de exposição que a pessoa é submetida (por exemplo, fator de risco,

fator prognóstico, teste diagnóstico ou intervenção terapêutica);3º) Relato do tipo de controle com o qual a exposição está sendo comparada;4º) Determinação do tipo de resultado a ser avaliado.A questão deve ser formulada da forma mais concisa e clara possível, tomando-se o cuidado

de torná-la suficientemente específica para ser passível de manejo e a mais ampla possível para terutilidade clínica.

II) Critérios de Inclusão:Revisão sistemática deve sempre ser baseada na melhor evidência disponível, o que significa que

os estudos incluídos devem fornecer respostas à questão formulada da maneira mais precisa possível.Sob este ponto de vista, revisões sobre intervenções terapêuticas ou prevenção devem incluir

experimentos clínicos randomizados, e sempre que for possível, duplo-cegos. Por outro lado,revisões sobre testes diagnósticos devem incluir estudos que comparem, de forma independente,o teste em estudo com um padrão-ouro bem estabelecido; quando a revisão for sobre prognóstico,o ideal é a inclusão de estudos do tipo coorte no qual os pacientes se encontram em momentossimilares da história natural da doença; na revisão sobre fatores de risco os estudos a seremselecionados podem ser coorte ou caso-controle(5).

No entanto, em situações onde a melhor evidência não estiver disponível e a questão propostafor considerada relevante, deve-se avaliar a inclusão de estudos com níveis menores de evidência.

QUADRO 9.1 - Etapas metodológicas na revisão sistemática

1. Definir, com clareza, a questão a ser pesquisada.2. Definir critérios da inclusão que possam identificar todos os estudos que avaliaram a questãoproposta.3. Escrever um protocolo com todos os procedimentos e métodos a serem usados na revisão.4. Proceder à busca rigorosa de todos os experimentos relevantes, publicados ou não.5. Rever os artigos recuperados para avaliar se preenchem os critérios de inclusão.6. Avaliar a qualidade dos artigos e a possibilidade de viés.7. Extrair dados de cada estudo e produzir valores síntese.8. Proceder à combinação estatística dos dados dos diferentes estudos.9. Investigar a robustez dos resultados através de gráficos e testes estatísticos.10. Interpretar os resultados

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:35 Page 125

Page 98: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

126 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

Alem destes critérios básicos, devem ser considerados apenas os estudos que apresentaremcondição de responder os quatro componentes básicos da questão formulada, conforme já vistoanteriormente.

uma revisão sistemática para ser considerada de boa qualidade deve conter uma descriçãopormenorizada dos critérios de inclusão e características dos estudos incluídos.

III) Protocolo:Todos os artigos incluídos em uma revisão sistemática devem estar descritos no protocolo

que, na realidade, é o manual de operações do estudo.O protocolo deve iniciar-se com a questão formulada e depois deve descrever, com minúcias,

os objetivos, um quadro geral do conhecimento sobre a questão, as estratégias para recuperaçãoe seleção dos artigos a serem incluídos na revisão, bem como a extração dos dados, os métodos deanálise e a forma de descrição das conclusões(6).

O protocolo é um documento que fornece aos autores uma fonte de consulta e guia naresolução de conflitos. Serve, ainda, para identificar qual trabalho será feito, por quem, de qualmaneira, quando e por qual razão, facilitando, portanto a comunicação entre os autores(7).

uma revisão sistemática de boa qualidade assinala, na sua secção de metodologia, que oprotocolo foi elaborado previamente e como ele foi conduzido.

IV) Recuperação dos estudos:A recuperação dos estudos científicos a serem incluídos na revisão sistemática deve ser

suficientemente ampla para incluir toda a literatura pertinente à questão formulada seja elapublicada ou não.

Para que a revisão sistemática possa ser considerada de boa qualidade a extensão da buscae as fontes utilizadas devem ser explicitamente citadas.

Consultas no MEDLINE através de várias fontes, sendo a mais citada o PuBMED(www.ncbi.nih.gov/pubmed), e especificamente, na área de oncologia, o CANCERLIT(www.cancer.gov/search/cancer_literature), são fundamentais para a recuperação de estudosrelevantes.

Duas importantes bases de dados, com registros de experimentos clínicos, são o InstitutoNacional do Câncer do EEuu através do site www.cancer;gov/search/searchclincaltrials.aspx e aCochrane Collaboration (www.thecochranelibrary.com) que, em junho/2011, continha cerca de500.000 experimentos clínicos registrados,

A recuperação de estudos não publicados é mais difícil, mas uma estratégia deve ser claramentedelineada para se evitar o viés de publicação, ou seja, a tendência existente na literatura médicade publicar-se apenas os estudos com resultados positivos(5,8).

Vários testes estatísticos foram desenvolvidos para se avaliar a possibilidade de viés depublicação, sendo mais citado o gráfico do funil invertido cujo estudo mais aprofundado foge aoescopo deste texto(9).

De um modo geral o impacto do viés de publicação é maior quando a revisão sistemáticacontém apenas estudos com pequeno número de pacientes.

V) Avaliação dos critérios de inclusão:Após a recuperação dos estudos que tenham preenchido os requisitos inicialmente definidos,

os artigos devem ser revistos para se avaliar se os critérios de inclusão efetivamente realizados emcada um deles correspondem àqueles previamente determinados.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:35 Page 126

Page 99: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 127

VI) Avaliação da qualidade dos estudos:Avaliar a qualidade dos estudos incluídos em uma visão sistemática é parte fundamental do

seu planejamento e responsável direto pela robustez dos seus resultados. Revisão sistemática deartigos inadequados e contendo vieses resultará em conclusão final de validade incerta(3).

Como a busca pelos artigos deve ser a mais ampla possível, certamente serão recuperadosestudos não relevantes.

A revisão sistemática deve descrever, em primeiro lugar, os critérios da inclusão e exclusãode cada estudo que foi recuperado. É recomendado que cada revisão inclua o fluxograma descritopor Liberati et al (4) e reproduzido na figura 9.1.

Na prática os itens 3.1, 3.2 e 3.3 do quadro 9.1 referem-se ao planejamento prévio da revisãosistemática.

Os itens 3.4, 3.5 e 3.6 referem-se à avaliação inicial dos artigos passíveis de serem incluídos narevisão, e um resumo dos resultados destes procedimentos está contido no fluxograma descrito nafigura 9.1.

uma vez cumprida esta etapa, deve-se proceder à avaliação da qualidade técnica de cadaestudo.

Existem vários métodos descritos que vão desde uma abordagem mais simples com o uso depoucos itens de definição da característica do desenho do estudo, ou um sistema mais completoque inclui a elaboração de uma lista de verificação mais ampla, até o uso de escalas quantitativasque fornecem escores para a qualidade dos estudos individuais(7). A Cochrane Collaboration, noentanto, em seu livro-texto básico, não recomenda esta última abordagem por carecer de valorcientífico comprovado(10).

FIGURA 9.1 - Fluxograma da recuperação de estudos na revisão sistemática

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:35 Page 127

Page 100: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

128 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

A maioria dos autores recomenda que uma lista de verificação seja confeccionada para cadarevisão, de acordo com o tema a ser abordado e em conformidade com a questão que foi formulada.Deve, contudo, seguir o formato denominado PICO (patient-intervention-comparisons-outcome)onde cada um destes itens deve ser descrito em detalhes e com clareza (2). Djulbegovic (2) chama aatenção para a descrição detalhada, em cada artigo selecionado, dos critérios de randomização ede exclusão de pacientes e do uso de co-intervenções, que acrescentam fator de confusão; é,também, de fundamental importância o uso de controles apropriados à intervenção.

9.4 Metanálise

Os itens 7, 8, 9, e 10 do quadro 9.1 serão estudados sob o título de metanálise.Como vimos na introdução ao tema, o termo metanálise aplica-se aos métodos estatísticos,

quantitativos, para a extração e integração de valores-síntese de cada estudo contido em umarevisão sistemática, bem como o sumário final destes resultados individuais.

Para simplificar dividiremos esta seção em cinco subtítulos:

I) Valores-síntese de cada estudo:Este é um passo fundamental na publicação de uma revisão sistemática e garante que cada

paciente incluído seja comparado apenas com outros pacientes dentro do mesmo estudo.Variações, mesmo mínimas, nas diferentes populações incluídas ou nos tratamentos administrados,podem produzir heterogeneidade, se os pacientes forem comparados entre os diferentes estudos.

Para evitar estas causas de incerteza, são calculados um valor-síntese para o efeito daintervenção e a sua media ponderada ou sua variância.

Os valores-síntese mais utilizados podem ser divididos em três subgrupos: para eventosdicotômicos são usados a razão das chances (odds ratio), o risco relativo e a diferença de riscos e quepodem ser descritos em uma tabela 2X2; para curvas de sobrevida usa-se a razão de riscos (hazardratio); para variáveis contínuas usa-se a diferença entre médias(3).

Para melhor entendimento do primeiro subgrupo, reveremos os conceitos já descritos nocapítulo 3, através da tabela 9.1.

Tabela 9.1 - Cálculo de valores-sínteses usados em metanálise

1- Tabela 2x2:Subgrupo Tratamento Controle Total

(ou exposição) (ou não-exposição)Evento a b a+bNão-evento c d c+dTotal a+c b+d N

2- Chance2.1) de ocorrência do evento no grupo tratamento = a/c2.2) ocorrência do evento no grupo controle = b/d2.3) razão das chances (“odds ratio”) = 3- Risco3.1) de ocorrência do evento no grupo tratamento = a/a+c3.2) de ocorrência do evento no grupo controle = b/b+d3.3) risco relativo:

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:35 Page 128

Page 101: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 129

Como descrito na tabela acima, a razão das chances é a razão entre a chance de ocorrência doevento com a intervenção e a chance dele ocorrer sem a intervenção.

Se a intervenção for eficaz em reduzir a chance de ocorrência do evento, a razão das chancesserá menor do que 1,0.

Risco relativo é o risco de ocorrência do evento após a intervenção dividido pelo risco deleocorrer sem a intervenção.

Se o risco relativo for menor do que 1,0, conclui-se que a intervenção reduziu o risco e se formaior do que 1,0 que aumentou o risco.

A definição de qual valor-síntese deve ser utilizado, vai depender do tipo de dados. De ummodo geral, a razão das chances é mais fácil de calcular e quando os eventos são raros (<20%) elaé similar ao risco relativo(11). No entanto, quando os eventos são mais freqüentes, a razão daschances exagera o efeito terapêutico em relação ao risco relativo e não deve ser usada(3).

Risco relativo não pode ser usado em estudos caso-controle(12) porque as incidênciasobservadas, neste tipo de estudo, são conseqüência do número previamente escolhido de casos ede controles e não uma ocorrência natural na população da qual a amostragem foi retirada,conforme já abordado no Capítulo 3.

Quando a variável de resultado for do tipo tempo até ocorrência de um evento há dois valores-síntese que podem ser usados: a função de sobrevivência e a função de risco, também denominadade taxa de falha, conforme já abordado no Capítulo 3.

A função de risco pode ser definida como a taxa de falha em um determinado intervalo detempo, entre os indivíduos que estavam sem falha no início do referido período(13).

A função de risco pode ser calculada para cada grupo de pacientes e um valor-síntese podeser obtido. A razão dos riscos (hazard ratio) é a razão da função de risco entre diferentes grupos ecomporta-se de modo semelhante ao risco relativo.

Após o cálculo do valor-síntese escolhido, processa-se o cálculo da média ponderada destevalor ou a sua variância, o intervalo de confiança e o teste de significância estatística para cadaestudo individual (valor p).

II) Integrando os valores-síntese:Existem vários métodos de se integrar os valores-síntese dos estudos individuais numa soma

que traduz o resultado final da metanálise.Segundo Lau et al (8) a cada estudo é dado um peso de acordo com a precisão dos seus

resultados, ou seja, estudos com intervalo de confiança mais estreitos têm um peso maior do queestudos com mais incerteza. A precisão é geralmente expressa pelo inverso da variância estimadapara cada estudo. Na metanálise, a variância possui, de fato, dois componentes: a variância dentrode cada estudo individual e a variância entre os diferentes estudos.

Quando a variância entre estudos é definida ou presumida como sendo zero (ou seja, toda avariância encontrada é atribuída ao acaso), cada estudo tem o peso do inverso da sua própriavariância, que é uma função do tamanho do estudo e do número de eventos ocorridos. Estaabordagem é denominada de modelo de efeitos fixos.

Outro modelo, denominado de efeitos randômicos, leva em consideração a variância entreestudos, que foi realmente encontrada.

Qual modelo utilizar é motivo de grandes discussões entre os estatísticos, mas parece haverum consenso de que quando os estudos incluídos na revisão são homogêneos, o melhor métodoé o modelo de efeitos fixos porque é mais fácil de calcular e representar graficamente. Por outrolado, quando são incluídos poucos estudos na revisão ou quando há heterogeneidade entre eles,o melhor modelo é o de efeitos randômicos (3,8).

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:35 Page 129

Page 102: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

130 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

Ao médico que está lendo a revisão sistemática cabe ficar atento se tais considerações foramdescritas, com clareza, na seção de material e métodos.

Tomando como base a tabela 9.3 calcularemos alguns valores para exemplificar e facilitar acompreensão dos dados fornecidos nas metanálises (12,14).

A) Cálculo do Observado (O) menos Esperado (E):Este método foi descrito por Petitti (12) e consiste no cálculo do valor esperado, no grupo

exposição (ou tratamento), se o referido tratamento não tivesse nenhuma eficácia. Nestacircunstância calcula-se a freqüência do evento em relação ao total de pacientes [(a + b) ÷ N]. Seo tratamento, ou qualquer intervenção, não tiver nenhum efeito, espera-se a mesma proporçãode eventos no total de pacientes tratados. Isto pode ser expresso com as seguintes fórmulas:

O – E é negativo se o tratamento for mais eficaz do que o controle, no caso de evento ruimcomo, por exemplo, morte.

Pode-se, ainda, calcular a variância de O – E e a razão das chances para cada estudo individualbem como para a soma de todos os estudos incluídos na metanálise. Isto permite, também, arealização de testes estatísticos com veremos em seguida.

B) Cálculo da variância de O-E:

Desvio padrão =

C) Cálculo da razão das chances (RC) usando O-E:C.1) Para estudos individuais:

C.2) Para a síntese de todos os estudos:

De um modo geral os valores-síntese relativos, ou seja, o risco relativo, a razão das chances ea razão de risco são apresentadas sob a forma de logaritmo natural (logaritmo neperiano – baseε) que é escrito com a notação ℓn. Estes valores-síntese podem assumir qualquer valor entre zeroe infinito sendo que o valor 1 significa que a intervenção não causou nenhum efeito. Esta escalanumérica é altamente assimétrica tornando sua representação gráfica de difícil execução e poucoinformativa. Por outro lado o log de 0 é menos infinito, o log de 1 é zero e o log de infinito é infinito.A transformação logarítmica torna a representação gráfica simétrica e muito informativa,facilitando, também, o cálculo dos intervalos de confiança(15).

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:35 Page 130

Page 103: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 131

Se em estudos individuais a (O-E)²/V ou na soma dos estudos, , for maior do que 3,84, a diferença entre O e E é considerada significativa, do ponto de vista estatístico

(p<0,05). Isto porque a escala logarítmica de O-E obedece à curva normal e um teste do χ2 podeser realizado. O valor 3,84 equivale ao χ2 com 1 grau de liberdade, para valor de α igual a 0,05.

D) Cálculo da diferença de risco (RD):

E) Cálculo da variância da diferença de risco:

F) Teste do χ2 para a diferença de risco:

Existem várias maneiras de se calcular os valores-síntese dependendo do método de análiseempregado, mas as fórmulas acima exemplificaram os principais conceitos apresentados na maioriadas revisões sistemáticas de resultados que incluíram estudos randomizados.

Revisões de estudos caso-controle ou coorte exigem complexidade um pouco maior noscálculos e, aos leitores interessados, sugerimos consultar a obra de Petitti(6, 12, 16).

III) Avaliando heterogeneidade:um dos princípios que possibilitam a reunião de dados de diferentes estudos para produzir

uma síntese é baseado na conjetura de que intervenções semelhantes em condições semelhantesproduzirão efeitos semelhantes(2). Em revisões sistemáticas, apesar do tamanho do efeito poderdiferir entre os vários estudos, eles raramente se apresentam em direções opostas.

Então, alguma heterogeneidade entre os resultados é esperada. Há dois tipos de hetero-geneidade(16):

A) Heterogeneidade clínica: causada por diferenças nas características dos estudos incluídos narevisão, tais como, desenho do estudo, número de pacientes retirados do estudo, diferenças nospacientes incluídos (por exemplo, idade média, estágio da doença, etc.) e diferenças na intervençãotais como dose ou duração do tratamento ou de seu efeito em diferentes subgrupos de pacientes.

B) Heterogeneidade estatística: é detectada através de testes estatísticos específicos e podeser causada pela heterogeneidade clínica ou pelo acaso.

Revisão sistemática com metanálise, não é recomendada na presença de grandeheterogeneidade estatística (2). Por outro lado, quando ela está presente, uma ampla análise daspossíveis causas é fortemente recomendada devido ao potencial para a geração de novosconhecimentos sobre o tema (16,17,18).

Na avaliação da heterogeneidade estatística são utilizados, mais comumente, um testedescrito por Cochran em 1954 (17) (chamado de teste Q de Cochran) e o teste do J2 descrito porHiggins et al (17).

O teste Q de Cochran produz uma probabilidade, baseada na distribuição do χ2, de que asdiferenças nos resultados entre estudos tão extremos ou mais do que as observadas, poderiam

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:35 Page 131

Page 104: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

132 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

ocorrer devido ao acaso. Quanto menor o valor de p maior é a probabilidade de heterogeneidadeestatística. Este teste tem como principal limitação o seu baixo poder quando os estudos incluempoucos pacientes ou quando a revisão sistemática incluir pequeno número de estudos (10,17,18).

O teste do J² descreve a porcentagem de variação total entre os estudos que é devido àheterogeneidade e não ao acaso. Seus resultados variam de 0% a 100% onde 0% significa ausênciade heterogeneidade (16). uma regra geral é considerar valor de J² < 25% (0,25) como poucaheterogeneidade, 25-50% como moderada heterogeneidade e valores acima de 50% como altaheterogeneidade(18).

uma revisão sistemática de boa qualidade deve descrever os testes estatísticos utilizados paraavaliação da heterogeneidade e, na sua presença, quais estudos foram realizados para explicá-la.

IV) Análise de sub-grupos:Análise de subgrupos envolve a subdivisão dos dados em vários subgrupos com a finalidade

de permitir a comparação entre eles. Pode ser realizada com subgrupos de participantes (comopor exemplo, pacientes com diferentes estágios da doença) ou com subgrupos de estudos (como porexemplo, estudos de diferentes instituições)(10).

Sua principal finalidade é fornecer aos médicos informações que os permitam avaliar o quantoseus pacientes específicos podem diferir do “paciente médio” incluído na metanálise (2).

Outras importantes finalidades são a avaliação de heterogeneidade entre os estudos e a buscapor novas interações que permitam a geração de hipóteses a serem testadas em experimentosclínicos.

Para esta finalidade, a melhor análise de subgrupo é aquela que é prevista na randomizaçãodos pacientes incluídos em cada experimento clínico.

De um modo geral, as metanálises são baseadas em dados retirados de artigos publicados eraramente são baseados na análise de dados referentes a cada paciente, individualmente. Ametanálise baseada em dados individuais dos pacientes é mais precisa e a análise de subgrupos,nesta eventualidade, produz resultados mais confiáveis (10). No entanto, elas são raras por seremtrabalhosas e caras. Exemplos importantes deste tipo de metanálise foram produzidos pelo EarlyBreast Cancer Trialist’s Collaborative Group baseados na universidade de Oxford, no Reino unido, eque definiram as bases para o tratamento adjuvante do câncer de mama, a partir de 1998(19,20).

Análise de subgrupos baseadas em dados retirados dos artigos publicados, ou não, produzemresultados com incerteza científica, cuja extensão é maior quanto maior for a quantidade desubgrupos para os quais os dados foram subdivididos. Deve-se sempre, nestas situações, encarara análise como geradora de hipóteses e não como definidora de condutas clínicas (8,10).

V) Sumário dos resultados e apresentação final:Após a realização de todos os procedimentos necessários à revisão sistemática incluindo a

metanálise, os resultados necessitam ser apresentados de forma clara e sucinta.De um modo geral eles são apresentados sob a forma de gráfico floresta (forest plot).

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:35 Page 132

Page 105: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 133

A figura 9.2 contem um gráfico floresta retirado do estudo do grupo de Oxford(19). Foi descritaa metanálise que incluiu 11 estudos randomizados comparando poliquimioterapia contendoantracíclicos versus CMF, tendo a recidiva da doença como variável de resultado. Esta revisãosistemática é citada com frequência por conter todos os elementos necessários a uma boametanálise.

Nas três colunas da esquerda são apresentados, respectivamente, a data da publicação decada estudo, o nome do experimento e os esquemas de tratamento utilizados. Nas quatro colunassubseqüentes são apresentados os resultados numéricos. À direita da figura são descritas a razãode risco para recidiva e seu intervalo de confiança de 99%, a razão de risco final com seu IC 95% ea redução absoluta do risco com seu desvio padrão.

Pode ser observado que embora cada estudo, individualmente, não tenha mostrado diferençaentre os tratamentos, a síntese final mostrou redução de risco de recidiva de 12% em favor deesquemas contendo antracíclicos e esta diferença foi significativa do ponto de vista estatístico(p=0,006).

Teste de heterogeneidade foi realizado revelando um valor p>0,1 o que confirma grandeprobabilidade de homogeneidade entre os resultados.

Outras formas de apresentação dos dados, tais como, gráfico de caixa (box plots) e tabelas sãomais raramente utilizados e descritos por Petitti (12).

9.5 Conclusões

Resumindo, um leitor de qualquer revisão sistemática deve prestar atenção aos seguintes itens:1) A questão em estudo pode ser claramente delineada?2) Foram incluídos todos os estudos randomizados, publicados ou não? Há descrição para os

critérios de busca?3) Foi feito estudo de heterogeneidade inter-estudos, estatística e clínica?

FIGURA 9.2 - Gráfico floresta da avaliação de recidiva como primeiro evento em pacientescom câncer de mama inicial tratadas com quimioterapia adjuvante com esquemas contendoantracíclicos (1) versus CMF (2).

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:35 Page 133

Page 106: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

134 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

4) Foi usada alguma tecnologia para avaliação da qualidade dos estudos incluídos na revisão?5) As variáveis de resultado estudadas são adequadas para avaliar a questão proposta?6) O valor síntese escolhido para medir o efeito da intervenção, ou exposição, é adequado ao

tipo de variável?7) Estão os resultados expressos em termos de valor síntese e intervalo de confiança?8) Estão os resultados apresentados sob a forma de gráficos e tabelas de fácil apreensão?9) Estão as conclusões em conformidade com os dados?

Referências

1. Williams CJ. The pitfalls of narrative reviews in clinical medicine.Ann Oncol. 1998 Jun;9(6):601-5.

2. Djulbegovic B. Principles of Research Synthesis.ASCO Educational Book, 2003:737-50.

3. Deeks JJ. Systematic reviews of published evidence: miracles or minefields?Ann Oncol. 1998Jul;9(7):703-9.

4. Liberati A, Altman DG, Tetzlaff J, Mulrow C, Gøtzsche PC, Ioannidis JP, et al. The PRISMA statementfor reporting systematic reviews and meta-analyses of studies that evaluate healthcareinterventions: explanation and elaboration.BMJ. 2009 Jul 21;339:b2700.

5. Counsell C. Formulating questions and locating primary studies for inclusion in systematicreviews.Ann Intern Med. 1997 Sep 1;127(5):380-7. Review.

6. Petitti DB. Planning the study. In: Petitti DB (ed). Meta-Analysis, Decision Analysis, and Cost –Effectiveness Analysis: methods for quantitative synthesis in medicine, 2th Edition, Oxforduniversity Press: New York, 2000:33-42.

7. Meade MO, Richardson WS. Selecting and appraising studies for a systematic review.Ann InternMed. 1997 Oct 1;127(7):531-7.

8. Lau J, Ioannidis JP, Schmid CH. Quantitative synthesis in systematic reviews.Ann Intern Med.1997 Nov 1;127(9):820-6.

9. Egger M, Davey Smith G, Schneider M, Minder C. Bias in meta-analysis detected by a simple,graphical test.BMJ. 1997 Sep 13;315(7109):629-34.

10. Higgins JPT, Green S (editors). Cochrane Handbook for Systematic Reviews of Interventionsversion 5.0.2 [updated September 2009]. The Cochrane Collaboration, 2009. Available fromwww.cochrane-handbook.org.

11. Egger M, Smith GD, Phillips AN .Meta-analysis: principles and procedures.BMJ, 1997dec.;315(7121)1533-7.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:35 Page 134

Page 107: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S | 135

12. Petitti DB. Statistical Method in Meta-Analysis. In: Petitti DB, (editors). Meta-Analysis, DecisionAnalysis, and Cost-Effectiveness Analysis: methods for quantitative synthesis in medicine, 2thedition, Oxford university Press: New York, 200:94-118.

13. Simes RJ, Zelen M. Exploratory data analysis and the use of the hazard function for interpretingsurvival data: an investigator's primer.J Clin Oncol. 1985 Oct;3(10):1418-31.

14. Early Breast Cancer Trialists’ Collaborative Group. Statistical Methods. In: Treatment of EarlyBreast Cancer, New York: Oxford university Press, 1990:12-8.

15. Deeks JJ, Higgins JPT, Altman DG. Chapter 9: Analysing data and undertaking meta-analyses.In: Higgins JPT, Green S (editors). Cochrane Handbook for Systematic Reviews of Interventionsversion 5.0.1 (updated September 2008). The Cochrane Collaboration, 2009.Available fromwww.cochrane-handbook.org.

16. Petitti DB. Exploring Heterogeneity. In: Petitti DB (editor). Meta-Analysis, Decision Analysis, andCost-Effectiveness Analysis: methods for quantitative synthesis in medicine, 2th edition. Oxforduniversity Press, New York, 2000:214-28.

17. Higgins JPT, Thompson SG, Deeks JJ, Altman DG.Measuring inconsistency in meta-analysis.BMJ,2003 Sep ;327:(7414)557-60.

18. Hatala R, Keitz S, Wyer PC, et al. Tips for teachers of evidence-based medicine: 4. Assessingheterogeneity of primary studies in systematic reviews and whether to combine their results.CMAJ,2005;172(5):online 1-8.

19. Early Breast Cancer Trialistis’ Collaborative Group. Polychemotherapy for early breast cancer:an overview of the randomized trials.Lancet, 1998;352:930-942.

20. Early Breast Cancer Trialists’ Collaborative Group. Tamoxifen for early breast cancer: an overviewof the randomized trials.Lancet, 1998;351:1451-67.

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:35 Page 135

Page 108: Leitura Crítica de Artigos Científicos - SBOC - 2011 - Pt

136 | L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S

Notas

Projeto Gráfico e DiagramaçãoCommunicatio Designwww.communicatio.com.br

Manual de LEITURA CRÍTICA_Layout 1 6/10/2011 17:35 Page 136