ana paula martins e jorge gama -...

76
Bioestat´ ıstica Ana Paula Martins e Jorge Gama Universidade da Beira Interior Medicina A.P. Martins e J. Gama (UBI) Bioestat´ ıstica Medicina 1 / 76

Upload: others

Post on 24-Jan-2021

6 views

Category:

Documents


0 download

TRANSCRIPT

  • Bioestat́ıstica

    Ana Paula Martins e Jorge Gama

    Universidade da Beira Interior

    Medicina

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 1 / 76

  • A presença de incerteza é algo de comum, especialmente na área dasaúde onde muitas vezes é necessário tomar decisões sob incerteza.

    que tratamento médico aplicar a um doente particular? como iráele reagir? nem todos os pacientes reagem da mesma forma aomesmo tratamento, logo não pode haver certezas, a priori, do quevai acontecer, mesmo havendo uma convicção de que o tratamentoevoluirá de certa forma convém quantificar essa convicção;

    que fazer perante a informação de que um casal é portador degenes que transportam um defeito genético? é razoável correr orisco de ter filhos? como pode ser afectada esta decisão se o casaljá tiver um outro filho com esse defeito? e se tiver tido outro filhosem o dito problema genético?

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 2 / 76

  • Estat́ıstica e Bioestat́ıstica

    A Estat́ıstica é a ciência que se ocupa da obtenção de informação, seutratamento inicial, com a finalidade de, através de resultadosprobabilistas adequados, inferir de uma amostra para a população eeventualmente mesmo prever a evolução futura de um fenómeno.

    Muitos autores corroboram a ideia que a Bioestat́ıstica é umtermo sinónimo de Estat́ıstica, afirmando que a Bioestat́ıstica é aEstat́ıstica aplicada à Biologia humana e Medicina, não havendona sua essência qualquer distinção entre ambas.Os termos Bioestat́ıstica e Biometria também são por vezestomados como sinónimos, contudo a Bioestat́ıstica surge maisassociada às Ciências Médicas e a Biometria à Biologia eAgricultura. Desenvolvimentos mais recentes associaram adesignação Biometria à industria das tecnologias da informação.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 3 / 76

  • Exemplos

    Cancro do pulmão (em [7])

    No final da década de 1940 pretendia-se estabelecer uma ligação entreo cancro do pulmão e os hábitos tabágicos. Reuniram-se dois grupos de709 pessoas cada um. O primeiro era constitúıdo por pessoas comcancro do pulmão, enquanto que o segundo era constitúıdo por pessoasque sofriam de outras doenças. Procedeu-se depois à contagem donúmero de fumadores em cada grupo, encontrando-se os seguintesresultados:

    Tem cancro Não tem cancroFumador 688 650Não fumador 21 59

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 4 / 76

  • Exemplos

    Poliomielite (em [7])

    No ińıcio da década de 1950, pretendia-se saber se a vacinação contra apoliomielite prevenia ou não a ocorrência desta doença. Paraimplementar este estudo reuniram-se dois grupos de crianças, sendo avacinação aplicada apenas a um deles. Ambos os grupos tiveramposteriormente um acompanhamento médico durante o peŕıodo detempo em que a criança é suscept́ıvel de contrair a poliomielite.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 5 / 76

  • Tipos de estudos

    Os estudos efectuados pretendem sempre observar o comportamento deuma variável de resposta sob a influência de alguma variávelexplicativa.

    Cancro do pulmão

    A variável explicativa descreve o diagnóstico de cancro de pulmãoenquanto que a variável resposta identifica os hábitos tabágicos.

    Poliomielite

    A variável de resposta descreve a contracção de doença, enquanto quea variável explicativa descreve a aplicação da vacina.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 6 / 76

  • A variável de resposta é geralmente mais fácil de identificar, poistrata-se da identificação do objecto sobre o qual pretendemos tirarconclusões.A variável explicativa consiste em algo que o experimentadoracredita poder influenciar o comportamento da variável deresposta. A identificação destas variáveis é relevante para oprocesso de recolha de informação e das conclusões que nos sãopermitidas retirar.

    Cancro do pulmão

    Podemos concluir sobre os hábitos tabágicos entre o grupo de pessoas aquem foi diagnosticado cancro do pulmão e o grupo de pessoas a que ocancro não foi diagnosticado. É o diagnóstico da doença que estamoscontrolar e o efeito que isso tem sobre a possibilidade de estarmos ounão na presença de um fumador e não o contrário.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 7 / 76

  • Cancro do pulmão

    A observação de que parece haver alguma ligação entre estas duasvariáveis levar-nos-à a procurar ser mais expĺıcitos na identificação edescrição da forma como se processa essa influência, mas isso terá queser objecto de estudos complementares, não poderá ser consequênciados números descritos. Exemplo

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 8 / 76

  • Estudo observacional

    Depois de identificadas as variáveis explicativa e de resposta apenas seobserva e regista a evolução sem mais nenhuma intervenção doexperimentador. (Exemplo: Cancro do pulmão)

    Estudo experimental

    Há uma intervenção do experimentador para garantir que está emcondições de observar aquilo que pretende. Os estudos experimentaispodem ainda ser laboratoriais (se decorrem completamente emambiente de laboratório) ou comparativos se pretendem tirarconclusões sobre comparação de várias técnicas, tratamentos ou outrosfactores. (Exemplo: Poliomielite)

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 9 / 76

  • Estudos retrospectivos

    Incidem sobre indiv́ıduos a quem já aconteceu alguma coisa quepretendemos registar. (Ex: Cancro do pulmão)

    Estudos prospectivos

    Pretende-se fazer o registo de acontecimentos que ocorrerão no futuro eaté que se atinja um end-point previamente determinado. (Ex:Poliomielite)

    Poliomielite

    Como foi efectuada a decisão de vacinação?Se depende da decisão do educador da criança, isso pode levar a queo ńıvel de educação da famı́lia afecte essa decisão: mais educaçãopredispõe as pessoas a aceitar mais facilmente avanços cient́ıficos,além de que, normalmente, estão associados a melhores condições devida e higiene, que também afectam a possibilidade de contracçãoda poliomielite.

    Solução: Tornar aleatória a decisão de inclusão da cada criança no grupoa ser vacinado.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 10 / 76

  • O médico responsável pelo acompanhamento sabe se a criança foiou não vacinada?

    Este conhecimento pode influenciar a sensibilidade aos pequenossintomas que podem estar associados à doença.

    Solução: Experiência duplamente cega, nem o indiv́ıduo nem oexperimentador que faz o acompanhamento conhecem a informaçãosobre em qual dos grupos o indiv́ıduo está inserido.

    Grupo de controlo: o experimentador define um grupo de unidades queserve de referência na evolução.

    Este controlo pode ainda ser emparelhado quando a cada unidadedo grupo de controlo está associada uma e uma só unidade dogrupo de estudo.

    usar um doente como seu próprio controlo (é simultaneamente”caso”e ”controlo”)

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 11 / 76

  • Amostras Independentes. Amostras Emparelhadas

    Amostra: qualquer colecção de valores de uma ou mais variáveis.

    Amostras Independentes

    Quando não existe qualquer tipo de relação ou factor comum entre oselementos de duas ou mais amostras. Neste tipo de amostras aprobabilidade de uma unidade estat́ıstica pertencer a mais do que umaamostra é nula.

    Amostras Emparelhadas

    Quando duas ou mais amostras foram obtidas a partir de observaçõessobre as mesmas unidades estat́ısticas, em relação a uma mesmacaracteŕıstica em estudo. Um caso de emparelhamento de amostras é,por exemplo, quando elas resultam de observações sobre um grupo dedoentes antes e depois da aplicação de um tratamento.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 12 / 76

  • Etapas da elaboração de um estudo

    1. Identificar o problema, a variável de resposta e a ou as posśıveisvariáveis explicativas.

    2. Planear o estudo ou a recolha de informação:identificar quais os dados a recolher;construir um modelo para representar e processar os dados queforem recolhidos (fazem-se medições numéricas ou fazem-seatribuições de números em função de alguma escala definida peloexperimentador);definir o que se pretende concluir e sobre que população e averiguarse os dados serão representativos dessa população.

    3. Proceder à recolha tendo em conta todas as regras definidas.4. Analisar e concluir. Aqui intervém o modelo e o tratamento

    estat́ıstico.5. Utilização dos resultados.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 13 / 76

  • Algumas regras

    A recolha de informação em larga escala, seja pelo volume deinformação, pela dispersão temporal ou geográfica é suscept́ıvel deintroduzir muitas fontes de erros que afectam a validade e utilidade doestudo.

    se há que colocar questões, estas devem ter uma redacção clara epedir uma resposta simples;deve existir sempre um procedimento de verificação dos dadosrecolhidos;qualquer manipulação dos dados é suscept́ıvel de introduzir erros,basta que seja necessário transcrever os dados para que haja operigo de erros de dactilografia;deve-se reduzir esta manipulações ao mı́nimo essencial;há que ter cuidado com eventuais enviesamentos do procedimento:será que estamos mesmo a concluir acerca daquilo que julgamos?controlar e evitar dados incompletos ou ausências de resposta.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 14 / 76

  • Os Dados

    Partos (http://arc.irss.unc.edu/dvn/dv/NCVITAL)

    Um registo de partos ocorridos no estado da Carolina do Norte em2001 inclui dados de crianças. Uma amostra aleatória de 800 dessespartos e de algumas variáveis estat́ısticas observadas encontra-se noficheiro (LDS C02 NCBIRTH800 em [2]))

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 15 / 76

  • Como podemos descrever e interpretar de forma eficiente grandesvolumes de informação?

    Estat́ıstica Descritiva

    Conjunto de métodos estat́ısticos que visam sumariar e descrever ascaracteŕısticas mais proeminentes dos dados.

    Estat́ıstica Inferencial

    Conjunto de métodos estat́ısticos que visam a partir de um conjuntolimitado de dados (amostra) inferir sobre o todo (população) de ondese extráıram os dados.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 16 / 76

  • Estat́ıstica Descritiva

    Vamos descrever alguns conceitos básicos da Estat́ıstica Descritiva,relembrando algumas das construções já conhecidas e centrando aexposição na interpretação dos resultados e na utilização do SPSS v19.0- Statistical Package for the Social Sciences (já existem outras versões).

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 17 / 76

  • Introdução ao Interface do SPSS

    O programa SPSS é uma ferramenta poderosa na análise e tratamento de dados estat́ısticosprovenientes, por exemplo, de inquéritos. O ambiente de janelas do SPSS permite umacomunicação mais amigável com o usuário.

    Aspectos mais usados do interface do SPSSData view: similar a uma folha de cálculo, permite introduzir, modificar, corrigir evisualizar os dados a tratar. Cada coluna define uma variável e cada linha as observaçõesefectuadas a uma unidade estat́ıstica. O Data View abre automaticamente quando se entrano SPSS.

    Variable View: dispońıvel a partir de um separador na parte inferior esquerda da janelado SPSS. Permite definir vários parâmetros relativos às variáveis.

    Output: todos os resultados estat́ısticos, tabelas, gráficos e da execução de quaisqueroutros comandos aparecem nesta janela. Desta janela é posśıvel copiar ou exportar astabelas e gráficos para outros programas. Também é posśıvel editar essas tabelas e gráficos.

    Menu File: instruções usuais similares a muitos programas tipo Windows. Permite abrir,gravar, importar, exportar e imprimir bases de dados.

    Menu Edit: similares a outros programas tipo Windows. Permite cortar, apagar, copiar,colar, procurar, substituir, etc. Em particular, é de realçar a opção options. Nesta opção éposśıvel modificar/definir muitos dos aspectos visuais e alfa-numéricos do SPSS: fontes,cores, moeda, datas, etc.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 18 / 76

  • Menu View: para opções de visualização: barras de ferramentas, fontes, edição de menus,etc.

    Menu Data: para a manipulação de dados. Uma das opções muito utilizadas é a SelectCases, que permite seleccionar/filtrar parte dos dados a serem analisadas, sendo osrestantes ignorados pelo SPSS.

    Menu Transform: para calcular novas variáveis, re-codificar os valores de variáveis,agrupar dados de variáveis, por exemplo, cont́ınuas, etc.

    Menu Analyze: é aqui que se encontram todas as possibilidades para a análise etratamento estat́ıstico de dados.

    Menu Graphs: uma grande variedade de possibilidades gráficas encontram-se dispońıveisneste menu.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 19 / 76

  • Tipos de variáveis e escalas de medida

    Variável (ou variável estat́ıstica): qualquer quantidade que pode variarde unidade de estudo para unidade de estudo, correspondendo acaracteŕısticas ou atributos que podem tomar diferentes valores oucategorias.Partos

    Temos 14 variáveis relativas a cada nascimento:plural: indica quantas crianças nasceram no mesmo parto;sex: regista o sexo da criança (1=masculino, 2=feminino);mage: a idade da mãe (em anos);weeks: número de semanas da gravidez;marital: estado civil da mãe (1=casado, 2=não casado);racemom: raça da mãe (0=outra; 1=branca, 2=negra, 3=ind́ıgenasamericana, 4=chinesa, 5=japonesa, 6=havaiana, 7=filipina,8=outra de uma ilha da Ásia ou do Paćıfico);

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 20 / 76

  • hispmom: origem geográfica da mãe no caso de ser hispânica(C=Cuba, M=México, N=não hispânica, O=outra e hispânicadesconhecida, P=Porto Rico, S=América Central/Sul, U=nãoclassificável);gained: aumento de peso registado pela mãe durante a gravidez(em libras);smoke: indica se a mãe fumou ou não durante a gravidez (0=nãofumadora, 1=fumadora);drink: indica se a mãe consumiu álcool ou não durante a gravidez(0=não consumiu, 1=consumiu);tounces: peso da criança em onças;tgrams: peso da criança em gramas;low: necessidade de apoio à criança por peso de nascimentodemasiado baixo (0=não, 1=sim);premie: indica se o filho foi prematuro, ou seja, 36 ou menossemanas de gestação (0=não, 1=sim).

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 21 / 76

  • Variável qualitativa (ou categórica): se os seus valores sãointrinsecamente não numéricos, ainda que possam estar representadosnumericamente.

    Os valores ou categorias assumidos por uma variável qualitativasão identificadores de qualidades, caracteŕısticas ou atributos daunidade de estudo observada.Quando só toma dois valores distintos (0=não, 1=sim) dizemosque é uma variável dictómica. Caso contrário é politómica.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 22 / 76

  • Partos

    Variáveis qualitativas:sex: regista o sexo da criança;marital: estado civil da mãe;racemom: raça da mãe;hispmom: origem geográfica da mãe no caso de ser hispânica;smoke: indica se a mãe fumou ou não durante a gravidez;drink: indica se a mãe consumiu álcool ou não durante a gravidez;low: necessidade de apoio à criança por peso de nascimentodemasiado baixo;premie: indica se o filho foi prematuro, ou seja, 36 ou menossemanas de gestação.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 23 / 76

  • Variável quantitativa: se os seus valores são intrinsecamente numéricosfazendo sentido fazer operações aritméticas sobre os mesmos.

    Partos

    Variáveis quantitativas:plural: indica quantas crianças nasceram no mesmo parto;mage: a idade da mãe;weeks: número de semanas da gravidez;gained: aumento de peso registado pela mãe durante a gravidez;tounces: peso da criança em onças;tgrams: peso da criança em gramas.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 24 / 76

  • Escalas de medidaEscala Nominal: é a escala de medida mais baixa. Consiste ematribuir um “nome” (que pode ser um valor numérico) àsobservações, ou seja em classificar as observações em categoriasmutuamente exclusivas e exaustivas.

    Criança - Adulto;Doente - São;sex; marital, etc.

    Escala ordinal: os valores (numéricos ou não) possuem uma ordemintŕınseca. As observações não diferem apenas de categoria paracategoria mas podem ser ordenadas de acordo com algum critério.As comparações ordinais fazem sentido.

    Classificações obtidas no 2o e 3o ciclos do ensino básico (1 a 5).Grupos etários (crianças, jovens, adultos e idosos).

    Escala de intervalo: os valores numéricos possuem ordem ediferenças têm significado. O valor zero não representa ausência decaracteŕıstica.

    Temperatura medida em graus oC ou oF.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 25 / 76

  • Escala de razões: os valores numéricos possuem ordem e diferençastêm significado. O valor zero representa ausência da caracteŕısticae múltiplos de valores têm significado. Corresponde ao maior ńıvelde medição.

    Medidas de comprimento, peso, etc.plural; mage; etc.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 26 / 76

  • Representação dos dados

    Distribuição duma variável: dá-nos conta dos valores que a variáveltoma, bem como a frequência com que os toma. Os métodos derepresentação de dados que vamos rever permitir-nos-ão descrever adistribuição da variável em estudo, pondo em evidência as suasprincipais caracteŕısticas.

    Tabela de frequências

    Chama-se tabela de frequências à lista dos valores que uma variávelassume e da contagem do número de vezes que cada valor ocorre. Atabela pode ser de frequências absolutas se mostrar a contagem oupode ser de frequências relativas se mostrar essa contagem divididapelo número total de observações. Chama-se tabela de frequênciasacumuladas quando associamos a cada valor que a variável assume acontagem do número de valores inferiores ou iguais a esse.

    SPSS v19.0: Analyze / Descriptive Statistics / Frequencies

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 27 / 76

  • Partos

    Variáveis quantitativas discretas: apenas assumem valores numconjunto finito ou mesmo numerável (conseguimos enumerar os seuselementos).

    Exerćıcio

    Obtenha a distribuição de frequências do aumento de peso registadopela mãe durante a gravidez (gained).

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 28 / 76

  • A precisão com que o registamos os valores de uma variável podeinfluenciar a forma como a classificamos.

    O registo do aumento de peso durante a gravidez (gained) foiefectuado em gramas, no entanto, o leque de valores que podem serregistados é demasiado grande para que seja útil pensarmos emenumerá-lo e tratá-lo como discreto.

    Variáveis quantitativas cont́ınuas: podem assumir qualquer valor emalgum intervalo.

    A classificação como discreta ou cont́ınua não é necessariamentebem definida.As tabelas de frequência tendem a perder utilidade nacaracterização de variáveis cont́ınuas enquanto que no casodiscreto, elas permitem identificar os valores que são maisfrequentes.Nestes casos as variáveis devem ser classificadas, ou seja, os seusvalores devem ser agrupados em classes (intervalos) disjuntos emutuamente exclusivos.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 29 / 76

  • Exerćıcio

    Classifique a variável (gained) em 5 classes de igual amplitude e depoisobtenha a distribuição de frequências para a variável classificada.(Mı́nimo=0, Máximo=95, Amplitude das classes=19)SPSS v19.0: Transform / Recode into Different Variables - Old and New Values

    SPSS v19.0: Transform / Visual Binning

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 30 / 76

  • Representações gráficas (mais comuns)

    Forma mais visual de obter o mesmo tipo de informação contida numatabela de frequências.

    Variáveis qualitativasDiagrama ou gráfico de barrasSPSS v19.0: Graphs / Legacy Dialogs / Bar

    Diagrama ou gráfico circularSPSS v19.0: Graphs / Legacy Dialogs / Pie

    Variáveis quantitativasDiagrama ou gráfico de caule-e-folhas (stem and leaf)SPSS v19.0: Analyze / Descriptive Statistics / Explore

    HistogramaSPSS v19.0: Graphs / Legacy Dialogs / Histogram

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 31 / 76

  • Nota

    Quando temos variáveis quantitativas com poucos valores distintos masque se repetem um grande número de vezes podemos usar asrepresentações gráficas adequadas para as variáveis qualitativas.

    Partos

    sex

    FemininoMasculino

    Fre

    qu

    ênci

    a ab

    solu

    ta

    500

    400

    300

    200

    100

    0

    Page 1

    Figura: Gráfico de barras

    47,75% 52,25%

    FemininoMasculino

    sex

    Page 1

    Figura: Gráfico circular

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 32 / 76

  • tgrams Stem-and-Leaf Plot

    Frequency Stem & Leaf

    26,00 Extremes (==4706)

    Stem width: 1000,000

    Each leaf: 2 case(s)

    Page 1

    Figura: Diagrama de caule-e-folhas

    tgrams

    5000,0000004000,0000003000,0000002000,0000001000,0000000,000000

    Fre

    qu

    ênci

    a

    120

    100

    80

    60

    40

    20

    0

    Page 1Figura: Histograma

    As 26 observações inferiores ou iguais a 1956 e as 4 observaçõessuperiores ou iguais a 4706 são marcadas de forma especial sendorotuladas de “extremas”.

    Pode ser um erro de observação, um valor incorrectamenteregistado, ou um valor incorrectamente inclúıdo no conjunto dedados.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 33 / 76

  • Diremos que se trata de uma observação discordante ou outlier.Estes valores devem ser confirmados ou corrigidos antes decontinuarmos o estudo. No caso de ser um valor incorrectamenteinclúıdo no conjunto de dados, ele deve ser exclúıdo.

    Por razões que decorrem da construção dum gráfico decaule-e-folhas, em particular pelo facto de todas as observaçõesestarem nele representadas, este tipo de gráfico revela-sedesapropriado para grandes conjuntos de dados.Quando o número de observações é elevado o gráfico éhabitualmente constrúıdo associando a uma folha váriasobservações.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 34 / 76

  • Partos

    Figura: Histogramas com 3, 5, 10 e 50 classes

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 35 / 76

  • Um número demasiado elevado de classes conduz a um histogramamuito irregular com poucas observações em cada classe.Um número demasiado pequeno de classes conduz a umhistograma demasiado suave com muitas observações em cadaclasse.

    Regras práticas para a determinação do número de classes

    Regra de Stürges

    número de clases ≈ I(

    ln nln 2

    )+ 1

    I =parte inteira do número n =dimensão da amostra

    Partos

    Como temos 800 observações devemos considerar 10 classes pela regrade Stürges.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 36 / 76

  • tgrams

    5000,0000004000,0000003000,0000002000,0000001000,0000000,000000

    Fre

    qu

    ênci

    a

    400

    300

    200

    100

    0

    Page 1Figura: Histograma e poĺıgono defrequências

    Figura: Histograma acumulado efunção cumulativa (ou poĺıgonointegral)

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 37 / 76

  • Caracteŕısticas gráficas mais relevantes

    Caracteŕısticas importantes da distribuição de uma variável:a forma;a localização;a dispersão ou variabilidadee a presença de observações discordantes ou outliers.

    Forma da distribuição

    Não é mais do que a forma ou padrão revelados pelo histograma oupelo gráfico de caule-e-folhas respectivos.

    Simétrica: quando o gráfico é aproximadamente simétricorelativamente ao centro da distribuição;Assimétrica: quando uma das “caudas” do gráficos é muito maiordo que a outra.

    Assimétrica Positiva: a cauda direita (valores grandes) é muitomaior do que a esquerda (valores pequenos);Assimétrica Negativa: a cauda esquerda é mais longa que a direita.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 38 / 76

  • Partos

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 39 / 76

  • Nı́vel de colesterol

    O ficheiro LDS C06 CHOLEST.sav contém o registo do ńıvel decolesterol de 1000 indiv́ıduos (em [2]).

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 40 / 76

  • Caracteŕısticas numéricas de um distribuição

    Medidas de tendência central

    Sejam x1, . . . , xn os n valores observados nos quais apenas existem kvalores distintos x∗1, . . . , x

    ∗k, que se repetem respectivamente n1, . . . nk

    vezes, com frequências relativas f1, . . . , fk.

    Média (x)

    Medida mais utilizada do centro duma distribuição

    x =1n

    n∑i=1

    xi =1n

    k∑i=1

    x∗i × ni =k∑

    i=1

    x∗i × fi

    A média é uma boa medida do centro da distribuição quando esta ésimétrica. É muito senśıvel à presença de valores muito grandes oumuito pequenos. Dizemos então que a média é uma medida poucoresistente ou robusta do centro da distribuição.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 41 / 76

  • Dados agrupados em classes: k classes; x′i, i = 1, . . . , k são ospontos médios (ou marcas) das classes; ni, i = 1, . . . , k asfrequências absolutas associadas a cada classe; fi, i = 1, . . . , kfrequências relativas das classes.

    x =1n

    k∑i=1

    x′i × ni =k∑

    i=1

    x′i × fi

    Mediana (M)

    Ponto médio da distribuição, isto é, é um valor tal que metade dasobservações são menores ou iguais a ele e a outra metade são maioresou iguais a ele.

    M =

    xn+1

    2:n se n for ı́mpar

    x n2 :n

    +x n+12 :n

    2 se n for par

    com x1:n ≤ x2:n ≤ . . . ≤ xn:n.A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 42 / 76

  • Exerćıcio1 Para a variável (weeks) (LDS C02 NCBIRTH800.sav) que

    representa o número de semanas de gravidez compare o valor damédia e da mediana.

    2 Substitua a primeira observação da variável (weeks) por 20semanas e repita o exerćıcio anterior. O que observa?

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 43 / 76

  • Dados agrupados em classes: seja ]aj , aj+1] a classe mediana ouseja a classe com frequência relativa acumulada, Fj , superior ouigual a 0.5.

    M = aj +0.5− Fj−1

    fj× (aj+1 − aj)

    Que relações podemos estabelecer entre a média e a mediana?Se a distribuição é aproximadamente simétrica a mediana e amédia são próximas uma da outra. Ambas dão boa indicação dequal poderá ser um valor representativo da amostra.A mediana é melhor indicador do valor t́ıpico sempre que aamostra contém valores discordantes ou “outliers”.Se a distribuição apresenta assimetria para um lado, a média serádiferente da mediana no sentido oposto ao da assimetria:assimétrica positiva, a média é maior do que a mediana;assimétrica negativa, a média é menor do que a mediana. Quantomais acentuada for a assimetria, maior será a diferença entre amédia e a mediana.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 44 / 76

  • Moda (Mo)

    A moda corresponde à observação ou a uma zona de observações maisfrequentes, podendo ser única ou múltipla.Em função do número de modas que apresentam, as distribuiçõespodem ser classificadas como amodais (0 modas) unimodais (1 moda),bimodais (2 modas) ou plurimodais (mais de 2 modas).Esta é a única medida de tendência central que pode ser utilizadanuma escala nominal.

    Dados agrupados em classes: seja ]aj , aj+1] a classe modal, ou sejaa classe com maior frequência.

    Fórmula de King:

    Mo = aj +nj+1

    nj−1 + nj+1(aj+1 − aj)

    Fórmula de Czuber:

    Mo = aj +nj − nj−1

    (nj − nj−1) + (nj − nj+1)

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 45 / 76

  • Método de Czuber

    A moda pode não ter significado, especialmente em dados denatureza cont́ınua ou em dados discretos com poucas observaçõesrepetidas

    Medidas de dispersão

    Uma forma de tentar medir o quanto os valores se dispersam consisteem construir uma medição do quanto e quão frequentemente os valoresda amostra se afastam do seu valor t́ıpico, a média.A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 46 / 76

  • Variância (corrigida) s2n

    s2n =1

    n− 1

    n∑i=1

    (xi − x)2 =1

    n− 1

    n∑i=1

    x2i −n

    n− 1x2

    Desvio padrão (corrigido) sn

    O desvio padrão dá-nos informação de quão afastadas da média estãoas observações.

    sn =√

    s2n

    Se a distribuição dos valores da amostra é razoavelmente simétricaentão:

    o intervalo (x− sn, x + sn) contém aproximadamente 68% doselementos da amostra;o intervalo (x− 2sn, x + 2sn) contém aproximadamente 95% doselementos da amostra;o intervalo (x− 3sn, x + 3sn) contém aproximadamente 99% doselementos da amostra.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 47 / 76

  • Coeficiente de variação (CV )

    Medida de variação relativa, que expressa o desvio padrão como umapercentagem da média.

    CV =snx× 100

    É independente das unidades de medida tornando-se assim útil paracomparar a variabilidade de conjuntos de dados medidos em unidadesdiferentes.

    Amplitude amostral (A)

    A = máximo−mı́nimo

    Amplitude inter-quartil (AIQ)

    AIQ = Q3 −Q1

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 48 / 76

  • Os quartis são designados por Q1, primeiro quartil que define oprimeiro quarto da amostra, Q2, segundo quartil que define o segundoquarto, ou metade, da amostra (coincide com a mediana), Q3, terceiroquartil que define o terceiro e o último quarto da amostra.

    Quantil de ordem p (Qp)

    Medida de localização caracterizada por uma proporção p ∈]0, 1[ deobservações ser inferior ou igual a ela.

    Dados agrupados em classes: seja ]aj , aj+1] a classe com frequênciarelativa acumulada, Fj , superior ou igual a p.

    Qp = aj +p− Fj−1

    fj× (aj+1 − aj)

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 49 / 76

  • Box-plot ou gráfico de extremos-e-quartis: diagramas que representamos quartis, o menor e o maior elemento da amostra. Os cinco númerosrepresentados no box-plot são designados cinco números resumo de umdistribuição. Este resumo visa ilustrar, graficamente, a variabilidadedas observações em torno da mediana da amostra.

    Partos

    tgrams

    5000,000000

    4000,000000

    3000,000000

    2000,000000

    1000,000000

    0,000000

    693392

    405

    46956

    556350

    134

    495

    363549

    367

    523

    17192726

    23

    70

    57045 686

    Page 1SPSS v19.0: Graphs / Legacy Dialogs / Boxplot

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 50 / 76

  • O SPSS calcula os valores

    Q2 − 1.5sn e Q2 + 1.5sn.

    Todos os valores da amostra que fiquem fora do intervalo definido poraqueles valores são considerados outliers e assinalados no box-plot.O gráfico de extremos-e-quartis também permite avaliar a forma dadistribuição.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 51 / 76

  • Partos

    Valid

    Missing

    Mean

    Median

    Mode

    Std. Deviation

    Variance

    Range

    Minimum

    Maximum

    25

    50

    75

    N

    Percentiles

    3685,50000000

    3345,30000000

    3005,10000000

    4791,150000

    340,200000

    4450,950000

    408280,718

    638,968479786

    3430,350000

    3345,30000000

    3299,26668750

    0

    800

    Statistics

    tgrams

    Page 1

    SPSS v19.0: Analyze / Descriptive Statistics / Frequencies – Statistics

    SPSS v19.0: Analyze / Descriptive Statistics / Descriptives – Options

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 52 / 76

  • Alteração da unidade de medida

    Partos

    O peso dos recém-nascidos foi medido em gramas e em onças. 1Kgcorresponde a 35.274 onças logo 1 grama corresponde a 0.035274 onças.

    tounces = 0.035274× tgrams

    SPSS v19.0: Analyze / Descriptive Statistics / Explore

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 53 / 76

  • A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 54 / 76

  • Transformação: yi = xi + b, b número real

    medidas de localização central

    y = x + b, My = Mx + b

    medidas de dispersão

    sy = sx, AIQy = AIQx

    a forma da distribuição não sofre alteração.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 55 / 76

  • Transformação: yi = axi, a número real positivo

    medidas de localização central

    y = ax, My = aMx

    medidas de dispersão

    sy = asx, AIQy = aAIQx

    a forma da distribuição não sofre alteração.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 56 / 76

  • Que medida utilizar?

    Robustez: depende da capacidade de resistência na presença deoutliers; os quartis tendem a ser mais robustas;Capacidade de descrição: uma estat́ıstica que seja capaz decondensar e transmitir mais informação é sempre prefeŕıvel, porexemplo, a AIQ condensa bastante mais informação sobre avariabilidade dos valores da amostra do que a amplitude daamostra;Computabilidade: a facilidade de cálculo da estat́ıstica a utilizaré um factor a ter em conta, especialmente se os meios de cálculodispońıveis são limitados; por exemplo, é mais fácil calcular à mãoos quartos de uma amostra não muito grande do que a variância eambos transmitem informação acerca da variabilidade;Similaridade: é conveniente tentar obter o mesmo tipo deinformação a partir de estat́ısticas distintas; se a informaçãotransmitida apontar na mesma direcção isso reforçará a convicçãonas conclusões que se podem retirar.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 57 / 76

  • Como avaliar a forma da distribuição

    Exemplo

    10864

    Fre

    qu

    ênci

    a

    6

    4

    2

    0

    Page 1Figura: Distribuição assimétricapositiva

    10864

    Fre

    qu

    ênci

    a

    6

    4

    2

    0

    Page 1Figura: Distribuição assimétricanegativa

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 58 / 76

  • 1210864

    Fre

    qu

    ênci

    a

    5

    4

    3

    2

    1

    0

    Page 1Figura: Distribuição simétrica

    Assimétrica negativa

    Assimétrica positivaSimétrica

    Mean

    Median

    Mode

    1058

    9,006,008,00

    8,436,578,00

    Statistics

    Page 1

    Distribuição simétricax 'M 'Mo

    Distribuição assimétrica positiva

    x > M > Mo

    Distribuição assimétrica negativa

    x < M < Mo

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 59 / 76

  • Grau de simetria ou assimetria: tem em conta a distância relativaentre as observações e a direcção em que essa distância acontece.Para obtermos uma quantificação das distâncias basta consideraras diferenças das observações em relação a um valor t́ıpico para aamostra.

    m3 =1n

    n∑i=1

    (xi − x)3

    Se m3 = 0 a distribuição é perfeitamente simétrica.Se m3 > 0 as observações que verificam xi − x > 0 contribuem comvalores maiores do que as que verificam a desigualdade contrária,pelo que há valores significativamente maiores do que x, e que têmque ser compensados por valores á esquerda de x, logo adistribuição será assimétrica positiva.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 60 / 76

  • Se m3 < 0, passa-se o oposto do caso anterior. As observações queverificam xi − x < 0 contribuem com valores maiores do que as queverificam a desigualdade contrária, pelo que há valoressignificativamente menores do que x, e que têm que sercompensados por valores á direita de x, logo a distribuição seráassimétrica negativa.

    Coeficiente de assimetria:

    g1 =n∑n

    i=1(xi − x)3

    (n− 1)(n− 2)s3n=

    n2m3(n− 1)(n− 2)s3n

    A simetria perfeita corresponde ao valor g1 = 0.g1 tem exactamente o mesmo sinal que m3, pelo que a interpretaçãoé a mesma.Se este coeficiente não exceder 2 ou 3 vezes o valor do seu erropadrão então o seu valor não será muito relevante.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 61 / 76

  • Exemplo anterior

    Assimétrica Negativa

    Assimétrica PositivaSimétrica

    Mean

    Median

    Mode

    Skewness

    Std. Error of Skewness

    ,481,481,481

    -,744,744,000

    1058

    9,006,008,00

    8,436,578,00

    Statistics

    Page 1

    Coeficiente de achatamento ou de curtose

    g2 =n(n + 1)m4 − 3(n− 1)m22(n− 1)(n− 2)(n− 3)s4n

    com mj =1n

    n∑i=1

    (xi − x)j , j = 2, 3, . . . .

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 62 / 76

  • Se g2 = 0 diremos que temos a distribuição de referência no que dizrespeito à concentração ou achatamento (esta caracterização dizrespeito à distribuição Normal padrão), distribuição mesocúrtica.

    Se g2 > 0 diremos que temos uma distribuição bastanteconcentrada e com poucas observações nas duas caudas, ou seja,pontiaguda, distribuição leptocúrtica.

    Se g2 < 0 diremos que temos uma distribuição com poucatendência de concentração e bastante achatada,distribuição platicúrtica.

    Partos

    magegainedtgramsValid

    Missing

    Skewness

    Std. Error of Skewness

    Kurtosis

    Std. Error of Kurtosis

    N

    ,173,175,173

    -,795,8153,186

    ,086,088,086

    ,211,420-1,052

    0230

    800777800

    Statistics

    Page 1

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 63 / 76

  • Associação entre duas variáveis quantitativas

    Peso fetal (em [5])

    O ficheiro PesoFetal.sav contém várias medidas ecográficas obtidas em414 recém-nascidos alguns dias antes de nascerem, em 4 hospitaisportugueses. Para além das medidas ecográficas encontram-se tambémmedidas relativas à mãe do recém-nascido e ao próprio aquando donascimento. As variáveis em causa são:

    MW − peso da mãeMH − altura da mãeGA − idade de gestação em semanasDBMB − no de dias entre as medições e o nascimentoBPD − diâmetro biparietal (medida ecográfica)CP − peŕımetro cefálico (medida ecográfica)AP − peŕımetro abdominal (medida ecográfica)FL − comprimento do fémur (medida ecográfica)FTW − peso fetal à nascençaFTL − comprimento fetal à nascençaCPB − peŕımetro cefálico à nascença

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 64 / 76

  • Existirá alguma relação entre o peso fetal à nascença (FTW) e opeŕımetro cefálico (CP) ou o peso da mãe (MW)?

    Gráfico ou diagrama de dispersão

    Põe em evidência a forma, a direcção e a intensidade da relação entreduas variáveis quantitativas.

    SPSS v19.0: Graphs / Legacy Dialogs / Scatter/Dot

    Peso fetal

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 65 / 76

  • Coeficiente de correlação (amostral) de Pearson

    Coeficiente que mede a intensidade e a direcção da associação dotipo linear entre as variáveis quantitativas. Para um conjunto de paresde observações (xi, yi), i = 1, . . . , n, este coeficiente é dado por:

    R =1

    n− 1

    n∑i=1

    (xi − x

    sx

    )(yi − y

    sy

    )=∑n

    i=1 xiyi − nxy(n− 1)sxsy

    Interpretação

    Relação linear positiva entre x e y,

    y ' ax + b, a > 0, b ∈ IR.

    Neste caso para a maioria dos pares de observações (xi, yi),i = 1, . . . , n, teremos de ter:

    xi > x̄, yi > ȳ e xi < x̄, yi < ȳ

    R tomará um valor positivo elevado.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 66 / 76

  • Relação linear negativa entre x e y,

    y ' ax + b, a < 0, b ∈ IR.

    Neste caso para a maioria dos pares de observações (xi, yi),i = 1, . . . , n, teremos de ter:

    xi > x, yi < ȳ e xi < x, yi > y

    R tomará um valor negativo muito reduzido.

    R ∈ [−1, 1]

    R = ±1 quando a relação entre as duas variáveis é linear perfeita,do tipo y = ax + b.

    Quando as variáveis são independentes então R será próximo de 0.

    Quando R é próximo de 0 significa que não existe uma associaçãolinear entre as variáveis, podendo no entanto existir outro tipo deassociação.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 67 / 76

  • Peso fetal

    SPSS v19.0: Analyze / Correlate / Bivariate

    Existe um associação positiva mais forte entre o peso à nascença eo peŕımetro cefálico do que entre o peso à nascença e o peso damãe.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 68 / 76

  • Alguns autores consideram que:0.75 < |R| ≤ 1 corresponde a uma associação linear forte;0.5 < |R| ≤ 0.75 corresponde a uma associação linear moderada;0.25 < |R| ≤ 0.5 corresponde a uma associação linear fraca;0 ≤ |R| ≤ 0.25 corresponde a uma associação residual ouinexistente.

    Nota

    A associação entre duas variáveis, uma dependente e outraindependente, não permite concluir pela causalidade duma delas emrelação à outra, ou seja, uma relação de causa-efeito.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 69 / 76

  • Recta de regressão

    Quando um gráfico de dispersão revela uma associação linear entreduas variáveis é natural tentar ajustar os dados a uma recta.A recta resumirá tanto melhor a informação contida nos dadosquanto maior for a associação, quer negativa, quer positiva,existente entre as variáveis.Se a associação é elevada a recta poderá ser utilizada para inferir ovalor de y duma das variáveis a partir do valor de x da outra.

    Recta dos mı́nimos quadrados ou recta de regressão de Y sobre X

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 70 / 76

  • Equação da recta de regressão y = ax + b

    Declive:

    a = Rsysx

    =∑n

    i=1 xiyi − nx̄ȳ(n− 1)s2x

    Ordenada na origem:b = y − ax

    Peso fetal

    SPSS v19.0: Graphs / Legacy Dialogs / Scatter/Dot

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 71 / 76

  • SPSS v19.0: Analyze / Regression / Linear

    F̂TW = 253.828 ∗ CP− 5096.231

    Coeficiente de determinação (R2)

    O coeficiente de determinação interpreta-se como a proporção davariação dos valores de Y que é explicado pela regressão da variáveldependente sobre a variável independente.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 72 / 76

  • Este coeficiente toma valores entre 0 e 1 e é uma medida da qualidadeda regressão na explicação da variável dependente.

    Peso fetal

    R2 = 0.552, logo podemos dizer que o peŕımetro cefálico dorecém-nascido explica 55.2% da variação observada no peso à nascença.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 73 / 76

  • A natureza exploratória e descritiva do estudo que fizemos atéagora não permite que as suas conclusões permaneçam válidaspara além dos dados considerados, nem permite responder aquestões importantes que se podem colocar.

    Nı́vel de colesterol

    Os dados do ńıvel de colesterol provêm de uma população comdistribuição Normal?

    Será aceitável que o ńıvel médio de colesterol da população sejaigual a 222? Ou, será aceitável que seja igual a 220?

    Dado que a média da amostra é igual a 219,08, parece mais razoávelque se possa aceitar o verdadeiro valor médio igual a 220. Massê-lo-á realmente aceitável?

    Para que as inferências conduzidas a partir da amostra não conduzama resultados inválidos, é necessário que os dados sejam recolhidos deforma apropriada, que permitam, em particular, a utilização dumametodologia estat́ıstica adequada para os analisar.A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 74 / 76

  • Referências

    1 - Altman, D. (1990). Practical Statistics for Medical Research.Chapman Hall.

    2 - Daniel, W. (2004). Biostatistics: A Foundation for Analysis in theHealth Sciences, 8th Edition. Wileyhttp://bcs.wiley.com/he-bcs/Books?action=index&bcsId=2192&itemId=0471456543

    3 - Hall, A. Neves, C. e Pereira, A. (2011). Grande Maratona deEstat́ıstica no SPSS. Escolar Editora.

    4 - Marques Sá, J. P. (2007). Applied Statistics using SPSS,STATISTICA, MATLAB, 2a Edition. Springer Verlag.

    5 - Pestana, D. e Velosa, S. (2006). Introdução à Probabilidade e àEstat́ıstica. Fundação Calouste Gulbenkian. Lisboa.

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 75 / 76

    http://bcs.wiley.com/he-bcs/Books?action=index&bcsId=2192&itemId=0471456543

  • 6 - Maroco, J. (2007). Análise Estat́ıstica - Com utilização do SPSS.Edições Śılabo.

    7 - Oliveira, P. (2006/7) Apontamentos de Estat́ıstica (CiênciasFarmacêuticas). Universidade de Coimbra.

    8 - Tenreiro, C. (2009). Estat́ıstica - Notas de apoio às aulas.Universidade de Coimbra.http://arquivoescolar.org/bitstream/arquivo-e/91/1/EST0811.pdf

    Manuais de SPSS na internet:http://teaching.shu.ac.uk/hwb/ag/resources/material/analysingdatausingspssv9-15v2a.pdf

    http://clientes.netvisao.pt/ruimmrosa/docs/spss10.pdf

    A.P. Martins e J. Gama (UBI) Bioestat́ıstica Medicina 76 / 76

    http://arquivoescolar.org/bitstream/arquivo-e/91/1/EST0811.pdfhttp://teaching.shu.ac.uk/hwb/ag/resources/material/analysingdatausingspssv9-15v2a.pdfhttp://clientes.netvisao.pt/ruimmrosa/docs/spss10.pdf