24/03/2014 · •experimentais (causal) ... medida descritiva mais utilizada (e preferida). no...

22
24/03/2014 1 Universidade Federal do Pará Programa de Pós-Graduação em Odontologia Desenho de Pesquisa e Bioestatística Parte I: Amostras e amostragem David Normando Bibliografia recomendada: Para os dias de semana Para o final de semana David Normando- UFPa Uma PerguntaUma Pesquisa. A Pesquisa Científica Coleta dos Dados Análise dos Dados Apresentação dos Dados P E S Q U I S A A Pesquisa Científica Coleta dos Dados (qualitativa) Apresentação dos Dados Análise dos Dados Coleta dos Dados (quantitativa) C O N H E C I M E N T O Tipos de Estudos Observacionais (observational) Descrição de uma amostra, representativa da população. Experimentais (causal) Diferenças observadas em relação à diferentes atitudes tomadas. Executando um Estudo Observacional Estabeleça a população alvo Obtenha informações dessa população Dimensione e selecione uma amostra Determine o método de coleta Colete os dados

Upload: voliem

Post on 20-Jan-2019

215 views

Category:

Documents


0 download

TRANSCRIPT

24/03/2014

1

Universidade Federal do Pará Programa de Pós-Graduação em Odontologia

Desenho de Pesquisa e Bioestatística

Parte I: Amostras e amostragem

David Normando

Bibliografia recomendada:

Para os dias de semana Para o final de semana David Normando- UFPa

Uma Pergunta… Uma Pesquisa.

A Pesquisa Científica

• Coleta dos Dados

• Análise dos Dados

• Apresentação dos Dados

P E S Q U I S A

A Pesquisa Científica

• Coleta dos Dados (qualitativa)

• Apresentação dos Dados

• Análise dos Dados

• Coleta dos Dados (quantitativa)

C O N H E C I

M E N T O

Tipos de Estudos

• Observacionais (observational) – Descrição de uma amostra, representativa

da população.

• Experimentais (causal) – Diferenças observadas em relação à

diferentes atitudes tomadas.

Executando um Estudo Observacional

• Estabeleça a população alvo

• Obtenha informações dessa população

• Dimensione e selecione uma amostra

• Determine o método de coleta

• Colete os dados

24/03/2014

2

Por que utilizar AMOSTRAS? Por que NÃO utilizar AMOSTRAS? Estudo Observacional- Seleção da amostra

• As amostras devem ser representativas da população.

–Aleatorização (qualitativamente)

–Dimensionamento (quantitativamente)

Estudo Observacional- Amostragem

• Amostras não aleatórias

(menos confiáveis)

– Amostragem por conveniência

– Amostragem por julgamento

– Amostragem por resposta voluntária

Amostras não aleatórias Resposta Voluntária

Amostras não aleatórias (mais susceptíveis a erro- Bias)

Ex: eleições americanas- 1936 (Literary Digest)

Amostragem: questionários enviados à 10 milhões de endereços (catálogo telefônico).

Amostra: 2.4 milhões responderam.

Pesquisa: 57% Landon X 43% Roosevelt

Eleição: 38% Landon X 62% Roosevelt

Amostras não aleatórias (mais susceptíveis a erro- Bias)

• 84% das mulheres estavam insatisfeitas emocionalmente com os seus relacionamentos

• 70% das mulheres casadas ≥ 5 anos tiveram relações sexuais fora do casamento.

Hire, 1987

Amostras não aleatórias (mais susceptíveis a erro- Bias)

Amostragem: 100 mil questionários enviados a grupos de mulheres, centros de aconselhamento e de cidadania.

Amostra: 4.5% responderam.

Método de coleta:

- Questionário com 127 perguntas

Quais mulheres teriam interesse em responder a esse questionário?

Amostras não aleatórias (mais susceptíveis a erro- Bias)

24/03/2014

3

Amostras não aleatórias em estudos experimentais. Estudo Observacional- Amostragem

• Amostras não aleatórias (menos confiáveis)

– Amostragem por conveniência – Amostragem por julgamento – Amostragem por resposta voluntária

• Amostras aleatórias (probabilísticas) – Precisa ter tamanho suficiente – Podem ser generalizadas para a população.

Aleatorização das Amostras

Aleatorização das Amostras Técnicas de Amostragem

• Aleatória Simples

• Sistemática

• Estratificada

• Por conglomerados

Aleatória Simples, n= 6

Técnicas de Amostragem

N=30

Sorteio aleatório ou pseudo-aleatório

Aleatória Sistemática, n= 6

Técnicas de Amostragem

N=30

Técnica: N/n, 30/6, intervalos= 5

Aleatória Estratificada (amostras heterogêneas), n= 6

Técnicas de Amostragem

N=30

Aleatória por conglomerados (cluster)

Técnicas de Amostragem

Escola Pública, N= 4X1000= 4000 Escola Privada, N= 2X200= 400

Epidemiologia da Perda Precoce de dentes decíduos.

- População acessível diferente da população alvo - Falta de respostas - Erros de método de mensuração - Instrumento sem precisão - Calibragem deficiente do examinador

Técnicas de Amostragem

Problemas Comuns

24/03/2014

4

1) Em um estudo deseja-se obter uma amostra aleatória sistemática. N= 400, n= 40. Execute o exercício no BioEstat.

2) Um estudo tem o objetivo de obter a prevalência cárie dentária em crianças no município de Belém, na dentição decídua (2-6 anos). A população de 14356 crianças matriculadas nas pré-escolas. Para o cálculo amostral foi estimada uma amostra de 576 crianças. Os autores examinaram 577 crianças de escolas públicas do bairro do Guamá.

Estabeleça críticas à seleção da amostra.

Exercícios no Bioestat

Universidade Federal do Pará

Programa de Pós-Graduação em Odontologia Desenho de Pesquisa e Bioestatística

Parte II: Estatística Descritiva

David Normando

– QUALITATIVOS ou CATEGÓRICOS

(Estatísticas NÃO Paramétricas)

• ORDINAL (Ordem= Hierarquia) - Ex: níveis de Dor, índice de reabsorção (“scores”),

(0=ausente/ 1= suave/ 2= moderado/ 3= severo)

• NOMINAL (Sem Ordem)

– Ex: Sexo/ Doente X Sadio

(definidos por frequência)

- QUANTITATIVOS: escala CONTÍNUA (Estatísticas Paramétricas) - Ex: altura, peso, comprimento. - Profunidade da bolsa, cefalometria, força de adesão.

Tipos de Variáveis (Escala de Mensuração)

Dor

Medidas de Tendência Central X Dispersão Medidas Descritivas

• Medidas de tendência central:

– Paramétrica: média

– Não paramétrica: mediana e moda.

• Medidas de dispersão:

– Paramétrica: variância, desvio padrão

– Não paramétrica: amplitude, desvio-interquartílico.

Medidas de Tendência Central

– Média: média aritmética dos valores obtidos

– Mediana: é o valor que divide metade dos valores. Metade dos valores serão maiores que a mediana e a outra metade é composta por valores menores que a mediana.

– Moda: valor mais frequentemente encontrado.

Medidas de Tendência Central

• Média aritmética: é o resultado da soma dos valores de todas as observações, dividida pelo número de observações.

x1 + x2 + x3 + ... + xn

X = N

Medidas de Tendência Central

• Média tem indicação de uso em distribuições simétricas. Possui o maior poder matemático e é a medida descritiva mais utilizada (e preferida). No entanto, é afetada por valores extremos e em distribuições assimétricas pode apresentar uma informação distorcida.

N

xx

24/03/2014

5

Medidas de Tendência Central

• Mediana: é uma medida de posicionamento, representando o valor que ocupa a posição central na série, ou seja, em tese 50% dos valores estão abaixo e 50% acima da mediana. Não é afetada por valores extremos, daí ser preferida em séries com distribuição assimétrica.

Medidas de Dispersão dos Dados

• Amplitude • Desvio-médio • Desvio-Padrão (s) • Variância (s²) • Coeficiente de Variação • Quartil

• Desvio- Interquartílico

Medidas de Dispersão dos Dados

• AMPLITUDE: é o intervalo existente entre o valor

máximo e o valor mínimo das observações.

– simples mas pouco informativa, pois refere-se a apenas dois valores. Além disso, é sensível a valores extremos.

Medidas de Dispersão dos Dados

DESVIO MÉDIO • É a média dos valores absolutos dos desvios em

relação a média.

( xi – x ) Desvio Médio =

N

– o desvio médio é pouco utilizado em bioestatística por não ter propriedades matemáticas que permitam bons testes estatísticos nele baseados.

Medidas de Dispersão dos Dados

VARIÂNCIA

• É a soma dos quadrados dos desvios em relação a média dividida pelo número de observações menos um.

(xi – x)2

Variância = S2 =

N - 1

– Obs: N – 1 = graus de liberdade

Medidas de Dispersão dos Dados

DESVIO PADRÃO

• Em palavras simples, o desvio padrão (DP) representa o padrão de oscilações que os valores da série apresentam em relação à média. É fundamental em Estatística, sendo um importante marcador de variação.

• É freqüentemente usado em conjunto com a média e, como esta, também é afetado por valores extremos.

Medidas de Dispersão dos Dados

• É a raiz quadrada da variância.

DESVIO PADRÃO

1

( )i

N

xxSDP

2

EXEMPLO

xi (xi – x) (xi – x)2

1 -5 25

2 -4 16

4 -2 4

7 +1 1

10 +4 16

12 +6 36

Soma ou 36 0 98

Média = 6

Variância (S2) = 98/5 = 19,6

DP = S = = 4,43 19,6

Medidas de Dispersão dos Dados

• Desvio-interquartílico: é uma medida de dispersão

baseada em percentis. Os percentis são a

percentagem das observações abaixo do ponto

indicado quando todas as observações são ordenadas

de maneira decrescente. A mediana corresponde ao

percentil 50. Geralmente são apresentados os quartis,

isto é, os percentis 25, 50 e 75. A amplitude

interquartílica é o intervalo existente entre o percentil

25 e o percentil 75.

24/03/2014

6

ESCOLHENDO A MEDIDA DESCRITIVA

Tipo de variável

• NOMINAL: freqüências e proporções.

• ORDINAL: freqüências e proporções ou mediana e desvio interquartílico.

Média e o desvio padrão também podem ser utilizados.

• CONTÍNUAS: depende da distribuição de freqüências; – simétrica: média e desvio padrão. – assimétrica: mediana e desvio interquartílico

Exemplo: Índice de Reabsorção

Mediana? Média? DP? DIQ?

Índice de Reabsorção

n n cumulativo

0

1 1

1 2 3

2 3 6

3 4

2 1

8 9

– Exposição descritiva.

– Exposição em tabelas ou gráficos.

Estatística Descritiva (Exposição dos Resultados)

• Feita para resumir e organizar os dados coletados, para facilitar a compreensão dos mesmos.

• Deve ser AUTO-SUFICIENTE, de modo a prescindir de consultas ao texto para ser entendida.

TABELAS (Exposição dos Resultados)

Componentes Essenciais das Tabelas

• TÍTULO: colocado sempre na parte superior, deve ser claro e conciso, indicando o que foi estudado (o quê?), como foi estudado (como?), onde foi estudado (onde?) e o período do estudo (quando?).

Componentes Essenciais das Tabelas

• CABEÇALHO: linha superior que designa o conteúdo de cada coluna da tabela.

Componentes Essenciais das Tabelas

• COLUNA INDICADORA: coluna do lado esquerdo que designa o conteúdo de cada linha da tabela.

• CORPO: linhas e colunas que contém os dados coletados.

Elementos Complementares

• FONTE: rodapé que indica a fonte responsável pelos dados da tabela. Colocada por honestidade científica e para permitir consulta ao original.

• NOTAS/CHAMADAS: colocadas no rodapé para esclarecimentos de ordem geral.

Table 2- Tooth wear median and Interquartile range (IQR) for Arara-Iriri and Arara-Laranjal villages.

24/03/2014

7

“ Os seres humanos são bons em observar a presença de padrões sutis, mas igualmente para a imaginá-los quando eles estão completamente ausentes.” Carl Sagan (livro Contato)

Gráficos (Exposição dos Resultados)

• Todo gráfico deve apresentar título e escala;

• O título deve ser auto-explicativo e pode ser colocado acima ou abaixo do gráfico (verificar norma da revista ou escola);

• A escala deve crescer da esquerda para a direita, e de baixo para cima,

• As legendas explicativas devem ser colocadas preferencialmente à direita do gráfico;

Gráficos (Exposição dos Resultados)

Gráfico 1- Análise gráfica da associação linear entre o desgaste dentário e a idade

Gráficos (Gráfico em Barra ou colunas)

Indicados para dados de frequência (nominais)

Gráfico de Colunas Superpostas (Frequência relativa)

Gráficos Gráfico em Pizza

Indicados para dados de frequência relativa.

Gráficos Box-Plot

Indicados para dados contínuos ou ordinais

Gráfico em linha Indicados para dados longitudinais (coorte)

Indicados para dados contínuos ou ordinais (longitudinais)

Gráfico- Análise de Sobrevivência

Indicados para dados de frequência/ tempo

24/03/2014

8

Figure 1-1 Doses Altas X Doses Convencionais de Estatina (Cannon et al, 2006).

Nome do Estudo

Tamanho do efeito

Peso Relativo (n/ SD)

Precisão

Valor P

RESUMO (média ponderada, N/ precisão)

Evento= morte ou infarto Variável= nominal

Gráfico- Meta-análise

** (p=0,006)

Utilizar Gráfico de colunas/barras : dados contínuos (Paramétricos).

http://www.dentalpress.com.br/bioestatística

Utilizar Gráfico de colunas/barras para Dados Contínuos (Paramétricos).

Universidade Federal do Pará Programa de Pós-Graduação em Odontologia

Desenho de Pesquisa e Bioestatística

Parte III: Introdução à probabilidade e inferência estatística

David Normando

Base da Análise Estatística

0-1 0-100%

Bioestatística

P=0.000

P= ½, 0.5, 50% P= 1/6 x 1/6= 1/36= 0.028, 2.8%

P<0.001

Níveis de Probabilidade (confiança) em Bio-estatística

• Hipóteses: Ho= semelhança (igualdade) H1= Diferença significante.

5% (p< 0.05*) 1 % (p<0.01**)

0.1% (p<0.001***) P= Probabilidade do acaso

24/03/2014

9

Réu-sultados

Juiz= Teste Estatístico

O Julgamento Estatístico “O princípio da Nulidade (H0):

o réu é inocente até que se prove o contrário...”

P R I N C Í P I O D A N U I L I D A D E

Erro tipo I:

O réu é INOCENTE, mas o juiz o julga CULPADO.

Eu o considero CULPADO.

J U L G A M E N T O

O réu (na verdade) é INOCENTE

Erro tipo I (alfa): falso-positivo.

Rejeitar a Ho (NULIDADE), quando ela é verdadeira

Eu o considero DIFERENTE.

J U L G A M E N T O E S T A T Í S T I C O

Os resultados (na verdade) são iguais.

P R I N C Í P I O D A N U I L I D A D E

Valor P (obtido do teste estatístico)

A probabilidade de erro ao rejeitar a hipótese de nulidade (H0)

J U L G A M E N T O E S T A T Í S T I C O

Como medimos esse tipo de erro?

** (p=0,006)

Erro Tipo I (alfa) Um exemplo: Comparação de diferenças entre duas amostras.

J U L G A M E N T O E S T A T Í S T I C O

Base da Análise Estatística

Qual a probabilidade de ao jogarmos 2 dados, ocorrer um terno e uma quina?

Probabilidade Base da Análise Estatística

Erro tipo I: α (alfa)- valor P: é a probabilidade de estar errado ao afirmar que

existe diferença, ou da diferença ter ocorrido ao acaso.

p= 0.01

(1%) α= 0.05

Problema:

Esses pisos são diferentes, do ponto de vista do polimento?

Resposta: SIM, são diferentes

p= 0.80

(80 %) α= 0.05

Problema:

Esses pisos são diferentes, do ponto de vista do tamanho?

Resposta: Não, não são diferentes.

Erro tipo I: α (alfa)- valor P: é a probabilidade de estar errado ao afirmar que

existe diferença, ou da diferença ter ocorrido ao acaso.

Probabilidade Base da Análise Estatística

Teorema de Bayes Probabilidade Condicional

24/03/2014

10

Exercício

Suponha: • 1 em cada 1000 pessoas tem AIDS • O teste para HIV é preciso em 99% • Se você não tem HIV, 1% das vezes o teste será falso-

positivo. • Se você tem HIV, 1% das vezes o teste será um falso-

negativo.

Se você fez um teste para AIDS e o resultado foi positivo, qual a probabilidade que você realmente esteja doente (AIDS)?

Profundidade de sulco em fumantes x não fumantes.

Idade e desgaste dentário em indígenas Falhas na colagem x bandagem de

molares

Dimensões do arco: modelos x fotogrametria

Wilcoxon

Shapiro-Wilk

D’Agostino

Contínua X Ordinal X Nominal – QUALITATIVOS ou CATEGÓRICOS

(Estatísticas NÃO Paramétricas)

• ORDINAL (Ordem= Hierarquia) - Ex: níveis de Dor, índice de reabsorção (“scores”),

(0=ausente/ 1= suave/ 2= moderado/ 3= severo)

• NOMINAL (Sem Ordem)

– Ex: Sexo/ Doente X Sadio

(definidos por frequência)

- QUANTITATIVOS: escala CONTÍNUA (Estatísticas Paramétricas) - Ex: altura, peso, comprimento. - Profundidade da bolsa, cefalometria, força de adesão.

Tipos de Variáveis (Escala de Mensuração)

Dor

24/03/2014

11

Contínua X Ordinal X Nominal

Normal X Anormal

Dependente X Independente

Média +1 DP -1 DP -2 DP -3 DP +2 DP +3 DP

Média= Moda= Mediana

1.70 1.78 1.86 1.94

Estatura do Brasileiro, sexo masculino (média= 1.70/ DP= 8 cma)

1.62 1.54 1.46

f

1000

2000

3000

4000

5000

6000

7000

8000

9000

≈ 2/3 (68%)

≈ 95 % (IC 95)

≈ 99 % (IC 99)

Outliers

±2

Distribuição da renda familiar dos estudantes de nível superior (fonte: IBGE, PNAD, 1998). Renda Mensal Familiar dos estudantes de nível superior

Média

Moda

Frequência

2/3 (68%)

95 %

99 %

Mediana

Testes Paramétricos

Testes Não Paramétricos

Curiosidade da Estatística Teste t de Student

William Gosset (1876-1937)

24/03/2014

12

Contínua X Ordinal X Nominal

Normal X Anormal

Dependente X Independente

Amostras Independentes (Indivíduos ou espécimes diferentes)

Amostras dependentes, (vinculadas ou pareadas)

Antes X depois; Lado direito X esquerdo

T1 X T2 X T3.

Classificação das Amostras (Pareadas X Não pareadas)

http://www.dentalpress.com.br/bioestatistica

Universidade Federal do Pará Programa de Pós-Graduação em Odontologia

Desenho de Pesquisa e Bioestatística

Parte IV: Testes Estatísticos para diferenças entre grupos.

David Normando

Profundidade de sulco em fumantes x não fumantes.

Testes Não Paramétricos- Dados Nominais

Diferenças • 2 amostras

• Amostras independentes: Qui-quadrado Exato de Fisher: um dos escores < 5

• Amostras pareadas: McNemar • > 2 amostras

• Amostras independentes: Qui-quadrado

Exato de Fisher: um dos escores < 5

• Amostras pareadas: Cochran

Regressão: logística simples e múltipla Replicabilidade: Teste de Kappa

Razão da Prevalência, Odds Ratio, Risco

Relativo.

1- Risco Relativo (RR)

2- Diferença dos Riscos (Dif R)

3- Odds Ratio (OR)

4- Razão da Prevalência (RP)

Morto Vivo n Tratado 5 95 100 Controle 10 90 100

Dimensão do efeito- θ Baseado em dados binomiais (2X2)

Dimensão do efeito- θ Baseado em dados binomiais (2X2)

1- Risco Relativo RR= 5/100

10/100

Morto Vivo n Tratado 5 95 100 Controle 10 90 100

= 5 10

= 0.5

24/03/2014

13

Dimensão do efeito- θ Baseado em dados binomiais (2X2)

2- Diferença dos Riscos (Dif R)

Morto Vivo n Tratado 5 95 100 Controle 10 90 100

= 0.05- 0.10= - 0.05

Dimensão do efeito- θ Baseado em dados binomiais (2X2)

3- Odds Ratio OR= 5/95

10/90

Morto Vivo N Tratado 5 95 100 Controle 10 90 100

= 0.0526 0.1111

= 0.4737

Odds Ratio (xls)

Dimensão do efeito- θ Baseado em dados binomiais (2X2)

Cárie Hígido n Belém 200 800 1000 Manaus 100 900 1000

4- Razão da Prevalência RP= 200/1000

100/1000

= 2 1

= 2

• Testes Paramétricos- utilizam a média e desvio-padrão (ou variância).

• Testes não paramétricos- utilizam a mediana, desvio interquartílico ou diferença dos postos.

Testes Paramétricos X

Não Paramétricos

1. Dados Contínuos 2. Distribuição Normal dos dados

3. Variâncias semelhantes (Homocedasticidade)

Critérios para uso de um teste Paramétrico

Distribuição t de Student Curva de distribuição de Probabilidades

• Simétrica em relação à média;

• Depende do grau de liberdade, gl;

• Quanto mais gl aumenta, mais a distribuição t tende à Normal padrão.

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

-4.00 -3.00 -2.00 -1.00 0.00 1.00 2.00 3.00 4.00

Normal

T1gl

T5gl

T30gl

Testes Paramétricos

Diferenças entre grupos: • 2 amostras (média; desvio-padrão):

– Amostras independentes: teste t independente/ ANOVA

– Amostras pareadas: teste t pareado/ ANOVA • + de 2 amostras (média; variancia):

– ANOVA (Análise de Variância) +

(Tukey-Kramer/ Bonferroni/ Dunnett)

Testes de Correlação Linear de Pearson Análise de Regressão Linear Simples e Múltipla Correlação Intra-Classe (replicabilidade)

Testes Não Paramétricos- Dados Ordinais

Diferenças entre grupos:

• 2 amostras- (mediana/ postos):

– Amostras independentes: Mann-Whitney

– Amostras pareadas: Wilcoxon/ Teste dos Sinais

• + 2 amostras- (mediana/ postos):

– Amostras independentes: Kruskal-Wallis

– Amostras pareadas: Friedman

Correlação: Testes de Correlação de Spearman

Regressão: logística simples e múltipla

Replicabilidade: Kappa Ponderado, Wilcoxon

Erro tipo I em múltiplas comparações

• C= # de comparações, alpha PC é o erro tipo I (.05)

# Testes Valor de α FW α

1 0.05 0.05

3 0.05 0.14

6 0.05 0.26

10 0.05 0.4

15 0.05 0.54

24/03/2014

14

http://www.dentalpress.com.br/bioestatistica

1- Tukey-Kramer: comparação de todos os grupos entre si.

2- Dunnet: comparação dos grupos experimentais com o controle.

3- Bonferroni: comparação de grupos selecionados.

Dados contínuos: comparando mais de 2 grupos (ANOVA)- testes post-hoc

Universidade Federal do Pará Programa de Pós-Graduação em Odontologia

Desenho de Pesquisa e Bioestatística

Parte VI: Correlação e Regressão

David Normando

Correlação e Regressão: Entendendo o relacionamento entre variáveis.

David Normando

Diagnóstico e Planejamento

- Como podemos predizer uma característica a partir

de outra pré-existente?

- Sua precisão é alta o suficiente para justificar a aplicação clínica de rotina?

CORRELAÇÃO E REGRESSÃO

• Estatística da ANÁLISE DE ASSOCIAÇÕES- relação entre duas ou mais características.

- Ex: prever o tamanho dos caninos e pré-molares não-irrompidos a partir das larguras dos incisivos inferiores.

20 21 22 23 24 25 26 27 28 29 Diâmetro mésio-dital dos

Incisivos Inferiores Permanentes

32 31 30 29 28 27 26 25 24 23 22 21

//

Análise de Correlação

Premolares e caninos

Correlação Positiva, r>0

r= 0.85

20 21 22 23 24 25 26 27 28 29

32 31 30 29 28 27 26 25 24 23 22 21

//

Análise de Correlação

Correlação Negativa, r<0

r= -0.87

20 21 22 23 24 25 26 27 28 29

32 31 30 29 28 27 26 25 24 23 22 21

//

Análise de Correlação

Correlação nula, r=0

r= 0

24/03/2014

15

FORÇA E SENTIDO DA CORRELAÇÃO LINEAR

a) Pela direção do gráfico de dispersão

b) Pelo Coeficiente r : valor e sinal (+ ou -)

CORRELAÇÃO LINEAR

Pearson: dados Quantitativos, escala contínua (Paramétrica).

Spearman: dados ordinais, ou contínuos anormais

(não paramétrica)

COEFICIENTES DE CORRELAÇÃO: valores de r

-1.00 -- correlação negativa perfeita -0.95 -- correlação negativa forte -0.50 -- correlação negativa moderada -0.10 -- correlação negativa fraca 0.00 –- AUSÊNCIA DE CORRELAÇÃO

0.10 -- correlação positiva fraca 0.50 -- correlação positiva moderada 0.95 -- correlação positiva forte 1.00 -- correlação positiva perfeita

CORRELAÇÃO LINEAR DE PEARSON

20 21 22 23 24 25 26 27 28 29

32 31 30 29 28 27 26 25 24 23 22 21

//

r= -0.62

20 21 22 23 24 25 26 27 28 29

32 31 30 29 28 27 26 25 24 23 22 21

//

r= 0.6

CORRELAÇÃO MÚLTIPLA: MÚLTIPLOS FATORES DE CONFUSÃO

H

S

X Y

E D

Nos estudos de Correlações é

importante verificar se outros fatores

estão presentes, eis que podem

influenciar as Variáveis X e Y,

introduzindo bias nos resultados

Relação de CAUSA-EFEITO entre um resultado de interesse e uma ou mais variáveis.

Propósito: ESTIMAR ou PREDIZER o valor de uma, variável DEPENDENTE (Y), em função de outras, as variáveis INDEPENDENTES (X).

Y depende de X Existe uma regressão de Y sobre X

Análise de Regressão Análise de Regressão

• Determinação da dependência de uma variável em relação a chamada variável independente (preditora).

• Utilizada para pesquisar e modelar o relacionamento entre as diversas variáveis de um processo.

Ao definir entre quais pontos a reta deve passar, o bestfit escolherá a menor soma dos quadrados das distâncias (least square).

Assim a soma do quadrado será:

Caso A: 42 + 42 =16+16= 32

Caso B: 72 + 12 = 49 + 1= 50

Portanto, o bestfit ocorrerá usando o caso A, pois a soma dos quadrados será menor (mínimo quadrado)

4 mm

4 mm

1 mm

7 mm

Caso A

Caso B

1+7= 8 4+4= 8

Am J Orthod Dentofacial Orthop 1998;114:73-9.

Objetivos:

Avaliar a relação de dependência de Y em relação a X;

Expressar matematicamente esta relação pela equação de Regressão- estimativa do grau de predição. Y = a + bx

a (intercepto)= é o ponto onde a linha de regressão cruza o eixo vertical (o valor de Y quando X é zero)

b (coef. de regressão)= é a inclinação da reta ( quando X aumenta de uma unidade, Y mudará por unidades de B)

Métodos de análise de regressão

Depende de Y ( Variável Dependente)

Se Y (dados Contínuos/ Normal)- Regressão Linear

Altura, pressão arterial

Se Y (dados Binários)- Regressão Logística Reabsorção dentária, trauma, trat. ortodôntico

Se Y tempo de evento- Riscos proporcionais de Cox

Tempo até a morte

24/03/2014

16

Regressão Linear Simples

• Há duas variáveis envolvidas no processo (objeto de estudo).

• Os dados são contínuos variáveis contínuas, dentro de um processo.

COEFICIENTE DE DETERMINAÇÃO

Símbolo: r2 ou R2

Significado: é igual ao Coeficiente de Correlação Linear (r) elevado ao quadrado. Representa a

proporção da Variável Dependente (Y) explicada pela Variável Independente (X): 60%, 70%, 85%

etc.

Regressão Linear Simples

Usada para descrever a relação entre uma variável Y (CONTÍNUA) e outra variável X, ( CONTÍNUA, BINÁRIA, ORDINAL).

GRÁFICO DE DISPERSÃO

A elaboração de um gráfico de dispersão é um passo fundamental, pois dá uma boa idéia da existência ou não de uma relação entre as duas variáveis, Y e X.

Impressão Visual da força de associação entre elas.

Pode ser usado também para verificar a presença de outliers.

Regressão Linear Simples

Regressão linear simples

Quatro gráficos de dispersão mostrando (A) não existe relação entre as variáveis, (B) uma relação linear entre as variáveis com variância constante, e (D) uma relação linear com a variância aumentando (spread) para Os valores mais elevados.

Coeficiente de Determinação (r2 ou R2)

Nos testes de Regressão, é utilizado para se determinar o

grau de intensidade com que a variável X determina o valor da variável Y, ou seja, qual é a proporção da variável X responsável pela variável dependente Y : 70%? 80%? 90%?, etc.

Proporção da variabilidade de Y que é explicado por X.

REGRESSÃO LINEAR: Coeficiente de

Determinação (r2 ou R2)

86.56% da Variável Y é explicada pelas Variáveis Xi.

= 0.8656

Neste Exemplo: 86.56% do desgaste dentário é explicado pela idade (anos).

OUTRAS REGRESSÕES:

a) Regressão Linear Múltipla

b) Regressão Logística Simples

c) Regressão Logística Múltipla

d) Stepwise: Progressiva e Regressiva

Stepwise Progressiva

Variável Dependente: PAS

Variáveis Independentes: - Col 2: Idade (anos) - Col 3: Peso (kg) - Col 4: Duração da doença (anos) - Col 5: Nível de Estresse (1 a 100)

Executar Regressão Stepwise Progressiva

Stepwise Regressiva

Variável Dependente: PAS

Variáveis Independentes: - Col 2: Idade (anos) - Col 3: Peso (kg) - Col 4: Duração da doença (anos) - Col 5: Nível de Estresse (1 a 100)

Executar Regressão Stepwise Regressiva

24/03/2014

17

Regressão Logística

• Utilizada para correlacionar os dados quando a variável resultante é binária, ou seja, quando há 2 opções.

Exemplos:

presença ou ausência de determinada patologia; sexo: masculino ou feminino.

A regressão logística pode ainda ser utilizada para variáveis contínuas, como idade por exemplo.

REGRESSÃO LOGÍSTICA SIMPLES REGRESSÃO LOGÍSTICA SIMPLES

ESTIMAÇÃO DE Y

0

REGRESSÃO LOGÍSTICA SIMPLES

A probabilidade de câncer cervical é de cerca de 78%

Regressão Multivariada

Análise de regressão em que há vários coeficientes de regressão, um para cada variável explicada.

A relação entre o resultado e cada variável é ajustado pelos efeitos das demais variáveis envolvidas.

Regressão Multivariada

A escolha das variáveis deverá basear-se em:

Relevância clínica;

Confiança e precisão dos dados;

Haver correta distinção entre pacientes;

Menor número de dados perdidos;

Não medir o mesmo efeito subjacente em outra variável escolhida.

Variáveis contínuas melhores que dicotômicas (perde poder estatístico).

A fim de reduzir o número de variáveis, sempre que possível deverá ser feita a compilação de múltiplas variáveis em uma só.

Análise de Regressão

Na Prática ... 1. Checar se o tipo de análise de regressão utilizada

foi realmente a mais adequada para os tipos de resultados encontrados, relacionados à variável da pesquisa.

2. Escolher as variáveis antes da execução do teste.

3. Ter certeza de que o número de variáveis incluídas na pesquisa é apropriado.

4. Observe os dados brutos e as medidas de magnitude de efeito ao invés de apenas os valores de p.

Regressão multivariável

ESCOLHA DAS VARIÁVEIS •A partir de trabalhos anteriores; •Mais clinicamente relevantes; •Confiáveis e precisas na medida; •Escolher as que não tem o mesmo valor para quase todos os pacientes; •Variáveis que não medem o mesmo efeito; •Ter o mínimo de dados faltando; •Variáveis contínuas melhores que dicotômicas (perde poder estatístico). Dicotômicas- modelo de previsão- fácil de usar

Pontos a serem verificados

•Se o tipo de Regressão utilizado é apropriado para o tipo de Variável Dependente; • Que o número de Variáveis Independentes incluídas é adequado e que não há muitos dados faltantes; •Olhe para os dados brutos e as medidas de magnitude de efeito ao invés de apenas os valores de p.

24/03/2014

18

Universidade Federal do Pará Programa de Pós-Graduação em Odontologia

Desenho de Pesquisa e Bioestatística

Parte VII: Erro do Método

David Normando

Reprodutibilidade do Método Erro do Método

• ERRO SISTEMÁTICO (erro de leitura de medidas que ocorre em uma

mesma direção de forma rotineira- sistemática) – Ex: grupos de medidas em um mesmo RX por 2 investigadores, ou um único

examinador com diferentes instrumentos.

• ERRO CASUAL – Exprime a precisão da medida. Ocorre por casualidade ou imprecisão do Instrumento de medição Método de avaliação: fórmula de Dahlberg. Quanto maior a diferença para a medida real, menor a precisão do método de medida.

(considere o alvo- em vermelho- como a medida real)

NO EXEMPLO, OCORREU UM ERRO SISTEMÁTICO NO EXEMPLO, A PRECISÃO (erro casual) É PEQUENA E NÃO EXISTE UM ERRO SISTEMÄTICO.

Estudo do Erro do Método

• Repetições das medidas

–Erro Intra- examinador

–Erro Inter-examinadores

Estudo do Erro do Método

• Erro casual – Empregado, apenas, para dados contínuos.

• Erro sistemático – Dados contínuos:

• Correlação intra-classe e teste t pareado

– Dados ordinais: • Kappa ponderado

– Dados Nominais: • Kappa

24/03/2014

19

Universidade Federal do Pará Programa de Pós-Graduação em Odontologia

Desenho de Pesquisa e Bioestatística

Parte VIII: Cálculo Amostral

David Normando

P R I N C Í P I O D A N U I L I D A D E

Erro tipo II (Beta): falso-negativo .

O réu é CULPADO, mas o juiz o julga INOCENTE.

Eu o considero INOCENTE.

O réu (na verdade) é CULPADO

O Réu-sultados pode(m) ser inocentado(s) (nulo) por insuficência de PROVAS

Erro Tipo I (alfa) e Tipo II (Beta)

Um exemplo: Comparação de diferenças entre duas amostras.

J U L G A M E N T O E S T A T Í S T I C O

Erro Tipo I (alfa) e Tipo II (Beta)

Um exemplo: Comparação de diferenças entre duas amostras.

J U L G A M E N T O E S T A T Í S T I C O

O Princípio dos Testes Estatísticos

SINAL RUÍDO

t, F, Z, U=

SINAL

RUÍDO t, F, Z, U=

E R R O

(valor p) (erro ß)

SINAL= Diferença observada RUíDO= Variação dos dados/ n (Erro padrão)

Como o tamanho da amostra (n) interfere no ruído?

SINAL (X1-X2)

RUÍDO (s/n) t=

24/03/2014

20

Diferença das

Médias

Variância n=10

Ruído=

Variância

n=100 Ruído= SINAL

Ruído t=

SINAL

Ruído t=

SINAL

RUÍDO t=

SINAL RUÍDO t=

Diferença das

Médias

(Soluções)

• Controle dos fatores de variação

• Controle do erro do método

• Cálculo amostral

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

AJODO (2007-8) DJO (2006-7)

78.9% 96,1%

21.1%

3.9%

Art

igo

s co

m a

nál

ise

est

atís

tica

Com Cálculo Amostral

Sem Cálculo Amostral

3%

Precisamos conhecer: • O teste estatístico a ser usado, se uni ou bi-caudal. • A certeza desejada:

– Erro Alfa- até 5% (p<0,05) – Erro Beta- até 20% (0.2). Poder= 1-Beta (0.2). Poder ≥ 0.8)

• A dispersão dos grupos (DP, Variância).

• O efeito mínimo (diferença), clinicamente importante.

Provavelmente porque é o passo mais difícil da análise estatística.

COMPARANDO PROPORÇÕES

• Pequeno: 40% X 50%

• Médio: 40% X 65%

• Grande: 40% X 78%

Obs: O tamanho do efeito de proporções não pode ser especificado pela diferença entre as duas proporções. Exige-se que as proporções absolutas sejam especificadas. Ex: o tamanho do efeito é maior 10% X 20%, que em 40% X 50%.

(Cohen, 1988; 1992)

Cohen, J. Statistical power analysis for the behavioral sciences. 2nd ed. Hillsdale, N.J.: Lawrence Erlbaum Associates, Inc., 1988. Cohen, J. A power primer. Psychological Bulletin 112: 155–159., 1992

COMPARANDO MÉDIAS

• Pequeno, d=0.20

• Médio, d=0.50

• Grande, d=0.80

• d= diferença das médias

desvio-padrão das amostras

(Cohen, 1988; 1992)

Cohen, J. Statistical power analysis for the behavioral sciences. 2nd ed. Hillsdale, N.J.: Lawrence Erlbaum Associates, Inc., 1988. Cohen, J. A power primer. Psychological Bulletin 112: 155–159., 1992

24/03/2014

21

Examinando CORRELAÇÃO

• Pequeno: r=0.10

• Médio: r=0.30

• Grande: r=0.50

(Cohen, 1988; 1992)

Cohen, J. Statistical power analysis for the behavioral sciences. 2nd ed. Hillsdale, N.J.: Lawrence Erlbaum Associates, Inc., 1988. Cohen, J. A power primer. Psychological Bulletin 112: 155–159., 1992

PODER= 1- (erro tipo II)

Aceita-se um erro tipo II () até 0,2

PODER= 1- 0.2= 0.8 (80%)

O que devemos definir:

1) O tamanho do efeito.

A diferença mínima entre os grupos.

Quanto maior, menor o n.

2) A dispersão dos grupos (DP/ Variância)

Quanto maior, maior será o n.

3) A certeza desejada (nível alfa, Beta)

Quanto maior (menor erro: alfa e Beta), maior n.

• A gravidade da doença

– Perda de um dente X Irregularidade no esmalte

• A disponibilidade prévia de tratamento para a doença (condição).

• Custo do Tratamento e efeitos colaterais

O que devemos definir:

1) O tamanho do efeito.

A diferença mínima entre os grupos.

Quanto maior, menor o n.

2) A dispersão dos grupos (DP/ Variância)

Quanto maior, maior será o n.

3) A certeza desejada (nível alfa, Beta)

Quanto maior (menor erro: alfa e Beta), maior n.

Uma diferença (efeito) observada é conviciente? Fatores a serem observados: 1) O tamanho do efeito. Ex: 20% convence mais que 10% 2) O tamanho da amostra Ex: Suponha uma diferença de 20%. Se n=10? se n=40? se n=100? 3) A certeza desejada (valor, nível alfa). Ex: cosmética x ciências aeronáuticas

O Tamanho do efeito (θ)> n

Ex1: θ = 30% X 50%, n = 100, Alfa = 5% (bicaudal)

PODER= 83%

Ex2: θ = 30% X 55% n = 100, Alfa = 5% (bicaudal)

PODER= 95%

Ex3: θ = 30%X 50%, n = 160, Alfa = 5% (bicaudal)

PODER= 95%

10%

60%

Alfa= 0.05,

bicaudal,

Proporção 2= 0,40

24/03/2014

22

PODER= 1- (erro tipo II)

PODER= 1- (erro tipo II)

• Amostras excessivamente grandes,

(overpowered)

Ex: n=100, utilizou-se n=200. 100 pessoas estão em risco desnecessariamente.

• Amostras subdimensionadas (underpowered)

Ex: n=100, utilizou-se n=50. 50 pessoas estão em riscos desnecessariamente

(provavelmente).

n=30 n=30 n=30 É provável que diversos ratos tenham sido sacrificados

desnecessariamente.

dif= 0,25

Exercício