medidas de tendência central e de dispersão - ufpel.edu.br · tópicos da aula medidas de...

Post on 19-Nov-2018

223 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

MEDIDAS DE POSIÇÃO E

DE DISPERSÃO

Bioestatística e Delineamento Experimental - 2012

Profª Andréa H Dâmaso

Tópicos da aula

Medidas de tendência central e dispersão

Variáveis contínuas: distribuição normal

Amostra

Variabilidade amostral

Relembrando... tipos de variáveis

Dicotômicas

Politômicas

Nominais

(ordem não importa)

Ordinais

(tem uma ordem lógica)

Discretas

(números inteiros)

Contínuas

(aceitam decimais) Raça, estado

civil, religião...

NSE, IMC categ,

avaliação

qualitativa...

“CONTAGENS”

Nº filhos, anos de

estudo...

“MEDIDAS”

Peso, altura,

pressão.

Renda familiar

(R$)

Estatística descritiva

Medidas de ocorrência

FREQUÊNCIA ou PORCENTAGEM

Incidência

Prevalência

Odds

Medida de precisão

INTERVALO DE CONFIANÇA

Medidas tendência central

MODA

MÉDIA

MEDIANA

Medidas de dispersão

AMPLITUDE

VARIÂNCIA

DESVIO PADRÃO

ERRO PADRÃO

Distribuição de frequência

Descrição de uma variável qualitativas ou categóricas

Dicotômicas ou binárias

Politômicas

Cálculo de proporções

Divisão de um número por outro, onde o numerador está

contido (é subconjunto) no denominador

Exemplo: Desnutrição: sim /não

Em 100 crianças, 20 estão desnutridas (20%)

Como apresentar as informações?

Dados da coorte de nascimentos de 2004. Pelotas, RS (n=6000)

Número Peso ao nascer

(g)

Número de

gravidez

1 750 1

2 1500 3

3 1520 2

4 2450 4

5 1790 1

6 3000 2

7 1930 2

..... ..... ...

5999 3510 1

6000 2900 1

Distribuição de frequência

Descrição de uma variável numérica

Tabela que mostra um número de observações ou

valores dentro de certos intervalos

Distribuição de frequência: variável “discreta”

Número de gravidezes das mães da coorte de 2004. Pelotas, RS (n=6000)

Número de gravidez Frequência (n) %

1 2092 34,9

2 1644 27,4

3 970 16,1

4 544 9,1

5 282 4,7

6 168 2,8

7 105 1,8

8 69 1,2

9 48 0,8

10 39 0,7

11 20 0,3

12 11 0,1

13 8 0,1

Distribuição de frequência: variável “discreta”

Número de gravidez das mães da coorte de 2004. Pelotas, RS (n=6000)

Número de gravidezes Frequência (n) %

1 2092 34,9

2 1644 27,4

3 970 16,1

≥4 1294 21,6

Distribuição de frequência: variável “contínua”

Peso ao nascer das crianças da coorte de 2004. Pelotas, RS (n=4555)

Peso ao nascer (gramas) Frequência %

<1000 52 1,1

1000-1499 43 0,9

1500-1999 98 2,2

2000-2499 305 6,7

2500-2999 1112 24,4

3000-3499 1747 38,3

3500-3999 976 21,5

4000 222 4,9

...

... mas para variáveis contínuas queremos descrever

os dados de forma ainda mais sucinta!

Medidas de tendência central

Medidas de posição

Medidas de dispersão

Descrição de variáveis contínuas

MÉDIA

MEDIANA

MODA

AMPLITUDE

INTERVALO INTERQUARTIL

VARIÂNCIA

DESVIO PADRÃO

TERCIL

QUARTIL

QUINTIL

DECIL

PERCENTIL

Medidas de tendência central, de posição e

de variabilidade ou dispersão

Utilizadas para variáveis:

Quantitativas ou numéricas

Discreta

Contínua

São valores calculados com o objetivo de descrever os

dados de forma ainda mais resumida do que usando uma

tabela

Medidas de tendência central

Média

Moda

Mediana

Medidas de tendência central

Média

xi: valor de cada indivíduo

∑: somatória

n: total de indivíduos

x

x

n

i

i

n

1

Vantagem:

Utiliza TODOS os

valores da distribuição

Desvantagem:

É influenciada por

valores extremos

Medidas de tendência central

Moda

Valor que mais se repete na amostra (na distribuição)

1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 4, 8, 9, 9

Moda: 2

Quando mais de um valor se repete o mesmo número de

vezes BIMODAL

Medidas de tendência central

Mediana

Valor que divide a distribuição ao meio

1º passo: ordenar os dados de menor a maior

2º passo: ver qual valor ocupa o “meio” da distribuição

Se...

Número ímpar de dados: valor do meio

1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 4, 8, 9, 9

Número par de dados: média dos dois do meio

1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 4, 8, 9, 9

Fórmula:

(n + 1)/2

Média x Mediana

Semelhantes para distribuições simétricas: Peso ao nascer

Média: 3131 g

Mediana: 3180 g

Distantes para distribuições assimétricas: Renda familiar

Média: R$ 791

Mediana: R$ 500

Então...

Qual medida de tendência central usar?

MÉDIA ou MEDIANA?

Mediana x Média: peso ao nascer

Distribuição simétrica

0

50

01

00

01

50

02

00

0

n

1000 2000 3000 4000 5000 6000Peso ao nascer

Média: 3131 gramas; Mediana: 3180 gramas

Média

Mediana x Média: renda familiar

Distribuição assimétrica 0

10

00

20

00

30

00

n

0 5000 10000 15000 20000Renda famil iar (reais)

Média: R$ 791; Mediana: R$ 500

Mediana

Medidas de posição

Percentis (dividem os dados em 100 partes iguais)

Percentil 10, percentil 50, percentil 99...

Quartis

Primeiro, segundo, terceiro, quarto quartil

Quintil

Primeiro, segundo, terceiro, quarto, quinto quintil

Percentis de peso ao nascer

. su peson,d

peso ao nascer em gramas

-------------------------------------------------------------

Percentiles Smallest

1% 1950 1100

5% 2340 1490

10% 2570 1550 Obs 962

25% 2870 1570 Sum of Wgt. 962

50% 3180 Mean 3200.639

Largest Std. Dev. 511.0475

75% 3510 4690

90% 3830 4700 Variance 261169.5

95% 4050 4700 Skewness -.1061833

99% 4450 4880 Kurtosis 3.579037

Medidas de dispersão (variabilidade)

Várias maneiras de medir a dispersão

Amplitude (maior - menor)

Amplitude interquartil (p75 - p25)

Variância

Desvio padrão

Medidas de dispersão (variabilidade)

Amplitude

Valor maior – valor menor

Apenas considera os valores extremos

Ex: 5 medidas de glicemia em mmol/l

80; 85; 88; 90; 500

Amplitude: 500-80=480

Medidas que se distanciam muito das demais influenciam

muito a amplitude

Medidas de dispersão (variabilidade)

Amplitude interquartil

Percentil 75 – percentil 25

Considera apenas a parte central dos valores de um

conjunto de dados

Joga fora os valores mais altos e os mais baixos

Não influenciada pelos valores discrepantes

Medidas de dispersão (variabilidade)

Variância (S2)

Boas propriedades estatísticas

Usa todas as observações

É uma medida dos “desvios” (ao quadrado) de cada

observação em relação à média

Pq ao quadrado?

Unidade de medida ao quadrado difícil interpretação

Medidas de dispersão (variabilidade)

Desvio padrão (S)

É a raiz quadrada da variância

Quanto mais próximos os valores individuais estiverem de

sua média, < a dispersão e < o desvio-padrão

Muito útil para distribuições dos dados aproximadamente

normais

Distribuição normal

Ou Gaussiana

Simétrica

Forma de “sino”

É uma distribuição contínua

Descreve bem fenômenos biológicos

5 4 0 0

5 0 0 0

4 6 0 0

4 2 0 0

3 8 0 0

3 4 0 0

3 0 0 0

2 6 0 0

2 2 0 0

1 8 0 0

1 4 0 0

1 0 0 0

6 0 0

1 8

1 6

1 4

1 2

1 0

8

6

4

2

0

S t d . D e v = 5 5 7 . 3 8

M e a n = 3 1 5 2

N = 5 2 5 8 . 0 0

Percentagem

Peso ao nascer

Distribuição normal padrão (propriedades)

1. Qualquer variável com distribuição simétrica

(normal) pode ser relacionada com uma distribuição

normal padrão

Média: zero; DP: 1

Posso estimar entre quais valores está x% dos meus dados

Distribuição normal padrão (propriedades)

2. Área abaixo da curva

A área abaixo de toda a curva normal = 1, ou seja, a

probabilidade de que uma observação fique em algum

lugar abaixo da curva é 100%

3. A probabilidade de se estimar a localização

exata de um indivíduo em específico é “zero”

Não posso estimar a posição de um valor específico, mas

posso calcular:

Proporção de indivíduos abaixo ou acima de certo valor

Proporção de indivíduos entre certos valores

Distribuição normal padrão (propriedades)

Exemplo

Qual a probabilidade de uma criança ter peso ao

nascer igual a 4000 gramas?

Não tenho como calcular esta probabilidade exata, mas

posso calcular...

Qual é a proporção de crianças com peso ao nascer

maior de 4000 gramas?

Área abaixo da curva

Média = 3230

DP = 610

Crianças com peso ao

nascer > 4000 gramas

Área abaixo da curva

Distribuição normal padrão

(x - média)/desvio padrão

(4000 - 3230)/610 = 1,26 = z

Olhando as tabelas de distribuição normal...

z = 0,1038, ou seja, 10,4% das crianças tem peso

ao nascer maior do que 4000 gramas

... Uso de amostras

O que seria uma amostra? Não é melhor avaliar

toda a população ?

Amostra

Quero conhecer um atributo de uma população (alvo)

Estado nutricional das crianças brasileiras menores de 5 anos

Escolho um grupo para estudar

Crianças menores de 5 anos da cidade de Pelotas

Deste grupo tiro uma amostra

Definição da população

UNIVERSO ou POPULAÇÃO TOTAL

POPULAÇÃO ALVO

AMOSTRA

Amostra: características

1. Representar a população

Equiprobabilidade = representatividade

Todos os indivíduos da população alvo têm a mesma chance de

participar do estudo (de serem sorteados)

POPULAÇÃO ALVO POPULAÇÃO ALVO

Amostra: características

2. Precisão

Amostra de tamanho adequado

Garantir o mínimo de precisão

Garantir a chance de demonstrar uma diferença entre dois

grupos

PODER: probabilidade de encontrar uma diferença qdo ela

realmente existe

Quanto maior a amostra, maior o poder

Estudos com baixo poder (amostra pequena) para testar

associações são um desperdício de tempo e dinheiro

Amostra: características

3. Variabilidade amostral

Cada amostra dá um resultado

Repetir o processo de amostragem e estudar a distribuição

dos resultados

Como será que a distribuição das amostras se

compara com a distribuição em toda população?

Se coletarmos muitas amostras independentes, do mesmo

tamanho, de uma mesma população e calcularmos a média

de cada amostra...

Distribuição das médias amostrais

Então, a amostra...

Tem importância pelo que nos conta sobre a

população que representa

A média e o desvio padrão da amostra são usados

para estimar a média e o desvio padrão da

população

s

xamostra

população

Distribuição das médias amostrais

A média da distribuição das médias amostrais é a

média da população (isso eu já sei!!!)

E como é a variabilidade da média da população?

O desvio padrão da distribuição das amostras se denomina

ERRO PADRÃO

Distribuição das médias amostrais

Enquanto o desvio padrão mede a variabilidade dos

indivíduos da amostra

... o erro padrão mede a variabilidade da média

das amostras

E indica com que precisão a média da população pode ser

estimada pela média amostral

Distribuição das médias amostrais

Erro padrão

nep

Desvio padrão da

população

Tamanho da amostra

Distribuição das médias amostrais

Dificilmente nós conhecemos o desvio padrão da

população ()

Então se usa o desvio padrão da amostra (s) para

estimar o erro padrão

n

sep

Desvio padrão da

amostra

Tamanho da amostra

E o que eu faço com o erro padrão?

Serve para calcular o Intervalo de Confiança

Intervalo de Confiança: intervalo de valores que

contém o parâmetro de interesse

Valores dentro dos quais existe uma certa probabilidade de

estar incluída a real média da população

Usado para comparar se existem diferenças entre dois ou

mais grupos

Testes de hipóteses

Isso será visto nas próximas aulas...

Referências bibliográficas

Massad E, Menezes R, Silveira P, Ortega N. Métodos Quantitativos em

Medicina. SP: Manole, 2004

Kirkwood B and Sterne J. Essential of medical statistics. Blackwell Science,

2003

top related