introdução à análise de dados ii - ufjf.br · pdf filecoeficiente...

180
Introdução à Análise de Dados II Clécio S. Ferreira UFJF Departamento de Estatística 2013

Upload: vodan

Post on 06-Mar-2018

239 views

Category:

Documents


20 download

TRANSCRIPT

Page 1: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Introdução à Análise de

Dados II

Clécio S. Ferreira

UFJF – Departamento de Estatística

2013

Page 2: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Roteiro

1. Introdução

2. Relações entre variáveis

3. Regressão

4. Testes de Hipóteses

5. Introdução à Probabilidade

Page 3: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Introdução

Page 4: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Introdução

• Apresentação do professor

• Objetivo e ementa da disciplina

Page 5: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Variáveis

- Qualquer característica associada a uma

população

- Classificação de variáveis:

Quantitativa

Qualitativa Nominal Sexo, cor dos olhos

Ordinal Classe social, grau de instrução

Contínua

Discreta

Peso, altura, salário

Número de filhos, nº de carros

Page 6: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Análise Bivariada

Page 7: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Duas variáveis Qualitativas

• Tabelas de Frequências cruzadas

• Gráficos de Barras

• Medidas de Associação

Page 8: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Exemplo:

Quantas horas por semana você trabalha? * Você se considera: Crosstabulation

8208 4944 726 929 243 15050

54,5% 32,9% 4,8% 6,2% 1,6% 100,0%

67,2% 61,1% 59,1% 67,5% 58,3% 64,5%

1086 907 150 142 53 2338

46,4% 38,8% 6,4% 6,1% 2,3% 100,0%

8,9% 11,2% 12,2% 10,3% 12,7% 10,0%

1968 1450 221 214 76 3929

50,1% 36,9% 5,6% 5,4% 1,9% 100,0%

16,1% 17,9% 18,0% 15,6% 18,2% 16,8%

959 786 131 91 45 2012

47,7% 39,1% 6,5% 4,5% 2,2% 100,0%

7,8% 9,7% 10,7% 6,6% 10,8% 8,6%

12221 8087 1228 1376 417 23329

52,4% 34,7% 5,3% 5,9% 1,8% 100,0%

100,0% 100,0% 100,0% 100,0% 100,0% 100,0%

Não trabalho

Menos de 20

horas por semana

Entre 20 e 44

horas por semana

Mais de 44 horas

por semana

Quantas

horas por

semana você

trabalha?

Total

Branco Pardo/Mulato Negro Amarelo Indígena

Você se considera:

Total

Page 9: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Gráfico de Barras (1)

Page 10: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Gráfico de Barras (2)

Page 11: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Medidas de Associação para Variáveis

Nominais

• Qui-quadrado (estatística)

Positiva

problema: cresce com o tamanho da amostra;

𝑿𝟐 =

(𝑶𝒊𝒋 − 𝑬𝒊𝒋)𝟐

𝑬𝒊𝒋

𝒌

𝒋=𝟏

𝒓

𝒊=𝟏

,

𝑬𝒊𝒋 =𝒏𝒊.𝒏.𝒋

𝑵, 𝒏𝒊.: 𝒕𝒐𝒕𝒂𝒍 𝒅𝒂 𝒍𝒊𝒏𝒉𝒂 𝒊; 𝒏.𝒋: 𝒕𝒐𝒕𝒂𝒍 𝒅𝒂 𝒄𝒐𝒍𝒖𝒏𝒂 𝒋.

𝑶𝒊𝒋: 𝒇𝒓𝒆𝒒𝒖ê𝒏𝒄𝒊𝒂 𝒐𝒃𝒔𝒆𝒓𝒗𝒂𝒅𝒂 𝒏𝒂 𝒄é𝒍𝒖𝒍𝒂 𝒊, 𝒋 (𝒍𝒊𝒏𝒉𝒂 𝒊; 𝒄𝒐𝒍𝒖𝒏𝒂 𝒋.

Page 12: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Coeficiente de Contingência (CC)

• CC vai de 0 a 1, teoricamente (o que permite comparação

entre quaisquer associações).

• Medida mais geral de Associação.

• O coeficiente de contingência (CC) é outra forma de

corrigir o qui-quadrado.

• O problema com o CC é que seu valor máximo depende do

tamanho da tabela.

O valor máximo de CC para uma tabela 2 x 2 é 0.707. O valor

máximo de CC para uma tabela 4 x 4 é 0.87.

Recomenda-se usar Phi ou V de Cramér antes que CC.

Page 13: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Coeficiente Phi

• Phi pode variar de 0 até +1.

• Ela é mais apropriada para tabelas de

contingência 2 x 2.

Page 14: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

V de Cramer

• Apropriado para tabelas maiores que 2 x 2,

corrige o qui-quadrado e varia de 0 to +1.

• Para tabelas 2 x 2, V de Cramér é igual a

Phi.

• Unicamente para variáveis NOMINAIS

L: num. min(linhas, colunas)

Page 15: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Symmetric Measures

,072 ,000

,042 ,000

,072 ,000

23329

Phi

Cramer's V

Contingency Coef f icient

Nominal by

Nominal

N of Valid Cases

Value Approx. Sig.

Not assuming the null hypothesis.a.

Using the asymptotic standard error assuming the null

hypothesis.

b.

Exemplo: Horas de Trabalho versus Raça

Chi-Square Tests

120,740a 12 ,000

23329

Pearson Chi-Square

N of Valid Cases

Value df

Asy mp. Sig.

(2-sided)

0 cells (,0%) hav e expected count less than 5. The

minimum expected count is 35,96.

a.

Page 16: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Medidas de Associação para variáveis

ordinais

• Ganho em relação às medidas nominais: Direção

de associação; relação mais forte, pois leva em

conta medida da variável (ORDINAL).

• MEDIDAS SIMÉTRICAS (baseadas em pares

concordantes e discordantes): não fazem distinção

entre variáveis dependentes e independentes

• MEDIDAS DIRECIONAIS (assume uma das

variáveis como dependente e vice-versa):

SOMER'S D (D de SOMER)

Page 17: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Medidas Ordinais

• Correlação de Spearman

• Gamma

• Tau-c de Kendall

• Tau-b de Kendall (mais indicado)

Page 18: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Outras medidas direcionais

• Coeficiente de Incerteza

• Lambda

• Tau de Goodman & Kruskal

Page 19: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Exemplo: Escolaridade do Pai versus Horas de

Trabalho

Até que série seu pai estudou? * Quantas horas por semana você trabalha? Crosstabulation

933 275 456 310 1974

47,3% 13,9% 23,1% 15,7% 100,0%

6,8% 13,1% 12,9% 17,4% 9,4%

3164 796 1505 855 6320

50,1% 12,6% 23,8% 13,5% 100,0%

23,1% 37,9% 42,6% 48,0% 30,0%

2077 381 648 348 3454

60,1% 11,0% 18,8% 10,1% 100,0%

15,2% 18,1% 18,4% 19,5% 16,4%

3511 397 613 203 4724

74,3% 8,4% 13,0% 4,3% 100,0%

25,7% 18,9% 17,4% 11,4% 22,4%

3995 251 308 67 4621

86,5% 5,4% 6,7% 1,4% 100,0%

29,2% 12,0% 8,7% 3,8% 21,9%

13680 2100 3530 1783 21093

64,9% 10,0% 16,7% 8,5% 100,0%

100,0% 100,0% 100,0% 100,0% 100,0%

Nunca estudou

Ensino Fundamental

de 1ª a 4ª série

Ensino Fundamental

de 5ª a 8ª série

Ensino Médio

Faculdade (Ensino

Superior)

Até que série

seu pai

estudou?

Total

Não trabalho

Menos de

20 horas por

semana

Entre 20 e

44 horas por

semana

Mais de 44

horas por

semana

Quantas horas por semana v ocê trabalha?

Total

Page 20: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Exemplo: Escolaridade do Pai versus

Horas de Trabalho

Directional Measures

-,264 ,005 -50,167 ,000

-,324 ,006 -50,167 ,000

-,223 ,004 -50,167 ,000

Sy mmetric

Até que série seu pai

estudou? Dependent

Quantas horas por

semana você

trabalha? Dependent

Somers' dOrdinal by Ordinal

Value

Asy mp.

Std. Errora

Approx. Tb

Approx. Sig.

Not assuming the null hypothesis.a.

Using the asymptotic standard error assuming the null hypothesis.b.

Symmetric Measures

,305 ,000

-,269 ,005 -50,167 ,000

-,231 ,005 -50,167 ,000

-,411 ,008 -50,167 ,000

-,314 ,006 -47,988 ,000c

-,307 ,006 -46,798 ,000c

21093

Contingency Coef f icientNominal by Nominal

Kendall's tau-b

Kendall's tau-c

Gamma

Spearman Correlation

Ordinal by Ordinal

Pearson's RInterv al by Interval

N of Valid Cases

Value

Asy mp.

Std. Errora

Approx. Tb

Approx. Sig.

Not assuming the null hypothesis.a.

Using the asymptotic standard error assuming the null hypothesis.b.

Based on normal approximation.c.

Page 21: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Variável Quantitativa versus Qualitativa

• Gráficos: Box-plot, Histogramas e Ramo-e-

Folhas:

• Podem ser utilizados para comparações entre

diferentes grupos de dados

• Medidas resumo: Estatísticas descritivas

para cada categoria do grupo (médias,

medianas, desvios-padrão, etc.

Page 22: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Box-plot de Proficiência, por Horas de

trabalho, 3ª EM, Matemática

Page 23: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Histogramas de Proficiência, por Horas

de trabalho, 3ª EM, Matemática

Page 24: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Estatísticas Descritivas de Proficiência,

por Horas de trabalho, 3ª EM, Matemática

Statistics

PROFIC

1915 142285 29750 55612 31993

0 0 0 0 0

247,2303 291,2813 262,2107 270,3457 268,2805

47,90209 60,59567 48,42710 46,36295 48,16771

393,85 471,39 451,70 433,99 431,39

207,2467 245,2012 223,7307 232,9810 231,7239

232,6931 283,8920 252,0079 269,3548 267,8545

282,3804 331,7499 294,3062 304,0934 299,2855

Valid

Missing

N

Mean

Std. Dev iation

Maximum

25

50

75

Percent iles

. Não trabalho

Menos de 20

horas por semana

Entre 20 e 44

horas por semana

Mais de 44 horas

por semana

Quantas horas por semana v ocê trabalha?

Page 25: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Duas Variáveis Quantitativas

• Gráfico: Diagrama de Dispersão

• Gráfico de pares ordenados por elementos da

amostra (indivíduos)

• É a maneira mais simples de se estudar a relação

entre duas variáveis quantitativas

• Objetivo:

Ocorrência de tendências (lineares ou não)

Agrupamentos de uma ou mais variáveis

Mudanças de variabilidade de uma variável em relação à

outra

Ocorrência de valores atípicos (‘outliers’)

Page 26: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Exemplo de Correlação (P)

Page 27: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Exemplo de Correlação (N)

Page 28: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Exemplo de Correlação (0)

Page 29: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Exemplo

• Altura (cm) e peso (kg) de crianças até 1 ano

Altura Peso

52 2,95

50 3,15

62 4,58

63 6,50

55 3,50

72 9,50

75 10,13

69 8,57

65 7,10

64 5,60

66 6,90

61 4,50

57 4,30

67 7,89

50 55 60 65 70 75

34

56

78

91

0

Altura

Pe

so

Page 30: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Peso e Altura

• Qual a relação entre o peso e a estatura das

pessoas?

• Percebem-se ‘clusters’ no conjunto de

dados?

• Há diferenças na variabilidade de uma

variável, considerados os valores da outra?

• Há valores atípicos?

Page 31: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Relação entre consumo de proteínas e

natalidade

• Qual relação entre as variáveis?

Pais Consumo de Proteínas Coeficiente de Natalidade

Formosa 4,7 45,6

Malásia 7,5 39,7

Índia 8,7 33,0

Japão 9,7 27,0

Iuguslávia 11,2 25,9

Grécia 15,2 23,5

Itália 15,2 23,4

Bulgária 16,8 22,2

Alemanha 37,3 20,0

Irlanda 46,7 19,1

Dinamarca 56,1 18,3

Austrália 59,9 18,0

Estados Unidos 61,4 17,9

Suécia 62,6 15,0

Page 32: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

10 20 30 40 50 60

15

20

25

30

35

40

45

Consumo Proteínas vs Natalidade

Consumo diário de proteínas (g)

Co

eficie

nte

de

na

talid

ad

e

Page 33: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Exemplo

• Interpretação?

Page 34: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

• Leituras gráficas

Page 35: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Correlação

• Correlação Positiva:

Se ambas as variáveis crescem no mesmo sentido

• Correlação Negativa:

Se as variáveis crescem em sentidos opostos

• Correlação significativa indica apenas associação

linear entre as variáveis

NÃO INDICA RELAÇÃO DE CAUSALIDADE

Page 36: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Coeficiente de Correlação

• Como quantificar a correlação entre as

variáveis?

Grau de associação

Page 37: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Coeficiente de Correlação de Pearson

• O numerador mede o total da concentração

de pontos pelos quatro quadrantes

• Dá origem uma medida bastante usada

• (notem que n-1 se elimina)

YYXX

XY

n

i

i

n

i

i

n

i

ii

SS

S

yyn

xxn

yyxxn

r

1

2

1

2

1

)(1

1)(

1

1

))((1

1

Page 38: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Notação

: i-ésimo valor observado da variável x

: i-ésimo valor observado da variável y

: média dos valores observados da

variável x (média amostral)

: média dos valores observados da

variável y (média amostral)

ix

x

iy

y

Page 39: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Propriedades de r

• Mede a intensidade de relacionamento linear

• r é adimensional e – 1 ≤ r ≤ 1

r = 1 ou -1 correlação linear perfeita

r = 0 correlação linear nula

• O valor de r não é afetado pela escolha de x

ou y.

Page 40: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Propriedades de r

• A conversão da escala de qualquer das

variáveis não altera o valor de r

• O valor de r não é alterado com a permutação

de valores de x e y.

Page 41: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Diagramas de Dispersão (1)

Page 42: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Diagramas de Dispersão (2)

Page 43: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Diagramas de Dispersão (3)

Page 44: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Existe uma relação de dependência NÃO –LINEAR

entre as variáveis.

X

X^

2

1050-5-10

100

80

60

40

20

0

r = 0,0

Page 45: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Exemplo – Hábito de Fumar

• Dados sobre hábito de fumar entre homens e

mortalidade por câncer de pulmão, na Inglaterra:

Fonte: The Data and Story Library

http://lib.stat.cmu.edu/DASL/

Índice de mortalidade: razão da taxa de mortes sobre a

taxa global de mortes (por câncer de pulmão).

Índice de fumo: razão do número médio diário de

cigarros fumados sobre a média global de cigarros.

Page 46: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Índice de fumo

Índ

ice

de

mo

rta

lida

de

14013012011010090807060

150

125

100

75

50

Hábito de Fumar vs. Câncer de Pulmão

Por grupo ocupacional

r = 0,716

• Percebe-se uma correlação positiva entre

as duas variáveis.

Page 47: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Exemplo

• Relação entre taxa de metabolismo e massa

Page 48: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

• Evidências empíricas:

Associação linear e positiva

Associação mais forte entre a mulheres

6560555045403530

2000

1800

1600

1400

1200

1000

Massa (kg)

Ta

xa

Me

tab

olis

mo

(ca

l)

F

M

Sexo

r=0.87

rM=0.59

rF=0.88

Page 49: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

• Valores médios dos grupos

MTB > describe c3 c4;

SUBC> by c2;

SUBC> stdev;

SUBC> mean.

Descriptive Statistics: Massa; Taxa Variable Sexo Mean StDev

Massa F 43,03 6,87

M 53,10 6,69

Taxa F 1235,1 188,3

M 1600,0 189,2

• Evidências empíricas:

Variabilidade semelhante entre os grupos;

Poucos homens com peso menor, poucas mulheres com peso

maior

Possíveis influências na correlação:

– Peso;

– Sexo;

– Variável não apresentada

Page 50: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Correlação – Erros Comuns

• Causalidade:

Uma correlação forte (r vizinho de +1 ou –1)

não implica uma relação de causa e efeito.

O fato de duas grandezas tenderem a variar no

mesmo sentido não implica a presença de

relacionamento causal entre elas.

Page 51: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Correlação e Causalidade

Perguntas pertinentes, no caso de correlação

significante entre as variáveis:

• Há uma relação de causa e efeito entre as

variáveis? (x causa y? ou vice-versa)

Ex.: Relação entre gastos com propaganda e

vendas

É razoável concluir que mais propaganda

resulta mais vendas

Page 52: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Correlação e Causalidade (2)

• É possível que a relação entre duas

variáveis seja uma coincidência?

Ex.: Obter uma correlação significante entre

o número de espécies animais vivendo em

determinada área e o número de pessoas

com mais de 2 carros, não garante

causalidade

É bastante improvável que as variáveis

estejam diretamente relacionadas.

Page 53: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Correlação e Causalidade (3) • É possível que a relação das variáveis tenha sido

causada por uma terceira variável (ou uma

combinação de muitas outras variáveis)?

Ex: Tempo dos vencedores das provas masculina e

feminina dos 100 m rasos (numa mesma prova)

Os dados tem correlação linear positiva; é

duvidoso dizer que a diminuição no tempo

masculino cause uma diminuição no tempo

feminino;

A relação deve depender de outras variáveis:

técnica de treinamento, clima, etc.

Page 54: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Correlação e Causalidade (4)

• A flutuação de uma 3ª variável faz com que X e

Y variem no mesmo sentido;

Esta 3ª variável é chamada variável intercorrente

(não-conhecida);

A falsa correlação originada pela 3ª variável é

denominada correlação espúria;

Page 55: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Atividade 1

Page 56: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Noções de Regressão

Page 57: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Regressão e Correlação

• Regressão:

Usa variável(eis) explicativa(s) para

explicar ou predizer comportamento de

variável resposta (quando houver

sentido).

• Correlação:

Trata simetricamente duas variáveis

Page 58: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Regressão

• Variável resposta (Y):

Variável resposta cujo comportamento se

quer explicar

• Variável(eis) explicativa(s) (Xi):

São de interesse caso ajudem a entender,

explicar ou predizer o comportamento de Y.

• O enfoque da regressão é natural quando Y é

aleatória e Xi é controlada ou não-aleatória.

Page 59: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

• Variável explicativa

• Variável independente

• Regressor

• Preditor

• Variável exógena

• Variável de controle ou

estímulos

• Variável explicada

• Variável dependente

• Regredido

• Predito

• Variável endógena

• Variável resposta

x Y

Algumas Denominações

Page 60: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Exemplo 1 – Peso/Altura de Estudantes

• Variável resposta: Peso (kg)

• Variável explicativa: Altura (cm)

Tendência linear

Page 61: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Exemplo 2 – Absorção de Oxigênio

• Variável resposta: Absorção de Oxigênio

• Variável explicativa: Ventilação

Ventilação

Ab

so

rçã

o d

e O

xig

ên

io

45004000350030002500200015001000500

160

140

120

100

80

60

40

20

0

Tendência

exponencial

Page 62: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Exemplo 3 – Comprimentos de Fígados

• Variável resposta: Comprimento do fígado (mm)

• Variável explicativa: Tempo de gestação (sem.)

Tempo de Gestação (sem.)

Co

mp

rim

en

to d

o f

íga

do

(m

m)

40353025201510

70

60

50

40

30

20

10

Tendência

não-linear

Page 63: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Outros Padrões (2)

Preço ($ 1.000)

Pe

so

(1

.00

0 lb

)

1750015000125001000075005000

5000

4500

4000

3500

3000

2500

2000

Importante descobrir o que define os grupos

Page 64: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Outros Padrões (3)

Comprimento da pétala

La

rgu

ra d

a p

éta

la

7654321

2,5

2,0

1,5

1,0

0,5

0,0

Variedades diferentes de Flores

Page 65: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Modelo de Regressão

• Relação de regressão:

• Tendência + dispersão residual

• Objetivo: Explicar a variação de Y

(resposta) pelas variáveis de X (variáveis

explicativas)

• Valores atípicos:

Observações muito diferentes do restante dos

dados => modelo não consegue ajustar bem

estes dados

Page 66: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Ajuste de Funções

• Tendência linear:

Para cada mudança de uma unidade em X, Y muda

uma quantidade fixa (β1).

• Tendência quadrática:

Tendência levemente curva

• Modelo linear: linear nos parâmetros

• Modelo não-linear: não linearidade nos parâmetros

Ex:

Page 67: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

• Tendência exponencial:

Cada mudança de uma unidade em X, Y muda uma

% fixa

Aplicação: Curvas de crescimento

Se a tendência é exponencial, o gráfico de log(Y)

vs X têm tendência linear

XeY 1

0

x

lnY

4,03,53,02,52,01,51,0

9

8

7

6

5

4

3

2

1

x

Y

4,03,53,02,52,01,51,0

4000

3000

2000

1000

0

Page 68: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Tipos de Regressão Linear

• Simples:

Uma variável independente (explicativa)

• Múltipla:

Duas ou mais variáveis independentes

(explicativas)

Page 69: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Regressão Linear Simples

• Busca-se a equação de uma reta que permita:

Descrever e compreender a relação entre duas

variáveis

Projetar e estimar uma das variáveis em função da

outra.

ii XY 10

Page 70: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Ajuste da Reta

• Qual a reta que se ajusta melhor aos dados?

ou seja quais os valores de β0 e β1?

X

Y

4,03,53,02,52,01,51,0

9

8

7

6

5

4

3

2

1

Page 71: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Método dos Mínimos Quadrados

• Critério:

Escolher β0 e β1 de maneira a tornar

mínima a distância entre a reta e os

pontos

Valores dos parâmetros que minimizam a

soma dos quadrados dos desvios

2

1

)ˆ(

n

i

ii YY

Page 72: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Método dos Mínimos Quadrados (3)

• Resultados das derivadas parciais:

• Relação com coeficiente de correlação:

221

ˆ

ii

iiii

x xn.

yx yxn. =

xx

xy

S

S = 1̂

XY = 10ˆˆ

X

YXY

X

XY

s

sr

s

s =

21̂

Page 73: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Exemplo

• SAEB 99, 4ª série (Português)

• Variável resposta (Y)

Proficiência em Português

• Variável explicativa:

Nível Socioeconômico

Correlação entre proficiência e NSE Correlations

,442

,000

21510

Pearson Correlation

Sig. (2-tailed)

N

NSE

PROFIC

Page 74: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Regressão Simples: Proficiência por

Nível Socioeconômico

Model Summary

,442a ,195 ,195 41,38873

Model

1

R R Square

Adjusted

R Square

Std. Error of

the Estimate

Predictors: (Constant), NSEa.

ANOVAb

8926900 1 8926899,602 5211,184 ,000a

36843790 21508 1713,027

45770689 21509

Regression

Residual

Total

Model

1

Sum of

Squares df Mean Square F Sig.

Predictors: (Constant), NSEa.

Dependent Variable: PROFICb.

Coefficientsa

135,102 ,588 229,959 ,000

3,100 ,043 ,442 72,189 ,000

(Constant)

NSE

Model

1

B Std. Error

Unstandardized

Coeff icients

Beta

Standardized

Coeff icients

t Sig.

Dependent Variable: PROFICa.

Page 75: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Interpretação

• Inclinação:

• Quando o NSE aumenta 1 unidade, o aumento estimado na proficiência é de 3.1 pontos.

• As estimativas são mais confiáveis dentro do intervalo de X observado (neste caso, 0 < NSE < 34).

• Intercepto-y

• Seria a proficiência média quando a variável X fosse 0.

Page 76: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

MRLS – Adicionando uma variável

binária

Model Summary

,454a ,206 ,206 41,11366

Model

1

R R Square

Adjusted

R Square

Std. Error of

the Estimate

Predictors: (Constant), sexo, NSEa.

ANOVAb

9371166 2 4685582,990 2771,988 ,000a

36112281 21364 1690,333

45483447 21366

Regression

Residual

Total

Model

1

Sum of

Squares df Mean Square F Sig.

Predictors: (Constant), sexo, NSEa.

Dependent Variable: PROFICb.

Coefficientsa

139,696 ,645 216,600 ,000

3,126 ,043 ,445 73,028 ,000

-9,465 ,563 -,103 -16,815 ,000

(Constant)

NSE

sexo

Model

1

B Std. Error

Unstandardized

Coeff icients

Beta

Standardized

Coeff icients

t Sig.

Dependent Variable: PROFICa.

Page 77: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Profic. Por NSE e Sexo: Interpretação

• Sexo = 1 (Meninos); 0 (Meninas)

• Controlado o efeito de sexo, o aumento de 1

unidade no NSE aumenta em média 3.1 pontos

na proficiência do aluno.

• Controlado o NSE, as meninas tiram, em

média, 9.5 pontos a MAIS que os meninos.

• MRLS para as meninas

• Profic. = 139.7 + 3.1*NSE

• MRLS para os meninos:

• Profic. = 130.2 + 3.1*NSE

Page 78: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

MRLM - Exemplo

• Proficiência dos alunos do 3º EM em

Matemática (sexo: Feminino é a referência)

Coefficientsa

184,787 ,400 462,526 ,000

2,524 ,020 ,274 123,420 ,000

10,949 ,104 ,233 105,150 ,000

12,045 ,206 ,105 58,489 ,000

6,235 ,077 ,144 80,846 ,000

(Constant)

NSE

Escolaridade dos pais

(máxima)

Sexo

Você f az lição de casa

(Nº de horas)?

Model

1

B Std. Error

Unstandardized

Coef f icients

Beta

Standardized

Coef f icients

t Sig.

Dependent Variable: PROFICa.

Model Summary

,492 ,242 ,242 49,31996

Model

1

R R Square

Adjusted

R Square

Std. Error of

the Estimate

ANOVAb

1,9E+008 4 47890941,70 19688,286 ,000

6,0E+008 246912 2432,459

7,9E+008 246916

Regression

Residual

Total

Model

Sum of

Squares df Mean Square F Sig.

Dependent Variable: PROFICb.

Page 79: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

MRLM da Proficiência dos alunos do

3ºEM em Matemática - Interpretação

• Controladas as demais variáveis:

O acréscimo de 1 unidade no NSE, aumenta, em

média, 2.5 pontos na proficiência.

Alunos cujos pais têm maior escolaridade alcançam

melhor desempenho no exame (em média 11 pontos

por nível).

Meninos tiram, em média, 12 pontos a mais na

prova em relação às meninas.

Quanto maior a dedicação às lições de casa, melhor

o desempenho no exame.

Page 80: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

MRLM: Qualidade do Ajuste

• R2 (coeficiente de determinação): Proporção

da variação da var. dependente explicada

pela variação da(s) variável(is)

independente(s); 0 < R2 < 1.

• Etapa posterior ao ajuste: verificação dos

pressupostos do modelo (normalidade,

homogeneidade de variância, baixa

correlação entre as variáveis explicativas,

linearidade, outliers, etc.).

Page 81: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Atividade 2

Page 82: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Testes de Hipóteses

Page 83: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Exemplo do Júri

Réu: Pode ser culpado ou inocente

Juiz: dará a sentença: culpado ou inocente.

Hipótese nula: “réu é inocente!”

Erros possíveis:

Erro I: juiz dar a sentença culpado, quando na

verdade o réu é inocente;

Erro II: juiz dar a sentença inocente, quando na

verdade o réu é culpado;

Qual erro é mais grave?

Page 84: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

O que é uma Hipótese

Em Estatística, é uma alegação ou afirmação sobre uma característica de uma população.

Page 85: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Componentes de um

Teste de Hipóteses Formal

Hipótese Nula: H0 Afirmação sobre valor de parâmetro

populacional Deve conter a condição de igualdade =, , ou

Testar a Hipótese Nula diretamente

Rejeitar H0 ou não rejeitar H0

Page 86: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Componentes de um

Teste de Hipóteses Formal

Hipótese Alternativa: H1

Deve ser verdadeira se H0 é falsa

, <, >

‘oposto’ da Hipótese Nula.

Page 87: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Hipóteses Nula e Alternativa no MRLM

• No MRLM, ao incluirmos variáveis

explicativas ao modelo, gostaríamos

de saber se (cada) variável é

significativa (contribui para explicar

a variável dependente) ou não. Ou

seja:

• H0: Beta (coeficiente de regressão da

variável) = 0

• H1: Beta ≠ 0

Page 88: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Nota sobre a Indicação de suas Próprias

Afirmações (Hipóteses)

Se você está fazendo uma pesquisa e deseja usar um teste de hipótese para apoiar sua afirmação, esta afirmação deve ser formulada de maneira que se torne a hipótese alternativa (hipótese de pesquisa).

Page 89: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Nota sobre o Teste de Validade de uma

Afirmação Alheia

A afirmação original às vezes se torna a hipótese nula (porque contém a igualdade) e por vezes passa a ser a hipótese alternativa (porque não contém a desigualdade).

Page 90: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Estatística de Teste

um valor baseado nos dados amostras que é

usado para tomar uma decisão sobre a

rejeição da hipótese nula.

Exemplo: para grandes amostras, testando

afirmações sobre médias populacionais

z = x - µ0

n

Page 91: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Nível de Significância

denotado por

é a probabilidade de rejeitar a Hipótese Nula quando ela é verdadeira.

são comuns as escolhas 0,05; 0,01 e 0,10. (É tipicamente predeterminado)

Page 92: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Conclusões no

Teste de Hipóteses

Testar sempre a hipótese nula

1. Rejeitar a hipótese nula H0

2. Não rejeitar a hipótese nula H0

É necessário formular corretamente a conclusão

final.

Page 93: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Aceitar versus Não Rejeitar

alguns textos usam “aceitar a hipótese nula”.

devemos reconhecer que não estamos provando a hipótese nula.

estamos dizendo que a evidência amostral não é forte o suficiente para recomendar a rejeição da hipótese nula (tal como um júri decidir que não há evidência suficiente para condenar um acusado).

Page 94: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Erro Tipo I

O erro de rejeitar a hipótese nula quando ela é verdadeira.

(alfa) é usado para representar a probabilidade de um erro tipo I.

Exemplo: Rejeitar a afirmação de que a temperatura do corpo é 37ºC, quando aquela média é, de fato, 37ºC.

Page 95: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Erro Tipo II

Erro de não rejeitar a hipótese nula quando ela é falsa.

ß (beta) é usado para representar a probabilidade de um erro tipo II.

Exemplo: Não rejeitar a afirmação de que a temperatura do corpo é 37ºC, quando aquela é, de fato, falsa (a média não é 37ºC).

Page 96: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Erros Tipo I e Tipo II

Verdadeiro Estado da Natureza

Decidimos rejeitar

a hipótese nula

Não rejeitamos a

hipótese nula

A hipótese

nula é

verdadeira

A hipótese

nula é

falsa

Erro tipo I

(rejeição de uma

H0 verdadeira)

Erro tipo II

(não rejeição de

uma H0 falsa)

Decisão

correta

Decisão

correta

Decisão

Page 97: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Controle dos Erros Tipo I e Tipo II

Para fixo, um aumento do tamanho n da

amostra ocasiona uma redução de

Para um tamanho n, fixo, de amostra, uma

diminuição de acarreta um aumento de . Reciprocamente, um aumento de acarreta a diminuição de .

Para reduzir e , deve-se aumentar o tamanho da amostra.

Page 98: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Teste de uma Afirmação

sobre uma Média:

Grandes Amostras

Page 99: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Métodos para conclusão dos testes

1) Método do valor P

2) Intervalos de confiança

3) Método Clássico (não será

focado aqui).

* Os três métodos levam à

MESMA conclusão.

Page 100: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Hipóteses para testar afirmações sobre média populacional

1) A amostra é uma amostra aleatória simples.

2) A amostra é grande (n > 30).

a) Aplica-se o Teorema Central do Limite

b) Pode-se usar a distribuição normal

3) Se é desconhecido, podemos utilizar o

desvio-padrão amostral s como uma

estimativa para .

Page 101: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Estatística de Teste para Afirmações sobre µ quando n > 30

x - µ0 z =

n

Teste de Hipóteses para uma Média

Page 102: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Afirmação: = $ 8.390

H0 : = $ 8.390

H1 : $ 8.390

Exemplo: O Departamento de Agricultura alega que o custo

para se criar uma criança (até 2 anos) é US$ 8.390. Seleciona-se uma amostra com 900 crianças com 2 anos e determina-se que o custo médio é $ 8.275, com desvio-padrão 1.540. Teste a afirmação do Departamento ao nível de significância de 0,05.

Passos:

1,2,3) Identificar a Afirmação, H0, H1

4) Selecionar, se necessário, o nível :

= 0,05

Page 103: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Método do Valor P

para o Teste de Hipóteses

O procedimento encontra a probabilidade

(Valor P ou p-valor) de obter um resultado e

rejeita-se a hipótese nula se esta

probabilidade é muito baixa (menor que o

nível de significância adotado).

Valor P: é a probabilidade de obter um valor da estatística amostral de teste no mínimo tão extremo como o que resulta dos dados amostrais, na suposição de a hipótese nula ser verdadeira.

Page 104: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Resultados amostrais

incomuns.

Diferença significante da

hipótese nula.

Valores P pequenos

(tais como 0,05 ou

menor)

Valor P Interpretação

Os resultados

amostrais não são

incomuns.

Não é uma diferença

significante da

hipótese nula.

Valores P grandes

(acima de 0,05 )

Page 105: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Determinação dos Valores P

A

estatística de

teste está à direita ou

à esquerda do

centro

?

Valor P = área

à esquerda da

estatística de teste

Valor P = 2 vezes

a área à esquerda

da estatística de teste

Valor P = área

à direita da

estatística de teste

Unilateral esquerdo Unilateral direito

À direita À esquerda

Bilateral

Valor P = 2 vezes

a área à direita

da estatística de teste

Que

tipo de teste

?

µ µ µ µ Estatística de teste Estatística de teste Estatística de teste Estatística de teste

Início

Page 106: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Intervalos de Confiança (IC)

• Uma estimativa intervalar de um parâmetro

populacional contém os valores prováveis

daquele parâmetro, calculado a partir de

uma amostra.

• Exemplo: IC para a média populacional, sob

normalidade:

𝑰𝑪𝟎,𝟗𝟓 𝝁 = 𝑿 − 𝟏. 𝟗𝟔

𝝈

𝒏, 𝑿 + 𝟏. 𝟗𝟔

𝝈

𝒏

Page 107: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Conclusão a partir de IC

Se o Intervalo de Confiança obtido através da

amostra contiver o parâmetro testado, não

rejeitamos H0; caso contrário, se o IC não

contiver o parâmetro, rejeitamos H0.

Page 108: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Teste de uma Afirmação

sobre uma Média:

Pequenas Amostras

Page 109: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Hipóteses

* para testar afirmação sobre média populacional

1) A amostra é uma amostra aleatória simples.

2) A amostra é pequena (n 30).

3) O valor do desvio-padrão populacional é desconhecido.

4) A população original tem distribuição essencialmente normal.

Page 110: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Estatística de Teste

Valores Críticos Valores tabelados Distribuição t de

Student.

Graus de liberdade = n -1.

Valores t críticos à esquerda da média são negativos; à direita, positivos.

t = x -µx

s n

Page 111: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Propriedades Importantes da

Distribuição t de Student

1. A distribuição t de Student é diferente para cada tamanho de amostra.

2. A distribuição t de Student tem a mesma forma geral de sino da distribuição normal. Sua forma mais aberta reflete a maior variabilidade esperada em pequenas amostras.

3. A distribuição t de Student tem média t = 0 (tal como a distribuição normal padronizada que tem média z = 0).

4. O desvio-padrão da distribuição t de Student varia com o tamanho da amostra, e é maior do que 1 (ao contrário da distribuição normal

padronizada, em que = 1).

5. À medida que o tamanho n da amostra aumenta, a distribuição t de Student se aproxima da distribuição normal. Para valores de n > 30, as diferenças são tão pequenas que podemos usar os valores críticos z em lugar de elaborar uma tabela muito maior de valores críticos de t. (Os valores na base da Tabela A-3 são iguais aos valores críticos z correspondentes da distribuição normal padronizada.)

Page 112: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Escolha entre a Distribuição Normal e a Distribuição t ao Testar uma Afirmação sobre a Média Populacional µ

n > 30?

A distribuição da

população é essencialmente normal ? (Trace um

histograma)

Não

Sim

Sim

Não

Não

é

conhecido

?

Use a distribuição normal com

x - µx

/ n Z

(Se é desconhecido, use s.)

Use métodos não-paramétricos,

que não exijam uma distribuição

normal.

Use a distribuição normal com

x - µx

/ n Z

(Este caso é raro.)

Use a distribuição t de Student

com x - µx

s/ n t

Início

Page 113: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Teste de uma Afirmação

sobre uma Proporção

Page 114: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Hipóteses

para testar afirmação sobre proporção populacional

1) A amostra é uma amostra aleatória simples.

2) São verificadas as condições para um experimento binomial.

3) As condições np 5 e n(1-p) 5 são ambas satisfeitas, de modo que a distribuição binomial das proporções amostrais pode ser aproximada

por uma distribuição normal com µ = np e

= np(1-p)

Page 115: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Notação

p = proporção populacional (usada na

hipótese nula)

q = 1 - p

n = número de provas

p = x/n (proporção amostral)

Page 116: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

p - p

pq

n

z =

Estatística de Teste de uma

Afirmação sobre uma Proporção

Page 117: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Inferências com Base em Duas

Amostras

1. Inferências sobre Duas Médias: Amostras Independentes e Grandes

2. Inferências sobre Duas Médias: Amostras Dependentes

Page 118: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

1. Inferências sobre Duas Médias:

Amostras Independentes e Grandes

Page 119: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Definições

Duas Amostras: Independentes

• Os valores amostrais escolhidos de uma população não tem qualquer relação com os valores amostrais extraídos da outra população.

Se os valores de uma amostra estão relacionados com os valores de outra amostra, as amostras são dependentes. Estas amostras são freqüentemente chamadas amostras ligadas ou amostras emparelhadas.

Page 120: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Suposições

1. As duas amostras são independentes.

2. Os tamanhos das duas amostras são

grandes. Ou seja, n1 > 30 e n2 > 30.

3. Ambas as amostras são amostras

aleatórias simples.

Page 121: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Teste de Hipóteses

Estatística de Teste para Duas Médias:

Amostras Independentes e Grandes

(x1 - x2) - (µ1 - µ2) z =

n1 n2 +

1. 2

2 2

Page 122: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Teste de Hipóteses

Estatística de Teste para Duas Médias:

Amostras Independentes e Grandes

e Se e não são conhecidos, utilizar em seu

seu lugar s1 e s2 desde que ambas as

amostras sejam grandes.

P-valor: Usar o valor calculado da estatística de teste

z, e determinar o P-valor através do

procedimento já visto.

Page 123: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Exemplo: Coca versus Pepsi Conjunto de dados fornece pesos (em libras) de

amostras de Coca e Pepsi (regulares). As estatísticas amostrais estão mostradas abaixo. Use o nível de significância de 0,01 para testar a afirmação que o peso médio da Coca regular é diferente do peso médio da Pepsi regular.

Coca Pepsi

n 36 36

x 0,81682 0,82410

s 0,007507 0,005701

Page 124: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Coca Versus Pepsi

Page 125: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Afirmação: 1 2

Ho : 1 = 2

H1 : 1 2

= 0,01

Coca Versus Pepsi

Não rejeitar H0 Rejeitar H0 Rejeitar H0

Z = - 2,575 Z = 2,575 1 - = 0

ou Z = 0

Page 126: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Estatística de Teste para Duas Médias:

Amostras Independentes e Grandes

(0,81682 – 0,82410) - 0 z =

36 +

Coca Versus Pepsi

0,0075707 2 0,005701 2

36

= - 4,63

Page 127: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Afirmação: 1 2

Ho : 1 = 2

H1 : 1 2

= 0,01

Coca Versus Pepsi

Não rejeita H0 Rejeita H0 Rejeita H0

Z = - 2,575 Z = 2,575 1 - = 0

ou Z = 0

Dados

amostrais:

z = - 4,63

Rejeita-se a

Hipótese Nula

Há evidência significativa para apoiar a

afirmação que há uma diferença entre os

pesos médios da Coca e da Pepsi.

Page 128: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Intervalos de Confiança

(x1 - x2) - E < (µ1 - µ2) < (x1 - x2) + E

n1 n2 +

1 2 onde E = z

2 2

Page 129: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Inferências sobre Duas Médias:

Amostras Dependentes

Page 130: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Suposições

1. Os dados amostrais consistem de amostras emparelhadas (amostras dependentes de duas populações).

2. As amostras são amostras aleatórias simples.

3. Se o número de pares de dados amostrais é pequeno (n 30), então a população de diferenças dos valores pareados deve ser

aproximadamente normalmente distribuídas.

Page 131: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

sd = desvio-padrão das diferenças d para os

dados amostrais emparelhados.

n = número de pares de dados.

µd = média das diferenças d para a

população de dados emparelhados

d = valor médio das diferenças d para os

dados amostrais emparelhados (igual

à média dos valores de x - y )

Notação para Amostras

Dependentes

Page 132: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

t = d - µd

sd

n

Estatística de Teste para Dados Amostrais Emparelhados

T com graus de liberdade = n - 1

Page 133: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Valores Críticos

Se n 30, os valores críticos são determinados através da Tabela t de student.

Se n > 30, os valores críticos são determinados através da Tabela Normal.

Page 134: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Intervalos de Confiança

T com graus de liberdade = n -1

d - E < µd < d + E

onde E = t/2 sd

n

Page 135: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Exemplo:

Alturas Relatadas e Medidas (em polegadas) de

Estudantes

Estudante A B C D E F G H I J K L

Altura 68 74 82,25 66,5 69 68 71 70 70 67 68 70

Relatada

Altura 66,8 73,9 74,3 66,1 67,2 67,9 69,4 69,9 68,6 67,9 67,6 68,8

Medida

Diferença 1,2 0,1 7,95 0,4 1,8 0,1 1,6 0,1 1,4 -0,9 0,4 1,2

outlier

Existem diferenças de alturas relatadas e medidas?

Page 136: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Exemplo – Saída do Excel

Page 137: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Teste para Três ou mais Médias

• ANOVA : ANalysis Of VAriance

• Testa se a média de uma variável de interesse se

difere por grupos da população.

• Hipóteses:

As populações têm a mesma variância.

As amostras são retiradas de populações com

distribuição normal.

As amostras são aleatórias e independentes.

Hipótese nula: as médias são iguais

Hipótese alternativa: Pelo menos uma média é

diferente

Page 138: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Tabela ANOVA (I)

• k grupos

• ni: tamanho da amostra i, i =1,...,k; N: n1+...+nK

• Xij: j-ésima replicação da variável de interesse no i-

ésimo grupo

• : média amostral do grupo i, i=1,...,k

• : média geral (ou grande média) de todas as

observações

• SQT= : Soma de Quadrados Total

• SQD= : Soma de Quadrados Dentro

Page 139: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Tabela ANOVA(II)

• SQE = SQT – SQD: Soma de Quadrados Entre

• Tabela:

• Rejeite a hipótese nula se F for MAIOR que o

quantil 1-α de uma distribuição F com k-1 e N-

k graus de liberdade.

Fonte de Variação

Graus de liberdade

Soma de Quadrados

Quadrado Médio

F

Entre k-1 SQE QME=SQE/(k-1) QME/QMD Dentro N-k SQD QMD=SQD/(N-k) Total N-1 SQT

Page 140: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

ANOVA - Exemplo

• Médias de Proficiência, SAEB99, 4ª série,

Português, por Raça

Report

PROFIC

179,1829 9169 48,78049

170,4634 7982 43,64761

151,6980 2229 35,28886

175,9971 1041 46,05428

171,1383 755 46,73425

172,5597 21176 46,13448

Você se considera:

Branco

Pardo/Mulato

Negro

Amarelo

Indígena

Total

Mean N Std. Deviation

ANOVA Table

1421195 4 355298,758 172,336 ,000

43647476 21171 2061,663

45068671 21175

Between Groups

Within Groups

Total

PROFIC * Você

se considera:

Sum of

Squares df Mean Square F Sig.

Page 141: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Atividade 3

Page 142: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Referências

Page 143: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Bibliografia

• Magalhães, M.N. e Lima, A.C.P.L. Noções de

Probabilidade e Estatística. Ed. Edusp, 6ª

edição, 2005.

• Wild, C.J. e Seber, G.A.F. (LTC)

Encontros com o Acaso: um Primeiro Curso de

Análise de Dados e Inferência

• Laponi, J.C. Estatística usando Excel. Ed.

Campus, 4ª edição, 2005.

Page 144: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Apêndice

Page 145: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Introdução à Probabilidade

Page 146: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Probabilidades

• Para variáveis categóricas, discretas ou

contínuas

• Varia entre 0 e 1.

• Soma das probabilidades de cada categoria

é igual a 1.

• (integral, no caso contínuo).

Page 147: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Caso discreto

• Se a variável assume valores {x1, x2,...,xn}

(ou infinitos valores discretos):

• Prob(X=xi)=pi

• 0 < pi < 1

• Soma de todos os pi’s = 1

Page 148: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Caso contínuo

• A probabilidade entre 2 pontos é igual à área sob a

curva, entre os dois pontos e o eixo x.

• Probabilidade no ponto é igual a 0

P{5 ≤ X ≤ 8}

Page 149: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Modelo Binomial

• Variável assume dois valores: “sucesso”

(com probab. p) ou “fracasso” (com probab.

1-p) => Distrib. Bernoulli.

• Em n tentativas independentes de Bernoulli:

X: nº de sucessos nas n tentativas.

X tem distrib. Binomial, com parâmetros n e p.

Abrir Binomial.html

Quando o interesse está em modelar uma var.

de Bernoulli => regressão logística.

Page 150: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Modelo Binomial - Exemplo

• Experimento: lançamento de uma moeda.

• Xi: 1, se der cara no i-ésimo lançamento; 0

se coroa

• X: nº de caras em n lançamentos

(independentes) da moeda.

• * Qualquer variável pode-se transformar em

binária.

Page 151: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Outros modelos discretos (1)

• Exemplo:

• X: nº de acidentes em certo dia em certo

cruzamento (Rio Branco com

Independência)

• Valores de X: 0, 1, 2, ...

• Modelo apropriado: Distrib. de Poisson

(distribuição dos eventos raros, baixa

probabilidade de ocorrência)

• Prob (X=k)=e-λ λk/k!

• Parâmetro λ: taxa de sucesso

Page 152: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Outros modelos discretos (2)

• Exemplo:

• X: nº de tentativas até obter o 1º sucesso

(ex, lançamento de uma bola na cesta de

basquete).

• Valores de X: 1, 2, ...

• Modelos apropriado: Distrib. Geométrica

• Prob (X=k)=(1-p)kp, k=1,2,3,...

Page 153: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Modelos Contínuos

• Existem vários:

• Uniforme, Exponencial , Normal, etc.

http://pt.wikipedia.org/wiki/Distribui%C3%A7%C3%B5es_de_probabilidade

Clicar em cada distribuição, para mostrar os

gráficos.

Page 154: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Função Distribuição Acumulada

• F(x)=P(X≤x)

• Caso Discreto:

• Caso contínuo:

𝑭 𝒙 = 𝑷(𝑿 = 𝒙𝒊)

𝒊:𝒙𝒊≤𝒙

𝑭 𝒙 = 𝒇 𝒙 𝒅𝒙𝒙

−∞

Page 155: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Distribuição Normal

Page 156: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Exploração de Dados Univariados

• Faça sempre um gráfico de seus dados

Em geral, ramo-e-folhas ou um histograma

• Procure um padrão global e desvios acentuados

Outliers

• Calcule um resumo numérico para descrever o

centro e a dispersão

• Às vezes, o padrão global de um grande número

de observações é tão regular que pode ser

descrito por uma curva suave

Page 157: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

• Curva descreve toda a distribuição em uma

única expressão

Mais fácil para trabalhar

• A curva é um modelo matemático

descrição matemática idealizada

Page 158: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

• Áreas das barras em um histograma

representam contagens (ou proporções)

• Área sob a curva é exatamente 1

• Área sob a curva representa proporção de

observações

área = freqüência relativa

Page 159: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Curvas Normais

• É uma classe importante de curvas de

densidade

• Características:

São simétricas, unimodais e tem forma de sino

Descrevem distribuições normais (gaussianas)

Page 160: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Função de Densidade

O gráfico tem o fomato de sino

Parâmetros da distribuição normal:

• Média ()

• Desvio-padrão () ou variância (2)

Page 161: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Características

Simétrica em torno da média ()

• área antes de = área depois de = 0,5

• média = mediana = moda

Varia de – a +

Page 162: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

• Parâmetro de locação:

• Parâmetro de escala: (2)

Page 163: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

• ** Erro na figura (à direita: +1S,+2S e +3S)

• Áreas de intervalos

± 68%

± 2 95%

± 3 99,7%

Page 164: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Distribuição Normal Padrão

• Z ~ N(0, 1)

Média () = 0

Desvio-padrão () = 1

• Valores de área tabelados

Page 165: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Tabela Normal Padrão (1)

Page 166: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Tabela Normal Padrão (2)

Page 167: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Distribuição Normal – Cálculo de

Probabilidades

• Seja a variável aleatória Z ~ N(0, 1)

Calcule P{Z < – 1,96}

Roteiro:

• Esboce a curva normal

• Trace uma linha para z = – 1,96

• Verifique a área que se deseja calcular

• Determine a área a partir da tabela

Page 168: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Área sob a curva para Z < – 1,96:

Page 169: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

P {Z < – 1,96} = 0,0250

Leitura direta na

Tabela

0

Page 170: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Calcule P{– 1,96 < Z < 1,96}

P{– 1,96 < Z < 1,96} = 0,9750 – 0,0250 = 0,9500

0,0250

Tabela:

P{Z<1,96} = 0,9750

0

Page 171: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

• Área sob a curva para Z < 1,96

Page 172: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

• Calcule P { Z > 1,96}

Tabela:

P{Z<1,96} = 0,9750

1 – 0,9750 = 0,0250

0

Page 173: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

• Probabilidade contida em alguns intervalos

Intervalo Proporção

–1 < Z < 1

–2 < Z < 2

–3 < Z < 3

Page 174: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

• Determinar x, tal que P{Z > x} = 0,05

P { Z < 1,65} = 0,9505

P {Z < 1,64} = 0,9495

0,0500

x

Tabela: Valor mais próximo de P{Z<x} = 0,9500

x = 1,645 0

Page 175: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Intervalos Simétricos em Torno de Zero

Proporção Intervalo

90%

95%

99%

Page 176: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Outras Distribuições Normais

• Caso Geral:

Média:

Desvio-padrão:

• Transformação:

• Mesmos procedimentos após transformação

(tabela Normal Padrão)

Page 177: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Conversão na Normal Padrão

• P{ < X < x } = P {0 < Z < z }

X Z

Page 178: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Exemplo

• As alturas de mulheres com 18 a 24 anos de

idade é aproximadamente normal com

média 164 cm e desvio-padrão 6,4 cm.

X: altura de mulheres entre 18 e 24 anos (cm)

X ~ N (164, 6,4)

Page 179: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

1. Encontre a proporção de mulheres com altura

inferior a 172 cm

Page 180: Introdução à Análise de Dados II - ufjf.br · PDF fileCoeficiente de Correlação de Pearson • O numerador mede o total da concentração de pontos pelos quatro quadrantes •

Padronização

Pela tabela

P { Z < 1,25} = 0,8944

P { X < 100} = 0,8944 = 89,44%

2. Qual o valor de altura que delimita 5% das mulheres

mais altas?