exploração e transformação de dados - prof. saulo … · Área sob a curva normal - relações...

80
Exploração e Transformação de dados

Upload: vuthuy

Post on 09-Oct-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

Exploração e Transformação de dados

Page 2: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

A DISTRIBUIÇÃO NORMAL

Page 3: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Z-score -3,29 -2,58 -1,96 3,292,581,96

68%95%99%

Normal

Page 4: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

A distribuição normal corresponde a um modelo teórico ou ideal obtido a

partir de uma equação matemática, e não de uma pesquisa e coleta de

dados.

Pode ser usada para descrever distribuições de escores, interpretar o

desvio-padrão e fazer afirmações probabilísticas.

É fundamental para a tomada de decisão estatística, mais

especificamente, para generalização de resultados de amostras para

populações.

Normal

Page 5: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

1ª) A variável aleatória poderá assumir qualquer valor real.

Características da Distribuição Normal

2ª) A apresentação gráfica da distribuição normal corresponde a uma

curva em forma de sino, denominada também de Curva de Gauss ou

Curva de Moivre.

3ª) É simétrica em torno da média: obtém-se a mesma ordenada (Y) e o

mesmo valor de probabilidade para dois valores de x.

Normal

Page 6: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Curva Normal ou Gaussiana.

Características da Distribuição Normal (continuação)

Normal

Page 7: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

4ª) A curva normal admite uma única ordenada máxima (pico), situada

na média, e assim as medidas de tendência central (média, moda e

mediana) são iguais.

5ª) Quanto mais os valores se afastam da média (pico) tendem a se

tornar mais raros.

Características da Distribuição Normal (continuação)

Normal

Page 8: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

6ª) A distribuição normal, em sua representação gráfica, apresenta

sempre dois pontos de inflexão (modificação da tendência em relação ao

eixo das abscissas) e é assintótica em relação ao eixo da variável x (não

toca o eixo x – varia de - ∞ a + ∞).

Características da Distribuição Normal (continuação)

Normal

Page 9: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Curva Normal: assintótica e com dois pontos de inflexão.

Características da Distribuição Normal (continuação)

Assíntota (- ∞ ) Assíntota (+ ∞ )

Ponto de

inflexão

Ponto de

inflexão

Normal

Page 10: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

7ª) A área total sob a curva corresponde à proporção 1 ou à

porcentagem 100%.

Características da Distribuição Normal (continuação)

Área total sob a curva

100%

Normal

Page 11: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

8ª) A probabilidade de ocorrer valor maior ou menor que a média é

equivalente, sendo igual a 0,50 ou 50%.

Características da Distribuição Normal (continuação)

50% 50%

Normal

Page 12: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

1ª) As medidas originárias de diversos processos aleatórios seguem

essa distribuição (é um ideal teórico para a pesquisa científica).

Importância da Distribuição Normal

2ª) A distribuição amostral de estatísticas, ao se aproximar da

normalidade, serve de base para a inferência estatística, visto que se

busca generalizar para a população os dados obtidos na amostra.

Normal

Page 13: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Para reduzir a infinidade de curvas normais possíveis a partir de tal

modelo (visto que se trabalham com médias e desvios-padrão) utiliza-se

um recurso para tornar comparáveis as diversas curvas normais.

Curva Normal Padronizada (escore-padrão)

ESCORE-PADRÃO OU DESVIO REDUZIDO (z)

Normal

Page 14: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

O escore-padrão indica, em unidades de desvio-padrão, o sentido e a

intensidade com que determinado resultado bruto se afasta da média da

distribuição à qual pertence.

Curva Normal Padronizada (escore-padrão)

s

XXz

-

padrão-escore z

bruto resultado odeterminad X

ãodistribuiç da média X

ãodistribuiç da padrão-desvio s

Normal

Page 15: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Exemplo: um conjunto de notas de QI tem distribuição normal, com

média 100 e desvio-padrão 15. Qual o escore padrão de um indivíduo

que tenha obtido no teste de inteligência empregado X = 120, e como

este dado deve ser interpretado.

Curva Normal Padronizada (escore-padrão)

s

XXz

- 33,1

15

001-201 z

Uma pessoa com 120 de QI está + 1,33 desvio-padrão acima da média.

Normal

Page 16: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Área sob a Curva NormalNormal

Page 17: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Para z ± 1,96 ≤ 0,95 ou 95% da área total.

Área sob a Curva Normal - relações entre os valores de z.

Para z ± 2,58 ≤ 0,99 ou 99% da área total.

Área fora do limite ≤ 0,01 ou 1% da área total.

Área fora do limite ≤ 0,05 ou 5% da área total.

Normal

Page 18: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Para z ±1,96 => 0,95 ou 95% da área total.

Área sob a Curva Normal - relações entre os valores de z.

Normal

Page 19: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Área sob a Curva Normal - relações entre os valores de z.

Para z ± 2,58 => 0,99 ou 99% da área total.

Normal

Page 20: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Área sob a Curva Normal - relações entre os valores de z.

Área fora do limite = 0,05 ou 5% da área total.

Normal

Page 21: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Área sob a Curva Normal - relações entre os valores de z.

Área fora do limite = 0,01 ou 1% da área total.

Normal

Page 22: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Tabelas da Curva Normal

Permitem resolver dois tipos de problemas:

1º) Qual a proporção ou área correspondente a determinado(s) valor(es)

da distribuição?

2º) Qual (is) o(s) valor(es) da distribuição correspondente(s) a

determinada(s) área(s) ou proporção(ões)?

Normal

Page 23: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Tabelas da Curva Normal

Exemplo: um teste de inteligência foi aplicado em um grupo de 50

estudantes de uma série. Os resultados obtidos apresentaram uma

distribuição aproximadamente normal, com média 50 e desvio-padrão 6.

a) Qual a proporção de alunos com notas superiores a 60?

b) Qual o número de alunos com notas compreendidas entre 35 e 45?

Normal

Page 24: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Tabelas da Curva Normal

Exemplo: Qual a proporção de alunos com notas superiores a 60?

1º) Transforma-se a nota 60 em desvio-reduzido:

s

XXz

- 67,1

6

50-06 z

Normal

Page 25: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Tabelas da Curva Normal

Exemplo: Qual a proporção de alunos com notas superiores a 60?

Área da curva normal acima do desvio reduzido z = 1,67

Localização da área da curva normal 1,67 acima da média

Normal

Page 26: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Tabelas da Curva Normal

Exemplo: Qual a proporção de alunos com notas superiores a 60?

Área total compreendida entre a origem e z = 1,67: 0,45254

2º) Encontra-se o dado na Tabela referente à área entre a origem e um

valor determinado de z:

Normal

Page 27: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Tabelas da Curva Normal

Exemplo: Qual a proporção de alunos com notas superiores a 60?

Tabela (área entre a origem e um valor determinado de z)

Normal

Page 28: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Tabelas da Curva Normal

Exemplo: Qual a proporção de alunos com notas superiores a 60?

Tabela (área entre a origem e um valor determinado de z)

Normal

7

Área total compreendida entre a origem e z = 1,67: 0,45254

Page 29: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Tabelas da Curva Normal

Exemplo: Qual a proporção de alunos com notas superiores a 60?

0,500000 – 0,45254 = 0,04746 ≅ 4,75%

3º) Subtrai-se a área total entre a origem e + ∞ para determinar a área

desejada:

Porcentagem de alunos com notas superiores a 60

Normal

Page 30: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Tabelas da Curva Normal

Exemplo: Qual o número de alunos com notas compreendidas

entre 35 e 45?

1º) Calculam-se os desvios reduzidos:

35X 50,26

50-53 1 z

45X 83,06

50-54 2 z

Normal

Page 31: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Tabelas da Curva Normal

Exemplo: Qual o número de alunos com notas compreendidas

entre 35 e 45?

Localização da área da curva normal entre – 2,50 e – 0,83

Normal

Page 32: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Tabelas da Curva Normal

Exemplo: Qual o número de alunos com notas compreendidas

entre 35 e 45?

Área total compreendida entre a origem e z1 = - 2,50: 0,49379

2º) Encontram-se na Tabela os dados referentes à área entre a origem

e os valores determinados de z:

Área total compreendida entre a origem e z2 = - 0,83: 0,29673

Normal

Page 33: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Tabelas da Curva Normal

Exemplo: Qual o número de alunos com notas compreendidas

entre 35 e 45?

0,49379 – 0,29673 = 0,19706 ≅ 19,71%

3º) Subtraem-se as áreas encontradas:

Porcentagem de alunos com notas entre 35 e 45

Normal

Page 34: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Tabelas da Curva Normal

19,71% x 50 = 9,86

4º) Multiplica-se a porcentagem total encontrada pelo tamanho da

amostra:

Por se tratar de uma variável discreta, deve-se arredondar para

10, ou seja, 10 alunos possuem notas entre 35 e 45.

Exemplo: Qual o número de alunos com notas compreendidas

entre 35 e 45?

Normal

Page 35: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Aplicações

Teoria da Amostragem: segundo o Teorema Central do Limite, quando n

≥ 30, o uso da distribuição normal é garantido para a estimativa de

médias e proporções populacionais.

Testes de Hipóteses: testar hipóteses sobre médias ou diferenças entre

médias de dois ou mais grupos.

Normal

Page 36: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Exploração de Dados

Testes paramétricos Distribuição Normal

Page 37: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Pressupostos de um teste paramétrico:

1º) Distribuição normal (ou aproximadamente

normal) dos dados.

Page 38: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Pressupostos de um teste paramétrico:

2º) Independência entre as unidades de análise.

Ex.: O comportamento de um participante não

pode influenciar o comportamentos de outro

participante.

3º) Dados quantitativos (intervalares ou de razão).

4º) Homogeneidade das variâncias

(homoscedasticidade): as variâncias devem ser as

mesmas para as diferentes populações

consideradas.

Page 39: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Como testar a hipótese de normalidade

de uma distribuição?

1º) Estudar a assimetria e a curtose da distribuição

Page 40: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Como testar a hipótese de normalidade de uma distribuição?

Passos 1º) Estudar a assimetria e a curtose da distribuição

Assimetria e Curtose = 0 (zero) Distribuição perfeitamente normal

50%50%

Page 41: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Como testar a hipótese de normalidade de uma distribuição?

Passos 1º) Estudar a assimetria e a curtose da distribuição

Escalas de Assimetria:

| AS | < 0,15 => assimetria pequena

0,15 < | AS | < 1 => assimetria moderada

| AS | > 1 => assimetria elevada

Coeficiente de assimetria: grau de deformação de uma distribuição

Assimetria positiva:

valores à esquerda

Assimetria negativa:

valores à direita

Page 42: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Como testar a hipótese de normalidade de uma distribuição?

Passos 1º) Estudar a assimetria e a curtose da distribuição

Coeficiente de curtose: grau de achatamento de uma distribuição

Curtose positiva:

distribuição leptocúrtica

Curtose negativa:

distribuição platicúrtica

K = -0,968K = 0,049

EP = 0,535 EP = 0,717

Page 43: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Como testar a hipótese de normalidade

de uma distribuição?

2º) Procurar valores atípicos (outliers)

Page 44: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Como testar a hipótese de normalidade de uma distribuição?

Passos 2º) Procurar valores atípicos (outliers)

Um valor atípico (outlier) é um escore que se dispersa

bastante dos demais escores de uma distribuição, podendo

enviesar significativamente a média amostral.

Como identificar um caso outlier?

1º) Estudar graficamente a distribuição de frequências: BOXPLOT

2º) Transformar os escores brutos em escores-z.

Page 45: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Como testar a hipótese de normalidade de uma distribuição?

Passos 2º) Procurar valores atípicos (outliers)

BOXPLOT: Apresenta diversas informações sobre o

conjunto dos dados.

Page 46: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Como testar a hipótese de normalidade

de uma distribuição?

3º) Ajustar a distribuição

Page 47: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Como testar a hipótese de normalidade de uma distribuição?

Passos 3º) Ajustar a distribuição

1) A princípio, deve-se verificar possíveis erros de digitação.

a) Remover o caso outlier, entendendo que ele não pertence à

população investigada.

Se não houver erros de digitação:

b) Substituir o valor (ex.: substituir pelo próximo escore mais alto

adicionado de um; inverter o valor do escore-z; substituir pela média

mais dois desvios-padrão).

c) Transformar os dados.

Possibilidades

Page 48: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Como testar a hipótese de normalidade

de uma distribuição?

4º) Realizar testes de normalidade

Page 49: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Como testar a hipótese de normalidade de uma distribuição?

Passos 4º) Realizar testes de normalidade

São duas as técnicas mais comumente empregadas para o teste da

hipótese de normalidade. Ambas testam a hipótese de que os dados

da amostra estão normalmente distribuídos, baseando-se no valor

absoluto da diferença máxima entre a distribuição cumulativa

observada e a distribuição cumulativa esperada, assumindo o

pressuposto da normalidade.

observada esperada

Page 50: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Como testar a hipótese de normalidade de uma distribuição?

Passos 4º) Realizar testes de normalidade

Testes para a hipótese de normalidade:

a)Kolmogorov-Smirnov (K-S): ≥ 50 casos

b)Shapiro-Wilk < 50 casos

H0 = A característica em estudo da população segue a

distribuição normal (ou não há diferenças significativas entre

a frequência observada e a esperada)

H1 = A característica em estudo da população não segue a

distribuição normal (ou há diferenças significativas entre a

frequência observada e a esperada)

Page 51: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Como testar a hipótese de normalidade de uma distribuição?

Passos 4º) Realizar testes de normalidade

Tais estatísticas baseiam-se na maior diferença absoluta

entre a frequência acumulada observada e a estimada pela

distribuição normal.

Se p > 0,05 = corrobora H0 (distribuição é normal)

Se p ≤ 0,05 = corrobora H1 (distribuição não é normal)

Page 52: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Como testar a hipótese de normalidade de uma distribuição?

Passos 4º) Realizar testes de normalidade

LIMITAÇÃO DE TAIS TESTES

Com amostras grandes é muito fácil obter valores

significativos a partir de pequenos desvios de normalidade.

Assim, um resultado significativo não necessariamente nos

informa se o desvio da normalidade é suficiente para prejudicar

os procedimentos estatísticos que serão aplicados futuramente

aos dados.

Page 53: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Como testar a hipótese de normalidade

de uma distribuição?

5º) Realizar o teste de homoscedasticidade

Page 54: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Como testar a hipótese de normalidade de uma distribuição?

Passos 5º) Realizar o teste de homoscedasticidade

Caso tenham sido coletados grupos de dados, a variância da

variável critério deve ser a mesma em cada um desses grupos.

Ex.: As variâncias entre homens e mulheres deve ser a mesma

para a média geral de desejo de permanência na organização.

O teste mais comumente empregado para o teste da

homoscedasticidade é o teste de Levene, o qual testa a

hipótese nula de que a variância entre os grupos é a mesma

(diferença entre as variâncias igual a zero).

Page 55: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Como testar a hipótese de normalidade de uma distribuição?

Passos 5º) Realizar o teste de homoscedasticidade

Teste de Levene

Se p > 0,05 = corrobora H0 (variâncias são homogêneas)

Se p ≤ 0,05 = corrobora H1 (variâncias não são homogêneas)

LIMITAÇÃO DO TESTE DE LEVENE

Assim como o teste K-S, quando o tamanho da amostra é

grande, pequenas diferenças entre os grupos podem produzir

um teste de Levene significativo.

SOLUÇÃO

Page 56: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Como testar a hipótese de normalidade de uma distribuição?

Passos 5º) Realizar o teste de homoscedasticidade

Teste de Levene

Calcular a razão das variâncias: dividir o valor da maior

variância entre os grupos do valor da menor variância.

Ex.:

r = 0,536/0,486

r = 1,10

Se r < 2, há

homogeneidade

das variâncias

Page 57: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Testando a hipótese de normalidade de

uma distribuição no SPSS

Page 58: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Testando a hipótese de normalidade no SPSS

SPSS:

Menu ANALYZE

Comando Explore

Analyze > Descriptive Statistics > Explore

Page 59: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Testando a hipótese de normalidade no SPSS

Caso se deseje testar a normalidade de uma única

variável, independentemente da sua distribuição entre

grupos:

Page 60: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Testando a hipótese de normalidade no SPSS

Clicar em Statistics:

Page 61: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Testando a hipótese de normalidade no SPSS

Selecionar outliers e Continue:

Page 62: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Testando a hipótese de normalidade no SPSS

Clicar em Plots:

Page 63: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Testando a hipótese de normalidade no SPSS

Selecionar Histogram e Normality Plots with tests:

Page 64: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Testando a hipótese de normalidade no SPSS

Clicar em OK:

Page 65: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Testando a hipótese de normalidade no SPSS

Output

Page 66: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Testando a hipótese de normalidade no SPSS

Output

Apresenta os cinco

outliers superiores e os

cinco inferiores

Page 67: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Testando a hipótese de normalidade no SPSS

Output

p < 0,05 (significativo) => distribuição não-normal

Page 68: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Testando a hipótese de normalidade no SPSS

Output

Page 69: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Qualquer desvio dos pontos em relação à linha reta diagonal

representa um desvio da normalidade.

Quando os pontos apresentarem

uma forma de S, mostra-se

assimetria.

Quando a linha fica de forma

consistente abaixo da diagonal

ou acima, mostra-se que a

curtose é diferente de uma

distribuição normal.

Normal Q-Q Plot

Page 70: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Detrended Normal Q-Q Plot

Espera-se uma

distribuição em torno

de 0,00 e um equilíbrio

na dispersão dos

escores acima e

abaixo de 0,00.

Page 71: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Box Plot

Page 72: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Transformando Dados no SPSS

Page 73: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Transformando Dados

Page 74: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Transform > Compute

Numeric Expression

LG10(variável + 1) ou

SQRT(variável)

1/(variável + 1) => recíproca

Adiciona-se a constante 1 para

assegurar que todos os valores são

maiores do que zero.

Transformando Dados

É importante comparar a distribuição

original com a distribuição transformada,

a fim de verificar se houve um ajuste

significativo para os dados.

Page 75: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Comparação entre dados originais e transformados

Ass = -0,627

K = 1,753

Ass = 0,051

K = 0,872

Transformação

aumentou a Ass e a K.

Page 76: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Teste da Homoscedasticidade entre grupos

Page 77: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Teste da Homoscedasticidade

Inserir variável que possui os grupos para teste da homogeneidade

das variâncias da variável critério

Page 78: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Teste da Homoscedasticidade

Untransformed: o teste de

Levene será realizado com

os dados brutos

Transformed: o teste de

Levene será realizado com

os dados transformados

Page 79: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Teste da Homoscedasticidade

p > 0,05 (não-significativo) => variâncias homogêneas

entre homens e mulheres

Comunicação do Teste de Levene:

F (df1, df2) = valor

F (1, 1860) = 1,823, p > 0,05.

Page 80: Exploração e Transformação de dados - Prof. Saulo … · Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 ≤ 0,99 ou 99% da área total. Área fora

EXPLORAÇÃO E TRANSFORMAÇÃO DE DADOS

Se, após todas estas técnicas, sua

distribuição for não-normal, considere

utilizar os TESTES NÃO-PARAMÉTRICOS