análise exploratória de dados - pgsc.ufma.br · pdf file1 análise...

14
1 Análise Exploratória de Dados Profª Alcione Miranda dos Santos Departamento de Saúde Pública – UFMA Programa de Pós-graduação em Saúde Coletiva email: [email protected] Introdução O primeiro passo em qualquer análise de dados consiste em explorar os dados coletados. A análise exploratória nos fornece uma idéia de como os nossos dados se distribuem e qual a forma que apresentam. Além disso, na análise exploratória podemos verificar se os pressupostos teóricos exigidos para a análise que escolhemos são ou não verificados. 2

Upload: lyhanh

Post on 06-Feb-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

1

Análise Exploratória de

Dados

Profª Alcione Miranda dos SantosDepartamento de Saúde Pública – UFMA

Programa de Pós-graduação em Saúde Coletivaemail: [email protected]

Introdução

� O primeiro passo em qualquer análise de dados consisteem explorar os dados coletados.

� A análise exploratória nos fornece uma idéia de como osnossos dados se distribuem e qual a forma queapresentam.

� Além disso, na análise exploratória podemos verificar seos pressupostos teóricos exigidos para a análise queescolhemos são ou não verificados.

2

2

Classificação das variáveis� As variáveis, de acordo a sua natureza se classificam em

quantitativas (discretas e contínuas) e qualitativas (nominal eordinal).

� De acordo a sua função em variáveis dependentes eindependentes.

� Independentes: variáveis que o pesquisador seleciona paraverificar sua relação com o comportamento de outrasvariáveis.

� Dependentes ou Resposta: variável que o pesquisador querinvestigar, cujos efeitos provocados pela variávelindependente, interessam ao pesquisador medir.

3

Classificação das variáveis

� Exemplo:

� Qual a relação entre IMC e o que uma pessoa come?

� Variáveis

� Variáveis independentes: número de vezes que a pessoa come por dia, tipo de alimento, idade.

� Variável dependente: IMC

4

3

Análise das relações entre variáveis

� Análise univariada – cada variável é tratadaisoladamente

� Análise bivariada – estabelecem-se relações entreduas variáveis.

� Análise multivariada - estabelecem-se relações entretrês ou mais variáveis.

5

Análise Univariada

Objetivo: apresentar característica ou tendência dos dados de uma variável.

� Tabulação de variáveis

� Representação gráfica

� Medidas de Tendência Central (Média, Mediana, Moda, Percentis)

� Medidas de Dispersão (amplitude, variância, desvio-padrão)

6

4

Exemplo de tabela de frequências

Tabela 1: Distribuição dos recém-nascidos segundo o sexo, São Luís-MA

Sexo Freqüências Percentual (%)

Feminino 249 54,61

Masculino 207 45,39

Total 456 100,00

7

Exemplo de tabela de frequências

Tabela 2: Tempo de Internação (em dias) de 160 pacientes no Hospital X

Tempo de Internação (dias) No de pacientes

10 |--- 20 3820 |--- 30 4530 |--- 40 3040 |--- 50 2250 |--- 60 1060 |--- 70 15

Total 160

8

5

Representação Gráfica

Vendas das marcas

150

250

350

450

550

650

750

850

Gradiente Panasonic Phillips Samsung Toshiba

Marcas

Fre

ên

cia

9

Representação GráficaHistograma: Renda por Estado Civil

Renda

Núm

ero

de o

bser

vaçõ

es

Solteiro

0.683.57

6.469.35

12.2415.13

18.0220.91

23.8026.69

29.580

50

100

150

200

250

300

350

400

450

500

Divorciado

0.683.57

6.469.35

12.2415.13

18.0220.91

23.8026.69

29.58

Outros

0.683.57

6.469.35

12.2415.13

18.0220.91

23.8026.69

29.580

50

100

150

200

250

300

350

400

450

500

Casado

0.683.57

6.469.35

12.2415.13

18.0220.91

23.8026.69

29.58

10

6

Representação GráficaBox Plot das Alturas

130

140

150

160

170

180

190

200

210

ALTURA

11

Representação Gráfica

12

7

Avaliação de assimetria

MédiaMediana

Moda

freq

ModaMediana

Média

freq.

Moda = Média = Mediana

freq.

Assimétrica

à esquerda

ou negativa

Assimétrica

à direita

ou positiva

Simétrica

13

Medidas de assimetria

1. Coeficiente de assimetria de Pearson:

média

desvio-padrão

mediana

s

medxAs

)(3 −=

Nota: Se AS estiver contido no intervalo [-0,5; 0,5], podemos assumir que a variável em estudo tem distribuição simétrica

14

8

Análise Bivariada

� Variáveis qualitativas: realizações são atributos.

� Análise de duas variáveis qualitativas:� Avaliar se existe associação entre elas.� Avaliar a força do relacionamento entre elas.

� Teste de associação: Teste Qui-Quadrado

� Coeficiente de associação: Coeficiente de contingência.

15

Tabela de Contingência

TABELA 3. Tipo de parto segundo categoria de internação em nascidos vivos de parto único. São Luís - MA, 1997/98

Fonte: Silva et al (2001)

16

9

Análise Bivariada

� Variáveis quantitativas: valores numéricos

� Análise de duas variáveis quantitativas:� Avaliar se existe correlação entre elas.� Avaliar a força do relacionamento entre elas.

� Representação gráfica: Diagrama de Dispersão

� Coeficiente de correlação: Coeficiente de Pearson ou Coeficiente de Spearman.

17

Gráfico de Dispersão

40

50

60

70

80

90

1,45 1,5 1,55 1,6 1,65 1,7 1,75 1,8 1,85 1,9

Altura

Pes

o

18

10

Coeficiente de Correlação de Pearson

� A correlação é calculada independente da unidade de medida dasvariáveis.

� A técnica usada para calcular este coeficiente, supõe que a associaçãoentre as variáveis seja linear, ou seja, expressa por uma reta ou linha.

� Se a relação apresentada no diagrama de dispersão não for do tipolinear, o coeficiente de correlação de Pearson não deve ser calculado.

� Fórmula:

∑∑

==

=

−×−

−−

=n

i

i

n

i

i

n

i

ii

yyxx

yyxx

r

1

2

1

2

1

)()(

))((

19

Coeficiente de Correlação de Pearson

Interpretando o valor de r

r - assume valores entre – 1 e + 1.

• r ≈ – 1 associação linear negativa forte;

x ↑↑↑↑ y ↑↑↑↑

x ↑↑↑↑ y ↓↓↓↓

• r ≈ 0 ausência de associação linear;

• r ≈ + 1 associação linear positiva forte;

20

11

Coeficiente de Correlação Linear de Pearson

0

5

10

15

20

0 5 10

r = +1

0

10

20

30

40

50

60

0 5 10

r ≈ 0

0

5

10

15

20

0 5 10

r ≈ + 0,80

0

5

10

15

20

25

30

0 5 10

r ≈ - 0,800

5

10

15

20

25

30

0 5 10

r = - 1

Relação

perfeita Relação

perfeita

21

Normalidade

22

12

Teste de Normalidade

� Teste Shapiro-Wilk ou Kolmogorov-Simirnov

� O que se pretende testar é então:� Ho: A população tem distribuição normal� H1: A população não tem distribuição normal

� Assim, valores “grandes” do p-valor conduzem à “aceitação” da hipótese nula.

� É importante ressaltar que esses testes são extremamenterigorosos e facilmente rejeitam a hipótese de normalidade.Portanto, devemos ter cautela, e não basear a decisão apenas novalor p desses testes.

23

Recodificação e Transformação

� Criar novas variáveis usando condições fixadas.

� Recodificação:� Criar novos valores para uma variável qualitativa.� Agrupar os valores de uma variável quantitativa contínua

em classes, através de expressões numéricas que têmcomo resultados caracteres.

� Transformação:� Criar novas variáveis quantitativas através da aplicação

de operações matemáticas às variáveis existentes.

24

13

Transformação

� Diversas técnicas estatísticas são baseadas nasuposição de que os dados provêm de uma distribuiçãonormal ou, pelo menos, aproximadamente simétrica.

� Porém, em muitas situações, os dados em que estamosinteressados apresentam assimetria e/ou podem contervalores atípicos.

� Existem métodos estatísticos que são desenvolvidos para dados não normais (Testes não paramétricos) .

� Se quisermos utilizar algum método para dados normais,quando os dados não parecem ter esse tipo decomportamento, o que se pode fazer é umatransformação desses dados visando simetria.

25

Transformação

� A transformação logarítmica é a mais comum e geralmenteresolve os problemas de assimetria.

� Existem outras transformações que podem ser utilizadasdependendo da característica dos dados.

� Por exemplo, a transformação raiz quadrada é mais usadaquando a variável é uma contagem.

� A transformação recíproca (1/x) tem um efeito muito maisdrástico do que tomar o logaritmo e pode ser útil se os dadosobservados têm uma distribuição extremamente assimétrica.

26

14

Observações atípicas

� Dados atípicos (outliers) em relação aos demais, influenciamenormemente as médias e a variabilidade dos dados,podendo até mesmo distorcer conclusões.

� É fundamental sua detecção e tratamento.

� Possíveis causas de valores espúrios:

� Erro na fase de mensuração – viés de aferição.� Erro na transcrição ou anotação do registro.� Mudanças reais não-controláveis nas condições experimentais.� Característica da variável

27

Observações Atípicas

� Detectando Observações atípicas (Outliers)

� Nesta etapa de análise dos dados, as técnicas deestatística descritiva são de extrema utilidade, poispermitem a inspeção visual da distribuição dos dados.

� Assim, para este fim, utilizam-se os seguintes recursos:

� Box-plots

� Gráficos de dispersão (bivariado).

28