análise exploratória de dados - pgsc.ufma.br · pdf file1 análise...
TRANSCRIPT
1
Análise Exploratória de
Dados
Profª Alcione Miranda dos SantosDepartamento de Saúde Pública – UFMA
Programa de Pós-graduação em Saúde Coletivaemail: [email protected]
Introdução
� O primeiro passo em qualquer análise de dados consisteem explorar os dados coletados.
� A análise exploratória nos fornece uma idéia de como osnossos dados se distribuem e qual a forma queapresentam.
� Além disso, na análise exploratória podemos verificar seos pressupostos teóricos exigidos para a análise queescolhemos são ou não verificados.
2
2
Classificação das variáveis� As variáveis, de acordo a sua natureza se classificam em
quantitativas (discretas e contínuas) e qualitativas (nominal eordinal).
� De acordo a sua função em variáveis dependentes eindependentes.
� Independentes: variáveis que o pesquisador seleciona paraverificar sua relação com o comportamento de outrasvariáveis.
� Dependentes ou Resposta: variável que o pesquisador querinvestigar, cujos efeitos provocados pela variávelindependente, interessam ao pesquisador medir.
3
Classificação das variáveis
� Exemplo:
� Qual a relação entre IMC e o que uma pessoa come?
� Variáveis
� Variáveis independentes: número de vezes que a pessoa come por dia, tipo de alimento, idade.
� Variável dependente: IMC
4
3
Análise das relações entre variáveis
� Análise univariada – cada variável é tratadaisoladamente
� Análise bivariada – estabelecem-se relações entreduas variáveis.
� Análise multivariada - estabelecem-se relações entretrês ou mais variáveis.
5
Análise Univariada
Objetivo: apresentar característica ou tendência dos dados de uma variável.
� Tabulação de variáveis
� Representação gráfica
� Medidas de Tendência Central (Média, Mediana, Moda, Percentis)
� Medidas de Dispersão (amplitude, variância, desvio-padrão)
6
4
Exemplo de tabela de frequências
Tabela 1: Distribuição dos recém-nascidos segundo o sexo, São Luís-MA
Sexo Freqüências Percentual (%)
Feminino 249 54,61
Masculino 207 45,39
Total 456 100,00
7
Exemplo de tabela de frequências
Tabela 2: Tempo de Internação (em dias) de 160 pacientes no Hospital X
Tempo de Internação (dias) No de pacientes
10 |--- 20 3820 |--- 30 4530 |--- 40 3040 |--- 50 2250 |--- 60 1060 |--- 70 15
Total 160
8
5
Representação Gráfica
Vendas das marcas
150
250
350
450
550
650
750
850
Gradiente Panasonic Phillips Samsung Toshiba
Marcas
Fre
qü
ên
cia
9
Representação GráficaHistograma: Renda por Estado Civil
Renda
Núm
ero
de o
bser
vaçõ
es
Solteiro
0.683.57
6.469.35
12.2415.13
18.0220.91
23.8026.69
29.580
50
100
150
200
250
300
350
400
450
500
Divorciado
0.683.57
6.469.35
12.2415.13
18.0220.91
23.8026.69
29.58
Outros
0.683.57
6.469.35
12.2415.13
18.0220.91
23.8026.69
29.580
50
100
150
200
250
300
350
400
450
500
Casado
0.683.57
6.469.35
12.2415.13
18.0220.91
23.8026.69
29.58
10
6
Representação GráficaBox Plot das Alturas
130
140
150
160
170
180
190
200
210
ALTURA
11
Representação Gráfica
12
7
Avaliação de assimetria
MédiaMediana
Moda
freq
ModaMediana
Média
freq.
Moda = Média = Mediana
freq.
Assimétrica
à esquerda
ou negativa
Assimétrica
à direita
ou positiva
Simétrica
13
Medidas de assimetria
1. Coeficiente de assimetria de Pearson:
média
desvio-padrão
mediana
s
medxAs
)(3 −=
Nota: Se AS estiver contido no intervalo [-0,5; 0,5], podemos assumir que a variável em estudo tem distribuição simétrica
14
8
Análise Bivariada
� Variáveis qualitativas: realizações são atributos.
� Análise de duas variáveis qualitativas:� Avaliar se existe associação entre elas.� Avaliar a força do relacionamento entre elas.
� Teste de associação: Teste Qui-Quadrado
� Coeficiente de associação: Coeficiente de contingência.
15
Tabela de Contingência
TABELA 3. Tipo de parto segundo categoria de internação em nascidos vivos de parto único. São Luís - MA, 1997/98
Fonte: Silva et al (2001)
16
9
Análise Bivariada
� Variáveis quantitativas: valores numéricos
� Análise de duas variáveis quantitativas:� Avaliar se existe correlação entre elas.� Avaliar a força do relacionamento entre elas.
� Representação gráfica: Diagrama de Dispersão
� Coeficiente de correlação: Coeficiente de Pearson ou Coeficiente de Spearman.
17
Gráfico de Dispersão
40
50
60
70
80
90
1,45 1,5 1,55 1,6 1,65 1,7 1,75 1,8 1,85 1,9
Altura
Pes
o
18
10
Coeficiente de Correlação de Pearson
� A correlação é calculada independente da unidade de medida dasvariáveis.
� A técnica usada para calcular este coeficiente, supõe que a associaçãoentre as variáveis seja linear, ou seja, expressa por uma reta ou linha.
� Se a relação apresentada no diagrama de dispersão não for do tipolinear, o coeficiente de correlação de Pearson não deve ser calculado.
� Fórmula:
∑∑
∑
==
=
−×−
−−
=n
i
i
n
i
i
n
i
ii
yyxx
yyxx
r
1
2
1
2
1
)()(
))((
19
Coeficiente de Correlação de Pearson
Interpretando o valor de r
r - assume valores entre – 1 e + 1.
• r ≈ – 1 associação linear negativa forte;
x ↑↑↑↑ y ↑↑↑↑
x ↑↑↑↑ y ↓↓↓↓
• r ≈ 0 ausência de associação linear;
• r ≈ + 1 associação linear positiva forte;
20
11
Coeficiente de Correlação Linear de Pearson
0
5
10
15
20
0 5 10
r = +1
0
10
20
30
40
50
60
0 5 10
r ≈ 0
0
5
10
15
20
0 5 10
r ≈ + 0,80
0
5
10
15
20
25
30
0 5 10
r ≈ - 0,800
5
10
15
20
25
30
0 5 10
r = - 1
Relação
perfeita Relação
perfeita
21
Normalidade
22
12
Teste de Normalidade
� Teste Shapiro-Wilk ou Kolmogorov-Simirnov
� O que se pretende testar é então:� Ho: A população tem distribuição normal� H1: A população não tem distribuição normal
� Assim, valores “grandes” do p-valor conduzem à “aceitação” da hipótese nula.
� É importante ressaltar que esses testes são extremamenterigorosos e facilmente rejeitam a hipótese de normalidade.Portanto, devemos ter cautela, e não basear a decisão apenas novalor p desses testes.
23
Recodificação e Transformação
� Criar novas variáveis usando condições fixadas.
� Recodificação:� Criar novos valores para uma variável qualitativa.� Agrupar os valores de uma variável quantitativa contínua
em classes, através de expressões numéricas que têmcomo resultados caracteres.
� Transformação:� Criar novas variáveis quantitativas através da aplicação
de operações matemáticas às variáveis existentes.
24
13
Transformação
� Diversas técnicas estatísticas são baseadas nasuposição de que os dados provêm de uma distribuiçãonormal ou, pelo menos, aproximadamente simétrica.
� Porém, em muitas situações, os dados em que estamosinteressados apresentam assimetria e/ou podem contervalores atípicos.
� Existem métodos estatísticos que são desenvolvidos para dados não normais (Testes não paramétricos) .
� Se quisermos utilizar algum método para dados normais,quando os dados não parecem ter esse tipo decomportamento, o que se pode fazer é umatransformação desses dados visando simetria.
25
Transformação
� A transformação logarítmica é a mais comum e geralmenteresolve os problemas de assimetria.
� Existem outras transformações que podem ser utilizadasdependendo da característica dos dados.
� Por exemplo, a transformação raiz quadrada é mais usadaquando a variável é uma contagem.
� A transformação recíproca (1/x) tem um efeito muito maisdrástico do que tomar o logaritmo e pode ser útil se os dadosobservados têm uma distribuição extremamente assimétrica.
26
14
Observações atípicas
� Dados atípicos (outliers) em relação aos demais, influenciamenormemente as médias e a variabilidade dos dados,podendo até mesmo distorcer conclusões.
� É fundamental sua detecção e tratamento.
� Possíveis causas de valores espúrios:
� Erro na fase de mensuração – viés de aferição.� Erro na transcrição ou anotação do registro.� Mudanças reais não-controláveis nas condições experimentais.� Característica da variável
27
Observações Atípicas
� Detectando Observações atípicas (Outliers)
� Nesta etapa de análise dos dados, as técnicas deestatística descritiva são de extrema utilidade, poispermitem a inspeção visual da distribuição dos dados.
� Assim, para este fim, utilizam-se os seguintes recursos:
� Box-plots
� Gráficos de dispersão (bivariado).
28