análise exploratória de dados r – lig/09 – maio de 2008

51
Análise Análise Exploratória de Exploratória de Dados Dados R – LIG/09 – maio de 2008 R – LIG/09 – maio de 2008

Upload: internet

Post on 18-Apr-2015

110 views

Category:

Documents


5 download

TRANSCRIPT

Page 1: Análise Exploratória de Dados R – LIG/09 – maio de 2008

Análise Exploratória de Análise Exploratória de DadosDados

R – LIG/09 – maio de 2008R – LIG/09 – maio de 2008

Page 2: Análise Exploratória de Dados R – LIG/09 – maio de 2008

ObjetivosObjetivos

obter uma reta que se ajuste aos dados obter uma reta que se ajuste aos dados segundo o critério de mínimos quadrados;segundo o critério de mínimos quadrados;

apresentar outros critérios para a apresentar outros critérios para a determinação de uma reta que se ajuste determinação de uma reta que se ajuste aos dados;aos dados;

realizar análises exploratórias dos realizar análises exploratórias dos resíduos do modelo ajustado.resíduos do modelo ajustado.

Análise de duas variáveis quantitativas:

Page 3: Análise Exploratória de Dados R – LIG/09 – maio de 2008

Critério de mínimos quadradosCritério de mínimos quadrados

Como são obtidos os coeficientes da reta Como são obtidos os coeficientes da reta de mínimos quadrados?de mínimos quadrados?

Nossos dados podem ser pensados como uma coleção bivariada: ),(),...,,(),,( 2211 nn yxyxyx

Foi considerado adequado o modelo x

para explicar y .

Page 4: Análise Exploratória de Dados R – LIG/09 – maio de 2008

Critério de mínimos quadradosCritério de mínimos quadradosResíduo (ri): diferença entre o valor observado da variável resposta e o valor ajustado pelo modelo:

)(ˆ iiiii bxayyyr

valor observado

valor ajustadopelo modelo

Page 5: Análise Exploratória de Dados R – LIG/09 – maio de 2008

Critério de Mínimos QuadradosCritério de Mínimos Quadrados

Escolha Escolha =a e =a e =b de tal maneira que a =b de tal maneira que a soma de quadrados dos resíduos seja um soma de quadrados dos resíduos seja um mínimo. mínimo.

Minimizar

2

11

2 )(),( i

n

ii

n

ii xyrf

Page 6: Análise Exploratória de Dados R – LIG/09 – maio de 2008

Coeficientes da reta de mínimos Coeficientes da reta de mínimos quadradosquadrados

Solução:Solução:

xx

xy

n

ii

n

iii

S

S

xx

xxyy

b

2

1

1

)(

))((

xbya

Coeficiente de inclinação da reta

Coeficiente linear da reta (intercepto)

Page 7: Análise Exploratória de Dados R – LIG/09 – maio de 2008

Coeficientes da reta de mínimos Coeficientes da reta de mínimos quadradosquadrados

xx

xy

S

S

n

i

n

ii

i

n

i

n

ii

n

ii

ii

n

ii

n

iii

n

x

x

n

yx

yx

xx

xxyy

b

1

2

12

1

11

2

1

1

)(

))((

Coeficiente angular da reta de mínimos quadrados

Page 8: Análise Exploratória de Dados R – LIG/09 – maio de 2008

Exemplo 1: Idade versus altura1Exemplo 1: Idade versus altura1

Fonte:Fonte: http://lib.stat.cmu.edu/DASL/ http://lib.stat.cmu.edu/DASL/ Referência: Moore, David S., and George P. Referência: Moore, David S., and George P.

McCabe (1989). McCabe (1989). Introduction to the Practice of Introduction to the Practice of StatisticsStatistics, p. 118. , p. 118.

A altura de uma criança aumenta ao longo do A altura de uma criança aumenta ao longo do tempo. Como o padrão de crescimento varia de tempo. Como o padrão de crescimento varia de criança para criança, uma forma de criança para criança, uma forma de compreender o padrão geral de crescimento é compreender o padrão geral de crescimento é usar a média das alturas de várias crianças, usar a média das alturas de várias crianças, como é feito com os dados a seguir.como é feito com os dados a seguir.

Page 9: Análise Exploratória de Dados R – LIG/09 – maio de 2008

Idade versus alturaIdade versus altura

Descrição:Descrição: Alturas médias de um grupo de crianças de Alturas médias de um grupo de crianças de Kalama, um povoado egípcio que é o local de um estudo Kalama, um povoado egípcio que é o local de um estudo de nutrição em países em desenvolvimento. Os dados de nutrição em países em desenvolvimento. Os dados foram obtidos medindo-se as alturas de 161 crianças no foram obtidos medindo-se as alturas de 161 crianças no povoado cada mês.povoado cada mês.

Número de casos:Número de casos: 12 12 Nomes das variáveis:Nomes das variáveis:

idade: idade em mesesidade: idade em meses altura: altura média em cm altura: altura média em cm

Page 10: Análise Exploratória de Dados R – LIG/09 – maio de 2008

Idade versus altura: DadosIdade versus altura: Dados idadeidade alturaaltura

1818 76.176.1 1919 7777

2020 78.178.1 2121 78.278.2 2222 78.878.8 2323 79.779.7 2424 79.979.9 2525 81.181.1 2626 81.281.2 2727 81.881.8 2828 82.882.8 2929 83.583.5

Page 11: Análise Exploratória de Dados R – LIG/09 – maio de 2008

Idade versus alturaIdade versus altura

Investigue possíveis relações entre idade Investigue possíveis relações entre idade e altura nesta base de dados.e altura nesta base de dados.

Diagrama de dispersãoDiagrama de dispersão Coeficiente de correlaçãoCoeficiente de correlação Os dados estão no arquivo idadealtura.txt, Os dados estão no arquivo idadealtura.txt,

com a primeira linha indicando os nomes com a primeira linha indicando os nomes das variáveis.das variáveis.

Page 12: Análise Exploratória de Dados R – LIG/09 – maio de 2008
Page 13: Análise Exploratória de Dados R – LIG/09 – maio de 2008

cor(dados$idade,dados$altura)[1] 0.994366

É visível a forte relação entre a idade em meses e a altura!

Page 14: Análise Exploratória de Dados R – LIG/09 – maio de 2008

ComentárioComentário

A altura de uma criança não é estável, mas cresce ao longo do

tempo. Como o padrão de crescimento varia de criança para criança,

uma forma de compreender o modelo geral de crescimento é usar a

média de altura de várias crianças, como apresentado neste conjunto

de dados.

O diagrama de dispersão da altura versus idade é quaseuma linha reta, mostrando um modelo de crescimento linear.

Page 15: Análise Exploratória de Dados R – LIG/09 – maio de 2008

ExtrapolaçãoExtrapolação

Deve-se tomar cuidado com previsões fora Deve-se tomar cuidado com previsões fora do campo de variação da variável explicativa. do campo de variação da variável explicativa.

Quanto mais distante estiver o valor da Quanto mais distante estiver o valor da variável explicativa do conjunto de valores variável explicativa do conjunto de valores efetivamente observado, mais imprecisa será efetivamente observado, mais imprecisa será a previsão.a previsão.

De fato, nada garante que fora deste De fato, nada garante que fora deste intervalo, a relação linear obtida continue intervalo, a relação linear obtida continue valendo.valendo.

Page 16: Análise Exploratória de Dados R – LIG/09 – maio de 2008

ComentáriosComentários O caso deste exemplo é típico. O caso deste exemplo é típico. A altura média pode crescer linearmente com A altura média pode crescer linearmente com

a idade em meses nos primeiros anos de a idade em meses nos primeiros anos de vida, mas a curva de altura de uma pessoa vida, mas a curva de altura de uma pessoa certamente não é linear ao longo de sua vida! certamente não é linear ao longo de sua vida!

Quando falamos em modelos, uma das Quando falamos em modelos, uma das coisas que se deve ter em mente é a coisas que se deve ter em mente é a abrangência deles.abrangência deles.

Page 17: Análise Exploratória de Dados R – LIG/09 – maio de 2008

Reta de mínimos quadradosReta de mínimos quadrados

reta1=lm(dados$altura~dados$idade)reta1=lm(dados$altura~dados$idade) Coefficients:Coefficients: (Intercept) dados$idade (Intercept) dados$idade 64.928 0.635 64.928 0.635

Modelo ajustado: Modelo ajustado: altura=64.928+0.635xidadealtura=64.928+0.635xidade

variável resposta

variávelexplicativa

Coef. linearCoef. angular

Page 18: Análise Exploratória de Dados R – LIG/09 – maio de 2008
Page 19: Análise Exploratória de Dados R – LIG/09 – maio de 2008

Outros métodos para obter a reta

O critério de minimização da soma dos resíduos ao quadrado não é o único! Há outros critérios para obter uma reta que se ajuste aos dados.Um deles é minimizar a soma dos resíduos tomados em valor absoluto.Este critério é conhecido como critério L1.

n

iii

n

ii xyr

11

||

Escolha e de modo a minimizar:

Page 20: Análise Exploratória de Dados R – LIG/09 – maio de 2008

Métodos robustos de ajuste da reta

Métodos conhecidos como robustos, envolvem minimizar alguma função dos resíduos ao quadrado ordenados.1) (lmsreg) least median squares:

escolha e de modo a minimizar:

},...,1),{( 2 nirmediana i Neste caso, não há uma solução analítica como no caso do critério de mínimos quadrados. O algoritmo para a obtenção dos coeficientes é bem mais complexo.

O R possui uma função que nos retorna os coeficientesda reta resultantes, com base nesse critério: lmsreg no pacote MASS.

Page 21: Análise Exploratória de Dados R – LIG/09 – maio de 2008

Métodos robustos de ajuste da reta

Para usar funções do pacote MASS, há a necessidade de carregar o pacote. O único pacote que não precisa ser carregado no R é o base, que contém as funções básicas que trabalhamos até agora (pie, barplot,mean,sd,summary,boxplot, quantile,plot,lm,round,etc.)

Page 22: Análise Exploratória de Dados R – LIG/09 – maio de 2008

Carregando o pacote MASS

Clique em 1) Packages (barra de menus na parte superior da tela)

2) load packages3) MASS

Page 23: Análise Exploratória de Dados R – LIG/09 – maio de 2008

Exemplo 2

Voltemos aos dados do arquivo fumo.txt, trabalhados na aula passada.Compare as retas de mínimos quadrados e via critério lms (least median squares) (lmsreg).

dados=read.table(“http://www.im.ufrj.br/~flavia/aed06/fumo.txt”,header=T)

reta1=lm(dados$imorte~dados$ifumo)reta2=lmsreg(dados$imorte~dados$ifumo)plot(dados$ifumo,dados$imorte,main=“Fumo versus câncer”)abline(reta1$coefficients,col=“blue”)abline(reta2$coefficientes,col=“red”)

Page 24: Análise Exploratória de Dados R – LIG/09 – maio de 2008
Page 25: Análise Exploratória de Dados R – LIG/09 – maio de 2008

Métodos robustos de ajuste da reta

2) Um outro método é o lts (least trimmed squares)que consiste em

escolha e de modo a minimizar:

h

i ir1

2)(

onde r(i) representa os resíduos ordenados, i=1,...,n, e h é um natural menor que n, ou seja, minimiza-se a soma dos h menores resíduos ao quadrado.

No R a função que realiza este ajuste também estádisponível no pacote MASS: ltsreg.

Page 26: Análise Exploratória de Dados R – LIG/09 – maio de 2008

Continuação do exemplo

Compare com os outros dois ajustes obtidos, a reta ajustada via ltsreg.

reta3=ltsreg(dados$imorte~dados$ifumo) abline(reta3$coefficients,col=“green”)

Page 27: Análise Exploratória de Dados R – LIG/09 – maio de 2008
Page 28: Análise Exploratória de Dados R – LIG/09 – maio de 2008

Comentários

Quando o conjunto de dados não apresentar observações muito diferentes das demais (outliers) e o comportamento da variável dependente (resposta) for aproximadamente “normal”, não haverá muita diferença entre as retas obtidas por métodos robustos e a reta de mínimos quadrados.

Page 29: Análise Exploratória de Dados R – LIG/09 – maio de 2008

Comentários

Depois de ajustado um modelo é fundamental realizar a etapa de verificação do modelo em que boa parte consiste numa análise exploratória detalhada dos resíduos do modelo. Apenas após a etapa de validação e a escolha do modelo é que podemos partir para a etapa de previsões.

Page 30: Análise Exploratória de Dados R – LIG/09 – maio de 2008

Análise dos resíduosAnálise dos resíduos

Por exemplo, o diagrama de pontos dos resíduosNÃO deve apresentar nenhuma estrutura aparente.

Caso, o diagrama de pontos apresente alguma estrutura é sinal de que o modelo proposto para os dados ainda não está suficientemente adequado edeve ser reformulado.

Vejamos como está o diagrama dos resíduos dareta de mínimos quadrados para este último ajuste.

Page 31: Análise Exploratória de Dados R – LIG/09 – maio de 2008

Diagrama de pontos dos Diagrama de pontos dos resíduos da reta de mínimos resíduos da reta de mínimos

quadradosquadradosdotchart(reta1$residuals,main=“Diagrama de pontos da reta de mínimos quadrados”)

Page 32: Análise Exploratória de Dados R – LIG/09 – maio de 2008

Outra possibilidadeOutra possibilidade>plot(reta1$residuals,main="Dispersão dos resíduos da reta de mínimos quadrados",type=”l")> abline(h=0,lty=2)

Page 33: Análise Exploratória de Dados R – LIG/09 – maio de 2008

Resíduos versus valores Resíduos versus valores ajustadosajustados

Outro gráfico que também não deve apresentarnenhuma estrutura é o diagrama de dispersão dos valores ajustados versus os resíduos do modelo.

plot(reta1$fitted,reta1$residuals,main=“Valoresajustados versus resíduos”)

Page 34: Análise Exploratória de Dados R – LIG/09 – maio de 2008

Outros critériosOutros critérios

Construa o diagrama de pontos dos resíduos e o diagrama de dispersão dos resíduos versus valoresajustados para os outros dois ajustes deste exemplo(reta2 e reta3).

Page 35: Análise Exploratória de Dados R – LIG/09 – maio de 2008

Exemplo 3: Contas de energia

Os dados a seguir referem-se à temperatura média mensal e a quantidade de energia elétrica (em $) na conta mensal. Os dados foram armazenados no arquivo energia.txtos nomes das variáveis são data, temp e conta.

Fonte: Rossman & Chance (1998). Workshop Statistics: Discovery with data and Minitab. Springer. (Capítulo 9, pg. 159).

Page 36: Análise Exploratória de Dados R – LIG/09 – maio de 2008

Contas de energia (cont.)

Antes de examinar a relação entre temperatura média e conta de energia, examine a distribuição dos dados referentes a contas de energia. Descreva a forma da distribuição dos valores das contas.Construa o diagrama de dispersão de temperatura versus conta e avalie uma possível associação positiva ou negativa entre estas variáveis.

Page 37: Análise Exploratória de Dados R – LIG/09 – maio de 2008
Page 38: Análise Exploratória de Dados R – LIG/09 – maio de 2008
Page 39: Análise Exploratória de Dados R – LIG/09 – maio de 2008

Contas de energia (cont.)

Observe que em regiões com temperaturas muito baixas, diferente de regiões quentes, o consumo de energia é maior quanto menor for a temperatura!

Calcule a correlação entre temperatura e conta de energia.

Obtenha as retas de mínimos quadrados, lms e lts para estes dados.

Page 40: Análise Exploratória de Dados R – LIG/09 – maio de 2008

> cor(dados$temp,dados$conta)

[1] -0.6883143

reta1=lm(dados$conta~dados$temp)

Page 41: Análise Exploratória de Dados R – LIG/09 – maio de 2008
Page 42: Análise Exploratória de Dados R – LIG/09 – maio de 2008

Coefficients:(Intercept) dados$temp 55.0286 -0.2112

Modelo ajustado:

Conta=55.0286-0.2112x(temperatura)

Page 43: Análise Exploratória de Dados R – LIG/09 – maio de 2008

Contas de energia (cont.)

Usando a reta de mínimos quadrados, determine o resíduo e o valor ajustado para o mês de março de 1992.Faça um boxplot dos resíduos da reta de mínimos quadrados e verifique se há algum ponto exterior. Em caso afirmativo, identifique qual a data a que este resíduo se refere.

Page 44: Análise Exploratória de Dados R – LIG/09 – maio de 2008

> reta1$residuals[12] 12 -1.937377 > reta1$fitted[12] 12 46.36738

12 mar/92: temp=41, conta=44.43

Page 45: Análise Exploratória de Dados R – LIG/09 – maio de 2008
Page 46: Análise Exploratória de Dados R – LIG/09 – maio de 2008

É possível verirficar que a observação cujo resíduo é um ponto exterior no boxplot é a de julho de 1993.

Page 47: Análise Exploratória de Dados R – LIG/09 – maio de 2008

Contas de energia (cont.)

Faça um dotchart dos resíduos e comente sobre a forma do mesmo. “Um modelo é adequado entre outras coisas, se o diagrama de pontos dos resíduos não apresentar nenhum tipo de estrutura”.De acordo com a afirmação anterior, você diria que o modelo é adequado?

Page 48: Análise Exploratória de Dados R – LIG/09 – maio de 2008
Page 49: Análise Exploratória de Dados R – LIG/09 – maio de 2008
Page 50: Análise Exploratória de Dados R – LIG/09 – maio de 2008

Parece que nessa figura os resíduos tendem a ser positivos nos extremos e negativos no meio. Talvez o modelo linear não seja adequado nesse caso.

Page 51: Análise Exploratória de Dados R – LIG/09 – maio de 2008

Retas robustasRetas robustas

Investigue o comportamento dos resíduos Investigue o comportamento dos resíduos para os critérios lms e lts.para os critérios lms e lts.