análise exploratória de dados r – lig/11 – 06 de junho de 2006

70
Análise Análise Exploratória de Exploratória de Dados Dados R – LIG/11 – 06 de junho R – LIG/11 – 06 de junho de 2006 de 2006

Upload: internet

Post on 22-Apr-2015

108 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Análise Exploratória de Análise Exploratória de DadosDados

R – LIG/11 – 06 de junho de 2006R – LIG/11 – 06 de junho de 2006

Page 2: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

ObjetivosObjetivos

representar graficamente as duas representar graficamente as duas variáveis combinadas;variáveis combinadas;

definir e calcular uma medida de definir e calcular uma medida de associação entre as variáveis.associação entre as variáveis.

Análise bivariada: uma variável qualitativa e uma quantitativa:

Page 3: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Exemplo 1Exemplo 1 Os dados referem-se ao exemplo 2.1 do Os dados referem-se ao exemplo 2.1 do

livro-texto (Bussab e Morettin, pag. 11)livro-texto (Bussab e Morettin, pag. 11) Arquivo: ciaMB.txt Arquivo: ciaMB.txt Conteúdo: informações sobre estado civil, Conteúdo: informações sobre estado civil,

grau de instrução, número de filhos, salário grau de instrução, número de filhos, salário (expresso como fração do salário mínimo), (expresso como fração do salário mínimo), idade (medida em anos e meses) e idade (medida em anos e meses) e procedência de 36 empregados da seção de procedência de 36 empregados da seção de orçamentos da Companhia MB.orçamentos da Companhia MB.

Page 4: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Exemplo 1: nomes das Exemplo 1: nomes das variáveis no arquivovariáveis no arquivo

ecivil: variável nominal cujos níveis são ecivil: variável nominal cujos níveis são solteiro ou casado.solteiro ou casado.

instrucao: variável ordinal cujos níveis são instrucao: variável ordinal cujos níveis são F(Ensino Fundamental), M(Ensino Médio) F(Ensino Fundamental), M(Ensino Médio) e S(Ensino Superior).e S(Ensino Superior).

nfilhos: número de filhos (apenas para os nfilhos: número de filhos (apenas para os funcionários casados), entre os solteiros a funcionários casados), entre os solteiros a informação está como NA.informação está como NA.

Page 5: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Exemplo 1: nomes das Exemplo 1: nomes das variáveis no arquivovariáveis no arquivo

sal: salário expresso como fração do sal: salário expresso como fração do salário mínimosalário mínimo

idadea: idade em anos completosidadea: idade em anos completos idadem: mesesidadem: meses rp: região de procedência (interior, capital rp: região de procedência (interior, capital

e outros).e outros).

Page 6: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Exemplo 1:salário versus nível Exemplo 1:salário versus nível de instruçãode instrução

Suponha que estejamos interessados em Suponha que estejamos interessados em analisar o comportamento dos salários analisar o comportamento dos salários dentro de cada nível de instrução, ou seja, dentro de cada nível de instrução, ou seja, investigar o comportamento conjunto das investigar o comportamento conjunto das variáveis variáveis salsal e e instrucaoinstrucao. .

Para facilitar, vamos primeiro ordenar os Para facilitar, vamos primeiro ordenar os dados numa nova base (dadosord) pela dados numa nova base (dadosord) pela variável instrução.variável instrução.

Page 7: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Ordenando por instruçãoOrdenando por instrução

dados=read.table(“http://www.im.ufrj.br/~flavia/aed06/ciadados=read.table(“http://www.im.ufrj.br/~flavia/aed06/ciaMB.txt”,header=T)MB.txt”,header=T)

indice=order(dados$instrucao)indice=order(dados$instrucao) dadosord=dados[indice,]dadosord=dados[indice,] table(dados$instrucao)table(dados$instrucao) F M S

12 18 6

Logo, em dadosord as observações de 1 a 12 são de empregados com Ensino Fundamental, de 13 a 30 com Ensino Médio e de 31 a 36 com Ensino Superior.

Page 8: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

ecivil instrucao filhos sal idadea idadem rp

1 solteiro F NA 4.00 26 3 interior2 casado F 1 4.56 32 10 capital3 casado F 2 5.25 36 5 capital5 solteiro F NA 6.26 40 7 outra6 casado F 0 6.66 28 0 interior7 solteiro F NA 6.86 41 0 interior8 solteiro F NA 7.39 43 4 capital12 solteiro F NA 8.46 27 11 capital14 casado F 3 8.95 44 2 outra18 casado F 2 9.80 39 7 outra23 solteiro F NA 12.00 41 0 outra27 solteiro F NA 13.85 46 7 outra4 solteiro M NA 5.73 20 10 outra9 casado M 1 7.59 34 10 capital10 solteiro M NA 7.44 23 6 outra11 casado M 2 8.12 33 6 interior13 solteiro M NA 8.74 37 5 outra15 casado M 0 9.13 30 5 interior16 solteiro M NA 9.35 38 8 outra17 casado M 1 9.77 31 7 capital20 solteiro M NA 10.76 37 4 interior21 casado M 1 11.06 30 9 outra22 solteiro M NA 11.59 34 2 capital25 casado M 2 13.23 32 5 interior26 casado M 2 13.60 35 0 outra28 casado M 0 14.69 29 8 interior29 casado M 5 14.71 40 6 interior30 casado M 2 15.99 35 10 capital32 casado M 1 16.61 36 4 interior35 casado M 2 19.40 48 11 capital19 solteiro S NA 10.53 25 8 interior24 casado S 0 12.79 26 1 outra31 solteiro S NA 16.22 31 5 outra33 casado S 3 17.26 43 7 capital34 solteiro S NA 18.75 33 7 capital36 casado S 3 23.30 42 0 interior

dadosord

observações de 1 a 12 em dadosord

observações de 13 a 30 em dadosord

observações de 31 a 36 em dadosord

Page 9: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Medidas resumo por nível de Medidas resumo por nível de instruçãoinstrução

Vamos começar descrevendo o comportamento dos salários por nível de instrução, a partir das estatísticas resumo dentro de cada nível.

sink(“a:\\relatorio1.txt”) #gera um relatório no disquete“Comportamento de salários para Ensino Fundamental”summary(dadosord$sal[1:12])“Desvio-padrão:”sd(dados$sal[1:12])“Comportamento de salários para Ensino Médio”summary(dadosordsal[13:30])“Desvio-padrão:”sd(dadosord$sal[13:30])“Comportamento de salários para Ensino Superior”summary(dadosord$sal[31:36])“Desvio-padrão:”sd(dadosord$sal[31:36])sink() #fecha o relatório

Page 10: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Lista de comandosLista de comandos

source(“http://www.im.ufrj.br/~flavia/source(“http://www.im.ufrj.br/~flavia/aed06/instrusal.txt”)aed06/instrusal.txt”)

O conteúdo será gravado no arquivo O conteúdo será gravado no arquivo relatorio1.txt no disquete no drive A relatorio1.txt no disquete no drive A

Se você preferir, edite o arquivo Se você preferir, edite o arquivo instrusal.txt e na primeira linha altere o instrusal.txt e na primeira linha altere o endereço e/ou o nome do arquivo que endereço e/ou o nome do arquivo que conterá os resultados.conterá os resultados.

Page 11: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

[1] "Comportamento de salários para Ensino Fundamental" Min. 1st Qu. Median Mean 3rd Qu. Max. 4.000 6.008 7.125 7.837 9.163 13.850 desvio-padrão: 2.956464

[1] "Comportamento de salários para Ensino Médio" Min. 1st Qu. Median Mean 3rd Qu. Max. 5.730 8.838 10.910 11.530 14.420 19.400 desvio-padrão: 3.715144

[1] "Comportamento de salários para Ensino Superior" Min. 1st Qu. Median Mean 3rd Qu. Max. 10.53 13.65 16.74 16.47 18.38 23.30 desvio-padrão: 4.502438

Page 12: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

ResumindoResumindoResumindoResumindo

nível fundamental médio superiormínimo 4,00 5,73 10,53Q1 6,01 8,84 13,65Q2 7,12 10,91 16,74Q3 9,16 14,42 18,38máximo 13,85 19,40 23,30média 7,84 11,53 16,47desvio padrão 2,96 3,72 4,50

Percebe-se claramente que as medidas de posição crescem conforme aumenta o nível de instrução.

Page 13: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Gráfico de salário versus nível Gráfico de salário versus nível de instruçãode instrução

Quando se dispõe de um par de variáveis, onde uma é qualitativa e outra é quantitativa, é comum representar o comportamento conjunto delas usando-se boxplots das distribuições das variáveis quantitativas, segundo as respostas da variável qualitativa.

No R podemos usar a função já conhecida plot indi-cando primeiro o vetor que contém a variável qualitativa.

Page 14: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Gráfico de salário versus nível Gráfico de salário versus nível de instrução (1)de instrução (1)

plot(dados$instrucao,dados$sal,main="Box-plots de salário segundo o nível de instrução")

Page 15: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Comportamento dos salários sem Comportamento dos salários sem

discriminar por nível de instrução (todos)discriminar por nível de instrução (todos) summary(dadosord$sal) Min. 1st Qu. Median Mean 3rd Qu. Max. 4.000 7.553 10.160 11.120 14.060 23.300 sd(dados$sal)[1] 4.587458

nível todos fundamental médio superiormínimo 4,00 4,00 5,73 10,53Q1 7,55 6,01 8,84 13,65Q2 10,16 7,12 10,91 16,74Q3 14,06 9,16 14,42 18,38máximo 23,30 13,85 19,40 23,30média 11,12 7,84 11,53 16,47desvio padrão 4,59 2,96 3,72 4,50

Ver tabela 2

Page 16: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

boxplot(dados$sal,dadosord$sal[1:12],dadosord$sal[13:30],dadosord$sal[31:36],names=c("Todos","F","M","S"))

Page 17: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

ComentárioComentário

É possível perceber, a partir destes dados É possível perceber, a partir destes dados e gráficos, uma dependência entre salário e gráficos, uma dependência entre salário e nível de instrução:e nível de instrução:

o salário tende a ser maior conforme o salário tende a ser maior conforme

é maior a escolaridade do empregado.é maior a escolaridade do empregado.

Page 18: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Exemplo 2: salário versus Exemplo 2: salário versus região de procedênciaregião de procedência

Vamos agora analisar o comportamento Vamos agora analisar o comportamento dos salários dentro de cada região de dos salários dentro de cada região de procedência, ou seja, investigar o procedência, ou seja, investigar o comportamento conjunto das variáveis comportamento conjunto das variáveis cujos nomes na base de dados são cujos nomes na base de dados são salsal e e rprp. .

Para facilitar, vamos primeiro ordenar os Para facilitar, vamos primeiro ordenar os dados numa nova base (dadosrp) pela dados numa nova base (dadosrp) pela variável rp.variável rp.

Page 19: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Ordenando por Região de Ordenando por Região de ProcedênciaProcedência

indice=order(dados$rp)indice=order(dados$rp) dadosrp=dados[indice,]dadosrp=dados[indice,] table(dados$rp)table(dados$rp)

capital interior outra 11 12 13

Logo, em dadosrp as observações de 1 a 11 são de empregados cuja procedência é a capital, de 12 a 23 é o interior e de 24 a 36 são outras regiões.

Page 20: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Medidas resumo por região de Medidas resumo por região de procedênciaprocedência

sink(“a:\\relatoriorp.txt”) #abre arquivo que conterá os resultados

“Comportamento de salários para Capital”summary(dadosrp$sal[1:11])‘’Desvio-padrão:’’sd(dadosrp$sal[1:11])“Comportamento de salários para Interior”summary(dadosrp$sal[12:23])‘’Desvio-padrão:’’sd(dadosrp$sal[12:23])“Comportamento de salários para Outras”summary(dadosrp$sal[24:36])‘’Desvio-padrão:’’sd(dadosrp$sal[24:36])sink() # fecha arquivo

Page 21: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Lista de comandosLista de comandos

source(“http://www.im.ufrj.br/~flavia/source(“http://www.im.ufrj.br/~flavia/aed06/rpsal.txt”)aed06/rpsal.txt”)

O conteúdo será gravado no arquivo O conteúdo será gravado no arquivo relatoriorp.txt no disquete no drive A relatoriorp.txt no disquete no drive A

Se você preferir, edite o arquivo rpsal.txt e Se você preferir, edite o arquivo rpsal.txt e na primeira linha altere o endereço e/ou o na primeira linha altere o endereço e/ou o nome do arquivo que conterá os nome do arquivo que conterá os resultados.resultados.

Page 22: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

[1] "Comportamento de salários para Capital" Min. 1st Qu. Median Mean 3rd Qu. Max. 4.56 7.49 9.77 11.46 16.63 19.40 desvio-padrão: 5.476653

[1] "Comportamento de salários para Interior" Min. 1st Qu. Median Mean 3rd Qu. Max. 4.000 7.805 10.650 11.550 14.700 23.300 desvio-padrão: 5.296055

[1] "Comportamento de salários para Outras" Min. 1st Qu. Median Mean 3rd Qu. Max. 5.73 8.74 9.80 10.45 12.79 16.22 desvio-padrão: 3.145453

Page 23: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Resumindo: salário versus região Resumindo: salário versus região de procedênciade procedência

região todos Capital Interior Outros

mínimo  4,00 4,56 4,00 5,73

Q1 7,55  7,49 7,81 8,74

Q2 10,16  9,77 10,65 9,80

Q3 14,06  16,63 14,70 12,79

máximo 23,30  19,40 23,30 16,22

média 11,12  11,46 11,55 10,45

desvio-padrão 4,59  5,48 5,30 3,14

Volta

Page 24: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Gráfico de salário versus região Gráfico de salário versus região de procedênciade procedência

plot(dados$rp,dados$sal,main="Box-plots de salário segundo a região de procedência")

Page 25: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Comportamento dos salários sem Comportamento dos salários sem

discriminar por nível de instrução (todos)discriminar por nível de instrução (todos)

boxplot(dados$sal,dadosrp$sal[1:11],dadosrp$sal[12:23],dadosrp$sal[24:36],names=c("Todos",”Capital",”Interior”,”Outras"))

Page 26: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

ComentárioComentário

É possível perceber, a partir destes dados É possível perceber, a partir destes dados e gráficos que não há uma relação bem e gráficos que não há uma relação bem definida entre salário e região de definida entre salário e região de procedência.procedência.

Os salários parecem estar mais Os salários parecem estar mais relacionados com o nível de instrução do relacionados com o nível de instrução do que com a região de procedência.que com a região de procedência.

Page 27: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

ProblemaProblema Como quantificar a dependência entre Como quantificar a dependência entre

estas variáveis?estas variáveis? No caso de duas variáveis quantitativas No caso de duas variáveis quantitativas

usa-se a correlação.usa-se a correlação. No caso de duas variáveis qualitativas No caso de duas variáveis qualitativas

usa-se o qui-quadrado.usa-se o qui-quadrado. O que usar no caso de uma variável O que usar no caso de uma variável

qualitativa e uma quantitiativa?qualitativa e uma quantitiativa?

Page 28: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Medida de dependência: uma variável Medida de dependência: uma variável qualitativa e uma quantitativaqualitativa e uma quantitativa

Vamos usar as variâncias dentro de cada Vamos usar as variâncias dentro de cada categoria de resposta da variável categoria de resposta da variável qualitativa e a variância global, para definir qualitativa e a variância global, para definir uma medida de associação entre uma uma medida de associação entre uma variável qualitativa e uma quantitativa.variável qualitativa e uma quantitativa.

Page 29: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Medida de dependência: uma variável Medida de dependência: uma variável qualitativa e uma quantitativa (1)qualitativa e uma quantitativa (1)

Se a variância dentro de cada categoria Se a variância dentro de cada categoria de resposta for pequena e menor do que a de resposta for pequena e menor do que a global, significa que a variável qualitativa global, significa que a variável qualitativa melhora a capacidade de previsão da melhora a capacidade de previsão da variável quantitativa e, portanto, existe variável quantitativa e, portanto, existe uma relação entre as duas variáveis.uma relação entre as duas variáveis.

Ver tabela 1

Page 30: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Instrução versus salário Região de procedência versus salário

Parece haver uma melhora na capacidadede previsão de salário, segundo o nível deinstrução.

Não parece haver melhora na capacidadede previsão de salário, segundo a regiãode procedência.

Page 31: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Medida de dependência: uma variável Medida de dependência: uma variável qualitativa e uma quantitativa (2)qualitativa e uma quantitativa (2)

Observe que para as variáveis salário e Observe que para as variáveis salário e instrução, as variâncias dentro de cada instrução, as variâncias dentro de cada nível são menores do que a variância nível são menores do que a variância global: global: var(dados$sal) # variância global de salários21.04477var(dadosord$sal[1:12]) #var. de salários para Ens. Fund. 8.740679var(dadosord$sal[13:30]) #var. de salários para Ens. Médio 13.80230var(dadosord$sal[31:36]) #var. de salários para Ens. Sup. 20.27195

Page 32: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Medida de dependência: uma variável Medida de dependência: uma variável qualitativa e uma quantitativa (3)qualitativa e uma quantitativa (3)

Para as variáveis sal e rp, vemos que as Para as variáveis sal e rp, vemos que as variâncias dentro de cada região de variâncias dentro de cada região de procedência não são menores do que a procedência não são menores do que a global: global: var(dados$sal) # variância global de salários21.04477 var(dadosrp$sal[1:11]) #var. de salários para capital 29.99373var(dadosrp$sal[12:23]) #var. de salários para interior 28.0482var(dadosrp$sal[24:36]) #var. de salários para outra 9.893877

Page 33: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Medida de dependência: uma variável Medida de dependência: uma variável qualitativa e uma quantitativa (4)qualitativa e uma quantitativa (4)

Utiliza-se a média das variâncias, porém Utiliza-se a média das variâncias, porém ponderada pelo número de observações ponderada pelo número de observações em cada categoria, ou seja,em cada categoria, ou seja,

k

iiik

ii

k

iii

Snn

n

Sn

SVar1

1

1 )(var1

)(var

)(

Essa variância média será comparada à variância global.

Page 34: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Medida de dependência: uma variável Medida de dependência: uma variável qualitativa e uma quantitativa (5)qualitativa e uma quantitativa (5)

k

ii

k

iii

n

Sn

SVar

1

1

)(var

)(

variância dentro da i-ésima categoria de resposta, i=1,...,k.

Nos dois exemplos trabalhados k foi igual a 3: instrução (F,M,S) e região de procedência (capital,interior,outra).

número de categoriasde resposta da variável qualitativa

número de observaçõesna i-ésima categoriade resposta

=n (total de observações.

Page 35: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Variância dentro de cada grupoVariância dentro de cada grupo

in

jiij

ii xx

nSVar

1

2)(1

)(

Se xij representa o salário do j-ésimo indivíduo da i-ésima categoria de instrução, i=1,2,3 e j=1,...,ni onde ni é o total de indivíduos com escolaridade de nível i, a variância dentro do i-ésimo nível de escolaridade Vari(S) é dada por

onde

in

jij

ii x

nx

1

1 representa a média de salário para o nível de escolaridade i.

Page 36: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

ContinuaçãoContinuação

k

ii

n

jij

k

i

SVar

i

n

jij

ii xx

nxx

nn

nSVar

i

i

i

1

2

11

)(

2

1

)(1

)(11

)(

Fórmula para o cálculo de )(SVar

Page 37: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Variância GlobalVariância Global

k

i

n

jij

i

xxn

SVar1

2

1

)(1

)(

k

i

n

jij

i

xn

x1 1

1

representa a média global.

k

iinn

1

é o número total de observações

Page 38: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Medida de dependência: uma variável Medida de dependência: uma variável qualitativa e uma quantitativa (5)qualitativa e uma quantitativa (5)

)()( SVarSVar

onde Var(S) é a variância global e

)(SVar é a média ponderada das variâncias dentro de cada categoria da variável qualitativa.

Page 39: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

k

ii

n

jij xx

nSVar

i

1

2

1

)(1

)(

k

i

n

jij

i

xxn

SVar1

2

1

)(1

)(

k

i

n

j

k

i

k

i

n

jiiji

n

jiiij

k

i

n

j

x

iiij

k

i

n

jij

i ii

ii

i

xxxxxxxx

xxxxxx

1 1 1 1 11

22

1 1

2

subtrai e soma

1 1

2

))((2)()(

)()(

é igual a zero

Page 40: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

0)()()()(1 1 1

0

1

de depende não

k

i

n

j

k

i

n

jiijiiij

j

i

i i

xxxxxxxx

soma dos desvios da média em cadagrupo.

Page 41: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

residualvariação

1 1

2

gruposaosdevidoiaçãovar

2

1

totalvariação

1 1

2 )()()(

k

i

n

jiij

k

iii

k

i

n

jij

ii

xxxxnxx

)()(1

)(

0

2

1

SVarxxnn

SVark

iii

Portanto,

tal que

)()( SVarSVar

Page 42: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Medida de dependência: uma variável Medida de dependência: uma variável qualitativa e uma quantitativa (6)qualitativa e uma quantitativa (6)

O grau de associação entre as duas variáveis é definido como o ganho relativo na variância, obtido pela introdução da variável qualitativa.

A medida é baseada na decomposição desomas de quadrados vista anteriormente.

totalvariação

residual variação1

totalvariação

grupos aos devida variação

Page 43: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Medida de dependência: uma variável Medida de dependência: uma variável qualitativa e uma quantitativa (7)qualitativa e uma quantitativa (7)

)(

)(1

)(

)()(

grupos aos devida variação

2

SVar

SVar

SVar

SVarSVarR

Se a média das variâncias for muito parecida com a variância global,

)()( SVarSVar

o ganho relativo na variância será pequeno.

Já se a média das variâncias for bem menor do que a variância global, o ganho relativo na variância será grande.

Page 44: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Medida de dependência: uma variável Medida de dependência: uma variável qualitativa e uma quantitativa (7)qualitativa e uma quantitativa (7)

)(

)(1

)(

)()(2

SVar

SVar

SVar

SVarSVarR

Observe que 0R2 1.

O símbolo R2 é usual em análise de variânciae regressão, tópicos que vão ser abordados nas disciplinas Análise de Regressão e Planejamento de Experimentos.

Quanto mais próximo de 1 for o valor de R2, maior será a associação.

Page 45: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Cálculo de RCálculo de R22

Calcule o R2 para o par salário e instrução.

s=35*var(dados$sal)/36 #variância global de salários com denominador n

s1=11*var(dadosord$sal[1:12])/12 #var. sal. Ens. Fund.s2=17*var(dadosord$sal[13:30])/18 #var. sal. Ens. Médios3=5*var(dadosord$sal[31:36])/6 #var.sal. Ens. Superiorsbarra=(12*s1+18*s2+6*s3)/36 #média pond. variânciasR2=(s-sbarra)/s #cálculo de R2

R2 0.4133

Dizemos que 41,33% da variação total do salário é explicada pela variável instrução.

Page 46: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Tabela para o cálculo de RTabela para o cálculo de R22

Nível F M S total

soma simples 94.04 207.51 98.85 400.40

soma de quadradossimples 833.11 2626.88 1729.91 5189.90

ni 12 18 6 36

média 7.84 11.53 16.48 11.12

soma de quadrados corrigida pela média 96.15 234.64 101.36 736.57

432.15

Variação totalVariação residual

Page 47: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Cálculo de RCálculo de R2 2 (continuação)(continuação)

4133,0736,57

304,42

736,57

432,1512 R

Page 48: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Cálculo de RCálculo de R22

Calcule o R2 para o par salário e região de procedência.

s=35*var(dados$sal)/36 #variância global de salários com denominador n

s1=10*var(dadosrp$sal[1:11])/11#capitals2=11*var(dadosrp$sal[12:23])/12#interiors3=12*var(dadosrp$sal[24:36])/13#outrasbarra=(11*s1+12*s2+13*s3)/36R2=(s-sbarra)/s

R2 0.0127Dizemos que apenas 1,27% da variabilidade dos saláriosé explicada pela região de procedência.

Page 49: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Tabela para o cálculo de RTabela para o cálculo de R22

Região capital interior outra total

soma simples 126.01 138.60 135.79 400.40

soma de quadrados simples 1743.44 1909.36 1537.11 5189.90

ni 11 12 13 36

média 11.46 11.55 10.45 11.12

soma de quadrados corrigida 299.94 308.53 118.73 736.57

727.19

Page 50: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Cálculo de R2 (continuação)Cálculo de R2 (continuação)

0,0127736,57

9,37

736,57

727,1912 R

Page 51: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

ObservaçãoObservação

A comparação dos valores de A comparação dos valores de RR2 2 em em cada exemplo confirma comentário cada exemplo confirma comentário anterior de que há uma relação entre anterior de que há uma relação entre salário e instrução e, que entre salário e instrução e, que entre salário e região de procedência, não salário e região de procedência, não há relação.há relação.

Page 52: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Usando funções do Usando funções do RR para para calcular o Rcalcular o R22

No R, o comando aov(dados$sal~dados$instrucao), gerará a seguinte tabela:

Terms: dados$instrucao ResidualsSum of Squares 304.4206 432.1463Deg. of Freedom 2 33

4133.01463.4324206.304

4206.304

totalvariação

2

R

é a variação devido aos grupos – numerador de R2

é a variaçãoresidual

Logo,

Page 53: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Salário versus região de Salário versus região de procedênciaprocedência

aov(dados$sal~dados$rp)

Logo,

0127.01940.7273728.9

3728.92

R

Terms: dados$rp ResidualsSum of Squares 9.3728 727.1940Deg. of Freedom 2 33

Page 54: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Revendo as fórmulas Revendo as fórmulas

k

i

k

i

n

jiij

k

iii

n

jij

ii

xxxxnxx1 1 1

2

1

22

1)()()(

Decomposição da variação total – soma de quadrados total - SQ

variação total - SQTot

variação residual - SQRes

variação devidaaos grupos – SQExp

Page 55: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

totalvariação

residual variação1

)(

)(

1

totalvariação

grupos aos devido variação

)(

)(

)(

)()(

1

2

1

1 1

2

2

1

2

1

2

12

1

2

1

1 1 1

22

12

k

i

n

jij

k

i

n

jiij

k

i

n

jij

k

iii

k

i

n

jij

k

i

k

i

n

jiij

n

jij

i

i

i

i

ii

xx

xx

R

xx

xxn

R

xx

xxxx

R

Page 56: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Exercício 1Exercício 1Calcule o grau de associação entre as variáveis estado civil e idade (em anos completos) nos dados da companhia MB. > indice=order(dados$ecivil)

> dadosec=dados[indice,]> table(dados$ecivil) casado solteiro 20 16 > s=35*var(dados$idadea)/36> s1=19*var(dadosec$idadea[1:20])/20> s2=15*var(dadosec$idadea[21:36])/16> sbarra=(20*s1+16*s2)/36> R2=(s-sbarra)/s> R2[1] 0.0090952

Sugestão:

R.: O estado civil explica apenas 0,9% da variabilidade total da idade.

Page 57: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Exercício 1 (cont.)Exercício 1 (cont.)

Alternativamente, aov(dados$idadea~dados$sal)

Terms: dados$ecivil ResidualsSum of Squares 14.45 1574.30Deg. of Freedom 1 34

R2=14.45/(1574.3+14.45)> R2[1] 0.0090952

Page 58: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006
Page 59: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006
Page 60: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Exercício 2Exercício 2

Voltando aos dados da pesquisa de Voltando aos dados da pesquisa de telemarketing (telemark.txt), investigue telemarketing (telemark.txt), investigue possíveis dependências entre os possíveis dependências entre os seguintes pares de variáveis:seguintes pares de variáveis:

cia e usocia e uso renda e usorenda e uso instrucao e usoinstrucao e uso idade e uso.idade e uso.

Page 61: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006
Page 62: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

aov(tel$uso~tel$cia)Call: aov(formula = tel$uso ~ tel$cia)

Terms: tel$cia ResidualsSum of Squares 17905.1 584990.0Deg. of Freedom 1 998

R2=17905.1/(17905.1+584990)> R2[1] 0.02969853

R.: A Companhia explica apenas cerca de 3% da variabilidade total da variável uso.

Page 63: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Renda versus usoRenda versus uso

Page 64: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Renda versus usoRenda versus usoCall: aov(formula = tel$uso ~ tel$renda)

Terms: tel$renda ResidualsSum of Squares 19314.2 387447.2Deg. of Freedom 6 778

> R2=19314.2/(19314.2+387447.2)> R2[1] 0.04748287

R.: A faixa de renda explica apenas cerca de 4,7% da variabilidade total da variável uso.

Page 65: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Instrução e usoInstrução e uso

Page 66: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Instrução e usoInstrução e uso> aov(tel$uso~tel$instrucao)Call: aov(formula = tel$uso ~ tel$instrucao)Terms: tel$instrucao ResidualsSum of Squares 25333.6 547578.7Deg. of Freedom 5 959

> R2=25333.6/(25333.6+547578.7)> R2[1] 0.04421898

R.: A escolaridade explica apenas cerca de 4,4% da variabilidade total da variável uso.

Page 67: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Idade e usoIdade e uso

Page 68: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Idade e usoIdade e usoCall: aov(formula = tel$uso ~ tel$idade)

Terms: tel$idade ResidualsSum of Squares 18638.8 559852.2Deg. of Freedom 5 961

R2=18638.8/(18638.8+559852.2)> R2[1] 0.03221969

R.: A idade explica apenas cerca de 3,2% da variabilidade total da variável uso.

Page 69: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

ConclusãoConclusão

Pelas análises feitas, não percebe-se Pelas análises feitas, não percebe-se nenhuma dependência entre a variável nenhuma dependência entre a variável intensidade de uso do telefone e as intensidade de uso do telefone e as variáveis cia, renda, idade e escolaridade.variáveis cia, renda, idade e escolaridade.

Page 70: Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006

Funções do Funções do R R usadas na aula de hoje:usadas na aula de hoje:

read.tableread.table orderorder sinksink summarysummary sdsd

varvar plotplot boxplotboxplot aov (aov (aanalysis nalysis oof f

vvariance)ariance)