anÁlise exploratÓria de dados r – histograma / medidas de posição e dispersão

Post on 21-Apr-2015

104 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

ANÁLISE EXPLORATÓRIA DE DADOS

R – Histograma / Medidas de Posição e Dispersão

Objetivos:

trabalhar com dados quantitativos contínuos:

especificar intervalos de classe; construir histogramas; construir mais de um gráfico na mesma

janela; definir as medidas: média, mediana e moda

Exemplo 1: Tipo sangüíneo, peso (em Kg) e altura (em cm).

A 62 164AB 83 163AB 62 176AB 64 177AB 75 166

. . .

. . .

. . .O 70 182O 72 170AB 94 189AB 75 175AB 80 154B 78 172B 71 171B 76 166B 82 143B 78 169

Forma dos dados na planilhacom 100 linhas e três colunas.

A base de dados que será trabalhada hoje contém a informação de 100 indivíduossobre tipo sangüíneo, peso (kg)e altura (cm).

arquivo: m:\\aed\\dados1.txt

Fonte: dados fictícios.

Exemplo (continuação)

Os dados deste exemplo podem ser obtidos como:dados<-read.table(“m:\\aed\\dados1.txt”)

Observe que aqui, não usamos o argumento header=T, pois osnomes das variáveis não estão no arquivo de dados.

Mas, se preferirmos, podemos definir os nomes das variáveisem dados.

names(dados)<-c(“tsangue”,”peso”,”altura”)

Acesso aos valores

Assim, você pode se referir às colunas desta base tanto usando dados[,n], em que n é o número da coluna desejada, como dados$nomedavariável.

Por exemplo, para ver o conteúdo da coluna 1, podemos tanto usar dados[,1] como dados$tsangue.

VARIÁVEIS QUANTITATIVAS

Veremos agora como construir a distribuição de freqüências de uma variável quantitativa.

Para isso, usaremos os dados do exemplo referentes ao peso e à altura dos indivíduos.

VARIÁVEIS QUANTITATIVAS

Se você pedir table(dados[,2]) ou table(dados[,3]) o efeito da saída será quase que reproduzir os valores observados de forma ordenada.

table(dados[,2])57.1 59 61.4 61.9 62.1 62.4 62.8 63.3 63.9 64.2 64.8 66.1 66.3 66.7 67.6 67.8 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 68 68.1 68.9 69.4 69.9 70.1 70.2 70.4 70.9 71.2 71.3 71.5 71.7 71.9 72.1 72.2 1 2 1 1 1 2 2 1 3 1 1 2 1 2 1 1 72.6 73.2 73.4 73.7 74.1 74.6 74.9 75.2 75.3 76 76.3 76.5 76.9 77 77.5 77.6 2 2 1 2 1 4 1 1 1 2 1 1 2 1 1 1 77.8 77.9 78.2 78.4 78.5 78.6 79.1 79.5 79.8 80 80.5 80.6 80.7 80.8 80.9 81.1 2 1 1 1 1 1 2 1 1 1 1 1 3 1 1 1 81.2 81.3 81.7 82.2 82.4 82.7 82.8 83.2 84.3 85 86 86.1 86.7 94.4 95.8 1 1 2 1 1 1 1 1 1 1 1 2 1 1 1

VARIÁVEIS QUANTITATIVAS

Portanto, o comando table não é, em geral, útil para dados contínuos. Ele talvez poderá ser útil se estivermos trabalhando com uma variável discreta cuja quantidade de respostas possíveis é pequena.

VARIÁVEIS QUANTITATIVAS

Vimos que no caso de dados contínuos, há a necessidade de se definir primeiro intervalos de classe para depois construir a tabela de freqüências e, então, usá-la para construir o histograma.

O R possui uma função que pode gerar esta distribuição de forma automática.

VARIÁVEIS QUANTITATIVAS

Esta função também tem a flexibilidade de nos permitir fixar os intervalos ou sugerir o número de intervalos.

Esta mesma função também gera o histograma dos dados e seu nome no R é hist.

Uso da função histPara começar peça a função hist apenas com o argumento obrigatório que é um vetor contendo os valores para os quaisqueremos construir o histograma, isto é, peça hist(dados$peso).

Argumentos da função histArgumentos:x (obrigatório): vetor de valores para os quais deseja-seconstruir o histograma.

breaks (opcional): um entre * vetor fornecendo os limites dos intervalos de classe, * número fornecendo o número de intervalos (é apenas uma sugestão).

freq (opcional): lógica; se `freq=T', o histograma é uma representação da distribuição na escala das freqüências absolutas, se `freq=F', é uma representação na escala da densidade de freqüência relativa, que é definida como a razão entre freqüência relativa e a amplitude da classe.

Exemplo: argumentos breaks e freqhist(dados$peso,breaks=c(50,60,70,80,90,100),freq=F)

Exemplo (continuação)Para melhorar o gráfico podemos definir o título e os rótulos para os eixos ox e oy.

hist(dados$peso,breaks=c(50,60,70,80,90,100),freq=F,main=“Histograma dos pesos”,xlab=“kg”,ylab=“dens.freq.rel”,col=“blue”)

Mudando a escala dos eixos

Comandos xlim e ylim. Para visualizar o eixo 0x de 40 até 110kg,

inclua o argumento xlim=c(40,110). Para visualizar o eixo 0y de 0 até 0.06,

quando freq=F, inclua o argumento ylim=c(0,0.06).

Exemplo (continuação)

hist(dados$peso,breaks=c(50,60,70,80,90,100),freq=F,main="Histograma dos pesos",xlab="Kg",ylab="dens.freq.rel",col="gray",xlim=c(40,110),ylim=c(0,0.06))

O que mudou?freq=F freq=T

Observações

Se os intervalos de classe tiverem amplitudes desiguais, será obrigatório usar o argumento freq=F.

Caso contrário, o R retornará com uma mensagem de erro.

Warning message: the AREAS in the plot are wrong -- rather use `freq=FALSE'! in: plot.histogram(r, freq = freq, col = col, border = border, angle = angle,

Argumentos xlim e ylim

Estes dois argumentos são muito úteis quando queremos comparar diversos histogramas.

Para uma comparação, é necessário trabalhar com escalas iguais.

Outros argumentos

Sugerimos que os demais argumentos da função histsejam explorados por vocês.

Comando par(mfrow=c(l,n))

É possível construir vários histogramas numa única janela de gráfico.

Por exemplo, se quisermos apresentar o histograma das alturas e o histograma dos pesos numa mesma janela, antes de pedir os histogramas, devemos informar que a janela conterá dois gráficos.

Podemos configurar a janela com dois gráficos numa única linha ou dois gráficos numa única coluna.

Comando par(mfrow=c(l,n))

par(mfrow=c(1,2)) # uma linha duas colunas ou par(mfrow=c(2,1)) # duas linhas uma coluna. Depois é só pedir os respectivos histogramas.

par(mfrow=c(1,2)) hist(dados$peso, main="Histograma dos pesos",xlab="Kg",freq=F,ylab="densidade de freq. rel.",ylim=c(0,0.07),xlim=c(50,110)) hist(dados$altura, main="Histograma das alturas",xlab="cm",freq=F,ylab="densidade de freq. rel.",ylim=c(0,0.06),xlim=c(130,200))

par(mfrow=c(2,1)) hist(dados$peso, main="Histograma dos pesos",xlab="Kg",freq=F,ylab="densidade de freq. rel.",ylim=c(0,0.07),xlim=c(50,110)) hist(dados$altura, main="Histograma das alturas",xlab="cm",freq=F,ylab="densidade de freq. rel.",ylim=c(0,0.06),xlim=c(130,200))

Data(islands)

Os dados a seguir fazem parte do elenco de exemplos do R.

Descrição: áreas em milhares de milhas quadradas das maiores massas de terra do mundo (maiores que 10000 milhas quadradas). data(islands)

Formato: vetor rotulado de comprimento 48.

Para mais detalhes vamos usar o help.

help(islands)islands package:base R DocumentationAreas of the World's Major Landmasses (áreas das maiores massas de terra do mundo)

Descrição: contém as áreas em milhares de milhas quadradas das massas de terra, que excedem à 10000 milhas quadradas.

Uso: data(islands)

Formato: está num vetor rotulado de comprimento 48. Os rótulos referem-se ao local.

Fonte: The World Almanac and Book of Facts, 1975, page 406.

Islands Africa Antarctica Asia Australia 11506 5500 16988 2968 Axel Heiberg Baffin Banks Borneo 16 184 23 280 Britain Celebes Celon Cuba 84 73 25 43 Devon Ellesmere Europe Greenland 21 82 3745 840 Hainan Hispaniola Hokkaido Honshu 13 30 30 89 Iceland Ireland Java Kyushu 40 33 49 14 Luzon Madagascar Melville Mindanao 42 227 16 36 etc.

Medidas de posição: média e mediana

A média é a soma dos valores observados sobre o número de observações (média aritmética).

No histograma, ela representa o ponto de equilíbrio.

Mediana

A mediana de uma distribuição de valores é o valor que ocupa a posição central quando os dados estão ordenados.

Exemplo: considere o conjunto cujos valores são 11,23,14,15,16,20 e 21.

Valores ordenados: 11,14,15,16,20,21,23

Mediana

11,14,15,16,20,21,23

Valor que ocupaa posição central

Logo, a mediana deste conjunto é 16.

Média e mediana no R

A função que calcula a média aritmética de um vetor de dados numéricos x é mean(x).

A função mean(x,trim=0.5) também serve para retornar o valor da mediana dos dados no vetor x.

Mas, também, podemos usar a função median(x).

Data(islands): média e mediana

mean(islands) produz 1252.729. median(islands) produz 41 mean(islands,trim=0.5) produz 41. Não é uma mera coincidência os dois

valores acima serem iguais, pois a mediana é o valor que ocupa a posição central quando os dados estão ordenados.

Média e mediana (cont.)

O argumento trim na função mean tem o efeito de “aparar as pontas” quando os dados estão ordenados na fração atribuída a trim, que pode ser um valor de 0 (default) até 0.5.

Observe que quando trim=0.5, depois de “aparar as pontas”, sobra justamente o valor que ocupa a posição central.

top related