tadi – tratamento e análise de dados/informações prof ... · histogramas para cada uma das...

42
Aula - Estatística Descritiva Medidas Resumo Medidas de dispersão e box plot TADI Tratamento e Análise de Dados/Informações Prof. Camilo Rodrigues Neto Hieronymus Bosch (1450 - 1516)

Upload: others

Post on 17-Jul-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

Aula - Estatística Descritiva

• Medidas Resumo

• Medidas de dispersão e box plot

TADI – Tratamento e Análise de Dados/Informações Prof. Camilo Rodrigues Neto

Hieronymus Bosch (1450 - 1516)

Page 2: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

Comparando Dados Quantitativos

Por vezes, queremos comparar duas distribuições de dados quantitativos, para saber se os dados se comportam da mesma forma nos dois casos.

Por exemplo, saber se os pesos dos bebês cujas mães não fizeram exercícios tem uma distribuição igual aos pesos dos bebês das mães que fizeram exercícios.

Uma alternativa é preparar histogramas para cada uma das distribuições. Neste caso, para facilitar a comparação, devemos apresentar os resultados no mesmo gráfico.

Page 3: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

Histogramas para cada uma das distribuições dos bebês

0

0,05

0,1

0,15

0,2

Fre

qu

ên

cia

2000 2600 3200 3800 4400 5000

Peso (g)

Peso dos bebês ao nascer

nenhum 0 0,0162 0,0108 0,0324 0,0649 0,0757 0,1189 0,1459 0,1297 0,1676 0,0919 0,0811 0,0432 0,0162 0,0054 0

algum 0 0 0,0144 0,0253 0,0397 0,0722 0,1227 0,1155 0,1841 0,1588 0,1227 0,0722 0,0542 0,0108 0,0072 0

2000 2200 2400 2600 2800 3000 3200 3400 3600 3800 4000 4200 4400 4600 4800 5000

Page 4: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

Histograma conjunto das distribuições dos pesos dos bebês

Peso dos bebês ao nascer

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

2000 2600 3200 3800 4400 5000

Peso (g)

Fre

qu

ên

cia

algum

nenhum

Page 5: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso
Page 6: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso
Page 7: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

Histograma por pontos unidos para cada uma das distribuições dos bebês

Pesos dos bebês ao nascer

0

0,05

0,1

0,15

0,2

2000 2500 3000 3500 4000 4500 5000

Pesos (g)

Fre

quência

Rela

tiva

nenhum

algum

Page 8: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

Outro exemplo

Em uma indústria, existem duas máquinas que são fundamentais para a

operação normal.

No entanto, ambas as máquinas são muito delicadas e constantemente

requerem reparos.

Visando poder se preparar melhor para estas eventualidades, o

gerente anotou o tempo transcorrido (em dias) entre os reparos mais

recentes, para a máquina A e a máquina B:

● A: 12 58 9 45 32 68 97 255 45 68 12 94 36 62 78 42

84 164 26 90 172

● B: 122 63 180 96 49 78 95 82 63 94 88 80 62 71 60

91 65

Page 9: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

Histogramas para cada uma das distribuições

012345678

Freqüência

0 25 50 75 100 125 150 175 200 225 250 275

Dias

Dias entre paradas

Máquina B 0 0 1 6 8 1 0 0 1 0 0 0

Máquina A 0 3 6 4 5 0 0 2 0 0 0 1

0 25 50 75 100 125 150 175 200 225 250 275

Page 10: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

Polígonos de Freqüência: histograma por pontos unidos para cada uma das distribuições

Existem outras alternativas. Ao invés de barras, pode-se utilizar o histograma por pontos unidos para cada máquina.

Dias entre falhas

0

1

2

3

4

5

6

7

8

9

0 50 100 150 200 250 300

Dias

Fre

ên

cia

Máquina B

Máquina A

Atenção, escala em freqüência absoluta só pode se utilizada se o números de eventos, ou observações, for idêntico em ambas as categorias!

Mesmo nível

Page 11: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

Polígonos de Freqüência: freqüência relativa

Em gráficos com freqüência absoluta, se a amostra de um caso for muito maior que a do outro, a comparação fica prejudicada.

Corrigindo e apresentando em termos de freqüência relativa:

Dias entre falhas

0

0,1

0,2

0,3

0,4

0,5

0 50 100 150 200 250 300

Dias

Fre

ên

cia

re

lativa Máquina B

Máquina A

Níveis

diferentes

Page 12: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

Comparando taxas: paradoxo de Simpson

Você está doente e precisa realizar uma cirurgia. Para tanto, você

tem de escolher entre dois hospitais, A e B.

O hospital A afirma, baseado em dados que foram checados e são

verdadeiros, que, dentre os seus paciente, apenas 1 em cada 110

(~1%) morrem, enquanto no hospital B, 1 em cada 50 (2%)

pacientes morrem.

Qual hospital é o melhor quanto a mortalidade?

Você pode afirmar isto com certeza?

Page 13: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

Paradoxo de Simpson

Vamos analisar o que acontece de acordo com o tipo de doença tratada ser grave ou simples:

72/2000

=9/250

=3,6 %

50/1000

=10/200

=5 %

80/4000

=1/50

=2 %

100/11000=1/110

~0,9 %

Total

2000

1000

Doenças graves

72

50

Mortes

8

50

Mortes

8/2000

=1/250

=0,4 %

2000 B

50/10000 =1/200

=0.5 %

10000 A

Doenças simples

Hospital

Page 14: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

Paradoxo de Simpson

No Hospital A, para doenças simples, temos 1 morte a cada 200 casos tratados. No B, 1 morte a cada 250 casos.

Para os casos graves, o Hospital A apresenta uma taxa de mortalidade de 1 em cada 20. O B, 1 em cada 28.

O que você conclui agora?

O hospital A é o pior em ambos os casos!

Page 15: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

Cuidado!

Quando você analisar proporções, a análise só fará sentido se as populações das quais as proporções foram retiradas forem idênticas!

No caso dos hospitais, a taxa de mortalidade no A era menor porque ele trata muito mais casos simples (10 simples para cada grave) do que o B (1 simples para cada grave). Separadas por gravidade, o B é o melhor hospital em qualquer caso.

O paradoxo de Simpson, também conhecido por efeito de Yule-Simpson foi descrito por G. U. Yule in 1903 e depois por E. H. Simpson in 1951.

Ver exemplos adicionais em www.wikipedia.com (procurar por Simpson´s Paradox)

Page 16: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

Caracterização quantitativa de uma distribuição: Quartis

Retornando aos dados salariais temos, dados fora de ordem:

200 11 2,5 5 5 5,5 3 3,5 3 0,4 3,2 5 3 3,2 7,4 6

Dados ordenados (16 indivíduos):

0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4 11 200

• 25% dos dados está abaixo de 3, assim, o Primeiro Quartil é Q1 = 3;

• 50% dos dados está abaixo de 4,25, assim, o Segundo Quartil, que também é a Mediana é Q2 = Md = 4,25;

• 75% dos dados está abaixo de 5,75, assim, o Terceiro Quartil é Q3 = 5,75

Q1 Q2 = Md Q3

Page 17: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

Sumário de 5 números

Podemos descrever uma distribuição de forma resumida fornecendo 5 números apenas: mínimo, Q1, M, Q3, máximo. No exemplo:

Dados ordenados:

0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4 11 200

MIN = 0,4

Q1 = 3,0

Q2 = M = 4,25

Q3 = 5,75

MAX = 200

Page 18: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

24

Sumário de 5 números

Page 19: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

Box plot ou caixa-de-bigodes

• Construa um retângulo a partir da mediana e do primeiro e terceiro quartis.

• Do retângulo para cima segue uma linha até o ponto mais extremo que não ultrapasse q3+1.5 dq

• Do retângulo para baixo segue uma linha até o ponto mais extremo que não ultrapasse q1-1.5 dq

• O box plot dá uma idéia da posição, dispersão, assimetria, caudas e dados discrepantes

Page 20: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso
Page 21: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso
Page 22: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

Questionário respondido em sala de aula: Variável Altura versus Sexo

1,4

1,5

1,6

1,7

1,8

1,9

2

F M

1,75 1,65 Md=Q2

1,71 1,60 Q1

1,62 1,52 MIN

1,82 1,70 Q3

1,90 1,79 MAX

M F SEXO

Page 23: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

Dados sobre rendimentos anuais

0

50

100

150

200

250

300

350

400

450

Fre

qu

ên

cia

0 20000 40000 60000 80000 100000 120000 140000

rendimento anual

MIN=-19.998 Q1=14.000 Média= 34.295,2 Q2=27.479,5 Q3=47.962,5 MAX=319.350

Page 24: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

Quantis: generalizando a idéia de Quartis

Ao invés de fixarmos os percentuais de interesse em 25%, 50% e 75% dos dados, os quartis, podemos trabalhar com um percentual qualquer, ou quantil.

Observando novamente os dados brutos do rendimento, podemos montar uma tabela de freqüências:

Bloco Freqüência % cumulativo

0 116 2,98%

5000 184 7,72%

10000 352 16,77%

15000 401 27,08%

20000 396 37,27%

25000 353 46,35%

30000 296 53,96%

35000 249 60,37%

40000 247 66,72%

45000 215 72,25%

50000 187 77,06%

55000 168 81,38%

60000 130 84,72%

65000 111 87,58%

70000 70 89,38%

75000 57 90,84%

80000 59 92,36%

85000 39 93,36%

90000 37 94,32%

95000 30 95,09%

100000 25 95,73%

Q1

Q2

Q3

Quantil 90

Quantil 95

Page 25: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

0 25000 50000 75000 100000 125000

Salário

Fre

qüência

Quantis: generalizando a idéia de Quartis

Utilizando a coluna de freqüências cumulativas normalizadas podemos montar a distribuição de probabilidade da variável salário, que registra todos os quantis.

Mediana

Q1

Q3

Page 26: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

Dados sobre rendimentos anuais

0

50

100

150

200

250

300

350

400

450

Fre

qu

ên

cia

0 20000 40000 60000 80000 100000 120000 140000

rendimento anual

MIN=-19.998 Q1=14.000 Média= 34.295,2 Q2=27.479,5 Q3=47.962,5 MAX=319.350

100%

50%

0%

Page 27: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

Exercício 1

a. Utilizando algum programa para análise estatística,

calcule o sumário de 5 números para a variável Notas da primeira prova. Faça o gráfico box-plot para as meninas e os meninos. Há variação perceptível entre os dois?

b. Faça um gráfico para as meninas e os meninos com os quantis em intervalos de 20%. O que se pode dizer a respeito da diferença entre os dois ?

Page 28: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

Exercício 1.a: Gráfico dos quartis

quartis das notas tarde

0,0

2,0

4,0

6,0

8,0

10,0

1 2

meninas e meninos

no

tas

quartis das notas noturno

0,0

2,0

4,0

6,0

8,0

10,0

1 2

meninas e meninos

no

tas

Observe a variabilidade entre as classes e os sexos.

Page 29: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

Com o Box-plot é possível visualizar diferentes tipos de distribuições. As distâncias entre as diferentes partes do diagrama permite estimar o desvio padrão, o

skew (tendência ou viés) e identificar outliers. Box-plot com arquivo texto: +-----+-+ * o |-------| + | |---| +-----+-+ +---+---+---+---+---+---+---+---+---+---+ number line 0 1 2 3 4 5 6 7 8 9 10 menor observação = 5 quartil inferior ou primeiro quartil (Q1) = 7 mediana (segundo quartil) = 8.5 quartil superior ou terceiro quartil (Q3) = 9 maior observação = 10 As barras horizontais não devem se estender a mais de 1,5 vezes IRQ os limites da caixa.

+ - média = 8

Intervalo interquartil, IQR = Q3 − Q1 = 2

o – o valor 3.5 é o outlier intermediário,

entre 1.5*(IQR) e 3*(IQR) abaixo de Q1

* – o valor 0.5 é o outlier extremo,

a mais de 3*(IQR) abaixo Q1

O menor valor não é um outlier, é 5

As observações são enviesadas à esquerda,

ou negativamente.

Page 30: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

Exercício 1.b: Quantis com gráfico cumulativo

notas das meninas tarde

0

2

4

6

8

10

12

0 1 2 3 4 5 6 7 8 9 10

notas

Fre

ên

cia

0%

20%

40%

60%

80%

100%

120%

notas dos meninos tarde

0

2

4

6

8

10

12

0 1 2 3 4 5 6 7 8 9 10

notas

Fre

ên

cia

0%

20%

40%

60%

80%

100%

120%

notas das meninas noturno

0

2

4

6

8

10

12

0 1 2 3 4 5 6 7 8 9 10

notas

Fre

ên

cia

0%

20%

40%

60%

80%

100%

120%

notas dos meninos noturno

0

2

4

6

8

10

12

0 1 2 3 4 5 6 7 8 9 10

notas

Fre

ên

cia

0%

20%

40%

60%

80%

100%

120%

O número de estudantes influencia a qualidade dos gráficos

Observe as escalas: são todas as mesmas?

Page 31: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

Desvio Padrão

A medida mais comum de dispersão de um conjunto de dados não é o sumário de 5 números, mas sim o desvio padrão da média definido como a raiz quadrada da variância:

Onde a variância é dada por:

2

1

2

1

2 11)var( xx

nxx

nx

n

i

i

n

i

i

)var(.. xpd

Page 32: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

Calculando o Desvio Padrão

A taxa metabólica de uma pessoa é a taxa na qual o corpo consome

energia. A mensuração da taxa metabólica é importante em estudos

de ganho de peso, dieta e exercícios. A seguir estão listadas as

taxas metabólicas de 7 homens que participaram de um estudo sobre

dietas (as unidades estão em calorias por 24 horas).

1792 1666 1392 1614 1460 1867 1439

Primeiro calculamos a média:

16007

1439186714601614139216661792

x

Page 33: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

Calculando o Desvio Padrão

Para calcularmos o desvio padrão, primeiro montamos a tabela abaixo:

Tem que ser 0 !!!

Page 34: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

Calculando o Desvio Padrão

Agora calculamos a variância:

Finalmente, calculamos o desvio padrão:

7,306957

2148702

20,1757,30695

calorias ao quadrado

calorias

O desvio padrão é mais fácil de interpretar!

Page 35: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

O que significa o desvio padrão ?

Na figura abaixo mostramos a taxa metabólica média, a taxa metabólica de cada um dos indivíduos (pontos azuis) e os desvios de dois deles.

O desvio padrão é uma medida dos desvios típicos independente do sinal destes desvios e colocando mais peso em grandes desvios do que em pequenos.

-175 +175

Page 36: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

População normalmente distribuída

x

Fre

qüênc

ia

μ - média

σ – desvio padrão

68.26 %

95.46 %

99,73 %

Page 37: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

Calculando o desvio padrão a partir de uma tabela de freqüências

O salário de professores de ensino fundamental da rede privada está sendo estudado. A tabela abaixo apresenta os valores, em salários mínimos, obtidos em um levantamento numa certa cidade. Desejamos calcular a média e o desvio padrão da amostra.

70 4 9 18 25 14 Freqüência

total [9, 11] [7, 9) [5, 7) [3, 5) [1, 3) Salário

MÉDIA = (14*2 + 25*4 + 18*6 + 9*8 + 4*10) / 70 = 4,97

S^2 = [14*(2-4,97)^2 + 25*(4-4,97)^2 + 18*(6-4,97)^2 + 9*(8-4,97)^2 + 4*(10-4,97)^2]/ 70 =

= 5

DESVIO PADRÃO = 2,24

Page 38: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

Calculando o desvio padrão a partir de uma tabela de freqüências

2

1

2

1

22 11xnxn

nxxn

nS

J

j

jj

J

j

jj

A variância a partir de uma tabela de freqüência é:

MÉDIA = (14*2 + 25*4 + 18*6 + 9*8 + 4*10) / 70 = 4,97

S^2 = [14*(2-4,97)^2 + 25*(4-4,97)^2 + 18*(6-4,97)^2 + 9*(8-4,97)^2 + 4*(10-4,97)^2]/ 70 =

= 5

DESVIO PADRÃO = 2,24

70 4 9 18 25 14 Freqüência

total [9, 11] [7, 9) [5, 7) [3, 5) [1, 3) Salário

n = 70;

nj = {14,25,18,9,4} com J = 5

Page 39: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

Exercício 3

Estamos estudando o impacto do estágio na obtenção de bons

empregos. Dentre os recém formados e com empregos considerados bons, foi sorteada uma amostra e observado o número de anos de estágio anteriores à formatura.

(a) Calcule a media e a variância;

(b) Para efeito de análise, decidiu-se desprezar os valores que se distanciassem da média amostral por mais de dois desvios padrão (outliers), isto é, só serão considerados os valores no intervalo MÉDIA – 2 DESVIOS PADRÃO até MÉDIA + 2 DESVIOS PADRÃO. Recalcule (a) e comente os resultados.

462 10 45 72 105 147 58 25 Freqüência

Total 6 5 4 3 2 1 0 Anos de estágio

Page 40: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

Exercício 4

O Centro Acadêmico de uma faculdade pretende iniciar uma campanha junto à direção da escola com vistas a melhoria das salas de informática. Para tal, fez uma enquete com todos os alunos e perguntou sobre o número de computadores que cada um tinha em sua residência.

(a) Calcule a média e a variância.

(b) O centro acadêmico argumenta que o ideal é ter uma média de 1 computador por aluno, juntando os 20 da sala de informática da faculdade com os que os alunos têm em casa. Quantos computadores precisariam ser acrescentados à sala para atender o Centro Acadêmico ?

371 8 25 47 135 156 Freqüência

Total 4 3 2 1 0 Computadores

Page 41: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

Exercício 5

As notas finais de uma prova do curso de TADI foram:

7,5,4,5,6,3,8,4,5,4,6,4,5,6,4,6,6,3,8,4,5,4,5,5 e 6 .

(a) Organize os dados, calcule a média a mediana e a moda.

(b) Separa os dados em dois grupos, os aprovados (>= 5) e os

reprovados. Compare o desvio padrão dos dois grupos.

Page 42: TADI – Tratamento e Análise de Dados/Informações Prof ... · Histogramas para cada uma das distribuições dos bebês 0 0,05 0,1 0,15 0,2 a 2000 2600 3200 3800 4400 5000 Peso

Bibliografia

• MAGALHÃES, Marcos N. e LIMA, Antonio C. P. Noções de probabilidade e

estatística. São Paulo: Edusp, 2005, 391 p.

• BUSSAB, Wilton O. e MORETTIN, Pedro A. Estatística básica. São Paulo:

Ed. Saraiva, 2004, 526 p.

• GOULD, Stephen Jay. A mediana não é a mensagem. In: CASTRO, Ricardo.

SIMPLESMENTE, Disponível em: http://simplesmente.com/ Acesso em: 20

set. 2007.

• TUFTE, Edward R., The visual display of quantitative information,

Connecticut: Graphics Press, 2001, 196 p.

• DORIN, Alan. Information Design. In: Multimedia Programming in Java,

Disponível em: http://www.csse.monash.edu.au/~cema/courses/CSE5910/

lectureFiles/lecture3b.htm, Acesso em: 11 jan.2008.

• LUO, Yan. Information and Presentation Styles. In: User Interface Design and

Programming. Disponível em: http://www.evl.uic.edu/aej/422/week02.html,

Acesso em: 5 dez. 2007.