capÍtulo 4 tipos de dados; apresentação dos dados (tabelas, gráficos e medidas)

Post on 17-Apr-2015

113 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

CAPÍTULO 4CAPÍTULO 4

Tipos de dados; Apresentação dos Dados (tabelas, gráficos

e medidas)

Estatística DescritivaEstatística Descritiva

Nesta etapa do curso vamos considerar que os dados já foram efetivamente observados, sejam de uma amostra ou de uma população de elementos. O objetivo básico consistirá em introduzir técnicas que permitam organizar, resumir e apresentar estes dados, de tal forma que possamos interpretá-los à luz dos objetivos da pesquisa. Esta parte do tratamento de dados é chamada de Estatística Descritiva.

Com os dados adequadamente resumidos e apresentados em tabelas e gráficos, poderemos observar aspectos relevantes e começar a delinear hipóteses a respeito da estrutura do fenômeno em estudo. É a chamada Análise Exploratória de Dados. As ferramentas gráficas mais usuais para resumir os dados serão discutidas a seguir.

Análise Exploratória de Dados

Dados EstatísticosDados Estatísticos

Distinguem-se geralmente dois conjuntos de dados: os indivíduos e as informações relativas a esses indivíduos, as variáveis.

a) Indivíduo ou unidade elementar: é a entidade de base sobre a qual o observador realiza um certo número de medições. O conjunto dos indivíduos observados pode ser obtido de uma amostragem ou de uma população inteira.

Exemplo: um paciente, um usuário, um empregado, um dente, uma cidade, um país, um eleitor, etc...

Dados EstatísticosDados Estatísticos

b) Variáveis: conjunto de informações levantadas para cada indivíduo. Por exemplo, no caso de uma pesquisa, as variáveis são as perguntas. Se se trata dos empregados de uma empresa, as variáveis podem ser o salário, o tempo de serviço, o nível de escolaridade, a idade, o sexo, etc...

Dependendo do tipo de variável envolvida, determina-se a técnica apropriada. As variáveis podem ser quantitativas e qualitativas:

Tipos de VariáveisTipos de Variáveis

- Quantitativa: quando seus possíveis valores são assumidos numa escala numérica: salário, idade, altura, peso, etc... Pode-se efetuar as operações algébricas habituais como adição, multiplicação, cálculo de médias, etc...

Pode ser:

•Discreta: resultado de uma contagem;•Contínua: resultado de uma medida.

Tipos de VariáveisTipos de Variáveis

- Qualitativa: quando seus possíveis valores assumem modalidades não numéricas, como sexo, profissão, escolaridade, região, nível hierárquico, etc...

Pode ser:

•Nominal: vários atributos;•Ordinal: variável ordenada (nível hierárquico, nível de satisfação).

Tipos de VariáveisTipos de Variáveis

- Seqüência Temporal: As variáveis são medidas ao

longo do tempo. Podem ser:

•Séries temporais: demanda diária, inflação mensal, cotações diárias, poluição horária

•Dados coletados num tempo determinado: apartamentos vendidos no último mês.

Escala de MediçãoEscala de Medição

• Escala Nominal: valores dão apenas nome a uma categoria ou classe. Ex.: 1 = ES, 2 = RJ, etc

•Escala Ordinal: valores dão nome e ordem a uma categoria e classe. Ex.: 1 = Analfabeto 2 = 1 grau,etc... 1 < 2

•Escala Intervalar: Intervalos iguais com mesmo significado 10-7=3 e 7-4=3

•Escala Proporcional: possui um zero absoluto. Por exemplo...86 é o dobro de 43.

Número de VariáveisNúmero de Variáveis

• Uma única variável: tipo de doença periodontal. Técnicas de resumo da variável.

•Duas variáveis: tipo de doença e sexo. Verificação de relação entre as duas variáveis e possibilidade de prever uma em função da outra.

•Três ou mais variáveis: Verificação de relação entre uma e as outras variáveis e possibilidade de prever uma em função das outras.

Planilha de dadosPlanilha de dados

Indivíduo var1 var2 var3 ......1234

.....

Apresentação dos dadosApresentação dos dados

Para o caso de um número muito grande de dados, devemos representá-los em forma de tabelas e gráficos.

Dependendo do tipo de variável, as tabelas e gráficos são específicos:

Apresentação dos dadosApresentação dos dados

O rg an izaçã o d os D ad os

Q u an tita tivas Q u a lita t ivas

Tab e las

Q u an tita tivas Q u a lita t ivas

G rá ficos

TABELASTABELAS

Variáveis QuantitativasVariáveis Quantitativas

Tabela de freqüências

Consiste em agrupar os dados em classes pré-estabelecidas. As classes são pequenos intervalos mutuamente exclusivos, tais que, quando reunidos, abrangem todo o conjunto de dados.

Tabelas de FreqüênciasTabelas de Freqüências

Em outras palavras, as classes devem ser construídas de tal forma que todo resultado observado pertença a uma e apenas uma classe. Por simplicidade, e para facilitar a interpretação, consideraremos todas as classes com a mesma amplitude.

Tabelas de FreqüênciasTabelas de Freqüências

O número de dados em cada classe é chamado freqüência absoluta. Se tomarmos a percentagem de dados em cada classe estamos nos referindo à freqüência relativa. E a soma das freqüências (absoluta ou relativa) das classes anteriores é chamada freqüência acumulada (absoluta ou relativa respectivamente). A tabela abaixo apresenta um esboço de uma tabela de freqüências:

Tabelas de FreqüênciasTabelas de Freqüências

classes freq. absoluta(fa)

freq. relativa(fr) (%)

freq. acumuladaabsoluta (FA)

freq. acumuladarelativa (FR)

(%)classe 1 ....... .......classe k n = total de dados 100 (%)TOTAL n = total de dados 100(%) - -

Tabelas de FreqüênciasTabelas de Freqüências

O número de classes a ser usado na tabela de freqüências é uma escolha arbitrária. Em geral, usam-se de 5 (cinco) a 20 (vinte) classes, dependendo da quantidade de dados e dos objetivos. Quanto maior o conjunto de dados pode-se usar mais classes.

Tabelas de FreqüênciasTabelas de Freqüências

Uma tabela com poucas classes apresenta a distribuição de forma bastante resumida, podendo deixar de evidenciar algumas características relevantes. Por outro lado, quando se usam muitas classes, a tabela pode ficar muito grande, não realçando aspectos relevantes da distribuição de freqüências. Uma sugestão para o número de classes é tomar, aproximadamente, raiz quadrada de n, onde n é a quantidade de valores observados.

Tabelas de Freqüências: Ex1Tabelas de Freqüências: Ex1Tempo Gasto na feira

70 14,5 14,6

41 8,5 8,6

110 22,8 23,0

151 31,3 31,5

81 16,8 16,9

26 5,4 5,4

479 99,4 100,0

3 ,6

482 100,0

menos de 15 min.

de 15 a 30 min.

de 30 a 60 min.

de 1 a 2 horas

de 2 a 3 horas

mais de 3 horas

Total

Não Respondeu

Total

Freqüência % % Válido

Variáveis QualitativasVariáveis Qualitativas

Consiste em colocar as categorias e as respectivas freqüências (absoluta e relativa) de cada categoria.

Tabelas de Freqüências: Ex1Tabelas de Freqüências: Ex1

Sexo

290 60,2 60,3

191 39,6 39,7

481 99,8 100,0

1 ,2

482 100,0

Feminino

Masculino

Total

Sexo

NãoRespondeu

Total

Frequência % % Válido

Tabelas de Freqüências: Ex2Tabelas de Freqüências: Ex2

Já tomou decisão sobre a área?

72 14,9 19,2

198 41,1 52,8

105 21,8 28,0

375 77,8 100,0

107 22,2

482 100,0

Exatas

Humanas

Biomédicas

Total

Não

Total

Freqüência % % Válido

GRÁFICOSGRÁFICOS

Variáveis QuantitativasVariáveis Quantitativas

Histograma Polígono de Freqüências Box-Plot Gráfico de Médias

HistogramaHistograma

A Figura a seguir mostra um histograma, construído a partir de uma tabela de freqüências. São retângulos justapostos, feitos sobre as classes da variável em estudo. Sobre cada classe tem-se um retângulo, cuja altura corresponde à freqüência observada desta classe. O histograma pode ser construído tanto com as freqüências absolutas quanto com as freqüências relativas.

HistogramaHistograma

Hemoglobina em hemocue

14,5413,0911,6410,198,74

300

200

100

0

HistogramaHistograma

Colesterol

80

60

40

20

0

HistogramaHistograma

Triglicerídios

525,0

475,0

425,0

375,0

325,0

275,0

225,0

175,0

125,0

75,0

25,0

160

140

120

100

80

60

40

20

0

HistogramaHistograma

Altura em centímetros

177,5

175,0

172,5

170,0

167,5

165,0

162,5

160,0

157,5

155,0

152,5

150,0

147,5

145,0

142,5

140,0

137,5

135,0

160

140

120

100

80

60

40

20

0

Polígono de freqüênciasPolígono de freqüênciasO polígono de freqüências é uma representação gráfica alternativa. Para construí-lo, toma-se o ponto médio (x) e a correspondente freqüência (f) de cada classe. Colocam-se os pares (x, f) como pontos num par de eixos cartesianos.

A Figura a seguir mostra o polígono de freqüências construído a partir do histograma anterior . Observe que as informações fornecidas pelo polígonos de freqüências são equivalentes às observadas num histograma.

Polígono de freqüênciasPolígono de freqüências

0

2

4

6

8

10

12

14

16

0 5 15 25 35 45 55 65 75

Dados Temporais - Ex.:Dados Temporais - Ex.:Análise de dados de poluição na Grande Vitória através das medições de algumas substâncias efetuadas nas sete estações de coleta automática (Laranjeiras, Carapina, Jardim Camburi, Enseada do Suá, Centro de Vila Velha, IBES e Cariacica). Objetivo: estabelecer relações entre as medições de poluentes e variáveis micrometeorológicas e fatores de produção. Utilizamos dados diários em um período de 153 dias compreendidos entre 1/8 e 31/12/2000.

Gráfico de LinhasGráfico de Linhas

31-D

EC

-2000

23-D

EC

-2000

15-D

EC

-2000

07-D

EC

-2000

29-N

OV

-2000

21-N

OV

-2000

13-N

OV

-2000

05-N

OV

-2000

28-O

CT-2

000

20-O

CT-2

000

12-O

CT-2

000

04-O

CT-2

000

26-S

EP

-2000

18-S

EP

-2000

10-S

EP

-2000

02-S

EP

-2000

25-A

UG

-2000

17-A

UG

-2000

09-A

UG

-2000

01-A

UG

-2000

CO

La

ran

jeir

as

800

600

400

200

0

Gráfico de LinhasGráfico de Linhas

31-D

EC

-2000

23-D

EC

-2000

15-D

EC

-2000

07-D

EC

-2000

29-N

OV

-2000

21-N

OV

-2000

13-N

OV

-2000

05-N

OV

-2000

28-O

CT-2

000

20-O

CT-2

000

12-O

CT-2

000

04-O

CT-2

000

26-S

EP

-2000

18-S

EP

-2000

10-S

EP

-2000

02-S

EP

-2000

25-A

UG

-2000

17-A

UG

-2000

09-A

UG

-2000

01-A

UG

-2000

SO

2

VV

Ce

ntr

o

120

100

80

60

40

20

0

Gráfico de LinhasGráfico de Linhas

Dados Prevalência e Incidência

1980 a 1998

ANO

98

97

96

95

94

93

92

91

90

89

88

87

86

85

84

83

82

81

80

40

30

20

10

0

prevalência

incidência

Variáveis QualitativasVariáveis Qualitativas

• Gráfico de Barras

• Gráfico de Setores circulares

Gráfico de Barras e SetoresGráfico de Barras e Setores

Já tomou decisão sobre a área?

ExatasBiomédicasHumanas

Per

cent

ual

60

50

40

30

20

10

0

28,0%

52,8%

19,2%

Biomédicas

Humanas

Exatas

Outros GráficosOutros Gráficos

Gráfico de Pareto

Gráfico de ParetoGráfico de ParetoO gráfico de pareto é um gráfico de barras verticais que dispõe a informação de forma a tornar evidente e visual a priorização de temas. A informação assim disposta também permite o estabelecimento de metas numéricas viáveis de serem alcançadas.

O Princípio de Pareto estabelece que os problemas relacionados à qualidade (percentual de itens defeituosos, perdas de produção, ocorrência de acidentes de trabalho, etc), os quais traduzem sob a forma de perdas, podem ser classificados em duas categorias: os "poucos vitais" e os "muitos triviais".

Gráfico de ParetoGráfico de Pareto

Os poucos vitais representam um pequeno número de problemas, mas que no entanto resultam em grandes perdas para a empresa. Já os muitos triviais são uma extensa lista de problemas, mas que apesar de seu grande número, convertem-se em perdas pouco significativas.

Gráfico de ParetoGráfico de Pareto

Em outras palavras, o princípio de pareto estabelece que se forem identificados, por exemplo, cinqüenta problemas relacionados à qualidade, a solução de apenas cinco ou seis destes problemas já poderá representar uma redução de 80% ou 90% das perdas que a empresa vem sofrendo devido à ocorrência de todos os problemas existentes.

Construção de um Gráfico de ParetoConstrução de um Gráfico de Pareto

1 - Definir o tipo de problema a ser estudado (itens defeituosos, reclamações, acidentes, perdas, etc.).

2 - Listar os possíveis fatores de estratificação (categorias) do problema escolhido.

3 - Estabelecer o método e o período de coleta de dados.

4 - Elaborar uma folha de verificação apropriada para coletar os dados.

5 - Preencher a folha de verificação e registrar o total de vezes que cada categoria foi observada e o número total de observações.

Construção de um Gráfico de ParetoConstrução de um Gráfico de Pareto

6 - Elaborar uma planilha de dados para o gráfico de Pareto, com as seguintes colunas:

- Categorias.

- Quantidades (Totais Individuais).

- Totais Acumulados.

- Percentagens do Total Geral.

- Percentagens Acumuladas.

7 - Preencher a planilha de dados, listando as categorias em ordem decrescente de quantidade (freqüências maiores para menores)

Construção de um Gráfico de ParetoConstrução de um Gráfico de Pareto

8 - Traçar dois eixos verticais de mesmo comprimento e um eixo horizontal.

9 - Marcar o eixo vertical do lado esquerdo (ou direito) com a escala de zero até o total da coluna Quantidade (Q) da planilha de dados.

Identificar o nome da variável representada neste eixo e a unidade de medida utilizada, caso seja necessário.

10 - Marcar o eixo vertical do lado direito (ou esquerdo) com uma escala de zero até 100%. Identificar este eixo como “ Percentagem Acumulada(%) ”.

Construção de um Gráfico de ParetoConstrução de um Gráfico de Pareto

11 - Dividir o eixo horizontal em um número de intervalos iguais ao número de categorias constantes na planilha de dados.

12 - Identificar cada intervalo do eixo horizontal escrevendo os nomes das categorias, na mesma ordem em que eles aparecem na planilha de dados.

13 - Construir um gráfico de barras utilizando a escala do eixo vertical do lado esquerdo.

Construção de um Gráfico de ParetoConstrução de um Gráfico de Pareto

14 - Construir a curva de Pareto marcando os valores acumulados (Total Acumulado ou Percentagem Acumulada), acima e no lado direito (ou no centro) do intervalo de cada categoria, e ligar os pontos por segmento de reta.

15 - Registrar outras informações que devam constar no gráfico:

- Título.

- Período de coleta dos dados.

- Número total de itens inspecionados.

- Objetivo do estudo realizado.

Gráfico de Pareto - Ex1Gráfico de Pareto - Ex1

Qual foi a contribuição da feira?

161 33,4 33,9

91 18,9 19,2

139 28,8 29,3

48 10,0 10,1

36 7,5 7,6

475 98,5 100,0

7 1,5

482 100,0

Ajudou na definição do curso

Informou sobre a Universidade

Informou sobre a existência decursos

Outros

Mais de uma opção

Total

Não respondeu

Total

Frequency Percent Valid Percent

Gráfico de Pareto - Ex1Gráfico de Pareto - Ex1

Qual foi a contribuição da feira?

161 33,9 33,9

139 29,3 63,2

91 19,2 82,3

48 10,1 92,4

36 7,6 100,0

475 100,0

7

482

Ajudou na definição do curso

Informou sobre a existência decursos

Informou sobre a Universidade

Outros

Mais de uma opção

Total

Valid

Não respondeu

Total

Frequency Valid PercentCumulative

Percent

Gráfico de Pareto - Ex1Gráfico de Pareto - Ex1

Qual foi a contribuição da feira?

Mais de uma opção

Outros

Informou UFES

Informou cursos

Ajudou definição

Fre

ên

cia

Re

lativa

(%

)

500

400

300

200

100

0

Pe

rce

nt

100

50

03648

91

139161

Gráfico de Pareto - Ex2Gráfico de Pareto - Ex2

Como você soube da feira de informação profissional da UFES?

57 11,8 11,9

47 9,8 9,8

218 45,2 45,5

75 15,6 15,7

31 6,4 6,5

17 3,5 3,5

1 ,2 ,2

18 3,7 3,8

15 3,1 3,1

479 99,4 100,0

3 ,6

482 100,0

Jornal

Televisão

Escola

Colega/amigo

Família

Ufes

Rádio

Outros

Mais de uma opção

Total

Não Respondeu

Total

Freqüência % % Válido

Gráfico de Pareto - Ex2Gráfico de Pareto - Ex2

Como você soube da feira de informação profissional da UFES?

Co

un

t

600

500

400

300

200

100

0

Pe

rce

nt100

50

0475775

218

Medidas Medidas

MedidasMedidas

Ten d ê n c ia C en tra lM ed id as d e O rd em

P os içã o

D esvio M é d ioD esvio P ad rã o

V ariâ n c ia C oef. d e V ariaçã o

D isp ersã o

M ed id a d eA ss im etria

P os it ivaN eg ativa

A ss im etria

M ed id a d eA ch atam en to

C u rtose

M ed id as

Medidas de PosiçãoMedidas de Posição

- M é d ia- M ed ian a

- M od a

Ten d ê n c ia C en tra l

- Q u artil- P ercen til

M ed id as d e O rd em

D M ed id as d e P os içã oD ig ite o títu lo aq u i

MedianaMediana

A mediana é o valor que divide a distribuição dos dados ao meio, ou seja, deixa os 50% menores valores de um lado, e os 50% maiores valores do outro lado. Para se calcular a mediana, os dados devem estar ordenados.Por exemplo, ordenando-se as notas da turma C temos: 0, 6, 7, 7, 7, 7.5, 7.5. A mediana da turma C é a 4a. (quarta) observação ordenada, porque essa observação deixa 3 outras de um lado (0, 6 e 7) e 3 do outro (7, 7.5 e 7.5). Logo a mediana vale 7.

MedianaMedianaNem todos os conjuntos de dados têm um valor central tão nítido como exposto acima. Por exemplo, se tivermos um número par de observações? Assim, vamos definir um critério para acharmos a mediana: A mediana de um conjunto de dados ordenados, representada por Md será o valor que:• n ímpar é o valor que ocupa a posição (n + 1)/2. • n par: é a média dos valores que ocupam as posições (n/2) e (n/2 + 1)

Vantagens da MedianaVantagens da Mediana

• Fácil de calcular;

• não é afetada por valores extremos;

• é um valor único;

• pode ser aplicada nas escalas ordinal, intervalar e proporcional.

Desvantagens da MedianaDesvantagens da Mediana

• Difícil de incluir em equações matemáticas;

• Não utiliza todos os valores da variável.

ModaModa

Moda (Mo) é o valor da variável que mais se repete, o que possui maior freqüência. Uma variável pode ter mais de uma moda (bimodal, trimodal, etc...).

A moda é uma medida resistente, pois está relacionada somente com a freqüência de um ou mais valores da variável. Por exemplo, a mudança de um valor da variável pode não afetar a moda.

Vantagens da ModaVantagens da Moda

• Fácil de calcular;

• Não é afetada por valores extremos;

• Pode ser aplicada em qualquer escala: nominal, ordinal, intervalar e proporcional.

Desvantagens da ModaDesvantagens da Moda

• Pode estar afastada do centro dos valores;

•Difícil de incluir em equações matemáticas;

•Não utiliza todos os valores da variável;

•A variável pode ter mais de uma moda;

•Algumas variáveis não têm moda.

Média AritméticaMédia Aritmética

O conceito de média aritmética, ou simplesmente média, é bastante familiar. Matematicamente, ela é a soma de todos os valores divididos pelo número de valores somados.

Média AritméticaMédia Aritmética

Características Importantes da Média: 1. A unidade da média é a mesma dos valores da variável; 2. A média está posicionada de forma equilibrada entre os valores da variável; 3. Todos os valores da variável são incluídos no cálculo da média; 4. A média é um valor único que pertence ao intervalo dos dados; 5. A média é influenciada pelos valores extremos.

Vantagens da Média Vantagens da Média

• Fácil de compreender e aplicar;

• utiliza todos os valores da variável;

• é um valor único;

• fácil de incluir em equações matemáticas;

• pode ser aplicada nas escalas intervalar e proporcional.

Desvantagens da Média Desvantagens da Média

• É afetada por valores extremos;

• é necessário conhecer todos os valores da variável.

Qual das 3 medidas usar?Qual das 3 medidas usar?

• Quando procuramos conhecer valores médios : a média. Ex.: em controle de qualidade, a média é utilizada para determinar se o processo está operando ao redor de um valor esperado, o alvo.

•Se a variável tiver valores extremos, a mediana é mais adequada. Ex.: variável salário.

•A moda é um valor típico. Variáveis qualitativas. Produtos mais consumidos.

Quando as medidas são iguais?Quando as medidas são iguais?

A média, mediana e moda de uma variável são iguais somente quando sua distribuição de freqüência for simétrica. A comparação das medidas de tendência central de uma variável antecipam a forma da distribuição de freqüências de uma variável:

Média = Mediana = ModaMédia = Mediana = Moda

Distribuição simétrica dos dados:

0.55 0.65 0.75 0.85 0.95

POSSÍVEIS RESULTADOS

Distribuição SimétricaDistribuição Simétrica

25%25%

25%

25%

Ei Q1 Md Q3 Es

Média > Mediana > ModaMédia > Mediana > Moda

Se a relação entre as medidas for a média maior que a mediana, a distribuição terá inclinação na sua parte direita; esta inclinação será tanto mais acentuada quanto maior for a média em comparação com a mediana.

Distribuição Assimétrica (+)Distribuição Assimétrica (+)

25%

25%

25%25%

Ei Q1 Md Q3 Es

Média < Mediana < ModaMédia < Mediana < Moda

Se a relação entre as medidas for a média menor que a mediana, a distribuição terá inclinação na sua parte esquerda; esta inclinação será tanto mais acentuada quanto menor for a média em comparação com a mediana.

Distribuição Assimétrica (-)Distribuição Assimétrica (-)

25% 25%

25% 25%

Ei Q1 Md Q3 Es

Outros tipos de MédiasOutros tipos de Médias

Média Ponderada: dar um peso para cada valor da variável. A soma dos pesos é 100% (usar a freqüência relativa). Soma de cada valor multiplicado pelo seu peso dividido pela soma dos pesos.

• O cálculo da média ponderada é um caso particular da média aritmética;

• os pesos formam a distribuição de freqüência relativa;

• os pesos podem representar a importância de cada valor da variável.

Outros tipos de MédiasOutros tipos de Médias

Média Geométrica: é igual a raiz e-nésima de todos os valores multiplicados.

• A média geométrica é menos afetada por valores extremos;

• para um mesmo grupo de valores, a média geométrica é sempre menor que a média aritmética.

Outros tipos de MédiasOutros tipos de Médias

Média Harmônica: é a inversa da média aritmética das inversas dos valores da amostra. Página 89.

Ou

A inversa da média harmônica é a média da inversa dos valores da amostra.

Medidas de OrdemMedidas de Ordem

O interesse está em conhecer a posição de um determinado valor em relação ao grupo de valores.

Calcular:

Quartis

Percentis

QuartisQuartis

Os quartis são os valores que dividem os dados ordenados em quatro partes, com igual número de dados. O primeiro quartil (Q1) delimita os 25% menores valores. O terceiro quartil (Q3) é o valor que separa os 25% maiores valores. O segundo quartil é a própria mediana.

Box-PlotBox-Plot

O diagrama dos 5 números é uma forma de resumir os dados com os quartis, extremos e o número de observações do conjunto de dados. Através desses números podemos ter informacões sobre a posição central, dispersão e assimetria da distribuição de freqüências.O diagrama em caixas é uma representação gráfica do diagrama dos 5 números. É uma maneira de representar graficamente aspectos relevantes de uma distribuição de freqüências.

Box-PlotBox-Plot

Basicamente, traça-se dois retângulos: um representando o espaço entre o quartil inferior e a mediana; e o outro o espaço entre a mediana e o quartil superior. Esses dois retângulos representam a faixa dos 50% valores mais típicos da distribuição. Entre os Quartis e os extremos, traça-se uma linha. Essa linha é traçada até o limite de Q3 + 1,5(Q3 Q1) para a parte superior e Q1 1,5(Q3 Q1) para a inferior. Valores que caem fora dessas linhas são considerados valores discrepantes, sendo indicados por pontos.

Box-PlotBox-Plot

479N =

Quanto tempo em médi

500

400

300

200

100

0

-100

PercentisPercentis

Ordenados os dados, os percentis são medidas que separam percentuais dos dados.

Percentil 1: separa 1% dos menores dados;

Percentil 20: separa 20% dos menores dados;

Percentil 80: separa 80% dos menores dados e 20% dos maiores;

etc....

Medidas de DispersãoMedidas de Dispersão

- D esvio M é d io- V ariâ n c ia

- D esvio P ad rã o- C oe fic ien te d e V ariaçã o

D M ed id as d e D isp ersã oD ig ite o títu lo aq u i

ExemploExemplo

Exemplo: A tabela abaixo mostra as notas finais dos alunos de três turmas e a nota média de cada turma.

TURMA NOTAS DOS ALUNOS MÉDIAA 4 5 5 6 6 7 7 8 6,0B 1 2 4 6 6 9 10 10 6,0C 0 6 7 7 7 7,5 7,5 6,0

ExemploExemplo

Embora as três turmas tenham a mesma média, as notas estão distribuídas de formas diferentes. A média resume o conjunto de dados em termos da posição central, ou de um valor típico, mas não fornece informação sobre o aspecto, por exemplo, de como os dados estão distribuídos.

ExemploExemplo

Comparando, digamos, as notas da turma A com a turma B, verificamos que a turma B é mais heterogênea, pois apresenta notas mais dispersas em torno da média. Na turma C, há uma nota discrepante das demais. A nota 0 contribui para diminuir a média. Note que a média está abaixo da maioria das notas da turma. De modo geral, é preciso cautela ao interpretar a média de dados distribuídos assimetricamente

Medidas de DispersãoMedidas de Dispersão

Para medir a dispersão dos dados em torno da média, introduziremos o desvio médio, a variância e o desvio padrão dos dados: O desvio médio, a variância e o desvio padrão avaliam a dispersão do conjunto de dados em torno da média. Essas medidas dão uma idéia de quão homogêneos ou heterogêneos são os dados. Para calcularmos essas medidas, devemos considerar os desvios de cada valor em relação à média. Depois, constrói-se uma média desses desvios. Por exemplo, considere as notas da turma A:

Desvio da MédiaDesvio da Média

Notas da turma A Desvio = Nota Média4 4 6 = 25 5 6 = 15 5 6 = 16 6 6 = 06 6 6 = 07 7 6 = 17 7 6 = 18 8 6 = 2

Soma 0

Desvio MédioDesvio Médio

Notas da turma A Desvio = Nota Média |Desvio|4 4 6 = 2 25 5 6 = 1 15 5 6 = 1 16 6 6 = 0 06 6 6 = 0 07 7 6 = 1 17 7 6 = 1 18 8 6 = 2 2

Soma 0 8

VariânciaVariância

Notas da turma A Desvio = Nota Média (Desvio)2

4 4 6 = 2 45 5 6 = 1 15 5 6 = 1 16 6 6 = 0 06 6 6 = 0 07 7 6 = 1 17 7 6 = 1 18 8 6 = 2 4

Soma 0 12

MEDIDAS DE DISPERSÃOMEDIDAS DE DISPERSÃO

DESVIO MÉDIO: soma dos módulos dos desvios dividido pelo total de dados.

VARIÂNCIA: soma dos quadrados dos desvios dividido pelo total de dados menos 1 (amostra).

DESVIO PADRÃO: raiz quadrada positiva da variância.

SÃO MEDIDAS MÉDIAS!!!!!!!!!!!

VariânciaVariância

• é sempre um número positivo;

•se todos os valores de uma amostra forem iguais, a variância é zero;

•a variância é uma medida resistente, pois é afetada pelos valores extremos da variável.

Gráfico de MédiasGráfico de Médias

Representação gráfica dos valores da média e desvio padrão de uma variável quantitativa.

O quadrado representa a média, e as barras o valor da média mais um desvio e da média menos um desvio.

No eixo X colocamos a variável e no eixo Y uma escala que contenha os valores da média mais ou menos um desvio.

Gráfico de MédiasGráfico de Médias

479N =

Quanto tempo

Me

an

+-

1 S

D140

120

100

80

60

40

20

0

Medida Relativa de DispersãoMedida Relativa de Dispersão

Coeficiente de Variação =

desvio padrão dividido pelo média

Usado no caso de comparação entre amostras de médias diferentes.

Medida de CurtoseMedida de Curtose

f(x)

pequeno

moderado

grande

x

(leptocúrtica)

(mesocúrtica)

(platocúrtica)

top related