est0209mfq - 01 estatistica descritiva

62
1. Estatística Descritiva Introdução: Neste tópico será apresentado aos alunos os principais usos da Estatística, seus usos no Estado e Empresas, bem como as definições do que seja um dado estatístico e os principais tipos e elementos que dizem respeito a uma representação tabular. Objetivo(s): introdução aos principais conceitos do que é estatística seus usos e aplicações 1.1 Dados Estatísticos Dado estatístico: é qualquer característica que possa ser observada ou medida de alguma maneira. A matéria-prima da estatística são os dados observáveis. 1.1.1 Variáveis Variável: É aquilo que se deseja observar para se tirar algum tipo de conclusão, geralmente a variável para estudo são selecionadas por processos de amostragem. Os símbolos utilizados para representar as variáveis são as letras maiúsculas do alfabeto, tais como X, Y, Z, ... que pode assumir qualquer valor de um conjunto de dados. As variáveis podem ser de dois tipos: Qualitativas e Quantitativas.: 1.1.1.1 Variáveis Qualitativas (ou atributos) Em uma pesquisa que envolve pessoas, por exemplo, as variáveis consideradas podem ser: sexo, cor de cabelo, esporte favorito e grau de instrução. Nesse caso dizemos que as variáveis dão qualitativas, pois apresentam como possíveis valores uma qualidade (ou atributo) dos indivíduos pesquisados Além disso, dizemos que as variáveis qualitativas podem ser ordinais, quando existe uma ordem nos seus valores, ou nominais, quando isso não ocorre. a) Nominal: são utilizados símbolos, ou números, para representar determinado tipo de dados, mostrando, assim, a qual grupo ou categoria eles pertencem, estado civil, religião são consideradas variáveis qualitativas nominais..

Upload: luis-carlos-almeida

Post on 12-Jun-2015

2.314 views

Category:

Documents


4 download

DESCRIPTION

Estatística Uniso - curso de Física, Química e Matemática

TRANSCRIPT

Page 1: EST0209MFQ - 01  Estatistica Descritiva

1. Estatística DescritivaIntrodução: Neste tópico será apresentado aos alunos os principais usos da Estatística, seus usos no Estado e Empresas, bem como as definições do que seja um dado estatístico e os principais tipos e elementos que dizem respeito a uma representação tabular.

Objetivo(s): introdução aos principais conceitos do que é estatística seus usos e aplicações

1.1 Dados Estatísticos

Dado estatístico: é qualquer característica que possa ser observada ou medida de alguma maneira. A matéria-prima da estatística são os dados observáveis.

1.1.1 Variáveis

Variável: É aquilo que se deseja observar para se tirar algum tipo de conclusão, geralmente a variável para estudo são selecionadas por processos de amostragem. Os símbolos utilizados para representar as variáveis são as letras maiúsculas do alfabeto, tais como X, Y, Z, ... que pode assumir qualquer valor de um conjunto de dados. As variáveis podem ser de dois tipos: Qualitativas e Quantitativas.:

1.1.1.1 Variáveis Qualitativas (ou atributos)

Em uma pesquisa que envolve pessoas, por exemplo, as variáveis consideradas podem ser: sexo, cor de cabelo, esporte favorito e grau de instrução. Nesse caso dizemos que as variáveis dão qualitativas, pois apresentam como possíveis valores uma qualidade (ou atributo) dos indivíduos pesquisados Além disso, dizemos que as variáveis qualitativas podem ser ordinais, quando existe uma ordem nos seus valores, ou nominais, quando isso não ocorre.

a) Nominal: são utilizados símbolos, ou números, para representar determinado tipo de dados, mostrando, assim, a qual grupo ou categoria eles pertencem, estado civil, religião são consideradas variáveis qualitativas nominais..

b) Ordinal ou por postos: quando uma classificação for dividida em categorias ordenadas em graus convencionados, havendo uma relação entre as categorias do tipo “maior do que”, “menor do que”, “igual a”, os dados por postos consistem de valores relativos atribuídos para denotar a ordem de primeiro, segundo, terceiro e, assim, sucessivamente.

1.1.1.2 Variáveis Quantitativas:

Quando as variáveis são, por exemplo, altura, peso, idade em anos e número de irmãos, dizemos que elas são quantitativas, pois seus

Page 2: EST0209MFQ - 01  Estatistica Descritiva

possíveis valores são números. As variáveis quantitativas podem ser discretas, quanto se trata de contagem (números inteiros) ou contínuas, quando se trata de medida (números reais).

a) Discretas: são aquelas variáveis que pode assumir somente valores inteiros num conjunto de valores. É gerada pelo processo de contagem, como o número de veículos que passa em um posto de gasolina, o número de estudantes nesta sala de aula.

b) Contínuas: são aquelas variáveis que podem assumir um valor dentro de um intervalo de valores. É gerada pelo processo de medição. Neste caso serve como exemplo o volume de água em um reservatório ou o peso de um pacote de cereal.

Para se fazer uma idéia concreta da variável contínua, basta pensar em um filete de mercúrio de um termômetro. Ao dilatar-se o filete da temperatura a para b, passará por todas as temperaturas intermediárias. “Altura” é uma variável quantitativa contínua, uma vez que pode ser medida (1,55m, 1,80m, 1,73m...).

QUADRO RESUMO DOS TIPOS DE VARIÁVEIS DE UMA PESQUISA

Populações

Tipos de Variáveis

Quantitativas Qualitativas

Contínua Discreta Nominal Ordinal

Alunos de Graduação

Idade, pesoNo na Classe

sexoConceito Final

A, B ou R

AutomóveisVelocidade

km/hN.o de

defeitosCores Limpeza

Venda de Imóveis

Valor em reais

No de oferta

Tipo de imóvel

Muito dispendioso

As distinções são menos rígidas do que a descrição acima insinua. Por exemplo, em geral nós trataríamos idade como uma variável contínua, mas se a idade for registrada pelo ano mais próximo, podemos tratá-la como discreta, e se separarmos a amostra em “crianças”, “adultos jovens”, “idade média”, “velhos”, por exemplo, então temos faixa etária como uma variável ordenada categórica. No entanto, em geral é recomendado manter os dados em sua forma original, categorizando os dados somente para propósitos de apresentação.

1.1.2 Usos e Abusos da Estatística

Estatística Descritiva - 1.2

Page 3: EST0209MFQ - 01  Estatistica Descritiva

1.1.2.1 Usos da Estatística

As Aplicações da estatística se desenvolveram de tal forma que, hoje, praticamente todo o campo de estudo se beneficia da utilização de métodos estatísticos.

Os fabricantes fornecem melhores produtos a custos menores através de técnicas de controle de qualidade.

Controlam-se doenças com o auxilio de análises que antecipam epidemias.

Espécies ameaçadas são protegidas por regulamentos e leis que reagem a estimativas estatísticas de modificação de tamanho da população.

Visando reduzir as taxas de casos fatais, os legisladores têm melhor justificativas para leis como as que regem a poluição atmosférica, inspeções de automóveis, utilização de cinto de segurança, etc.

1.1.2.1 Abusos da Estatística

Não é de hoje que ocorrem abusos com a estatística.

Assim é que , há cerca de um século, o estadista Benjamin Disraeli disse:

“Há três tipos de mentiras: as mentiras, as mentiras sérias e as estatísticas”.

Já se disse também que “os números não mentem; mas os mentirosos forjam os números” e que: “se torturarmos os dados por bastante tempo, eles acabam por admitir qualquer coisa”.

Todas essas afirmações se referem aos abusos da estatística quando os dados são apresentados de forma enganosa.

Eis alguns exemplos das diversas maneiras como os dados podem ser distorcidos.

Pequenas amostras

Números imprecisos

Estimativas por suposição

Porcentagens distorcidas

Estatística Descritiva - 1.3

Page 4: EST0209MFQ - 01  Estatistica Descritiva

Cifras parciais

Distorções deliberadas

Perguntas tendenciosas

Gráficos enganosos

Pressão do pesquisador

Más amostras

Estatística Descritiva - 1.4

Page 5: EST0209MFQ - 01  Estatistica Descritiva

1.2 Distribuições de Freqüências

É o tipo de série estatística na qual permanece constante o fato, o local e a época. Os dados são colocados em classes preestabelecidas, registrando a freqüência de ocorrência.

Exemplo:

Tabela: distribuição de freqüências dos pesos corporais de uma amostra.

Pesos

Freqüência

Freq. Acumulada

64 51 5165 100 15166 22 17367 14 187Tot

al187

Uma distribuição de freqüência pode ser para dois tipos, quais sejam para variáveis discretas e para variáveis contínuas.

1.2.1 Distribuição de Freqüência para Variável Discreta

Recomenda-se seu uso quanto o número de observações for grande, mas os valores distintos são poucos.

Ex. Seja um grupo com 30 estudantes, onde 10 sejam de Sorocaba; 9 de Votorantin; 5 de Salto de Pirapora; 4 de Pilar do Sul e 2 de São Miguel.

Cidade N.o Estudantes

(Fi)Sorocaba 10Votorantin 9Salto de Pirapora

5

Pilar do Sul 4São Miguel 2Total 30

1.2.2 Distribuição de Freqüências para variáveis Contínuas

Muitas vezes, mesmo com o risco de se sacrificar algum detalhe, que pode ser observado na ordenação de valores individuais, há vantagem em resumir os dados originais em uma distribuição de freqüências, onde os valores observados não mais aparecerão individualmente, mas agrupados em classes

Estatística Descritiva - 1.5

Page 6: EST0209MFQ - 01  Estatistica Descritiva

Normalmente esse tipo de Distribuição de Freqüências deve ser utilizado quando o número de observações é grande e o número de valores distintos que a variável assume também for grande.

Os resultados obtidos deverão ser dispostos em classes que possuam amplitudes dentro das quais se incluirão os dados

Estatística Descritiva - 1.6

Page 7: EST0209MFQ - 01  Estatistica Descritiva

Exemplo: Sejam os dados brutos abaixo as alturas de 40 alunos:

1,67 1,83 1,60 1,97 1,701,73 1,92 1,73 1,85 1,711,80 1,58 1,67 1,78 1,781,98 1,87 1,50 1,49 1,751,49 1,63 1,84 1,69 1,641,52 1,84 1,62 1,74 1,721,60 1,88 1,70 1,64 1,651,59 1,53 1,86 1,68 1,69

Uma vez construída a distribuição de freqüências esta ficará da seguinte forma:

Alturas N.o de Alunos

1,45 |------ 1,55

5

1,55 |------ 1,65

8

1,65 |------ 1,75

13

1,75 |------ 1,85

7

1,85 |------ 1,95

5

1,95 |------ 2,05

2

Total 40

Para passarmos as etapas que permitem construir uma Distribuição de Freqüências é necessário, preliminarmente, conhecermos quais são os principais elementos que a compõem.

1.2.3 Elementos de uma Distribuição de Freqüências:

Classe ou Classe de Freqüência (K): É cada subintervalo (linha) na qual dividimos o fenômeno.

Quantas classes serão necessárias para representar o fato? Existem vários critérios que podem ser utilizados a fim de possuirmos uma idéia do melhor número de classes servindo, no entanto, como uma indicação, uma vez que a melhor escolha dependerá, antes de qualquer coisa, da natureza dos dados, e de qual resultado se deseja chegar, devendo dessa forma o pesquisador procurar o método que lhe proporcione a melhor divisão.

Para determinar o número de classes a partir dos dados não tabelados, podemos usar a Fórmula de Sturges, mas deve-se saber que existem outros métodos de determinação do número de classes em

Estatística Descritiva - 1.7

Page 8: EST0209MFQ - 01  Estatistica Descritiva

uma tabela de freqüência. O que se deseja fazer é apenas comprimir um conjunto de dados em uma tabela, para facilitar a visualização e interpretação dos mesmos.

a) Fórmula de Sturges K = 1 + 3.3log (n), onde “n” é no de informações.

b) Proposta de Trumam L. Kelley N 5 10 25 50 100 200 500 1000 k 2 4 6 8 10 12 15 15

Estatística Descritiva - 1.8

Page 9: EST0209MFQ - 01  Estatistica Descritiva

c) Toledo e Ovale número de classes (k)n.o de elementos observados mínimo

máximo até 50 5 10 51 a 100 8 16101 a 200 10 20201 a 300 12 24301 a 500 15 30mais de 500 20 40

Além dessas existem outras fórmulas empíricas para resolver o problema para

determinação do número de classes [n(k)], há quem prefira n ) k ( n . Entretanto, a verdade é que essas fórmulas não nos levam a uma decisão final; esta vai depender na realidade de um julgamento pessoal, que deverá estar ligado à natureza dos dados, procurando, sempre que possível, evitar classes com freqüências nulas ou freqüências relativas exageradamente grandes.

Limite de Classe (Li ou Ls): São os valores extremos de cada classe.

Li = limite inferior da i-ésima classe;Ls = limite superior da i-ésima classe;

Exemplo:

Limites Inferiores de Classe Limites Superiores de Classe

1,45 |------ 1,55 1,55 |------ 1,65

1,65 |------ 1,75 1,75 |------ 1,851,85 |------ 1,951,95 |------ 2,05

Existem várias maneiras de apresentarmos o intervalo de classe, iguais ou diferentes entre si. Porém, sempre que possível, deveremos optar por intervalos iguais, o que facilitará os cálculos posteriores. Mas mesmo com intervalos iguais, as distribuições poderão apresentar-se da seguinte forma:

1,55 ---| 1,65 : compreende todos os valores entre 1,55 e 1,65, inclusive o 1,55 exclusive o 1,651,55 |--- 1,65 : compreende todos os valores entre 1,55 e 1,65, inclusive o 1,55 e exclusive o 1,65

Amplitude do intervalo de classe (h): É a diferença entre dois limites inferiores ou superiores consecutivos.

h = Ls – Li

Estatística Descritiva - 1.9

Page 10: EST0209MFQ - 01  Estatistica Descritiva

Calculando h para cada classe

(1,55 – 1,45) = 0,10(1,65 – 1,55) = 0,10....(1,95 – 1,85) = 0,10(2,05 – 1,95) = 0,10

A amplitude do intervalo de classe deve ser constante em toda a distribuição de freqüências intervalar.

Amplitude total ou Range (H): É a diferença entre o limite superior da última classe e o limite inferior da 1ª classe, ou a diferença entre último e o primeiro elemento de um conjunto de dados postos em ordem crescente.

Dado por H = Vmaior – Vmenor no caso H = 1,98 – 1,49 H = 0,49

Ponto médio de classe (PM): É a média aritmética entre o limite

inferior e o limite superior da classe, dado por

Para o exemplo dado temos os seguintes PM para cada classe:

(1,45 + 1,55)/2 = 1,50(1,55 + 1,65)/2 = 1,60(1,65 + 1,75)/2 = 1,70(1,75 + 1,85)/2 = 1,80(1,85+ 1,95)/2 = 1,90(1,95 + 2,05)/2 = 2,00

Quando substituirmos os intervalos de classes pelos pontos médios (Xi), ter-se-á uma distribuição de freqüência pontual.

Freqüência absoluta (fi): É a quantidade de valores em cada classe

Freqüência Relativa (fr): É o quociente entre a freqüência absoluta da i-ésima classecom o somatório das freqüências.

Alturas N.o de Alunos= fi

Freqüência Relativa (fr)

1,45 |------ 1,55

5 0,1250

1,55 |------ 1,65

8 0,2000

1,65 |------ 1,75

13 0,3250

1,75 |------ 1,85

7 0,1750

1,85 |------ 1,95

5 0,1250

Estatística Descritiva - 1.10

Page 11: EST0209MFQ - 01  Estatistica Descritiva

1,95 |------ 2,05

2 0,0500

Total 40 1,0000

A freqüência relativa pode ser representada na forma de porcentagem, bastando para isso multiplicar os seus valores por 100. Pode ainda, calcular as freqüências acumuladas tanto para os valores absolutos quanto para os valores relativos.

1.2.4 Construção de uma distribuição de freqüências

Para construirmos uma Distribuição de Freqüências as etapas a serem seguidas são as seguintes:

1º - Determine o número de classes (K) , lembrando que qualquer regra para determinação do nº de classes da tabela não nos levam a uma decisão final; esta vai depender, na realidade de um julgamento pessoal, que deve estar ligado à natureza dos dados.

2o – Calcule a amplitude de classe

o resultado obtido em h deve ser sempre arredondado para maior, de forma a garantir que todos os dados sejam incluídos na distribuição de freqüências. Importante frisar que tanto a primeira classe quanto a última não devem ficar sem dados.

3º - Escolher o limite inferior da primeira classe, que será o ponto de partida

Em alguns casos o arredondamento utilizado– que deve ser sempre para maior – pode implicar que a última classe fique sem elementos, para isso, uma alternativa seria começar a primeira classe com um valor inferior ao menor valor dos dados.

4º - Somar a Amplitude de classe (h) a esse ponto de partida e assim sucessivamente, constituindo cada intervalo em uma classe distinta;

5º - Distribuir os dados nas respectivas classes.

Notas Importantes: A última classe deve conter pelo menos um elemento dos dados;

Não devem existir dados sem classe

Dependendo do arredondamento a construção de uma distribuição de freqüências é um processo de tentativa e erro que depende, em certa medida da experiência e da necessidade de quem a constrói

Seja o exemplo:

Dividir os dados abaixo em 5 classes (k =5)

1,49 1,60 1,68 1,73 1,84 1,49 1,62 1,691,74 1,85 1,50 1,63 1,69 1,75 1,86 1,52

Estatística Descritiva - 1.11

Page 12: EST0209MFQ - 01  Estatistica Descritiva

1,64 1,70 1,78 1,87 1,53 1,64 1,70 1,781,88 1,58 1,65 1,71 1,80 1,92 1,59 1,671,72 1,83 1,97 1,60 1,67 1,73 1,84 1,98

Resolução

1) Decidir o Número de Classes K = 5;

2) Determinar a amplitude de classe (h), que vai ser dado por:

=

3) Escolher o limite inferior da primeira classe, que será o ponto de partida = 1,49

Estatística Descritiva - 1.12

Page 13: EST0209MFQ - 01  Estatistica Descritiva

4) Somar a Amplitude de classe (h) a esse ponto de partida e assim sucessivamente, constituindo cada intervalo em uma classe distinta;

1,49 + 0,10 = 1,59 1,49 |----- 1,591,59 + 0,10 = 1,69 1,59 |----- 1,691,69 + 0,10 = 1,79 1,69 |----- 1,791,79 + 0,10 = 1,89 1,79 |----- 1,891,89 + 0,10 = 1,99 1,89 |----- 1,99

5. Distribuir os dados nas classes

Classes Dados1,49 |----- 1,59 1,49 1,49 1,50 1,52 1,53 1,58 1,59 |----- 1,69 1,59 1,60 1,60 1,62 1,63 1,64 1,64 1,65 1,67 1,67 1,68 1,69 |----- 1,79 1,69 1,69 1,70 1,70 1,71 1,72 1,73 1,73 1,74 1,75 1,78 1,78 1,79 |----- 1,89 1,80 1,83 1,84 1,84 1,85 1,86 1,87 1,88 1,89 |----- 1,99 1,92 1,97 1,98

Nota: intervalo fechado inclui o valor; se aberto não

1,49 pertence a essa classe |------- 1,59 não pertence a essa classe

Uma vez distribuídos os dados a Distribuição de Freqüências fica da seguinte forma:

Alturas Alunos1,49 |----- 1,59 61,59 |----- 1,69 111,69 |----- 1,79 121,79 |----- 1,89 81,89 |----- 1,99 3Total 40

1.2.5 Construção de um Histograma

Construída a distribuição de freqüências temos que a quantidade de informação fornecida por uma amostra é tanto maior quanto maior é a quantidade de dados. No caso de uma tabela com muito longa é claro que a sua interpretação fica difícil, para dar uma visão rápida e objetiva da questão, existe uma ferramenta denominada Histograma.

No Eixo horizontal

colocam-se as Classes, no

caso, as Alturas

Alturas Alunos No eixo Vertical

colocam-se as

Freqüências, no caso, o número de

1,49 |----- 1,59 61,59 |----- 1,69 111,69 |----- 1,79 121,79 |----- 1,89 81,89 |----- 1,99 3Total 40

Estatística Descritiva - 1.13

Page 14: EST0209MFQ - 01  Estatistica Descritiva

alunos

Estatística Descritiva - 1.14

Page 15: EST0209MFQ - 01  Estatistica Descritiva

Freqüências

1,49 1,59 1,69 1,79 1,89 1,99

1.3 Representação gráfica

Os gráficos são formas de apresentação visual dos dados. Normalmente, contém menos informações que as tabelas, mas são, contudo de mais leitura. A escolha do modelo ideal de representação gráfica depende das preferências e do senso estético do elaborador.

As principais vantagens para o uso de gráficos são:

Permitem a síntese dos resultados;

Auxiliam o pesquisador na análise dos dados e

Facilitam a compreensão das conclusões do autor.

1.3.1 Origem dos Gráficos

O diagrama cartesiano é a figura geométrica que deu origem à técnica de construção de gráficos estatísticos. Utiliza-se o primeiro quadrante do sistema de eixos coordenados cartesianos ortogonais, nos quais o eixo vertical corresponde às freqüências dos dados, e o eixo horizontal ao valor das variáveis.

Ordenadas, correspondem ao eixo y

Abscissas correspondem ao eixo x

1.3.2 Normas para elaboração de Gráficos

Deve facilitar a interpretação dos dados para um leigo;

Estatística Descritiva - 1.15

Page 16: EST0209MFQ - 01  Estatistica Descritiva

Não há a necessidade de se colocar título se estiver na mesma página da tabela correspondente;

Há a necessidade de se colocar o título se a tabela correspondente não estiver na mesma página.

O senso estético individual determina o espaço do gráfico (Largura x Altura);

As colunas, barras, linhas e áreas gráficas devem ser ordenadas de modo crescente ou decrescente, mas a ordem cronológica prevalece;

1.3.3 Tipos de Gráficos

` Com o avanço da computação os recursos para a construção de Gráficos ampliaram-se muito, no entanto, para determinadas situações existem os tipos mais recomendáveis que cujos alguns exemplos serão apresentados a seguir, o que não impede que outros tipos também possam ser criados.

1.3.3.1 O diagrama de ramo e folha

Um diagrama de ramos e folha separa entrada de dados em “dígitos ramos” em “dígitos folhas” , sendo um diagrama muito útil para uma primeira análise dos dados.

• Passos para construir um diagrama de ramo e folha:

Suponha a série de dados, que representam as notas de alunos numa escala que vais de 0 a 10.

1,2

2,3

3,3

3,7

3,8

4,0

4,5

5,5

5,6

5,5

2,3

2,8

3,3

3,1

4,9

4,5

4,1

5,3

5,6

5,3

2,6

2,3

3,9

3,2

4,1

8,8

4,9

5,5

6,7

7,0

2,4

2,9

3,8

3,8

4,7

4,4

4,1

4,1

4,2

5,0

1. Encontrar o valor mínimo e máximo dos dados, no caso da escola 1, o mínimo é 1,2 e o máximo 8,8

2. Como a variável toma valores entre zero e dez pode-se convencionar que o ramo é a unidade e a folha é a casa decimal

3. A partir dai examina-se cada valor e coloca-se a parte decimal na folha. O valor zero, significa que há informação e que é um número inteiro. Já quando naquele valor inteiro não existe observações, não colocar nada, deixar em branco

Estatística Descritiva - 1.16

Page 17: EST0209MFQ - 01  Estatistica Descritiva

4. Ordenar os ramos

Original OrganizadoRamo

(unidade)

Folha(decimal)

Ramo(unidad

e)

Folha(decimal)

1 2 1 22 3643839 2 33346893 339871288 3 1233788894 0595119741

124 0111124557

995 05653635 5 033555666 7 6 77 0 7 08 8 8 8

Estatística Descritiva - 1.17

Page 18: EST0209MFQ - 01  Estatistica Descritiva

Colocando os resultados de três classes simultaneamente:

Ramo

Escola 1 Escola 2 Escola 3 Geral

1 2 22 3334689 3 3 33333346893 123378889 0033 0123333788894 0111124557

99345555689 011112344555555

6789995 03355566 334555567 033334555555566

676 7 55 12223 122235577 0 377888 0 003778888 8 35677899 3567788999 2449 2449

10 00 00

Observe que independente de qualquer análise mais aprofundada é possível “visualizar” as diferenças entre as três classes quanto ao desempenho das mesmas, e que neste caso o diagrama de ramo e folhas faz às vezes do histograma.

1.3.3.2 Gráficos de Linhas

Usado para ilustrar uma série temporal.

Produção de Petróleo Bruto no Brasil de 1976 a 1980 (x 1000 m³)

Fonte: Conjuntura Econômica (Fev. 1983)

1.3.3.3 Gráfico de linhas comparativas

População Urbana do Brasil por Região de 1940 a 1980 (x 1000)

Estatística Descritiva - 1.18

Page 19: EST0209MFQ - 01  Estatistica Descritiva

Fonte: Anuário Estatístico (1984)

Estatística Descritiva - 1.19

Page 20: EST0209MFQ - 01  Estatistica Descritiva

1.3.3.4 Gráficos de colunas ou barras

Representação gráfica da distribuição de freqüências. Este gráfico é utilizado para variáveis nominais e ordinais.

Características:- todas as barras devem ter a mesma largura- devem existir espaços entre as barras

Usado para ilustrar qualquer tipo de série.

População Urbana do Brasil em 1980 (x 1000)

Fonte: Anuário Estatístico (1984)

As larguras das barras que deverão ser todas iguais podendo ser adotado qualquer dimensão, desde que sejaconveniente e desde que não se superponham. O número no topo de cada barra pode ou não omitido, seforem conservada, a escala vertical pode ser omitida.

1.3.3.5 Gráfico de Barras Horizontais

As regras usadas para o gráfico de barras são iguais às usadas para o gráfico de colunas.

População Urbana do Brasil em 1980 (x 1000)

Fonte: Anuário Estatístico (1984)

Assim como os gráficos de Colunas podem ser construídos gráficos de barras comparativas.

Estatística Descritiva - 1.20

Page 21: EST0209MFQ - 01  Estatistica Descritiva

Estatística Descritiva - 1.21

Page 22: EST0209MFQ - 01  Estatistica Descritiva

1.3.3.6 Gráficos circulares ou de Setores (Pie Charts)

Representação gráfica da freqüência relativa (percentagem) de cada categoria da variável. Este gráfico é utilizado para variáveis nominais e ordinais. É uma opção ao gráfico de barras quando se pretende dar ênfase à comparação das percentagens de cada categoria. A construção do gráfico de setores segue uma regra de 3 simples, onde as freqüências de cada classe correspondem ao ângulo que se deseja representar em relação a freqüência total que representa o total de 360.

Características:

- A área do gráfico equivale à totalidade de casos (360o = 100%);- Cada “fatia” representa a percentagem de cada categoria

População Urbana e Rural do Brasil em 1980 (x 1000)

Fonte: Anuário Estatístico (1984)

1.3.3.7 Gráfico Pictorial - Pictograma

Tem por objetivo despertar a atenção do público em geral, muito desses gráficosapresentam grande dose de originalidade e de habilidade na arte de apresentação dos dados.

Evolução da matricula no Ensino Superior no Brasil de 1968 a 1994 (x 1000)

Estatística Descritiva - 1.22

Page 23: EST0209MFQ - 01  Estatistica Descritiva

Fonte: Grandes números da educação brasileira março de 1996

Estatística Descritiva - 1.23

Page 24: EST0209MFQ - 01  Estatistica Descritiva

1.3.3.8 Gráfico Polar

É o tipo de gráfico ideal para representar séries temporais cíclicas, ou seja, toda a sérieque apresenta uma determinada periodicidade.

1.3.3.9 Cartograma

É a representação de uma carta geográfica. Este tipo de gráfico é empregado quando o objetivo é o de figurar os dados estatísticos diretamente relacionados com as áreas geográficas ou políticas

Dados absolutos (população) – usa-se pontos proporcionais aos dados.

Dados relativos (densidade) – usa-se hacharas.

Exemplo:

População da Região Sul do Brasil - 1990Estado População

(hab.) Área (km22)

Densidade

Paraná 9.137.700 199.324 45,8Santa Catarina

4.461.400 95.318 46,8

Rio Grande do Sul

9.163.200 280.674 32,6

Total 22.762.300 575.316 39,56Fonte: IBGE

Estatística Descritiva - 1.24

Page 25: EST0209MFQ - 01  Estatistica Descritiva

Estatística Descritiva - 1.25

Page 26: EST0209MFQ - 01  Estatistica Descritiva

1.3.3.10 Polígono de Freqüências

Esse tipo de Gráfico é construído à partir do Histograma

Altura em centímetros de 160 alunos do Curso de Administração da UFSM - 1990

1.3.3.11 Ogivas

Altura em centímetros de 160 alunos do Curso de Administração da UFSM – 1990

1.3.3.12 Gráfico em segmentos de reta vertical

É utilizado para representar uma distribuição de freqüência pontual, onde os segmentos de reta são proporcionais às respectivas freqüências absolutas.

Altura em centímetros de 160 alunos do Curso de Administração da Uniso - 1990

Estatística Descritiva - 1.26

Page 27: EST0209MFQ - 01  Estatistica Descritiva

Fonte: Uniso (2003)

Estatística Descritiva - 1.27

Page 28: EST0209MFQ - 01  Estatistica Descritiva

1.4 Medidas de Posição

Das diversas medidas que possibilitam condensar um conjunto de dados, destacam-se as de tendência central, das quais a Média, a Mediana e a Moda são as mais importantes, que são assim denominadas em decorrência dos dados observados se agruparem em torno desses valores centrais.

1.4.1 Média

É o valor típico, representativo de um conjunto de dados. Fisicamente representa o ponto de equilíbrio da distribuição, sendo a mais importante medida de tendência central. A média da amostral é representada por , já quando estamos estudando a média da população a média é representada pela letra grega .

1.4.1.1 Estimativa da Média

De acordo com a disposição dos dados a média pode ser estimada de várias formas, conforme enumeradas abaixo:ar:

a) Para Dados Simples (dados não tabulados)

Sejam x1, x2, x3, . . ., xn, portanto “n” valores de X. A média aritmética simples de x representada por x é definida por:

, ou simplesmente

onde:

n é o número de elementos da amostra.

= soma dos valores de x

Exemplo: determinar a média aritmética simples dos valores 16, 18, 23, 21, 17, 16, 19 e 20, como podemos ver n = 8 (número de dados)

b) Para valores Distintos (Dados Tabelados em distribuições de freqüências)

Quando os dados estiverem agrupados numa distribuição de freqüência, usaremos a média aritmética dos x1, x2, . . ., xn, ponderados pelas respectivas freqüências absolutas F1, F2, . . . , Fn. Assim:

Estatística Descritiva - 1.28

Page 29: EST0209MFQ - 01  Estatistica Descritiva

x = , ou simplesmente x =

Onde:

Soma dos produtos – calculados linha por linha – dos valores de x por sua freqüência (F),

= Soma das freqüências (tamanho da amostra)

Exemplo: Sejam os dados abaixo:

x = 2 2 2 3 3 3 4 4 4 4 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 7 7 8

Como pode ser visto os dados de x, podem ser agrupados em freqüências F, conforme a tabela abaixo:

xi Fi xiFi

2 3 63 3 94 4 165 9 456 6 367 2 148 1 8

Total 28 134

x = =

c) Para dados Agrupados em Classes

No caso dos dados agrupados em classes, faz-se necessário utilizar o ponto médio de cada classe (PM), como novo valor de x, para proceder aos cálculos.

Exemplo: Calcular a média dos dados agrupados em uma distribuição de freqüências na forma como se seguem:

Classes Fi xi (PM)

xiFi

39 |-- 50 4 44,5 178,0

50 |-- 61 5 55,5 277,561 |-- 72 5 66,5 332,5

Estatística Descritiva - 1.29

Page 30: EST0209MFQ - 01  Estatistica Descritiva

72 |-- 83 6 77,5 465,083 |-- 94 5 88,5 442,5Total 25 - 1695,

5

Obs.: PM = ponto médio de cada classe, ver módulo 3.

x = =

1.4.1.2 Propriedades e emprego da média aritmética

1) Deseja-se obter a medida de posição que possui a maior estabilidade;

2) Houver necessidade de um tratamento algébrico;

3) A média aritmética tem certas propriedades interessantes e úteis, que explicam por que é ela a medida de tendência central mais usada:

4) A média aritmética de um conjunto de dados pode ser sempre calculada;

5) Para um dado conjunto de números a média aritmética é única.

6) A média é sensível a (ou afetada por) todos os valores do conjunto. Assim, se um valor se modifica, a média também se modifica.

1.4.1.3 Formas alternativas para estimativa da média

De acordo com a natureza dos dados nem sempre é apropriada estimar a média aritmética cabendo, nestes casos formas alternativas para sua estimação, quais sejam:

a) Média Geométrica: ( ):

A aplicação da média geométrica deve ser feita, quando os valores do conjunto de dados considerado se comportam segundo uma progressão geométrica (P.G.)ou dela se aproximam, sendo um caso particular o cálculo da taxa média dos juros (compostos) praticados num determinado período.

- Para dados Simples

Sejam x1, x2, x3, . . . , xn, valores x , a média geométrica de x é definida por:

= =

Estatística Descritiva - 1.30

Page 31: EST0209MFQ - 01  Estatistica Descritiva

Exemplo: As taxas de juros de determinada empresa, no último semestre foram 4,5%; 5%; 6%; 7%, 5% e 7%, calcule qual seria a taxa média (média geométrica)

Estatística Descritiva - 1.31

Page 32: EST0209MFQ - 01  Estatistica Descritiva

Mês Taxa

Índice

Acumulado

1 4,5 1,045

1,045

2 5 1,05 1,09725 3 6 1,06 1,163085 4 7 1,07 1,24450095 5 5 1,05 1,306725998 6 7 1,07 1,398196817

= = =

= 1,05745 ou, em outras palavras a taxa média mensal é 5,745 %

- Para valores distintos (Dados Tabelados)

b) Média Harmônica ( )

É usada para dados inversamente proporcionais, tais como aqueles que envolvem Velocidade Média, Preço de Custo Médio

- Para dados Simples (Dados Não Tabelados)

- Para valores distintos (Dados Tabulados)

1.4.2 Mediana

A mediana é uma quantidade que, como a média, também procura caracterizar o centro de uma distribuição de freqüências, porém, de acordo com o um critério diferente. Ela é calculada com base na ordem dos valores que formam o conjunto de dados.

A mediana pode ser usada como alternativa, em relação, à média, em situações da existência de valores extremos no conjunto de dados,

Estatística Descritiva - 1.32

Page 33: EST0209MFQ - 01  Estatistica Descritiva

como por exemplo, numa distribuição de rendas. Neste caso, a média não seria um bom representante dos dados, sendo nesse caso indicado o uso da mediana, por ser esta medida pouco influenciada por valores extremos.

Dessa maneira a interpretação da Mediana é a informação que pelo menos 50% dos dados possuem valor igual ou menor ao da Mediana.

1.4.2.1 Estimativa da posição da Mediana para dados Simples (Dados não tabulados)

Para dados não tabulados a Mediana corresponde ao elemento central da distribuição ordenada.

a) Dados Ímpares

Sendo n ímpar, como igual ao valor de ordem - posição da

mediana – será o termo desse conjunto.

Seja a a série: 36 37 39 40 40 41 41 42 42

Como a série é ímpar, a mediana será:

Posição da Mediana = = = 5º Termo da série ordenada

36 37 39 40 40 41 41 42 421º 2º 3º 4º 5º 6º 7º 8º 9º

b) Dados pares

Nesta situação a mediana poderá ser definida como qualquer

valor situado entre o de ordem e o de .

Exemplo: Calcule a mediana dos dados abaixo:

36 37 39 40 40 41 41 42 42 45

Como temos n = 10 (par) , a mediana pode ser representada por 2

posições, e o de , quais sejam:

5º Termo da Série e = 6º Termo da Série

36 37 39 40 40 41 41 42 42 451º 2º 3º 4º 5º 6º 7º 8º 9º 10º

Estatística Descritiva - 1.33

Page 34: EST0209MFQ - 01  Estatistica Descritiva

Na situação de dados pares temos dois valores para mediana, que serão coincidentes ou não, nessa situação existem duas alternativas, a primeira apresentar como mediana os dois valores – 40 e 41 – no

segundo caso calcular a média dos dois valores = 40,5.

Estatística Descritiva - 1.34

Page 35: EST0209MFQ - 01  Estatistica Descritiva

1.4.2.2 Mediana para valores distintos (Dados Tabulados)

Colocados os valores em ordem crescente, mediana é o elemento que ocupa a posição central.

Exemplo: Dada a distribuição abaixo, qual valor corresponde a mediana dos dados?

No caso de dados em classe, podemos utilizar simplesmente a fórmula

Md = , (uma vez que o total de dados é impar) assim, a posição da

mediana será dada por = 15º Termo

1.4.3 Moda

Ao ponto de maior freqüência de indivíduos, isto é, o ponto que ocorre com mais freqüência, damos o nome de Moda, ela representa, dessa forma, o valor mais típico da distribuição dos dados.

Aplica-se a moda:

1) Quando se deseja obter uma medida rápida e aproximada de posição;

2) Quando a medida de posição deve ser o valor mais típico da distribuição.

xi Fi Fac2 3 33 3 64 4 105 9 196 6 257 2 278 2 29Total 29

xi Fi Fac2 3 33 3 64 4 105 9 196 6 257 2 278 2 29Total

29

Estatística Descritiva - 1.35

Até ao valor 4, a freqüência acumulada é 10, portanto não chegamos ainda ao 15º termo que só vai ser alcançado no valor 5, que acumula 19 elementos, passando portanto pelo 15º elemento

Page 36: EST0209MFQ - 01  Estatistica Descritiva

1.4.3.1 Moda para dados simples

O valor modal será aquele que ocorrer com maior freqüência.

Estatística Descritiva - 1.36

Page 37: EST0209MFQ - 01  Estatistica Descritiva

Ex.: Determinar a moda da série abaixo:

4, 4, 6, 7, 7, 8, 8, 8, 9 e 10.

Pela simples observação, temos que o valor “8”, aparece com mais freqüência, portanto este valor é a moda.

Vale lembrar que, que uma série de dados pode apresentar mais de uma moda, como por exemplo:

4, 4, 4, 5, 5, 5, 5, 6, 6, 7, 8, 8, 8, 8, 9, 10, e 10

Como pode ser observado os valores 5 e 8 aparecem com maior freqüência o mesmo número de vezes (4), portanto, a série tem dois valores modais, podendo ser chamada de bi-modal, por sua vez, quando apresentar mais de dois valores modais, a série é chamada de plurimodal.de 3 modas usamos o termo multimodal, podendo ocorrer situações em que o conjunto não apresenta moda, chamado então de amodal

1.4.3.2 Moda para dados Distintos (Dados Tabulados)

Para dados agrupados em uma distribuição de freqüências basta indicar aquele que apresenta o maior número de dados.

Seja o Exemplo: Abaixo apresentar o valor modal:

1.4.4 Posição relativa da média, mediana e moda

Quando uma distribuição é simétrica, as três medidas coincidem. Porém, a assimetria torna -as diferentes e essa diferença é tanto maior quanto maior é a assimetria. Assim, em uma distribuição temos:

Mo = Md = curva simétrica

Mo < Md < curva assimétrica negativa

<Md < Mo curva assimétrica positiva

xi Fi 1

14 315 517 2 11

Estatística Descritiva - 1.37

O valor 15 representa a Moda da distribuição pois este é o valor de maior freqüência, ocorrendo 5 vezes.

Page 38: EST0209MFQ - 01  Estatistica Descritiva

Curva assimétrica negativa Curva assimétrica positiva

1.5 Separatrizes

Há uma série de medidas de posição semelhantes na sua concepção à mediana, embora não sejam medidas de tendência central.

Como se sabe, a mediana divide a distribuição em duas partes iguais quanto ao número de elementos de cada parte, por sua vez:

os quartis permitem dividir a distribuição em quatro partes iguais quanto ao número de elementos de cada uma;

os decis em dez partes; e

os centis em cem partes iguais.

Para simbolizar cada uma dessas medidas separatrizes, faremos:

Qi = quartis i = 1, 2, 3, Di = decis i = 1, 2, 3,...,9 Ci = centis i = 1, 2, 3,...,99

Assim, para dividir uma série ordenada de valores em quatro partes iguais, precisamos de três separatrizes (quartis); para dividi-la em dez, iremos recorrer a nove separatrizes (decis); em cem, recorremos a noventa e nove separatrizes (centis).

1.5.1 Quartil

Símbolo: Qi i = 1, 2 e 3

Estatística Descritiva - 1.38

Page 39: EST0209MFQ - 01  Estatistica Descritiva

Definição: Dado um conjunto ordenado (ordem crescente) de valores, os quartisde ordem i,= 1, 2 e 3 (Qi). representam os valores que dividem o conjunto de dados em partes 25%, 50% ou 75%, respectivamente.

(quartil inferior)

= Mediana

(quartil superior)

1.5.2 Decis

Símbolo: Di i= l, 2,.3,..,9

A definição dos decis obedece ao mesmo princípio da dos quarti com a modificação, que os dados são divididos em 10 % partes, assim abaixo do 1.o Decil temos 10% dos dados; do 2.o Decil, 20%; do 3.o Decil 30%, até alcançar o 9.o Decil, o qual abaixo dele teremos 90% dos dados

Importante destacar que acima do 9.o Decil temos os 10% dos dados de maior valor, e que normalmente só são analisados os limites do 1.o Decil (Decil Inferior) e do 9.o Decil (decil superior).

Assim teremos i = 1, 2, 3, 4, 5, 6, 7, 8, e 9

Para calcular os decis, recorreremos á seguinte expressao que define a ordem em que o decil se encontra:

, onde

n = número de valores observados

i = número que identifica o decil a ser calculado

Estatística Descritiva - 1.39

Page 40: EST0209MFQ - 01  Estatistica Descritiva

1.5.3 Percentis ou Centis

Símbolo: Ci= 1, 2, 3,...,99

Neste caso, cada parte em que foram subdivididos os valores do conjunto, através dos noventa e nove centis, contara com um centésimo ou um por cento dos valores do conjunto.

O elemento que definirá a ordem do centil, em urna distribuiçâ’o de freqüências de valores tabulados agrupados em classes, será encontrado pelo emprego da expressão:

onde

i = número identificador do centil n = número total de observações

O gráfico abaixo apresenta um exemplo da aplicação das separatrizes, combinando, centis, decis e quartis

Gráfico: Evolução do desenvolvimento do peso (meninas) de 1 à 19 anos

Seja o exemplo: Utilizando os dados abaixo, calcular as seguintes medidas:

Estatística Descritiva - 1.40

Page 41: EST0209MFQ - 01  Estatistica Descritiva

1,2

2,3

3,3

3,7

3,8

4,0

4,5

5,5

5,6

5,5

2,3

2,8

3,3

3,1

4,9

4,5

4,1

5,3

5,6

5,3

2,6

2,3

3,9

3,2

4,1

8,8

4,9

5,5

6,7

7,0

2,4

2,9

3,8

3,8

4,7

4,4

4,1

4,1

4,2

5,0

Estatística Descritiva - 1.41

Page 42: EST0209MFQ - 01  Estatistica Descritiva

Preliminarmente devemos ordenar os dados:

1,2

2,3

2,3

2,3

2,4

2,6

2,8

2,9

3,1

3,2

3,3

3,3

3,7

3,8

3,8

3,8

3,9

4,0

4,1

4,1

4,1

4,1

4,2

4,4

4,5

4,5

4,7

4,9

4,9

5,0

5,3

5,3

5,5

5,5

5,5

5,6

5,6

6,7

7,0

8,8

a) Primeiro Decil = 4o Termo = 2,3

b) Primeiro Quartil = 10º Termo = 3,2

c) Mediana = mediana é par = 20º e 21º termo = 4,1

d) Terceiro Quartil = 30º Termo = 5,0

e) Nono Decil = 36º Termo = 5,6

Conclusões:

Pelo menos metade dos alunos tem notas inferiores a 5,0;

Cinqüenta por cento dos alunos estão notas entre 3,2 e 5,0

Os dez por cento dos alunos de pior desempenho tem notas menores que 2,3;

Os dez por cento dos alunos de melhor desempenho tem notas superiores a 5,6.

1.5.4 Box-plot

O box-plot é um método alternativo ao histograma para representar os dados. O box-plot fornece informações sobre as características de posição, dispersão, assimetria, comprimento das caudas e outliers de um conjunto de dados. No entanto, a maior importância desse tipo de gráfico está na identificação de possíveis outliers no conjunto de dados.

A construção de um box-plot exige que tenhamos as seguintes informações:

Estatística Descritiva - 1.42

Page 43: EST0209MFQ - 01  Estatistica Descritiva

valor mínimo;primeiro quartil;mediana;terceiro quartil; e valor máximo.

Como a mediana revela uma tendência central, ao passo que os quartis indicam a dispersão dos dados (através do cálculo do intervalo interquartil), os box-plot têm a vantagem de não serem tão sensíveis a valores extremos como outras medidas baseadas na média e no desvio-padrão.

Um dos aspectos mais convenientes do uso dos box-plot é a possibilidade de comparação entre dois ou mais conjuntos de dados.

1.5.4.1 Como construir o diagrama de Box-Plot

Dados, os valores da mediana, 1º e 3º quartis dos salários de duas categorias de pessoas – solteiras e casadas – construir o box-plot dos dados e concluir.

Medidas-resumo para o box-plot de salários e estado civil

Medida solteiro não solteiroMínimo 1,00 1,25

Q1 3,28 3,97Mediana 4,66 5,43

Q3 6,01 7,39Máximo 8,20 9,20

Etapas: (Salários dos solteiros)

1. Traçar uma linha – em escala – que contenha todos os valores dos dados

2. Um retângulo é desenhado com as extremidades assinaladas no primeiro e no terceiro quartis. Para os dados dos salários dos solteiros, por exemplos, temos:

Q1 = 3,28 e Q3 = 6,01. Esse retângulo contém 50% dos dados.

Estatística Descritiva - 1.43

Page 44: EST0209MFQ - 01  Estatistica Descritiva

3. Urna linha vertical é desenhada no retângulo na posição da mediana (4,66 para os dados dos salários dos solteiros).

4. A partir do limite de Q1, prolongar uma linha perpendicular, limitada pelo valor mínimo, que é igual a 1,00 ; fazendo o mesmo a partir de Q3 que será limitado pelo valor máximo que é 8,00

5. Repetir o mesmo procedimento para os salários dos casados, cujo gráfico da seguinte forma:

Conclusões: Podemos observar que todas a renda dos não solteiros é superior a dos solteiros, incluindo-se no caso o Valor Mediano. Quanto à renda mínima a diferença entre os solteiros e não solteiros é pequena, por sua vez, a renda máxima dos não solteiros é significativamente superior aos solteiros.

1.5.4.2 Box plot e identificação de valores aberrantes (outliers)

A partir dos dados utilizados para a construção do box plot é possível calcular limites para valores considerados como aberrantes (outliers), isto é, valores que pela sua magnitude estão muito acima, ou abaixo, do que seria aceitável para um conjunto de dados.

Dados: Mínimo = 2210 ;Q1 = 2365;Mediana = 2405;Q3 = 2500; e

Estatística Descritiva - 1.44

Page 45: EST0209MFQ - 01  Estatistica Descritiva

Máximo = 2630.

Construir um box-plot no qual estejam indicados os limites para a presença de valores aberrantes (outliers)

1. Inicialmente repetir os procedimentos de 1 a 4, conforme descrito em 6.2.1;

2. Calcular a amplitude interquartil, AIQ = Q3 – Q1, que servirá de base para determinação dos valores máximo e mínimo.

AIQ = Q3 – Q1 AIQ = 2500 – 2365 = 135

3. Cálculos dos limites superior e inferior

Limite superior Q3 + 1,5*AIQ 2500 + 1,5*135 = 2702,50

Limite inferior: Q1 – 1,5*AIQ 2500 – 1,5*135 = 2162,50

Nota: o valor 1,5 é da fórmula.

4. Traçar as linhas para os limites máximo e mínimo, assinalando como limites máximo e mínimo os valores 2702,50 e 2162,50, respectivamente.

5. Na eventualidade da existência, nos dados, de valores que estejam fora dos limites máximo e mínimo, isto é, acima de 2702,50 ou abaixo de 2162,50 serão considerados como discrepantes (outliers), que são representados pelo símbolo *.

Estatística Descritiva - 1.45

Page 46: EST0209MFQ - 01  Estatistica Descritiva

Na figura a seguir incluímos linhas que mostram a posição dos limites. Essas linhas foram desenhadas para mostrar como os limites são calculados e onde elas são assinaladas para os dados dos salários. Embora os limites sejam sempre calculados, eles raramente são desenhados nas plotagens de retângulos.

Gráfico – Box-plot de Salários, com indicação de limites inferior e superior.

Vantagens do uso dos procedimentos da análise das separatrizes:

são fáceis de usar;

poucos cálculos numéricos são necessários.

simplesmente classificamos os valores dos dados em ordem ascendente e identificamos a regra dos cinco itens;

A plotagem dos retângulos, também chamados de Diagrama de Caixas ou Box-plot pode então ser facilmente construída.

não é necessário calcular a média e o desvio padrão dos dados.

1.6 Medidas de Dispersão

Além das medidas de tendência central dados podem ser descritos em termos de suas Medidas de Dispersão (Variabilidade) que, diferentemente das Medidas de Tendência Central, visam descrever os dados no sentido de informar o grau de dispersão ou afastamento dos valores observados em torno de um valor central representativo chamado média. Informa se um conjunto de dados é homogêneo (pouca variabilidade) ou heterogêneo (muita variabilidade).

Para estudarmos as medidas de variabilidade para dados não tabelados usaremos um exemplo prático. Supomos que uma empresa esteja querendo contratar um funcionário, e no final da concorrência

Estatística Descritiva - 1.46

Page 47: EST0209MFQ - 01  Estatistica Descritiva

sobraram dois candidatos para uma única vaga. Então foi dado 4 tarefas para cada um, onde as mesmas tiveram como registro o tempo (em minutos) de execução.

Assim para a sérieTAREFAS 1 2 3 4OPERÁRIO 1 (TEMPO)

55

45

52

48

OPERÁRIO 2 (TEMPO)

30

70

40

60

Ainda que a média dos tempos seja a mesma para os dois operários, pode-se observar que a variabilidade entre os dois operários é diferente.

Pela análise gráfica podemos perceber que o operário 1 apresenta uma dispersão menor dos tempos, quando comparado com o operário 2, ainda que o tempo médio para os dois operários seja de 50.

Estatística Descritiva - 1.47

Page 48: EST0209MFQ - 01  Estatistica Descritiva

1.6.1 Medidas de Variabilidade e Dispersão Absolutas

As medidas de dispersão são classificadas entre Absolutas e Relativas.

1.6.1.1 Desvio Extremo ou Amplitude Total (R): É a diferença entre o maior e o menor valor de um conjunto de dados

R = Xmax – X min

Para o exemplo dos Operários:

para A) Xmáx = 55 Xmin = 48 R = 55 – 48 = 7

para B) Xmáx = 70 Xmin = 30 R = 70 – 30 = 40

Apesar dos inconvenientes dessa medida, há situações especiais em que ela resulta satisfatória, como por exemplo, da amplitude da temperatura em um dia ou ano.

1.6.1.1 Desvio Médio (Dm ):

O desvio médio (Dm) ou média dos desvios é igual à média aritmética dos valores absolutos dos desvios tomados em relação à média.

Quando os valores não vierem dispostos em uma tabela de freqüência, o desvio médio será calculado, de acordo com a definição, através do emprego da seguinte fórmula:

Exemplo: calcular o desvio médio dos dados abaixo:

A = { 55, 45, 52, 48} , média = = 50,00

xi média |xi - média|55

50 | 55 – 50 | = 5

45

50 | 45 – 50 | = 5

52

50 | 52 – 50 | = 2

48

50 | 48 – 50 | = 2

Estatística Descritiva - 1.48

Page 49: EST0209MFQ - 01  Estatistica Descritiva

14

Pela fórmula, Dm = = 3,50

O Desvio Médio tem aplicação restrita, não sendo comum o seu uso no dia a dia em cálculos estatísticos.

1.6.1.3 Variância

a) Para dados Populacionais não tabulados

Dessa forma, o cálculo da Variância para dados não agrupados em classes é dado por:

que por transformação temos:

Utilizando-se dos mesmos dados do exemplo de Desvio Médio Absoluto, o cálculo da variância é dado por:

A = {55 45 52 48 }

Resolução:xi x2

55 302545 202552 270448 2304

200 10058

= = = 14,50

b) Para os dados Populacionais Tabulados em distribuição de freqüências

A variância para os dados agrupados em Classes , é dada por:

, podendo ser também expressa da seguinte maneira:

Estatística Descritiva - 1.49

Page 50: EST0209MFQ - 01  Estatistica Descritiva

xi = ponto médio da classeFi = freqüência dos dados na classe

Exemplo: Calcular o Desvio Padrão Populacional dos dados abaixo:

Consumo Fi 05 |--- 25

4

25 |--- 45

6

45 |--- 65

14

65 |--- 85

26

50

Resolução

Consumo Fi Xi = PM xi2*Fi xi*Fi 05 |--- 25

4

15 152 * 4 = 900

15 * 4 = 60

25 |--- 45

6

35 352 * 6 = 7350

35 * 6 = 210

45 |--- 65

14

55 552 * 14 = 42350

55 * 14 = 770

65 |--- 85

26

75 752 * 26 = 146250

75 * 26 = 1950

50

- 196850

2990

= = 360,96

1.6.1.4 Desvio Padrão

Observando a fórmula para os cálculos da variância, notamos tratar-se de uma soma de quadrados. Dessa forma, se a unidade da variável for, por exemplo, metros (m), teremos como resultado metro

Estatística Descritiva - 1.50

Page 51: EST0209MFQ - 01  Estatistica Descritiva

quadrado (m2). Para voltarmos à variável original, necessitamos definir uma outra medida de dispersão que é a raiz quadrada da variância denominado de desvio padrão. Assim:

é o desvio padrão populacional

S = é o desvio padrão amostral

Em suma, para o cálculo do desvio padrão deve primeiramente determinar o valor da variância e, em seguida extrair a raiz quadrada desse resultado.

a) Para dados populacionais não tabelados:

Para populações =

Estatística Descritiva - 1.51

Page 52: EST0209MFQ - 01  Estatistica Descritiva

b) Para dados populacionais tabelados

Para populações

(n - 1) é usado como um fator de correção, onde devemos considerar a variância amostral como uma estimativa da variância populacional. 2, para a população, com denominador igual ao número de dados n; S2, para a amostras, com denominador igual ao número de dados menos um, n – 1

1.6.1.5 Variância e Desvio padrão para dados amostrais

Quando se trata de dados amostrais (situação mais comum)deve-se trabalhar com um grau de liberdade a menos, isto é, em vez de se fazer a divisão por n , dividi-se por n – 1, isto decorre pelo fato de, para o cálculo tanto da variância quanto para o desvio padrão tem-se como referência para o cálculo dos afastamentos o valor da média.

Uma vez que a média é calculada à partir dos próprios dados existe a necessidade de se descontar esse valor, motivo pelo qual a divisão passa a ser feita por n – 1.

Na prática, para grandes conjuntos de dados (mais do que 30 dados) as diferenças obtidas entre os valores dos desvios e variâncias populacionais com os respectivos correspondentes amostrais são desprezíveis.

a) Variância Amostral

- para dados não tabulados

=

Para o exemplo dado o valor da variância fica assim recalculado

= = = 19,33

Estatística Descritiva - 1.52

Page 53: EST0209MFQ - 01  Estatistica Descritiva

- Para os dados tabulados em distribuição de freqüências

Para o exemplo dado o valor da variância fica assim recalculado

= = 368,33

b) Desvio padrão amostral

- para dados não tabulados

- para dados tabulados em distribuições de freqüências

1.6.2 Medidas de Dispersão Relativa

1.6.2.1 Coeficiente de Variação de Pearson

Trata-se de uma medida relativa de dispersão, útil para a comparação em termos relativos do grau de concentração em torno da média de séries distintas. É dado por:

xVC

.. ou x

SVC ..

Estatística Descritiva - 1.53

Page 54: EST0209MFQ - 01  Estatistica Descritiva

Exemplo: Numa empresa, o salário médio dos homens é de R$ 4.000,00, com desvio padrão R$ 1.500,00, e o das mulheres é em média de R$ 3.000,00, com desvio padrão de R$ 1.200,00. Calcule o C.V. %

Para os homens = ou 37,5%

Para as mulheres = ou 40,0%

Logo, podemos concluir que os salários das mulheres apresentam maior dispersão relativa que os dos homens.

Para efeitos práticos:

Considera-se que um Coeficiente de Variação superior a 30% indica alto grau de dispersão e, conseqüentemente, pequena representatividade da média devendo a média obtida ser vista com restrições, no entanto, se o CV% for superior a 50% isto é um indicador que a média não representa adequadamente o conjunto dos dados

Quantos menores os valores CV tanto mais representativa o valor da média. Se não houver dispersão alguma o coeficiente de variação será igual 0 o que indica que todos os valores são iguais ao valor da média.

1.6 Medidas de Assimetria e Curtose

1.6.1 Assimetria

É o grau de desvio ou afastamento da distribuição. Os coeficientes de assimetria ou Pearson determina a forma da curva do polígono de freqüência de uma distribuição.

Quando uma distribuição é simétrica, as medidas de média, mediana e moda coincidem. Porém, a assimetria torna-as diferentes e essa diferença é tanto maior quanto maior é a assimetria. Assim, em uma distribuição temos:

Mo = Md = curva simétrica

Mo < Md < curva assimétrica negativa

<Md < Mo curva assimétrica positiva

Estatística Descritiva - 1.54

Page 55: EST0209MFQ - 01  Estatistica Descritiva

Curva assimétrica negativa Curva assimétrica positiva

a) Coeficientes de Assimetria

Uma vez conhecidos as medidas de posição e variabilidade é possível calcular o coeficiente de Assimetria que é dado por:

3s

X MedA

S

Assim temos: As = 0 a distribuição é simétrica

As > 0 a distribuição é assimétrica positiva ou à direita

As < 0 a distribuição é assimétrica negativa ou esquerda

b) Escalas de assimetria:

Em termos de magnitude, temos:

| AS | < 0,15 assimetria pequena

0,15 < | AS | < 1 assimetria moderada

| AS | > 1 assimetria elevada

Estatística Descritiva - 1.55

Page 56: EST0209MFQ - 01  Estatistica Descritiva

Obs: Suponhamos AS = - 0,49 a assimetria é considerada moderada e negativa

Suponhamos AS = 0,75 a assimetria é considerada moderada e positiva 

1.6.2 Curtose

Entende-se por curtose o grau de afastamento de uma distribuição. Com referencia ao grau de achatamento, podemos ter:

⇒ CURVA PLATICÚRTICA

⇒ CURVA MESOCÚRTICA

⇒ CURVA LEPTOCÚRTICA

Para medir o grau de curtose utilizamos o coeficiente:

3 1

90 102

Q QK

P P

Se K = 0,263 diremos que a curva correspondente à distribuição de freqüência é mesocúrtica (distribuição. Normal)

Se K > 0,263 diremos que a curva correspondente à distribuição de freqüência é platicúrtica

Estatística Descritiva - 1.56

Page 57: EST0209MFQ - 01  Estatistica Descritiva

Se K < 0,263 diremos que a curva correspondente à distribuição de freqüência é leptocúrtica

Estatística Descritiva - 1.57