estatÍstica computacional – aula 1 · estatÍstica computacional – aula 1 página 1 de 12...

12
ESTATÍSTICA COMPUTACIONAL – AULA 1 Página 1 de 12 RESUMO DE DADOS 1 TIPOS DE VARIÁVEIS Em estatística, uma variável é um atributo mensurável que tipicamente varia entre indivíduos de uma população. As variáveis podem ser classificadas em quantitativas e qualitativas. As variáveis quantitativas se caracterizam por ser numericamente mensuráveis, como idade, altura, peso. Estas podem contínuas quando assumem valores pertencentes a um intervalo de números reais como, por exemplo, estatura e peso. Mas podem também ser do tipo discreta, cujos possíveis valores formam um conjunto finito ou enumerável de números e que resultam frequentemente de uma contagem como, por exemplo, número de filhos, número de cigarros fumados por dia. As variáveis qualitativas estão associadas a qualidades ou atributos do indivíduo pesquisado e não podem ser mensuráveis numericamente. As variáveis qualitativas podem ser do tipo nominal, para a qual não permite nenhuma ordenação nas possíveis realizações como, por exemplo, cor dos olhos, local de nascimento. Já a variável qualitativa do tipo ordinal caracteriza-se por permitir ordenação, como classe social, grau de escolaridade. Uma variável originalmente quantitativa pode ser coletada de forma qualitativa. Por exemplo, a variável idade, medida em anos completos, é quantitativa (contínua); mas se considerar-se apenas faixas etárias (0 a 5 anos, 6 a 10 anos, etc.), passa a ser qualitativa (ordinal). Outro exemplo é o peso de lutadores de boxe, considerada originalmente uma variável quantitativa (contínua), mas que pode se tornar qualitativa (ordinal) se for considerado as categorias do boxe (peso-pena, peso-leve, peso-pesado, etc.). Outro ponto importante é que nem sempre uma variável representada por números é quantitativa. Exemplos disso são as variáveis qualitativas: número de telefone, número da residência, número do RG. Exemplo semelhante de variável qualitativa é o sexo do filhote, que pode ser registrado como 1 para macho e 2 para fêmea, por exemplo. 2 DISTRIBUIÇÕES DE FREQUÊNCIAS Quando se resume uma grande quantidade de dados, costuma-se frequentemente distribuí-los em classes ou categorias e determinar o número de indivíduos pertencentes a cada uma das classes, o que se chama freqüência de classe.

Upload: vucong

Post on 26-Jan-2019

226 views

Category:

Documents


0 download

TRANSCRIPT

ESTATÍSTICA COMPUTACIONAL – AULA 1

Página 1 de 12

RESUMO DE DADOS

1 TIPOS DE VARIÁVEIS

Em estatística, uma variável é um atributo mensurável que tipicamente varia entre

indivíduos de uma população. As variáveis podem ser classificadas em quantitativas e

qualitativas.

As variáveis quantitativas se caracterizam por ser numericamente mensuráveis, como

idade, altura, peso. Estas podem contínuas quando assumem valores pertencentes a um

intervalo de números reais como, por exemplo, estatura e peso. Mas podem também ser do

tipo discreta, cujos possíveis valores formam um conjunto finito ou enumerável de números e

que resultam frequentemente de uma contagem como, por exemplo, número de filhos,

número de cigarros fumados por dia.

As variáveis qualitativas estão associadas a qualidades ou atributos do indivíduo

pesquisado e não podem ser mensuráveis numericamente. As variáveis qualitativas podem ser

do tipo nominal, para a qual não permite nenhuma ordenação nas possíveis realizações como,

por exemplo, cor dos olhos, local de nascimento. Já a variável qualitativa do tipo ordinal

caracteriza-se por permitir ordenação, como classe social, grau de escolaridade.

Uma variável originalmente quantitativa pode ser coletada de forma qualitativa. Por

exemplo, a variável idade, medida em anos completos, é quantitativa (contínua); mas se

considerar-se apenas faixas etárias (0 a 5 anos, 6 a 10 anos, etc.), passa a ser qualitativa

(ordinal). Outro exemplo é o peso de lutadores de boxe, considerada originalmente uma

variável quantitativa (contínua), mas que pode se tornar qualitativa (ordinal) se for

considerado as categorias do boxe (peso-pena, peso-leve, peso-pesado, etc.).

Outro ponto importante é que nem sempre uma variável representada por números é

quantitativa. Exemplos disso são as variáveis qualitativas: número de telefone, número da

residência, número do RG. Exemplo semelhante de variável qualitativa é o sexo do filhote, que

pode ser registrado como 1 para macho e 2 para fêmea, por exemplo.

2 DISTRIBUIÇÕES DE FREQUÊNCIAS

Quando se resume uma grande quantidade de dados, costuma-se frequentemente

distribuí-los em classes ou categorias e determinar o número de indivíduos pertencentes a

cada uma das classes, o que se chama freqüência de classe.

ESTATÍSTICA COMPUTACIONAL – AULA 1

Página 2 de 12

Uma distribuição de freqüência ou tabela de freqüência é um arranjo tabular dos dados

distribuídos por classes, juntamente com as freqüências correspondentes.

A tabela seguinte contém informações relativas aos 36 empregados da seção de

orçamentos da Companhia MB.

Os dados da tabela anterior podem ser resumidos de várias formas. A tabela seguinte

apresenta a distribuição de freqüências da variável grau de instrução. Observando os

resultados da segunda coluna, vê-se que 12 empregados têm o ensino fundamental, 18 o

ensino médio e 6 possuem o ensino superior, de um total de 36 empregados.

ESTATÍSTICA COMPUTACIONAL – AULA 1

Página 3 de 12

Outra medida útil na interpretação de tabelas de freqüências é a proporção de cada

realização em relação ao total, também chamada de freqüência relativa. Expressa como

proporção ou porcentagem (terceira e quarta colunas da tabela, respectivamente), permite

comparar resultados de duas pesquisas distintas como, por exemplo, comparar a distribuição

de freqüências quanto ao grau de instrução de empregados de diferentes seções de uma

empresa, ou ainda, comparar a evolução do grau de instrução em diferentes anos.

A tabela seguinte refere-se à distribuição de freqüências dos salários dos 36 empregados

da seção de orçamentos da Companhia MB por faixa de salários. Os dados relativos aos

salários foram agrupados por faixas, pois de outro modo não seria possível resumi-los, pois

não existem observações iguais.

Nota-se que, ao resumir os dados referentes a uma variável contínua, perde-se alguma

informação. Não se sabe, por exemplo, quais os 8 salários da classe de 12 a 16, supondo-se

que todos os 8 são iguais ao ponto médio da classe, que é 14.

Quanto à definição das classes, cada classe é definida por um intervalo, chamado intervalo

de classe. A escolha dos intervalos é arbitrária. Entretanto, deve-se observar que um número

ESTATÍSTICA COMPUTACIONAL – AULA 1

Página 4 de 12

pequeno de classe perde-se informação, e com um número grande de classes, o objetivo de

resumir fica prejudicado. Geralmente, utiliza-se a mesma amplitude para todas as classes,

embora possam ser usados intervalos de classes desiguais.

3 GRÁFICOS

A visualização de uma tabela de freqüências fica mais fácil por meio de sua representação

gráfica. Existem vários tipos de gráficos que podem ser usados para este fim.

3.1 Gráficos para variáveis qualitativas

A partir da tabela de freqüências exemplificada anteriormente, relativa ao grau de

instrução, é apresentado o gráfico em barras a seguir.

O gráfico em barras consiste na construção de retângulos ou barras, em que uma das

dimensões é proporcional à magnitude a ser representada, sendo a outra arbitrária, porém

igual para todas as barras. As barras são dispostas horizontalmente ou verticalmente,

paralelamente umas às outras.

A figura seguinte exibe o gráfico de composição em setores para a tabela de freqüências

relativas aos salários, apresentada anteriormente. O gráfico de composição em setores

consiste num círculo de raio arbitrário, representando o todo, dividido em setores, que

correspondem às partes de maneira proporcional.

ESTATÍSTICA COMPUTACIONAL – AULA 1

Página 5 de 12

3.2 Gráficos para variáveis quantitativas

A variedade de representações gráficas para variáveis quantitativas é maior do que para

variáveis qualitativas. Além dos gráficos em barras e em setores, é possível utilizar muitas

outras formas de representação gráfica. Considere-se a seguinte tabela de freqüências, obtida

a partir dos dados dos empregados da seção de orçamentos da Companhia MB.

A figura seguinte exibe o gráfico em barras relativo à tabela de freqüências anterior.

ESTATÍSTICA COMPUTACIONAL – AULA 1

Página 6 de 12

A figura a seguir exibe o gráfico de dispersão unidimensional para a mesma tabela de

freqüências. Nesse tipo de gráfico, os valores são representados por pontos ao longo da reta

(provida de uma escala). Valores repetidos são acompanhados por um número que indica as

repetições (gráfico (a)). Outra possibilidade é empilhar os valores repetidos, como mostra o

gráfico (b). Ou, ainda, apresentar o ponto mais alto da pilha, como em (c).

Considerando a tabela de freqüências relativas às classes de salário, apresentada

anteriormente, é possível representá-la graficamente por um gráfico de barras. Todavia, faz-se

necessário usar o artifício de aproximar a variável contínua por uma variável discreta, sem

perder muita informação. Nesse caso, supôs-se que todos os salários em determinada classe

são iguais ao ponto médio dessa classe.

ESTATÍSTICA COMPUTACIONAL – AULA 1

Página 7 de 12

Considerando a tabela de freqüências que considera as classes de salários dos empregados

da seção de orçamentos da Companhia MB, é possível construir outro tipo de gráfico,

denominado histograma.

O histograma é um gráfico em barras contíguas, com as bases proporcionais aos intervalos

das classes e a área de cada retângulo proporcional à respectiva freqüência. Pode-se usar

tanto a freqüência absoluta (ni) como a relativa (fi). Considerando a amplitude do i-ésimo

intervalo por Δi, para que a área do retângulo respectivo seja proporcional a fi, a sua altura

deve ser proporcional a fi / Δi (ou a ni / Δi), que é chamada densidade de freqüência da i-ésma

classe. Quanto mais dados se tem em uma classe, mais alto deve ser o retângulo. Com essa

convenção, a área total do histograma será igual a 1.

A seguir, é apresentado outro histograma relativo à tabela de freqüências que considera o

número de filhos dos empregados da seção de orçamentos da Companhia MB, o que mostra a

possibilidade de construção de histogramas para variáveis discretas.

ESTATÍSTICA COMPUTACIONAL – AULA 1

Página 8 de 12

EXERCÍCIOS

1) Contou-se o número de erros de impressão da primeira página de um jornal durante 50

dias, obtendo-se os resultados abaixo:

8 11 8 12 14 13 11 14 14 15

6 10 14 19 6 12 7 5 8 8

10 16 10 12 12 8 11 6 7 12

7 10 14 5 12 7 9 12 11 9

14 8 14 8 12 10 12 22 7 15

a. Represente os dados graficamente.

b. Faça um histograma.

2) Você foi convidado para chefiar uma seção da Companhia MB, podendo escolher entre a

seção de orçamentos e a seção técnica. Após analisar o tipo de serviço realizado pelas

duas seções, você ficou indeciso e resolveu tomar a decisão baseado em dados fornecidos

para as duas seções, exibidos nas tabelas seguintes. Baseado nesses dados, qual seria a

sua decisão? Justifique.

SEÇÃO DE ORÇAMENTOS SEÇÃO TÉCNICA

Instrução Frequência

Fundamental 12

Médio 18

Superior 6

Total 36

Instrução Frequência

Fundamental 15

Médio 30

Superior 5

Total 50

Classe de

salários Frequência

[4,00; 8,00) 10

[8,00; 12,00) 12

[12,00; 16,00) 8

[16,00; 20,00) 5

[20,00; 24,00) 1

Total 36

Classe de

salários Frequência

[7,50; 10,50) 14

[10,50; 13,50) 17

[13,50; 16,50) 11

[16,50; 19,50) 8

Total 50

ESTATÍSTICA COMPUTACIONAL – AULA 1

Página 9 de 12

3) Construa os seguintes gráficos, com base nas tabelas de freqüência da questão anterior:

a. Gráfico em setores para a variável instrução relativa à seção técnica.

b. Gráfico em barras para a variável classe de salários relativa à seção técnica.

4) As tabelas seguintes exibem a freqüência e a freqüência acumulada dos salários de 70

empregados da empresa P&R. Com base nesses dados, construa o histograma relativo à

segunda tabela e o gráfico da freqüência acumulada relativo à última tabela.

Salários Frequência

[5.000,00; 6.000,00) 8

[6.000,00; 7.000,00) 10

[7.000,00; 8.000,00) 16

[8.000,00; 9.000,00) 15

[9.000,00; 10.000,00) 10

[10.000,00; 11.000,00) 5

[11.000,00; 12.000,00) 3

[12.000,00; 13.000,00) 0

[13.000,00; 14.000,00) 1

[14.000,00; 15.000,00) 0

[15.000,00; 16.000,00) 1

[16.000,00; 17.000,00) 0

[17.000,00; 18.000,00) 1

Total 70

Salários Frequência

[5.000,00; 6.000,00) 8

[6.000,00; 7.000,00) 10

[7.000,00; 8.000,00) 16

[8.000,00; 9.000,00) 15

[9.000,00; 10.000,00) 10

[10.000,00; 11.000,00) 5

[11.000,00; 12.000,00) 3

[12.000,00; 18.000,00) 3

Total 70

Salários Frequência

[5.000,00; 6.000,00) 8

[6.000,00; 7.000,00) 18

[7.000,00; 8.000,00) 34

[8.000,00; 9.000,00) 49

[9.000,00; 10.000,00) 59

[10.000,00; 11.000,00) 64

[11.000,00; 12.000,00) 67

[12.000,00; 18.000,00) 70

ESTATÍSTICA COMPUTACIONAL – AULA 1

Página 10 de 12

5) A MB Indústria e Comércio, desejando melhorar o nível de seus funcionários em cargos de

chefia, montou um curso experimental e indicou 25 funcionários para a primeira turma.

Os dados referentes à seção a que pertencem, a notas e graus obtidos no curso estão na

tabela a seguir. Como havia dúvidas quanto à adoção de um único critério de avaliação,

cada instrutor adotou seu próprio sistema de aferição. Usando dados da tabela, responda

a seguir:

a. Após observar atentamente cada variável, e com o intuito de resumi-las, como

você identificaria (qualitativa ordinal ou nominal e quantitativa discreta ou

contínua) cada uma das nove variáveis listadas?

b. Sugira um agrupamento por classes de notas para resumir os dados de cada

uma das variáveis: administração, direito e política.

c. Construa o histograma para as notas da variável redação.

d. Construa a distribuição de freqüências da variável metodologia e faça um

gráfico para indicar essa distribuição.

6) A tabela seguinte fornece a distribuição de 250 empresas classificadas segundo o número

de empregados. Nessa tabela, observa-se que são utilizados intervalos de classes

ESTATÍSTICA COMPUTACIONAL – AULA 1

Página 11 de 12

desiguais devido às diferenças de concentração de indivíduos nas classes. Para construir o

histograma, basta lembrar que a área total deve ser igual a 1 (ou 100%), o que sugere usar

no eixo das ordenadas os valores de fi/Δi.

7) Uma medida muito usada para descrever dados quantitativos é a frequência acumulada,

que indica quantos elementos, ou que porcentagem deles, está abaixo de certo valor. Na

tabela a seguir, a terceira e a quinta colunas indicam, respectivamente, a freqüência

absoluta acumulada e a proporção (porcentagem) acumulada. Desta forma, observando a

tabela, podemos afirmar que 27,78% dos indivíduos ganham até oito salários mínimos;

61,11% ganham até 12 salários mínimos, e assim por diante. Com base na tabela,

construa o gráfico para as porcentagens acumuladas.

8) Sejam os dados da tabela seguinte referentes à dureza de 30 peças de alumínio.

ESTATÍSTICA COMPUTACIONAL – AULA 1

Página 12 de 12

A figura seguinte exibe o diagrama ramo-e-folhas para os dados de dureza apresentados

anteriormente, no qual se optou por truncar cada valor, omitindo os décimos. Esta forma de

resumo de dados apresenta como vantagem em relação ao histograma a menor perda (ou

perda nenhuma) de informação sobre os dados em si.

Agora considere as taxas médias geométricas de incremento anual (por 100 habitantes)

dos 30 maiores municípios do Brasil, exibidos na tabela a seguir, e construa os gráficos e/ou

diagramas solicitados.

a. Histograma.

b. Dispersão unidimensional.

c. Ramo-e-folhas.