nocoes de estatistica

65
NOÇÕES DE ESTATÍSTICA

Upload: adelina-antunes

Post on 12-Aug-2015

342 views

Category:

Documents


8 download

TRANSCRIPT

Page 1: Nocoes de Estatistica

NOÇÕES DE

ESTATÍSTICA

Page 2: Nocoes de Estatistica

Noções de estatística

2

Índice geral I. Introdução à estatística

1. Objecto da estatística 2. População e amostra 3. Recenseamento e sondagem 4. Estatística descritiva e estatística indutiva 5. Campos de aplicação

II. Dados, tabelas e gráficos 1. Tipos de dados 2. Representações gráficas de dados

III. Medidas de localização 1. Introdução 2. Média 3. Moda 4. Mediana 5. Quantis

IV. Medidas de dispersão 1. Introdução 2. Variância 3. Desvio-padrão 4. Amplitude 5. Amplitude inter-quartil

V. Distribuições bidimensionais 1. O que são 2. Representações gráficas 3. Coeficiente de correlação 4. Tabela de contingência

VI. Exercícios 1. Introdução à estatística 2. Dados, tabelas e gráficos 3. Medidas de localização 4. Medidas de dispersão 5. Distribuições bidimensionais 6. Globais

Page 3: Nocoes de Estatistica

Noções de estatística

3

I. Introdução à estatística

1. Objecto da estatística

"Ciência que dispõe de processos apropriados para recolher, organizar, classificar, apresentar e interpretar conjuntos de dados"

A estatística fornece-nos as técnicas para extrair informação de dados, os quais são muitas vezes incompletos, na medida em que nos dão informação útil sobre o problema em estudo, não realçando, no entanto, aspectos importantes.

É objectivo da Estatística extrair informação dos dados para obter uma melhor compreensão das situações que representam.

No estudo de um problema envolvendo métodos estatísticos, estes devem ser utilizados mesmo antes de se recolher a amostra, isto é, deve-se planear a experiência que nos vai permitir recolher os dados, de modo a que, posteriormente, se possa extrair o máximo de informação relevante para o problema em estudo, ou seja para a população de onde os dados provêm.

Exemplo:

Se pretendemos estudar o sucesso escolar, em Português dos alunos do 10.º ano, da Escola Secundária Prof. Herculano de Carvalho, será natural ir consultar as pautas destes alunos, no final do ano. A partir daí poderá facilmente ser obtida a percentagem de aprovações.

Se, no entanto, pretendermos aprofundar um pouco mais este assunto, nomeadamente saber se o sucesso é análogo para os rapazes e raparigas, ou nos diferentes agrupamentos disciplinares, deverá recolher-se não só a informação respeitante ao aluno ter passado ou não, mas também para cada um o sexo e o agrupamento disciplinar:

Agrupamento disciplinar Nota Sexo 1 12 F 2 13 M ... ... ...

Page 4: Nocoes de Estatistica

Noções de estatística

4

Uma vez os dados recolhidos, sob a forma de uma amostra, faz-se a redução e representação desses dados, utilizando as tabelas e os diferentes tipos de gráficos, sendo um dos principais objectivos desta fase, a identificação da estrutura subjacente aos dados, deixando de lado a aleatoriedade presente. Seguidamente o objectivo do estudo estatístico pode ser o de estimar uma quantidade ou testar uma hipótese, utilizando-se técnicas estatísticas convenientes, as quais realçam toda a potencialidade da Estatística, na medida em que vão permitir tirar conclusões acerca de uma população, baseando-se numa pequena amostra, dando-nos ainda uma medida do erro cometido.

2. População e amostra Uma noção fundamental em Estatística é a de conjunto ou agregado, conceito para o qual se usam, indiferentemente, os termos População ou universo.

2.1-População

Colecção de unidades individuais, que podem ser pessoas ou resultados experimentais, com uma ou mais características comuns, que se pretendem estudar.

Exemplo 1:

Relativamente à população constituída pelos alunos do 10.º ano de escolaridade matriculados na Escola Secundária dos Olivais n.º 2, podemos estar interessados em estudar as seguintes características populacionais:

- Altura (em cm) dos alunos:

Depois de medir a altura de cada aluno, obteríamos um conjunto de dados com o seguinte aspecto:

145, 161, 158, 156, 146, ... ,140, 139, 162

- Notas obtidas na disciplina de Português, no 1º período:

10, 15, 13, 16, 9, 11, 10, ... , 18, 11, 13, 8

Page 5: Nocoes de Estatistica

Noções de estatística

5

Nem sempre é possível estudar exaustivamente todos os elementos da população!

Porquê?

- Pode a população ter dimensão infinita.

Exemplo: População constituída pelas pressões atmosféricas, nos diferentes pontos de uma cidade.

- Pode o estudo da população levar à destruição da população.

Exemplo: População dos fósforos de uma caixa.

- Pode o estudo da população ser muito dispendioso.

Exemplo: Sondagens exaustivas de todos os eleitores, sobre determinado candidato.

Quando não é possível estudar, exaustivamente, todos os elementos da população, estudam-se só alguns elementos, a que damos o nome de Amostra.

2.2-Amostra

Conjunto de dados ou observações, recolhidos a partir de um subconjunto da população, que se estuda com o objectivo de tirar conclusões para a população de onde foi recolhida.

Exemplo 2:

Conjunto das temperaturas (em graus), num determinado dia às 9h, em todas as cidades da Europa:

12, 8, 15, 4, 10, 11, 13, 12, ... , 14, 12, 10, 11

Por vezes, identifica-se População com a característica populacional que se pretende estudar.

Relativamente ao exemplo 1, falamos da

- População das alturas dos alunos do ...

- População das notas em Português no 1.º ...

Relativamente ao exemplo 2, falamos da

- População das temperaturas às 9h ...

Page 6: Nocoes de Estatistica

Noções de estatística

6

É importante a fase de recolha da amostra?

Sim, pois a amostra deve ser tão representativa quanto possível da População que se pretende estudar, uma vez que vai ser a partir do estudo da amostra, que vamos tirar conclusões para a População.

Quando a amostra não representa correctamente a população diz-se enviesada e a sua utilização pode dar origem a interpretações erradas, como se sugere nos seguintes exemplos:

- Utilizar uma amostra constituída por 10 benfiquistas, para prever o vencedor do próximo Benfica-Sporting.

- Utilizar uma amostra constituída pelos leitores habituais de determinada revista especializada, para tirar conclusões sobre a população geral.

Exemplo 1: Relativamente à população das alturas dos alunos do 10.º ano matriculados na Escola Secundária dos Olivais, n.º 2, consideremos a seguinte amostra, constituída pelas alturas (em cm) de 20 alunos escolhidos ao acaso:

145, 163, 157, 152, 156, 149, 160, 157, 148, 147, 151, 152, 150, 148, 156, 160, 148, 157, 153, 162

Exemplo 2:

Page 7: Nocoes de Estatistica

Noções de estatística

7

3. Recenseamento e sondagem 3.1-Recenseamento

O termo recenseamento está, regra geral, associado à contagem oficial e periódica dos indivíduos de um País, ou parte de um País. Ele abrange, no entanto, um leque mais vasto de situações. Assim, pode definir-se recenseamento do seguinte modo:

Estudo científico de um universo de pessoas, instituições ou objectos físicos com o propósito de adquirir conhecimentos, observando todos os seus elementos, e fazer juízos quantitativos acerca de características importantes desse universo.

Para a maioria das pessoas a palavra recenseamento ou censo encontra-se associada à enumeração dos elementos da população de um País. Em Portugal, de dez em dez anos, realiza-se o Recenseamento Geral da População. O último ocorreu em 2001, encontrando-se disponíveis na Internet (Infoline - Serviço de Informação On Line do INE) os resultados desses censos - Censos 2001.

3.2-Sondagem

Por vezes não é viável nem desejável, principalmente quando o número de elementos da população é muito elevado, inquirir todos os seus elementos sempre que se quer estudar uma ou mais características particulares dessa população.

Assim surge o conceito de sondagem, que se pode tentar definir como:

Estudo científico de uma parte de uma população com o objectivo de estudar atitudes, hábitos e preferências da população relativamente a acontecimentos, circunstâncias e assuntos de interesse comum.

É fundamental referir que, contrariamente ao recenseamento, as sondagens inquirem ou analisam apenas uma parte da população em estudo, isto é, restringem-se a uma amostra dessa população, mas com o objectivo de extrapolar para todos os elementos da população os resultados observados na amostra.

4. Estatística descritiva e estatística indutiva De acordo com o que dissemos anteriormente, numa análise estatística distinguem-se essencialmente duas fases:

Uma primeira fase em que se procura descrever e estudar a amostra:

Estatística descritiva

E uma segunda fase em que se procura tirar conclusões para a população:

Estatística indutiva

Page 8: Nocoes de Estatistica

Noções de estatística

8

Esquematicamente, temos:

Resumindo, podemos dizer que uma análise estatística envolve duas fases fundamentais, com objectivos distintos:

1.ª Fase Estatística Descritiva Procura-se descrever a amostra, pondo em evidência as características principais e as propriedades.

2.ª Fase Estatística Indutiva Conhecidas certas propriedades (obtidas a partir de uma análise descritiva da amostra), expressas por meio de proposições, imaginam-se proposições mais gerais, que exprimam a existência de leis (na população).

No entanto, ao contrário das proposições deduzidas, não podemos dizer que são falsas ou verdadeiras, já que foram verificadas sobre um conjunto restrito de indivíduos, e portanto não são falsas, mas não foram verificadas para todos os indivíduos da População, pelo que também não podemos afirmar que são verdadeiras!

Exemplo:

Exemplo de aplicação da estatística:

Page 9: Nocoes de Estatistica

Noções de estatística

9

Existe, assim, um certo grau de incerteza (percentagem de erro) que é medido em termos de Probabilidade.

Será que é necessário o conceito de Probabilidade para se poder fazer Estatística?De acordo com o que dissemos anteriormente sobre a Estatística Indutiva, precisamos aqui da noção de Probabilidade, para medir o grau de incerteza que existe, quando tiramos uma conclusão para a população, a partir da observação da amostra.

5. Campos de aplicação

"Os campos de aplicação da Estatística são muitos e os mais variados."

Estudos de mercado

O gerente de uma fábrica de detergentes pretende lançar um novo produto para lavar a loiça, pelo que, encarrega uma empresa especialista em estudos de mercado de "estimar" a percentagem de potenciais compradores desse produto.

População: conjunto de todos os agregados familiares do País;

Amostra: conjunto de alguns agregados familiares, inquiridos pela empresa;

Problema: pretende-se, a partir da percentagem de respostas afirmativas, de entre os inquiridos sobre a compra do novo produto, obter uma estimativa do número de compradores na População.

Medicina

Pretende-se estudar o efeito de um novo medicamento para curar determinada doença. É seleccionado um grupo de 20 doentes, administrando-se o novo medicamento a 10 desses doentes escolhidos ao acaso e o medicamento habitual aos restantes.

Exemplo:

Tendo-se concluído, que de uma amostra constituída por 1000 eleitores, 63.5% desses eleitores pensavam votar no actual Presidente da Câmara, pode-se mostrar que, com uma confiança de 95%, a percentagem de eleitores da População de onde foi recolhida a amostra se situa no intervalo [60.5%, 66.5%].

Page 10: Nocoes de Estatistica

Noções de estatística

10

População: conjunto de todos os doentes com a doença que o medicamento a estudar pretende tratar;

Amostra: conjunto dos 20 doentes seleccionados;

Problema: pretende-se, a partir dos resultados obtidos, realizar um "teste de hipóteses" para tomar uma decisão sobre qual dos medicamentos é melhor.

Controle de qualidade

O administrador de uma fábrica de parafusos pretende assegurar-se de que a percentagem de peças defeituosas não excede um determinado valor, a partir do qual determinada encomenda poderia ser rejeitada.

População: conjunto de todos os parafusos fabricados ou a fabricar pela fábrica, utilizando o mesmo processo;

Amostra: conjunto de parafusos escolhidos ao acaso de entre o lote de produzidos;

Problema: pretende-se, a partir da percentagem de parafusos defeituosos presentes na amostra, "estimar" a percentagem de defeituosos em toda a produção.

Pedagogia

Um conjunto de pedagogos desenvolveu uma técnica nova para a aprendizagem da leitura, na escola primária, a qual, segundo dizem, encurta o tempo de aprendizagem relativamente ao método tradicional.

População: conjunto de todos os alunos que entram para a escola primária, sem saber ler;

Amostra: conjunto de alunos de algumas escolas seleccionadas para este estudo. Os alunos foram separados em dois grupos para se aplicarem as duas técnicas em confronto;

Problema: do estudo da amostra, decidir qual a técnica melhor.

Page 11: Nocoes de Estatistica

Noções de estatística

11

II. Dados, tabelas e gráficos

1. Tipos de dados

Podemos classificar os dados que constituem a Amostra, ou dados amostrais, em dois tipos fundamentais:

Dados qualitativos e dados quantitativos

1.1-Dados qualitativos

Representam a informação que identifica alguma qualidade, categoria ou característica, não susceptível de medida, mas de classificação, assumindo várias modalidades.

Os dados qualitativos são organizados na forma de uma tabela de frequências que apresenta o número de elementos – frequência absoluta (ou só frequência) de cada uma das categorias ou classes.

Numa tabela de frequências, além das frequências absolutas, também se apresentam as frequências relativas, onde

Dimensão da amostra? Número de elementos da amostra.

Exemplo:

O estado civil de um indivíduo é um dado qualitativo, assumindo as categorias: solteiro, casado, viúvo e divorciado.

Page 12: Nocoes de Estatistica

Noções de estatística

12

1.2-Dados quantitativos

Representam a informação resultante de características susceptíveis de serem medidas, apresentando-se com diferentes intensidades, que podem ser de natureza discreta (descontínua) – dados discretos, ou contínua – dados contínuos.

Exemplo:

Num inquérito realizado a 150 indivíduos, estes tiveram de assinalar o sexo - M ou F, e o estado civil - Solteiro, Casado, Viúvo ou Divorciado. Uma forma de resumir a informação contida nos dados, no que diz respeito ao estado civil, é construir uma tabela de frequências em que se consideram para as classes as diferentes modalidades que o estado civil pode tomar:

Tabela de frequências

Classes freq. abs. freq. rel.

Solteiro 78 0.52 Casado 50 0.33

Viúvo 5 0.03 Divorciado 17 0.12

Total 150 1.00

Exemplo:

Consideremos uma amostra constituída pelo n.º de irmãos de 10 alunos de uma determinada turma:

3, 4, 1, 1, 3, 1, 0, 2, 1, 2

Estes dados são de natureza discreta.

Se para os mesmos alunos considerarmos as alturas (cm):

153, 157, 161, 160, 158, 155, 162, 156, 152, 159

obteremos dados do tipo contínuo.

Page 13: Nocoes de Estatistica

Noções de estatística

13

2. Representações gráficas de dados

2.1-Dados discretos

Estes dados só podem tomar um número finito ou infinito numerável de valores distintos, apresentando vários valores repetidos – é o caso, por exemplo, do n.º de filhos de uma família ou do n.º de acidentes, por dia, em determinado cruzamento.

Como organizar os dados?

Os dados são organizados na forma de uma tabela de frequências, análoga à construída para o caso dos dados qualitativos. No entanto, em vez das categorias apresentam-se os valores distintos da amostra, os quais vão constituir as classes.

Diagrama de barras ou distribuição de frequências

Representação gráfica que consiste em marcar num sistema de eixos coordenados, no eixo dos xx o valor das classes e nesses pontos barras verticais de altura igual à frequência absoluta ou à frequência relativa.

Exemplo:

Consideremos a amostra constituída pelo n.º de irmãos dos 20 alunos de uma determinada turma:

1, 1, 2, 1, 0, 3, 4, 2, 3, 1, 0, 2, 1, 1, 0, 1, 1, 0, 3, 2

Tabela de frequências

classes freq. abs. freq. rel. 0 4 0.20 1 8 0.40 2 4 0.20 3 3 0.15 4 1 0.05

total 20 1.00

Page 14: Nocoes de Estatistica

Noções de estatística

14

Obter-se-á um gráfico com o aspecto seguinte:

A linha a tracejado, que une os extremos das barras, chama-se Polígono de frequências

Algumas considerações sobre a metodologia a seguir na construção do diagrama de barras:

1. Ordenar a amostra e considerar para classes os diferentes valores aí considerados. Marcar essas classes no eixo xx, num sistema de eixos coordenados.

2. Nos pontos onde se consideraram as classes, marcar barras de altura igual à frequência absoluta ou relativa, da respectiva classe. De preferência utilizar as frequências relativas, pois se pretendermos comparar diagramas de barras de amostras diferentes, temos a garantia de que a soma das barras em qualquer dos diagramas, é igual a 1.

Exemplo:

Utilizando a tabela de frequências obtida no exemplo anteriormente considerado, construa o diagrama de barras e o polígono de frequências (utilize frequências relativas):

Tabela de frequências

Classes freq. abs. freq. rel.

0 4 0.20 1 8 0.40

2 4 0.20 3 3 0.15

4 1 0.05 Total 20 1.00

Diagrama de barras

Page 15: Nocoes de Estatistica

Noções de estatística

15

2.2-Dados contínuos No caso de uma variável contínua, esta pode tomar todos os valores numéricos, inteiros ou não, compreendidos no seu intervalo de variação - temos por exemplo o peso, a altura, etc.

Como organizar os dados? Enquanto que no caso de dados discretos, a construção da tabela de frequências não apresenta qualquer dificuldade, no caso das variáveis contínuas o processo é um pouco mais elaborado, distinguindo-se certas etapas principais, que se descrevem nas páginas seguintes...

Construção da tabela de frequências, de uma amostra de dados contínuos

Para exemplificar o processo descrito a seguir, utilizaremos a amostra de notas obtidas num ponto de Matemática de uma determinada turma:

12.1 8.9 16.2 8.2 9.8 15.1 14.5 13.4 14.7 7.5 8.8 12.4 16.1

15.2 13.5 14.6 15.5 7.8 12.5 13.2 11.0 10.5

1.º Definição das classes

a) Determinar a amplitude da amostra, isto é, a diferença entre o valor máximo e o valor mínimo

No caso da amostra considerada, amplitude = 16.2 – 7.5 = 8.7

b) Dividir essa amplitude pelo número k (1) de classes pretendido; tomar para essa amplitude de classe h um valor aproximado por excesso do valor anteriormente obtido.

No caso da amostra considerada, escolhendo k=5,

h = 8.7 / 5 = 1.74 1.8

c) Construir as classes de modo que tenham todas a mesma amplitude e cuja união contenha todos os elementos da amostra.

Uma metodologia a seguir para construir as classes Ci = [ci , ci+1[ poderá ser a seguinte: A primeira classe C1 será

C1 = [c1, c2[ = [mín. da amostra, mín. da amostra + h[ As outras classes Ci serão

Ci = [ mín. amostra + ( i - 1) x h , mín. amostra + i x h [ com i=1,2,...,k

No caso da amostra dada temos: C1=[7.5, 9.3[ ; C2=[9.3, 11.1[ ; C3=[11.1, 12.9[ ; C4=[12.9, 14.7[ ; C5=[14.7, 16.5[

Page 16: Nocoes de Estatistica

Noções de estatística

16

2.º Contagem do número de elementos de cada classe Conta-se o número de elementos da amostra, que pertencem a cada classe. Analogamente ao que foi considerado no caso dos dados discretos, esses valores serão as frequências absolutas das classes. No caso da amostra dada.

Classe Freq Absoluta

[7.5, 9.3[ 5

[9.3, 11.1[ 3

[11.1, 12.9[ 3

[12.9, 14.7[ 5

[14.7, 16.5[ 6

Quantas classes se devem considerar, para fazer a redução de um conjunto de dados?

Qual o valor de k?

Existe uma regra empírica, que nos dá um valor aproximado para o número de classes que se devem considerar e que é a seguinte:

Para uma amostra de dimensão n, k é o menor inteiro tal que: 2k n

Exemplo: Os dados seguintes (que se encontram ordenados) referem-se ao tempo de vida (em anos) de 50 doentes que nasceram com uma certa doença rara:

0.8 1.7 2.5 4.8 9.7 16.2 23.5 28.1 23.2 45.0 0.9 1.9 2.6 6.3 13.5 18.2 23.6 29.7 36.6 45.1 1.0 2.0 2.6 6.9 13.5 18.2 23.7 30.9 36.7 61.7 1.1 2.0 3.2 7.6 14.4 20.7 27.1 31.2 38.0 66.4 1.1 2.4 3.5 9.0 15.5 21.8 27.6 31.7 40.2 67.4

Dimensão da amostra: 50

De acordo com a regra empírica apresentada anteriormente teríamos:

Podemos escolher para amplitude da classe h=10 (é mais sugestivo considerar intervalos com amplitude de 10 anos do que um valor próximo do sugerido).

Page 17: Nocoes de Estatistica

Noções de estatística

17

Representação gráfica de dados contínuos

Histograma

Para a representação gráfica de dados contínuos, usa-se um diagrama de áreas ou histograma, formado por uma sucessão de rectângulos adjacentes, tendo cada um por base um intervalo de classe e por área a frequência relativa (ou a frequência absoluta).

Deste modo a área total será igual a 1 (resp. igual a n, a dimensão da amostra).

A representação obtida terá o seguinte aspecto:

Por outro lado vamos começar por construir as classes, considerando para limite inferior da 1.ª classe o valor 0, já que o mínimo da amostra está próximo desse valor. Com esta escolha obtemos 7 classes, em vez do valor 6 sugerido pela regra:

Tabela de frequências

Classes Freq. abs. Freq. rel. [0, 10[ 21 0.42 [10, 20[ 7 0.14 [20, 30[ 9 0.18 [30, 40[ 7 0.14 [40, 50[ 3 0.06 [50, 60[ 0 0.00 [60, 70[ 3 0.06 Total 50 1.00

Nota 1: Um erro que se comete com muita frequência é considerar a última classe fechada à direita. Este procedimento não é correcto. Todas as classes devem ser construídas segundo a mesma metodologia, isto é, fechadas à esquerda e abertas à direita.

Nota 2: Para definir um conjunto de classes associado a um conjunto de dados, deve-se ter em conta que, de um modo geral, quanto mais elementos tiver a amostra, maior será o número de classes que se deve considerar (o que está de acordo com a regra indicada). No entanto, mesmo que a dimensão da amostra seja suficientemente grande, não é aconselhável considerar um número de classes superior a 15.

Page 18: Nocoes de Estatistica

Noções de estatística

18

Para construir um histograma, quais as alturas que se devem considerar para os rectângulos?

Se se pretende que a área do rectângulo, correspondente à classe Ci seja ni, ou fi, respectivamente frequência absoluta e frequência relativa, então a altura desse rectângulo deverá ser ni / h, ou fi / h, respectivamente, onde h representa a amplitude das classes. De preferência, devem-se utilizar as frequências relativas.

Qual a área total A, ocupada por um histograma?

Se se utilizarem as frequências absolutas:

A = n1 + n2 + .. + nk = n

Se se utilizarem as frequências relativas:

A = f1 + f2 + .. + fk = 1

E se tomarmos para altura dos rectângulos, que constituem o histograma, as frequências, já as áreas desses rectângulos não serão iguais às frequências, mas sim proporcionais! Haverá problema? Qual a constante de proporcionalidade?

Não há problema quando as classes têm todas a mesma amplitude!

A constante de proporcionalidade é h, e a área total ocupada pelo histograma será h ou n*h, conforme se utilizarem as frequências relativas ou absolutas.

Page 19: Nocoes de Estatistica

Noções de estatística

19

Algumas considerações sobre a construção de histogramas

O aspecto apresentado pelo histograma, depende em grande parte do agrupamento que se tenha feito para os dados. Assim, a escolha de uma amplitude de classe muito pequena traduz-se num grande n.º de classes, que não permitem que sobressaiam as características fundamentais dos dados, uma vez que se lhe poderá sobrepor o aspecto aleatório dos dados. Por outro lado um n.º muito pequeno de classes, poderá não mostrar alguns aspectos importantes dos dados.

Então como proceder?

ou ?

A construção do histograma depende em grande parte da "habilidade" do estatístico, na medida em que a escolha da amplitude de classe deve ser feita de modo a estabelecer uma boa solução de compromisso entre um n.º exagerado de classes (demasiado detalhe) e um n.º pequeno de classes (pouco detalhe). É nesta perspectiva que deve ser entendida a regra empírica dada anteriormente, para o número de classes.

E se as classes da tabela têm amplitudes diferentes? Como construir o Histograma?

Por vezes os dados surgem agrupados, sendo impossível construir um histograma com as classes todas com a mesma amplitude.

Para se construírem os rectângulos correspondentes a cada classe, tem de se ter em atenção que a altura de cada um desses rectângulos deve ser igual à frequência relativa (ou absoluta) a dividir pela amplitude da classe correspondente. Só assim se obterá um histograma cuja área total seja igual a 1 (respectivamente n).

Exemplo:

A tabela ao lado representa a população esperada no ano 2000, nos Estados Unidos da América, considerando diferentes classes etárias (a definição destas classes teve em atenção as idades pré-escolar, escolar obrigatória, liceal, curso superior e ainda 3 classes etárias para os adultos, antes da idade da reforma).

Page 20: Nocoes de Estatistica

Noções de estatística

20

Função cumulativa

Para representar graficamente as frequências acumuladas considera-se a função cumulativa cuja construção se exemplifica a seguir:

Classe etária Popul. esperada (milhões) menos de 5 anos 17.9 entre 5 e 13 anos 35.1 entre 14 e 17 anos 16.0 entre 18 e 24 anos 24.7 entre 25 e 34 anos 34.4 entre 35 e 44 anos 41.3 entre 45 e 54 anos 35.9 entre 55 e 64 anos 23.3 mais de 65 anos 31.8

total 260.4

Organizando a tabela anterior, de uma forma mais conveniente, temos a tabela de frequências ao lado e o histograma abaixo.

Classe Cj

freq. rel. fj

Amplitude hj

Altura fj/hj

[0,5[ 17.9/ 260.4 5 0.0138 [5,14[ 35.1/ 260.4 9 0.0150 [14,18[ 16.0/ 260.4 4 0.0154 [18,25[ 24.7/ 260.4 7 0.0136 [25,35[ 34.4/ 260.4 10 0.0132 [35,45[ 41.3/ 260.4 10 0.0158 [45,55[ 35.9/ 260.4 10 0.0138 [55,65[ 23.3/ 260.4 10 0.0089 [65,100[ 31.8/ 260.4 35 0.0035

total 1.0

Page 21: Nocoes de Estatistica

Noções de estatística

21

- Antes do limite inferior da 1.ª classe, isto é o ponto 0, a frequência acumulada é nula, pelo que se traça um segmento de recta sobre o eixo dos xx, até esse ponto.

- No limite inferior da 2.ª classe, isto é o ponto 10, a frequência acumulada é a frequência da classe anterior, ou seja 0.42. Agora, admitindo que a frequência se distribui uniformemente sobre o intervalo da classe, unimos o ponto (0,0) com o ponto (10, 0.42).

- No limite inferior da 3.ª classe, a frequência acumulada é a soma das frequências das duas classes anteriores, sendo portanto 0.56. Então, unimos o ponto (10, 0.42) com o ponto 20, 0.56).

- Quando chegarmos à última classe, temos a garantia que a frequência acumulada correspondente ao seu limite superior é igual a 1, pelo que nesse ponto marcamos 1 e continuamos com um segmento de recta paralelo ao eixo dos xx.

Pode-se chamar a atenção para algumas propriedades da função cumulativa, tal como foi construída:

- Está definida para todo o x real;

- É sempre não decrescente;

- Só assume valores no intervalo [0, 1].

A partir da representação gráfica anterior é possível, por exemplo, saber qual o valor aproximado da variável tempo de vida a que corresponde uma frequência relativa acumulada igual a 50%.

Uma vez que se admite que a frequência se distribui uniformemente sobre a amplitude de classe, isto é, a frequência 0.14 (=0.56-0.42) distribui-se uniformemente sobre o intervalo de amplitude 10, através da resolução de uma equação de proporcionalidade, obtém-se o ponto que andávamos à procura:

Page 22: Nocoes de Estatistica

Noções de estatística

22

Então o valor procurado é 10 + 5.71 = 15.71

Ao valor obtido anteriormente, a que corresponde uma frequência acumulada de 50%, chamamos mediana. A mediana divide a distribuição das frequências em duas partes iguais, já que 50% dos dados são menores ou iguais a ela e os restantes 50% são maiores ou iguais a ela. Recordamos que a técnica utilizada permitiu-nos obter um valor aproximado para a mediana, e não o valor exacto da mediana do conjunto de dados originais, antes de proceder ao agrupamento. Mais à frente, quando falarmos de medidas de localização, veremos como determinar a mediana a partir dos dados, sem estarem agrupados.

Nota:

Embora não tenha sentido construir um diagrama de barras quando temos uma amostra de dados contínuos, o mesmo não se passa em relação ao histograma e aos dados discretos.

Na verdade, podemos ter uma amostra de dados discretos, em que o número de valores distintos que surgem na amostra é demasiado grande, para que se considerem todos como classes, pelo que representamos graficamente essa amostra segundo a forma de um histograma!

Seguidamente apresentaremos outros tipos de representações gráficas, que podem ser utilizados, independentemente da amostra ser de dados discretos ou contínuos.

2.3.1- Diagrama de caule-e-folhas

É um tipo de representação que se pode considerar entre a tabela e o gráfico, uma vez que são apresentados os verdadeiros valores da amostra, mas numa apresentação sugestiva, que faz lembrar um histograma.

Consiste em escrever do lado esquerdo de uma linha vertical o dígito (ou dígitos) da classe de maior grandeza, seguidos dos restantes. A representação obtida terá o seguinte aspecto:

Exemplo:

Num determinado teste realizado a 50 estudantes, obtiveram-se as seguintes pontuações:

75 98 42 75 84 87 65 59 63 86 78 37 99 66 90 79 80 89 68 57 95 55 79 88 76 60 77 49 92 83 71 78 53 81 77 58 93 85 70 62 80 74 69 90 62 84 64 73 48 72

Page 23: Nocoes de Estatistica

Noções de estatística

23

Fazer uma representação em caule-e-folhas destes dados.

Por vezes, utiliza-se o "caule" horizontal, em vez de ser vertical. Este processo torna mais aparente a semelhança entre um histograma e uma representação em caule-e-folhas.

Caule vertical Caule horizontal

Que característica é que se pretende realçar, quando se representa um conjunto de dados sob a forma de um histograma ou dum caule-e-folhas?

Dada uma amostra, o aspecto do histograma reflecte a forma da distribuição da População subjacente aos dados observados!

Este é um dos aspectos da redução dos dados, em que se perde alguma informação contida nesses dados, mas em contrapartida obtemos a estrutura da População, que eles pretendem representar.

Quais os aspectos mais frequentes apresentados por um histograma?

2.3.2- Distribuições características

Alguns histogramas apresentam formas que, pela frequência com que surgem, merecem referência especial. Assim, as distribuições mais comuns apresentadas pelos dados são:

Page 24: Nocoes de Estatistica

Noções de estatística

24

a. Distribuições simétricas

b. Distribuições enviesadas

c. Distribuições com "caudas" longas

d. Distribuições com vários "picos" ou modas

a. Distribuições simétricas

A distribuição das frequências faz-se de forma aproximadamente simétrica, relativamente a uma classe média:

b. Distribuições enviesadas

A distribuição das frequências faz-se de forma acentuadamente assimétrica, apresentando valores substancialmente mais pequenos num dos lados, relativamente ao outro:

c. Distribuições com "caudas" longas

A distribuição das frequências faz-se de tal forma que existe um grande número de classes nos extremos, cujas frequências são pequenas, relativamente às classes centrais:

d. Distribuições com vários "picos" ou modas

A distribuição das frequências apresenta 2 ou mais "picos" a que chamamos modas, sugerindo que os dados são constituídos por vários grupos distintos:

Page 25: Nocoes de Estatistica

Noções de estatística

25

2.3.3- Função distribuição empírica

Embora duma representação gráfica como o histograma, ou o "caule e folhas", se possa extrair informação relevante para a caracterização dos dados, na medida em que nos mostra a forma como se encontram concentrados, essa representação pode não ser suficiente, quando se pretende outro tipo de informação, como seja

a de saber qual a percentagem de valores da amostra inferiores ou superiores a um determinado valor!

Assim, quando se pretende este tipo de informação, existe uma representação gráfica conveniente, que é a função distribuição empírica.

O que é?

É uma função F(x) definida para todo o valor de x de R, e que para cada x dá a proporção de elementos da amostra menores ou iguais a x.

Como se constrói?

Para a sua construção, convém seguir as seguintes etapas:

1) Ordenar os n elementos da amostra, por ordem crescente.

2) Começar da esquerda para a direita, atribuindo o valor 0 à esquerda do mínimo, o valor 1/n entre o 1.º mínimo e o 2.º mínimo, o valor 2/n entre o 2.º e 3.º mínimos, e assim sucessivamente (num valor da amostra que se repita d vezes, o salto da função será d/n)

Para x maior ou igual ao máximo da amostra, a função assume sempre o valor 1. Obtém-se uma função em escada, com saltos de amplitude 1/n.

Exemplo:

Construa uma função distribuição empírica para os seguintes valores, que representam a taxa de crescimento populacional, nas seguintes regiões:

Page 26: Nocoes de Estatistica

Noções de estatística

26

Suponhamos que se pretendem as seguintes informações:

- Qual a percentagem de taxas inferiores ou iguais a 1.3?

R: 57%

- Qual a percentagem de taxas inferiores ou iguais a 2.5?

R: 71%

O que são percentis ou quantis?

Como vimos, a função distribuição empírica permite obter a percentagem, ou proporção de elementos da amostra que são inferiores ou iguais (maiores ou iguais) a um valor qualquer.

Por outro lado, dado um valor p qualquer, entre 0 e 1, permite determinar um valor Qp, tal que a amostra fica dividida em duas partes:

100p% dos elementos da amostra são menores ou iguais a Qp e os restantes 100(1-p)% elementos, são maiores ou iguais a Qp

Ao valor Qp dá-se o nome de percentil ou quantil de ordem p ou percentagem 100p%.

Mediana É o percentil correspondente à percentagem de 50%, o que significa que divide a amostra em duas partes com o mesmo número de elementos.

Quartis O 1.º quartil (ou quartil inferior) é o percentil, correspondente à percentagem de 25%, o que significa que 25% dos elementos da amostra são menores ou iguais a ele, e os restantes são maiores ou iguais.

O 3º quartil (ou quartil superior) é o percentil correspondente à percentagem de 75%.

Para calcular a mediana e os quantis, é sempre necessário construir a função distribuição empírica?

Veremos que não!

No módulo Medidas de localização, veremos um processo de calcular as características mediana e quartis, sem fazer intervir a função distribuição empírica.

Page 27: Nocoes de Estatistica

Noções de estatística

27

A seguir apresentamos um processo gráfico de representação dos dados em que aquelas características têm papel importante.

2.3.4- Diagrama de extremos e quartis e caixa dos bigodes

2.3.4.1- Diagrama de extremos e quartis

É um tipo de representação gráfica, em que se realçam algumas características da amostra. O conjunto dos valores da amostra compreendidos entre o 1.º e o 3.º QUARTIS, que vamos representar por Q1 e Q3 é representado por um rectângulo (caixa) com a MEDIANA indicada por uma barra. A largura do rectângulo não dá qualquer informação, pelo que pode ser qualquer. Consideram-se seguidamente duas linhas que unem os meios dos lados do rectângulo com os extremos da amostra. Para obter esta representação, começa por se recolher da amostra, informação sobre 5 números, que são: os 2 extremos (mínimo e máximo), a mediana e o 1.º e 3.º quartis. A representação do diagrama de extremos e quartis tem o seguinte aspecto:

O extremo inferior é o mínimo da amostra, enquanto que o extremo superior é o máximo da amostra.

Qual a importância deste tipo de representação?

Realça informação importante sobre os dados, como sejam o centro da amostra (mediana), variabilidade, simetria.

Repare-se que da forma como o diagrama se constrói, se pode retirar imediatamente a seguinte informação:

Page 28: Nocoes de Estatistica

Noções de estatística

28

Como é que se pode reconhecer a simetria ou o enviesamento dos dados, a partir do Diagrama de extremos e quartis?

Existem fundamentalmente 3 características, que nos dão ideia da simetria ou enviesamento e da sua maior ou menor concentração:

- distância entre a linha indicadora da mediana e os lados do rectângulo;

- comprimento das linhas que saem dos lados dos rectângulos;

- comprimento da caixa.

Apresentamos seguidamente 3 exemplos de diagramas de extremos e quartis, correspondentes a tipos diferentes de distribuição de dados.

2.3.4.2- Gráfico de caixa dos bigodes

É um tipo de representação gráfica, em que se realçam algumas características da amostra, nomeadamente a existência de "outliers" (valores que se distinguem dos restantes, dando a ideia de não pertencerem ao mesmo conjunto de dados). O conjunto dos valores da amostra compreendidos entre o 1.º e o 3.º QUARTIS, Q1 e Q3 é representado por um rectângulo (caixa) com a MEDIANA indicada por uma barra.

Considera-se seguidamente duas linhas que unem os lados dos rectângulos com os chamados valores adjacentes, que definiremos a seguir.

O que são valores adjacentes?

Define-se valor adjacente inferior AI, como sendo o menor valor da amostra (eventualmente o mínimo), que é maior que:

Q1 - 1.5 * (Q3 - Q1)

Define-se valor adjacente superior AS, como sendo o maior valor da amostra (eventualmente o máximo), que é menor que:

Q3 + 1.5 * (Q3 - Q1)

Page 29: Nocoes de Estatistica

Noções de estatística

29

O que é um outlier?

É um valor que não esteja compreendido no intervalo [AI, AS]

2.3.5 - Diagrama circular

Como o nome sugere esta representação é constituída por um círculo, em que se apresentam vários sectores circulares, tantos quanto as classes consideradas na tabela de frequências da amostra em estudo. Os ângulos dos sectores são proporcionais às frequências das classes. Por exemplo uma classe com uma frequência relativa igual a 0.20, terá no diagrama circular um sector com um ângulo igual a 360x0.20 = 72 graus. É uma representação utilizada essencialmente para dados qualitativos.

Exemplo: Categoria profissional dos funcionários de uma escola secundária

Classes Freq. abs. Freq. rel. AE (Auxiliar de Acção

Educativa) 20 0.47

Ad (Administrativo) 12 0.29 AS (Técnico de Acção

Social) 7 0.17

Op (Operário) 3 0.07 Total 42 1.00

Nesta representação, juntamente com a iden-tificação da categoria, indica-se a frequência relativa da respectiva classe.

Page 30: Nocoes de Estatistica

Noções de estatística

30

III. Medidas de localização No capítulo Dados, tabelas e gráficos, vimos alguns processos de resumir informação contida na amostra, utilizando os processos gráficos. Veremos agora um outro processo de resumir essa informação, utilizando determinadas medidas, calculadas a partir de dados, que se chamam ESTATÍSTICAS.

1. Introdução

Antes de começar a definir as medidas, que vão ser utilizadas para resumir a informação contida nos dados, e lembrando mais uma vez que estamos na fase da análise estatística conhecida por Estatística Descritiva, vamos introduzir uma notação conveniente para representar a amostra. Assim, o conjunto de dados ou observações que constituem a amostra será representado por

x1, x2, ..., xn

onde x1, x2, ..., xn, representam, respectivamente, a 1.ª observação, a 2.ª observação e a n-ésima observação, de uma amostra de dimensão n. Esta notação não implica uma relação de ordem entre os elementos da amostra.

Das medidas, ou estatísticas que iremos definir, para caracterizar os dados, destacam-se as

medidas de localização

nomeadamente as que localizam o centro da amostra (média, moda e mediana) , e as

medidas de dispersão

que serão abordadas no capítulo seguinte.

Page 31: Nocoes de Estatistica

Noções de estatística

31

Será mesmo necessário utilizar os dois tipos de medidas, para caracterizar os dados?

Vamos estudar seguidamente algumas medidas de localização, nomeadamente as que localizam o centro da amostra:

Média Moda Mediana

Procuraremos realçar:

1. Processo de as calcular

2. Propriedades

3. Limitações

2. Média A média amostral ou simplesmente média, que se representa por é uma medida de localização do centro da amostra, e obtém-se a partir da seguinte expressão:

onde x1, x2, ..., xn representam os elementos da amostra e n a sua dimensão.

Exemplo:

O exemplo seguinte responde à questão deixada em aberto:

Dois alunos do 7.º ano obtiveram as seguintes notas, no 3.º período:

Pedro 4 3 3 3 3 3 4 3 4 3

João 5 2 2 3 4 3 5 3 3 3

O Pedro e o João tiveram a mesma média de 3.3, mas o João não transitou de ano. Representando as notas num diagrama de caule e folhas:

Pedro

João

vemos que uma característica apresentada pelas notas do João é uma maior variabilidade do que as notas do Pedro.

Page 32: Nocoes de Estatistica

Noções de estatística

32

Se as observações se encontram agrupadas, então um valor aproximado para a média é dado pela seguinte expressão:

onde:

k é o número de classes do agrupamento

ni é a frequência absoluta da classe i

yi é o ponto médio da classe i, o qual é considerado como elemento representativo da classe.

A média será sempre uma medida representativa dos dados?

Ao determinar a média dos seguintes dados

12.4 13.5 13.6 11.2 15.1 10.6 12.4 14.3 113.5

obteve-se o valor = 24.1

Embora todos os dados, menos um, estejam no intervalo [10.6, 15.1], o valor obtido para a média está "bem afastado" daquele intervalo! O que aconteceu é que a média é muito sensível a valores muito grandes ou muito pequenos. No caso do exemplo foi o valor 113.5 que inflacionou a média. Além disso temos razões para pensar que pode ter havido um erro ao digitar o valor 113.5, digitando um 1 a mais!

E se em vez de 113.5 o valor correcto fosse 13.5, qual o valor da média?

Ao determinar a média dos seguintes dados 12.4 13.5 13.6 11.2 15.1 10.6 12.4 14.3 13.5

obteve-se o valor da média = 13.0, significativamente diferente do obtido no caso anterior! Sendo a média uma medida tão sensível aos dados, é preciso ter cuidado com a sua utilização, pois pode dar uma imagem distorcida dos dados, que pretende representar!

Page 33: Nocoes de Estatistica

Noções de estatística

33

Para além do facto de ser uma medida muito simples de calcular, existirá alguma outra razão, que a torne uma medida tão "popular"?

Pode-se mostrar (e essa demonstração faz parte da Estatística Indutiva), que quando a distribuição dos dados é "normal", então a melhor medida de localização do centro, é a média.

Ora sendo a Distribuição Normal uma das distribuições mais importantes e que surge com mais frequência nas aplicações, esse facto justifica a grande utilização da média.

Esquematicamente podemos posicionar a média da forma seguinte, tendo em conta a representação gráfica na forma de histograma.

Figura aproximadamente

simétrica, pelo que o centro está bem definido.

O enviesamento para a direita provoca que a média seja deslocada para a direita.

O enviesamento para a esquerda provoca uma

deslocação da média para a esquerda.

Exemplo:

Considerando os valores 2, 3, 3 e 4 fomos construir um diagrama de barras e posicionar a média e posteriormente alteramos um desses valores para estudar o comportamento da média.

Um diagrama de barras (ou histograma) comporta-se como um balancé em que o ponto de apoio é a média. Ao contrário da mediana, como se verá adiante, a percentagem de elementos para um e outro lado da média não é necessariamente igual a 50%.

Page 34: Nocoes de Estatistica

Noções de estatística

34

Particularidade

A média goza de uma particularidade interessante e que consiste no seguinte:

se calcularmos os desvios de todas as observações relativamente à média e somarmos esses desvios o resultado obtido é igual a zero.

Exemplo:

Suponhamos que numa festa foram distribuídos berlindes pelos meninos presentes. Os berlindes eram lançados ao ar e quem mais corria mais apanhava. No fim fez-se a contagem e verificou-se a seguinte distribuição sobre os números de berlindes que cada menino conseguiu apanhar:

João 8 Filipa 7 Ana 3 Maria 5 Teresa 4 David 6

A cada menino coube em média 5.5 berlindes. Houve meninos que apanharam menos berlindes do que a média, enquanto que outros apanharam mais. Os meninos que apanharam mais berlindes resolveram dividir com os que apanharam menos de forma a ficarem todos com a mesma quantidade. Terão conseguido?

Resposta:

Calculando os desvios relativamente à média, temos:

Desvio João 8 8 - 5.5 = 2.5 Filipa 7 7 - 5.5 = 1.5 Ana 3 3 - 5.5 = -2.5 Maria 5 5 - 5.5 = -0.5 Teresa 4 4 - 5.5 = -1.5 David 6 6 - 5.5 = 0.5 -0.5 -1.5 + 0.5 + 2.5 + 1.5 -2.5 = 0

Graficamente temos:

O resultado anterior verifica-se porque a soma dos desvios positivos é igual à soma dos desvios negativos.

Page 35: Nocoes de Estatistica

Noções de estatística

35

A média tem uma outra característica, que torna a sua utilização vantajosa em certas aplicações:

Quando o que se pretende representar é a quantidade total expressa pelos dados, utiliza-se a média.

Na realidade, ao multiplicar a média pelo n.º total de elementos, obtemos a quantidade pretendida!

Pode-se sempre calcular a média?

Chamamos a atenção para que com dados de tipo qualitativo não tem sentido calcular a média, mesmo que os dados sejam números. Se, por exemplo, temos um conjunto de 1's e 2's, se se referirem à variável sexo, em que se utilizou o 1 para representar o sexo masculino e o 2 para o sexo feminino (variável codificada), não tem qualquer significado calcular a média daquele conjunto de dados.

Cuidado com as medidas de localização!

Suponha que numa região começaram a aparecer pessoas com uma virose desconhecida. Os médicos do Centro de Saúde dessa região procuraram recolher alguma informação sobre as pessoas atacadas por essa doença.

Foi recolhida uma amostra de 34 desses doentes a quem se perguntou, entre outras características, a idade. Depois de analisados os dados os médicos foram informados que a idade média dos doentes era de 32 anos. Um dos médicos, mais curioso que os outros, pediu que lhe mostrassem a distribuição dos dados, tendo-lhe sido apresentada a seguinte distribuição.

Perante a representação anterior (bimodal) o médico não teve dúvidas em pôr de parte a média, assim como qualquer outra medida de localização do centro da amostra.

Efectivamente para dados deste tipo é enganador qualquer medida de localização do centro da distribuição. O que o médico concluiu imediatamente foi, que a doença ataca crianças e pessoas da 3.ª idade.

Page 36: Nocoes de Estatistica

Noções de estatística

36

3. Moda Para um conjunto de dados, define-se moda como sendo:

o valor que surge com mais frequência se os dados são discretos, ou, o intervalo de classe com maior frequência se os dados são contínuos.

Assim, da representação gráfica dos dados, obtém-se imediatamente o valor que representa a moda ou a classe modal

Esta medida é especialmente útil para reduzir a informação de um conjunto de dados qualitativos, apresentados sob a forma de nomes ou categorias, para os quais não se pode calcular a média e por vezes a mediana (se não forem susceptíveis de ordenação).

4. Mediana A mediana, m, é uma medida de localização do centro da distribuição dos dados, definida do seguinte modo:

Ordenados os elementos da amostra, a mediana é o valor (pertencente ou não à amostra) que a divide ao meio, isto é, 50% dos elementos da amostra são menores ou iguais à mediana e os outros 50% são maiores ou iguais à mediana

Para a sua determinação utiliza-se a seguinte regra, depois de ordenada a amostra de n elementos:

Se n é ímpar, a mediana é o elemento médio.

Se n é par, a mediana é a semi-soma dos dois elementos médios.

Se se representarem os elementos da amostra ordenada com a seguinte notação:

X1:n , X2:n , ... , Xn:n

então uma expressão para o cálculo da mediana será:

Como medida de localização, a mediana é mais robusta do que a média, pois não é tão sensível aos dados!

Page 37: Nocoes de Estatistica

Noções de estatística

37

Média ou mediana?

Consideremos o seguinte exemplo:

um aluno do 10.º ano obteve as seguintes notas:

10, 10, 10, 11, 11, 11, 11, 12

A média e a mediana da amostra anterior são respectivamente

=10.75 e =11

Admitamos que uma das notas de 10 foi substituída por uma de 18. Neste caso a mediana continuaria a ser igual a 11, enquanto que a média subiria para 11.75!

Dado um histograma é fácil obter a posição da mediana, pois esta está na posição em que passando uma linha vertical por esse ponto o histograma fica dividido em duas partes com áreas iguais.

Como medida de localização, a mediana é mais resistente do que a média, pois não é tão sensível aos dados.

1. Quando a distribuição é simétrica, a média e a mediana coincidem.

2. A mediana não é tão sensível, como a média, às observações que são muito maiores ou muito menores do que as restantes (outliers). Por outro lado a média reflecte o valor de todas as observações.

Assim, não se pode dizer em termos absolutos qual destas medidas de localização é preferível, dependendo do contexto em que estão a ser utilizadas.

Page 38: Nocoes de Estatistica

Noções de estatística

38

Como já vimos a média, ao contrário da mediana, é uma medida muito pouco resistente, isto é, é muito influenciada por valores "muito grandes" ou "muito pequenos", mesmo que estes valores surjam em pequeno número na amostra. Estes valores são os responsáveis pela má utilização da média em muitas situações em que teria mais significado utilizar a mediana.

Exemplo:

Os salários dos 160 empregados de uma determinada empresa, distribuem-se de acordo com a seguinte tabela de frequências:

Salário (em euros) 75 100 145 200 400 1700

Frequência absoluta 23 58 50 20 7 2

Frequência acumulada 23 81 131 151 158 160

Calcular a média e a mediana e comentar os resultados obtidos.

Resolução: = = (75*23+100*58+...+400*7+1700*2)/160 = 156,10 euros

m = semi-soma dos elementos de ordem 80 e 81 = 100 euros

Comentário:

O facto de termos obtido uma média de 156,10 e uma mediana de 100, é reflexo do facto de existirem alguns, embora poucos, salários muito altos, relativamente aos restantes.

Repare-se que, numa perspectiva social, a mediana é uma característica mais importante do que a média.

Na realidade 50% dos trabalhadores têm salário menor ou igual a 100 €, embora a média de 156,10 € não transmita essa ideia!

Page 39: Nocoes de Estatistica

Noções de estatística

39

Resumindo, como a média é influenciada quer por valores muito grandes, quer por valores muito pequenos, se a distribuição dos dados:

1. for aproximadamente simétrica, a média aproxima-se da mediana;

2. for enviesada para a direita (alguns valores grandes como "outliers"), a média tende a ser maior que a mediana;

3. for enviesada para a esquerda (alguns valores pequenos como "outliers"), a média tende a ser inferior à mediana.

Representando as distribuições dos dados (esta observação é válida para as representações gráficas na forma de diagramas de barras ou de histograma) na forma de uma mancha, temos, de um modo geral:

5. Quantis Quantis de ordem p

Generalizando a noção de mediana m, que como vimos anteriormente é a medida de localização, tal que 50% dos elementos da amostra são menores ou iguais a m, e os outros 50% são maiores ou iguais a m, temos a noção de quantil de ordem p, com 0<p<1, como sendo o valor Qp tal que 100p% dos elementos da amostra são menores ou iguais a Qp e os restantes 100 (1-p)% dos elementos da amostra são maiores ou iguais a Qp.

Tal como a mediana, é uma medida que se calcula a partir da amostra ordenada.

Um processo de obter os quantis é utilizando a Função Distribuição Empírica.

Generalizando ainda a expressão para o cálculo da mediana, temos uma expressão análoga para o cálculo dos quantis:

Qp =

onde representamos por [a], o maior inteiro contido em a.

Aos quantis de ordem 1/4 e 3/4 , damos respectivamente o nome de 1.º quartil e 3.º quartil

Page 40: Nocoes de Estatistica

Noções de estatística

40

Exemplo:

Tendo-se decidido registar os pesos dos alunos de uma determinada turma prática do 10.º ano, obtiveram-se os seguintes valores (em kg):

52 56 62 54 52 51 60 61 56 55 56 54 57 67 61 49

a) Determine os quantis de ordem 1/7, 1/2 e os 1.º e 3.º quartis.

b) Um aluno com o peso de 61 kg, pode ser considerado "normal", isto é nem demasiado magro, nem demasiado gordo?

Resolução:

Ordenando a amostra anterior, cuja dimensão é 16, temos

49 51 52 52 54 54 55 56 56 56 57 60 61 61 62 67

a) 16 * 1/7 = 16/7 donde [16/7] = 2 e Q1/7 = x3 : 16 = 52 16 * 1/2 = 8 donde Q1/2 = [x8 : 16 + x9 : 16]/2 = 56 16 * 1/4 = 4 donde Q1/4 = [x4 : 16 + x5 : 16]/2 = 53 16 * 3/4 = 12 donde Q3/4 = [x12 : 16 + x13 : 16]/2 = 60.5

b) Um aluno com 61 kg pode ser considerado um pouco "forte", pois naquela turma só 25% dos alunos é que têm peso maior ou igual a 60.5 kg!

Page 41: Nocoes de Estatistica

Noções de estatística

41

IV. Medidas de dispersão

1. Introdução

Anteriormente vimos algumas medidas de localização do centro de uma distribuição de dados. Veremos agora como medir a variabilidade presente num conjunto de dados através das seguintes medidas:

Desvio padrão Amplitude Amplitude inter-quartil

Procuraremos realçar:

1. Processo de as calcular

2. Propriedades

3. Limitações

Um aspecto importante no estudo descritivo de um conjunto de dados, é o da determinação da variabilidade ou dispersão desses dados, relativamente à medida de localização do centro da amostra.

Repare-se nas duas amostras seguintes, que embora tenham a mesma média, têm uma dispersão bem diferente:

Como a medida de localização mais utilizada é a média, será relativamente a ela que se define a principal medida de dispersão - a variância, apresentada a seguir.

2. Variância

Define-se a variância, e representa-se por s2, como sendo a medida que se obtém somando os quadrados dos desvios das observações da amostra, relativamente à sua média, e dividindo pelo número de observações da amostra menos um:

Quais as razões que nos levam a considerar aquela definição para a variância?

Page 42: Nocoes de Estatistica

Noções de estatística

42

3. Desvio-padrão Uma vez que a variância envolve a soma de quadrados, a unidade em que se exprime não é a mesma que a dos dados. Assim, para obter uma medida da variabilidade ou dispersão com as mesmas unidades que os dados, tomamos a raiz quadrada da variância e obtemos o desvio padrão:

O desvio padrão é uma medida que só pode assumir valores não negativos e quanto maior for, maior será a dispersão dos dados.

Algumas propriedades do desvio padrão, que resultam imediatamente da definição, são:

• o desvio padrão é sempre não negativo e será tanto maior, quanta mais variabilidade houver entre os dados.

• se s = 0, então não existe variabilidade, isto é, os dados são todos iguais.

Page 43: Nocoes de Estatistica

Noções de estatística

43

Exemplo:

Na 2.ª classe de certa escola o professor deu uma tarefa constituída por um certo número de contas para os alunos resolverem. Pretendendo determinar a dispersão dos tempos de cálculo, observam-se 10 alunos durante a realização da tarefa, tendo-se obtido os seguintes valores:

Aluno i

Tempo (minutos) xi

1 13 - 3.9 15.21 2 15 - 1.9 3.61 3 14 - 2.9 8.41 4 18 1.1 1.21 5 25 8.1 65.61 6 14 - 2.9 8.41 7 16 -0.9 0.81 8 17 0.1 0.01 9 20 3.1 9.61 10 17 0.1 0.01

169 0.0 112.90

Resolução:

Na tabela anterior juntámos duas colunas auxiliares, uma para colocar os desvios das observações em relação à média e a outra para escrever os quadrados destes desvios. A partir da coluna das observações calculámos a soma dessas observações, que nos permitiu calcular a média = 16.9. Uma vez calculada a média foi possível calcular a coluna dos desvios. Repare-se que, como seria de esperar, a soma dos desvios é igual a zero.

A soma dos quadrados dos desvios permite-nos calcular a variância

s2 =112.9

9 = 12.54

donde s = 3.54

O tempo médio de realização da tarefa foi de aproximadamente 17 minutos com uma variabilidade medida pelo desvio padrão de aproximadamente 3.5 minutos

Page 44: Nocoes de Estatistica

Noções de estatística

44

Na representação gráfica em baixo visualizamos os desvios das observações relativamente à média (valores do exemplo anterior):

Do mesmo modo que a média, também o desvio padrão é uma medida pouco resistente, pois é influenciado por valores ou muito grandes ou muito pequenos (o que seria de esperar já que na sua definição entra a média que é não resistente). Assim, se a distribuição dos dados for bastante enviesada, não é conveniente utilizar a média como medida de localização, nem o desvio padrão como medida de variabilidade. Estas medidas só dão informação útil, respectivamente sobre a localização do centro da distribuição dos dados e sobre a variabilidade, se as distribuições dos dados forem aproximadamente simétricas.

Propriedades para dados com distribuição aproximadamente normal:

Uma propriedade que se verifica se os dados se distribuem de forma aproximadamente normal, ou seja, quando o histograma apresenta uma forma característica com uma classe média predominante e as outras classes se distribuem à volta desta de forma aproximadamente simétrica e com frequências a decrescer à medida que se afastam da classe média, é a seguinte:

Aproximadamente 68% dos dados estão no intervalo

Page 45: Nocoes de Estatistica

Noções de estatística

45

1 - Aproximadamente 68% dos dados estão no intervalo

2 - Aproximadamente 95% dos dados estão no intervalo

Aproximadamente 100% dos dados estão no intervalo

Como se depreende do que atrás foi dito, se os dados se distribuem de forma aproximadamente normal, então estão praticamente todos concentrados num intervalo de amplitude igual a 6 vezes o desvio padrão.

Observação:

A informação que o desvio padrão dá sobre a variabilidade deve ser entendida como a variabilidade que é apresentada relativamente a um ponto de referência – a média, e não propriamente a variabilidade dos dados, uns relativamente aos outros.

A partir da definição de variância, pode-se deduzir sem dificuldade uma expressão mais simples, sob o ponto de vista computacional, para calcular ou a variância ou o desvio padrão e que é a seguinte:

Page 46: Nocoes de Estatistica

Noções de estatística

46

4. Amplitude Uma medida de dispersão que se utiliza por vezes, é a amplitude amostral r, definida como sendo a diferença entre a maior e a menor das observações:

r = xn:n - x1:n

onde representamos por x1:n e xn:n, respectivamente o menor e o maior valor da amostra (x1, x2, ..., xn), de acordo com a notação introduzida anteriormente, para a amostra ordenada.

5. Amplitude inter-quartil A medida anterior tem a grande desvantagem de ser muito sensível à existência, na amostra, de uma observação muito grande ou muito pequena. Assim, define-se uma outra medida, a amplitude inter-quartil, que é, em certa medida, uma solução de compromisso, pois não é afectada, de um modo geral, pela existência de um número pequeno de observações demasiado grandes ou demasiado pequenas. Esta medida é definida como sendo a diferença entre os 1.º e 3.º quartis *

Amplitude inter-quartil = Q3/4 - Q1/4

Do modo como se define a amplitude inter-quartil, concluímos que 50% dos elementos do meio da amostra, estão contidos num intervalo com aquela amplitude.

Esta medida é não negativa e será tanto maior quanto maior for a variabilidade nos dados.

*

Atenção:

Mas, ao contrário do que acontece com o desvio padrão, uma amplitude inter-quartil nula, não significa necessariamente, que os dados não apresentem variabilidade.

Amplitude inter-quartil ou desvio padrão?

Do mesmo modo que a questão foi posta relativamente às duas medidas de localização mais utilizadas – média e mediana, também aqui se pode por o problema de comparar aquelas duas medidas de dispersão.

1. A amplitude inter-quartil é mais robusta, relativamente à presença de "outliers", do que o desvio padrão, que é mais sensível aos dados.

Page 47: Nocoes de Estatistica

Noções de estatística

47

2. Para uma distribuição dos dados aproximadamente normal, verifica-se a seguinte relação

amplitude inter-quartil 1.3 x desvio padrão

3. Se a distribuição é enviesada, já não se pode estabelecer uma relação análoga à anterior, mas pode acontecer que o desvio padrão seja muito superior à amplitude inter-quartil, sobretudo se se verificar a existência de "outliers".

Page 48: Nocoes de Estatistica

Noções de estatística

48

V. Distribuições bidimensionais

1. Dados bivariados: o que são?

Por vezes a População que se pretende estudar, aparece sob a forma de pares de valores, isto é, cada indivíduo ou resultado experimental, contribui com um conjunto de dois valores.

É o que acontece, por exemplo, quando se considera para cada aluno candidato ao Ensino Superior, a nota final de Matemática e a nota da Prova Específica.

Como representar e organizar este tipo de informação?

2. Representações gráficas Diagrama de pontos

É uma representação gráfica para os dados bivariados, em que cada par de dados (xi,yi) é representado por um ponto de coordenadas (xi,yi), num sistema de eixos coordenados.

Este tipo de representação é muito útil, pois permite realçar algumas propriedades entre os dados, nomeadamente no que diz respeito ao tipo de associação entre os x´s e os y´s.

Seguidamente apresentamos alguns exemplos, para ilustrar o que acabamos de dizer.

Exemplo 1:

Considere os seguintes dados, que representam as medidas, em mm, de ossos do braço e da perna, de fósseis do período Neanderthal. Construa o Diagrama de Pontos e comente-o.

Espécie Braço (Úmero)

x [mm] Perna (Fémur)

y [mm] A 312 430 B 335 458 C 286 407 D 312 440 E 305 422

Page 49: Nocoes de Estatistica

Noções de estatística

49

Comentário:

Verifica-se uma associação linear entre as medidas dos ossos do braço e da perna, isto é, aos maiores valores de x correspondem os maiores valores de y.

Esta conclusão seria de esperar, pois de um modo geral se as pessoas são grandes, são-no de braços e pernas!

Exemplo 2:

Considere os seguintes dados, que representam o número de faltas não autorizadas por ano e a distância (em km) a que os empregados de determinado armazém estão de casa. Construa o Diagrama de Pontos e comente-o.

Comentário:

O gráfico mostra uma ligeira associação, de sentido contrário, entre o n.º de faltas e a distância.

Assim, quanto maior é a distância, menor é a tendência para faltar!

Page 50: Nocoes de Estatistica

Noções de estatística

50

3. Coeficiente de correlação

Coeficiente de correlação

Já vimos na secção anterior que quando dispomos de uma amostra de dados bivariados (xi,yi), a sua representação em diagrama de dispersão, pode mostrar a existência de uma certa relação linear entre os factores x e y, que compõem os pares. A medida que se utiliza com mais frequência para medir o grau desta associação linear, é o coeficiente de correlação (linear), que se representa por r e se calcula a partir da expressão:

Exemplo 3:

Considere os seguintes dados, que representam as notas obtidas por 10 alunos nas disciplinas de Matemática e Educação Física.

Construa o Diagrama de Pontos e comente-o.

Comentário:

Aparentemente não existe nenhuma associação linear entre as duas disciplinas, uma vez que os pontos se encontram dispersos de forma "aleatória".

Page 51: Nocoes de Estatistica

Noções de estatística

51

Vejamos algumas propriedades do coeficiente de correlação:

1. O valor de r está contido no intervalo [-1,1]

2. Quanto maior for o módulo de r, maior será, o grau de associação linear existente entre os x'se os y's

3. O facto de r > 0, significa que a relação entre os x's e os y's é do mesmo sentido, isto é, a valores grandes de x correspondem, de um modo geral, valores grandes de y e vice-versa. Quando r < 0, a relação entre os x e os y é de sentido contrário, o que significa que a valores grandes de x, correspondem, de um modo geral, valores pequenos de y e vice-versa.

Exemplo:

Suponhamos que numa determinada turma constituída por 34 alunos, o professor resolveu registar, num dia em que houve prova, a ordem por que cada aluno entregava o ponto e a classificação que veio a obter. Os valores registados foram os seguintes:

Ordem Class. Ordem Class. Ordem Class. Ordem Class. 1 18.2 10 17.4 19 11.5 28 9.5 2 9.9 11 14.0 20 13.2 29 18.8 3 19.3 12 9.1 21 11.4 30 14.1 4 18.3 13 10.8 22 8.3 31 14.3 5 9.2 14 16.4 23 16.0 32 13.4 6 12.5 15 11.9 24 14.0 33 15.7 7 17.9 16 16.5 25 13.3 34 15.5 8 5.9 17 13.5 26 11.7 9 10.0 18 17.4 27 7.7

Page 52: Nocoes de Estatistica

Noções de estatística

52

Resolução:

Fazendo a representação gráfica dos pares de valores, obtemos a figura seguinte, a qual sugere a existência de uma fraca relação linear entre os x's e os y's.

No entanto, a estatística utilizada para medir essa relação é o coeficiente de correlação. Considerando os pares de valores constituídos pelas ordens e as classificações correspondentes, vem que r é igual a

r = - 0.35

Interpretação do resultado anterior:

Tendo-se obtido um valor de r pequeno, significa que praticamente não existe relação (linear) entre a ordem pela qual os alunos acabaram o exame e a classificação obtida. Existe, no entanto, alguma tendência - explicada pelo sinal negativo, para que os melhores alunos acabem o exame primeiro.

Se tivéssemos feito a representação gráfica dos pares de valores, considerando o agrupamento de modo que às menores ordens correspondessem as melhores notas, obteríamos a representação gráfica seguinte:

Esta representação sugere a existência de uma forte relação linear entre as notas dos alunos e a ordem pela qual acabaram o exame. Calculando o coeficiente de correlação linear esperamos obter um valor grande em termos absolutos e de sinal negativo. Na verdade o valor obtido foi:

r = - 0.993

Note-se, no entanto, que esta relação não corresponde à realidade.

Page 53: Nocoes de Estatistica

Noções de estatística

53

4. Tabela de contingência Um processo de organizar a informação correspondente a dados bivariados é utilizando uma tabela de contingência.

De uma maneira geral, uma tabela de contingência é uma representação dos dados, quer de tipo qualitativo, quer de tipo quantitativo, especialmente quando são de tipo bivariado, isto é, podem ser classificados segundo dois critérios.

O aspecto de uma tabela de contingência é o de uma tabela com linhas, correspondentes a um dos critérios, e com colunas, correspondente ao outro critério.

Seguidamente apresentaremos alguns exemplos, para ilustrar o que acabamos de dizer.

Exemplo 1:

Num inquérito realizado a 150 indivíduos, estes tiveram de assinalar o sexo, M ou F, e o estado civil - solteiro, casado, viúvo ou divorciado. Para resumir a informação contida na amostra, construiu-se a seguinte tabela de contingência:

Da análise da tabela podemos tirar algumas conclusões, tais como:

1- O número de indivíduos do sexo masculino e solteiros é 40;

2- O número de indivíduos do sexo masculino é 68;

3- O número de indivíduos viúvos é 5.

Exemplo 2:

Considere os seguintes dados, já apresentados anteriormente, que representam as notas obtidas por 10 alunos nas disciplinas de Matemática e Ed. Física. Construa uma tabela de contingência, para resumir a informação contida nos dados.

Uma classificação possível, será:

Page 54: Nocoes de Estatistica

Noções de estatística

54

VI. Exercícios

1. Introdução à estatística 1. Pretendia-se fazer um estudo sobre o número de irmãos dos alunos do 10.º ano de

escolaridade de uma Escola Secundária.

Para isso, efectuou-se um inquérito ao qual responderam 60 alunos.

Indique:

a) a população em estudo;

b) a amostra escolhida;

c) a variável em estudo e classifique-a.

2. Diga porque é que as seguintes situações representam más amostras:

a) Para saber qual o candidato mais votado, para a Câmara de determinada cidade, auscultou-se a opinião dos clientes de determinado supermercado.

b) Para conhecer a situação financeira das empresas têxteis portuguesas, verificou-se a situação das empresas que tiveram maior volume de exportações, no último ano.

Resposta:

População em estudo: todos os alunos do 10.º ano da escola.

Amostra escolhida: os 60 alunos que responderam ao inquérito.

Variável em estudo: n.º de irmãos de cada aluno do 10.º ano. Esta variável é quantitativa discreta.

Resposta:

2. As situações apresentadas não são representativas das populações de onde foram retiradas – são amostras enviesadas.

a) Diferentes tipos de pessoas frequentam diferentes tipos de supermercados. A amostra daria unicamente indicações sobre a população constituída pelos clientes desse supermercado. Podemos ainda referir, como exemplo, que os preços e o tipo de produtos que estão à venda, não são iguais em todos os supermercados, pelo que a amostra não é representativa.

b) Verificou-se certamente que a situação financeira das empresas têxteis portuguesas é melhor do que na realidade é.

Page 55: Nocoes de Estatistica

Noções de estatística

55

3. Num estudo feito numa escola, recolheram-se dados referentes às seguintes variáveis:

(A) idade (E) tempo gasto diariamente no estudo (B) ano de escolaridade (F) distância de casa à escola (C) sexo (G) local de estudo (D) nota na disciplina de Matemática (H) número de irmãos

a) Das variáveis indicadas, quais são as quantitativas e quais são as qualitativas?

b) Das variáveis quantitativas, diz quais são contínuas.

4. Quais são os objectivos da Estatística descritiva?

2. Dados, tabelas e gráficos

1. A lista do número de irmãos dos alunos da turma H do 9.º ano é a seguinte:

1 0 1 2 1 1 1 3 0 4 0 1 1

4 2 3 2 1 3 1 2 1 2 1 2 3

Resposta:

a) Quantitativas: (A), (D), (E), (F), (H)

Qualitativas: (B), (C), (G)

b) São variáveis quantitativas contínuas: (E), (F)

(e eventualmente (A); a variável Idade também é contínua, pois pode tomar qualquer valor num intervalo, embora seja normalmente tratada como discreta)

Resposta:

Os objectivos da Estatística Descritiva são: recolher dados de uma amostra (ou de uma população), organizá-los (em tabelas, diagramas, gráficos) e, a seguir, condensar a informação em valores isolados (por exemplo: moda, média, mediana...) que descrevam a amostra (ou a população).

Page 56: Nocoes de Estatistica

Noções de estatística

56

Construa:

a) a tabela de frequências.

b) o diagrama de barras.

2. As alturas, em centímetros, dos alunos de uma turma do 10.º ano são as seguintes:

150 169 174 155 165 170 172

152 158 163 158 166 158 166

170 171 162 171 161 154 168

161 164 166 164 162 156 167

a) Construa uma tabela de frequências, agrupando os dados em classes.

b) Represente graficamente os dados, utilizando o tipo de gráfico que achar mais conveniente.

Resposta:

a) Tabela de frequências

b) Diagrama de barras

Page 57: Nocoes de Estatistica

Noções de estatística

57

3. Os seguintes valores representam o número de medalhas (ouro, prata e bronze) obtidas nos jogos olímpicos de Verão de 1976:

Construa um "caule e folhas" ou um histograma dos dados e identifique o tipo de distribuição.

Resposta:

a)

n = 28

N.º de classes: 5

(ver regra empírica no Cap. III das Noções)

Amplitude da amostra = 174 - 150 = 24

Amplitude da classe = 24/5 5

b) Histograma

Page 58: Nocoes de Estatistica

Noções de estatística

58

4. Num determinado teste realizado a 50 estudantes, obtiveram-se as seguintes pontuações:

Depois de ordenada a amostra construa a função distribuição empírica e determine:

a) A nota N, tal que 50% dos alunos tenham nota menor ou igual a N

b) Qual a percentagem P de alunos com nota menor ou igual a 81

Resposta:

Construção do histograma

Dimensão da amostra: 41

N.º de classes: 6 (ver regra empírica no Cap. III das Noções).

Amplitude da amostra = 125-1 = 124

Amplitude da classe = 124/6 21

Page 59: Nocoes de Estatistica

Noções de estatística

59

5. Num inquérito à comunidade científica sobre a utilização de meios informáticos, realizado pela Fundação para o desenvolvimento dos meios Nacionais de Cálculo Científico, obtiveram-se os seguintes resultados, quanto ao tipo de problemas tratados:

Construa um diagrama de extremos e quartis dos dados e discuta-o.

Resposta:

a) A nota N é 75.

b) A percentagem pedida é 70%.

Resposta:

5. Diagrama de extremos e quartis

Da análise da representação anterior, verifica-se que 50% dos dados centrais são um pouco enviesados para a direita, havendo um grande enviesamento nos 25% dos dados superiores, provocado pelo valor 337.

Page 60: Nocoes de Estatistica

Noções de estatística

60

3. Medidas de localização 1. Num laboratório verifica-se que o peso médio das 20 cobaias utilizadas para os ensaios

clínicos era de 257 gramas. Posteriormente, verificou-se que a balança estava mal calibrada, pelo que para todas as cobaias o peso indicado era superior em 5 gramas ao peso verdadeiro. Então qual era efectivamente a média dos pesos das cobaias?

2. Se as medidas que utilizam para calcular a média dos pesos estivessem em kg, como se reflectiria esta facto na média?

3. O governo e o sindicato sentam-se à mesa das negociações para discutirem os salários da função pública. Uma destas entidades quer que um dos pontos de referência para o aumento dos salários seja a média, enquanto que a outra pretende que seja a mediana. Qual destas medidas é a reivindicada pelo sindicato?

4. Os professores universitários estão, dentro da mesma categoria, classificados em 4 escalões A, B, C e D. Suponha que num determinado Departamento com 15 Professores Auxiliares, se registou para cada um deles a categoria, o estado civil e a idade:

1- B, casado, 35 6- D, viúvo, 50 11- A, solteiro, 32 2- A, solteiro, 28 7- B, solteiro, 35 12- B, divorciado, 30 3- B, casado, 38 8- A, solteiro, 32 13- C, casado, 36 4- A, solteiro, 34 9- A, casado, 30 14- D, casado 40 5- C, casado, 40 10- A, solteiro, 28 15- B, casado, 35

a) Relativamente à característica "categoria", poderá calcular a média, mediana e moda?

b) A mesma questão da alínea anterior, relativamente ao estado civil.

c) A mesma questão relativamente à idade.

Resposta:

a)

Atendendo a que a variável "categoria" é uma variável qualitativa, apenas podemos calcular a moda. Neste caso a moda é o escalão A.

b)

A variável "estado civil" é também uma variável qualitativa, logo, só é possível calcular a moda. A moda é: casado.

Page 61: Nocoes de Estatistica

Noções de estatística

61

5. Considerar várias representações gráficas (por ex. histogramas referentes a notas de várias turmas).

a) Comparar posição relativa das medianas das notas das 3 turmas.

b) Considere a classe 1). Espera que a média e a mediana das notas dessa turma, estejam próximas?

c) Considere os dados da classe 2). Espera que a mediana seja superior à média ou inferior?

d) A partir dos dados calcule as medidas pedidas anteriormente. Confirme se a sua intuição estava correcta

Sugestão: Pode-se considerar notas de um teste aplicado a várias turmas para comparar turmas!

6. (Rossman) - a seguinte tabela apresenta a distância média (em milhões de milhas), distância (em milhas) e o período de revolução em volta do sol (em dias) para os 9 planetas do nosso sistema solar:

c)

Sendo a variável "idade" uma variável quantitativa podemos calcular a média, a mediana e a moda. A moda é: 35 anos, a mediana é: 35 anos e a média é: 34,87 anos.

Page 62: Nocoes de Estatistica

Noções de estatística

62

Planeta Distância Diâmetro Período Mercúrio 36 3 030 88 Venus 67 7 520 225 Terra 93 7 926 365 Marte 142 4 217 687 Júpiter 484 88 838 4 332 Saturno 887 74 896 10 760 Urano 1 765 31 762 30 684 Neptuno 2 791 30 774 60 188 Plutão 3 654 1 428 90 467

a) Calcule a mediana de cada um destes valores. b) Se alguém lhe disser que obteve para a mediana o valor de 88 838, qual é o erro que

essa pessoa cometeu ao calcular a mediana?

7. (Sugerido de um ex. Rossman) - a seguinte tabela representa o n.º de levantamentos e a quantia total levantada num determinado ATM durante o ano de 1998:

Mês # Total Mês # Total Mês # Total Janeiro 9 188 700 Maio 8 148 000 Setembro 10 157 250 Fevereiro 8 164 650 Junho 13 229 400 Outubro 10 186 850 Março 10 185 000 Julho 4 138 750 Novembro 7 159 100 Abril 9 148 000 Agosto 9 209 050 Dezembro 14 252 000

a) A partir dos dados da tabela anterior pode:

1) Calcular a moda dos 111 levantamentos? Se sim, identifique-a. Se não, explique porquê.

2) Calcular a mediana dos 111 levantamentos? Se sim, identifique-a. Se não, explique porquê?

3) Calcular a média dos 111 levantamentos? Se sim, identifique-a. Se não, explique porquê?

b) A seguinte tabela representa as quantias individuais dos 111 levantamentos.

Utilize esta nova informação para calcular as medidas de localização que não pôde calcular anteriormente.

Page 63: Nocoes de Estatistica

Noções de estatística

63

4. Medidas de dispersão 1. Seguidamente apresentam-se algumas estimativas para a velocidade da luz,

determinadas por Michelson em 1882 (Statistics and Data Analysis, Siegel):

299.96 299.88 299.90 299.94 299.88

299.96 299.85 299.94 299.80 299.84

Utilizando uma máquina que só admite números até 6 dígitos:

a) Determine a média.

b) Determine o desvio padrão, utilizando a expressão da definição.

c) Determine o desvio padrão, utilizando a fórmula deduzida para efeitos de cálculo, e compare o resultado, com o obtido na alínea anterior. Qual a resposta correcta?

d) Subtraia 299 de cada um dos dados e determine o desvio padrão, dos resultados obtidos, utilizando a fórmula utilizada na alínea anterior. Comente os resultados obtidos.

e) Calcule a média dos valores com que trabalhou na alínea anterior. Adicione à média obtida 299. Compare-a com a obtida na alínea a.

2. O Sr. Malaquias, cujas habilitações literárias não vão além do 4.º ano de escolaridade, respondeu a 2 anúncios de oferta de emprego. As empresas trabalham no mesmo ramo, pelo que o serviço que o Sr. Malaquias iria fazer seria semelhante em qualquer das empresas. Resolveu saber alguma coisa sobre os ordenados processados nos dois sítios, tendo obtido a seguinte informação:

Empresa A Empresa B Média 445 € 475 € Mediana 400 € 350 € Desvio padrão 160 € 190 €

Qual das empresas aconselharia o Sr. Malaquias a escolher? Explique porquê.

5. Distribuições bidimensionais A tabela seguinte apresenta 3 conjuntos de dados A, B e C, preparados pelo estatístico Frank Anscombe, para ilustrar os perigos de calcular medidas sem primeiro representar os dados. Os conjuntos de dados A, B e C têm a mesma correlação e a mesma recta de regressão (Moore, 1995):

Page 64: Nocoes de Estatistica

Noções de estatística

64

A B C

x 10 8 13 9 11 14 6 4 12 7 5 y 8.04 6.95 7.58 8.81 8.33 9.96 7.24 4.26 10.84 4.82 5.6 x 10 8 13 9 11 14 6 4 12 7 5 y 9.14 8.14 8.74 8.77 9.26 8.10 6.13 3.10 9.13 7.26 4.74 x 8 8 12 8 8 8 8 8 8 8 19 y 6.58 5.76 7.71 8.84 8.47 7.04 5.25 5.56 7.91 6.89 12.50

a) Calcule o coeficiente de correlação e a recta de regressão para cada um dos conjuntos de dados e verifique que são iguais.

b) Para cada um dos conjuntos de dados faça o diagrama de pontos e represente a recta de regressão.

c) Em qual das situações acha que pode utilizar a recta de regressão para predizer y para x=13.5? Justifique a resposta.

6. Globais 1. Suponha que se adicionou 100, a cada um dos valores de uma amostra. O que é que

acontece ao:

a) Desvio padrão.

b) Amplitude interquartil.

c) Amplitude.

d) Média.

e) Mediana.

Resposta:

a) O desvio padrão mantém.

b) A amplitude interquartil mantém.

c) A amplitude mantém.

d) A média aumenta 100 valores.

e) A mediana aumenta 100 valores.

Page 65: Nocoes de Estatistica

Noções de estatística

65

2. Suponha que obteve o valor de -40.5 para a variância. O que conclui?

3. Suponha que a amplitude de uma amostra é 105.4, e que ao calcular o desvio padrão obteve o valor 260.6. O que conclui?

4. Considere os seguintes resultados de um exame de Matemática realizado a 213 alunos:

Nota 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Freq. Abs. 1 1 5 7 12 13 16 15 17 32 17 21 12 16 8 4 7 5 4

a) Calcule a média e o desvio padrão dos dados.

b) Represente graficamente os dados na forma de um histograma considerando as seguintes classes:

[1,3[, [3,5[, [5,7[, [7,9[, [9,11[, [11,13[, [13,15[, [15,17[, [17,19[, [19,21[

c) Qual o aspecto apresentado pelo histograma?

d) Verifique quantas notas pertencem ao intervalo . Corresponde a que percentagem? Comente o valor obtido.

e) Verifique quantas notas pertencem ao intervalo . Corresponde a que percentagem? Comente o valor obtido.

Resposta:

Podemos concluir que ao calcular o desvio padrão cometemos algum erro.

O desvio padrão é, por definição e construção, uma medida da distância das observações da amostra, relativamente à média. A média por sua vez tem que estar incluída no intervalo [min. da amostra, máx. da amostra].

Assim, a amplitude da amostra terá que ser superior ao desvio padrão.

Resposta:

Podemos concluir que o valor obtido para a variância não está correcto.

A variância nunca assume valores negativos. Esta propriedade resulta da sua definição (consultar página: http://alea-estp.ine.pt/html/nocoes/html/cap5_2_1.html)