otd.pdf

53
1 Matemática Complementar 2012/13 Organização e Tratamento de dados (baseado na brochura do ministério de 2010 de Maria Eugénia Graça Martins e João Pedro da Ponte) 5-6 Aulas Dados estatísticos Estatística é a ciência que trata da recolha, organização, apresentação, análise e interpretação de dados (Oxford dictionary of statistical terms). Perante uma coleção de dados, há duas formas possíveis de abordar a sua análise, consoante o nosso interesse seja: Apenas explorar a coleção de dados e encontrar padrões – esta coleção de dados é, por assim dizer, a população em estudo. Extrapolar para um universo mais vasto os padrões encontrados na coleção de dados, a qual é parte (ou amostra) desse universo (ou população). Exemplos: Se quisermos caracterizar uma turma no que respeita ao número de irmão podemos perguntar a cada aluno quantos irmãos tem. Neste caso a população é a turma. Quando se faz uma sondagem em período eleitoral para ter uma ideia dos resultados finais das eleições, a população é toda a população votante e os dados recolhidos dizem respeito a apenas uma amostra dessa população. População – Conjunto de unidades individuais, que podem ser pessoas, animais ou resultados experimentais, com uma ou mais características em comum, que se pretendem analisar.

Upload: sara-daniela

Post on 05-Dec-2014

46 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: OTD.pdf

1

Matemática Complementar 2012/13

Organização e Tratamento de dados (baseado na brochura do ministério de 2010 de Maria Eugénia Graça Martins e João Pedro da Ponte) 5-6 Aulas

Dados estatísticos Estatística é a ciência que trata da recolha, organização, apresentação, análise e interpretação de dados (Oxford dictionary of statistical terms). Perante uma coleção de dados, há duas formas possíveis de abordar a sua análise, consoante o nosso interesse seja:

• Apenas explorar a coleção de dados e encontrar padrões – esta coleção de dados é, por assim dizer, a população em estudo.

• Extrapolar para um universo mais vasto os padrões encontrados na coleção de dados, a qual é parte (ou amostra) desse universo (ou população).

Exemplos: Se quisermos caracterizar uma turma no que respeita ao número de irmão podemos perguntar a cada aluno quantos irmãos tem. Neste caso a população é a turma. Quando se faz uma sondagem em período eleitoral para ter uma ideia dos resultados finais das eleições, a população é toda a população votante e os dados recolhidos dizem respeito a apenas uma amostra dessa população. População – Conjunto de unidades individuais, que podem ser pessoas, animais ou resultados experimentais, com uma ou mais características em comum, que se pretendem analisar.

Page 2: OTD.pdf

2

Amostra – Parte da população que é observada com o objectivo de obter informação para estudar a característica pretendida. Se se observar toda a população diz-se que se faz um censo. O objetivo principal da estatística é estudar populações, isto é, conjuntos de indivíduos (não necessariamente pessoas) que têm características comuns, que se pretendem conhecer. A uma característica comum, que assume valores diferentes de indivíduo para indivíduo, chamamos variável. Variável é uma característica de um indivíduo ou objecto à qual se possa atribuir um número ou uma categoria. Unidade observacional é um indivíduo ou coisa relativamente ao qual se recolhe a informação. Dado estatístico ou simplesmente dado é o resultado da observação da variável num indivíduo ou objecto. Sendo o nosso objectivo o estudo de uma (ou mais) característica da população, vamos identificar população com a variável (característica) que se está a estudar, dizendo que a população é constituída por todos os valores que a variável pode assumir. Exemplo: relativamente à população portuguesa, se o objectivo do estudo for a característica altura, diremos que a população é constituída por todos os valores possíveis para a variável altura. Os valores 156cm, 171cm, 163cm, 168cm, 166cm, obtidos ao medir a altura de 5 portugueses, constituem uma amostra da população a estudar. Tipos de variáveis:

Quantitativa (ou numérica) - refere-se a uma característica que se pode contar ou medir Exemplos: o número de irmãos e a altura dos alunos de uma turma.

Page 3: OTD.pdf

3

Qualitativa (ou categórica) - refere-se a uma característica que não se pode contar nem medir, mas apenas classificar, podendo assumir várias categorias. Se a variável puder apenas assumir duas categorias diz-se binária. Exemplos: a cor dos olhos e o sexo dos alunos de uma turma (neste caso a variável sexo é binária).

As variáveis quantitativas podem ser discretas ou contínuas. Quantitativas discretas – referem-se a características que se podem contar mas não medir. Exemplo: o número de irmãos dos alunos de uma turma. Quantitativas contínuas - referem-se a características que se podem medir mas não contar. Estas variáveis assumem valores em intervalos de números reais. No entanto, como os instrumentos de medida não possuem precisão infinita, os valores são sempre registados com um número finito de casas decimais e por vezes comportam-se como se fossem variáveis discretas. Por exemplo, a altura das pessoas é usualmente referida em cm ou metros com duas casas decimais (167cm; 1,54m, 1,75m). Um outro exemplo diz respeito à idade das pessoas que é geralmente referida em anos (nºs inteiros) apesar de na verdade a variável ser contínua (tempo de vida de uma pessoa). Algumas variáveis qualitativas apresentam uma ordem subjacente e designam-se por qualitativas ordinais. Exemplo: o grau de satisfação com um produto (com as categorias “nada satisfeito”, “pouco satisfeito”, “satisfeito”, “bastante satisfeito” e “muito satisfeito”).

Page 4: OTD.pdf

4

Tarefa – Classificação de variáveis

Para cada uma das variáveis a seguir consideradas indique se é de natureza qualitativa ou quantitativa e neste caso se é discreta ou contínua: a) Número de pastilhas numa caixa de Smarties b) Cor do cabelo do primeiro colega que encontrar quando chega à escola c) Idade do colega da alínea anterior d) Número de livros que comprou no último mês e) Marca do primeiro carro que passa, quando vai à janela f) Velocidade do carro da alínea anterior g) Tempo que leva de casa à escola h) Rendimento mensal de uma família i) Tempo de duração de uma chamada telefónica j) Número de mensagens que recebe, por dia, no telemóvel Resolver os exercícios 1 a 4 da FT nº 2.

Organização de dados em tabelas e gráficos

Diagramas de Venn e de Carroll

Os diagramas de Venn (e de Euler) utilizam círculos ou rectângulos para uma classificação rápida de objetos ou números, que partilhem características comuns. Exemplo:

Page 5: OTD.pdf

5

Nota: Num diagrama de Venn devem estar representadas todas as possíveis partes de intersecção dos conjuntos envolvidos, mesmo que estejam vazias. Num diagrama de Euler podem ser eliminadas algumas partes. Assim, o diagrama seguinte é um diagrama de Euler e não de Venn:

Os diagramas de Carroll são tabelas rectangulares (2x2) para organizar dados ou objetos segundo critérios de sim/não. Exemplo/tarefa: Preencha o diagrama de Carroll com os dados do exemplo anterior

Tabelas e Gráficos para dados qualitativos

Esquemas de contagem (tally charts) - Forma simples de registar dados à medida que são recolhidos.

Exemplo: Cor dos olhos dos alunos de uma turma

A

B

Page 6: OTD.pdf

6

Tabela de frequências Uma tabela de frequência para dados qualitativos tem habitualmente 3 colunas: a primeira contém as categorias presentes na amostra, a segunda contém a frequência absoluta de cada categoria ( número de elementos que pertencem à categoria) e a terceira contém a frequência relativa (frequência absoluta dividida pela dimensão da amostra) Frequência absoluta de uma categoria ou classe, é o número de elementos da amostra iguais a essa categoria;

Frequência relativa = amostradadimensão

absolutafrequência

Dimensão da amostra é o número de elementos que constituem a amostra. Exemplo: Tabela de frequências da cor dos olhos dos alunos de uma turma

É habitual incluir uma última linha na tabela com os totais.

• A soma das frequências absolutas é igual à dimensão da amostra;

• A soma das frequências relativas é igual a 1. Para construir uma tabela de frequências com recurso ao excel consultar as páginas 64-68 do livro “Elementos de Matemática para professores do ensino básico” de Pedro Palhares (Lidel, 2004). Pode usar-se a função frequency (calcula todas as frequências de

Page 7: OTD.pdf

7

uma só vez) ou countif (calcula a frequência de uma determinada categoria) Gráfico de pontos (ou diagrama de pontos)

Forma simples de representar graficamente os dados e que consiste na marcação de um ponto por cada dado, dispondo-se este pontos na vertical de acordo com a categoria respetiva. As categorias são assinaladas sob um eixo horizontal, equidistantes umas das outras. Exemplo: Gráfico de pontos referente ao transporte utilizado pelos alunos de uma turma

Pictograma

Um pictograma é semelhante a um gráfico de pontos mas utiliza símbolos alegóricos às variáveis que se estão a estudar. Os símbolos devem ser todos do mesmo tamanho, embora possam ser diferentes de categoria para categoria (ver exemplo da pág. 62 da brochura de OTD) Exemplo: Pictograma da cor dos olhos dos alunos de uma turma

Page 8: OTD.pdf

8

Por vezes cada símbolo representa mais de um elemento. Nesse caso deverá estar assinalado junto ao gráfico o valor de cada símbolo. Exemplo: Pictograma do sabor preferido de um determinado tipo de bolachas, dos alunos de uma turma

Ver “cuidados a ter” nas páginas 58 e 60 da brochura de OTD (2010) Gráfico de barras (ou diagrama de barras)

Um gráfico de barras é basicamente um gráfico de pontos em que cada ponto é substituído por um rectângulo e os vários retângulos alinhados verticalmente são representados por um único retângulo. Assim sendo, a altura de cada barra reflete (é proporcional) a frequência absoluta ou relativa da respetiva categoria. Estes gráficos têm sempre dois eixos, o eixo das categorias e o eixo das frequências. Exemplo: Gráfico de barras da cor dos olhos dos alunos de uma turma

Page 9: OTD.pdf

9

Num gráfico de barras, estas devem ter todas a mesma largura. Os gráficos de barras podem ser verticais ou horizontais. Exemplo de um gráfico de barras horizontais:

Um gráfico de barras deve sempre ter:

• o nome da variável que se está a estudar; • os nomes das categorias que a variável assume, no eixo

horizontal (ou vertical); • uma escala no eixo vertical (ou horizontal). Nesta escala

devem estar marcadas as frequências absolutas ou as frequências relativas das categorias que a variável assume no conjunto de dados considerados.

Page 10: OTD.pdf

10

No Excel os gráficos de barras constroem-se a partir dos gráficos em coluna “Column” ou em barras horizontais “Bar”. Gráfico circular

Um gráfico circular tem por base de representação um círculo dividio em sectores circulares cuja amplitude é proporcional à frequência (absoluta ou relativa) das categorias. Assim, cada sector representa uma fração do total dos dados. Habitualmente utilizam-se percentagens para indicar a fração correspondente a cada sector. As categorias deverão estar identificadas no gráfico, seja por colocação das designações à volta do gráfico, seja através de uma legenda de cores. Exemplo: Gráfico circular da pizza preferida pelos alunos de uma turma.

Qualquer um dos gráficos apresentados anteriormente reflete de diretamente a forma da distribuição dos dados (pelas várias categorias). Podemos rapidamente dizer qual (ou quais) a categoria mais representada e menos representada. Podemos saber se a distribuição é homogénea ou desequilibrada. Os gráficos permitem fazer uma leitura rápida da informação contida na tabela de frequências. No excel os gráficos circulares designam-se “Pie charts”. Resolver o exercício 5 da FT nº 2.

Page 11: OTD.pdf

11

Tabelas e Gráficos para dados quantitativos discretos Uma tabela de frequências para dados quantitativos discretos é em tudo semelhante à descrita para dados qualitativos substituindo as categorias pelos valores que a variável assume (de forma ordenada) e habitualmente acrescida de duas colunas conforme descrito em seguida. Na primeira coluna, coluna das classes, indicam-se todos os valores distintos, xi

*, presentes na amostra a analisar; na coluna seguinte, coluna das frequências absolutas ni, regista-se o número de vezes que cada valor xi

* surge na amostra. Numa terceira coluna, coluna das frequências relativas (ou percentagens) fi, regista-se, para cada classe xi

*, o valor que se obtém dividindo a frequência absoluta pela dimensão da amostra (número de elementos). Pode ainda incluir-se na tabela de frequências mais duas colunas, a coluna das frequências absolutas acumuladas e a coluna das frequências relativas acumuladas, onde, para cada classe, se coloca a soma das frequências absolutas ou relativas, respectivamente. Exemplo: Tabela de frequências para a variável número de irmãos dos alunos de uma turma

Note-se que a inclusão das duas últimas colunas só é possível nos casos em que a variável é ordenável. Assim sendo, é possível incluir estas colunas numa tabela para dados qualitativos desde que estes sejam ordinais. Para dados qualitativos não ordinais, não faz qualquer sentido incluir estas colunas já que a ordem das linhas é irrelevante.

Page 12: OTD.pdf

12

No que diz respeito às representações gráficas para dados quantitativos discretos, elas são basicamente as mesmas apresentadas na secção anterior. Apenas os gráficos circular não costumam ser utilizados para este tipo de dados. Não quer dizer que não tenha sentido fazer um gráfico circular, mas dada a natureza ordenada da variável, é mais apropriado utilizar um dos gráficos que contenha um eixo linear para representar os valores da variável (classes). Resolver o exercício 6 da FT nº 2. Para além dos gráficos já apresentados, que também se podem usar para dados quantitativos discretos, iremos considerar mais três tipos de gráficos vulgarmente utilizados : os diagramas de caule e folha, os diagramas de extremos e quartis, e os gráficos de linhas. Uma vez que estes 3 tipos também são utilizados para dados quantitativos contínuos, a sua descrição será efetuada mais à frente.

Observações úteis: Obs.1 - Comparação de duas amostras Quando se pretende comparar duas amostras (de variáveis de qualquer um dos tipos anteriormente considerados) é útil representá-las através de dois gráficos dispostos um ao lado do outro e com a mesma escala. Nalguns casos pode-se adequar a representação de modo a facilitar a comparação. Por exemplo, o seguinte par de gráficos de barras permite comparar facilmente os gostos dos rapazes e das raparigas de uma turma, no que respeita a pizas:

Page 13: OTD.pdf

13

Uma outra possibilidade, consiste em colocar no mesmo gráfico de barras, pares de barras para cada categoria ou classe tal como é apresentado no exemplo seguinte, que diz respeito à variável nº de irmãos, em duas turmas diferentes:

Obs.2 – Cuidados a ter com a escala A escala utilizada no eixo das frequências (nos gráficos de barras) pode influenciar (distorcer) a leitura de um gráfico. No exemplo seguinte temos 3 gráficos elaborados a partir da mesma amostra sendo que os dois primeiros dão uma imagem enganosa da distribuição dos dados. Geralmente, é importante incluir o zero no eixo das frequências. No entanto, se o objetivo for apenas o de visualizar a variação entre classes, nalguns casos pode ser mais vantajoso não incluir o zero.

Page 14: OTD.pdf

14

Exemplo: Nº de queixas recebidas num hospital, por negligência médica.

Obs.3 – Dados discretos que se comportam como dados

contínuos Existem amostras de dados discretos que se comportam como se fossem contínuos, ie, apresentam poucas ou nenhumas repetições e a tabela de frequências bem como todas as representações gráfica que dela advêm não resumem a informação contida na amostra. Mesmo quando existem algumas repetições, mas as classes são em número elevado, os gráficos revelam-se pouco informativos. Isto acontece porque a muita variabilidade dos dados acaba por “esconder” a forma da distribuição subjacente.

Page 15: OTD.pdf

15

Exemplo: gráfico de barras dos resultados de testes (numa escala de 0 a 100)

Nestes casos deve-se agrupar os dados em classes tal como iremos fazer para dados contínuos (mais à frente). Obs.4 – Dados contínuos que se comportam como dados

discretos

Por vezes acontece o inverso do referido no ponto anterior. Quando os nossos dados provêm de uma população contínua mas são registados com muito arredondamento, podem surgir inúmeras repetições e o comportamento ser típico de uma variável discreta. Na verdade, ao arredondarmos valores contínuos estamos sempre a discretizar os dados. Um exemplo típico surge quando consideramos a idade de uma pessoa. Em geral a idade é arredondada às unidades (anos) ainda que o tempo de vida seja uma variável contínua. Se registarmos as idades dos alunos de uma turma, iremos ter apenas 2 ou 3 valores distintos, com múltiplas repetições. O tratamento adequado a uma amostra deste tipo é o mesmo referido anteriormente para dados discretos. Obs. 5 - Não confundir os dados em si com frequências!

Por vezes é fácil confundir a variável em estudo com a frequência com que se observam certos valores. Vejamos a seguinte situação, que é apresentada num livro de Matemática:

Page 16: OTD.pdf

16

O gráfico representa o número de peixes que cinco amigos pescaram num dia:

1.1 – Como se chama este tipo de gráfico? 1.2 – Quantos peixes pescou o António mais que o Pedro? 1.3 – Quantos peixes pescaram ao todo os cinco amigos? 1.4 – Classifique a distribuição quanto à moda. Justifique.

Na situação anterior, o que é o dado? O dado é o resultado da observação do número de peixes que cada um dos 5 amigos apanhou, ou seja, o conjunto de dados observados é 30, 20, 25, 25, 30. A unidade observacional é uma pessoa, e há 5 unidades observacionais. Poderíamos, a partir da figura anterior construir a seguinte tabela:

Nome Nº de peixes pescados António 30 Pedro 20 Ana 25 Luís 25 João 30

Page 17: OTD.pdf

17

A tabela anterior não é uma tabela de frequências, já que é uma simples listagem com os dados observados. Para que esta tabela fosse uma tabela de frequências toda a situação teria de ser apresentada de outra forma (sem grande sentido). Teríamos que considerar o conjunto dos peixes pescados pelos 5 amigos e considerar para cada peixe quem tinha sido o seu pescador. Neste contexto a unidade observacional seria o peixe (ao todo 130 unidades) e a variável em estudo seria o pescador havendo 5 categorias distintas (os 5 amigos). Um outro exemplo do mesmo género mas eventualmente mais subtil é o seguinte também encontrado num manual escolar:

“Alunos das turmas do 5º Ano”

Neste caso o que é o dado? A unidade observacional é a turma, porque o nosso objectivo era saber quantos alunos tinha cada turma do 5º ano. O dado é o resultado da nossa observação! Assim, os nossos dados são o número de alunos das turmas A, B, ..., E e F ou seja 30, 22, ...22. Portanto, o eixo vertical não contém frequências absolutas.

Num conjunto de dados, frequência absoluta de um dado é o número de vezes que esse dado surge nesse conjunto.

Page 18: OTD.pdf

18

Suponhamos que na mesma escola considerávamos a população constituída pelos alunos do 5º ano e estávamos interessados em investigar a que turma pertenciam. A unidade observacional agora é o aluno e a característica que estamos a estudar é a turma a que pertencem, pelo que os nossos dados serão A, F, B, A, G, C, ..... O gráfico de barras para esta situação seria o apresentado anteriormente, mas com outro título, como por exemplo “Turmas dos alunos do 5 ano”. Note-se que neste exemplo estamos a considerar duas caraterísticas em paralelo: a turma a que pertencem os alunos e o seu sexo. O gráfico de barras apresentado resume a informação das duas variáveis em simultâneo. Tabelas e Gráficos para dados quantitativos contínuos

Em linguagem corrente pode dizer-se que uma variável contínua não varia por “saltos”, isto é, não passa de um valor a outro, sem passar por todos os valores intermédios. Embora seja comum, quando encontramos um jovem que não vemos há algum tempo, exclamar: “Mas que salto que deste! Estás tão alto!”, na realidade o jovem cresceu continuamente... Ao contrário da variável contínua, uma variável discreta varia por “saltos”. Por exemplo, se uma família tem 2 filhos e teve um outro filho, obviamente que passou de 2 para 3, sem passar por valores intermédios. O gráfico seguinte poderia ser um exemplo da distribuição da variável “tempo de casa à escola” dos alunos de uma certa escola. Como podemos ver a distribuição encontra-se distribuída por todos os valores do intervalo 5 a 80.

Page 19: OTD.pdf

19

Tendo em conta a própria definição de variável contínua, quando temos uma amostra de dados contínuos, estes podem ser todos diferentes, ou quando muito, existem apenas alguns valores iguais. A ocorrência de um maior número de repetições tem normalmente que ver com uma maior falta de precisão dos instrumentos de medida. Como já referimos, um exemplo clássico de uma variável contínua que se apresenta fortemente discretizada é a idade. Quando se diz que um jovem tem 9 anos, significa que já fez os 9 anos, mas ainda não fez os dez, pelo que o 9 representa um intervalo de valores que se pode exprimir da seguinte forma: 9≤idade<10. Em gral, numa amostra de dados contínuos, o número de valores distintos é tão grande que a metodologia utilizada para construir as tabelas de frequências de dados quantitativos discretos, não deve ser utilizada. A alternativa é considerar classes na forma de intervalos. Exemplo: Tabela de frequências de uma coleção de dados referentes à altura dos alunos de uma escola do 1º ciclo (ver pág 85 e 88 da brochura):

Page 20: OTD.pdf

20

Chama-se representante (ou marca) de uma classe ao ponto médio da classe. Histograma A partir desta tabela podemos construir um gráfico semelhante ao gráfico de barras mas com as barras encostadas umas às outras correspondendo cada Barra à frequência da respetiva classe. A este gráfico chama-se histograma. Existem várias opções para o eixo vertical do histograma. As mais utilizadas são a frequência absoluta, a frequência relativa ou uma escala que faça com que a área do histograma seja unitária. (Esta última opção é mais comum em utilizadores da estatística mais especializados.) Um possível histograma correspondente à tabela anterior é o seguinte

Também se pode construir um histograma com as frequências acumuladas, histograma cumulativo, que é útil para obter certas medidas tais como a mediana ou os quartis (como veremos mais à frente) (ver pág 91-93 da brochura). A principal dificuldade na construção de um histograma reside na formação das classes. Quantas devem ser? Qual a sua amplitude? Onde deve ser o ínicio da primeira?

Page 21: OTD.pdf

21

Não existe uma única regra para formar classes mas sim várias possíveis regras. Podemos referir as seguintes orientações genéricas: o número de classes não deve ser tão grande que resulte em demasiada variabilidade entre classes. Mas, quanto menor for o número de classes mais informação se perde. A amplitude das classes e o início de cada uma deve, se possível, ser um valor inteiro (ou que não produza mais casas decimais do que as apresentadas pelos dados). Se houver necessidade de recorrer a uma regra para o cálculo do nº de classes é habitual recorrer à regra de Sturges (ver pág 85-6 da brochura). Hoje em dia existem diversos programas que constroem histogramas de forma automática e que permitem ao utilizador alterar o número de classes ou a sua amplitude. A partir do que foi dito anteriormente podemos concluir que o histograma é uma adaptação do gráfico de barras para variáveis contínuas. Os restantes gráficos referidos para dados qualitativos e quantitativos discretos (gráfico de pontos, pictograma e gráfico circular) não são apropriados para dados contínuos. Existem no entanto outras representações gráficas que podem ser utilizadas para todo o tipo de dados quantitativos: os gráficos de linhas, os diagramas de caule-e-folhas e os diagrmas de extremos e quartis (ou os boxplots). Os histogramas podem ser construídos a partir do Excel começando por incluir um Add-in (Analysis Tool Pack) nas opções. A construção de histogramas apresenta algumas limitações entre as quais se destacam o facto de a primeira classe apresentar sempre apenas 1 observação (quando o cálculo das classes é automático) e as barras ficarem afastadas umas das outras, como se se tratasse de um gráfico de barras. Resolver os exercícios 7 a 9 da Folha de Trabalho nº 1.

Page 22: OTD.pdf

22

Gráficos de linhas Um gráfico de linhas pode ser visto como um caso especial de um gráfico de dispersão (a ser apresentado mais à frente). É um gráfico que representa, visualmente, a forma como uma variável evolui em relação a outra. Se tivermos uma amostra de dados em que as unidades observacionais são instantes no tempo, então podemos construir um gráfico de linhas colocando o tempo no eixo horizontal e a caraterística em estudo no eixo vertical. Exemplo: (dados recolhidos ao longo de uma semana)

Resolver o exercício 10 da FT nº 2. Diagrama de caule-e-folhas

O diagrama de caule-e-folha é um tipo de representação que se situa entre a tabela e o gráfico, uma vez que, de um modo geral, apresenta os verdadeiros valores da amostra, mas de uma forma sugestiva, que faz lembrar o histograma. A base da construção de uma representação em caule-e-folhas está na divisão dos dígitos dos valores da amostra em duas partes (por

Page 23: OTD.pdf

23

exemplo unidades e dezenas). A parte da direita, designada por folha, deve conter apenas um algarismo enquanto a parte da esquerda, o caule, pode conter qualquer nº de algarismos. Portanto, a primeira sugestão consiste em separar o algarismo mais à direita dos restantes. Se esta divisão se mostrar inadequada então deve-se arredondar os dados (ou descartar algarismos) e repetir o processo. Vejamos um exemplo de construção de um diagrama de caule-e-folhas. Exemplo: Os valores seguintes dizem respeito ao tempo que um grupo de alunos conseguiu estar sem respirar (em segundos). 59, 38, 47, 23, 48, 55, 37, 48, 53, 37, 52, 39, 54, 57, 38, 46, 40, 41, 62, 63, 38, 65, 44, 68, 27, 35, 46, 60. O diagrama correspondente é o seguinte:

2 3 7 3 5 7 7 8 8 8 9 4 0 1 4 6 6 7 8 8 5 2 3 4 5 79 6 0 2 3 5 8 2|3 significa 23

A primeira linha contém os valores 23 e 27; a segunda os valores 35, 37, 37, 38, 38, 38 e 39; etc. No diagrama, os dados ficam ordenados e cada linha contém todos os valores incluídos numa classe que corresponde a uma dezena de valores possíveis. Assim, o comprimento de cada linha reflete a frequência da respetiva classe. O diagrama acaba por ter uma forma semelhante à de um histograma disposto na vertical (com as barrar na horizontal). É conveniente colocar no diagrama uma legenda que permita recuperar a grandeza dos dados, tal como foi feito no exemplo. Por vezes o diagrama que se obtém ao considerar como folha o algarismo mais à direita não traduz da melhor forma a distribuição dos dados (pode ficar com classes a mais ou classes a menos).

Page 24: OTD.pdf

24

• Demasiadas classes

Se tivermos classes a mais podemos tentar arredondar os dados (ou descartar algarismos) e considerar nova separação em caule-e-folhas. Exemplo: Número de árvores em terrenos de igual área Perante a amostra seguinte, 128 125 135 137 139 230 240 286 298 135 267 185 201 236 287 294 231 359 346 381 301 355 359 358 357 343 396 387 386 321 421 485 496 502 560 620 680 705 720 800, considerar como folha o algarismo das unidades vai conduzir a um diagrama com caules que vão desde 12 até 80. Mais caules do que dados! Então devemos arredondar os dados às dezenas (ou descartar o algarismo das unidades) e construir o diagrama. O resultado será o seguinte: (neste caso descartou-se o último algarismo)

1 | 2 2 3 3 3 3 8 2 | 3 4 8 9 6 0 3 8 9 3 5 3 | 5 4 8 0 5 5 5 5 4 9 8 8 2 4 | 2 8 9 5 | 0 6 6 | 2 8 7 | 0 2 8 | 0 1|2 significa 12 dezenas de árvores

Por vezes, com este procedimento, ficamos com um diagrama com um número insuficiente de classes. Nesse caso podemos recorrer a uma das soluções seguintes.

• Demasiado poucas classes

Se tivermos poucas classes podemos subdividir cada linha em 2 ou em 5 linhas. Na divisão em duas linhas a primeira linha contém os valores com as folhas de 0 e 4 e a segunda as folhas de 5 a 9.

Page 25: OTD.pdf

25

Exemplo: O diagrama seguinte apresenta um número insuficiente de classes 2 | 1 1 1 2 2 2 2 3 3 3 3 3 3 4 4 4 4 4 4 4 4 5 5 5 5 5 6 6 7 7 7 8 8 8 8 9 9 9 9 3 | 0 0 1 1 3 3 4 4 4 5 7 8 8 9 9 9 Dividindo cada linha em duas ficamos com o seguinte diagrama muito mais informativo:

2 | 1 1 1 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 2* | 5 5 5 5 6 6 7 7 7 8 8 8 9 9 9 3 | 0 0 1 1 3 3 4 4 4 3* | 5 7 8 8 9 9 9

Na divisão em 5 linhas as folhas de cada uma das linhas serão 0 e 1; 2 e 3; 4 e 5; 6 e 7; 8 e 9. Exemplo: Se considerarmos o algarismo das unidades como folha na seguinte amostra, 4320 4321 4322 4322 4323 4323 4324 4324 4324 4324 4325 4325 4325 4326 4326 4326 4326 4326 4326 4326 4327 4328 4329 4329 4329 4329 4329 4329 4329 4329 4329 4329 4330 4330 4330 4330 4330 4331 4331 4331 4331 4331 4331 4331 4331 4332 4332 4332 4333 4333 4333 4333 4334 4334 4335 4335 4335 4336 4336 4337 4337 4337 4338 4338 4338 4339, ficamos apenas com 2 caules, o que é manifestamente insuficiente. A subdivisão em 2 conduz a um diagrama com 4 linhas o que ainda é pouco, dada a elevada dimensão da amostra. A subdivisão em 5 produz o seguinte diagrama bastante mais informativo

Page 26: OTD.pdf

26

432 | 0 1 432t | 2 2 3 3 432f | 4 4 4 4 5 5 5 432s | 6 6 6 6 6 6 6 7 432* | 8 9 9 9 9 9 9 9 9 9 9 433 | 0 0 0 0 0 1 1 1 1 1 1 1 1 433t | 2 2 2 3 3 3 3 433f | 4 4 5 5 5 433s | 6 6 7 7 7 433* | 8 8 8 9

(as letras t, f, s provêm do inglês t – two and three; f – four and five; s – six and seven)

Os diagramas de caule-e-folhas podem úteis na comparação de duas amostras. No exemplo seguinte comparam-se os tempos de sono noturno (em horas) de dois amigos, o Pedro e o David:

7|4 significa 7.4 horas

Os dados relativamente ao Pedro encontram-se para o lado esquerdo, enquanto que os referentes ao David estão para o lado direito. A representação anterior permite realçar a maior dispersão do sono do Pedro, enquanto que o David é mais regular, com uma duração de sono de um modo geral entre as 7 e as 8 horas.

Page 27: OTD.pdf

27

Vantagens e desvantagens do diagrama de caule-e-folhas. Vantagens:

• É fácil de construir, em particular para alunos do 1º e 2º ciclos.

• Permite visualizar a forma da distribuição dos dados tal como num histograma.

• Permite recuperar todos os dados, ao contrário do que acontece com um histograma em que existe perda de informação.

Desvantagens:

• Apresenta alguma limitação na escolha dos caules pelo que se torna menos maleável que o histograma.

• O resultado gráfico é esteticamente grosseiro. Os diagramas de caule e folhas podem ser construídos a partir de uma aplicação disponível no site do projeto ALEA. Resolver os exercícios 11 e 12 da FT nº 2.

Diagrama de extremos e quartis O diagrama de extremos e quartis é um diagrama construído a partir de certos valores calculados a partir da amostra de dados: a mediana, os quartis, o máximo e o mínimo. Estes valores são medidas amostrais que iremos estudar na secção seguinte. Como são bastante simples de compreender e de obter iremos desde já indicar uma forma de as obter para podermos descrever o diagrama de extremos e quartis. Como veremos, a mediana, representada por Me, é um valor que divide a amostra ordenada ao meio, isto é, 50% dos elementos da amostra são menores ou iguais à mediana e os restantes 50% são maiores ou iguais à mediana. Uma vez a amostra dividida em duas partes com igual número de elementos, cada uma destas partes

Page 28: OTD.pdf

28

ainda pode ser dividida ao meio. Às medianas da parte inferior e superior dos dados, chamamos respectivamente 1.º quartil e 3.º quartil e representamos por Q1 e Q3. Assim, o 1.º quartil, a mediana e o 3.º quartil dividem a amostra (ordenada) em 4 partes iguais, cada uma contendo 25% dos dados. Se tivermos os dados organizados numa tabela de frequências, basta procurar o valor mais pequeno da amostra que apresenta uma frequência acumulada de pelo menos 25% para termos Q1. De igual forma, a mediana e o 3º quatil são os valores (mais pequenos) da amostra que apresentam uma frequência acumulada de pelo menos 50% e 75%, respetivamente. Por exemplo, na tabela seguinte encontram-se organizados os dados referentes ao número de irmão dos alunos de uma turma.

O 1º quartil desta amostra é 0 pois existem 25% de alunos com 0 irmão. A mediana é 1 pois 62,5% dos alunos têm no máximo 1 irmão (1 é o primeiro valor a atingir ou ultrapassar 50% na coluna das frequências relativas acumuladas). O 3º quartil é 2, pois 2 é o primeiro valor a ultrapassar 75% na coluna das frequências relativas acumuladas. Também podemos obter graficamente estas medidas recorrendo ao histograma cumulativo (no caso de dados agrupados em classes). Por exemplo, no gráfico seguinte, que contém dados referentes às alturas dos alunos de uma escola do 1º ciclo, encontram-se calculadas, de forma aproximada, a mediana e os quartis Q1 e Q3. Para este cálculo traçou-se uma linha poligonal a partir dos extremos das classes do histograma. Esta linha representa uma função importante, designada função cumulativa.

Page 29: OTD.pdf

29

O diagrama de extremos e quartis constrói-se da seguinte forma: 1 – Desenha-se um rectângulo que tem de comprimento a amplitude entre os dois quartis, calculados a partir dos dados, e por altura um valor qualquer, que não tem qualquer interpretação; 2 – Do meio dos lados do rectângulo, perpendiculares à base, saem dois segmentos de recta que unem esses lados respectivamente com o mínimo e o máximo do conjunto dos dados. 3 – No interior do rectângulo desenha-se um traço que assinala a posição da mediana. Na figura seguinte apresentamos o diagrama de extremos e quartis para o conjunto de dados da variável Altura de um aluno de uma escola do 1.º ciclo, representada no gráfico anterior. O cálculo da mediana e quartis pode ser obtido a partir do gráfico. Dos dados verifica-se que o mínimo é 130 e o máximo 159. O diagrama resultante é o seguinte

Page 30: OTD.pdf

30

Os diagramas de extremos e quartis, tanto aparecem na horizontal como na vertical. Exercício: Construa o diagrama de extremos e quartis para os dados apresentados na tabela de frequência da página anterior. Os diagramas de extremos e quartis são muito úteis pois evidenciam de forma eficaz a forma como se distribuem os dados. Estes diagramas contêm informação quanto à localização (mediana, extremos e quartis), quanto à dispersão (amplitude e distância inter-quartil) e quanto à assimetria. São diagramas em que se perde bastante informação, pois só são necessários 5 valores para os construir, mas que mesmo assim nos dão uma ideia do padrão da distribuição subjacente aos dados. O diagrama de extremos e quartis, juntamente com o diagrama de caule-e-folhas e o histograma (ou gráfico de barras), permite-nos ter uma percepção da forma da distribuição dos dados. Por exemplo, as seguintes representações, obtidas para o mesmo conjunto de dados, dão o mesmo tipo de informação, sugerindo que a distribuição da população tem um enviesamento para a direita (valores concentrados nos valores mais baixos):

A principal vantagem do diagrama é ser simples de construir e ainda assim fornecer o mesmo tipo de informação das restantes representações. A principal desvantagem é ter mias perda de informação. Quando, por exemplo, a forma da distribuição é bimodal, o diagrama não nos permite reconhecer essa característica.

Page 31: OTD.pdf

31

A forma da distribuição dos dados é uma característica importante pois pode sugerir informação relevante sobre a população. Ver a secção 4.7, páginas 105 a 109 da brochura, sobre este assunto. Notar que quando dizemos que uma distribuição é bimodal quer dizer que a sua forma apresenta dois “cumes”, não necessariamente da mesma altura. Ou seja, não é necessário possuir duas modas (iguais) para termos uma distribuição bimodal. O que temos é um conjunto de dados que se concentra em torno de dois valores distintos. Por exemplo, as temperaturas horárias num deserto concentram-se em torno de dois pontos distintos pois durante o dia as temperaturas são altas e durante a noite são baixas. Os diagramas de extremos e quartis também são muito úteis para comparar várias amostras. Podemos num só gráfico representar vários diagramas. Por exemplo, o gráfico seguinte contém informação referente ao número médio de filhos por família, em vários países do mundo, agrupados por região (nota: os dados são referentes a 1995 e ainda refletem uma divisão do mundo anterior à queda do muro de Berlim):

Tarefa: que informação podemos extrair deste gráfico?

Page 32: OTD.pdf

32

Estes diagramas ainda permitem ir mais longe. Podemos agrupá-los e no mesmo gráfico analisar de que forma uma variável em estudo varia de acordo com 2 critérios diferentes. Por exemplo, no gráfico seguinte podemos ver os valores da esperança de vida em vários países do mundo, de acordo com a região e o sexo:

Tarefa: que informação podemos extrair deste gráfico? Uma última observação em relação aos diagramas de extremos e quartis. Estes diagramas são também designados por caixas de bigodes (boxplot em inglês). As caixas de bigodes muitas vezes restringem o comprimento máximo dos bigodes (linhas laterais que têm início na caixa central) não atingindo assim os valores mínimos ou máximos da amostra. Nestes casos todas as observações da amostra que estão para além dos bigodes são assinaladas com um * ou com um círculo. Estas observações são consideradas como estando muito afastadas do grosso da amostra. Chamam-se valores extremos (outliers em inglês). Por exemplo, no diagrama seguinte podemos ver que existem 4 países com valores de esperança de vida feminina muito reduzida em comparação com os restantes. São

Page 33: OTD.pdf

33

países onde as mulheres vivem, em média, menos de 50 anos! (os dados referem-se ao ano de 1995)

Resolva os exercícios 13 e 14 da FTnº 2.

Medidas amostrais Para descrever um conjunto de dados e resumir a informação que este contém devemos não só construir tabelas e gráficos mas também calcular algumas medidas que nos dão informação resumida sobre várias características da amostra. Estas medidas, na sua maioria quantitativas, são também designadas por estatísticas. Algumas vulgarmente conhecidas são a média, o máximo ou o mínimo. A caraterística que mais se considera e para a qual existem diversas medidas é a localização dos dados: onde é que grosso modo se situa a nossa amostra? Também se calculam medidas de dispersão que nos dizem se os dados variam muito ou pouco. Menos frequentes são as medidas de assimetria que nos dão uma indicação sobre o grau de assimetria da forma da distribuição. Para definir as medidas que vão ser utilizadas para resumir a informação contida nos dados, utilizamos a seguinte notação para representar os dados x1, x2, x3, … , xn onde x1, x2, xn, representam, respectivamente, a 1.ª observação, a 2.ª observação e a n-ésima

Page 34: OTD.pdf

34

observação, a serem consideradas para constituir a amostra de dimensão n. Esta notação não pressupõe uma ordenação.

Medidas de localização

Entre as múltiplas medidas que se podem definir com base numa amostra de dados, as mais usadas são as medidas de localização. A maioria destas medidas dá uma indicação sobre a tendência central dos dados. Outras dão indicação sobre a localização extrema (à esquerda ou à direita) ou sobre a localização de certas proporções da amostra.

Medidas de localização central:

Média

A média amostral, ou simplesmente média, Representa-se por x e calcula-se a partir da soma de todos os elementos da amostra divididos pela dimensão total:

nxxx

x n+++=

...21

A média é a estatística mais vulgarmente utilizada para resumir informação. Quando se diz que o rendimento médio de uma família portuguesa é de 1600 euros contra 3300 de uma família alemã ficamos com uma ideia dos valores em torno dos quais se distribuem os vencimentos neste dois países. Seria muito difícil tirar qualquer conclusão rápida a respeito destas variáveis se apenas dispuséssemos das listas completas de vencimentos. A média é uma medida que utiliza a quantidade total (soma de todas as observações) e por isso é útil em problemas que envolvem essa quantidade. Por exemplo, se dissermos que numa empresa há 10 trabalhadores que em média ganham 800 euros por mês, sabemos

Page 35: OTD.pdf

35

que são necessários 8000 euros por mês para pagar os salários de todos os trabalhadores. A média pode ser obtida no Excel a partir da função average(vetor). Resolver o exercício 4 da pág. 87 do livro de base.

Cálculo da média em dados discretos agrupados numa tabela de

frequências Quando os dados se encontram agrupados numa tabela de frequências a média pode ser obtida fazendo uso das frequências absolutas (ou relativas) de cada valor observado. Neste caso a expressão dada em cima reduz-se a

n

nxnxnxx kk

*** ... +++= 2211

ou

kk fxfxfxx *** ... +++= 2211

consoante se utilizam as frequências absolutas (ni) ou relativas (fi), respetivamente. Os valores x1

*, x2*, …, xk

* representam os valores observados distintos (note que k ≤ n). Exemplo: Calcular o número médio de irmãos dos alunos de uma turma, estando os dados descritos na seguinte tabela de frequências:

Page 36: OTD.pdf

36

1) Se utilizarmos a expressão que recorre às frequências absolutas obtemos

n

nxnxnxx kk

*** ... +++= 2211 = 331

3

4

24

1433529160 ,==++++ xxxxx

2) Se utilizarmos a expressão que recorre às frequências relativas obtemos

kk fxfxfxx *** ... +++= 2211 =331042041250320802375012500 ,,,,,, =++++ xxxxx

A média de dados em tabelas de frequências pode ser obtida no Excel a partir da função sumproduct(vetor1; vetor2) / dimensão da amostra.

Cálculo da média em dados contínuos agrupados em classes Quando os dados são contínuos e se encontram agrupados em classes não conseguimos saber ao certo qual o valor de cada observação. Neste caso apenas conseguimos calcular um valor aproximado da média (ou de qualquer estatística). O cálculo é feito da mesma forma que no parágrafo anterior mas neste caso os valores x1

*, x2*, …, xk

* representam as marcas das classes. Interpretações e limitações do uso da média

Uma forma de interpretar a média consiste em imaginar uma régua graduada onde se colocam pesos unitários nos pontos correspondentes aos valores das observações (havendo observações repetidas, por exemplo em xi

*,o peso a colocar será igual a ni). A média será o ponto de equilíbrio (centro de massa), ou seja, o ponto da régua sob o qual teríamos de colocar um eixo por forma a equilibrar a régua (como num baloiço). A utilização da média é vantajosa quando a representação gráfica das frequências fi é simétrica. Neste caso, a média representará o centro da amostra. A média só por si contém relativamente pouca informação. Por exemplo, se duas pessoas comerem em média meio frango cada

Page 37: OTD.pdf

37

uma, pouco ficamos a saber sobre o que de facto se passa. Podem ambas estar satisfeitas porque comem meio frango cada uma (ou perto disso), mas também pode uma comer o frango todo e a outra ficar a ver passar navios. É fundamental conhecer informação adicional sobre a dispersão para se ter uma ideia mais clara da estrutura geral dos dados. Sendo a média um ponto de equilíbrio da amostra, um ou mais valores distantes podem provocar desvios grandes no valor da média. Quando se registam alguns erros que inquinam os dados (ou se observam assimetrias intrínsecas) a média pode deixar de representar o grosso das observações. Por exemplo, se numa empresa com vinte trabalhadores cada um receber em média 1000 euros por mês, podemos ter situações bem diversas. Por exemplo, se um deles (o gerente) ganhar 13000 e os restantes cerca de 370 euros a média não representa de forma alguma o grosso das observações. Já se todos os trabalhadores ganharem entre 900 e 1100 euros (uns um pouco mais e outros um pouco menos) a média representa o centro da amostra. Uma última chamada de atenção para o cálculo da média: a média só pode ser calculada em dados quantitativos. Não faz sentido calcular uma média para dados qualitativos. Por vezes, quando um conjunto de dados qualitativos se encontra agrupado numa tabela de frequências ou representado num gráfico de barras, alguns alunos cometem o erro de calcular a média das frequências e fornecer esse valor como média da amostra. Este procedimento não tem pés nem cabeça. Resolver o exercício 10 das pág. 88 do livro de base.

Mediana

A mediana é um valor que divide a amostra ao meio: metade dos valores da amostra são inferiores ou iguais (não superiores) à mediana e os restantes são maiores ou iguais (não inferiores) à mediana. Para determinar a mediana é fundamental, começar por

Page 38: OTD.pdf

38

ordenar os dados. Entretanto podem-se verificar duas situações, quanto à dimensão da amostra:

• Se a dimensão da amostra é ímpar, há um dos elementos da amostra ordenada que tem tantos elementos para a esquerda como para a direita e esse elemento central é a mediana.

• Se a dimensão da amostra é par, não há nenhum elemento que tenha a propriedade de a dividir ao meio. Há dois valores centrais e define-se a mediana como sendo a média aritmética desses dois valores.

Do ponto de vista gráfico, a mediana é o valor que divide um histograma, ou um gráfico de frequências, em duas partes de área igual (ou mais igual possível). Uma vez que a mediana apenas faz intervir no seu cálculo um ou dois valores ela pode não se alterar quando um dos valores da amostra se altera, mesmo que drasticamente. Esta característica faz com que a mediana seja mais “robusta” do que a média, i.e., enquanto a média é fortemente afetada por valores extremos da amostra a mediana nem sequer depende destes. Quando os dados estão agrupados, a forma mais simples de calcular a mediana é através da tabela de frequências e da coluna de frequências acumuladas. A mediana é o primeiro valor em que se atinge (ou ultrapassa) 50% da amostra. Quando os dados são contínuos e estão agrupados não podemos calcular a mediana de forma exata mas podemos indicar qual é a classe da mediana, ou seja, a classe que acumula pelo menos 50% das observações à sua esquerda. Quando os dados são qualitativos ordinais também podemos calcular a mediana, ou seja, indicar a categoria onde se atinge 50% dos dados, depois de ordenada a amostra. (ver exemplos na página 137-8 da brochura) De tudo isto podemos concluir que a mediana é uma medida só não deve ser aplicada a dados qualitativos não ordinais. Tal como já foi referido na secção onde se descreve o diagrama de extremos e quartis, é possível obter um valor aproximado para a

Page 39: OTD.pdf

39

mediana num conjunto de dados agrupados em classes, a partir do histograma cumulativo. A mediana pode ser obtida no Excel a partir da função median(vetor). Resolver o exercício 9 da pág. 87 do livro de base. Resolver o exercício 15 da FTnº2. Média aparada

Uma média aparada não é mais do que uma “mistura” entre os conceitos de média e mediana por forma a combinar as qualidades de ambas. Assim, uma média aparada é uma média que é construída apenas com base numa certa proporção da amostra, mais concretamente com base nas observações mais centrais da amostra. A proporção de observações a excluir do cálculo é então associada à média aparada. Assim, uma média aparada a 10% é uma média que é calculada após se eliminarem as 10% observações mais elevadas e as 10% observações mais reduzidas. Desta forma, se existirem algumas observações anormalmente distantes das restantes (tipicamente devido a erros de medição ou de introdução de dados) estas não serão tidas em conta no cálculo da média aparada. Exemplo: Consideremos a seguinte amostra (já ordenada) de pesos de indivíduos adultos: 57 64 64 65 66 67 68 68 68 69 70 70 70 71 71 71 71 71 71 71 72 72 72 72 72 72 74 74 75 75 75 75 76 76 77 77 77 77 78 78 78 79 79 80 81 82 83 83 83 86. A média desta amostra é 73,46, a mediana 72 e a média aparada a 10% é 73,5. Esta última corresponde à média dos valores a partir do 6º e até ao 45º, ou seja da amostra 57 64 64 65 66 67 68 68 68 69 70 70 70 71 71 71 71 71 71 71 72 72 72 72 72 72 74 74 75 75 75 75 76 76 77 77 77 77 78 78 78 79 79 80 81 82 83 83 83

Page 40: OTD.pdf

40

86 (eliminaram-se 10% dos dados em cada um dos topos). Como se pode ver a média aparada é bastante próxima da verdadeira média. Imaginemos agora que tinha havido um erro ao registar o último valor da amostra, 86, e que este tinha ficado registado como sendo 866. Para esta nova amostra a média é 89,06 (fortemente afetada), a mediana é 72 (não se alterou) e a média aparada a 10% é 73,5 (muito próxima da média da amostra original).

Observações:

• Note-se que a média não é mais do que uma média aparada a 0% e a mediana não é mais do que uma média aparada a 50%.

• A média aparada pode ser obtida no Excel a partir da função

trimmean(vetor; percentagem). Atenção que o argumento percentagem deve ser dado como uma proporção que corresponde ao total de observações eliminadas, ou seja, numa média aparada a 10% deveremos introduzir 0,2 no respetivo argumento.

Moda A moda de uma amostra é o valor mais frequente dessa amostra, ou seja, é o valor xi para o qual fi é máximo. Em muitas situações, para descrever o comportamento geral de uma população recorre-se à moda em vez da média ou mesmo da mediana. Por exemplo, para descrever o aspecto geral de um gato é mais informativo dizer que é um animal que em geral tem 4 patas do que dizer que é um animal que em média tem 3.99995 patas. A moda tem a grande vantagem de poder ser calculada para qualquer tipo de dados.

Page 41: OTD.pdf

41

A moda não tem de ser única pois pode haver mais do que um valor xi com igual frequência sendo essa frequência máxima. Chama-se a atenção para o facto de muitas vezes a moda de uma amostra não ter grande significado. Isto acontece quando a variável em causa representa uma grandeza contínua (por exemplo a altura de uma pessoa). Nessas situações é usual não haver dados repetidos na amostra e como tal não faz grande sentido falar de moda da amostra. Por vezes, neste tipo de situações, surgem valores repetidos que são fruto dos arredondamentos feitos e que na verdade não traduzem o habitual significado da moda – valor em torno do qual se concentra a amostra. A moda pode ser obtida no Excel a partir da função mode(vetor). Resolva os exercícios 1, 2, 3, 8 e 12 das págs. 86-8 do livro de base.

Outras medidas de localização

Mínimo e máximo As observações mais simples de serem extraídas são o mínimo e o máximo. Desde que os dados não sejam qualitativos não ordinais podemos sempre calcular o mínimo e o máximo de uma amostra. O mínino e o máximo podem ser obtidos no Excel a partir das funções min(vetor) e max(vetor).

Quartis

A média e a mediana dão-nos duas formas diferentes de localizarmos o centro da distribuição dos dados. Existem outras medidas, os quartis, que localizam outros pontos da distribuição dos dados, que não o centro, e que têm a mais valia de poderem

Page 42: OTD.pdf

42

servir para seguidamente definir uma medida da variabilidade existente entre os dados. Como vimos na definição de mediana, esta divide a amostra ordenada em duas partes com igual percentagem de elementos. Considerando cada uma destas partes e calculando a sua mediana, obteremos o 1.º e 3.º quartis. A mediana, que também se poderia designar de 2.º quartil, e os 1.º e 3.º quartis localizam pontos que dividem a distribuição dos dados em quatro partes, com igual percentagem de elementos. Daí vem o nome de quartis! A metodologia que, a este nível, recomendamos para obter os quartis é a seguinte:

1- Ordenar os dados e calcular a mediana Me; 2- O 1.º quartil, Q1, é a mediana dos dados que ficam para a

esquerda de Me; 3- O 3.º quartil, Q3, é a mediana dos dados que ficam para a

direita de Me. Ao calcular os quartis pelo processo anterior, podem-se levantar algumas dúvidas, no caso em que a dimensão da amostra é ímpar. Efetivamente, neste caso a mediana coincide com um dos elementos da amostra e poderíamos optar por considerá-lo incluído nas duas metades em que fica dividida a amostra, ou não o considerar em nenhuma das metades. A nossa opção é considerá-lo pertencente às duas metades. Por analogia com a definição que demos para a mediana, podemos dizer que até ao 1.º quartil (inclusive) está, pelo menos, 25% da amostra; para lá do 1.º quartil (inclusive) está, pelo menos, 75% da amostra. De forma análoga podemos dizer que até ao 3.º quartil (inclusive) está, pelo menos, 75% da amostra; para lá do 3.º quartil (inclusive) está, pelo menos 25% da amostra. Para o cálculo dos quartis, ver a secção referente ao diagrama de extremos e quartis.

Page 43: OTD.pdf

43

Os quartis podem ser obtidos no Excel a partir das funções quartile.inc(vetor; valor) (ou simplesmente quartile(vetor;valor)) e quartile.exc(vetor; valor). O argumento valor pode assumir os valores 0,1,2,3 ou 4. Os valores 0 ou 1 só são permitidos no quartile.exc e devolvem o mínimo e máximo, respetivamente. A diferença entre quartile.inc e quartile.exc diaz respeito à inclusão ou exclusão da mediana no cálculo do 1º e 3º quartis. Resolver o exercício 7 da pág. 87 do livro de base. Percentis

De um modo geral define-se percentil p de um conjunto de dados, como sendo o valor que tem p% dos dados menores ou iguais a ele, e os restantes maiores ou iguais. O 1.º e o 3.º quartis também são conhecidos como percentil 25% e 75%, respectivamente. Analogamente, a mediana é o percentil 50%. Todas as crianças têm um boletim de saúde do ministério da saúde onde são registados os dados referentes ao seu peso, altura (entre outros) ao longo dos primeiros anos de vida. Esses dados são habitualmente comparados com as curvas de percentis nacionais para que pais e médicos tenham uma ideia de como se situa o seu filho na restante população. Quando se diz que uma criança está no percentil 90, no que respeita o peso, isso significa que 90% das crianças com a mesma idade têm um peso menor ou igual ao da criança e apenas 10% têm um peso maior ou igual. A figura seguinte contém as curvas dos percentis 5, 10, 25, 50, 75, 90 e 95 dos pesos de bebés rapazes, dos 0 ao 24 meses.

Page 44: OTD.pdf

44

Os percentis podem ser obtidos no Excel a partir das funções percentile.inc(vetor; proporção) (ou simplesmente percentile(vetor;proporção)) e percentile.exc(vetor; proporção). O argumento proporção pode assumir valores de 0 a 1. Os valores 0 ou 1 só são permitidos no percentile.inc . A diferença entre quartile.inc e quartile.exc diz respeito à forma de cálculo dos percentis que produz valores ligeiramente diferentes, na maioria dos casos.

Medidas de dispersão: Amplitude

A amplitude da amostra consiste na diferença entre o seu máximo e o seu mínimo e é a medida mais simples (mas também mais grosseira) de avaliar a dispersão de uma amostra.

Page 45: OTD.pdf

45

Distância inter-quartil A distância inter-quartil ou dispersão inter-quartil, dada por Q3-Q1, fornece a amplitude da metade mais central da amostra. Tal como a amplitude, reflete a dispersão de frequências da amostra mas, ao contrário desta, não é influenciada pela presença de valores extraordinariamente grandes ou pequenos. Esta medida surge evidenciada nos diagramas de extremos e quartis. É dada diretamente pelo comprimento da caixa do diagrama. Desvio médio absoluto

O desvio médio absoluto é a média dos desvios das observações em relação à média.

Desvio Médio Absoluto = n

xxxxxx n ||...|||| −++−+− 21

Desvio padrão e Variância A medida de dispersão mais utilizada é o desvio padrão, s, que se obtém a partir da a variância, s2. A variância quantifica a variabilidade dos dados em torno da média e não é mais do que uma média dos desvios das observações em relação à média, depois de elevados ao quadrado (desta forma não há cancelamento de termos positivos com negativos).

s2 = 1

222

21

−−++−+−

nxxxxxx n )(...)()(

Tem semelhanças com o desvio médio absoluto mas em vez de tomar o módulo das diferenças toma o seu quadrado, e em vez de dividir pela dimensão da amostra, n, divide por n-1. Devido a considerar os quadrados, a variância não apresenta a mesma unidade de medida dos dados, mas sim o seu quadrado. Para que a medida de variabilidade venha na mesma unidade de medida e assim

Page 46: OTD.pdf

46

possa ser interpretada no contexto do problema o que se faz é calcular a raiz quadrada da variância obtendo assim o desvio padrão.

s = 1

222

21

−−++−+−

nxxxxxx n )(...)()(

Ver as notas da página 155 da brochura do ministério. O desvio padrão e a variância podem ser obtidos no Excel a partir das funções stdev.s(vetor) (ou simplesmente stdev(vetor)) e var.s(vetor) (ou simplesmente var(vetor)). Resolver os exercícios 3 e 6 das págs. 98-9 do livro de base

Medidas de assimetria:

Para além da localização e dispersão tem por vezes interesse considerar a assimetria (ou enviesamento) dos dados. Uma das medidas de assimetria mais usadas é o coeficiente de assimetria, B. Este tem por base a média dos desvios das observações em relação à média, mas agora elevados ao cubo.

B = 3

332

31

sxn

xxxxxx n )(...)()( −++−+−

Se B = 0, sugere-se simetria subjacente aos dados, Se B > 0, sugere-se assimetria positiva por parte da distribuição de frequências, ou seja, na representação gráfica das frequências haverá tendência a um acumular de frequências (frequências mais elevadas) para o lado esquerdo do gráfico (valores mais reduzidos da amostra); Também se chama a este tipo de assimetria, assimetria à direita. Se B < 0, sugere-se de assimetria negativa por parte da distribuição de frequências, ou seja, na representação gráfica das frequências haverá tendência a um acumular de frequências

Page 47: OTD.pdf

47

(frequências mais elevadas) para o lado direito do gráfico (valores mais elevados da amostra); Também se chama a este tipo de assimetria, assimetria à esquerda. Existem outras formas de inferir acerca da assimetria da população de onde provêm os dados e que podem ser utilizadas nos primeiros ciclos do ensino básico. Uma delas é através das medidas de localização. Nas distribuições de frequências perfeitamente simétricas tem-se que

média = mediana = moda. A assimetria pode ser classificada mediante o estudo da posição relativa destas três medidas de localização, nomeadamente: Se moda < mediana < média, sugere-se assimetria positiva por parte da distribuição de frequências; Se moda > mediana > média, sugere-se assimetria negativa.

Nos casos em que a distribuição de frequências é aproximadamente simétrica vão surgir pequenas diferenças entre os valores da média, mediana e moda. Não é de esperar encontrar amostras com uma distribuição de frequências perfeitamente simétrica e por isso é necessário ter cautela a comparar os valores da 3 medidas. Deve-se sempre acompanhar este estudo da representação gráfica dos dados. Como já referimos anteriormente, há casos em que a moda não tem significado. Nessas situações usamos apenas a comparação entre a mediana e a média.

moda <

Page 48: OTD.pdf

48

Relação entre duas variáveis Diagramas de dispersão

Podemos analisar a relação entre duas variáveis recorrendo a gráficos ou a métodos específicos de análise. O gráfico mais vulgarmente utilizado para relacionar duas variáveis é o gráfico de dispersão. Para construir um gráfico de dispersão deveremos ter uma amostra de pares de dados sendo o primeiro elemento de cada par respeitante a uma das variáveis e o segundo respeitante à outra. Num gráfico de dispersão representam-se pontos num sistema de eixos coordenados, fazendo coincidir as coordenadas com os pares de valores. Exemplo: No gráfico seguinte encontram-se representados os dados relativos à literacia feminina e masculina em 108 países do mundo no ano de 1995. Como podemos ver a partir do gráfico, em geral, quanto maior for o índice de literacia masculina num país maior será o respetivo índice feminino. No entanto, também se observa que, nos países onde a literacia é mais reduzida, o índice masculino é em geral superior ao feminino.

Page 49: OTD.pdf

49

Coeficiente de correlação

Quando num gráfico de dispersão a mancha de pontos apresenta uma tendência linear , isto é, os pontos estão mais ou menos alinhados em linha reta, podemos fazer uma análise mais detalhada da relação entre as variáveis. Nos gráficos seguintes podemos observar à esquerda uma associação de tipo linear e à direita outra não linear.

O coeficiente de correlação de Pearson é uma medida que permite avaliar o grau de dependência entre duas variáveis (quando elas apresentam uma relação linear). Este coeficiente assume valores no intervalo [-1, 1]. Quando a associação é forte os valores do coeficiente são próximo de 1 ou de -1 e quando a associação é fraca os valores do coeficiente são próximos de zero. Na figura seguinte temos um exemplo de correlação forte à esquerda (r=0,9) e correlação fraca à direita (r=0,4).

Page 50: OTD.pdf

50

Os valores do coeficiente podem ser obtidos no Excel através do comando correl(vetor1;vetor2). Quando o valor é positivo existe uma associação positiva entre as variáveis, isto é, quanto maior for uma das variáveis maior tenderá a ser a outra. Em termos gráficos isto significa que a mancha de pontos apresenta um declive positivo, como é o caso dos dois gráficos anteriores. Quando o valor do coeficiente é negativo existe uma associação negativa entre as variáveis, isto é, quanto maior for uma das variáveis menor tenderá a ser a outra. Em termos gráficos isto significa que a mancha de pontos apresenta um declive negativo. Quando o valor é nulo (ou muito próximo de zero) significa que não existe associação entre as variáveis. A mancha de pontos aproxima-se de um retângulo horizontal sem evidenciar qualquer dependência entre as variáveis. Os próximos dois gráficos ilustram esta situação (note-se que os dados são os mesmos, apenas estão representados com escalas diferentes):

Page 51: OTD.pdf

51

Resolver o exercício 1 da pág 109 do livro de base. Regressão Linear

Ainda na situação em que num gráfico de dispersão a mancha de pontos apresenta uma tendência linear ir mais além na análise da relação entre as variáveis. A análise de regressão linear é uma técnica muito utilizada em Estatística e apenas iremos considerar uma parte deste tipo de análise. O primeiro passo consiste em construir um diagrama de dispersão e traçar a reta de regressão. A reta de regressão é uma reta que atravessa a mancha de pontos de forma a minimizar as distâncias (na vertical e ao quadrado) dos pontos à reta. É portanto uma reta que deve “passar pelo meio dos pontos”. Esta reta procura definir a relação entre as variáveis x e y. A variável y é tida como sendo dependente de x, e a variável x é tida como sendo uma variável independente. A reta de regressão é facilmente obtida com recurso a uma calculadora gráfica ou a uma folha de cálculo como o Excel. No Excel basta construir o gráfico de dispersão e editando-o solicitar uma “trendline” linear. No exemplo apresentado na secção inicial dos diagramas de dispersão, a reta de regressão tem a equação y = 1,35 x – 38,98. Repare-se que o declive superior à unidade permite que a reta

Page 52: OTD.pdf

52

parta de um valor negativo (ordenada na origem) e atinja um ponto máximo, aproximadamente (100,100). Desta forma, na região onde os valores da literacia masculina são mais reduzidos, 30-60, os respetivos valores femininos ainda são mais reduzidos, 0-30. Mas na parte superior do gráfico, 90-100, os índices feminino e masculino são semelhantes. O gráfico seguinte contém a reta de regressão bem como a sua equação e foi construído no Excel.

Como podemos ver no gráfico aparece por baixo da equação da reta a expressão R2 = 0,93. Trata-se do quadrado do coeficiente de correlação e esta medida dá-nos a percentagem da variabilidade da variável dependente y (neste caso o índice de literacia feminina) que fica explicada pela variável independente x (neste caso o índice de literacia masculina). Como se pode ver o valor é bastante elevado o que significa que os valores das duas variáveis estão fortemente relacionados. A reta de regressão tem bastante utilidade. O valore do declive pode ser interpretado com diferentes fins. Por exemplo, o valor do declive diz-nos qual é a variação que se espera observar na variável y quando x aumenta uma unidade. Dito de

Page 53: OTD.pdf

53

outra forma, o declive dá-nos a taxa de crescimento da variável y, em função da variável x. O valor da ordenada na origem diz-nos quanto é que se espera observar na variável y quando a variável x é nula. Por vezes este valor não tem grande significado no contexto do problema pois a variável x poderá nunca ser zero. Podemos também utilizar a reta de regressão para prever valores da variável dependente y em função de valores pré-especificados da variável independente x. Por exemplo, podemos dizer que se espera que se num país se observar um índice de literacia masculina de 50%, então será de esperar que o índice de literacia feminina seja 1,3494 x 50 – 38,98 = 28,49. Este tipo de procedimento é muito utilizado para efetuar previsões quando a variável x é temporal. Muitas vezes efetuam-se previsões para o futuro, ou seja, obtêm-se valores estimados para a variável dependente, a partir da reta de regressão, numa zona à direita da manha de pontos dada. No Excel valores previstos para a variável y, em função da variável x, podem ser obtidos através da função forecast(x; vetory; vetorx) Resolver os exercícios 3 e 4 da pág 110 do livro de base. Resolver os exercícios 16 e 17 da FTnº2.