módulo i – unidade 1: definição estatística

83
7 Módulo I Unidade 1: Definição Estatística Para muitos a estatística não passa de um conjunto de tabelas e gráficos ou, simplesmente, um aglomerado de números. Na verdade, o campo científico que corresponde à estatística é uma excelente ferramenta na interpretação de dados coletados para qualquer ciência incluindo a ciência química. A estatística historicamente tem nos ajudado na compreensão de diversas informações. A palavra estatística vem de „status‟ (estado em latim). Sob essa palavra acumulam-se descrições e dados relativos ao estado. A estatística, nas mãos dos estadistas, constitui-se, no passado, uma verdadeira ferramenta administrativa através da coleta e construção de tabelas de dados para o governo. A situação evoluiu e esta coleta de dados de dados representa somente um dos aspectos da estatística como será descrito no decorrer do texto. A estatística é um conjunto de técnicas que permite, de forma sistemática, organizar, descrever, analisar e interpretar dados oriundos de estudos ou experimentos, realizados em qualquer área do conhecimento. Dentre as diversas áreas da estatística nosso estudo se limitará a que é chamada estatística descritiva: É utilizada para descrever e resumir os dados. A disponibilidade de uma grande quantidade de dados e de métodos computacionais muito eficientes revigorou está área da estatística. As informações em análise podem ser resumidas qualitativa ou quantitativamente (medidas de posição e de dispersão). As medidas de posição podem ser subdivididas em: moda, média, mediana, percentis, quartis. E as medidas de dispersão em: desvio padrão, variância e coeficiente de variação. Medias estas que serão abordadas mais profundamente nas unidades seguintes, assim como sistemas de regressão linear simples e análise hierárquica de agrupamentos (cluster).

Upload: others

Post on 16-Oct-2021

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Módulo I – Unidade 1: Definição Estatística

7

Módulo I – Unidade 1: Definição Estatística

Para muitos a estatística não passa de um conjunto de tabelas e gráficos

ou, simplesmente, um aglomerado de números. Na verdade, o campo científico

que corresponde à estatística é uma excelente ferramenta na interpretação de

dados coletados para qualquer ciência incluindo a ciência química.

A estatística historicamente tem nos ajudado na compreensão de

diversas informações. A palavra estatística vem de „status‟ (estado em latim).

Sob essa palavra acumulam-se descrições e dados relativos ao estado. A

estatística, nas mãos dos estadistas, constitui-se, no passado, uma verdadeira

ferramenta administrativa através da coleta e construção de tabelas de dados

para o governo. A situação evoluiu e esta coleta de dados de dados representa

somente um dos aspectos da estatística como será descrito no decorrer do

texto.

A estatística é um conjunto de técnicas que permite, de forma

sistemática, organizar, descrever, analisar e interpretar dados oriundos

de estudos ou experimentos, realizados em qualquer área do

conhecimento.

Dentre as diversas áreas da estatística nosso estudo se limitará a que é

chamada estatística descritiva:

É utilizada para descrever e resumir os dados. A disponibilidade de uma

grande quantidade de dados e de métodos computacionais muito

eficientes revigorou está área da estatística.

As informações em análise podem ser resumidas qualitativa ou

quantitativamente (medidas de posição e de dispersão). As medidas de

posição podem ser subdivididas em: moda, média, mediana, percentis, quartis.

E as medidas de dispersão em: desvio – padrão, variância e coeficiente de

variação. Medias estas que serão abordadas mais profundamente nas

unidades seguintes, assim como sistemas de regressão linear simples e

análise hierárquica de agrupamentos (cluster).

Page 2: Módulo I – Unidade 1: Definição Estatística

8

Módulo I - Unidade 2: População e Amostragem

POPULAÇÃO

População ou universo é qualquer conjunto de informações que

tenham, entre si, uma característica comum.

As pessoas de uma comunidade pode ser estudadas sob diversos

ângulos. Por exemplo, podem ser classificadas quanto ao sexo (masculino e

feminino), quanto à estatura (baixa, média, alta), quanto à renda (pobres,

ricas), etc.

Sexo, estatura, renda são variáveis, isto é, são propriedades às quais

podemos associar conceitos ou números e assim expressar, de certa

maneira, informações sob a forma de medidas.

Por exemplo, observe a seguinte tabela 1:

Tabela 1: Nomes associados aos sexos.

Nome Sexo

Paulo Masculino

Silvana Feminino

Jhon Masculino

Heloísa Feminino

Na tabela, os nomes estão associados ao sexo (masculino, feminino).

Esta é uma forma de medida, a chamada medida qualitativa. Pode-se ainda

associar a masculino o número 1 e a feminino o número 2, e a tabela 1

transforma-se em:

Page 3: Módulo I – Unidade 1: Definição Estatística

9

Tabela 2: Nomes relacionados ao sexo masculino (1) e feminino (2).

Nome Sexo

Paulo 1

Silvana 2

Jhon 1

Heloísa 2

Se o conjunto de todas as estaturas das pessoas da comunidade citada

constitui uma população de estaturas, o conjunto de todas as cores de olhos

constitui uma população de cores de olhos, e assim sucessivamente. Desta

forma, o termo população não está associado pessoa, gente e sim a variável

estudada (estatura, cor dos olhos, etc).

Entretanto, população muito grande como, por exemplo, a população

eleitoral brasileira (cerca de 128 milhões de eleitores aptos a votar, estimativa

do TSE – Tribunal Superior Eleitoral). Como fazer uma pesquisa de opinião

sobre a popularidade de determinado político brasileiro sem ter que entrevistar

cada uma das pessoas e garantir um resultado confiável? Neste Caso, recorre-

se a uma amostra que, basicamente, constitui uma redução da população a

dimensões menores, sem ter perda das características essências.

Por exemplo, tem-se da vila São José com população de 400 pessoas.

Se for realizado um estudo das idades dos habitantes desta vila, o trabalho

pode ser simplificado colhendo uma amostra de 40 pessoas e estudar o

comportamento da variável idade apenas nesta amostra.

No entanto, para se ter uma boa amostra, esta deve ser

representativa, ou seja, deve conter em proporção tudo o que a população

possui qualitativa e quantitativamente. E tem que ser imparcial, isto é, todos

os elementos devem ter igual oportunidade de fazer parte da amostra.

Page 4: Módulo I – Unidade 1: Definição Estatística

10

Voltando ao exemplo da vila. Observe as tabelas 3 e 4:

Tabela 3: Quantidade de Pessoas da vila São José em relação à idade em

anos.

Idade (anos) Qtd. de

pessoas

2 30

10 40

18 40

26 40

32 50

40 60

52 70

65 70

Total 400

Tabela 4: Quantidade de Pessoas da vila São José em percentagem em

relação à idade em anos.

Idade (anos) Qtd. de

pessoas %

2 30 7,5

10 40 10,0

18 40 10,0

26 40 10,0

32 50 12,5

40 60 15,0

52 70 17,5

65 70 17,5

Total 400 100

Page 5: Módulo I – Unidade 1: Definição Estatística

11

A tabela 4 especifica que 50 pessoas da vila com idade de 32 anos

correspondem a 7,5% do total dos habitantes desta vila. Então, para haver

representatividade, é preciso garantir que, na amostra de 40 pessoas,

também haverá 7,5% de pessoas idade igual a 32 anos, ou seja, 3 pessoas

com idade igual a 32 anos.

MÉTODOS DE AMOSTRAGEM

Serão abordados 3 tipos de amostragem, mas é importante notar que estes

métodos são válidos somente se a amostra for puramente aleatória. Um bom

exemplo de uma amostra não aleatória é a pesquisa para a eleição

presidencial estampada no Literary Digest de 1936. O Litery ouviu a opinião de

2 milhões de pessoas, o que é uma cifra muito maior do que seria necessário

para proporcionar um resultado preciso, se a amostra tivesse sido selecionada

aleatoriamente. A pesquisa predice uma fácil vitória para Alfred Landon,

quando, na realidade, Franklin D. Roosevelt venceu por uma ampla margem. O

problema é que a amostra do Digest não foi aleatória. A revista enviou fichas a

pessoas cujos nomes foram tirados de listas telefônicas e outras fontes, mas as

pessoas que tinha telefone naquela época não representavam adequadamente

a população como um todo. Se uma amostra não é extraída aleatoriamente,

não há maneira de prever o quanto se afastará da realidade.

AMOSTRAGEM POR CONGLOMERADO

De acordo com este método, a população é dividida em

diferentes conglomerados, extraindo-se uma amostra apenas dos

conglomerados selecionados, e não de toda a população. O ideal seria que

cada conglomerado representasse tanto quanto fosse possível o total da

população. Na prática, selecionam-se os conglomerados geograficamente.

Escolhem-se aleatoriamente algumas regiões, em seguida algumas sub-

regiões e, finalmente, alguns lares. Esse processo assegura que as pessoas

Page 6: Módulo I – Unidade 1: Definição Estatística

12

da amostra vivam em conglomerados, possibilitando ao pesquisador entrevistar

apenas poucas pessoas.

AMOSTRAGEM ESTRATIFICADA

Outro método de amostragem é a amostragem

estratificada. Se a população pode ser dividida em sub-grupos que

consistem, todos eles, em indivíduos bastante semelhantes entre si, pode-

se obter uma amostra representativa entrevistando-se uma amostra aleatória

de pessoas de cada grupo. Esse processo pode gerar amostras bastante

precisas, mas só é viável quando a população pode dividida em grupos

homogêneos.

AMOSTRAGEM DE CONVENIÊNCIA

Há muitos outros tipos de métodos de amostragem. Não

raro aplica-se incorretamente a análise estatística a essas amostras, como se

tratasse de amostra puramente aleatórias. Poderíamos chamar tais métodos de

métodos de amostragem de conveniência. Por exemplo, certas universidades

costumam fazer experimentos psicológicos em amostras dos calouros dos

cursos de psicologia. Como não há razão para esperar que tais calouros

sejam representativos de toda a população de calouros (para só falar da

população como um todo), não é adequado fazer inferência sobre a

população com base em tais experimentos. Outro exemplo: Se colocarmos

uma mesa na entrada de um shopping center e pedirmos a cada passante que

se detenha um momento e preencha um formulário de pesquisa, é pouco

provável que consigamos uma amostra realmente aleatória da população.

Analogamente, as revistas costumam publicar estatísticas chocantes; mas,

como os assinantes não constituem uma amostra aleatória da população, é

impossível fazer inferências estatísticas válidas sobre a população como um

todo, a partir dessas pesquisas.

Page 7: Módulo I – Unidade 1: Definição Estatística

13

Tendo uma amostra representativa da população inicial, os dados

obtidos podem dar origem a diversas relações estatísticas, como por

exemplo, Média aritmética, mediana, moda, variância, desvio padrão, etc.

que serão abordados no decorrer do curso.

Page 8: Módulo I – Unidade 1: Definição Estatística

14

Módulo I – Unidade 3: Coleta e Análise de Dados

A fase de coleta e análise dos dados é de grande importância na

elaboração da pesquisa científica, portanto, é necessário manter alguns

cuidados para que se possa garantir a fidedignidade dos resultados.

COLETA DE DADOS

O primeiro cuidado que se deve tomar ao se iniciar a fase de coleta de

dados é quanto à preparação das pessoas responsáveis por ela. É

importante a supervisão para que não se coletem dados errados, ou

desnecessários para a pesquisa realizada. Do mesmo modo, todos os dados

coletados devem estar sendo observados, pois, se necessário, deve-se fazer a

reaplicação do instrumento.

Já na pesquisa experimental, o essencial é controlar as variáveis

estranhas que possam estar interferindo, para que o ambiente se torne o mais

adequado possível, manipular certas condições e observar os efeitos

produzidos. Contudo, para esse tipo de pesquisa, existe uma variedade de

recursos mecânicos, elétricos, eletrônicos que auxiliam nessa etapa da

pesquisa.

A coleta de dados pode ser feita por meio de: observações, entrevistas

e história de vida, pesquisa bibliográfica, questionários, observação

empírica, entre outros.

É importante ressaltar que, existem diversos procedimentos utilizados

para este fim, no entanto, cabe ao pesquisador decidir qual o procedimento que

mais de adequada ao tipo de pesquisa realizada.

Page 9: Módulo I – Unidade 1: Definição Estatística

15

ANÁLISE DOS DADOS

Após a coleta de dado, faz-se necessário a análise dos mesmos.

Entretanto, o planejamento anterior dessa análise deve teve ter sido feita

antes mesmo da coleta dos dados. Este procedimento auxilia o pesquisador e

evita que sejam feitos trabalhos desnecessários, além do que, possibilita o

pesquisador prever os gastos necessários para a realização da pesquisa.

Para a pesquisa experimental, a análise estatística é essencial e a

prática mais adequada. No entanto, existem inúmeros testes de significância,

sendo necessário que o pesquisador estude e então escolha o teste que mais

se adequada à pesquisa em questão.

É importante observar que, os testes estatísticos constituem apenas

instrumentos que facilitam a interpretação dos resultados, sendo

necessário uma fundamentação teórica que permita ao pesquisador traçar um

paralelo entre os resultados obtidos empiricamente e as teorias já existentes.

Page 10: Módulo I – Unidade 1: Definição Estatística

16

Módulo I – Unidade 4: Distribuição de Frequência

O que vem a ser uma distribuição de frequência?

Uma distribuição de freqüência (absoluta ou relativa) é um

método de agrupar dados por classes de ocorrência de modo a

fornecer a quantidade de dados em cada classe.

Em outras palavras, este tipo de análise estatística permite verificar a

freqüência (o quanto se repete) de determinado dado em um determinado

intervalo de estudo. Com isso podemos resumir e visualizar um conjunto de

dados sem precisar levar em conta os valores individuais. Este tipo de

distribuição pode ser representado em forma de tabelas e gráficos.

Representar graficamente significa fazer um desenho que sintetize de

maneira clara o comportamento de uma ou mais variáveis e para representar

graficamente a distribuição de freqüência serão utilizados gráficos planos

(duas dimensões: altura e largura).

Diagrama de colunas;

Diagrama de barras;

Histograma;

Polígono de freqüência

O ponto de partida desses quatro gráficos é sempre o mesmo: dois

segmentos que têm origem comum e formam entre si um ângulo reto, isto é,

um ângulo de 90º formando um sistema de coordenadas cartesianas

ortogonais. O segmento vertical chama-se eixo das coordenadas e o

segmento horizontal, eixo das abscissas.

Page 11: Módulo I – Unidade 1: Definição Estatística

17

REPRESENTAÇÃO TABULAR

Um outro tipo de representação que ajuda a compreender um

determinado fenômeno é a representação tabular que compacta as

informações utilizando intervalos de estudo que apresenta dados tabelados de

forma bem mais resumida.

Intervalos de classe: conjunto de observações contidas entre dois

valores limites (limite inferior e limite superior).

Por exemplo

Dada a seqüência: 1, 2, 3, 4, 5, 6, 8. Temos:

Intervalo aberto: 1 ─ 8 = 2, 3, 4, 5, 6, 7 (não contém nem o valor

1,limite inferior, e nem o valor 8, limite superior);

Intervalo fechado: 1├ ┤8 = 1, 2, 3, 4, 5, 6, 7, 8 (contém tanto o valor

1,limite inferior, como o valor 8, limite superior);

Intervalo fechado à esquerda: 1├ 8 = 1, 2, 3, 4, 5, 6, 7 (não contém o

valor 8, limite superior);

Intervalo fechado à direita: 1┤8 = 2, 3, 4, 5, 6, 7, 8 (não contém o valor

1,limite inferior,).

Os intervalos de classes devem ser mutuamente exclusivos (um

indivíduo não pode ser classificado em dois intervalos ao mesmo tempo) e

exaustivos (nenhum indivíduo pode ficar sem classificação).

Amplitude do intervalo (representado simbolicamente pela letra h): É o

tamanho do intervalo de classe. A amplitude do intervalo e o número de

intervalos dependem basicamente do problema específico.

E o ponto médio do intervalo: É calculado pela média entre os limites inferior

e superior.

Por exemplo

Page 12: Módulo I – Unidade 1: Definição Estatística

18

Preocupados com o acesso nos serviços de saúde e educação dos

moradores da cidade de Castanhal, localizada no Estado Pará, seus

governantes fizeram um levantamento da renda mensal dos habitantes da

cidade que tem cerca de 150 mil habitantes, mas o estudo foi feito sobre uma

amostra de 340 pessoas. Tal estudo revelou que mais de 35% dos habitantes

(121 pessoas) da cidade de Castanhal vive com renda inferior a dois salários

mínimos. Enquanto que uma minoria de 0,59% (2 pessoas) tem renda superior

a 8 salários mínimos. O que evidencia a má distribuição de renda na cidade e,

conseqüentemente, dificultada a o acesso a educação e a saúde de qualidade.

Os dados obtidos foram:

Tabela 1: Renda mensal da população da cidade de Castanhal.

Renda mensal

Quantidade de

Pessoas (agrupados

por classe)

%

De 0 a 1 salário mínimo 53 15,59

De 1 a 2 salários mínimos 121 35,59

De 2 a 3 salários mínimos 67 19,71

De 3 a 4 salários mínimos 15 4,42

De 4 a 5 salários mínimos 30 8,82

De 5 a 6 salários mínimos 19 5,59

De 6 a 7 salários mínimos 20 5,88

De 7 a 8 salários mínimos 13 3,82

De 8 a 9 salários mínimos 2 0,58

Total 340 100

A tabela 1 pode ser representada com intervalos de classe sendo a renda

(quantidade de salários mínimos) simbolizada por X e a quantidade de pessoas

por ni. Então:

Page 13: Módulo I – Unidade 1: Definição Estatística

19

Tabela 2: Renda mensal da população da cidade de Castanhal em intervalos

de classes.

X (salários

mínimos) ni

0 ├ 1 53

1 ├ 2 121

2 ├ 3 67

3 ├ 4 15

4 ├ 5 30

5 ├ 6 19

6 ├ 7 20

7 ├ 8 13

8 ├ 9 2

Total 340

FREQUÊNCIA ABSOLUTA

ni é uma variável que também pode ser chamada freqüência absoluta

(Fa) e o subscrito i representa a classe à qual n se refere. Na tabela 2, por

exemplo, n1 = 53, n2 = 121,..., n9 = 2. Sendo que a soma de todos os ni‟s deve

ser igual a amostra estudada, neste caso são 340 pessoas.

∑ ni = 340 = Fa

Este exemplo tem uma amplitude (h) igual a 1, isto é, igual a um salário

mínimo, entretanto, h pode assumir qualquer tamanho depende apenas do

problema trabalhado. Veja o que ocorre com a tabela 2 se o intervalo for de

tamanho 2.

Page 14: Módulo I – Unidade 1: Definição Estatística

20

Tabela 3: Renda mensal da população da cidade de Castanhal em intervalos

de classes com h = 2.

X (salários mínimos) ni

0 ├ 2 174

2 ├ 4 82

4 ├ 6 49

6 ├ 8 33

8 ├ 10 2

Total 340

Observe o último intervalo da tabela 3 (8 ├ 10), é fechado somente a

esquerda, logo, significa que há moradores na cidade de Castanhal com renda

maior ou igual a 8 salários mínimos, mas não igual a 10 salários mínimos.

O mesmo vale para os demais intervalos. Observe ainda, que à medida que h

se torna maior a tabela diminui, isto é, vai ficando com menor número de

classes (categorias, intervalos).

A freqüência absoluta pode ser também representada graficamente com

diagrama de colunas, onde no eixo vertical é observada a freqüência

absoluta por classe e no eixo horizontal, os intervalos de classe. Ou ainda

em um diagrama de barras, onde no eixo y será representado o intervalo de

classe, e no eixo x, a freqüência absoluta.

Por exemplo

Dada a seguinte tabela que representa as notas de uma amostra de 32

alunos em um teste de estatística com nota mínima igual a 0 (zero) e nota

máxima igual a 10 (dez), represente-a em um diagrama de colunas e em um

diagrama de barras.

Tabela 4: Representação das notas (de 0 a 10) de 32 alunos em um teste de

estatística.

Notas Fa

0 2

Page 15: Módulo I – Unidade 1: Definição Estatística

21

1 3

2 5

3 8

4 8

5 3

6 2

7 1

Resposta

Para construção do diagrama de colunas desenhe o eixo cartesiano (x,

y). No eixo y represente a freqüência e no eixo x, as notas (ou classes de

notas). As colunas devem ficar separadas umas das outras. E para a

construção de um diagrama de barras faz-se o inverso: na vertical

representam-se as notas e na horizontal a Fa. Observe os gráficos a e b:

a) Gráfico de colunas Notas do teste de estatística

b) Gráfico de barras Notas do teste de estatística

Page 16: Módulo I – Unidade 1: Definição Estatística

22

FREQUÊNCIA RELATIVA

Outro tipo de freqüência é a freqüência relativa (fri): é o valor das

razões entre as freqüências simples (fi) e a freqüência total (freqüência

absoluta, Fa).

fri = fi / Fa

Por exemplo

A freqüência relativa da terceira classe do exemplo anterior é:

fri = 49/ 340 = 0,14

Evidentemente, a soma de todos fri ‘s deve ser igual a 1 ou 100 %.

FREQUÊNCIA ACUMULADA

Tem-se ainda a freqüência acumulada (Fi): é o total das freqüências de

todos os valores inferiores ao limite superior do intervalo de uma dada classe:

Fk = f1 + f2 + ... + fk ou Fk = ∑ fi (i = 1, 2, ..., k)

Por exemplo

Usando os dados da tabela 3, a freqüência acumulada das classes da

tabela 5, abaixo, é:

Tabela 5: Freqüência acumulada (Fk) da renda mensal da população da cidade

de Castanhal.

(Salários mínimos) ni = Fa Fk

0 ├ 2 174 174

2 ├ 4 82 174 + 82 = 256

4 ├ 6 49 256 + 49 = 305

6 ├ 8 33 305 + = 338

8 ├ 10 2 338 + 2 = 340

Total 340

Page 17: Módulo I – Unidade 1: Definição Estatística

23

FREQUÊNCIA ACUMULADA RELATIVA

E por fim, tem-se a freqüência acumulada relativa (Fri): de uma classe

é a freqüência acumulada da classe, dividida pela freqüência total da

distribuição:

Fri = Fi / Fa

Por exemplo

A freqüência acumulada relativa da quarta classe da tabela 4 é:

Fri = 33/ 340 = 0,097

HISTOGRAMA

Um outro exemplo representando a distribuição de freqüência num

histograma. Em uma escola onde 500 alunos da classe A – 2000 participam da

disciplina de Estatística Básica. Num teste de múltipla escolha contendo 100

questões que visava verificar a aprendizagem destes na referida disciplina,

obteve-se a seguinte freqüência de notas (correspondente à quantidade de

acertos).

Tabela 6: Classe A-2000 com 500 alunos participantes da disciplina Estatística

Básica.

Intervalo de Classe Frequência

0 ├ 10 5

10 ├ 20 15

20 ├ 30 20

30 ├ 40 45

40 ├ 50 100

50 ├ 60 130

60 ├70 100

70 ├ 80 60

80 ├ 90 15

90 ├ 100 10

Total 500

Page 18: Módulo I – Unidade 1: Definição Estatística

24

Resposta

Para construção do histograma, desenhe o eixo cartesiano (x, y), onde

na abscissa serão representadas as classes, que neste caso tem uma

amplitude h igual a 10, e na ordenada, a freqüência dos dados. A área de cada

retângulo do gráfico representa a freqüência de cada nota.

POLÍGONO DE FREQÜÊNCIAS

Na construção de um polígono de freqüências primeiramente constrói-se

um histograma; depois marcamos no „telhado„ de cada coluna o ponto central

(ponto médio) e unimos sequencialmente estes pontos. Devem existir dois

pontos na abscissa (eixo horizontal), um na lateral esquerda e outro na lateral

direita, ligado aos pontos das barras das extremidades.

Por exemplo

Represente em um polígono de freqüência os dados da tabela abaixo

referente ao tempo em minutos que uma amostra de 550 pessoas levou para

realizar uma prova de estatística.

Page 19: Módulo I – Unidade 1: Definição Estatística

25

Tabela 7: Tempo em minutos gasto por 550 pessoas para realizar uma prova

de Estatística.

Classes

(minutos) Fa

2 ├ 4 70

4 ├ 6 160

6 ├ 8 210

8 ├ 10 80

10 ├ 12 20

Total 550

Polígono de freqüência do teste de Estatística

Page 20: Módulo I – Unidade 1: Definição Estatística

26

Módulo 1 – Unidade 5: Medidas de Tendência Central

Como o próprio nome sugere, medidas de tendência central são

medidas, Isto é, estatísticas, cujos valores estão próximos do centro.

MÉDIA ARITMÉTICA

A média aritmética (Ma) de um conjunto de dados ou valores é igual à

razão da soma de todos estes valores pela quantidade de valores, isto é, o

número de parcelas.

Ma = ∑xi/ n

Onde n refere-se a quantidade de elementos presente na amostra, mas

se o objeto de estudo é sobre uma população, o denominador passa a ser

representado por N, tendo ,então a chamada média populacional (μ).

μ = ∑xi/ N

Por exemplo

A tabela 1 revela a produção mundial de café no período de 1946-89.

Onde o Brasil aparece como grande líder na produção do grão. Qual dentre os

quatro anos estudos, em média, a produção de café mundial foi mais próspera

em relação à quantidade de grãos produzidos?

Dado: Indonésia, Costa do Marfim e Etiópia tiveram produções pouco

significativas no ano de 1946.

Page 21: Módulo I – Unidade 1: Definição Estatística

27

Tabela 1: Podução mundial de café no período de 1946-1989.

Países

produtores

Produção (1.000 t)

1946 1955 1968 1989

Brasil 917 1.370 1.398 1.510

Colômbia 365 335 474 664

Indonésia __ 63 150 390

México 57 88 180 312

Costa do

Marfim __ 85 258 265

Guatemala 70 66 108 220

Etiópia __ 54 250 200

Uganda 26 63 170 188

El Salvador 62 75 138 97

Fonte: Imagens Économiques du Monde, 1977 e 1990.

Resposta

a) Para o ano de 1946

Ma = 917 + 365 + 0 + 57 + 0 + 70 + 0 + 26 + 62/ 5 = 163,33. 1000 t = 163330 t

b) Para o ano de 1955

Ma= 1370 + 335 + 63 + 88 + 85 + 66 + 54 + 63 + 75/ 9 = 244,33. 1000t =

244330 t

c) Para o ano de 1968

Ma = 1398 + 474 + 150 + 180 + 258 + 108 + 250 + 170 + 138 / 9= 347,33. 1000

t = 347330 t

d) Para o ano de 1989

Ma = 1510 + 664 + 390 + 312 + 265 + 220 + 200 + 188 + 97 / 9 = 427,33. 1000

t = 427330t.

Page 22: Módulo I – Unidade 1: Definição Estatística

28

Pelas médias das produções mundiais de café nos quatro anos estudos,

1989 foi o ano mais próspero.

MÉDIA PONDERADA

Ao calcularmos uma média, podemos cometer sério engano, se

ignorarmos o fato de que as grandezas em jogo não têm todas a mesma

importância em relação ao fenômeno que está sendo estudado.

Consideremos, por exemplo, os seguintes dados sobre a percentagem de

casas de residência ocupadas pelos proprietários respectivos, nas vizinhanças

de três cidades da Califórnia.

Tabela 2: Percentagem de casas de residência ocupadas por proprietários em

três cidades do Estado do Pará .

Porcentagem ocupada pelo proprietário

Santarém 40,3

Salva-Terra 56,4

Castanhal 62,1

A média entre essa três percentagens é:

Ma = 40,3 + 56,4 + 62,1 / 3 = 52,9

Mas não podemos afirmar que essa seja a ocupação média de casa

pelos seus proprietários nas três cidades. As três cifras não têm todas o

mesmo peso, porque há grandes diferenças entre os tamanhos das três

cidades.

Para dar a quantidades sujeitas ao processo de média o grão correto de

importância, é preciso atribuir-lhe pesos (importância relativa) e então calcular

uma média ponderada. De modo geral, a média ponderada Maw de um

conjunto de números x1, x2,..., xn, cuja importância relativa é expressa

Page 23: Módulo I – Unidade 1: Definição Estatística

29

numericamente por um conjunto correspondente de números w1, w2,...,wn, é

dada por :

Maw = ∑w.x/ ∑w

Aqui, ∑w.x é a soma dos produtos de x pelo peso correspondente, e ∑w

é simplesmente a soma dos pesos. Note que quando os pesos são todos

iguais, a fórmula da média ponderada se reduz a média aritmética usual.

Por exemplo

Considerando que, nos bairros selecionados de Santarém, há 1135

unidades residenciais, 113 em Salva-Terra e 210 em Castanhal, utilize essa

cifras e as percentagens do texto acima para determinar a taxa de ocupação

pelos proprietários nas três cidades.

Resposta

Fazendo x1 = 40,3, x2 = 56,4, x3 = 62,1, w1 = 1135, w2 = 113, w3 =210 na

fórmula de Maw, obtemos

Maw = (1135)(40,3) + (113)(56,4) + (210)(62,1) /(1135 + 113 + 210) =

44,7

Note que o valor obtido para Maw é muito menor que Ma, 44,7

comparado com 52,9, e isto é devido exclusivamente ao grande tamanho de

Santarém e sua baixa taxa de ocupação pelos proprietários.

A MEDIANA (Md)

Para evitar a possibilidade de sermos enganados por valores muito

pequenos ou muito grandes, ocasionalmente descrevemos o „meio‟ ou o

„centro‟ de um conjunto de dados com outras medidas estatísticas que não a

média. Uma dessas medidas, a mediana de n valores, exige que os

ordenemos, e se defina como:

Page 24: Módulo I – Unidade 1: Definição Estatística

30

O valor do elemento do meio se n é impar, ou a média dos dois

elementos do meio se n é par.

Por exemplo

Em um mês recente, o Departamento de Caça e Pesca de um estado

reportou 53, 31, 67, 53 e 36 violações em atividades de caça e pesca em cinco

regiões diferentes. Ache a mediana do número de violações para esses meses.

Resposta

A mediana não é 67, o valor do meio, porque primeiro devemos ordenar

as cifras de acordo com o valor (da menor para o maior). Obtemos, então: 31,

36, 53, 53 e 67; pode-se ver que a mediana é 53.

Note neste exemplo que há dois 53‟s entre os dados, e que não nos

referimos especificamente a nenhum deles como a mediana – a mediana é um

número e não necessariamente uma medida ou observação.

POSIÇÃO MEDIANA

A mediana é o valor do [(n + 1)/ 2]-ésimo elemento.

Quando n é impar, [(n + 1)/ 2] é um número inteiro e dá a posição da mediana;

quando n é par, [(n + 1)/ 2] está a meio caminho entre os dois inteiros e a

mediana é a média dos valores dos elementos correspondentes.

Por exemplo

Determine a posição para (a) n = 15 e (b) n = 48.

Resposta

Com os dados ordenados (e contando a partir de qualquer extremidade)

a) [(n + 1)/ 2] = [(15 + 1)/ 2] = 8, e a mediana é o valor do 8º elemento;

Page 25: Módulo I – Unidade 1: Definição Estatística

31

b) [(n + 1)/ 2] = [(48 + 1)/ 2] = 24,5, e assim a mediana é a média dos

valores dos 24º e 25º elementos.

É importante ter em mente que [(n + 1)/ 2] é uma fórmula da posição da

mediana, e não a mediana em si.

CÁLCULO DA MEDIANA DE UMA DISTRIBUIÇÃO COM DADOS

AGRUPADOS

Quando queremos calcular a mediana de uma distribuição com dados

agrupados, precisamos juntar ao quadro de distribuição de freqüências a

coluna referente às freqüências acumuladas.

Por exemplo

A tabela 3 representa a distribuição das alturas de 200 jovens com

idades entre 15 e 20 anos.

Tabela 3: Distribuição das alturas de 200 jovens com idades entre 15 e 20

anos.

Altura em

cm Fa Fa acum.

160 ├ 165 8 8

165 ├ 170 15 8 + 15 =23

170 ├ 175 10 23 + 10 = 33

175 ├ 180 40 33 + 40 = 73

180 ├ 185 90 73 + 90 = 163

185 ├ 190 20 163 + 20 = 183

190 ├ 195 15 183 + 15 = 198

195 ├ 200 2 198 + 2 = 200

Page 26: Módulo I – Unidade 1: Definição Estatística

32

Resposta

Considerando a definição de mediana, podemos dizer que ela se

encontra na classe que contém o elemento 200/2 = 100; observando a coluna

de freqüências absolutas acumuladas, esse elemento se encontra na classe

correspondente a 180 ├ 185.

Esta classe é chamada classe mediana.

Quando, além de identificar a classe mediana, queremos determinar o

valor da mediana, devemos fazer uma interpolação:

163 – 73 = 90 ----------- 185 – 180 = 5

100 – 73 = 27 ----------- X

Isso nos ´eva a seguinte regra de três simples e direta:

90 ---- 5

27 ---- X

X = (27 . 5)/ 90 = 135/ 90 = 1,5

O valor da mediana é obtido da seguinte maneira:

Md = 180 + 1,5 = 181,5 cm

Desse resultado podemos dizer que 50 % dos jovens têm altura menor

que 181,5.

MODA

Outra medida por vezes utilizada para descrever o „meio‟ ou „centro‟ de

um conjunto de dados é a moda, definida simplesmente como o valor que

ocorre com maior freqüência e mais de uma vez. Suas duas vantagens

principais são: não exige cálculo, apenas uma contagem, e pode ser

determinada também para dados qualitativos ou nominais.

Page 27: Módulo I – Unidade 1: Definição Estatística

33

Por exemplo

Uma amostra de registro de uma inspetoria de veículos revela que 18

motoristas em certa faixa etária receberam 3, 2, 0, 0, 2, 3, 3, 1, 0, 1, 0, 3, 4, 0,

3, 2, 3 e 0 notificações por infração durante os três últimos anos. Determine a

moda.

Resposta

Vê-se que o número 4 ocorre uma vez, o número 1, duas vezes, o

número 2, três vezes e os números 0 e 3 ocorrem seis vezes cada um. Há

então duas modas, 0 e 3.

Tabela 4: Comparação entre Média, Mediana e moda.

Medida

Definição

Vantagens

Desvantagens

Média

Centro da distribuição de freqüências.

1. reflete cada valor; 2. possui propriedades

matemáticas atraentes.

1. é afetada por valores extremos.

Mediana

Metade dos valores são maiores, metade menores.

1. menos sensível a valores extremos do que a média

1. difícil de determinar para grande quantidade de dados.

Moda

Valor mais frequente

1. valor “típico”: maior quantidade de valores concentrados neste ponto.

1. não se presta a análise matemática; 2. Pode não ter moda para certos conjuntos de dados.

PERCENTIL

O percentil de ordem px100 (0<p<1), em um conjunto de dados de

tamanho n, é o valor da variável que ocupa a posição px(n+1) do conjunto de

dados ordenados. O percentil de ordem p (ou p-quantil) deixa px100% das

observações abaixo dele na amostra ordenada.

Page 28: Módulo I – Unidade 1: Definição Estatística

34

Casos Particulares:

Percentil 50 = mediana, segundo quartil(md,Q2,q(0,5))

Percentil 25= primeiro quartil (Q1), q(0,25)

Percentil 75= terceiro quartil (Q3) , q(0,75)

Exemplo 1

Dada a sequência 0,9 1,0 1,7 2,9 3,1 5,3 5,5 12,2 12,9 14,0 33,6. E

sabendo que n = 11, encontre o Md, Q1 e Q3.

Resposta: Md=5,3 ; Q1=1,7 ; Q3=12,9

Page 29: Módulo I – Unidade 1: Definição Estatística

35

Módulo I – Unidade 6: Medidas de Dispersão

As medidas de dispersão são de grande importância na interpretação de

dados. Resumidamente elas medem o quanto uma determinada variável se

afasta de uma outra variável. Tais medidas podem dizer em quanto um

determinado dado se afasta se afasta da idealidade, por exemplo. A seguir

serão abordadas de maneira abrangente o que vem a ser cada uma dessas

medidas.

DESVIO PADRÃO

Para definir desvio padrão, sem dúvida a medida de variação mais útil e

mais largamente utilizada, notemos que a dispersão de um conjunto de dados

é pequena se os dados estão concentrados em torno da média, e é grande

se os dados estão muito afastados da média. Poderia, assim, parecer

razoável medir a variação de um conjunto de dados em termos do desvio dos

valores respectivos a contar a média. Se um conjunto de números x1, x2,..., xn,

constituindo uma amostra, tem média Ma, as diferenças x1 - Ma, x2 - Ma,..., xn

- Ma, são chamadas desvio a contar da média, o que sugere que podemos

tomar sua média como medida da variação da amostra. Infelizmente, não

podemos fazê-lo. A menos que os x‟s sejam todos iguais, alguns desvios

sertão positivos, outros serão negativos.

VARIÂNCIA

O desvio médio absoluto é uma boa medida de dispersão porque dá a

distância média de cada número em relação à média. Todavia, para muitos

propósitos, é mais conveniente elevar ao quadrado cada desvio e tomar a

média de todos esses quadrados. Essa grandeza é chamada variância. Esta é

uma boa medida de dispersão, mas tem uma desvantagem: é difícil interpretar

o valor numérico da variância.

Page 30: Módulo I – Unidade 1: Definição Estatística

36

Por exemplo

Uma variância de 76,222 significa uma grande dispersão ou uma

pequena dispersão? Parte do problema se deve a questão das unidades: a

variância é medida em uma unidade que é o quadrado da unidade de medida

x. Em geral, é mais conveniente calcular a raiz quadrada da variância,

chamada desvio padrão.

Temos, então, a fórmula para o desvio padrão.

a) Desvio padrão amostral

s = √(∑(x - Ma)2 / (n - 1))→ para a amostra

b) Desvio padrão populacional

δ = √(∑(x - μ)2 / N)→ para a população

E o quadrado do desvio padrão nos revela a fórmula para a variância.

a) Variância amostral

s2 = (∑(x - Ma)2 / (n - 1))→ para a amostra

b) Variância populacional

δ2 = (∑(x - μ)2 / N)→ para a população

Por exemplo

Em seis domingos consecutivos, um motorista de caminhão - reboque

recebeu 9, 7, 11, 10, 13 e 7 chamadas de serviço. Calcule s.

Resposta

Page 31: Módulo I – Unidade 1: Definição Estatística

37

Calculando inicialmente a média, obtemos:

Ma = 9 + 7 + 11 + 10 + 13 + 7/ 6 = 9,5

e o cálculo de ∑(x - Ma)2 pode ser feito como na tabela 1:

Tabela 1: Distribuição das chamadas de serviço recebidas por um motorista de

caminhão – reboque em seis domingos consecutivos.

x X - Ma (x - Ma)2

9 - 0,5 0,25

7 - 2,5 6,25

11 1,5 2,25

10 0,5 0,25

13 3,5 12,25

7 -2,5 6,25

Total 0,0 27,50

Dividindo por (6 – 1) e tomando a raiz quadrada, vem:

s = √(∑(x - Ma)2 / (n - 1))

s = √ (27,50/ (6 – 1)) = √(5,5) ≈ 2,3

O resultado encontrado neste ultimo exemplo significa que os valores de

x (chamadas de serviço) se afastam, desviam em 2,3 da média destes mesmos

valores.

Note, na tabela acima, que o total da coluna do meio é zero; isto deve

ocorrer sempre, constituindo, assim, uma verificação dos cálculos.

INTERVALO INTERQUARTIL (d)

É a diferença entre o terceiro quartil e o primeiro quartil, ou seja,

d= Q3-Q1

Page 32: Módulo I – Unidade 1: Definição Estatística

38

Por exemplo

Dada a seguinte sequência 15,5,3,8,10,2,7,11,12, encontre d.

Resposta:

Q1 = (3 + 5)/2 = 4 e Q3 = (11 + 12)/2 = 11,5

d = Q3 - Q1 = 11,5 - 4 = 7,5

COEFICIENTE DE VARIAÇÃO (CV) OU COEFICIENTE DE REGRESSÃO (R2)

É a medida de dispersão relativa que elimina o efeito da magnitude dos dados.

Exprime a variabilidade dos dados em relação a média e é muito útil para

comparar duas ou mais variáveis.

Por exemplo

Na tabela abaixo estão dispostos a média e o desvio padrão da altura e

do peso de alguns alunos do Curso de Química. E ainda seus respectivos

coeficientes de variação. Explique tais dados de acordo com sua variação em

relação a média e desvio padrão dos mesmos.

Média Desvio

padrão CV

Altura 1,143 m 0,063 m 5,5 %

Peso 50 Kg 6 Kg 12 %

Resposta: Com relação às médias, os alunos são, aproximadamente,

duas vezes mais dispersos quanto ao peso do que quanto à altura.

%100X

SCV

Page 33: Módulo I – Unidade 1: Definição Estatística

39

OUTRA FORMA DE ANALISAR A DISPERÇÃO

Nesta parte mostraremos outra forma de avaliar a forma de distribuição

de freqüência de uma variável ou amostra.

Exemplo 1

A tabela seguinte registra as amostras A e B. Analisar as distribuições

de freqüências das amostras aplicando somente as medidas estatísticas

conhecidas.

A 100 120 120 120 120 120 120 140 140 140 140 160 160 160

B 88,6 108,5 108,6 128,5 128,6 128,5 128,6 148,6 148,5 148,6 148,6 148,6 148,6 168,6

Verifique também as medidas estatísticas registradas na tabela seguinte:

A B

Ma 134,3 134,3

s 21,4 21,4

Md 130,0 138,6

Resposta

Verificamos pela segunda tabela que as amostras A e B têm medianas

diferentes, porém as mesmas medidas estatísticas Ma = 134,3 e s = 21,4.

Pelas medidas da média aritmética (Ma) e do desvio padrão (s),

aparentemente, se trata da mesma amostra; entretanto, essa igualdade não é

sustentada pelas seguintes comparações:

As medianas mostram que não se trata da mesma amostra;

Nas linhas da primeira tabela estão registrados os resultados: mínimo,

Q1, mediana, Q3 e máximo. Perceba o leitor que as cinco medidas estão

registradas em ordem crescente dos valores ordenados.

Analisando os resultados temos:

Page 34: Módulo I – Unidade 1: Definição Estatística

40

Os intervalos das 2 amostra são iguais: 80 = 180 – 100 = 168,8 –

88,6.

A diferença dos quartis das duas amostras é a mesma e igual a 20 =

Q3 – Q1. Em cada amostra este resultado indica que 50% dos valores

se distribuem entre dois quartis.

A mediana de cada amostra está situada no centro dos dois quartis.

A diferença entre Q1 e o mínimo da amostra A é 20, entanto que a da

amostra B é 40.

A B

Mínimo 100 88,6

Q1 120 128,5

Md 130,0 138,6

Q3 140 148,6

Máximo 180 168,6

Os resultados acima ajudam a compreender o alcance do intervalo entre

quartis IEQ e as vantagens do diagrama boxplot que será apresentado. O

primeiro quartil, a mediana e o terceiro quartil avaliam a forma da parte central

e a variabilidade da distribuição de freqüência da amostra. O IEQ é o resultado

da diferença entre o terceiro quartil Q3 e o primeiro quartil Q1:

IEQ = Q3 - Q1

As características do IEQ são:

É uma medida resistente, pois não é afetado pelos valores extremos da

distribuição.

É uma medida simples, fácil de ser calculada e automatizada e mede a

distribuição da metade dos valores da amostra situados ao redor da

mediana. O IEQ não é suficiente para avaliar a variabilidade de uma

amostra ou variável, pois envolve apenas os valores centrais, deixando

de considerar os valores extremos que também são importantes.

É parecido com o intervalo, entretanto, as três medidas Q1, mediana e

Q3 dão mais informações.

Page 35: Módulo I – Unidade 1: Definição Estatística

41

DADOS SUSPEITOS

São denominados dados suspeitos os valores extremos de uma amostra

completamente diferente da maioria; isto é, valores mais do que extremos.

Como qualquer amostra pode conter dados suspeitos devemos estar

preparados para detectá-los e analisar suas causas.

Se o valor suspeito for originado de um erro de registro, por exemplo, o

valor medido 135 foi registrado como 2135. Neste caso, o erro pode ser

corrigido e eliminada a característica suspeita do valor amostrado.

QUE FAZER SE O VALOR SUSPEITO FOI CORRETAMENTE

AMOSTRADO E REGISTRADO?

Se a população está sendo amostrada através de uma pesquisa de

pessoas de uma determinada população, um valor suspeito poderá ser

originado por uma pessoa que não pertence à população definida. O valor

suspeito também poderá ser evidencia de um acontecimento extraordinário ou

a variabilidade não esperada de uma variável. Em qualquer caso os valores

suspeitos sem causa aparente associada a população devem ser retirados da

amostra.

Uma estratégia para tratar dados suspeitos e outras irregularidades é

utilizar métodos numéricos que pouco são afetados pelos valores suspeitos.

Uma das aplicações do IEQ é detecção de dados suspeitos de uma variável.

Observe as condições abaixo:

O valor X de uma amostra é considerado possível suspeito se estiver

no intervalo

Q1 – 3xIEQ < X < Q1 – 1,5xIEQ

ou

Q3 + 1,5xIEQ < X < Q3 + 3xIEQ

O valor X de uma amostra é considerado suspeito se

X < Q1 – 3xIEQ

ou

X > Q3 + 1,5xIEQ

Page 36: Módulo I – Unidade 1: Definição Estatística

42

Observação: Embora o IEQ ajude a retirar um valor da amostra por

considerá-lo suspeito essa decisão deve ser acompanhada de um criterioso

julgamento.

Por exemplo

Dada a seguinte sequência 15,5,3,8,10,2,7,11,12, verifique se há

possíveis suspeitos.

Resposta

Temos da sequência acima que Q1 = 4 e Q3 = 11,5.

E o IEQ é igual:

IEQ = Q3 - Q1 = 11,5 – 4

IEQ = 7,5

Então os intervalos são:

Q1 – 3xIEQ < X < Q1 – 1,5xIEQ

4 – 3x7,5 < X < 4 – 1,5x7,5

-18,5 < X < -7,25

Conclusão: Não existe nenhum valor na sequência de dados que seja

maior que -18,5 e menor que -7,25, logo não há valores possíveis suspeitos.

Page 37: Módulo I – Unidade 1: Definição Estatística

43

Módulo 1 – Unidade 7: Boxplot

Boxplot

Ao utilizar apenas os valores extremos o intervalo não auxilia na

determinação da forma da distribuição de uma variável ou amostra, informando

apenas sobre caudas da distribuição. Os três resultados Q1, mediana, Q3

mostram a forma de distribuição de cinqüenta por cento dos valores de uma

variável ou amostra. Agrupando os cinco resultados da distribuição: mínimo,

Q1, mediana,Q3 e máximo conseguiremos obter mais informações sobre a

forma da distribuição de freqüência de variável.

O boxplot é a forma gráfica de se compor os cinco resultados mínimo,

Q1, mediana,Q3 e máximo e obter informações diretas sobre a da distribuição

de freqüência da variável. Resumidamente, representa os dados através de um

retângulo construído com os quartis e fornece informação sobre valores

extremos. (veja o esquema embaixo):

Exemplo 1

Com a finalidade de aumentar o peso (em Kg) um regime alimentar foi

aplicado em 12 pessoas. Os resultados (ordenados) foram:

-0,7 2,5 3,0 3,6 4,6 5,3 5,9 6,0 6,2 6,3 7,8 11,2.

Page 38: Módulo I – Unidade 1: Definição Estatística

44

1º passo

Calculando as medidas temos:

Mediana (Md ou Q2) = 5,6kg

1º.quartil (Q1) = 3,3kg

3º.quartil (Q3) = 6,25kg

2º passo

d=intervalo interquartil = Q3-Q1 =2,95kg

Logo as linhas auxiliares correspondem aos pontos:

Q1-1,5d = -1,25kg

Q3+1,5d = 10,675kg

3º passo

Construção do gráfico.

Page 39: Módulo I – Unidade 1: Definição Estatística

45

Módulo I – Unidade 8: Análise de Correlação - Regressão Linear Simples

Um problema frequente em estatística consiste em investigar questões

como estas: há alguma relação entre duas grandezas? As variações em uma

das grandezas acarretam variações na outra grandeza? O termo correlação

significa „relação em dois sentidos‟ (co + relação) e é usado para designar a

„força‟ mantêm „unidos‟ os valores dois conjuntos de valores.

ANÁLISE DE CORRELEÇÃO

Para entendermos melhor a análise de regressão usaremos o seguinte

exemplo.

Por exemplo

O fenômeno da bioacumulação em peixes é verificado quando a

concentração do metal a ser analisado cresce proporcionalmente com a massa

do peixe. Análises realizadas pelo Laboratório de Química Analítica e

Ambiental da UFPA forneceram dados da concentração de Al (Alumínio) em

peixes da espécie Cichla spp. (Tucunaré), mostradas na tabela abaixo e a

massa de peixes grandes após a biometria.

Admitamos que as respostas obtidas tenham sido:

Amostras de Tucunaré A B C D E ∑

Massa da amostra (g): Xi 5 8 10 12 15 50

[Al] (mg/Kg): Yi 10 30 45 50 75 210

1º passo

Calcule X (variável independente, que permite prever) e Y (variável

dependente, que é a resposta ou o predito) da seguinte maneira:

XM = ∑ Xi / n sendo n = quantidade de amostras

XM = 50 anos / 5 = 10 g de Tucunaré

YM = ∑ Yi / n

Page 40: Módulo I – Unidade 1: Definição Estatística

46

YM = 210 anos / 5 = 42 mg/Kg de Alumínio

Xi representa a massa de cada amostra de Tucunaré.

Por exemplo: O sujeito C Xi=3 = X3 = 10 g

Yi representa a massa de Alumínio bioacumulados nas amostra de Tucunaré.

Por exemplo: O Sujeito C Yi=3 = Y3 = 45 livros

XM e YM são na verdade médias dos sujeitos estudados. E observando

os valores de X e Y acima, verificamos que para cada 10 g (em média) de

Tucunaré, a amostra de peixe correspondente possui 42 mg/Kg de Al

bioacumulados (também em média).

A média aritmética (Ma) sozinha é insuficiente para explicar bem a força que

mantém unidas as variáveis X e Y. Por isso, usa-se uma estatística

desenvolvida por Person chamada coeficiente de correlação linear (rxy).

2º passo

Para o cálculo de rxy é necessário primeiro encontrar o valor das

seguintes quantidades:

∑ XiYi , ∑ Xi , ∑ Yi , ∑ Xi2 , ∑ Yi

2 . Vamos a tabela e calculemos essas

quantidades:

Sujeito Massa (g) Al (mg/Kg) XiYi Xi2 Yi

2

A 5 10 50 25 100

B 8 30 240 64 900

C 10 45 450 100 2025

D 12 50 600 144 2500

E 15 75 1125 225 5625

∑ 50 210 2465 558 11150

3º passo

Cálculo de rxy feito através da fórmula:

2222 )()(

)()(

iiii

iiii

xy

YYnXXn

YXYXnr

Page 41: Módulo I – Unidade 1: Definição Estatística

47

Onde n corresponde ao número de pares de informações. Neste

exemplo, n = 5. Então:

4º passo

Interpretação do rxy.

Quanto mais próximo de 1 maior a correlação positiva.

Quanto mais próximo de - 1 maior será a correlação negativa.

Os valores de + 1 e – 1 significam respectivamente, correlação perfeita

positiva e correlação perfeita negativa.

r = +1 correlação positiva (as duas variáveis aumentam no mesmo

sentido)

r = 0 ausência de correlação (valores muito dispersos)

r = -1 correlação negativa (uma variável aumenta e a outra diminui)

0,6 ≥ r ≤ 1 correlação forte “significativa”

0,3 ≥ r ≤ 0,6 correlação fraca

0 ≥ r ≤ 0,3 correlação muito fraca

22210111505505585

)210)(50()2465(5xyr

)4410055750)(25002790(

1050012325xyr

99,0xyr

Page 42: Módulo I – Unidade 1: Definição Estatística

48

TIPOS DE DIAGRAMAS

Relação Linear direta Relação Linear Indireta rxy > 0 rxy < 0 Relação curvilínea direta Não há correlação rxy = 0 Outros exemplos Exemplo 1

Xi Yi

0 0 1 2 2 4 3 6 4 8

1º passo

Calcular ∑ XiYi , ∑ Xi , ∑ Yi , ∑ Xi2 , ∑ Yi

2 .

Xi Yi Xi2 Yi

2 XiYi

0 0 0 0 0 1 2 1 4 2 2 4 4 16 8 3 6 9 36 18 4 8 16 64 32 ∑ 10 20 30 120 60

Page 43: Módulo I – Unidade 1: Definição Estatística

49

2º passo Calcular rxy

3º passo

Interpretação do resultado.

Foi encontrado um rxy igual a 1, isto é, a correlação entre os dados é

perfeita.

Exemplo 2

Xi Yi

4 5 3 3 5 5 5 4 4 4 3 6 2 5 3 6 2 5 4 2

1º passo

Calcular ∑ XiYi , ∑ Xi , ∑ Yi , ∑ Xi2 , ∑ Yi

2 .

Xi Yi Xi2 Yi

2 XiYi

4 5 4 25 10

3 3 4 25 10

5 5 9 9 9

2201205210305

)20)(10()60(5xyr

1xyr

2)(

2.

2)(

2

)()(

iYiYniXiXn

iYiXiYiXnxyr

Page 44: Módulo I – Unidade 1: Definição Estatística

50

5 4 9 36 18

4 4 9 36 18

3 6 16 25 20

2 5 16 16 16

3 6 16 4 8

2 5 25 25 25

4 2 25 16 20

∑ 35 45 133 217 154

2º passo Calcular rxy

Interpretação do resultado: Foi encontrado um rxy de,

aproximadamente, -0,28, isto é, a correlação entre os dados é fraca.

SIGNIFICÂNCIA DE rxy

Voltemos ao exemplo inicial onde Xi = massa (g) de Tucunaré e Yi =

quantidade de Alumino (mg/Kg) bioacumulados.

Vamos imaginar que a população de peixes de onde a amostra foi tirada

fosse tal que a sua representação gráfica desse o seguinte diagrama de

disperção:

22 )45()217(12[)35(1330(10[

)45)(35()154(10xyr

28,0xyr

2)(

2.

2)(

2

)()(

iYiYniXiXn

iYiXiYiXn

xyr

Page 45: Módulo I – Unidade 1: Definição Estatística

51

Mas, como os 5 sujeitos foram sorteados, os valores assim obtidos

poderiam, por puro acaso, estar simulando uma disposição retilínea, quando,

na verdade, essa configuração sequer existisse. O diagrama de dispersão

seguinte mostra isso:

Os pontos da amostra lembram uma reta, mas os pontos da

população têm uma disposição circular. Como saber se a correlação, na

população, é diferente de zero? Vimos no gráfico acima que rxy é diferente de

zero (no caso específico rxy > 0) não é garantia de que o mesmo ocorra na

população da qual se extraiu a amostra.

O nosso problema poderia se assim colocado: já que na amostra rxy é diferente

de zero, será que na população (indicada pela letra grega rô: ρxy ) a correlação

é também diferente de zero?

Então:

Se rxy ≠ 0, então:

Ho: ρxy = 0

Ha: ρxy ≠ 0 sendo, α = 5%

Para resolver este problema, vamos usar seguinte estatística t de Student

com (n- 2) graus de liberdade:

Onde:

to = t observado(calculado);

rxy = coeficiente de correlação linear (Pearson) obtido;

(n-2) = número de graus de liberdade.

20

)(1

2

xy

xy

r

nrt

Page 46: Módulo I – Unidade 1: Definição Estatística

52

1º passo Para o exemplo da quantidade de Alumínio bioacumulado no Tucunaré to é: 2º passo

O valor de to deve ser comparado com o valor de t tabelado, chamado „t

crítico’ (tc). E dessa comparação resultam as seguintes conclusões

(mutuamente excludentes). Mas para isso devemos encontra o número de

graus de liberdade (GLIB).Observe o extrato da tabela de tc abaixo:

Graus de

liberdade (GLIB)

α

5% 1%

3 3,182 5,847

4 2,776 4,604

… … …

8 3,355

… … …

10 3,169

… … …

20 2,845

Para o nosso exemplo, n = 5, portanto o GLIB é:

GLIB = n – 2 = 5 – 2 = 3 graus de liberdade

Então, o tc , para o nosso exemplo com 3 graus de liberdade, é igual a

3,182.

3º passo

Temos, então: (to = 12,1382) > (tc = 3,182)

Possibilidades para análise da significância da amostra:

I- Se to > tc Rejeita a Ho ( e aceita Ha)

II- Se tc > to Não rejeita a Ho (mas rejeita Ha)

1382,12)99,0(1

2599,0

)(1

2

220

xy

xy

r

nrt

Page 47: Módulo I – Unidade 1: Definição Estatística

53

Pelas possibilidades de análise de significância, Ho é rejeitada, isto é,

com 95% de certeza, podemos concluir que a correlação na população não é

zero.

Para esclarecer melhor, vamos aplicar o t de Student ao exemplo 2

desta unidade.

1º passo

Temos to para este exemplo é igual a:

2º passo

Para o exemplo 2, n = 10, portanto o GLIB é:

GLIB = n – 2 = 10 – 2 = 8 graus de liberdade

Então, o tc , para o nosso exemplo com 8 graus de liberdade, é igual a

2,306.

3º passo

Lembrando que: Ho: ρxy = 0 Não existe correlação linear;

Ha: ρxy ≠ 0 Existe correlação linear. (α = 5%)

Temos, então: (to = 0,825) < (tc = 2,306).

Logo, Ho não é rejeitada, isto é, com 95% de certeza, podemos afirmar

que não existe correlação linear na população. Então: ρxy = 0.

825,00784,01

828,0

)28,0(1

21028,0

)(1

2

20

2t

r

nrt

xy

xy

o

Page 48: Módulo I – Unidade 1: Definição Estatística

54

COEFICIENTE DE DETERMINAÇÃO (CD) OU EXPLICAÇÃO (R2)

Então, se rxy = 0,548

Isto significa que numa proporção de aproximadamente 30,03% das

variações em Y podem ser explicadas pelas variações em X.

RECOMENDAÇÕES IMPORTANTES

1. Já que o cálculo de rxy é trabalhoso é conveniente fazer o gráfico antes

de começar qualquer cálculo. Basta fazer um gráfico xy unindo o ponto

Xi com Yi, isto é: se Xi = 5 e Yi = 2, teremos o ponto (5,2) no gráfico e

assim por diante. Se os pontos do gráfico distribuírem-se de tal forma

que lembrem uma reta, convém calcular rxy; se os pontos estivem

dispersos de modo não-linear, não convém clacular rxy.

2. O coeficiente de correlação linear de Pearson pode ser calculado por

uma fórmula alternativa que é:

REGRESSÃO LINEAR SIMPLES

A regressão, que traduz a lei segundo a qual as variáveis „caminham

juntas‟, é expressa por meio de uma relação matemática. É a chamada

yx

iixy

SSn

yxr

22 100 )(r=R xy

22 )548,0(100R

03.302R

Page 49: Módulo I – Unidade 1: Definição Estatística

55

equação de regressão. Resumidamente, a regressão linear simples é a

expressão matemática que expressa as varáveis que se correlacionam.

Na verdade, correlação e regressão são conceitos logicamente inseparáveis.

Uma não pode existir sem a outra. Então, neste caso, fala-se em regressão

linear simples:

LINEAR: porque a disposição dos pontos permite interpolar-lhes uma

reta; e;

SIMPLES: porque só há 2 variáveis envolvidas no processo.

De todas as retas possíveis para uma nuvem de dados, somente a que

apresente melhor ajustamento a todos os pontos é que deve ser escolhida.

A escolha dessa reta obedece a um critério chamado método dos

mínimos quadrados calculado pelas seguintes equações:

Onde:

Sx = desvio padrão de X

Sy = desvio padrão de Y

^ = indica que se trata de uma valor teórico próximo da

realidade.

As equações acima são chamadas de equações normais de

regressão. A primeira delas (X - chapéu) chama-se equação normal de

regressão dos X sobre os Y e permite calcular um X desconhecido a partir de

um Y conhecido. A segunda equação (Y - chapéu) equação normal de

regressão dos Y sobre os X e permite calcular um Y desconhecido a partir de

um X conhecido.

)(

)(

_

2

_

2

^

2

11

^

1

XKYXKYKS

Sr

YKXYKXKS

Sr

ii

x

y

xy

ii

y

xxy

Page 50: Módulo I – Unidade 1: Definição Estatística

56

Para entender melhor como utilizar essas equações retornemos ao

exemplo onde X = massa (g) de Tucunaré e Y = massa (mg/Kg)de Al

bioacumulados, e mostrar como se faz para interpolar aos pontos amostrais

uma reta.

1º passo

Sabendo que:

Sx = 3,4 XM = 10 g

Sy = 21,6 YM = 42 mg/Kg

rxy = 0,99

Calcule K1 e substitua os valores de K1, XM, YM na equação normal de

regressão dos X sobre os Y para encontra a equação de X – chapéu.

2º passo

Calcule K2 e substitua os valores de K2, XM, YM na equação normal de

regressão dos Y sobre os X para encontra a equação de Y – chapéu.

28,316,0

)]42)(16,0(10[16,0

16,06,21

4,399,0

^

^

1

ii

ii

y

xxy

YX

YX

S

SrK

9,2029,6

)]10)(29,6(42[29,6

29,64,3

6,2199,0

^

^

2

ii

ii

x

y

xy

XY

XY

S

SrK

Page 51: Módulo I – Unidade 1: Definição Estatística

57

3º passo

Vamos supor agora que tivéssemos perdido a notação do valor de X2

(recorra tabela no início desta unidade). Como recuperá-lo a partir de seu

parceiro Y2 = 30?

Resposta: Basta substitui o valor 30 (Y2) em Yi na fórmula de X –

chapéu que encontramos no 1º passo. Se você realizar os cálculos encontrará

um valor de X – chapéu aproximadamente igual a 8,08. Observe que o valor

não é 10. Isso acontece porque X – chapéu produz apenas uma estimativa

razoável que leva em conta o conjunto de dados da tabela.

4º passo

Sabemos que por 2 pontos passa uma e uma só reta. Então, se

quisermos saber qual a reta de X que apresenta o melhor ajuste a todos os

pontos, basta calcular dois valores extremos, por exemplo: X – chapéu para Y1

= 10 e X – chapéu para Y5 = 75.

Fazendo os cálculos temos que X – chapéu = 4,88 e Y – chapéu = 15,28. Tais

valores nos levam ao seguinte diagrama:

5º passo

O mesmo raciocínio vale para a equação de Y – chapéu.

OBSERVAÇÃO: As figuras ilustradas na unidade 7 foram adaptadas de: COSTA, S. F. Introdução Ilustrada á

Estatística. 3º Ed. São Paulo: Ed. HARBRA LTDA, 1998. p.

Page 52: Módulo I – Unidade 1: Definição Estatística

58

Módulo I – Unidade 9: Análise Hierárquica de Agrupamentos

A análise hierárquica de agrupamentos tem por objetivo agrupar dados

em „clusters‟ com atributos semelhantes. Os resultados aparecem em formas

de dendogramas onde podem visualizar as correlações as amostras ou

variáveis. O importante aqui é a distância entre as amostras: amostras

próximas (distâncias pequenas) são aproximadamente semelhantes.

Para a Química este tipo de análise auxilia na interpretação dados

experimentais ou teóricos. Por exemplo, se temos um grupo de dados que

correspondem às concentrações de Ferro (Fe), coletados do solo de diferentes

bairros de Belém. A análise hierárquica de agrupamentos é recurso que

poderia dizer o quanto estes bairros estão próximos ou distantes em relação a

quantidade de Ferro presente nos solos de cada uma ou se é possível

distinguir uma localidade da outra analisando a concentração de Fe em seus

respectivos solos.

No decorrer desta unidade serão descritos alguns exemplos para melhor

ilustração

FUNDAMENTOS MATEMÁTICOS – MEDIDAS DE DISTÂNCIA

Nesta fase da análise, as distâncias entre as amostras e variáveis são

calculadas e comparadas.

dab distância entre a e b.

Tais distâncias podem ser calculadas pela fórmula:

Page 53: Módulo I – Unidade 1: Definição Estatística

59

AGRUPAMENTO

Distância entre o cluster A – B que acaba de ser formado e outro C já

formado.

1. CONEXÃO SIMPLES:

2. CONEXÃO COMPLETA

3. CONEXÃO POR MEIO DE MEDIANA

Depois de se obter o valor das distâncias faz-se o cálculo da

similaridade pela seguinte equação:

Exemplo 1

Em 2007, um grupo de químicos da UFPA resolveu analisar as

concentrações, em ppb (partes por bilhão), de 4 elementos (Cl, Ca, Mg e Na)

presentes em águas salobras de dois diferentes bairros da cidade. Para cada

bairro, coletou-se 4 amostras de água em diferentes pontos. Considere a tabela

abaixo e verifique, através da análise de agrupamento, se é possível distinguir

as localidades com base nos valores de concentrações dos elementos.

Page 54: Módulo I – Unidade 1: Definição Estatística

60

N° amostra

Amostras Cl Ca Mg Na

Bairro Terra firme

1 TF 01 2067,1 315,9 73,7 1857,7

2 TF 02 2074,9 311,7 73,9 1754,7

Bairro Nazaré

3 NZ 01 2134,7 292,7 70,3 1504,7

4 NZ 02 2163,8 295,6 70,1 1499,9

1º passo

Calcule as distâncias da seguinte forma:

d12 = (2074,9 - 2067,1)2 + (311,7 – 315,9)2 + (73,9 – 73,7)2 + (1754,7 + 1857,7)2 =

103,38

d13 = (2134,7 – 2067.1)2 + (292,7 – 315,9)2 + (70,3 – 73,7)2 + (1504,7 + 1857,7)2 =

360,18

d14 = (2163,8 – 2067.1)2 + (295,6 – 315,9)2 + (70,1 – 73,7)2 + (1499,9+ 1857,7)2 =

371,21

d23 = (2134,7 – 2074,9)2 + (292,7 – 311,7)2 + (70,3 – 73,9)2 + (1504,7 + 1754,7)2 =

257,78

d24 = (2163,8 – 2074,9)2 + (295,6 – 311,7)2 + (70,1 – 73,9)2 + (1499,9 + 1754,7)2 =

270,37

d34 = (2163,8 – 2134,7)2 + (295,6 – 292,7)2 + (70,1 – 70,3)2 + (1499,9 + 1504,7)2 =

29,64

Se você realizar os cálculos verá que os valores de d11, d22, d33, d44 são

iguais à zero.

2º passo

Organize os resultados das distâncias encontradas em forma de uma matriz

de forma que d12 estará na primeira linha e segunda coluna, d24 estará na segunda

linha e quarta coluna, d44 (igual a zero) estará na quanta linha e quarta coluna e

assim sucessivamente. Então temos:

Page 55: Módulo I – Unidade 1: Definição Estatística

61

1 2 3 4

1 0 103,38 360,18 371,21

2 0 257,78 270,37

3 0 29,64

4 0

3º passo

Com um grupo já formado (grupo 3,4 = 29,64) que é a menor distância

da matriz, através de cálculos verifica-se a existência de outros grupos que

poderão ainda ser encontrados ou ainda se a pontos similares ao 1º já

formado.

Cálculo da distância entre o grupo formado (3,4) e os demais (1 e 2).

Para elaboração do dendrograma utilizaremos à conexão simples.

Então:

d1 3,4 = 0,5.d13 + 0,5.d14 – 0,5│ d13 - d14│

d1 3,4 = 0,5.360,18 + 0,5.371,21 - 0,5│ 360,18 – 371,21│= 360,18

d2 3,4 = 0,5.d23 + 0,5.d24 – 0,5│ d23 – d24│

d2 3,4 = 0,5.257,78 + 0,5.270,37 – 0,5│ 257,78 – 270,37│= 257,78

Agora com os novos valores de distâncias, vamos construir uma

segunda matriz distância:

1 2 3,4

1 0 103,38 360,18

2 0 257,78

3,4 0

4º passo:

Com outro grupo já formado (1 e 2), busca-se encontrar pontos similares

ou distintos.

Page 56: Módulo I – Unidade 1: Definição Estatística

62

Calcula-se a distância entre os grupos formados e os que ainda poderão

ser encontrados. E com isso efetua-se o cálculo da distância, usando agora os

pontos (3 e 4 com 1 e 2 já formados). Pela fórmula de conexão simples temos:

d1,2 3,4 = 0,5.d1 3,4 + 0,5.d2 3,4 – 0,5│ d1 3,4 – d2 3,4│

d1,2 3,4 = 0,5.360,18 + 0,5.257,78 – 0,5│360,18 – 257,78│= 257,78

As distâncias d1,2 1,2; d3,4 3,4 são iguais a zero. Desta forma temos a

matriz:

1,2 3,4

1,2 0 257,78

3,4 0

5º passo:

Realizado os cálculos das distâncias para formação de grupos e a

similaridade entre esses grupos formados é possível um gráfico para melhor

visualizar as informações. Fazendo uso do programa MINITAB, utilizaram-se

gráficos em Dendrograma.

Para construção do dendograma é necessário o cálculo da

similaridade.

S1,2 = 60%

S3,4 = 88%

S(1,2),(3,4) = 0%

Utilizando o valor da distância máxima padronizada temos que:

dmáx = d(1,2),(3,4) = 257.78

A dmáx não padronizada seria igual a 360,18.

Page 57: Módulo I – Unidade 1: Definição Estatística

63

6º passo

Análise do dendograma obtido com os dados de distância.

Dendrograma 1 - distância

Dendrograma 2 obtido com os dados de similaridade.

Terra Firme

Nazaré

Nazaré

Terra Firme

Page 58: Módulo I – Unidade 1: Definição Estatística

64

Conclusões: É possível distinguir os bairros Terra Firme e Nazaré com base

nas concentrações de Cl, Ca, Mg e Na. As duas localidades estão

notavelmente separadas dendogramas. As amostras 1 e 2 formam um grupo e

as amostras 3 e 4 também se agrupam, e, posteriormente esses dois grupos

são agrupados.

Page 59: Módulo I – Unidade 1: Definição Estatística

65

EXERCÍCIOS DE APLICAÇÃO

Lista de Exercícios de Estatística Descritiva

1- Calcular o coeficiente de variação de cada variável, verificar a presença

de outlines e fazer a comparação entre a umidade e as cinzas das folhas

de jambú.

UMIDADE % CINZAS %

88,68 2,16

88,57 1,74

88,70 1,76

87,18 1,91

88,49 1,50

89,14 2,13

2- Na tabela abaixo são apresentados valores de peso fresco dos calos por

explante obtidos em cultura de tecidos in vitro de diferentes cultos de

trigo. Utilize os conhecimentos estatísticos e responda:

a) Qual a característica apresentou maior variabilidade;

b) Compare os pesos obtidos dos embriões maduros com imaturos e

verifique a presença de outlines.

Fw –Imaturos Fw-Maturos

48,4 70,0

45,0 56,7

40,4 65,6

53,6 127,7

60,0 74,4

63,5 63,0

64,2 153,4

72,7 44,2

62,6 74,9

59,8 105,4

Média do peso fresco dos calos por explante (mg)

Page 60: Módulo I – Unidade 1: Definição Estatística

66

3- Na tabela abaixo é apresentado os valores referentes as diferenças de

calos e regeneração de plantas entre cinco tipos de trigo de fontes de

embriões maduros e imaturos. Compare usando medidas estatísticas

(médias, mediana, desvio padrão e coeficiente de variação) os valores

apresentados dos embriões maduros e imaturos.

Embriões Imaturos Maduros

A 38,1 51,5

B 34,3 50,7

C 52,5 82,0

D 30,0 58,9

E 60,3 56,7

4- Na tabela abaixo são apresentados valores de algumas propriedades

físico-químicas (pH, acidez livre, umidade e Hidroximetilfurfural-HMF)

determinadas em méis de abelha com ferrão (Apis mellifera) e sem

ferrão (Mellipona fasciculata). Através de medidas de tendência central e

análise de Box-plot, verificar qual (is) das propriedades estudadas é

mais importante para separar abelhas com ferrão de abelha sem ferrão.

Amostras pH Acidez

livre

Umidade HMF Abelhas

1 3,57 69,95 10,63 16,7 Com ferrão

2 3,84 18,52 18,14 10,36 Com ferrão

3 3,84 19,52 16,26 10,75 Com ferrão

4 4,20 23,00 20,00 8,10 Com ferrão

5 3,54 33,47 22,80 21,93 Sem ferrão

6 4,20 15,22 22,47 19,63 Sem ferrão

7 3,85 52,56 27,37 18,27 Sem ferrão

8 3,40 15,90 28,00 0,00 Sem ferrão

SOUZA (2008)

5- Os resultados dos elementos químicos Pb, Zn e Cd, em mg/Kg ,

analisados em amostras de peixes médios e grandes, da Cichla spp.

Page 61: Módulo I – Unidade 1: Definição Estatística

67

(Tucunaré), capturados na represa de Tucuruí, no projeto desenvolvido

pelo laboratório de Química Analítica e Ambiental da UFPA em parceria

com a ELETRONORTE, são encontrados na tabela abaixo:

Pb Zn Cd Tamanho do peixe

0,05 20,43 1,41 Médio

0,09 20,19 1,31 Médio

0,19 21,77 0,74 Médio

0,05 23,36 0,83 Médio

0,00 15,88 0,62 Grande

0,54 17,94 0,94 Grande

0,01 13,35 0,33 Grande

0,06 22,21 0,70 Grande

Mostrar através do Boxplot, qual(is) do(s) metal(is) separa(m) melhor os

peixes médios e grandes.

6- Em um estudo realizado na Universidade Federal do Pará (UFPa) foram

analisadas 6 sementes de cupuaçu e determinou-se a dimensão das

sementes (comprimento, largura e espessura). Calcule o coeficiente de

variação das variáveis. Observar a presença de outlines e analisar as

variáveis através do Boxplot.

Sementes Comp. (cm) Larg. (cm) Espes. (cm)

1 2,9 2,2 1,1

2 2,4 1,9 1,2

3 2,7 2,2 1,1

4 2,6 2,0 0,9

5 2,1 1,8 1,1

6 2,2 1,6 1,5

Page 62: Módulo I – Unidade 1: Definição Estatística

68

Exercício de Regressão Linear

1- Nos laboratórios de Química da UFPA, são realizados vários experimentos

de grande importância, uma delas é a determinação da curva de calibração em

relação as concentrações de cálcio. No quadro abaixo são mostrados as

concentrações de padrões analíticos de cálcio, (em mg/l) e as absorvâncias

desses padrões, determinadas por espectrometria no UV-Visível. Ajuste um

modelo linear a estes dados, calcule os valores de R2 e t0, e diga se o modelo é

significativo. Dado tc = 0,7914

Amostra Ca (mg/l) Absorvância

A 0,6 0,043

B 0,7 0,079

C 1,00 0,133

D 1,6 0,142

E 0,78 0,081

2- Na tabela abaixo, são apresentados valores de concentrações de metais na

polpa do açaí, de cinco regiões diferentes. (Os metais são cálcio e magnésio).

Ajuste um modelo linear a estes dados, calcule os valores de R2 e t0, e diga se

o modelo é significativo. Dado tc = 1,5472

Amostra Ca (mg/ml) Magnésio (mg/ml)

A 0,048 0,13

B 0,018 0,08

C 0,11 0,09

D 0,21 0,19

E 0,13 0,21

3- Na tabela abaixo são apresentados os dados obtidos da extração do

óleo/oleoresina de quatro amostras diferentes de gengibre, onde sofreram dois

Page 63: Módulo I – Unidade 1: Definição Estatística

69

tipos de tratamento: métodos físicos (R1) e de secagem ao calor do fogo (R2).

Calcule:

a) O coeficiente de correlação (r).

b) A significância de r (teste t0).

c) Verificar se o modelo é ajustável (R2).

N° experimental R1 R2

Gengibre inteiro não discascado. 4,7 4,9

Gengibre inteiro descascado. 4,5 4,6

Gengibre dividido não descascado. 5,8 6,1

Gengibre dividido descascado. 2,8 2,6

4- Fazer uma análise de regressão entre a concentração real Fe (mg/Kg) e a

concentração real de Zn (mg/Kg) presente nas folhas do jambú. Saber se o

modelo é ajustável e se tem significância. tc = 3,182

Conc. Real Fe (mg/Kg)-Xi Conc. Real Zn (mg/Kg)-Yi

146,61 62,79

191,88 64,81

111,84 87,74

177,81 74,08

303,43 74,71

309,31 49,64

5- Um procedimento importante num laboratório é a construção de curvas de

quantificação, isto é, a determinação da concentração de uma determinada

espécie, através de modelos construídos através dos dados obtidos

experimentalmente. Normalmente, essa relação é determinada empregando-se

o ajuste por mínimos quadrados ou regressão linear. Considere a matriz obtida

num experimento visando à concentração de uma curva de quantificação para

determinação de taninos em resíduo de açaí. Na tabela abaixo são mostradas

as concentrações de ácido tânico (mg/mL) e as absorvâncias determinadas por

Page 64: Módulo I – Unidade 1: Definição Estatística

70

espectrofotometria de UV_vísivel. Ajuste um modelo linear a estes dados.

Calcule os valores de R2 e to. Sendo que o valor de tc=3,182.

Ácido tânico

(mg/mL) Absorvância

0,50 0,063

0,75 0,074

0,80 0,085

0,90 0,099

1,25 0,109

1,30 0,112

6- O fenômeno da bioacumulação em peixes é verificado quando a

concentração do metal a ser analisado cresce proporcionalmente com a massa

do peixe. Análises realizadas pelo Laboratório de Química Analítica e

Ambiental da UFPA forneceram dados da concentração de Al em peixes da

espécie Cichla spp. (Tucunaré), mostradas na tabela abaixo e a massa de

peixes grandes após a biometria. Calcule os valores de R2 e t0.

Massa (g) [Al](mg/Kg)

2500 23,69

3500 75,38

2750 19,14

2000 13,81

Page 65: Módulo I – Unidade 1: Definição Estatística

71

Exercício de Cluster

1) FARNHAM ET AL, (2000) obtiveram dados hidrogeoquímicos

proveniente de duas regiões no Estado norte-americano de Nevada: amostras

1,2 e 3 onde o governo federal local efetuou explosões atômicas subterrâneas;

outra adjacente, Oásis Valley/ OV: amostras 4 e 5. No total são 5 análises,

concentrações em ppb, para 7 elementos. Utilize a análise de agrupamentos

(conexão simples e completa) e diga se é possível à separação, distinção,

dessas localidades com base nos valores de concentrações dos metais.

Li Ti V Cr Mn Ni Ge

1 9,3 1,11 1,30 2,42 1,15 1,12 1,32

2 10,3 1,27 1,96 2,67 1,09 1,18 1,26

3 10,4 1,24 1,07 5,67 1,09 1,18 1,27

4 16,6 1,07 1,67 2,80 1,34 2,20 1,55

5 17,9 1,04 1,16 2,37 1,49 2,39 2,36

2) Calcule as matrizes de distâncias utilizando o método e conexão simples

e monte os dendogramas de distâncias e similaridades para as amostras.

Compare os resultados.

Amostra

s

Variedade

1

Variedade

2

Variedade

3

Variedade

4

Variedade

5

1 7 9 10 17 29

2 5 12 14 12 35

3 3 8 20 15 37

4 8 7 8 14 26

5 2 11 5 19 34

3) Os alunos de química da UFPA com o auxilio de seu professor analisaram

dois tipos de aguardente, um tipo armazenado em barris de vidro e o outro

armazenados em barris de carvalho. Foram analisados os seguintes

Page 66: Módulo I – Unidade 1: Definição Estatística

72

compostos, Acetaldeido e compostos Fenólicos. Com bases na tabela abaixo

compare as concentrações desses compostos através de Boxplots.

Barris de Carvalho

Concentração

Tempo (meses) Compostos Fenólicos Acetaldeido

0 5,63 7,63

6 31,01 7,97

12 35,90 8,41

18 38,18 8,86

24 44,01 8,92

Barris de Vidro

Concentração

Tempo (meses) Compostos Fenólicos Acetaldeido

0 5,63 7,63

6 3,70 8,00

12 3,09 8,13

18 3,30 8,12

24 3,45 8,14

Page 67: Módulo I – Unidade 1: Definição Estatística

73

Módulo I - Apêndice 1: Gráficos e Tabelas

GRÁFICOS E TABELAS

Fatos ou fenômenos da natureza podem se representados de várias

formas e diferentes linguagens. E duas dessas linguagens são os gráficos e

tabelas. As informações tabeladas podem ser facilmente representadas através

de gráficos ou vice-versa sendo que a função de ambos é expor de maneira

simples e resumida as informações de determinado fato. Uma tabela tem a

vantagem de poder apresentar todos os dados mesmo que sejam diferentes

em seus valores. Já um gráfico tem a vantagem de tornar visível não só os

dados, mas também o comportamento das grandezas ou dados envolvidos no

fato ou fenômeno a ser tratado.

Neste texto serão abordadas algumas regras simples para construção de

gráficos e tabelas.

TABELAS

Passos para Construção de Tabelas

1. Uma tabela pode ser representada na forma horizontal ou vertical,

dependendo número de grandezas ou dados a serem representados;

2. Os números devem vir preferencialmente na forma inteira, mas quando

estiverem na forma decimal pode-se usar notação científica;

3. Deve contar no espaço superior da tabela um título informando de forma

sucinta o esta representa;

4. O topo da tabela deve representar as grandezas por meio de símbolos

e entre parênteses a sua unidade;

5. Inclua totais de linhas e/ou colunas para facilitar as comparações;

6. Ordene colunas e/ou linhas quando possível. Se não houver

impedimentos, ordene-as segundo os valores, crescente ou

decrescentemente;

7. Tente trocar de orientação (linhas por colunas) para melhorar a

apresentação. É mais fácil fazer comparações ao longo das linhas do

que das colunas;

Page 68: Módulo I – Unidade 1: Definição Estatística

74

8. Altere a disposição e o espaçamento das linhas e colunas para facilitar a

leitura. Inclua um maior espaçamento a cada grupo de linhas e/ou

colunas em tabelas muito extensas.

9. Não analise a tabela descrevendo-a, mas sim comentando as principais

tendências sugeridas pelos dados.

Por exemplo:

Tabela 1: Concentração Ferro (g/mL) presente em amostras do Rio

Tocantins em mL.

[Fe] (g/mL) Amostras (mL) %

2 30 25,00

10 40 33,33

18 50 41,67

Total 120 100

Interpretações: Pela Tabela 1 podemos perceber que quanto maior a

amostra das águas do Rio Tocantins maior é a concentração de Ferro presente

nas mesmas.

Como fazer Tabelas Usando o Programa Word?

1. Abra o programa Word e na barra de ferramentas clic em

Tabela. Em seguida clic em Inserir e, por fim, em Tabela;

2. Determine o tamanho da tabela ou peça autoformatação e clic

em OK;

Page 69: Módulo I – Unidade 1: Definição Estatística

75

3. Finalmente sua tabela está pronta. Basta inserir os valores que

irão compor sua tabela;

4. Para aperfeiçoar sua tabela, pode-se formatá-la. Clic na barra

de ferramenta em Tabela e em seguida na opção Desenhar

tabela;

5. Utilize a caixa de ferramentas Tabelas e bordas para formatar

sua tabela.

Page 70: Módulo I – Unidade 1: Definição Estatística

76

GRÁFICOS

Os gráficos não seguem somente um comportamento linear. Eles podem ter

comportamento exponencial, logaritmo, correlaciona. Isto depende das

varáveis, grandezas e dados estudados. Serão descritos a seguir três tipos de

gráficos muito utilizados em estatística (gráficos de barra e coluna, gráficos

de linhas e gráficos de setores ou pizza).

Gráficos de barras / colunas: é usado para apresentar séries

cronológicas, geográficas e categóricas.

Um gráfico de barras ilustra comparações entre itens individuais. As

categorias são organizadas verticalmente e os valores horizontalmente para

focalizar a comparação de valores e para dar menos ênfase ao tempo.

Page 71: Módulo I – Unidade 1: Definição Estatística

77

É adequado quando as variáveis forem qualitativas ou quantitativas

discretas.

Vendas de Petróleo (em R$ milhares/ano)

0 50 100 150 200

Extremo Oriente

América do Sul

Europa

Interpretações do Gráfico: As vendas de petróleo por ano no Extremo Oriente

ultrapassam as vendas na Europa e a América do Sul teve uma quantidade

menor de vendas anual.

Um gráfico de colunas exibe as alterações dos dados em um período de

tempo ou ilustra comparações entre itens. As categorias são organizadas

horizontalmente e os valores verticalmente para enfatizar a variação ao longo

do tempo.

Qtd. de Cloro em % amostras de águas

0

10

20

30

40

50

60

70

1 2 3 4

Amostras

Interpretações do Gráfico: o gráfico revela que a amostra de água 2

apresenta maior quantidade de cloro dissolvido com, aproximadamente, 58%.

Gráficos de linhas: é usada para apresentar séries cronológicas.

Representa observações feitas ao longo do tempo, em intervalos iguais ou não.

Mostra a tendência dos dados no decorrer do tempo. No eixo vertical

Page 72: Módulo I – Unidade 1: Definição Estatística

78

descreve-se o valor observado para a variável e não a freqüência. A variável

deve ser quantitativa.

Qtd. de Cloro (%) em amostras de água do Rio

Tocantins

0

10

20

30

40

50

60

70

1 2 3 4

Local de coleta

Amostra 1

Amostra 2

Amostra 3

Interpretações do Gráfico: No primeiro ponto de coleta as amostras 2 e 3

apresentaram uma quantidade de cloro aproximadamente igual, já a amostra 1

tinha uma quantidade de Cl levemente maior. No segundo ponto de coleta a

quantidade de cloro presente na amostra 3 caiu bruscamente. No ultimo ponto

de coleta, as amostras 1 e 3 apresentam % de Cl quase iguais. E a mostra 2,

no ponto de coleta 4, tem quantidade de cloro superior as demais amostras.

Gráfico de setores (pizza): Um gráfico de pizza mostra o tamanho

proporcional de itens que compõem uma seqüência de dados à soma dos

itens. Ele sempre mostra apenas uma seqüência de dados e é útil quando você

deseja enfatizar um elemento importante.

Page 73: Módulo I – Unidade 1: Definição Estatística

79

Interpretações do Gráfico: As informações contidas no gráfico revelam

que formam vendidas mais unidades de sanduíches, enquanto que as sopas

apresentaram menor número de unidades vendidas.

Passos para Construção de Gráficos

1. Desenhar o plano cartesiano (X, Y) e associar aos eixos X e Y as

grandezas ou dados estudados;

2. Estabelecer um título de fácil entendimento;

3. Nomear eixos.

4. Observar o comportamento do gráfico para fazer as possíveis

interpretações.

Como Fazer Gráficos Usando o Programa Excel?

1. Abra o programa Excel e em colunas diferentes e paralelas

insira os dados referentes aos eixos X e Y. Dê nomes aos

eixos;

Page 74: Módulo I – Unidade 1: Definição Estatística

80

Na primeira linha estão dispostos os parâmetros físico-químicos

utilizados para avaliar a qualidade da água de três lagos distintos. E na

segunda linha, as suas unidades. A qualidade dos mesmos será determinada

por comparação a padrões pré – estabelecidos, neste caso os padrões

dispostos pelo Conselho Nacional do Meio Ambiente – CONAMA. É o órgão

consultivo e deliberativo do Sistema Nacional do Meio Ambiente-SISNAMA, foi

instituído pela Lei 6.938/81, que dispõe sobre a Política Nacional do Meio

Ambiente, regulamentada pelo Decreto 99.274/90.*

13

Unidades dos parâmetrosparâmetros

*Fonte: Site do CONAMA: http://www.mma.gov.br/port/conama/estr.cfm

Page 75: Módulo I – Unidade 1: Definição Estatística

81

2. Selecione todos os dados que irão compor o gráfico e na barra

de ferramentas, clic em Inserir e selecione o tipo de gráfico

desejado, neste caso para melhor comparação dos dados será

utilizado um gráficos de barras;

3. Após selecionar o gráfico desejado clic nos eixos x e y e dê

nome aos mesmos, ajuste a legenda e crie um título para seu

gráfico;

Page 76: Módulo I – Unidade 1: Definição Estatística

82

Para as interpretações do gráfico verifique quais parâmetros estão de

acordo com o observado pelos dados pré – estabelecidos, neste exemplo:

CONAMA. E atribua interpretações as possíveis variações existentes entre os

dados coletados e os padronizados. Lembre-se ainda que os dados

representados em um gráfico podem ter cunho comparativo, como foi

construído acima, verificar o crescimento ou decaimento de uma determinada

variável em relação a outra, sendo que esta variação pode ser linear,

exponencial, logaritmo, etc.

Page 77: Módulo I – Unidade 1: Definição Estatística

83

RESPOSTAS DOS EXERXÍCIOS DE APLICAÇÃO

Estatística Descritiva

1.

Umidade Cinzas

Média= 88,46 Média= 1,87

Desvio Padrão= 0,67 Desvio Padrão= 0,25

CV= 0,75 CV= 13,87

Q1(25%)=88,49 Q1(25%)=1,74

Q2(50%)= 88,63 Q2(50%)=1,84

Q3(75%)=88,70 Q3(75%)=2,13

d = Q3-Q1 = 0,21 d = Q3-Q1 = 0,39

Máx: Q3+1,5d= 89,015 Máx: Q3+1,5d=2,72

Mín: Q1- 1,5d = 88,18 Mín: Q1- 1,5d = 1,16

2.

Fw Imaturos Fw Maturos

Média= 57,02 Média= 83,53

Desvio Padrão=9,97 Desvio Padrão=34,42

CV= 17,48 CV= 41,20

Q1(25%)=48,4 Q1(25%)=63

Q2(50%)=59,90 Q2(50%)=72,2

Q3(75%)=63,5 Q3(75%)=105,4

d = Q3-Q1 = 15,1 d = Q3-Q1 =42,4

Máx: Q3+1,5d= 86,15 Máx: Q3+1,5d=169

Mín: Q1- 1,5d = 25,73 Mín: Q1- 1,5d = -0,6

3.

Imaturos Maduros

Média= 43,04 Média= 59,96

Desvio Padrão=12,83 Desvio Padrão=12,79

CV= 29,80 CV= 21,34

Q1(25%)=34,3 Q1(25%)=51,5

Q2(50%)=38,1 Q2(50%)=56,70

Q3(75%)=52,5 Q3(75%)=58,9

d = Q3-Q1 = 18,2 d = Q3-Q1 =7,4

Máximo= 79,8 Máximo=70

Mínimo = 7,1 Mínimo= 40,4

Page 78: Módulo I – Unidade 1: Definição Estatística

84

4.

Para abelhas com ferrão

pH Acidez livre Umidade HMF

3,57 18,52 10,63 8,10 3,84 19,52 16,26 10,36 3,84 23,00 18,14 10,75 4,20 69,95 20,00 16,47

X 3,86 32,75 16,26 11,42

Md 3,84 21,26 17,20 10,56

Para abelhas sem ferrão

pH Acidez livre Umidade HMF

3,40 15,4 22,47 0,00 3,54 15,22 22,80 18,27 3,85 3,47 27,37 19,63 4,20 52,56 28,00 21,93

X 3,75 21,66 25,16 14,96

Md 3,70 15,31 25,09 18,95

Cálculos estatísticos para construção dos Box-Plots

Para abelhas com ferrão.

Parâmetros pH Acidez Umidade HMF

Q1(25%) 3,71 19,02 13,45 9,14 Q2(50%) 3,84 21,26 17,20 10,56 Q3(75%) 4,02 46,48 19,07 13,61

d = Q3-Q1 0,31 27,46 5,62 4,38 Mín: Q1- 1,5d 3,25 -22,17 5,02 2,66 Máx:Q3+1,5d 4,49 87,67 27,50 20,18

Para abelhas sem ferrão.

Parâmetros pH Acidez Umidade HMF

Q1(25%) 3,47 9,35 22,64 9,13 Q2(50%) 3,70 15,31 25,09 18,95 Q3(75%) 4,03 33,98 27,69 20,78

d = Q3-Q1 0,56 24,63 5,05 11,65 Mín: Q1- 1,5d 2,63 -27,60 15,07 -8,35 Máx:Q3+1,5d 4,87 70,93 35,26 38,26

Page 79: Módulo I – Unidade 1: Definição Estatística

85

5.

Para peixes médios

Pb Zn Cd

0,05 20,19 0,54 0,05 20,43 0,83 0,09 21,77 1,31 0,19 23,36 1,41

Para peixes grandes

Pb Zn Cd

0,00 13,35 0,33 0,01 15,88 0,62 0,06 17,94 0,70 0,54 22,21 0,94

[Pb] para peixe médio Q1(25%)=0,05 Q2(50%)=0,07 Q3(75%)=0,14 d = Q3-Q1 = 0,09 Máx: Q3+1,5d= 0,28 Mín: Q1- 1,5d = -0,085

[Pb] para peixe grande Q1(25%)=0,005 Q2(50%)=0,035 Q3(75%)=0,3 d = Q3-Q1 = 0,295 Máx: Q3+1,5d=0,74 Mín: Q1- 1,5d = -0,44

[Zn] para peixe médio Q1(25%)=20,31 Q2(50%)=21,1 Q3(75%)=22,57 d = Q3-Q1 = 2,26 Máx: Q3+1,5d= 25,96 Mín: Q1- 1,5d = 16,92

[Zn] para peixe grande Q1(25%)=14,61 Q2(50%)=16,91 Q3(75%)=20,08 d = Q3-Q1 = 5,47 Máx: Q3+1,5d=28,28 Mín:Q1-1,5d=6,41

[Cd] para peixe médio Q1(25%)=0,69 Q2(50%)=1,07 Q3(75%)=1,36 d = Q3-Q1 = 0,67 Máx: Q3+1,5d= 2,37 Mín: Q1- 1,5d = -0,32

[Cd] para peixe grande Q1(25%)=0,48 Q2(50%)=0,66 Q3(75%)=0,82 d = Q3-Q1 = 0,34 Máx: Q3+1,5d=1,33 Mín: Q1- 1,5d = -0,03

Page 80: Módulo I – Unidade 1: Definição Estatística

86

6.

Regressão Linear

1. rxy = 0,866 ; to = 2,999648 ; CD = R2 = 74,9956%

Equação da reta : Yi = 0,08947Xi + 0,01186.

2. rxy = 0,717 ; to = 1,781564 ; CD = R2 = 51,4089%

Equação da reta : Yi = 0,5579Xi + 0,08242.

3. rxy = 1 ; to = 0 ; CD = R2 = 100%

Equação da reta : Yi = 1,171Xi - 0,6626.

4. rxy = - 0,551 ; to = - 1,32054 ; CD = R2 = 30,3601%

Equação da reta : Yi = - 0,08714Xi + 86,98.

5. rxy = 0,907 ; to = 4,307452 ; CD = R2 = 82,2649%

Equação da reta : Yi = 0,06151Xi - 0,03395.

6. rxy = 0,962; to = 4,982517 ; CD = R2 = 92,5444%

Equação da reta : Yi = 0,04139Xi – 78,24.

Comprimento Largura Espessura

Média 2,48 1,95 1,15

D. P. 0,31 0,23 0,19

CV 12,5 11,8 16,52

Mínimo 2,1 1,6 0,9

Q1 2,2 1,9 1,1

Q2 2,5 1,95 1,1

Q3 2,7 2,2 1,2

Máximo 2,9 2,2 1,5

d 0,5 0,3 0,1

Page 81: Módulo I – Unidade 1: Definição Estatística

87

Exercício Cluster

1.

a) Cálculo das distâncias

d 1,2= 1,24

d 1,3= 3,44

d 1,4= 7,40

d 1,5= 8,76

d 2,3= 3,13

d 2,4= 6,40

d 2,5=7,83

d 3,4=6,95

d 3,5=8,37

d 4,5=1,69

b) Cálculo da Conexão Simples

13,332,1d

40,642,1d

83,752,1d

36,8, 35,4d

Distância Máxima

40,6, 5,42,1d

Similaridade

Grupo 1,2= 80%

Grupo 4,5 = 73%

Grupo 1,2 4,5 = 0%

Page 82: Módulo I – Unidade 1: Definição Estatística

88

2.

a) Cálculo das distâncias

d 1,2= 4,98

d 1,3=13,60

d 1,4= 5,19

d 1,5= 9,11

d 2,3= 8,30

d 2,4= 12,44

d 2,5=11,87

d 3,4=17,08

d 3,5= 16,12

d 4,5= 12,24

b) Cálculo da Conexão Simples

60,1313,2d

08,1743,2d

10,1653,2d

11,9, 51,4d

Distância Máxima

60,13, 1,43,2d

Fórmula da similaridade:

Grupo 2,3= 39%

Grupo 4,1 =62

Grupo 2,3 4,1 = 0%

Page 83: Módulo I – Unidade 1: Definição Estatística

89

BIBLIOGRAFIA

1. Estatística Aplicada. São Paulo: Editora Saraiva, 2003. DOUGLAS

DOWNING & JEFFREY CLARK.

2. Estatística Aplicada. Porto Alegre: Bookman, 2000. JOHN E. FREUND &

GARY A. SIMON.

3. Introdução Ilustrada à Estatística. São Paulo: Editora Harbra, 1998.

SÉRGIO FRANCISCO COSTA.

4. ALDRIGUE, M. L. Caracterização física, química e físico-química do cajá

(Spondias lutea L.). In: SEMINÁRIO AGROPECUÁRIO DO ACRE, 2.,

1986, Rio Branco. Anais. Brasília: Embrapa-UEPAE de Rio Branco,

1988.p. 323-327.

5. BOSCO, J.; SOARES, K. T.; AGUIAR FILHO, S. P. de; BARROS, R. V.

A cultura da cajazeira. João Pessoa: Emepa, 2000. 229 p. (Documentos,

28).

6. Li, W; Cheng-Hui, ZH; Wei, L; Guang-Quin, G. Relationship between

tissue culture and agronomic traits of spring wheat. Plant Science. v.164,

1079-1085p., 2003.