medidas de dispersão ou variabilidade a média - ainda que ... · medidas de dispersão ou...

54
Medidas de Dispersão ou variabilidade A média - ainda que considerada como um número que tem a faculdade de representar uma série de valores - não pode, por si mesma, destacar o grau de homogeneidade ou heterogeneidade que existe entre os valores que compõem o conjunto.

Upload: hoangthu

Post on 09-Nov-2018

225 views

Category:

Documents


0 download

TRANSCRIPT

Medidas de Dispersão ou variabilidade

A média - ainda que considerada como

um número que tem a faculdade de

representar uma série de valores - não

pode, por si mesma, destacar o grau de

homogeneidade ou heterogeneidade

que existe entre os valores que

compõem o conjunto.

• Dispersão ou Variabilidade:

É a maior ou menor diversificação dos valores de uma variável em torno de um valor de tendência central ( média ou mediana ) tomado como ponto de comparação.

Consideremos os seguintes conjuntos de valores das variáveis:

X = { 170, 170, 170, 170, 170 }

Y = { 168, 169, 170 ,171 ,172 }

Z = { 105, 115, 150, 220, 260 }

Observamos então que os três conjuntos apresentam a mesma média aritmética = 850/5 = 170.

Entretanto, é fácil notar que o conjunto X é mais homogêneo que os conjuntos Y e Z, já que todos os valores são iguais à média. O conjunto Y, por sua vez, é mais homogêneo que o conjunto Z, pois há menor diversificação entre cada um de seus valores e a média representativa.

Concluímos então que o conjunto X apresenta dispersão nula e que o conjunto Y apresenta uma dispersão menor que o conjunto Z.

MEDIDAS DE DISPERSÃO ABSOLUTA

Amplitude total (At) : É a única medida de dispersão que não tem na média o ponto de

referência. Quando os dados não estão agrupados a amplitude total é a diferença entre o maior e o menor valor observado:

At = x máximo - x mínimo.

Exemplo: Para os valores 80, 85, 88, 102 e 110 a amplitude total será: At = 110 - 80 = 30

Com intervalos de classe a amplitude total é a diferença entre o limite superior da última classe e o limite inferior da primeira classe. Então At = L máximo - L mínimo.

Exemplo: Classes fi

4 |--- 6 6

6 |--- 8 2

8 |--- 10 3

At = 10 - 4 = 6

Variância da população e variância da amostra:

Em estatística, o conceito de variância também pode ser usado para descrever homogeneidade de um conjunto de observações. Quando o conjunto das observações é uma população, é chamada de variância populacional. Se o conjunto das observações é (apenas) uma amostra estatística, chamamos-lhe de variância amostral (variância da amostra).

𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 𝑝𝑜𝑝𝑢𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙:

𝜎2 = (𝑥 − 𝜇)2𝑛1

𝑛

𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 𝐴𝑚𝑜𝑠𝑡𝑟𝑎𝑙 ∶

𝑠2 = (𝑥 − 𝜇)2𝑛1

𝑛 − 1

𝑀é𝑡𝑜𝑑𝑜 𝑏𝑟𝑒𝑣𝑒 𝑝𝑎𝑟𝑎 𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 𝑝𝑜𝑝𝑢𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙:

𝜎2 = (𝑥2)𝑛1

𝑛 − 𝜇2

Mé𝑡𝑜𝑑𝑜 𝑏𝑟𝑒𝑣𝑒 𝑝𝑎𝑟𝑎 𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 𝐴𝑚𝑜𝑠𝑡𝑟𝑎𝑙 ∶

𝑠2= 𝑛

𝑛−1

𝑥2

𝑛− 𝜇2

𝑑𝑒𝑠𝑣𝑖𝑜 𝑝𝑎𝑑𝑟ã𝑜 𝑝𝑜𝑝𝑢𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙:

𝜎 = 𝜎2

𝑑𝑒𝑠𝑣𝑖𝑜 𝑝𝑎𝑑𝑟ã𝑜 𝑎𝑚𝑜𝑠𝑡𝑟𝑎𝑙:

𝑠 = 𝑠2

Propriedades da variância e do desvio padrão:

1- somando-se ou subtraindo-se um mesmo valor a todos os termos de uma sequência numérica o desvio padrão e a variância não se alteram.

2- multiplicando-se ou dividindo-se um mesmo valor a todos os termos da sequencia numérica o desvio padrão se altera da mesma forma.

3- multiplicando-se ou dividindo-se um mesmo valor a todos os termos da sequencia numérica a variância se altera do quadrado do valor da mesma forma.

Exemplo:

O desvio padrão do seguinte conjunto de dados: 2 – 4 – 5 – 6 – 8 é superior a 5.

Solução: 2 – 4 – 5 – 6 – 8

Em primeiro lugar vamos calcular os quadrados de todos os valores da sequencia:

X2: 4 – 16 – 25 – 36 – 64 -> média = 145/5 = 29

Depois calcular a media dos valores e elevar ao quadrado:

𝜇2 = (2+4+5+6+8

5)2 = 52=25

𝜎2 = 29 − 25 = 4

𝜎 = 4 =2

Logo o item esta ERRADO

Exemplo:

Um grupo e formado por 10 pessoas, cujas idades são: 18 19 19 20 20 20 21 22 23 24

A variância populacional é 3,24.

Solução: Quando os valores das variáveis são altos usamos a propriedade da subtração:

Ache a mediana( 18 19 19 20 20 20 21 22 23 24 ) = 20, assim subtraímos esse valor de todos os termos gerando uma nova sequencia:

NOVA SEQUENCIA = -2,-1,-1,0,0,0,1,2,3,4

MEDIA X2 = ( 4+1+1+0+0+0+1+4+9+16) / 10 = 3,6

𝜇2 = [(-2-1-1+0+0+0+1+2+3+4 ) / 10]2 = 0,36

VAR = 3,6 – 0,36 = 3,24

logo o item está correto

Exemplo:

Em uma pesquisa de preços de determinado produto, foram obtidos os valores, em reais, de uma amostra aleatória colhida em 6 estabelecimentos que o comercializam.

A variância dessa amostra e

(A) 1,50 (B) 1,75 (C) 2,00 (D) 2,25 (E) 2,50

Solução:

• ROL DA SEQUENCIA : 4 , 5 , 6 , 6 , 7 , 8

• MEDIANA DA SEQUENCIA = 6

• NOVA SEQUENCIA = -2,-1,0,0,1,2

• MEDIA QUADRATICA = ( 4+1+0+0+1+4) / 6 = 10/6

• MEDIA2 = [(-2-1+0+0+1+2 ) / 6]2 = 0

• VAR = 10/6 – 0 = 10/6

• VARIANCIA AMOSTRAL = (6 / 6 – 1) X10/6 = 10/5 = 2

Amplitude Interquartil

A mediana e a amplitude inter-quartis

Uma outra forma de sumarizar dados é em termos dos quartis. Essas medidas são particularmente úteis para dados não simétricos. A mediana (ou quartil 2) é definida como o valor que divide os dados ordenados ao meio, i.e. metade dos dados têm valores maiores do que a mediana, a outra metade tem valores menores do que a mediana.

Adicionalmente, os quartis inferior e superior, Q1 e Q3, são definidos como os valores abaixo dos quais estão um quarto e três quartos, respectivamente, dos dados. Estes três valores são frequentemente usados para resumir os dados juntamente com o mínimo e o máximo.

A medidade de dispersão é a amplitude inter-quartis:

Dj = Q3 - Q1,

i.e. é a diferença entre o quartil superior e o inferior.

Exemplo:

Os quartis de uma distribuição são Q1 = 4, Q2 = 6 e Q3 = 10. Essa distribuição:

(A) é simétrica.

(B) é assimétrica à direita.

(C) é assimétrica à esquerda.

(D) tem moda maior que a média

(E) tem moda igual á média

Solução:

Se observarmos a distancia Q2 – Q1 = 6 – 4 = 2,

Já se compararmos a Q3 – Q2 = 10 – 6 = 4

Podemos perceber que a segunda é maior que a primeira. Sendo assim os 25% dos termos que ficam no fim estao mais dispersos do que os 25% do inicio. Entao podemos concluir :

Gabarito letra B

MEDIDA DE DISPERSÃO RELATIVA

• Notação: CV = coeficiente de variação de Pearson ou apenas coeficiente de variação.

O fato de o desvio padrão ser expresso na mesma unidade dos dados limita o seu

emprego quando desejamos comparar duas ou mais séries de valores, relativamente à sua

dispersão ou variabilidade, quando expressas em unidades diferentes.

Assim, um desvio padrão de 2 unidades pode ser considerado pequeno para uma série de valores cujo valor médio é 200; no entanto, se a média for igual a 20, o mesmo não pode ser dito.

Para contornar essas dificuldades e limitações, podemos caracterizar a dispersão ou variabilidade dos dados em termos relativos a seu valor médio, medida essa denominada de CV: Coeficiente de Variação de Pearson (é a razão entre o desvio padrão e a média referentes a dados de uma mesma série).

𝐶𝑉 =𝑆

𝑋

Exemplo: Tomemos os resultados das estaturas e dos pesos de um mesmo grupo de indivíduos:

Discriminação M É D I A DESVIO PADRÃO

ESTATURAS 175 cm 5,0 cm

PESOS 68 kg 2,0 kg

Das medidas (Estatura ou Peso) a que possui maior homogeneidade é o peso.

Solução: Teremos que calcular o CV da Estatura e o CV do Peso. O resultado menor será o de maior homogeneidade (menor dispersão ou variabilidade).

CVestatura = ( 5 / 175 ) x 100 = 2,85 %

CVpeso = ( 2 / 68 ) x 100 = 2,94 %.

Logo, nesse grupo de indivíduos, as estaturas apresentam menor grau de dispersão que os

pesos.

Logo podemos concluir que o item esta ERRADO.

Distribuição Normal

• “Em forma de Sino” • Unimodal

• Simétrica

• Média, mediana e moda são iguais

• Assintótica em relação

ao Eixo X

• Amplitude Interquartil

• é 1,33 s ou [Q3-Q1] = 4/3 s

Média,

Mediana

Moda

X

f(X)

50%

Q1 Q3

• X: valores da variável aleatória

• F(X):função densidade probabilidade da variável aleatória X

: média da população

s: desvio padrão da população

Modelo Matemático

2

22

1-

2

2

1 s

s

X

eXf

Z .00 .01

.5000 .5040 .5080

.5398 .5438

.5793 .5832 .5871

.6179 .6217 .6255

0,5478

.02

.5478

Probabilidades

Uma única Tabela basta!

Z = 0,12

0

Distribuição Normal Padronizada

Tabela (Parte)

Z .00 .01

0.0 .5000 .5040 .5080

.5398 .5438

0.2 .5793 .5832 .5871

0.3 .6179 .6217 .6255

0,5478

.02

0.1 .5478

Probabilidades

Uma única Tabela basta!

Z = 0,12

0

É essa a solução

0 1Z Z s

Valor da V. A. Normal Z Padronizada:

• x = valor da V. A. Normal X

• s = desvio padrão da V. A. Normal X

• = média da V. A. Normal X

• z = valor padronizado de x (número de desvios padrão com relação à média)

s

xz

Para os exemplos a seguir usaremos:

X é uma variável aleatória

𝜇 → Média = 5

𝜎 → 𝑑𝑒𝑠𝑣𝑖𝑜 𝑝𝑎𝑑𝑟𝑎𝑜 = 10

+∞ < 𝑋 < −∞

Exemplo: padronizar 6.2 6.2 5

0.1210

XZ

s

X: Distribuição Normal Z: Distribuição Normal Padronizada

10s 1Zs

5 6.2 X Z

0Z 0.12

cálculo da área entre dois números

2.9 7.1 .1664P X

2.9 5 7.1 5.21 .21

10 10

X XZ Z

s s

X: Distribuição Normal Z: Distribuição Normal Padronizada

10s 1Zs

7.1 X Z0Z

0.212.9 0.21

.0832

.0832

Inverso: obter “z”, conhecido “p = 0,5832”

Z .00 .01

0.0 .5000 .5040 .5080

.5398 .5438

0.2 .5793 .5832 .5871

0.3 .6179 .6217 .6255

0,5832 .02

0.1 .5478

Z = 0,21

0

Recuperando X para Probabilidades

Conhecidas

5 .30 10 8X Z s

Distribuição Normal Distribuição Normal Padronizada

10s 1Zs

5 ? X Z0Z

0.30

.3821

.1179

RESUMO FINAL

Área Total = 1

probabilidade = Área sob

a curva Normal

média = mediana

Padronização

s

xz

TESTE DE HIPÓTESES

• É uma regra de decisão utilizada para aceitar ou rejeitar uma hipótese estatística com base em elementos amostrais.

• Hipóteses: Teremos sempre duas hipóteses, H0 (Agá-zero), que é a hipótese nula ou hipótese probanda e H1 ou HA (hipótese alternativa).

• A hipótese nula é sempre a hipótese a ser examinada. Se a aceitarmos, implicitamente estaremos rejeitando H1 e se rejeitarmos H0, então não podemos rejeitar H1, devendo esta ser aceita.

Tipos de erro:

• Dois tipos de erro podem ser cometidos num Teste de Hipóteses:

• Erro Tipo I (α) -> A hipótese nula é verdadeira e o pesquisador a rejeita.

• Erro Tipo II (β)-> A hipótese nula é falsa e o pesquisador a aceita.

TIPOS DE TESTE DE HIPÓTESES PARA A

MÉDIA: 1) Bicaudal ou Bilateral

H0: μ = μ0

H1: μ ≠ μ0;Onde: μ é a média populacional e μ0 é o valor suposto para a média populacional.

2) Teste Unicaudal ou Unilateral à direita

H0: μ ≤ μ0

H1: μ > μ0

• 3) Teste Unicaudal ou Unilateral à esquerda

• H0: μ ≥ μ0

• H1: μ < μ0

Repare que na hipótese nula sempre temos uma igualdade (=, ≤ ou ≥) e na hipótese alternativa uma desigualdade (≠, > ou <).

Se n > 30 ou σ for conhecido, usamos distribuição Normal;

Se n ≤ 30 e σ for desconhecido, usamos distribuição t-Student;

Outro detalhe importante é que a tabela da distribuição t-Student é bi-paramétrica.

𝑇𝐴𝐵𝐸𝐿𝐴 𝑇 − 𝑆𝑇𝑈𝐷𝐸𝑁𝑇

Onde :

𝜑 = 𝑛 − 1

𝛼 = 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑛𝑐𝑖𝑎

Para procedermos ao teste, além de conhecer o valor tabelado (ZTAB se usarmos Distribuição Normal ou tTAB se usarmos Distribuição t-Student), temos que encontrar o valor calculado (ZCALC ou tCALC), dado por:

Exemplo 1 :

Uma amostra de 36 elementos de uma variável X normalmente distribuída forneceu: X = 42,3 e S = 5,2. Testar, no nível de significância 0,05, a hipótese de que μ > 40.

Resolução: Seguindo o roteiro, temos:

1º passo:

H0: μ = 40;

H1: μ > 40 (teste unilateral à direita);

2º passo: a amostra é grande (n > 30). Logo, usaremos a Tabela Normal;

3º passo: o teste é unilateral, com α = 0,05. Logo, para uma área de 0,45, teremos ZTAB=1,64;

4º passo: desenhar a curva, plotando ZTAB;

5º passo: calcular a estatística teste.

Zcalc = 𝑋−𝜇𝑆

𝑛

=42,3−40

5,2

36

= 2,65.

6º passo: ZCALC > ZTAB. Conclusão: ao nível de significância de 5%, REJEITO H0: μ = 40. Logo, μ > 40.

EXEMPLO 2:

Uma amostra de 20 elementos de uma variável X normalmente distribuída forneceu: X = 53,4 e S = 7,5. Testar, no nível de significância 0,05, a hipótese de que μ = 50.

solução:

Hipóteses:

H0: μ = 50;

H1: μ ≠ 50 (teste bilateral);

A amostra é pequena (n ≤ 30) e σ (desvio padrão populacional) é desconhecido. Logo, a distribuição a ser utilizada é a t-Student, com n = 20 ⇒ ϕ = 19 e α = 0,05. Consultando a tabela, encontraremos

tTab= 0930,2.

Como: −tTAB < tCALC < tTAB, ao nível de significância de 5% ACEITO H0: μ = 50.