aulasestatmeddisper

Upload: denilson-brandao

Post on 12-Apr-2018

219 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/21/2019 aulasEstatMedDisper

    1/10

    Estatstica - exEstatMedDisper.doc 25/02/09

    Medidas de Disperso

    Introduo

    So medidas estatsticas utilizadas para avaliar o grau de variabilidade, oudisperso, dos valores em torno da mdia. Servem para medir arepresentatividade da mdia.

    r 1 / 10

    disperso

    x xi

    Sejam as sries : a) 20, 20, 20 b) 15, 10, 20, 25, 30

    Nos dois casos acima temos as seguintes mdias:

    20=xa 20=xb

    Observe que, apesar das sries terem mdias iguais, a srie a noapresenta disperso em torno da mdia igual a 20, enquanto os valores dasrie bapresentam disperso em torno da mesma mdia.

    Amplitude total

    uma medida de disperso dada pela diferena entre o maior e o menorvalor da srie.

    mnmxR xx =

    Exemplo 1: Calcule a amplitude total da srie: 10, 12, 20, 22, 25, 33, 38.

    Soluo:

    281038 ==R

    E Neme

  • 7/21/2019 aulasEstatMedDisper

    2/10

    Estatstica - exEstatMedDisper.doc 25/02/09

    A utilizao da amplitude total como medida de disperso limitada,pois, sendo uma medida que depende apenas dos valores externos,no capta possveis variaes entre esses limites.

    Varincia amostral Como se deseja medir a disperso dos dados em relao mdia,

    interessante analisar os desvios de cada valor (x i) em relao mdia, isto:

    xxd ii =

    Se os diforem baixos, teremos pouca disperso, ao contrrio, se os desviosforem altos, teremos elevada disperso.

    Pode-se verificar que a soma dos desvios em torno da mdia zero, ouseja:

    0= id

    Logo, no clculo da varincia consideram-se os quadrados dos desvios: di2.

    A varincia, S2, de uma amostra de n medidas igual soma dosquadrados dos desvios: di

    2, dividida por (n-1), assim:

    (11

    22

    2

    =

    =

    n

    i

    n

    xxdS

    i

    Para dados agrupados, tem-se que:

    ( )11

    22

    2

    =

    =

    n

    i

    n

    FxxFdS

    iii

    Desenvolvendo-se o quadrado das diferenas:

    E somando-se os termos comuns, encontram-se as seguintes frmulasprticas para o clculo da varincia amostral:

    (2

    xxi

    E Nemer 2 / 10

  • 7/21/2019 aulasEstatMedDisper

    3/10

    Estatstica - exEstatMedDisper.doc 25/02/09

    ou

    Quanto maior o valor de S

    2

    , maior a disperso dos dados amostrais.

    ( )

    =

    n

    i

    n

    FxFxS

    i

    ii

    2

    22

    1

    1

    =

    n

    i

    n

    xxS i

    2

    22

    1

    1

    Exemplo 2: Calcular a varincia para as medidas amostrais: 3, 7, 2, 1, 8.

    Soluo:

    Vamos determinar S2 pela frmula bsica. Para tanto, interessante aconstruo da seguinte tabela:

    r 3 / 10

    xi3 (3 4,2)=-1,2 1,447 2,8 7,842 -2,2 4,841 -3,2 10,248 3,8 14,44

    = 21 0 38,80

    di2

    = (xi x

    2

    di= (xi x) )

    Observe que a soma dos desvios

    em torno da mdia zero.A mdia amostral ser:

    2,45

    21===

    nx xi

    Logo, a varincia amostral ser:

    ( ( )7,9

    5

    21127

    4

    1

    1

    12

    2

    22=

    =

    =

    n

    i

    n

    xxS i

    Desvio padro amostral

    Como visto anteriormente, o clculo da varincia obtido pela soma dosquadrados dos desvios em relao mdia. Assim que, se a varivel sobanlise for medida em metros, a varincia dever ser expressa em m2(metros ao quadrado). Ou seja, a varincia expressa pelo quadrado da

    E Neme

  • 7/21/2019 aulasEstatMedDisper

    4/10

    Estatstica - exEstatMedDisper.doc 25/02/09

    unidade de medida da varivel que est sendo estudada. Para melhorinterpretar a disperso de uma varivel, calcula-se a raiz quadrada davarincia, obtendo-se o desvio padro que ser expresso na unidade damedida original. Assim:

    2

    SS=

    O desvio padro das cinco medidas do Exemplo 2 dado por:

    1,37,92 === SS

    Interpretao do desvio padro amostral

    Vamos estudar aqui duas regras para interpretao do desvio padro:

    1. Regra emprica

    Para qualquer distribuio amostral com mdia e desvio padro, tem-seque:

    i. Intervalo:O intervalo acima deve conter entre 60% e 80% de todas asobservaes amostrais para uma distribuio simtrica. Caso a

    distribuio seja aproximadamente simtrica, esta porcentagemaproxima-se de 70%. Caso a distribuio seja fortemente assimtrica,essa porcentagem aproxima-se de 100%.

    x S

    ii. Intervalo:O intervalo acima deve conter aproximadamente 95% dasobservaes amostrais para distribuies simtricas eaproximadamente 100% para distribuies com assimetria elevada.

    x 2S

    iii. Intervalo:O intervalo acima contm aproximadamente 100% das observaes

    amostrais.

    x 3S

    E Nemer 4 / 10

  • 7/21/2019 aulasEstatMedDisper

    5/10

    Estatstica - exEstatMedDisper.doc 25/02/09

    2. Teorema de Tchebycheff

    Para qualquer distribuio amostral com mdia e desvio padro, tem-seque:

    i. Intervalo:O intervalo acima contm, no mnimo, 75% de todas as observaesamostrais.

    x 2S

    ii. Intervalo:O intervalo acima contm, no mnimo, 89% de todas as observaesamostrais.

    x 3S

    Exemplo 3: Calcular a varincia e o desvio padro da seguinte distribuioamostral:

    xi 5 7 8 9 11Fi 2 3 5 4 2

    Soluo:

    Vamos construir a tabela abaixo para facilitar o nosso trabalho.

    xi Fi xiFi xi2Fi

    5 2 10 50

    7 3 21 1478 5 40 3209 4 36 324

    11 2 22 242 16 129 1083

    r 5 / 10

    ( ( )86,2

    16

    1291083

    116

    1

    1

    12

    2

    22=

    =

    =

    n

    i

    n

    FxFxS

    i

    ii

    Logo, a varincia amostral 2,86.

    E o desvio padro amostral dado por:

    69,186,22 === SS

    E Neme

  • 7/21/2019 aulasEstatMedDisper

    6/10

    Estatstica - exEstatMedDisper.doc 25/02/09

    Exemplo 4: Com os dados do nosso exemplo com idades de 50funcionrios, vamos determinar a varincia, o desvio padro e interpretar odesvio padro obtido, de acordo com as regras vistas.

    18 20 20 21 22 24 25 25 26 2729 29 30 30 31 31 32 33 34 3536 36 37 37 37 37 38 38 38 4041 43 44 44 45 45 45 46 47 4849 50 51 53 54 54 56 58 62 65

    Soluo: Com base nos dados, obtivemos a seguinte tabela dedistribuio de freqncias:

    Xi2Fi

    r 6 / 10

    Classes Intervalos das classes Fi Xi XiFi1 18 |----- 25 6 21,5 129 2773,502 25 |----- 32 10 28,5 285 8122,503 32 |----- 39 13 35,5 461,50 16383,504 39 |----- 46 8 42,5 340 14450,005 46 |----- 53 6 49,5 297 14701,506 53 |----- 60 5 56,5 292,50 15961,257 60 |----- 67 2 63,5 127 8064,50

    50 1922 80456,50Somas

    A mdia amostral ser igual a:

    44,3850

    19221 ====

    n

    ix

    n

    ii

    Fx

    A varincia amostral ser:

    ( ) ( )18,134

    50

    192250,80456

    49

    1

    1

    12

    2

    22=

    =

    =n

    i

    n

    FxFxS

    i

    ii

    anosSS 58,1118,1342 ===E o desvio padro ser:

    Para verificarmos as regras para interpretao do desvio padro,precisamos executar os seguintes clculos:

    )02,50;86,26(58,1144,38 == Sx E Neme

  • 7/21/2019 aulasEstatMedDisper

    7/10

    Estatstica - exEstatMedDisper.doc 25/02/09

    Com auxlio da tabela de idades, conclumos que entre 27 e 50 anostemos 33 elementos, logo: (33/50) 100 = 66% das observaes. Isto :o intervalo compreendido entre a mdia menos um desvio padro e amdia mais um desvio padro contm, nesse exemplo, 66% das 50idades.

    A regra emprica indica que o referido intervalo dever conter de 60%a 80% das observaes.

    )60,61;28,15()58,11(244,382 == Sx

    Com auxlio da tabela de idades, conclumos que entre 16 e 62 anostemos 49 elementos, logo: (49/50) 100 = 98% das observaes. Isto :o intervalo compreendido entre a mdia menos duas vezes o desviopadro e a mdia mais duas vezes o desvio padro contm, nesse

    exemplo, 98% das 50 idades.A regra emprica indica que o referido intervalo dever conteraproximadamente 100% das observaes para distribuies comassimetria elevada.

    Portanto, a distribuio com que estamos trabalhando acentuadamente assimtrica.

    Observe que o resultado de 98% tambm confirma o critrio deTchebycheff que define no mnimo 75% de observaes para ointervalo de .2Sx

    Coefic iente de variao de Pearson

    Trata-se de uma medida relativa de disperso. Enquanto a amplitude total(R), varincia (S2) e o desvio padro (S) so medidas absolutas dedisperso, o coeficiente de variao (C.V.) mede a disperso relativa.Assim:

    Onde: S = desvio padro amostral

    = mdia amostral

    100.. =

    x

    SVC

    x

    E Nemer 7 / 10

  • 7/21/2019 aulasEstatMedDisper

    8/10

    Estatstica - exEstatMedDisper.doc 25/02/09

    Abaixo, temos algumas regras empricas para interpretaes do coeficientede variao:

    Se: C.V. < 15% tem-se baixa disperso

    Se: 15% < C.V. < 30% tem-se mdia dispersoSe: C.V. < 15% tem-se elevada disperso

    Exemplo 5: Em uma empresa, o salrio mdio dos homens de $ 4.000,com desvio padro de $ 1.500 , e o salrio mdio das mulheres de $3.000, com desvio padro de $ 1.200. A disperso relativa dos salrios maior para os homens?

    Soluo: Dos dados dos problemas, temos:

    Homens: = 4.000 SH= 1.500xH

    Mulheres: = 3.000 SM= 1.200xM

    %5,37100100..4000

    1500 ===x

    SVCPara os homens:

    %40100100..3000

    1200 ===x

    SVCPara as mulheres:

    Portanto, os salrios das mulheres tm disperso relativa maior do que ossalrios dos homens. As duas distribuies apresentam elevada disperso(C.V. 30%).

    Escore padronizado

    Outra medida relativa de disperso o escore padronizado para umamedida xi. dado por:

    S

    xxZ

    i

    i

    =

    Onde: S = desvio padro amostral

    x = mdia amostral

    E Nemer 8 / 10

  • 7/21/2019 aulasEstatMedDisper

    9/10

    Estatstica - exEstatMedDisper.doc 25/02/09

    Um escore Zi negativo indica que a observao x i est a esquerda damdia, enquanto um escore positivo indica que a observao est a direitada mdia.

    Exemplo 6: So dadas as mdias e os desvios padres das avaliaes deduas disciplinas:

    Portugus: = 6,5 SP= 1,2xP

    Matemtica: = 5,0 SM= 0,9xM

    Relativamente s disciplinas Portugus e Matemtica, em qual delas obteve

    melhor performance um aluno com 7,5 em Portugus e 6,0 emMatemtica?

    Soluo: Vamos determinar os escores padronizados para as notasobtidas:

    83,02,1

    5,65,7 == ZP Nota de Portugus:

    11,19,0

    0,50,6 ==

    ZMNota de Matemtica:

    Portanto, o melhor desempenho relativo deu-se na disciplina Matemtica,pois Zm> Zp. Observe que, em termos absolutos, o aluno conseguiu melhornota em Portugus.

    E Nemer 9 / 10

  • 7/21/2019 aulasEstatMedDisper

    10/10

    Estatstica - exEstatMedDisper.doc 25/02/09

    E Nemer 10 / 10

    Detectando outliers

    Nos trabalhos de coleta de dados, podem ocorrer observaes que fogemdas dimenses esperadas os outliers. Para detect-los, pode-se calcularo escore padronizado (Zi) e considerar outliers as observaes cujos

    escores, em valor absoluto (em mdulo), sejam maiores do que 3.

    Exemplo 7: Os dados de uma pesquisa revelam mdia 0,243 e desviopadro 0,052 para determinada varivel. Verificar se os dados 0,380 e0,450 podem ser considerados observaes da referida varivel.

    Soluo: Tem-se que: SP= 0,052= 0,243x

    63,2052,0

    243,0380,0 == Zi Para xi= 0,380:

    08,4052,0

    243,0455,0 == Zi Para xi= 0,455:

    Portanto, o dado 0,380 pode ser considerado normal, por outro lado, 0,455pode ser um outliers, portanto descartvel.