estatistica descritiva texto

28
Estatística Descritiva O objectivo da Estatística Descritiva é o de representar de uma forma concisa, sintética e compreensível, a informação contida num conjunto de dados. Esta tarefa, que adquire grande importância quando o volume de dados for grande, concretiza-se na elaboração de tabelas e de gráficos, e no cálculo de medidas ou indicadores que representam convenientemente a informação contida nos dados. Exemplo: Uma exploração pecuária tem os registos de produção diária de uma manada de várias vacas, ao longo de diversas épocas de lactação. Na situação mais simples, em que existe apenas 1 vaca durante uma época de lactação, existem pelo menos 300 registos de produção diária. Este conjunto de dados aumenta extraordinariamente com o número de vacas e os anos de registos. O técnico pouca informação útil consegue retirar, no sentido de ficar a conhecer o comportamento da produção diária de leite, pela leitura da listagem completa de todos os dados. Provavelmente, o resumo dessa listagem de valores, em forma de tabelas, gráficos e pelo cálculo de alguns indicadores ou parâmetros estatísticos, consegue transmitir maior quantidade da informação contida nesse conjunto de dados. O conjunto de dados, por maior que seja, raramente corresponde à totalidade da população de indivíduos em análise, mas será apenas uma amostra dessa população. Os dados em análise são os registos de observações de características em indivíduos (ou elementos) sobre os quais recai a análise. Os dados podem ser de natureza qualitativa, se expressam características medidas ou avaliadas numa escala nominal (os dados são classificados por categorias não ordenadas) ou numa escala ordinal (os dados são classificados por categorias ordenadas); ou podem ser de natureza quantitativa, quando são expressos numa escala numérica absoluta (que pode ser de natureza discreta ou contínua), ou então numa escala numérica intervalar (escala cuja origem é arbitrária). Cada uma das características constitui uma variável aleatória (da natureza dos dados que contém). As análises de dados podem referir-se a uma única variável – estatística univariada – ou a diversas variáveis, incluindo a análise de relações entre essas variáveis – estatística multivariada. Designa-se por população (ou universo) o conjunto de dados que expressam a característica em causa para todos os indivíduos, elementos ou objectos sobre os quais a análise incide. A maior parte das populações têm um tamanho infinito, ou o tamanho, embora finito, é de tal modo grande que na prática se considera como infinito, de modo que é virtual e praticamente impossível analisar todos os indivíduos de uma população. De um modo geral, os estudos incidem sobre um ou mais subconjuntos de dados (isto é, amostras) retirados da população. Geralmente o tamanho (isto é, o número de elementos) da amostra é muito reduzido, comparativamente ao tamanho da população de onde se retira a amostra. As principais razões para que as análises estatísticas sejam efectuadas sobre amostras, e não sobre todos os indivíduos da população são: IPCB SHT - 2004 1

Upload: tiago-caetano

Post on 06-Jun-2015

5.494 views

Category:

Documents


7 download

TRANSCRIPT

Page 1: estatistica descritiva texto

Estatística Descritiva

O objectivo da Estatística Descritiva é o de representar de uma forma concisa, sintética e compreensível, a informação contida num conjunto de dados. Esta tarefa, que adquire grande importância quando o volume de dados for grande, concretiza-se na elaboração de tabelas e de gráficos, e no cálculo de medidas ou indicadores que representam convenientemente a informação contida nos dados. Exemplo: Uma exploração pecuária tem os registos de produção diária de uma manada de várias vacas, ao longo de diversas épocas de lactação. Na situação mais simples, em que existe apenas 1 vaca durante uma época de lactação, existem pelo menos 300 registos de produção diária. Este conjunto de dados aumenta extraordinariamente com o número de vacas e os anos de registos. O técnico pouca informação útil consegue retirar, no sentido de ficar a conhecer o comportamento da produção diária de leite, pela leitura da listagem completa de todos os dados. Provavelmente, o resumo dessa listagem de valores, em forma de tabelas, gráficos e pelo cálculo de alguns indicadores ou parâmetros estatísticos, consegue transmitir maior quantidade da informação contida nesse conjunto de dados. O conjunto de dados, por maior que seja, raramente corresponde à totalidade da população de indivíduos em análise, mas será apenas uma amostra dessa população. Os dados em análise são os registos de observações de características em indivíduos (ou elementos) sobre os quais recai a análise. Os dados podem ser de natureza qualitativa, se expressam características medidas ou avaliadas numa escala nominal (os dados são classificados por categorias não ordenadas) ou numa escala ordinal (os dados são classificados por categorias ordenadas); ou podem ser de natureza quantitativa, quando são expressos numa escala numérica absoluta (que pode ser de natureza discreta ou contínua), ou então numa escala numérica intervalar (escala cuja origem é arbitrária). Cada uma das características constitui uma variável aleatória (da natureza dos dados que contém). As análises de dados podem referir-se a uma única variável – estatística univariada – ou a diversas variáveis, incluindo a análise de relações entre essas variáveis – estatística multivariada. Designa-se por população (ou universo) o conjunto de dados que expressam a característica em causa para todos os indivíduos, elementos ou objectos sobre os quais a análise incide. A maior parte das populações têm um tamanho infinito, ou o tamanho, embora finito, é de tal modo grande que na prática se considera como infinito, de modo que é virtual e praticamente impossível analisar todos os indivíduos de uma população. De um modo geral, os estudos incidem sobre um ou mais subconjuntos de dados (isto é, amostras) retirados da população. Geralmente o tamanho (isto é, o número de elementos) da amostra é muito reduzido, comparativamente ao tamanho da população de onde se retira a amostra. As principais razões para que as análises estatísticas sejam efectuadas sobre amostras, e não sobre todos os indivíduos da população são:

IPCB SHT - 2004 1

Page 2: estatistica descritiva texto

Estatística Descritiva

• A população é infinita, ou considerada como tal, não podendo portanto ser analisada na íntegra;

• Custo excessivo do processo de recolha e tratamento dos dados, como resultado da grande dimensão da população ou da complexidade do processo de caracterização de todos os elementos da população;

• Tempo excessivo do processo de recolha e tratamento dos dados, conduzindo à obtenção de informação desactualizada;

• As populações são dinâmicas, de onde resulta que os elementos ou objectos da população estão em constante renovação, de onde resulta a impossibilidade de analisar todos os elementos desta população;

• Recolha de informação através de processos destrutivos (que, se aplicada exaustivamente, conduziria à completa destruição da população);

• Inacessibilidade a alguns elementos da população, por diversas causas.

A título de exemplo, considerem-se os seguintes universos estatísticos, e tente-se perceber a razão da impossibilidade de analisar todos os seus elementos: • Caracterização das intenções de voto de uma população eleitora constituída por

vários milhões de eleitores; • Caracterização geológica do subsolo; • Caracterização das características inflamatórias numa linha de fabrico de

fósforos; • Caracterização dos saldos médios das contas bancárias de todos os médicos

portugueses; • Análise organoléptica do conteúdo das garrafas numa linha de engarrafamento

de cerveja. O processo de selecção de uma amostra a partir de uma população designa-se por amostragem. Para que as análises estatísticas efectuadas sobre a amostra sejam representativas, e possam ser generalizadas a toda a população (capítulo da Estatística designado por Inferência Estatística), a amostra deve ser efectuada de acordo com um processo de amostragem probabilística, de tal modo que cada um dos elementos da população tenha hipóteses de ser incluído na amostra, sendo possível quantificar a probabilidade de tal suceder. De todos os processos de amostragem probabilística, o mais importante é o de amostragem aleatória, que garante que todos os elementos da população têm as mesmas hipóteses de serem integrados na amostra. Através deste método de amostragem, evita-se o enviesamento da selecção, isto é, elimina-se ou reduz-se a tendência sistemática para sub-representar ou sobre-representar na amostra alguns elementos da população. Existem outros métodos de amostragem probabilística, como seja a amostragem estratificada, em que a população é dividida em estratos, e cada um destes estratos contribui com uma parcela (geralmente não igual para todos os estratos) para a formação da amostra. Se estes estratos não forem estabelecidos com rigor, estes métodos de amostragem podem conduzir a fortes enviesamentos da amostra. Seguidamente exemplificam-se alguns possíveis tipos de enviesamento que podem ocorrer nas amostras.

IPCB SHT - 2004 2

Page 3: estatistica descritiva texto

Estatística Descritiva

População: intenções de voto dos eleitores de uma cidade. Amostra: intenções de voto de um grupo de eleitores seleccionados ao acaso a partir da lista telefónica da cidade. Enviesamento de selecção: (1) sub-representação das intenções de voto dos eleitores pertencentes aos estratos económicos mais baixos, que não têm telefone. Enviesamento de selecção: (2) sobre-representação de alguns estratos sociais (idosos, desempregados, etc) se, por acaso, a recolha de dados for efectuada durante o horário laboral, durante o qual as pessoas não estão nas residências (normalmente nesses horários é mais frequente encontrar em casa as pessoas dos estratos sociais referidos atrás). População: incidência da mosca da azeitona nos olivais de uma zona agrícola. Amostra: incidência da mosca da azeitona na amostra de azeitonas recolhidas em diversas árvores seleccionadas ao acaso nessa zona. Enviesamento de selecção: sobre-representação dos frutos das camadas mais baixas e exteriores das copas das oliveiras. População: diâmetros das árvores de um povoamento de pinheiro bravo. Amostra: diâmetros das árvores circunscritas em circunferências de 10 m de diâmetro marcadas no campo. Enviesamento de selecção: sub-representação das árvores localizadas nos locais mais inacessíveis. População: pesos médios de coelho bravo numa zona de caça. Amostra: pesos médios dos coelhos capturados em várias armadilhas colocadas mediante algum critério de distribuição na zona em estudo. Enviesamento de selecção: sobre-representação dos exemplares mais frágeis, que por natureza, mais facilmente caem nas armadilhas. A recolha de dados pode ser realizada recorrendo a processos que se podem classificar em experimentais ou observacionais. Nos processos experimentais exerce-se um controle directo sobre os factores que potencialmente afectam a característica ou o conjunto de características em análise. O objectivo é, geralmente, o de pôr em evidência a influência exercida por aqueles factores, isolada ou conjuntamente. A fase de preparação e condução do processo experimental de recolha de dados designa-se por delineamento experimental. Nos processos observacionais, os factores que potencialmente afectam a característica ou o conjunto de características em análise não são controlados. Os procedimentos que mais frequentemente são utilizados na aquisição de dados são a observação (exame directo e registo das características observadas nos elementos da amostra) e o questionário (sondagens, seja por entrevista directa ou por telefone, seja através de questionários respondidos em algum suporte – papel, disquete, e-mail, formulários em páginas web, etc).

IPCB SHT - 2004 3

Page 4: estatistica descritiva texto

Estatística Descritiva

ESTATÍSTICA DESCRITIVA Caracterização de amostras univariadas Uma amostra diz-se univariada quando os dados que a integram se referem apenas a um atributo ou característica dos elementos. Dados qualitativos As formas mais comuns de descrever amostras univariadas com dados expressos em escala nominal ou ordinal envolvem o recurso a tabelas de frequências, diagramas de barras ou diagramas de sectores ou circulares. Em qualquer dos casos, o objectivo é o de representar a forma como os dados se distribuem por um conjunto de diferentes categorias. Designa-se por frequência absoluta da categoria i o número de dados contidos na i.ésima categoria das k categorias consideradas, e representa-se geralmente por . Admitindo que as categorias especificadas contêm todos os dados, o número total de dados da amostra é:

in

1

k

ii

N n=

= ∑

Se expressamos o número de dados da i.ésima categoria em termos de proporção do número total de dados da amostra, temos a frequência relativa da i.ésima categoria:

ii

nfN

=

As frequências relativas são muitas vezes definidas em termos percentuais:

100ii

nfN

= ×

Exemplo: Um rebanho de 150 ovelhas foi analisado relativamente à característica “número de borregos nascidos numa época de parição”. Observou-se que existiam 4 categorias de ovelhas neste rebanho: categoria 0: ovelhas não paridas (isto é, 0 borregos nascidos por ovelha); categoria 1: ovelhas com parto simples (isto é, 1 borrego nascido por ovelha); categoria 2: ovelhas com parto duplo (isto é, 2 borregos nascidos por ovelha); categoria 3: ovelhas com parto triplo (isto é, 3 borregos nascidos por ovelha). A seguinte tabela de frequências resume o número de ovelhas (frequência absoluta) e a frequência relativa de ovelhas em cada uma das 4 categorias:

IPCB SHT - 2004 4

Page 5: estatistica descritiva texto

Estatística Descritiva

Categoria Frequência absoluta

in Frequência relativa (%)

if Não paridas 18 12 Parto simples 102 68 Parto duplo 24 16 Parto triplo 6 4 TOTAL 150 100 Esta tabela de frequências pode representar-se graficamente, num gráfico de barras, em que no eixo das abcissas se identificam as diversas categorias em que se dividiu a amostra, e em que o eixo das ordenadas representa uma escala, que pode ser proporcional às frequências absolutas, ou à das frequências relativas, das categorias; em cada uma das categorias é desenhada uma barra cuja altura será igual à da frequência absoluta (ou relativa, consoante a escala usada): Diagrama de barras das frequências absolutas:

18

102

24

6

0

20

40

60

80

100

120

Não paridas Parto simples Parto duplo Parto triplo

Tipo de parto

Freq

. Abs

olut

a

Diagrama de barras das frequências relativas:

0

10

20

30

40

50

60

70

80

Não paridas Parto simples Parto duplo Parto triplo

Tipo de parto

Freq

. rel

ativ

a (%

)

IPCB SHT - 2004 5

Page 6: estatistica descritiva texto

Estatística Descritiva

Note-se que, seja o gráfico elaborado na escala de frequências absolutas ou de frequências relativas, o aspecto é o mesmo, já que a escala das frequências relativas é uma transformação linear da escala das frequências absolutas. O gráfico de sectores, mais difícil de elaborar manualmente, divide a área do círculo (que representa a totalidade da amostra) em tantos sectores quantas as categorias, sendo a área de cada um destes sectores proporcional à frequência absoluta (ou à frequência relativa) da respectiva categoria:

Não paridas12%

Parto simples68%

Parto duplo16%

Parto triplo4%

Dados quantitativos De uma maneira geral, a análise de amostras de dados quantitativos pode incluir o resumo dos dados em tabelas de frequências, representações gráficas (sendo as mais usuais os histogramas, polígonos de frequências, diagrama de pontos, diagrama de caule-e-folhas, diagrama de extremos-e-quartis), e a estimativa de parâmetros ou indicadores estatísticos (também designados pela expressão “estatísticas”). Amostras de pequena dimensão, com dados não agrupados em classes Nas secções seguintes vamos usar, para além de outros exemplos esporádicos usados para ilustrar as explicações de alguns conceitos, a seguinte amostra de pesos (em kg) à nascença de borregos (pressuposta aleatória e representativa do rebanho):

4.2 2.8 3.2 3.0 3.8 3.2 4.0 3.62.2 3.2 2.1 3.4 2.4 2.2 2.4

O tamanho da amostra é N = 15 observações. Quando as amostras são de pequenas dimensões, pode dispensar-se a elaboração de tabelas de frequências, pois observa-se que, de um modo geral, é pouco frequente existirem dados repetidos, donde resulta que a maior parte das frequências absolutas para os diferentes valores da variável aleatória ix (vamos considerar genericamente a

IPCB SHT - 2004 6

Page 7: estatistica descritiva texto

Estatística Descritiva

variável aleatória X ) são . Contudo, pode organizar-se uma tabela de cálculo, tomando por base a tabela de frequências, que auxiliará na realização dos cálculos subjacentes à estimação dos parâmetros estatísticos. Na secção do cálculo destes parâmetros apresentar-se-á esta tabela.

1in =

inN

x n

15

Pelas mesmas razões também é pouco usual traçar-se o histograma (nome dado ao gráfico de barras para a situação em que nas abcissas se representam os diversos valores possíveis ix da variável aleatória), já que maioria das barras (no caso de valores discretos, ou analisados como tal, as barras têm largura nula, reduzindo-se a uma linha vertical) que representam as frequências absolutas têm altura unitária. Aliás, refira-se que a elaboração do histograma em pequenas amostras pode ocasionar interpretações desajustadas, nomeadamente no que se refere à simetria da amostra. Vejamos o seguinte exemplo, em que a amostra foi pressupostamente retirada de uma população com distribuição normal:

0

1

2

3

4

16 17 18 19 20 21 22

xi

Freq

. Aso

luta

Repare-se que a análise do gráfico pode induzir à conclusão de que a amostra é assimétrica, o que contraria o pressuposto enunciado da normalidade da população de onde a amostra foi retirada. Para a amostra de borregos em análise, a tabela de frequências e o histograma têm o

seguinte aspecto, onde if = é a frequência relativa da observação ix , e são

as frequências absolutas acumuladas e as frequências relativas acumuladas:

,Fac fra

i i Fac if fra

2.1 1 1 0.0667 0.0667 2.2 2 3 0.1333 0.2000 2.3 0 3 0 0.2000 2.4 2 5 0.1333 0.3333 2.5 0 5 0 0.3333 2.6 0 5 0 0.3333 2.7 0 5 0 0.3333 2.8 1 6 0.0667 0.4000 2.9 0 6 0 0.4000

IPCB SHT - 2004 7

Page 8: estatistica descritiva texto

Estatística Descritiva

3 1 7 0.0667 0.4667 3.1 0 7 0 0.4667 3.2 3 10 0.2000 0.6667 3.3 0 10 0 0.6667 3.4 1 11 0.0667 0.7333 3.5 0 11 0 0.7333 3.6 1 12 0.0667 0.8000 3.7 0 12 0 0.8000 3.8 1 13 0.0667 0.8667 3.9 0 13 0 0.8667 4 1 14 0.0667 0.9333

4.1 0 14 0 0.9333 4.2 1 15 0.0667 1.0000

15iN n= =∑ 1if =∑

Histograma

0

1

2

3

4

2,1

2,3

2,5

2,7

2,9

3,1

3,3

3,5

3,7

3,9

4,1

x

Freq

. Abs

olut

as

Conforme referido anteriormente, devido ao reduzido tamanho da amostra, a tabela de frequências e o histograma são pouco informativos, pois existem diversos “vazios” no interior, que poderiam sugerir a discretização da amostra, quando a população é tipicamente de natureza contínua; além disso, não dão informação nítida acerca da tendência central, da dispersão e da simetria da amostra. Representações gráficas mais usuais para pequenas amostras com dados não agrupados em classes Diagrama de pontos (“dotplot”) Representa cada um dos dados da amostra como um ponto, sobre um eixo horizontal, onde é imposta uma escala numérica adequada aos dados da amostra. Se existem diversos valores repetidos, sobre a mesma posição da escala são representados tantos pontos quantos os valores repetidos:

IPCB SHT - 2004 8

Page 9: estatistica descritiva texto

Estatística Descritiva

Este tipo de gráfico é útil para analisar a distribuição dos valores no intervalo de variação, permitindo evidenciar de um modo simples, situações de lacunas (isto é, não ocorrências de observações) dentro do intervalo de variação, zonas de mais intensa concentração de valores e situações de assimetria da distribuição. Os valores extremos são facilmente identificados. Este tipo de gráfico é útil para pequenas amostras (até cerca de 20 dados), porém resultar de leitura mais difícil para amostras maiores. Para a amostra de borregos em análise, o diagrama de pontos tem o seguinte aspecto:

is

iagrama de caule-e-folhas (“stem-and-leaf”)

ste tipo de representação gráfica é uma maneira simples e engenhosa de apresentar os

icialmente este tipo de diagrama foi idealizado para representar valores numéricos

ara construir um diagrama de caule-e-folhas:

es: “caule”, que é constituído

crevem-se numa coluna as partes denominadas “caule”; quando há mais que uma

s partes “folha”.

otas:

– Se os valores numéricos têm um único dígito, normalmente usa-se o algarismo zero

as que elaboram este tipo de representação apresentam à

O aspecto informativo mais notório neste exemplo é o facto de destacar manitidamente (que o histograma) o grupo de borregos com pesos da ordem de 2.1-2.4 kg, podendo sugerir que estes dados possam ser considerados como valores extremos, ou inclusivamente “outliers”. D Edados num diagrama muito próximo do histograma, que realça a distribuição de frequências dos dados, bem como as zonas do intervalo de variação com maior concentração e as zonas com ausência de dados, bem como identifica a localização da mediana da amostra. Permite igualmente destacar a existência de valores extremos na amostra. Incom, pelo menos, dois dígitos. Contudo, as aplicações informáticas actuais generalizaram o seu uso para valores inteiros com um só dígito. Pi - começa por se ordenar a amostra por ordem crescente; ii -de seguida, cada um dos dados é dividido em duas partpelos primeiros dígitos do valor numérico, e “folha”, que é o último algarismo de cada valor. iii – Esocorrência do mesmo “caule”, este escreve-se uma única vez; iv – à direita do “caule” escrevem-se as diversas ocorrências da N 1para representar as “folhas”; 2 – As aplicações informáticesquerda uma coluna onde é registada a frequência absoluta acumulada até metade da amostra, até ao “caule” onde se atingem 50% da amostra; para os restantes valores,

IPCB SHT - 2004 9

Page 10: estatistica descritiva texto

Estatística Descritiva

aparece a frequência absoluta acumulada em modo inverso, isto é, desde metade da amostra até à frequência correspondente ao último caule. 3 – Se existe um “caule” onde se atinge metade da amostra (mediana), a frequência

xemplo:

onsideremos a seguinte amostra de valores de uma variável aleatória X genérica:

.1 5.8 7.8 7.1 7.2 9.2 6.6 8.3 7.0 8.3

absoluta desta classe é denotada entre parêntesis. E C 67.8 8.1 7.4 8.5 8.9 9.8 9.7 14.1 12.6 11.2 O diagrama de caule-e-folhas, elaborado numa aplicação estatística (MINITAB) é o

or exemplo, existe um único valor no intervalo [5, 6[, que é o valor 5.8: o algarismo 5

esquerda é apresentada uma coluna com as frequências absolutas acumuladas. A

uando o intervalo de variação da amostra é muito estreito, por exemplo no exemplo

seguinte:

Prepresenta o “caule” e o algarismo 6 representa a “folha” desta observação. No intervalo [6, 7[ existem duas observações: 6.1 e 6.6; o “caule” é o algarismo 6, que se representa uma única vez; as “folhas”, respectivamente os algarismos 1 e 6, aparecem indicadas de seguida. Não existe nenhuma observação no intervalo [10, 11[; assim, aparece o “caule”, mas não aparece nenhuma “folha”, sendo este “vazio” de dados facilmente identificado. A mesma observação se faz para o intervalo [13, 14[. Note-se que para valores com 3 (ou mais) dígitos, todos os algarismos à excepção do último são atribuídos ao “caule”. Àmediana ocorre num valor da classe 8, já que neste “caule” se atinge 50% da amostra: existem 9 observações inferiores a 8, que conjuntamente com as 5 observações da classe 8 atingem e ultrapassam metade da amostra. Por esta razão, a frequência absoluta deste “caule” é representado entre parêntesis. Note-se que para as restantes classes (ou “caules”), as frequências absolutas aparecem acumuladas em ordem inversa. Qseguinte em que todos os valores pertencem ao intervalo [10, 11[, no mesmo “caule” podem ser reunidos não apenas os valores com a mesma “folha”, mas sim dois grupos de valores com “folhas” distintas; no exemplo seguinte, existem 5 “caules” para os

IPCB SHT - 2004 10

Page 11: estatistica descritiva texto

Estatística Descritiva

valores [10,11[: 10.0 e 10.1; 10.2 e 10.3; 10.4 e 10.5; 10.6 e 10.7; 10.8 e 10.9; o mesmo se passa para os valores [11,12[:

10.0 11.1 11.4 10.5 10.6 10.7 10.6 10.5 10.3 11.011.7 11.6 10.2 10.1 10.6 10.4 10.8 10.9 11.3 11.8

ota: alguns programas informáticos, para amostras do género desta última, utilizam a

ara a amostra de borregos em análise temos o seguinte diagrama de caule-e-folhas:

Nnotação “*” ou “z” – de zero - para os valores 10.0 e 10.1; “t” – de two e three para 10.2 e 10.3; “f” – de four e five – para 10.4 e 10.5; “s” – de six e seven – para 10.6 e 10.7; “.” ou “e” – de eight – para 10.8 e 10.9. O diagrama seguinte, elaborado no programa estatístico NCSS, ilustra este pormenor:

P

IPCB SHT - 2004 11

Page 12: estatistica descritiva texto

Estatística Descritiva

al como no diagrama de pontos, o grupo de borregos com pesos entre 2.2 e 2.4 parecem isolados; além disso, ficamos a saber que a mediana é .

uméricos usam-se determinados indicadores estatísticos que escrevem o comportamento geral da amostra, em termos de localização (parâmetros ou

or mais frequente (com maior frequência absoluta ou relativa) na amostra.

orar a bela de frequências, pois face ao pequeno número de valores, facilmente se consegue

ente para a amostra de borregos em nálise, facilmente se deduz que a moda é o valor

Ta 3.2Med = Parâmetros estatísticos Na análise de dados ndestatísticas de localização ou de tendência central) e em termos de dispersão dos valores relativamente aos parâmetros de localização (parâmetros ou estatísticas de dispersão). Parâmetros de localização Moda É o val Conforme anteriormente referido, em pequenas amostras não é muito usual elabtater a noção dos valores mais frequentes. Se, contudo, a dimensão da amostra assim o justificar, pode elaborar-se a uma tabela de cálculo, que auxiliará na identificação dos valores mais frequentes, além de que poderá usar-se como tabela de cálculo para efectuar os cálculos dos parâmetros estatísticos. Da tabela de frequências apresentada anteriorma 3.2Mod = . Repare-se que a moda

– Em pequenas amostras, a moda pode ser pouco informativa acerca da tendência pois a repetição de um valor pode ser meramente casual;

também poderia ter sido deduzida do diagrama de caule-e-folhas e também do diagrama de pontos. Notas: i central,

IPCB SHT - 2004 12

Page 13: estatistica descritiva texto

Estatística Descritiva

ii – No exemplo dos borregos, consideremos que o 1º valor era 2.2 (e não 2.1), de modo que haveria também 3 observações de peso 2.2; isto é, a amostra teria duas modas, e amostra dir-se-ia bi-modal; iii – Os principais inconvenientes apontados à moda como parâmetro de localização, é o facto de não ter um valor único, em amostras com mais de uma moda, além de que no seu cálculo não se entra em conta com todos os valores da amostra; iv – Alguns autores consideram que se existem 2 modas contíguas, a moda é a média desses dois valores. Por exemplo, se no exemplo anterior, existissem 3 observações 3.1 e 3 observações 3.2, a moda seria 3.15. Mediana A mediana é definida como sendo o valor central de uma amostra de dados, ordenada por ordem crescente ( , 1, 2,...,ix i N= ). Se o tamanho de amostra é ímpar, existe um valor central, isto é, a mediana é o valor

12

NMed x += .

Se o tamanho da amostra é par, não existe propriamente um valor, mas sim dois valores centrais; nesta situação, considera-se que a mediana é a média das duas observações

centrais: 2 2 1

2N Nx x

Med ++= .

Podemos usar a seguinte tabela de cálculo (sem a inclusão dos valores “vazios”) para obter o valor da mediana (esta tabela será continuada nas secções seguintes como uma ferramenta de cálculo dos parâmetros estatísticos):

ix in iFac n= ∑ 2.1 1 1 2.2 2 3 2.4 2 5 2.8 1 6 3.0 1 7 3.2 3 10 3.4 1 11 3.6 1 12 3.8 1 13 4.0 1 14 4.2 1 15

Temos uma amostra com N = 15 observações, donde a mediana será o valor 8x . Da tabela anterior deduz-se que , isto é, a mediana é . 7 8 9 103.0, 3.2x x x x= = = = 3.2Med = Nota: imagine-se que na amostra anterior havia duas observações 4.2, isto é, N =16;

nesta situação, a mediana seria 2 2 1 8 9 3.2 3.2 3.22 2 2

N Nx x x xMed ++ + += = = =

IPCB SHT - 2004 13

Page 14: estatistica descritiva texto

Estatística Descritiva

A grande vantagem da utilização da mediana como parâmetro de localização, reside no facto de a mediana não é afectada pelos valores extremos da amostra, o que acontece com a média. A mediana é um importante parâmetro estatístico na análise e interpretação da simetria da amostra. O parâmetro mediana tem particular interesse na Estatística não Paramétrica, onde muitos dos testes estatísticos são conduzidos em termos de mediana. Média A média aritmética amostral, ou média amostral, é o parâmetro de localização mais utilizado, e constitui a estimativa do valor médio ou esperança matemática da população. A média é, teoricamente, o valor que todas as observações teriam se fossem todas iguais, isto é, se não houvesse qualquer variabilidade dentro da amostra, situação esta que não ocorre na prática, já que qualquer fenómeno natural tem sempre variabilidade associada. A média é calculada por:

1

N

ii

xx

N==∑

Se existem distintos valores na amostra, tal que existem valores repetidos, sendo

a frequência absoluta do valor

k N<

in ix , tal que 1

k

ii

n N=

=∑ , então a média é calculada por:

1.

k

i ii

n xx

N==∑

Nota: para ter a noção da similaridade entre esta expressão e a anterior, basta imaginar que todos os n . 1i = Para melhor se entender o conceito de média como medida de posição central, pensemos numa barra horizontal, com uma escala correspondente às dimensões das observações, em equilíbrio sobre um ponto fulcral, à semelhança de uma balança. Por cada observação da amostra de dados, coloca-se um peso de 1 kg à distância correspondente ao valor da observação. Nestas condições, o único ponto fulcral que mantém a barra em equilíbrio horizontal é o ponto correspondente à média:

IPCB SHT - 2004 14

Page 15: estatistica descritiva texto

Estatística Descritiva

A vantagem da média, relativamente à mediana e à moda, é que o seu cálculo envolve todos os valores da amostra. Porém, este facto pode ter o inconveniente de em amostras com valores extremos muito acentuados, a média resultar afectada pela presença desses valores. As propriedades fundamentais da média são:

i- a soma de todos os desvios das observações para a média é nula, isto é:

( )1

0N

ii

x x=

− =∑

ii - a soma de todos os quadrados dos desvios das observações para uma

constante λ é mínima quando essa constante é a média, isto é:

( 2

1

N

ii

x )λ=

−∑ é mínima para xλ =

Se a amostra é muito pequena (digamos, 10N < ), esta expressão é facilmente calculável sem apoio de uma tabela de cálculo. Porém, para mais valores, é útil usar a seguinte tabela como ferramenta de cálculo:

ix in iFac n= ∑ .i in x 2.1 1 1 2.1 2.2 2 3 4.4 2.4 2 5 4.8 2.8 1 6 2.8 3.0 1 7 3.0 3.2 3 10 9.6 3.4 1 11 3.4 3.6 1 12 3.6 3.8 1 13 3.8 4.0 1 14 4.0 4.2 1 15 4.2

11

1. 45.7i i

in x

=

=∑

Logo, a média é 1.

45.7 3.046715

k

i ii

n xx

N== = =∑

IPCB SHT - 2004 15

Page 16: estatistica descritiva texto

Estatística Descritiva

Nota: 1

1 1 1

.. .

k

i i k k ki i i i

i ii i i

n xn x n . ix x f

N N N=

= = =

= = = =∑

∑ ∑ ∑ x , em que ii

nfN

= é a frequência relativa

da observação ix . Isto é:

ix if .i if x

2.1 0.0667 0.1400 2.2 0.1333 0.2933 2.4 0.1333 0.3200 2.8 0.0667 0.1867 3.0 0.0667 0.2000 3.2 0.2000 0.6400 3.4 0.0667 0.2267 3.6 0.0667 0.2400 3.8 0.0667 0.2533 4.0 0.0667 0.2667 4.2 0.0667 0.2800

11

1. 3.0467i i

ix f x

=

= =∑ No exemplo que estamos a seguir, nota-se que 3.0467 3.2x Med Mod= < = = , o que é um sintoma de que a amostra tem uma cauda inferior mais prolongada, isto é, a amostra denota uma tendência de assimetria, mais concretamente, assimetria negativa. Numa amostra simétrica, a média, a mediana e a moda coincidem. Outros parâmetros de localização Média truncada Para evitar o efeito das observações extremas (em ambas as caudas da amostra) no cálculo da média, alguns autores propõem a utilização de uma estimativa da média truncada, que consiste em eliminar, após ter ordenado a amostra por ordem crescente, uma determinada percentagem de observações nas caudas inferior e superior da amostra; após ter eliminado essas observações, calcula-se a média aritmética para as observações restantes não eliminadas. Logicamente, o tamanho da amostra é reduzido no número de observações eliminadas. A média truncada numa percentagem razoavelmente pequena (entre 5% e 20 % de observações truncadas em cada extremo) é menos sensível que a média aritmética, ao efeito das observação extremas, mas não tanto quanto a mediana. Vamos considerar a amostra truncada de borregos, onde se eliminaram as 20% de observações (3) inferiores e 20% de observações superiores:

ix in .i in x 2.4 2 4.8 2.8 1 2.8 3.0 1 3.0 3.2 3 9.6

IPCB SHT - 2004 16

Page 17: estatistica descritiva texto

Estatística Descritiva

3.4 1 3.4 3.6 1 3.6

* 9N =

11

1. 27.2i i

in x

=

=∑

A média truncada é

*

1*

.27.2 3.0222

9

k

i ii

n xx

N== = =∑

3.2Med

: repare-se que, mesmo após a

eliminação de 40% das observações, o valor da média pouco se alterou; nesta amostra truncada, a mediana continua a ser = , como facilmente se pode deduzir da tabela anterior. Média geométrica A média geométrica é dada por:

1 2 31

. . ...N

NNG ii

Nx x x x x x=

= =∏

A principal propriedade deste indicador é que o logaritmo da média geométrica é igual à média aritmética dos logaritmos das observações originais. É menos sensível que a média aritmética à presença de valores extremos. Porém, o seu significado estatístico é menos intuitivo do que o da média aritmética, além de não estar definida sempre que existem observações nulas, e em muitas situações de existirem observações negativas. Média harmónica A média harmónica é o recíproco (ou inverso) da média aritmética dos recíprocos das observações:

1 1

11 1H N N

i ii i

nx

x xn

= =

= =

∑ ∑

A média harmónica não está definida para amostras com valores nulos, e é muito afectada por valores extremamente baixos. Tanto a média geométrica como a média harmónica só raramente se utilizam, nomeadamente em algumas situações em que os dados são de natureza de proporções. Assim, ao falar-se de média estamos a referirmo-nos à média aritmética. Quartis Os quartis são parâmetros de localização que dividem a amostra em quartas partes, isto é, dividem a amostra em 4 sub-amostras, cada uma com 25% das observações.

IPCB SHT - 2004 17

Page 18: estatistica descritiva texto

Estatística Descritiva

Assim o quartil 25%, ou 1º quartil (Q ) é o valor 1 ix tal que existem 25% de observações iguais ou inferiores a ix ; o quartil 50% ou 2º quartil ( ) é o valor 2Q ix tal que existem 50% de observações iguais ou inferiores a esse valor, coincidindo com a mediana; assim, entre o Q e existem 25% de observações. O 3º quartil ( ) é o valor

1 2Q 3Q

ix tal que existem 75% de observações iguais ou inferiores a ix e 25% de valores acima de ix . A maneira mais prática de estimar os quartis é a partir da coluna da frequência absoluta acumulada (ou da frequência relativa acumulada) da amostra. No exemplo da amostra de borregos, 1 2 32.4, 3.2, 3.6Q Q Med Q= = = = . Os quartis são úteis a fim de analisar as regiões do intervalo de variação da amostra onde ocorre maior concentração ou maior dispersão de observações, bem como dá informação acerca da simetria da amostra (pela comparação das amplitudes das 4 sub-amostras). O diagrama de extremos-e-quartis, apresentado numa próxima secção, é baseado na localização dos quartis. Outros quantis Além dos quartis, podem considerar-se outros quantis, nomeadamente decis (valores

ix tais que dividem a amostra em sub-amostras com 10% de observações) e percentis (valores ix tais que dividem a amostra em sub-amostras com a percentagem de observações pretendida). O 1º decil é o valor ix tal que existem 10% de observações iguais ou inferiores a ix ; o 9º decil é o valor ix tal que existem 90% de observações iguais ou inferiores a ix . De igual modo se pode definir qualquer outro decil. O percentil 5% é o valor ix tal que existem 5% de observações iguais ou inferiores a

ix ; o percentil 95% é o valor ix tal que existem 95% de observações iguais ou inferiores a ix . De modo similar, se pode definir qualquer outro percentil. O percentil 25% corresponde ao 1º quartil. Tal como com os quartis, os quantis são deduzidos a partir da tabela de frequências. Na amostra em análise, o 1º decil é 10 2.2D = e o 9º decil é 90 4.0D = . O percentil 5% é

e o percentil 95% é . 5 2.1P = 95P = 4.2 Parâmetros de dispersão Para além de caracterizar a distribuição de uma amostra pela sua tendência de localização ou tendência central, temos de descrever igualmente a sua tendência de

IPCB SHT - 2004 18

Page 19: estatistica descritiva texto

Estatística Descritiva

dispersão ou variabilidade, que é um indicador da variabilidade das observações em torno dos valores centrais. Intervalo e amplitude de variação O intervalo de variação da amostra é o intervalo definido por: [ ]1 , Nx x isto é, o intervalo definido pelos valores mínimo e máximo da amostra. A Amplitude d variação (“Range”) é a amplitude deste intervalo: 1NR x x= − A dispersão ou variabilidade da amostra será maior quanto maior for esta amplitude. Repare-se que esta apreciação da variabilidade é muito relativa, já que tem em conta apenas os valores extremos. Por exemplo, a amostra constituída pelas seguintes observações 10, 10.1, 10.1, 10.2, 10.5, 10.6, 10.6, 10.7, 15 tem uma amplitude de 5 unidades, mas à excepção da observação 15, a amostra é bastante concentrada. O intervalo de variação da amostra de borregos é [2.1 , 4.2] e a amplitude de variação é

. 4.2 2.1 2.1R = − = Amplitude inter-quartílica A amplitude inter-quartílica é definida como: 3 1Q Q− Embora esta estimativa da variabilidade não seja tanto influenciada pelos valores extremos e traduza melhor que a amplitude da amostra a maior ou menor tendência de concentração dos valores em torno da média, ainda não leva em conta todas as observações presentes na amostra. Esta medida de variabilidade pode ter pouco significado quando os valores da amostra estão fortemente concentrados em torno da mediana: a amplitude inter-quartílica é pequena, mas não diz absolutamente nada acerca da concentração ou dispersão dos valores abaixo do 1º quartil ou acima do 3º quartil. Considere-se o seguinte exemplo:

10, 50, 50, 50, 50, 50, 50, 50, 50, 80 onde e Q Q , sendo a amostra muito concentrada em torno da mediana, mas afinal a distribuição da amostra é entre 10 e 80.

1 3 50Q Med Q= = = 3 1 0− =

Estas medidas de dispersão, amplitude e amplitude inter-quartílica, são mais úteis na comparação da variabilidade de diversas amostras retiradas da mesma população do que na descrição da dispersão de uma única amostra.

IPCB SHT - 2004 19

Page 20: estatistica descritiva texto

Estatística Descritiva

Para a amostra de borregos, a amplitude inter-quartílica é de 3 1 3.6 2.4 1.2Q Q− = − = . Diagrama de extremos-e-quartis Este diagrama, também designado por caixa-com-bigodes (da tradução literal da sua designação em Inglês, “boax-and-whiskers”) permite efectuar uma análise gráfica da variabilidade de uma amostra, bem como analisar a distribuição da concentração nas quatro sub-amostras definidas pelos quartis (intervalos quartílicos). Esta representação gráfica consiste em desenhar um rectângulo, com a base na escala das observações, e em que os dois lados laterais são respectivamente o 1º e 3º quartis; ligam-se estes lados com um segmento de recta à escala, respectivamente ao valor mínimo e ao valor máximo da amostra. O rectângulo, que representa a amplitude inter-quartílica, é dividido pela mediana. Pela amplitude de cada uma destas quatro sub-amostras, é possível ficar-se com uma ideia bastante rigorosa de como é o comportamento da amostra, em termos de dispersão ou concentração de valores, bem como deduzir acerca da sua simetria. Na amostra de borregos este diagrama tem o seguinte aspecto:

Repare-se que a amostra é mais concentrada nas sub-amostras definidas entre o valor mínimo e o 1º quartil (1º intervalo quartílico), e entre a mediana e o 3º quartil (3º intervalo quartílico). A zona de maior dispersão de valores ocorre no 2º intervalo quartílico. A amostra tem uma ligeira tendência para maior concentração acima da mediana, pelo que a distribuição resulta ligeiramente assimétrica negativa. Se existem observações extremas (designadas por outliers), estas são assinaladas no diagrama de extremos-e-quartis.

IPCB SHT - 2004 20

Page 21: estatistica descritiva texto

Estatística Descritiva

Uma observação ix é considerada outlier moderado se:

( )1 31.5i 1x Q Q< − × − Q ou ( )3 31.5i 1x Q Q> + × − Q Uma observação ix é considerada outlier extremo se:

( )1 33i 1x Q Q< − × − Q ou ( )3 33i 1x Q Q> + × − Q O seguinte diagrama de extremos-e-quartis ilustra a presença de 2 observações outliers moderadas, uma no extremo inferior e outra no extremo superior, assinaladas com asteriscos. Repare-se que os “bigodes” da caixa são desenhados após ter decidido que estas observações são outliers, considerando-se que as observações mínima e máxima que ficam na amostra após esta eliminação.

Desvio médio Uma medida da dispersão em torno da média resulta da soma dos desvios de cada observação para a média:

1

N

ii

x xdm

N=

−=

Se existem valores repetidos, e se se elaborou a tabela de frequências, o desvio médio pode calcular-se pela expressão:

IPCB SHT - 2004 21

Page 22: estatistica descritiva texto

Estatística Descritiva

1

1 1

.. .

k

i i k ki i

i ii i

n x xndm x x f x x

N N=

= =

−= = − =

∑∑ ∑ i −

Este parâmetro mede o afastamento médio de cada observação para a média: quanto maior for (comparativamente com a média ou com os dados originais), mais dispersa será a amostra, e consequentemente menos representativa é a média. Na tabela de cálculo seguinte apresentam-se os cálculos do desvio médio da amostra de borregos em análise:

ix in ix x− .i in x x− 2.1 1 0.9467 0.9467 2.2 2 0.8467 1.6934 2.4 2 0.6467 1.2934 2.8 1 0.2467 0.2467 3.0 1 0.0467 0.0467 3.2 3 0.1533 0.4599 3.4 1 0.3533 0.3533 3.6 1 0.5533 0.5533 3.8 1 0.7533 0.7533 4.0 1 0.9533 0.9533 4.2 1 1.1533 1.1533

11

1. 8.4533i i

in x x

=

− =∑

O desvio médio é 1.

8.4533 0.563615

k

i ii

n x xdm

N=

−= = =

∑.

O desvio médio também podia ser calculado usando as frequências relativas:

ix if ix x− .i if x x− 2.1 0.0667 0.9467 0.0631 2.2 0.1333 0.8467 0.1129 2.4 0.1333 0.6467 0.0862 2.8 0.0667 0.2467 0.0164 3.0 0.0667 0.0467 0.0031 3.2 0.2000 0.1533 0.0307 3.4 0.0667 0.3533 0.0236 3.6 0.0667 0.5533 0.0369 3.8 0.0667 0.7533 0.0502 4.0 0.0667 0.9533 0.0636 4.2 0.0667 1.1533 0.0769

11

1. 0.5636i i

idm f x x

=

= − =∑ O desvio médio, quando comparado com os valores originais (que variam entre 2.1 e 4.3), ou com o valor da média, embora não seja muito elevado, revela contudo alguma

IPCB SHT - 2004 22

Page 23: estatistica descritiva texto

Estatística Descritiva

tendência de dispersão; uma comparação mais objectiva poderá ser obtida pela

proporção 0.5636 0.18503.0467

dmx

= = , isto é, o desvio médio é da ordem de 18.5% do valor

da média. Variância A variância é o parâmetro de dispersão mais usual, e aquele que apresenta melhores propriedades estatísticas. De entre algumas dessas propriedades, destacam-se:

• para distribuições normais, 68.27% dos dados encontram-se no intervalo µ σ± • para distribuições normais, 95.45% dos dados encontram-se no intervalo 2µ σ± • para distribuições normais, 99.73% dos dados encontram-se no intervalo 3µ σ± • se duas amostras, de tamanhos e provêm da mesma população com

média 1N 2N

µ , e com variâncias e , pode estimar-se a variância média ponderada das duas amostras como:

21s

22s

( ) ( )( )

2 21 1 22

1 2

1 . 1 .2

N s N ss

N N− + −

=+ −

2

Este resultado pode generalizar-se para o caso de 3 ou mais amostras.

A variância, tal como o desvio médio, é uma medida do afastamento médio de cada uma das observações em torno da média. No caso do desvio médio, o módulo da diferença para a média é, por definição, o afastamento de cada observação para a média. No caso da variância, usa-se o quadrado da distância das observações para a média. Para a população, a variância é, por definição:

( )2

2 1

N

ii

x

N

µσ =

−=

Contudo, na Estatística não se tem a população, mas sim uma amostra de observações, geralmente de muito menor dimensão que a população. Demonstra-se que a expressão anterior, quando aplicada a amostras relativamente diminutas em comparação com a população (e usando a média amostral x como estimativa da média da população µ ) sub-valoriza o valor da variância (isto é, o valor da variância amostral seria menor que o valor da variância da população de onde a amostra foi retirada). Para evitar este enviesamento, utiliza-se a seguinte expressão de cálculo da variância amostral, denotada com o símbolo : 2s

( )2

2 1

1

N

ii

x xs

N=

−=

IPCB SHT - 2004 23

Page 24: estatistica descritiva texto

Estatística Descritiva

Isto é, para evitar a sub-valorização, o divisor é 1N − . Esta expressão, para cálculo manual, é de difícil manuseamento. Desenvolvendo aritmeticamente a expressão anterior, e considerando existem observações repetidas in

ix , existindo apenas k observações distintas, obtém-se a seguinte expressão, mais fácil de implementar numa tabela de cálculo, além de que evita o uso repetido do valor da média, com os erros de arredondamento daí resultantes:

2

12 2 2

1 1

.1 1. .

1 1

k

i ik ki

i i i ii i

n xs n x n x

N N N=

= =

= − = − − −

∑∑ ∑ 2.N x

Repare-se que o valor da variância vem expresso numa escala quadrática, não podendo portanto comparar-se com os valores originais. Para podermos comparar duas quantidades, estas têm de estar nas mesmas unidades. Assim, calcula-se a variância, e de seguida reduz-se para a escala em que estão as observações: ss s= Este indicador estatístico (s) designa-se por desvio padrão. Para comparar o desvio padrão com os valores originais, calcula-se o seguinte indicador, designado por coeficiente de variação:

scvx

=

Como regra de geral, alguns autores consideram a distribuição concentrada se cv , e dispersa caso cv .

0.1≤0.1>

Para a amostra de borregos, elabore-se a seguinte tabela de cálculo:

ix in 2.i in x 2.1 1 4.41 2.2 2 9.68 2.4 2 11.52 2.8 1 7.84 3.0 1 9 3.2 3 30.72 3.4 1 11.56 3.6 1 12.96 3.8 1 14.44 4.0 1 16 4.2 1 17.64

112

1. 145.77i i

in x

=

=∑

IPCB SHT - 2004 24

Page 25: estatistica descritiva texto

Estatística Descritiva

Para calcular a variância, basta fazer:

( )2 2 2 2

1

1 1. . 145.77 15 3.0467 0.46671 14

k

i ii

s n x N xN =

= − = − × = − ∑

O desvio padrão é 2 0.4667 0.6832s s= = = . O coeficiente de variação é

0.6832 0.22423.0467

scvx

= = = , isto é, o desvio padrão é da ordem de 22.5% do valor da

média, o que traduz, tal como o desvio médio, uma variabilidade razoavelmente pequena das observações em torno da média. Parâmetros de assimetria A assimetria (em inglês, skewness) é o grau de desvio ou afastamento da simetria de uma distribuição. Se a curva de frequências de uma distribuição tem uma cauda mais longa à direita, relativamente à ordenada máxima (moda), diz-se que a distribuição é assimétrica para a direita, ou que tem assimetria positiva. Se a cauda mais longa é a esquerda, a distribuição é assimétrica para a esquerda, ou assimétrica negativa.

ara distribuições assimétricas, a média tende a situar-se do mesmo lado da moda que a

ssim, uma medida da assimetria é proporcionada pela diferença entre a média e a oda, ponderada por uma medida de dispersão (desvio padrão):

Assimetria positiva Simétrica Assimetria negativa

Pcauda mais longa:

Moda x Modax

Assimetria positiva Assimetria negativa

Am

x modaAssimetria −= (primeiro coeficiente se a

sssimetria de Pearson)

IPCB SHT - 2004 25

Page 26: estatistica descritiva texto

Estatística Descritiva

Para evitar o uso da moda, pode adoptar-se uma relação empírica entre a média, a mediana e a moda: (3 )x moda x mediana− = − e a assimetria é dada por:

( )3 x medianaAssimetria

s−

= (segundo coeficiente se assimetria de Pearson)

Outros coeficientes de assimetria são definidos em termos dos quartis e decis; o coeficiente quartílico de assimetria é definido como:

( ) ( )( )

( )( )

3 2 2 1 3 2 1

3 1 3 1

2Q Q Q Q Q Q QQ Q Q Q

− − − − +=

− −

e o coeficiente percentílico de assimetria é:

( ) ( )( )

( )( )

90 50 50 10 90 50 10

90 10 90 10

2P P P P P P PP P P P

− − − − +=

− −

Um outro coeficiente de assimetria é o coeficiente se assimetria de Fisher, que utiliza o

terceiro momento centrado na média ( ( )313

1

N

iNi

x=

= −∑m ): x

( ) ( ) ( )31

3 11 3 3

1 12 2

N

iNi

x xN N N NmgN s N s

=

−− −= × = ×

− −

Este coeficiente é calculado em diversos programas estatísticos (SPSS, MINITAB, STATGRAPHICS, etc), muito embora o seu cálculo manual seja algo moroso. Está provado que para N>150 o coeficiente é assintóticamente normal com média zero e variância

1g6N ; o coeficiente de assimetria estandardizado é:

1

6sgg

N

=

Todos estes coeficientes são nulos quando a amostra é perfeitamente simétrica; são positivos se a amostra é assimétrica positiva ou assimétrica à direita, e são negativos para amostras assimétricas negativas. Para a amostra de borregos, estes coeficientes são: 1º coeficiente de assimetria de Pearson:

3.0467 3.2 0.22440.6832

x modaAssimetrias

− −= = = −

IPCB SHT - 2004 26

Page 27: estatistica descritiva texto

Estatística Descritiva

2º coeficiente de assimetria de Pearson:

( ) ( )3 3 3.0467 3.20.6732

0.6832x mediana

Assimetrias

− × −= = = −

Coeficiente quartílico de assimetria: ( )

( )3 2 1

3 1

2 3.6 2 3.2 2.4 0.33333.6 2.4

Q Q QQ Q− + − × +

= =− −

Coeficiente percentílico de assimetria: ( )

( )90 50 10

90 10

2 4.0 2 3.2 2.2 0.11114.0 2.2

P P PP P− + − × +

= =− −

Todos estes coeficientes indicam que a distribuição da amostra é ligeiramente enviezada à esquerda, ou assimétrica negativa. O coeficiente de assimetria de Fisher é:

( ) ( ) ( )31

3 11 3 3

0.43421 1 15 14 15 0.1012

2 2 13 0.6832

N

iNi

x xN N N NmgN s N s

=

−− − ×= × = × = × =

− −

∑3

Nota-se que este coeficiente indica uma ligeira assimetria positiva, em contradição com os coeficientes anteriores. Antes de mais, este coeficiente é mais rigoroso que os anteriores, pois no seu cálculo entram todas as observações. Além disso, esta discrepância é devida a que a tendência de assimetria é mínima: qualquer dos coeficientes é, em valor absoluto, muito baixo, o que indica que a distribuição é praticamente simétrica, donde resulta a aparente contradição dos coeficientes. Parâmetros de forma Além da simetria, as distribuições também se costumam caracterizar quanto à altura do ponto máximo da curva de distribuição. Esta característica é designada por achatamento ou curtose (em inglês, kurtosis).

Platicúrtica

Mesocúrtica

Leptocúrtica

IPCB SHT - 2004 27

Page 28: estatistica descritiva texto

Estatística Descritiva

IPCB SHT - 2004 28

A distribuição chamada mesocúrtica tem no centro uma altura correspondente à curva da função de densidade da distribuição normal. A distribuição diz-se platicúrtica se tem altura inferior à da curva normal. Repare-se que o facto de a distribuição ter altura menor no centro, significa maior proporção de observações nas caudas, isto é, é sintoma de uma forte dispersão. A distribuição diz-se leptocúrtica se tem altura superior à da curva normal. O facto de a distribuição ter altura maior no centro, significa maior proporção de observações nas proximidades dos valores centrais, isto é, é sintoma de uma forte concentração em torno da média. Um coeficiente numérico para caracterizar o achatamento é o coeficiente percentílico de achatamento:

( )3 1

90 10

2Q Q

kP P

=−

Para uma curva normal, o valor deste coeficiente é 0.263k = . Um valor inferior é sintoma de uma curva muito achatada, e um valor superior é sintoma de uma curva demasiado alta. Os programas estatísticos usam outro coeficiente de achatamento, designado por coeficiente de achatamento de Fisher, que é baseado no 4º momento centrado na média

( ( )414

1

N

iNi

x=

= −∑m ): x

( )( )( )( )

( )42 4

1 1 3 12 3 1

N N NmgN N s N

+ − − = × − − − +

Para uma curva normal, o valor deste coeficiente é 0g = . Um valor negativo é sintoma de uma curva muito achatada, e um valor positivo é sintoma de uma curva demasiado alta. Para a amostra de borregos, o coeficiente percentílico de achatamento é:

( )3 1

90 10

3.6 2.42 2 0.3333

4.0 2.2

Q Q

kP P

− −

= = =− −

indicando que a distribuição tem uma ligeira tendência de ser mais alta no centro que a distribuição normal. O coeficiente baseado no 4º momento é 2 1.1421g = − . Mais uma vez, a contradição entre este coeficiente e o coeficiente percentílico pode explicar-se pelo facto de este coeficiente é mais rigoroso pois leva em conta todas as observações (e não apenas os quartis e percentis).

2g