estatística descritiva

57
ESTATÍSTICA DESCRITIVA ESTATÍSTICA DESCRITIVA É o conjunto de métodos para É o conjunto de métodos para organização, apresentação e descrição de dados representativos do de dados representativos do comportamento de uma variável, onde se utilizam tabelas gráficos e medidas se utilizam tabelas, gráficos e medidas que resumem a distribuição desta variável variável.

Upload: anna-virginia-cardoso

Post on 07-Feb-2016

12 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Estatística descritiva

ESTATÍSTICA DESCRITIVAESTATÍSTICA DESCRITIVA

É o conjunto de métodos paraÉ o conjunto de métodos paraorganização, apresentação e descriçãode dados representativos dode dados representativos docomportamento de uma variável, ondese utilizam tabelas gráficos e medidasse utilizam tabelas, gráficos e medidasque resumem a distribuição destavariávelvariável.

Page 2: Estatística descritiva

VARIÁVELVARIÁVEL

As variáveis são características que podem ser observadas ou medidas em cadaser observadas ou medidas em cada elemento pesquisado (seja por censo ou amostragem levantamento ou experimento)amostragem, levantamento ou experimento). Para cada variável e para cada elemento pesquisado em um dado momento há um epesquisado, em um dado momento, há um e apenas um resultado possível.

Page 3: Estatística descritiva

CLASSIFICAÇÃO DAS VARIÁVEIS

Page 4: Estatística descritiva

CLASSIFICAÇÃO DAS VARIÁVEISÇ

Fonte: Marcelo Menezes Reis em http://www.inf.ufsc.br/~marcelo/INE5121.html

Page 5: Estatística descritiva

POPULAÇÃOPOPULAÇÃOPOPULAÇÃOPOPULAÇÃO

A l ã d t d did i d dA coleção de todas as medidas oriundas de uma variável é chamada de POPULAÇÃO.

As medidas utilizadas para descrever ou pcaracterizar estatisticamente uma população são chamadas de p p çPARÂMETROS, representados por letras gregas ( µ, σ )g g ( µ, )

Page 6: Estatística descritiva

AMOSTRAAMOSTRA

Como em geral as populações são muito grandes, se faz necessário o uso de amostras para representá-las. Estas são formadas por uma fração da população em estudo.

As estimativas dos parâmetros calculadosAs estimativas dos parâmetros calculados a partir das amostras são chamadas genericamente de ESTATÍSTICAS e sãogenericamente de ESTATÍSTICAS e sãorepresentadas por letras latinas (x, s ...)

Page 7: Estatística descritiva

O conjunto de dados que descreve o O conjunto de dados que descreve o comportamento de uma variável pode ser comportamento de uma variável pode ser

ffestudado e representado na forma de estudado e representado na forma de distribuição de freqüênciasdistribuição de freqüências

DADOS BRUTOS Intervalo Freqüência

17,9 23,0 16,1 18,1 18,017,9 19,4 16,2 19,8 20,520,0 23,4 16,8 26,3 18,5

15 17 717 19 1919 21 1120,0 23,4 16,8 26,3 18,5

18,0 22,6 16,7 18,4 19,217,9 20,2 16,2 21,0 18,518 9 22 1 17 2 20 1 20 9

19 21 1121 23 523 25 625 27 118,9 22,1 17,2 20,1 20,9

17,6 25,0 15,7 18,2 23,518,5 22,0 15,7 17,5 19,2

25 27 127 29 1

18,8 24,0 24,7 18,6 25,017,7 20,2 28,0 17,1 21,1

Page 8: Estatística descritiva

DISTRIBUIÇÃO NORMAL

CURVA DE GAUSS OU DE LAPLACECURVA DE GAUSS OU DE LAPLACE

É a distribuição teórica de probabilidade de É a distribuição teórica de probabilidade de variáveis contínuas mais utilizadavariáveis contínuas mais utilizadavariáveis contínuas mais utilizada variáveis contínuas mais utilizada

Page 9: Estatística descritiva

IMPORTÂNCIA

1. Inúmeros fenômenos naturais podem ser representados através delarepresentados através dela

2. Vários métodos estatísticos se ajustam melhor ja esta distribuição que as demais. Pode-se utilizá-la, por exemplo, para calcular a probabilidade de ocorrência de uma série deprobabilidade de ocorrência de uma série de eventos naturais

3. Ela é a base para a inferência estatística clássica

Page 10: Estatística descritiva

DISTRIBUIÇÃO NORMAL TEÓRICAÇ

PROPRIEDADESPROPRIEDADES

Page 11: Estatística descritiva

Valores de medidas de tendência central idênticosValores de medidas de tendência central idênticos

MÉDIAMODAMEDIANA

Page 12: Estatística descritiva

MEDIDAS DE TENDÊNCIA CENTRALMEDIDAS DE TENDÊNCIA CENTRAL

As medidas da tendência central são parâmetros que permitem que se tenhaparâmetros que permitem que se tenha uma primeira idéia, um resumo, de como se distribuem os dados de um experimentose distribuem os dados de um experimento.

Page 13: Estatística descritiva

Existem três medidas principais queExistem três medidas principais que refletem a tendência central de uma distribuição de freqüências:

• Média

• Moda• Moda

• Mediana

Page 14: Estatística descritiva

MÉDIAMÉDIA

ÉÉ a soma de todos os resultados dividida pelo número total de casos.

Nx

N

i∑N

x 1i∑==N

Page 15: Estatística descritiva

Cálculo da Média em valoresCálculo da Média em valores agrupados em classesg p

N fx∑=1i

iiNfxx

=1i

ouN

∑N

ou

∑=1i

iipxx=1i

Page 16: Estatística descritiva

Um dos problemas da utilização da média é que, por levar em conta TODOS os valores do conjunto ela pode ser distorcida porconta TODOS os valores do conjunto, ela pode ser distorcida por valores discrepantes (“outliers”) que nele existam. É importante então interpretar corretamente o valor da média.

Fonte: Marcelo Menezes Reis em http://www.inf.ufsc.br/~marcelo/INE5121.html

Page 17: Estatística descritiva

MODAMODAÉ o evento ou categoria de eventos que ocorre com maior freqüência indicando oocorre com maior freqüência, indicando o valor ou categoria mais provável.

Exemplo:

2 4 7 12 23 8 11 4 12 22 7 12 9 10

Page 18: Estatística descritiva

67 ModaModa

45

123

01

12 13 14 15 16 17 18 Mais12 13 14 15 16 17 18 Mais

Esses valores não precisam ser exatamente iguaisEsses valores não precisam ser exatamente iguaisEsses valores não precisam ser exatamente iguaisEsses valores não precisam ser exatamente iguais

Page 19: Estatística descritiva

Classe de Freqüência freqüência Absoluta

0 - 1 01 - 2 11 2 12 - 3 13 - 4 24 5 24 - 5 25 - 6 36 - 7 2

LLii= 7= 7

d1 =4-2=27 - 8 48 - 9 39 -10 2 d2=4-3=19 10 2

hdd

dLm21

1i0 ++= 66,71

1227m 0 =+

+=

Page 20: Estatística descritiva

MEDIANAMEDIANA

É o valor da variável a partir do qual metade dosÉ o valor da variável a partir do qual metade dos casos se encontra acima dele e metade se encontra abaixo.

Se o n° de observações for impar, a mediana será o valor central da distribuição; se o n° for par, a mediana será a média dos dois valores centrais.

Pouco afetada por eventuais valores discrepantes existentes no conjunto (que costumam distorcer substancialmente o valor da média).

Page 21: Estatística descritiva

E lExemplo

Mantendo o mesmo exemplo anterior, mas com as notas ordenadas:1,0 2,0 3,0 3,0 4,0 4,0 5,0 5,0 5 0 5 0 6 0 6 5 7 0 7 0 7 0 7 55,0 5,0 6,0 6,5 7,0 7,0 7,0 7,5 8,0 8,0 9,5 9,5

O décimo valor da variável é : 5,0 O dé i i i l é 6 0O décimo primeiro valor é: 6,0

A mediana é um valor situado entre 5,0 e 6,0A mediana é um valor situado entre 5,0 e 6,0

Page 22: Estatística descritiva

Cálculo da Mediana em valoresCálculo da Mediana em valores agrupados em classesg p

Fn

mdd

aid h

f

F2Lm−

+=mdf

ONDE:md= medianad

Li= limite inferior da classe da mediana (é a classe cuja freq. acumulada supera pela 1a. vez n/2)

Fa= freqüência acumulada das classes anteriores à da mediana

fmd= freqüência absoluta simples da mediana

hmd= amplitude da classe da mediana

Page 23: Estatística descritiva

ExemploClasse de Freqüência Freqüência f üê i Ab l t A l d

Exemplo

freqüência Absoluta Acumulada0 - 1 0 01 - 2 1 12 - 3 1 23 - 4 2 44 - 5 2 6f

Fa4 5 2 65 - 6 3 96 - 7 2 117 8 4 15

fmd Classe da mediana

7 - 8 4 158 - 9 3 189 -10 2 20 md

aid h

f

F2n

Lm−

+=

Li= 6n md

mdid f

5619

220

6−hmd= 7-6 = 1 5,61

226m d =+=hmd 7 6 1

Page 24: Estatística descritiva

Fonte: Marcelo Menezes Reis em http://www.inf.ufsc.br/~marcelo/INE5121.html

Page 25: Estatística descritiva

MEDIDAS DE DISPERSÃOMEDIDAS DE DISPERSÃO

São medidas da dispersão de um conjunto de dados em torno da média, ou seja, da maior ou

i bilid d d lt d btidmenor variabilidade dos resultados obtidos. Elas permitem identificar até que ponto os

resultados se concentram ou não ao redor daresultados se concentram ou não ao redor da tendência central de um conjunto de

observaçõesobservações.

Page 26: Estatística descritiva

Existem várias medidas para avaliar a pdispersão de um conjunto de dados. As principais são:

1. Amplitude ou Intervalo2. Variância3. Desvio Padrão4 C fi i t d V i ã4. Coeficiente de Variação

Page 27: Estatística descritiva

AmplitudeAmplitude

É a diferença entre o maior e o menor valor que foi observado para a variável, servindo q p ,para caracterizar a abrangência do estudo.

Page 28: Estatística descritiva

Variância

ÉÉ a soma dos quadrados dos desvios de cada ponto em torno da média aritmética. Caracteriza a dispersão dos pontos de uma amostra potencializando as diferenças.

n n

xxn

imi∑ −=

=1

22 )(σ )(1

22 ∑ −==

xxsn

imi

N 1−nVariância Populacional ou Variância Amostral

Page 29: Estatística descritiva

Exemplo:

Calcular a variância amostral do conjunto

1, 2, 3, 4, 5

n = 5 xm = 3

s2 = (3-1)2 + (3-2)2 + (3-3)2 + (3-4)2 + (3-5)2 + (3-1)2

5 - 1s2 = 4 + 1 + 0 + 1 + 4 = 2,5

4

OBS: a unidade da variância é igual a unidade de medida gdas observações elevada ao quadrado.

Page 30: Estatística descritiva

Desvio PadrãoDesvio Padrão

O desvio padrão é a raiz quadrada da variância.

Desvio padrão)( 2∑ − XmXi

Desvio-padrão =

1−n

No exemplo anterior equivale a s = 1,58

A unidade do desvio padrão é igual a unidade de medida das observações.

Page 31: Estatística descritiva

Coeficiente de Variação

É uma medida de dispersão relativa que indica a variabilidade da amostra em relação à média. Resultado do desvio padrão dividido pela média, transformado em percentual.

s 100.mx

sCV =mx

No exemplo anterior equivale a CV = 52,6%

Permite comparar a dispersão de diferentes distribuições (com diferentes médias e desvios padrões).( p )

Page 32: Estatística descritiva

ÕQUAL DAS DISTRIBUIÇÕES TEM MAIOR DISPERSÃO DOS DADOS

(HETEROGENEIDADE DA POPULAÇÃO)?

SALINIDADE: 32,0 ± 6,4pH: 8 2 ± 1 64pH: 8,2 ± 1,64

Page 33: Estatística descritiva

QUAL DAS DISTRIBUIÇÕES TEM MAIOR DISPERSÃOQUAL DAS DISTRIBUIÇÕES TEM MAIOR DISPERSÃO DOS DADOS (HETEROGENEIDADE DA POPULAÇÃO)?

SALINIDADE: 32 0 ± 6 4SALINIDADE: 32,0 ± 6,4CV = 20%

pH: 8 2 ± 1 64pH: 8,2 ± 1,64CV = 20%

Re: são iguais

Page 34: Estatística descritiva

DISTRIBUIÇÃO NORMAL Ç

EXPERIMENTAL

PROPRIEDADES DA CURVA

Page 35: Estatística descritiva

SIMÉTRICASIMÉTRICA

0.4

0.2

0.3y

0.1p

-5 -3 -1 1 3 50

Page 36: Estatística descritiva

ASSIMÉTRICA POSITIVA

ASSIMÉTRICA A DIREITAXm > Md

Quando a diferença entre a média e a mediana éQuando a diferença entre a média e a mediana é positiva (mediana < média)

Page 37: Estatística descritiva

ASSIMÉTRICA NEGATIVA

ASSIMÉTRICA A ESQUERDAXm < Md

Quando a diferença entre a média e a mediana éQuando a diferença entre a média e a mediana é negativa (mediana > média)

Page 38: Estatística descritiva

MESOCURTICA

LEPTOCURTICA

PLATICURTICAPLATICURTICA

VALORES DE MEDIDAS DE TENDÊNCIA CENTRAL IDÊNTICOS

Page 39: Estatística descritiva

Três curvas normal com a mesma MÉDIATrês curvas normal com a mesma MÉDIA

5

Três curvas normal com a mesma MÉDIATrês curvas normal com a mesma MÉDIAmas com diferentes DESVIOS PADRÃOmas com diferentes DESVIOS PADRÃO

10=σ16=σ

5=σ

16σ

µ = 50

Três curvas normal com o mesmo DESVIO PADRÃO Três curvas normal com o mesmo DESVIO PADRÃO mas com diferentes MÉDIASmas com diferentes MÉDIAS

5=σ 5=σ 5=σ

20 30 40µ = 20 µ = 30 µ = 40

Fonte: Alex Pires Nunes em pagina da disciplina AQI3149 – Estatística (CCA)

Page 40: Estatística descritiva

FUNÇÃO DENSIDADE DE PROBABILIDADEFUNÇÃO DENSIDADE DE PROBABILIDADE

( )2

2

21 µ−− iX

Y 22

πσ=i eY

Page 41: Estatística descritiva

N Di t ib i ã N l á t t l tNa Distribuição Normal a área total entre a curva e o eixo das abscissas é igual a 1,

iti d id tifi b bilid d dpermitindo identificar probabilidades de eventos

Page 42: Estatística descritiva

Valores Padronizados eValores Padronizados e Distribuição Normal Padrãoç

Para facilitar a obtenção de determinadas áreas sobPara facilitar a obtenção de determinadas áreas sob uma curva normal, pode-se fazer uma transformação na variável em estudo, levando-a para uma distribuição normal com média igual a 0 (zero) e desvio padrão igual a 1. Utilizando-se em seguida a T b l d Di t ib i ã N l P d ãTabela da Distribuição Normal Padrão.

σµ−

=xz z = valor padronizado

x = valor de origemu = média da populaçãoσ p p çr = desvio padrão da população

Page 43: Estatística descritiva

Exemplop

Suponha que um pesquisador investigando o tempoSuponha que um pesquisador investigando o tempo que os estudantes levam para resolver um exercício por um método de aprendizagem individual tenhapor um método de aprendizagem individual tenha determinado que a média da turma é de 75 segundos e o desvio padrão é de 6 s. Qual percentagem de estudantes levaram menos que 65 segundos para concluir o exercício?

Page 44: Estatística descritiva

7565µx6

7565 −=z

σµ−

=xz 67,1=z

Usando a Tabela de Distribuição Normal Padrão temos que z = 1,67 equivale à uma área de 0,4525 a partir da média.

P t t t l d l tPortanto, o percentual de alunos com tempo menor que 65 s é igual a:

0,5 - 0,4525 = 0, 0475 ou 4,75%

Page 45: Estatística descritiva

TESTES DE HIPOTESESTESTES DE HIPOTESES

No tratamento estatístico de um conjunto de dados deve-se distinguir diferenças g çamostrais decorrentes do acaso (variabilidade natural) daquelas diferenças(variabilidade natural) daquelas diferenças induzidas por fatores externos.

Page 46: Estatística descritiva

TESTES DE HIPOTESESTESTES DE HIPOTESES

HIPÓTESE DE NULIDADE, denominada Hoe pressa o conceito de não diferença (ig aldade)expressa o conceito de não diferença (igualdade).

Essa é a hipótese que efetivamente é testada

Se chega se a conclusão de que H deve serSe chega-se a conclusão de que Ho deve ser rejeitada, devemos aceitar então a HIPÓTESE ALTERNATIVA ( H )HIPÓTESE ALTERNATIVA ( H1 )

Page 47: Estatística descritiva

Tipos de Erros

Tipo I = a Ho é rejeitada quando ela deveria ser aceitadeveria ser aceita

Tipo II = a Ho é aceita quando elaTipo II = a Ho é aceita quando ela deveria ser rejeitada

Page 48: Estatística descritiva

Tipos de ErrosTipos de Erros

Fonte: http://www.lncc.br/~biologia/english/downloads/InferenciaEstatistica.pdf

Page 49: Estatística descritiva

Nível de Significância (alpha)Nível de Significância (alpha)

Corresponde ao valor de risco aceito para a probabilidadeCorresponde ao valor de risco aceito para a probabilidade de ocorrer um erro tipo I (concluir que as amostras são diferentes quando na verdade elas são iguais).q g )

Em pesquisa científica, normalmente adota-se um nível de significância alpha = 0,05 ou 5%.

I t di t ti ti t i t 5Isto quer dizer que estatisticamente existe apenas 5 chances em 100 de se rejeitar erroneamente a Ho.

ATENÇÃO: Alfa é o nível de significância utilizado para calcular o nível de confiança. Ou seja, um alfa de 0,05 jindica um nível de confiança de 95%.)

Page 50: Estatística descritiva

Intervalo de Confiança para aIntervalo de Confiança para a proporção da populaçãop p ç p p ç

Page 51: Estatística descritiva

Intervalo de ConfiançaIntervalo de ConfiançaO intervalo de confiança para um parâmetro ou proporçãoO intervalo de confiança para um parâmetro ou proporção pode ser representado pela seguinte expressão:

SP PzSP ±PP )1( −

Onde:P = proporção do atributo

z = valor encontrado na tabela de distribuição normal

nPPSP

)1.( −=

P proporção do atributon = numero de casos

z = valor encontrado na tabela de distribuição normal padrão referente ao nível de confiança desejado

Para um nível de confiança de 95% (ou α = 0,05) : z = 1,96ç ( )

P – (1,96)SP P + (1,96)SPP

PSP )96,1(±

Page 52: Estatística descritiva

Exemplo

Em 400 amostras de sedimentos estuarinos136 estavam contaminadas por hidrocarbonetos. Construa um intervalo de 95% de confiança para a verdadeira proporção de amostras contaminadas.proporção de amostras contaminadas.

Page 53: Estatística descritiva

ExemploExemplo

A proporção de amostras contaminadas ép p ç

P 136/400 0 34P = 136/400 = 0,34

O erro padrão é:

nPPSP

)1.( −=

0237,0400

)34,01.(34,0=

−=pS

Page 54: Estatística descritiva

ExemploExemplo

O Intervalo de Confiança para alpha = 0,05

0464,00237,0.96,1 ==pε

046,034,0 ±

)386,0294,0( << pP

Page 55: Estatística descritiva

Uma das formas de se testar a hipótese de uma pesquisa é aplicando-se um teste de significância ao conjunto de dados disponíveis.

Estes testes auxiliam na verificação da existência de evidências estatisticamente significativas para se aceitar ou rejeitar as hipóteses previamente

b l id (H0 H1)estabelecidas (H0 e H1)

Page 56: Estatística descritiva

TESTES BICAUDAISTESTES BICAUDAIS

Utilizam as duas caudas da distribuiçãoUtilizam as duas caudas da distribuiçãoA área A área

sombreada é sombreada é α/2/2

A área A área sombreada é sombreada é

α/2/2α/2/2 α/2/2

Região deRegião deRejeiçãoRejeição

Região deRegião deRejeiçãoRejeição

Região deRegião deNão RejeiçãoNão Rejeição

µ = 3.16= 3.16 X

Esses dois valores sãoEsses dois valores sãoCC11 CC22Esses dois valores são Esses dois valores são

chamados Valores chamados Valores CríticosCríticos

Page 57: Estatística descritiva

TESTES UNICAUDAISTESTES UNICAUDAIS

Utilizam apenas uma das caudas da Utilizam apenas uma das caudas da distribuiçãodistribuição

A áreaA área

Xµ = 12= 12

A área A área sombreada sombreada

é é αA área A área

sombreada sombreada é é α

Região deRegião deNão RejeiçãoNão Rejeição

Região deRegião deRejeiçãoRejeição

CC

µ 12 12µ = 12= 12

Região de Região de Não RejeiçãoNão Rejeição

Região deRegião deRejeiçãoRejeição

X

CC

Valor CríticoValor Crítico Valor CríticoValor Crítico

CC