aula2estdesc_000

57
ESTATÍSTICA DESCRITIVA ESTATÍSTICA DESCRITIVA É o conjunto de métodos para É o conjunto de métodos para organização, apresentação e descrição de dados representativos do de dados representativos do comportamento de uma variável, onde se utilizam tabelas gráficos e medidas se utilizam tabelas, gráficos e medidas que resumem a distribuição desta variável variável.

Upload: pedro-arthur

Post on 11-Feb-2015

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Aula2EstDesc_000

ESTATÍSTICA DESCRITIVAESTATÍSTICA DESCRITIVA

É o conjunto de métodos paraÉ o conjunto de métodos paraorganização, apresentação e descriçãode dados representativos dode dados representativos docomportamento de uma variável, ondese utilizam tabelas gráficos e medidasse utilizam tabelas, gráficos e medidasque resumem a distribuição destavariávelvariável.

Page 2: Aula2EstDesc_000

VARIÁVELVARIÁVEL

As variáveis são características que podem ser observadas ou medidas em cadaser observadas ou medidas em cada elemento pesquisado (seja por censo ou amostragem levantamento ou experimento)amostragem, levantamento ou experimento). Para cada variável e para cada elemento pesquisado em um dado momento há um epesquisado, em um dado momento, há um e apenas um resultado possível.

Page 3: Aula2EstDesc_000

CLASSIFICAÇÃO DAS VARIÁVEIS

Page 4: Aula2EstDesc_000

CLASSIFICAÇÃO DAS VARIÁVEISÇ

Fonte: Marcelo Menezes Reis em http://www.inf.ufsc.br/~marcelo/INE5121.html

Page 5: Aula2EstDesc_000

POPULAÇÃOPOPULAÇÃOPOPULAÇÃOPOPULAÇÃO

A l ã d t d did i d dA coleção de todas as medidas oriundas de uma variável é chamada de POPULAÇÃO.

As medidas utilizadas para descrever ou pcaracterizar estatisticamente uma população são chamadas de p p çPARÂMETROS, representados por letras gregas ( µ, σ )g g ( µ, )

Page 6: Aula2EstDesc_000

AMOSTRAAMOSTRA

Como em geral as populações são muito grandes, se faz necessário o uso de amostras para representá-las. Estas são formadas por uma fração da população em estudo.

As estimativas dos parâmetros calculadosAs estimativas dos parâmetros calculados a partir das amostras são chamadas genericamente de ESTATÍSTICAS e sãogenericamente de ESTATÍSTICAS e sãorepresentadas por letras latinas (x, s ...)

Page 7: Aula2EstDesc_000

O conjunto de dados que descreve o O conjunto de dados que descreve o comportamento de uma variável pode ser comportamento de uma variável pode ser

ffestudado e representado na forma de estudado e representado na forma de distribuição de freqüênciasdistribuição de freqüências

DADOS BRUTOS Intervalo Freqüência

17,9 23,0 16,1 18,1 18,017,9 19,4 16,2 19,8 20,520,0 23,4 16,8 26,3 18,5

15 17 717 19 1919 21 1120,0 23,4 16,8 26,3 18,5

18,0 22,6 16,7 18,4 19,217,9 20,2 16,2 21,0 18,518 9 22 1 17 2 20 1 20 9

19 21 1121 23 523 25 625 27 118,9 22,1 17,2 20,1 20,9

17,6 25,0 15,7 18,2 23,518,5 22,0 15,7 17,5 19,2

25 27 127 29 1

18,8 24,0 24,7 18,6 25,017,7 20,2 28,0 17,1 21,1

Page 8: Aula2EstDesc_000

DISTRIBUIÇÃO NORMAL

CURVA DE GAUSS OU DE LAPLACECURVA DE GAUSS OU DE LAPLACE

É a distribuição teórica de probabilidade de É a distribuição teórica de probabilidade de variáveis contínuas mais utilizadavariáveis contínuas mais utilizadavariáveis contínuas mais utilizada variáveis contínuas mais utilizada

Page 9: Aula2EstDesc_000

IMPORTÂNCIA

1. Inúmeros fenômenos naturais podem ser representados através delarepresentados através dela

2. Vários métodos estatísticos se ajustam melhor ja esta distribuição que as demais. Pode-se utilizá-la, por exemplo, para calcular a probabilidade de ocorrência de uma série deprobabilidade de ocorrência de uma série de eventos naturais

3. Ela é a base para a inferência estatística clássica

Page 10: Aula2EstDesc_000

DISTRIBUIÇÃO NORMAL TEÓRICAÇ

PROPRIEDADESPROPRIEDADES

Page 11: Aula2EstDesc_000

Valores de medidas de tendência central idênticosValores de medidas de tendência central idênticos

MÉDIAMODAMEDIANA

Page 12: Aula2EstDesc_000

MEDIDAS DE TENDÊNCIA CENTRALMEDIDAS DE TENDÊNCIA CENTRAL

As medidas da tendência central são parâmetros que permitem que se tenhaparâmetros que permitem que se tenha uma primeira idéia, um resumo, de como se distribuem os dados de um experimentose distribuem os dados de um experimento.

Page 13: Aula2EstDesc_000

Existem três medidas principais queExistem três medidas principais que refletem a tendência central de uma distribuição de freqüências:

• Média

• Moda• Moda

• Mediana

Page 14: Aula2EstDesc_000

MÉDIAMÉDIA

ÉÉ a soma de todos os resultados dividida pelo número total de casos.

Nx

N

i∑N

x 1i∑==N

Page 15: Aula2EstDesc_000

Cálculo da Média em valoresCálculo da Média em valores agrupados em classesg p

N fx∑=1i

iiNfxx

=1i

ouN

∑N

ou

∑=1i

iipxx=1i

Page 16: Aula2EstDesc_000

Um dos problemas da utilização da média é que, por levar em conta TODOS os valores do conjunto ela pode ser distorcida porconta TODOS os valores do conjunto, ela pode ser distorcida por valores discrepantes (“outliers”) que nele existam. É importante então interpretar corretamente o valor da média.

Fonte: Marcelo Menezes Reis em http://www.inf.ufsc.br/~marcelo/INE5121.html

Page 17: Aula2EstDesc_000

MODAMODAÉ o evento ou categoria de eventos que ocorre com maior freqüência indicando oocorre com maior freqüência, indicando o valor ou categoria mais provável.

Exemplo:

2 4 7 12 23 8 11 4 12 22 7 12 9 10

Page 18: Aula2EstDesc_000

67 ModaModa

45

123

01

12 13 14 15 16 17 18 Mais12 13 14 15 16 17 18 Mais

Esses valores não precisam ser exatamente iguaisEsses valores não precisam ser exatamente iguaisEsses valores não precisam ser exatamente iguaisEsses valores não precisam ser exatamente iguais

Page 19: Aula2EstDesc_000

Classe de Freqüência freqüência Absoluta

0 - 1 01 - 2 11 2 12 - 3 13 - 4 24 5 24 - 5 25 - 6 36 - 7 2

LLii= 7= 7

d1 =4-2=27 - 8 48 - 9 39 -10 2 d2=4-3=19 10 2

hdd

dLm21

1i0 ++= 66,71

1227m 0 =+

+=

Page 20: Aula2EstDesc_000

MEDIANAMEDIANA

É o valor da variável a partir do qual metade dosÉ o valor da variável a partir do qual metade dos casos se encontra acima dele e metade se encontra abaixo.

Se o n° de observações for impar, a mediana será o valor central da distribuição; se o n° for par, a mediana será a média dos dois valores centrais.

Pouco afetada por eventuais valores discrepantes existentes no conjunto (que costumam distorcer substancialmente o valor da média).

Page 21: Aula2EstDesc_000

E lExemplo

Mantendo o mesmo exemplo anterior, mas com as notas ordenadas:1,0 2,0 3,0 3,0 4,0 4,0 5,0 5,0 5 0 5 0 6 0 6 5 7 0 7 0 7 0 7 55,0 5,0 6,0 6,5 7,0 7,0 7,0 7,5 8,0 8,0 9,5 9,5

O décimo valor da variável é : 5,0 O dé i i i l é 6 0O décimo primeiro valor é: 6,0

A mediana é um valor situado entre 5,0 e 6,0A mediana é um valor situado entre 5,0 e 6,0

Page 22: Aula2EstDesc_000

Cálculo da Mediana em valoresCálculo da Mediana em valores agrupados em classesg p

Fn

mdd

aid h

f

F2Lm−

+=mdf

ONDE:md= medianad

Li= limite inferior da classe da mediana (é a classe cuja freq. acumulada supera pela 1a. vez n/2)

Fa= freqüência acumulada das classes anteriores à da mediana

fmd= freqüência absoluta simples da mediana

hmd= amplitude da classe da mediana

Page 23: Aula2EstDesc_000

ExemploClasse de Freqüência Freqüência f üê i Ab l t A l d

Exemplo

freqüência Absoluta Acumulada0 - 1 0 01 - 2 1 12 - 3 1 23 - 4 2 44 - 5 2 6f

Fa4 5 2 65 - 6 3 96 - 7 2 117 8 4 15

fmd Classe da mediana

7 - 8 4 158 - 9 3 189 -10 2 20 md

aid h

f

F2n

Lm−

+=

Li= 6n md

mdid f

5619

220

6−hmd= 7-6 = 1 5,61

226m d =+=hmd 7 6 1

Page 24: Aula2EstDesc_000

Fonte: Marcelo Menezes Reis em http://www.inf.ufsc.br/~marcelo/INE5121.html

Page 25: Aula2EstDesc_000

MEDIDAS DE DISPERSÃOMEDIDAS DE DISPERSÃO

São medidas da dispersão de um conjunto de dados em torno da média, ou seja, da maior ou

i bilid d d lt d btidmenor variabilidade dos resultados obtidos. Elas permitem identificar até que ponto os

resultados se concentram ou não ao redor daresultados se concentram ou não ao redor da tendência central de um conjunto de

observaçõesobservações.

Page 26: Aula2EstDesc_000

Existem várias medidas para avaliar a pdispersão de um conjunto de dados. As principais são:

1. Amplitude ou Intervalo2. Variância3. Desvio Padrão4 C fi i t d V i ã4. Coeficiente de Variação

Page 27: Aula2EstDesc_000

AmplitudeAmplitude

É a diferença entre o maior e o menor valor que foi observado para a variável, servindo q p ,para caracterizar a abrangência do estudo.

Page 28: Aula2EstDesc_000

Variância

ÉÉ a soma dos quadrados dos desvios de cada ponto em torno da média aritmética. Caracteriza a dispersão dos pontos de uma amostra potencializando as diferenças.

n n

xxn

imi∑ −=

=1

22 )(σ )(1

22 ∑ −==

xxsn

imi

N 1−nVariância Populacional ou Variância Amostral

Page 29: Aula2EstDesc_000

Exemplo:

Calcular a variância amostral do conjunto

1, 2, 3, 4, 5

n = 5 xm = 3

s2 = (3-1)2 + (3-2)2 + (3-3)2 + (3-4)2 + (3-5)2 + (3-1)2

5 - 1s2 = 4 + 1 + 0 + 1 + 4 = 2,5

4

OBS: a unidade da variância é igual a unidade de medida gdas observações elevada ao quadrado.

Page 30: Aula2EstDesc_000

Desvio PadrãoDesvio Padrão

O desvio padrão é a raiz quadrada da variância.

Desvio padrão)( 2∑ − XmXi

Desvio-padrão =

1−n

No exemplo anterior equivale a s = 1,58

A unidade do desvio padrão é igual a unidade de medida das observações.

Page 31: Aula2EstDesc_000

Coeficiente de Variação

É uma medida de dispersão relativa que indica a variabilidade da amostra em relação à média. Resultado do desvio padrão dividido pela média, transformado em percentual.

s 100.mx

sCV =mx

No exemplo anterior equivale a CV = 52,6%

Permite comparar a dispersão de diferentes distribuições (com diferentes médias e desvios padrões).( p )

Page 32: Aula2EstDesc_000

ÕQUAL DAS DISTRIBUIÇÕES TEM MAIOR DISPERSÃO DOS DADOS

(HETEROGENEIDADE DA POPULAÇÃO)?

SALINIDADE: 32,0 ± 6,4pH: 8 2 ± 1 64pH: 8,2 ± 1,64

Page 33: Aula2EstDesc_000

QUAL DAS DISTRIBUIÇÕES TEM MAIOR DISPERSÃOQUAL DAS DISTRIBUIÇÕES TEM MAIOR DISPERSÃO DOS DADOS (HETEROGENEIDADE DA POPULAÇÃO)?

SALINIDADE: 32 0 ± 6 4SALINIDADE: 32,0 ± 6,4CV = 20%

pH: 8 2 ± 1 64pH: 8,2 ± 1,64CV = 20%

Re: são iguais

Page 34: Aula2EstDesc_000

DISTRIBUIÇÃO NORMAL Ç

EXPERIMENTAL

PROPRIEDADES DA CURVA

Page 35: Aula2EstDesc_000

SIMÉTRICASIMÉTRICA

0.4

0.2

0.3y

0.1p

-5 -3 -1 1 3 50

Page 36: Aula2EstDesc_000

ASSIMÉTRICA POSITIVA

ASSIMÉTRICA A DIREITAXm > Md

Quando a diferença entre a média e a mediana éQuando a diferença entre a média e a mediana é positiva (mediana < média)

Page 37: Aula2EstDesc_000

ASSIMÉTRICA NEGATIVA

ASSIMÉTRICA A ESQUERDAXm < Md

Quando a diferença entre a média e a mediana éQuando a diferença entre a média e a mediana é negativa (mediana > média)

Page 38: Aula2EstDesc_000

MESOCURTICA

LEPTOCURTICA

PLATICURTICAPLATICURTICA

VALORES DE MEDIDAS DE TENDÊNCIA CENTRAL IDÊNTICOS

Page 39: Aula2EstDesc_000

Três curvas normal com a mesma MÉDIATrês curvas normal com a mesma MÉDIA

5

Três curvas normal com a mesma MÉDIATrês curvas normal com a mesma MÉDIAmas com diferentes DESVIOS PADRÃOmas com diferentes DESVIOS PADRÃO

10=σ16=σ

5=σ

16σ

µ = 50

Três curvas normal com o mesmo DESVIO PADRÃO Três curvas normal com o mesmo DESVIO PADRÃO mas com diferentes MÉDIASmas com diferentes MÉDIAS

5=σ 5=σ 5=σ

20 30 40µ = 20 µ = 30 µ = 40

Fonte: Alex Pires Nunes em pagina da disciplina AQI3149 – Estatística (CCA)

Page 40: Aula2EstDesc_000

FUNÇÃO DENSIDADE DE PROBABILIDADEFUNÇÃO DENSIDADE DE PROBABILIDADE

( )2

2

21 µ−− iX

Y 22

πσ=i eY

Page 41: Aula2EstDesc_000

N Di t ib i ã N l á t t l tNa Distribuição Normal a área total entre a curva e o eixo das abscissas é igual a 1,

iti d id tifi b bilid d dpermitindo identificar probabilidades de eventos

Page 42: Aula2EstDesc_000

Valores Padronizados eValores Padronizados e Distribuição Normal Padrãoç

Para facilitar a obtenção de determinadas áreas sobPara facilitar a obtenção de determinadas áreas sob uma curva normal, pode-se fazer uma transformação na variável em estudo, levando-a para uma distribuição normal com média igual a 0 (zero) e desvio padrão igual a 1. Utilizando-se em seguida a T b l d Di t ib i ã N l P d ãTabela da Distribuição Normal Padrão.

σµ−

=xz z = valor padronizado

x = valor de origemu = média da populaçãoσ p p çr = desvio padrão da população

Page 43: Aula2EstDesc_000

Exemplop

Suponha que um pesquisador investigando o tempoSuponha que um pesquisador investigando o tempo que os estudantes levam para resolver um exercício por um método de aprendizagem individual tenhapor um método de aprendizagem individual tenha determinado que a média da turma é de 75 segundos e o desvio padrão é de 6 s. Qual percentagem de estudantes levaram menos que 65 segundos para concluir o exercício?

Page 44: Aula2EstDesc_000

7565µx6

7565 −=z

σµ−

=xz 67,1=z

Usando a Tabela de Distribuição Normal Padrão temos que z = 1,67 equivale à uma área de 0,4525 a partir da média.

P t t t l d l tPortanto, o percentual de alunos com tempo menor que 65 s é igual a:

0,5 - 0,4525 = 0, 0475 ou 4,75%

Page 45: Aula2EstDesc_000

TESTES DE HIPOTESESTESTES DE HIPOTESES

No tratamento estatístico de um conjunto de dados deve-se distinguir diferenças g çamostrais decorrentes do acaso (variabilidade natural) daquelas diferenças(variabilidade natural) daquelas diferenças induzidas por fatores externos.

Page 46: Aula2EstDesc_000

TESTES DE HIPOTESESTESTES DE HIPOTESES

HIPÓTESE DE NULIDADE, denominada Hoe pressa o conceito de não diferença (ig aldade)expressa o conceito de não diferença (igualdade).

Essa é a hipótese que efetivamente é testada

Se chega se a conclusão de que H deve serSe chega-se a conclusão de que Ho deve ser rejeitada, devemos aceitar então a HIPÓTESE ALTERNATIVA ( H )HIPÓTESE ALTERNATIVA ( H1 )

Page 47: Aula2EstDesc_000

Tipos de Erros

Tipo I = a Ho é rejeitada quando ela deveria ser aceitadeveria ser aceita

Tipo II = a Ho é aceita quando elaTipo II = a Ho é aceita quando ela deveria ser rejeitada

Page 48: Aula2EstDesc_000

Tipos de ErrosTipos de Erros

Fonte: http://www.lncc.br/~biologia/english/downloads/InferenciaEstatistica.pdf

Page 49: Aula2EstDesc_000

Nível de Significância (alpha)Nível de Significância (alpha)

Corresponde ao valor de risco aceito para a probabilidadeCorresponde ao valor de risco aceito para a probabilidade de ocorrer um erro tipo I (concluir que as amostras são diferentes quando na verdade elas são iguais).q g )

Em pesquisa científica, normalmente adota-se um nível de significância alpha = 0,05 ou 5%.

I t di t ti ti t i t 5Isto quer dizer que estatisticamente existe apenas 5 chances em 100 de se rejeitar erroneamente a Ho.

ATENÇÃO: Alfa é o nível de significância utilizado para calcular o nível de confiança. Ou seja, um alfa de 0,05 jindica um nível de confiança de 95%.)

Page 50: Aula2EstDesc_000

Intervalo de Confiança para aIntervalo de Confiança para a proporção da populaçãop p ç p p ç

Page 51: Aula2EstDesc_000

Intervalo de ConfiançaIntervalo de ConfiançaO intervalo de confiança para um parâmetro ou proporçãoO intervalo de confiança para um parâmetro ou proporção pode ser representado pela seguinte expressão:

SP PzSP ±PP )1( −

Onde:P = proporção do atributo

z = valor encontrado na tabela de distribuição normal

nPPSP

)1.( −=

P proporção do atributon = numero de casos

z = valor encontrado na tabela de distribuição normal padrão referente ao nível de confiança desejado

Para um nível de confiança de 95% (ou α = 0,05) : z = 1,96ç ( )

P – (1,96)SP P + (1,96)SPP

PSP )96,1(±

Page 52: Aula2EstDesc_000

Exemplo

Em 400 amostras de sedimentos estuarinos136 estavam contaminadas por hidrocarbonetos. Construa um intervalo de 95% de confiança para a verdadeira proporção de amostras contaminadas.proporção de amostras contaminadas.

Page 53: Aula2EstDesc_000

ExemploExemplo

A proporção de amostras contaminadas ép p ç

P 136/400 0 34P = 136/400 = 0,34

O erro padrão é:

nPPSP

)1.( −=

0237,0400

)34,01.(34,0=

−=pS

Page 54: Aula2EstDesc_000

ExemploExemplo

O Intervalo de Confiança para alpha = 0,05

0464,00237,0.96,1 ==pε

046,034,0 ±

)386,0294,0( << pP

Page 55: Aula2EstDesc_000

Uma das formas de se testar a hipótese de uma pesquisa é aplicando-se um teste de significância ao conjunto de dados disponíveis.

Estes testes auxiliam na verificação da existência de evidências estatisticamente significativas para se aceitar ou rejeitar as hipóteses previamente

b l id (H0 H1)estabelecidas (H0 e H1)

Page 56: Aula2EstDesc_000

TESTES BICAUDAISTESTES BICAUDAIS

Utilizam as duas caudas da distribuiçãoUtilizam as duas caudas da distribuiçãoA área A área

sombreada é sombreada é α/2/2

A área A área sombreada é sombreada é

α/2/2α/2/2 α/2/2

Região deRegião deRejeiçãoRejeição

Região deRegião deRejeiçãoRejeição

Região deRegião deNão RejeiçãoNão Rejeição

µ = 3.16= 3.16 X

Esses dois valores sãoEsses dois valores sãoCC11 CC22Esses dois valores são Esses dois valores são

chamados Valores chamados Valores CríticosCríticos

Page 57: Aula2EstDesc_000

TESTES UNICAUDAISTESTES UNICAUDAIS

Utilizam apenas uma das caudas da Utilizam apenas uma das caudas da distribuiçãodistribuição

A áreaA área

Xµ = 12= 12

A área A área sombreada sombreada

é é αA área A área

sombreada sombreada é é α

Região deRegião deNão RejeiçãoNão Rejeição

Região deRegião deRejeiçãoRejeição

CC

µ 12 12µ = 12= 12

Região de Região de Não RejeiçãoNão Rejeição

Região deRegião deRejeiçãoRejeição

X

CC

Valor CríticoValor Crítico Valor CríticoValor Crítico

CC