estatística descritiva
TRANSCRIPT
ESTATÍSTICA DESCRITIVAESTATÍSTICA DESCRITIVA
É o conjunto de métodos paraÉ o conjunto de métodos paraorganização, apresentação e descriçãode dados representativos dode dados representativos docomportamento de uma variável, ondese utilizam tabelas gráficos e medidasse utilizam tabelas, gráficos e medidasque resumem a distribuição destavariávelvariável.
VARIÁVELVARIÁVEL
As variáveis são características que podem ser observadas ou medidas em cadaser observadas ou medidas em cada elemento pesquisado (seja por censo ou amostragem levantamento ou experimento)amostragem, levantamento ou experimento). Para cada variável e para cada elemento pesquisado em um dado momento há um epesquisado, em um dado momento, há um e apenas um resultado possível.
CLASSIFICAÇÃO DAS VARIÁVEIS
CLASSIFICAÇÃO DAS VARIÁVEISÇ
Fonte: Marcelo Menezes Reis em http://www.inf.ufsc.br/~marcelo/INE5121.html
POPULAÇÃOPOPULAÇÃOPOPULAÇÃOPOPULAÇÃO
A l ã d t d did i d dA coleção de todas as medidas oriundas de uma variável é chamada de POPULAÇÃO.
As medidas utilizadas para descrever ou pcaracterizar estatisticamente uma população são chamadas de p p çPARÂMETROS, representados por letras gregas ( µ, σ )g g ( µ, )
AMOSTRAAMOSTRA
Como em geral as populações são muito grandes, se faz necessário o uso de amostras para representá-las. Estas são formadas por uma fração da população em estudo.
As estimativas dos parâmetros calculadosAs estimativas dos parâmetros calculados a partir das amostras são chamadas genericamente de ESTATÍSTICAS e sãogenericamente de ESTATÍSTICAS e sãorepresentadas por letras latinas (x, s ...)
O conjunto de dados que descreve o O conjunto de dados que descreve o comportamento de uma variável pode ser comportamento de uma variável pode ser
ffestudado e representado na forma de estudado e representado na forma de distribuição de freqüênciasdistribuição de freqüências
DADOS BRUTOS Intervalo Freqüência
17,9 23,0 16,1 18,1 18,017,9 19,4 16,2 19,8 20,520,0 23,4 16,8 26,3 18,5
15 17 717 19 1919 21 1120,0 23,4 16,8 26,3 18,5
18,0 22,6 16,7 18,4 19,217,9 20,2 16,2 21,0 18,518 9 22 1 17 2 20 1 20 9
19 21 1121 23 523 25 625 27 118,9 22,1 17,2 20,1 20,9
17,6 25,0 15,7 18,2 23,518,5 22,0 15,7 17,5 19,2
25 27 127 29 1
18,8 24,0 24,7 18,6 25,017,7 20,2 28,0 17,1 21,1
DISTRIBUIÇÃO NORMAL
CURVA DE GAUSS OU DE LAPLACECURVA DE GAUSS OU DE LAPLACE
É a distribuição teórica de probabilidade de É a distribuição teórica de probabilidade de variáveis contínuas mais utilizadavariáveis contínuas mais utilizadavariáveis contínuas mais utilizada variáveis contínuas mais utilizada
IMPORTÂNCIA
1. Inúmeros fenômenos naturais podem ser representados através delarepresentados através dela
2. Vários métodos estatísticos se ajustam melhor ja esta distribuição que as demais. Pode-se utilizá-la, por exemplo, para calcular a probabilidade de ocorrência de uma série deprobabilidade de ocorrência de uma série de eventos naturais
3. Ela é a base para a inferência estatística clássica
DISTRIBUIÇÃO NORMAL TEÓRICAÇ
PROPRIEDADESPROPRIEDADES
Valores de medidas de tendência central idênticosValores de medidas de tendência central idênticos
MÉDIAMODAMEDIANA
MEDIDAS DE TENDÊNCIA CENTRALMEDIDAS DE TENDÊNCIA CENTRAL
As medidas da tendência central são parâmetros que permitem que se tenhaparâmetros que permitem que se tenha uma primeira idéia, um resumo, de como se distribuem os dados de um experimentose distribuem os dados de um experimento.
Existem três medidas principais queExistem três medidas principais que refletem a tendência central de uma distribuição de freqüências:
• Média
• Moda• Moda
• Mediana
MÉDIAMÉDIA
ÉÉ a soma de todos os resultados dividida pelo número total de casos.
Nx
N
i∑N
x 1i∑==N
Cálculo da Média em valoresCálculo da Média em valores agrupados em classesg p
N fx∑=1i
iiNfxx
=1i
ouN
∑N
ou
∑=1i
iipxx=1i
Um dos problemas da utilização da média é que, por levar em conta TODOS os valores do conjunto ela pode ser distorcida porconta TODOS os valores do conjunto, ela pode ser distorcida por valores discrepantes (“outliers”) que nele existam. É importante então interpretar corretamente o valor da média.
Fonte: Marcelo Menezes Reis em http://www.inf.ufsc.br/~marcelo/INE5121.html
MODAMODAÉ o evento ou categoria de eventos que ocorre com maior freqüência indicando oocorre com maior freqüência, indicando o valor ou categoria mais provável.
Exemplo:
2 4 7 12 23 8 11 4 12 22 7 12 9 10
67 ModaModa
45
123
01
12 13 14 15 16 17 18 Mais12 13 14 15 16 17 18 Mais
Esses valores não precisam ser exatamente iguaisEsses valores não precisam ser exatamente iguaisEsses valores não precisam ser exatamente iguaisEsses valores não precisam ser exatamente iguais
Classe de Freqüência freqüência Absoluta
0 - 1 01 - 2 11 2 12 - 3 13 - 4 24 5 24 - 5 25 - 6 36 - 7 2
LLii= 7= 7
d1 =4-2=27 - 8 48 - 9 39 -10 2 d2=4-3=19 10 2
hdd
dLm21
1i0 ++= 66,71
1227m 0 =+
+=
MEDIANAMEDIANA
É o valor da variável a partir do qual metade dosÉ o valor da variável a partir do qual metade dos casos se encontra acima dele e metade se encontra abaixo.
Se o n° de observações for impar, a mediana será o valor central da distribuição; se o n° for par, a mediana será a média dos dois valores centrais.
Pouco afetada por eventuais valores discrepantes existentes no conjunto (que costumam distorcer substancialmente o valor da média).
E lExemplo
Mantendo o mesmo exemplo anterior, mas com as notas ordenadas:1,0 2,0 3,0 3,0 4,0 4,0 5,0 5,0 5 0 5 0 6 0 6 5 7 0 7 0 7 0 7 55,0 5,0 6,0 6,5 7,0 7,0 7,0 7,5 8,0 8,0 9,5 9,5
O décimo valor da variável é : 5,0 O dé i i i l é 6 0O décimo primeiro valor é: 6,0
A mediana é um valor situado entre 5,0 e 6,0A mediana é um valor situado entre 5,0 e 6,0
Cálculo da Mediana em valoresCálculo da Mediana em valores agrupados em classesg p
Fn
mdd
aid h
f
F2Lm−
+=mdf
ONDE:md= medianad
Li= limite inferior da classe da mediana (é a classe cuja freq. acumulada supera pela 1a. vez n/2)
Fa= freqüência acumulada das classes anteriores à da mediana
fmd= freqüência absoluta simples da mediana
hmd= amplitude da classe da mediana
ExemploClasse de Freqüência Freqüência f üê i Ab l t A l d
Exemplo
freqüência Absoluta Acumulada0 - 1 0 01 - 2 1 12 - 3 1 23 - 4 2 44 - 5 2 6f
Fa4 5 2 65 - 6 3 96 - 7 2 117 8 4 15
fmd Classe da mediana
7 - 8 4 158 - 9 3 189 -10 2 20 md
aid h
f
F2n
Lm−
+=
Li= 6n md
mdid f
5619
220
6−hmd= 7-6 = 1 5,61
226m d =+=hmd 7 6 1
Fonte: Marcelo Menezes Reis em http://www.inf.ufsc.br/~marcelo/INE5121.html
MEDIDAS DE DISPERSÃOMEDIDAS DE DISPERSÃO
São medidas da dispersão de um conjunto de dados em torno da média, ou seja, da maior ou
i bilid d d lt d btidmenor variabilidade dos resultados obtidos. Elas permitem identificar até que ponto os
resultados se concentram ou não ao redor daresultados se concentram ou não ao redor da tendência central de um conjunto de
observaçõesobservações.
Existem várias medidas para avaliar a pdispersão de um conjunto de dados. As principais são:
1. Amplitude ou Intervalo2. Variância3. Desvio Padrão4 C fi i t d V i ã4. Coeficiente de Variação
AmplitudeAmplitude
É a diferença entre o maior e o menor valor que foi observado para a variável, servindo q p ,para caracterizar a abrangência do estudo.
Variância
ÉÉ a soma dos quadrados dos desvios de cada ponto em torno da média aritmética. Caracteriza a dispersão dos pontos de uma amostra potencializando as diferenças.
n n
xxn
imi∑ −=
=1
22 )(σ )(1
22 ∑ −==
xxsn
imi
N 1−nVariância Populacional ou Variância Amostral
Exemplo:
Calcular a variância amostral do conjunto
1, 2, 3, 4, 5
n = 5 xm = 3
s2 = (3-1)2 + (3-2)2 + (3-3)2 + (3-4)2 + (3-5)2 + (3-1)2
5 - 1s2 = 4 + 1 + 0 + 1 + 4 = 2,5
4
OBS: a unidade da variância é igual a unidade de medida gdas observações elevada ao quadrado.
Desvio PadrãoDesvio Padrão
O desvio padrão é a raiz quadrada da variância.
Desvio padrão)( 2∑ − XmXi
Desvio-padrão =
1−n
No exemplo anterior equivale a s = 1,58
A unidade do desvio padrão é igual a unidade de medida das observações.
Coeficiente de Variação
É uma medida de dispersão relativa que indica a variabilidade da amostra em relação à média. Resultado do desvio padrão dividido pela média, transformado em percentual.
s 100.mx
sCV =mx
No exemplo anterior equivale a CV = 52,6%
Permite comparar a dispersão de diferentes distribuições (com diferentes médias e desvios padrões).( p )
ÕQUAL DAS DISTRIBUIÇÕES TEM MAIOR DISPERSÃO DOS DADOS
(HETEROGENEIDADE DA POPULAÇÃO)?
SALINIDADE: 32,0 ± 6,4pH: 8 2 ± 1 64pH: 8,2 ± 1,64
QUAL DAS DISTRIBUIÇÕES TEM MAIOR DISPERSÃOQUAL DAS DISTRIBUIÇÕES TEM MAIOR DISPERSÃO DOS DADOS (HETEROGENEIDADE DA POPULAÇÃO)?
SALINIDADE: 32 0 ± 6 4SALINIDADE: 32,0 ± 6,4CV = 20%
pH: 8 2 ± 1 64pH: 8,2 ± 1,64CV = 20%
Re: são iguais
DISTRIBUIÇÃO NORMAL Ç
EXPERIMENTAL
PROPRIEDADES DA CURVA
SIMÉTRICASIMÉTRICA
0.4
0.2
0.3y
0.1p
-5 -3 -1 1 3 50
ASSIMÉTRICA POSITIVA
ASSIMÉTRICA A DIREITAXm > Md
Quando a diferença entre a média e a mediana éQuando a diferença entre a média e a mediana é positiva (mediana < média)
ASSIMÉTRICA NEGATIVA
ASSIMÉTRICA A ESQUERDAXm < Md
Quando a diferença entre a média e a mediana éQuando a diferença entre a média e a mediana é negativa (mediana > média)
MESOCURTICA
LEPTOCURTICA
PLATICURTICAPLATICURTICA
VALORES DE MEDIDAS DE TENDÊNCIA CENTRAL IDÊNTICOS
Três curvas normal com a mesma MÉDIATrês curvas normal com a mesma MÉDIA
5
Três curvas normal com a mesma MÉDIATrês curvas normal com a mesma MÉDIAmas com diferentes DESVIOS PADRÃOmas com diferentes DESVIOS PADRÃO
10=σ16=σ
5=σ
16σ
µ = 50
Três curvas normal com o mesmo DESVIO PADRÃO Três curvas normal com o mesmo DESVIO PADRÃO mas com diferentes MÉDIASmas com diferentes MÉDIAS
5=σ 5=σ 5=σ
20 30 40µ = 20 µ = 30 µ = 40
Fonte: Alex Pires Nunes em pagina da disciplina AQI3149 – Estatística (CCA)
FUNÇÃO DENSIDADE DE PROBABILIDADEFUNÇÃO DENSIDADE DE PROBABILIDADE
( )2
2
21 µ−− iX
Y 22
2σ
πσ=i eY
N Di t ib i ã N l á t t l tNa Distribuição Normal a área total entre a curva e o eixo das abscissas é igual a 1,
iti d id tifi b bilid d dpermitindo identificar probabilidades de eventos
Valores Padronizados eValores Padronizados e Distribuição Normal Padrãoç
Para facilitar a obtenção de determinadas áreas sobPara facilitar a obtenção de determinadas áreas sob uma curva normal, pode-se fazer uma transformação na variável em estudo, levando-a para uma distribuição normal com média igual a 0 (zero) e desvio padrão igual a 1. Utilizando-se em seguida a T b l d Di t ib i ã N l P d ãTabela da Distribuição Normal Padrão.
σµ−
=xz z = valor padronizado
x = valor de origemu = média da populaçãoσ p p çr = desvio padrão da população
Exemplop
Suponha que um pesquisador investigando o tempoSuponha que um pesquisador investigando o tempo que os estudantes levam para resolver um exercício por um método de aprendizagem individual tenhapor um método de aprendizagem individual tenha determinado que a média da turma é de 75 segundos e o desvio padrão é de 6 s. Qual percentagem de estudantes levaram menos que 65 segundos para concluir o exercício?
7565µx6
7565 −=z
σµ−
=xz 67,1=z
Usando a Tabela de Distribuição Normal Padrão temos que z = 1,67 equivale à uma área de 0,4525 a partir da média.
P t t t l d l tPortanto, o percentual de alunos com tempo menor que 65 s é igual a:
0,5 - 0,4525 = 0, 0475 ou 4,75%
TESTES DE HIPOTESESTESTES DE HIPOTESES
No tratamento estatístico de um conjunto de dados deve-se distinguir diferenças g çamostrais decorrentes do acaso (variabilidade natural) daquelas diferenças(variabilidade natural) daquelas diferenças induzidas por fatores externos.
TESTES DE HIPOTESESTESTES DE HIPOTESES
HIPÓTESE DE NULIDADE, denominada Hoe pressa o conceito de não diferença (ig aldade)expressa o conceito de não diferença (igualdade).
Essa é a hipótese que efetivamente é testada
Se chega se a conclusão de que H deve serSe chega-se a conclusão de que Ho deve ser rejeitada, devemos aceitar então a HIPÓTESE ALTERNATIVA ( H )HIPÓTESE ALTERNATIVA ( H1 )
Tipos de Erros
Tipo I = a Ho é rejeitada quando ela deveria ser aceitadeveria ser aceita
Tipo II = a Ho é aceita quando elaTipo II = a Ho é aceita quando ela deveria ser rejeitada
Tipos de ErrosTipos de Erros
Fonte: http://www.lncc.br/~biologia/english/downloads/InferenciaEstatistica.pdf
Nível de Significância (alpha)Nível de Significância (alpha)
Corresponde ao valor de risco aceito para a probabilidadeCorresponde ao valor de risco aceito para a probabilidade de ocorrer um erro tipo I (concluir que as amostras são diferentes quando na verdade elas são iguais).q g )
Em pesquisa científica, normalmente adota-se um nível de significância alpha = 0,05 ou 5%.
I t di t ti ti t i t 5Isto quer dizer que estatisticamente existe apenas 5 chances em 100 de se rejeitar erroneamente a Ho.
ATENÇÃO: Alfa é o nível de significância utilizado para calcular o nível de confiança. Ou seja, um alfa de 0,05 jindica um nível de confiança de 95%.)
Intervalo de Confiança para aIntervalo de Confiança para a proporção da populaçãop p ç p p ç
Intervalo de ConfiançaIntervalo de ConfiançaO intervalo de confiança para um parâmetro ou proporçãoO intervalo de confiança para um parâmetro ou proporção pode ser representado pela seguinte expressão:
SP PzSP ±PP )1( −
Onde:P = proporção do atributo
z = valor encontrado na tabela de distribuição normal
nPPSP
)1.( −=
P proporção do atributon = numero de casos
z = valor encontrado na tabela de distribuição normal padrão referente ao nível de confiança desejado
Para um nível de confiança de 95% (ou α = 0,05) : z = 1,96ç ( )
P – (1,96)SP P + (1,96)SPP
PSP )96,1(±
Exemplo
Em 400 amostras de sedimentos estuarinos136 estavam contaminadas por hidrocarbonetos. Construa um intervalo de 95% de confiança para a verdadeira proporção de amostras contaminadas.proporção de amostras contaminadas.
ExemploExemplo
A proporção de amostras contaminadas ép p ç
P 136/400 0 34P = 136/400 = 0,34
O erro padrão é:
nPPSP
)1.( −=
0237,0400
)34,01.(34,0=
−=pS
ExemploExemplo
O Intervalo de Confiança para alpha = 0,05
0464,00237,0.96,1 ==pε
046,034,0 ±
)386,0294,0( << pP
Uma das formas de se testar a hipótese de uma pesquisa é aplicando-se um teste de significância ao conjunto de dados disponíveis.
Estes testes auxiliam na verificação da existência de evidências estatisticamente significativas para se aceitar ou rejeitar as hipóteses previamente
b l id (H0 H1)estabelecidas (H0 e H1)
TESTES BICAUDAISTESTES BICAUDAIS
Utilizam as duas caudas da distribuiçãoUtilizam as duas caudas da distribuiçãoA área A área
sombreada é sombreada é α/2/2
A área A área sombreada é sombreada é
α/2/2α/2/2 α/2/2
Região deRegião deRejeiçãoRejeição
Região deRegião deRejeiçãoRejeição
Região deRegião deNão RejeiçãoNão Rejeição
µ = 3.16= 3.16 X
Esses dois valores sãoEsses dois valores sãoCC11 CC22Esses dois valores são Esses dois valores são
chamados Valores chamados Valores CríticosCríticos
TESTES UNICAUDAISTESTES UNICAUDAIS
Utilizam apenas uma das caudas da Utilizam apenas uma das caudas da distribuiçãodistribuição
A áreaA área
Xµ = 12= 12
A área A área sombreada sombreada
é é αA área A área
sombreada sombreada é é α
Região deRegião deNão RejeiçãoNão Rejeição
Região deRegião deRejeiçãoRejeição
CC
µ 12 12µ = 12= 12
Região de Região de Não RejeiçãoNão Rejeição
Região deRegião deRejeiçãoRejeição
X
CC
Valor CríticoValor Crítico Valor CríticoValor Crítico
CC