análise exploratória dos dados estatística descritiva univariada eng. de minas joão felipe c.l....
TRANSCRIPT
Análise Exploratória dos Análise Exploratória dos DadosDadosEstatística Descritiva UnivariadaEstatística Descritiva Univariada
Geoes t at ís t ica
Eng. de Minas João Felipe C.L. CostaEng. de Minas João Felipe C.L. CostaProf. Dr. do DEMIN/PPGEM, UFRGS
Eng. de Minas Luis Eduardo de SouzaEng. de Minas Luis Eduardo de SouzaDoutorando do PPGEM, UFRGS
• Estatística descritiva e inferencialEstatística descritiva e inferencial
• Tipos de dadosTipos de dados
• Variável aleatóriaVariável aleatória
• Apresentação estatísticaApresentação estatística
• Distribuição de freqüênciasDistribuição de freqüências
• Medidas descritivasMedidas descritivas
• Modelos de distribuiçãoModelos de distribuição
• Populações estatísticasPopulações estatísticas
Estrutura da ApresentaçãoEstrutura da Apresentação
G
G
A estatística descritiva tem por objetivo descrever a realidade observada (população ou amostra), usando métodos numéricos e métodos gráficos e realizando comentários simples de maneira mais informativa possível.
Pode-se dizer que a estatística descritiva ocupa-se do tratamento de dados quantitativos (ordenação, exposição e sumarização de registros de dados) do fenômeno em estudo.
A estatística inferencial (ou indutiva) ocupa-se em formular inferências sobre uma população, com base em informações contidas na amostra. Ou seja, através de técnicas inferenciais conclui-se para o todo, a partir da observação de uma parte. Assim, os métodos de estatística inferencial só podem ser utilizados, com algum sentido, sobre dados amostrais.
Estatística descritiva e inferencialEstatística descritiva e inferencial
G
A experiência diária mostra a necessidade de se fazer generalizações sobre assuntos e circunstâncias que freqüentemente ultrapassam as fronteiras do quotidiano indicando que, dentro de certos limites, o conhecimento de uma parte do todo é uma informação prática e útil que pode ser aplicável à totalidade. Essa parte representativa do todo é denominada amostra.
O procedimento de obtenção de uma amostra chama-se levantamento por amostragem e é utilizado para diminuir o custo total do levantamento de dados.
As características numéricas de uma população chama-se parâmetros, enquanto que estatísticas são características de uma amostra. Normalmente, as estatísticas são utilizadas como base para se estimar os parâmetros populacionais.
Tipos de dadosTipos de dados
Variável em estatística, é a atribuição de um número a cada característica da unidade de observação, ou seja, é uma função matemática definida na população. É importante que se saiba distinguir entre variáveis quantitativas e qualitativas. Uma outra distinção importante é entre variáveis discretas e variáveis contínuas. Aditivas e não Aditivas.
Uma variável aleatória é uma variável que tem associada a si as possibilidades de assumir seus diferentes valores (no caso de a variável ser discreta) ou se encontrar dentro de intervalos determinados (no caso de ser contínua).
G
Variável aleatóriaVariável aleatória
Uma variável aleatória também possui média e variância. A sua média, também chamado valor esperado ou esperança matemática, e que se representa por E(x), é a média aritmética dos valores assumidos pela variável ponderados por suas respectivas probabilidades. Quando a variável é discreta, tais probabilidades são dadas pela chamada função de probabilidade e, para variáveis aleatórias contínuas, pela função distribuição de probabilidade.
G
Uma vez coletados, os dados devem ser reunidos de forma utilizável. Geralmente isso é feito por meio de tabelas e gráficos, constituindo a chamada apresentação estatística.A forma mais simples de apresentar um banco de dados, por exemplo, é simplesmente listá-lo. A única informação, no entanto, que esse tipo de apresentação fornece é o valor da variável em cada posição espacial. Nenhum conhecimento quanto à natureza da distribuição global é agregado. G
Apresentação estatísticaApresentação estatística
G
Distribuição de freqüênciasDistribuição de freqüências
A distribuição de freqüências de uma variável é o conjunto das freqüências de todos os diferentes valores observados da variável. O perfil da distribuição de freqüências ajuda a identificar a forma (o padrão, o tipo) de distribuição da variável.
Quando a variável for contínua ou quando houver um grande número de valores observados diferentes, deve-se agrupar as observações em intervalos de classe. As freqüências, no caso, estarão associadas não a valores individuais mas ao intervalo como um todo. Para efeitos de cálculos, supõem-se que todos os valores observados dentro de um mesmo intervalo sejam iguais ao respectivo ponto médio.
G
Dados5
2116352911282623
Dados5
1116212326282935
Tabela de Freqüência
Intervalos Freqüência Freqüência Freqüência Freqüênciade Classes Absoluta Relativa Percentual Acumulada 0-10 1 0.11 11 1 10-20 2 0.22 22 3 20-30 5 0.56 56 8 30-40 1 0.11 11 9 Total 9 1.00 100
G
O histograma é um diagrama de colunas justapostas tal que a área de cada retângulo (coluna) é proporcional à freqüência (absoluta ou relativa) da classe particular. Se os intervalos possuírem todos igual amplitude, o histograma é obtido desenhando-se colunas cujas alturas sejam iguais às freqüências (absolutas ou relativas) da classe respectiva. Uma das ferramentas estatísticas mais amplamente utilizadas, permite representar graficamente a tabela de freqüências.
G
• O histograma pode ser construído de maneira a contemplar toda a distribuição dos dados ou somente uma parte que se deseja detalhar;
• Em caso de dados espalhados em um intervalo de várias ordens de magnitude, o uso de escala logarítmica é recomendado permite que se veja toda a distribuição;
• Usando intervalos de classes regulares é possível ver toda a distribuição sem perda de detalhes;
• É útil quando se procura identificar a existência de múltiplas populações.
G
Walker Lake data set, variável V
Walker Lake data set, variável U
G
Walker Lake data set,variável U275 dados entre 0,0 e 5190,1
Walker Lake data set, variável U217 dados entre 0,0 e 1000,0
G
Cluster data set
Escala aritmética (a) e logarítmica (b).(a)
(b)
G
Walker Lake data set,freqüência acumulada.
Cluster data set, freqüência acumulada.
Medidas descritivasMedidas descritivas
Medidas de tendência central:Medidas de tendência central:
• Média: aritmética, é o centro de gravidade da distribuição da variável. Requer que a variável seja quantitativa e é pouco sensível a variações nos valores centrais, enquanto que (e esta é sua maior desvantagem) é grandemente afetada pelos valores extremos da variável.
n
1iiv
n1
m
• Mediana: é o valor que divide o conjunto de observações exatamente ao meio, de tal maneira que o número de observações maiores do que a mediana seja igual ao número de observações menores do que a mediana. G
G
A aplicação da mediana requer que a variável possa ser ordenável. Uma desvantagem da mediana é ser muito afetada por ligeiras variações nos valores centrais da variável. Em compensação, ela permanece inalterada para mudanças ainda que grandes nos valores extremos da distribuição.
• Moda: é a medida de tendência central mais simples e é aplicável a qualquer variável, seja quantitativa ou qualitativa. É o valor médio do intervalo de freqüência com maior quantidade de valores e é extremamente sensível a pequenas alterações nos valores observados.
G
• Em distribuições simétricas:Média = Mediana = Moda
• Em distribuições com assimetria positiva ou para a direita:Moda < Mediana < Média
• Em distribuições com assimetria negativa ou para a esquerda:Média < Mediana < Moda
Assimetria Negativa
Simétrica Assimetria Positiva
G
Medidas de localização:Medidas de localização:
• Quartis:• Q1: valor no qual temos histograma cumulativo igual a 25%• Q3: valor no qual temos histograma cumulativo igual a 75%
• Mínimo: valor no qual temos histograma cumulativo igual a 0%
• Máximo: valor no qual temos histograma cumulativo igual a 100%
• Quantis:q(p) = valor no qual temos histograma cumulativo igual a p% (divide a distribuição em duas partes)
M=q(0,5) Q1=q(0,25) Q3=q(0,75)min=q(0) max=q(1)
G
• Box plot:
G
Medidas de espalhamento:Medidas de espalhamento:
• Variância: é a diferença quadrática média entre os valores observados e sua média. É muito sensível a valores extremos e é medida na mesma unidades das amostras ao quadrado.
• Desvio padrão: é igual à raiz quadrada da variância. É mais freqüentemente usado, já que tem unidade igual à das amostras.
• Distância interquartil (IQR): não usa a média como centro da distribuição, sendo preferido como medida de espalhamento quando poucos valores extremos influenciam a média.
IQR = Q3 – Q1
n
1i
2i
2 )mv(n1
G
Medidas de forma:Medidas de forma:
• Coeficiente de assimetria (“skewness”): extremamente sensível a valores extremos, é dado por:
3
n
1i
3i )mv(
n1
CS
CS > 0CS < 0 CS 0
G
Coeficiente de variação (CV): útil como medida de assimetria para distribuições assimétricas positivas com valor mínimo igual a 0. Fornece uma indicação do grau de dificuldade para estimativas locais:
CV = /m
< 1 problema simples
1-2 alguma dificuldade com valores extremos,
> 2 valores extremos devem gerar grande dificuldade na estimativa
G
Sumário estatísticoSumário estatístico
VantagensVantagens
• Compacto e portável;• Algumas estatísticas correspondem diretamente a parâmetros físicos relevantes;
• Podem ser usados como parâmetros de um modelo de distribuição.
DesvantagensDesvantagens
• Freqüentemente muito condensados;• Algumas estatísticas são fortemente influenciadas por valores extremos (m, , 2, assimetria, curtosidade);• Certas estatísticas são afetadas por vazios no meio da distribuição (M, Q1, Q3, IQR).
média = concentração esperadaMediana = permeabilidade efetiva
G
Histograma e sumário estatístico
Função de densidade de probabilidade e dois parâmetros
Modelos de distribuiçãoModelos de distribuição
G
Enquanto um modelo de distribuição fornece uma completa descrição a partir de poucos parâmetros (usualmente apenas dois), ele pode falhar na representação de importantes padrões da distribuição real dos dados.
O histograma acumulado facilita a inspeção da qualidade do modelo de distribuição.
G
Os eixos de um gráfico de probabilidade normal são construídos de forma que a percentagem acumulada apresente-se como uma linha reta caso os dados se comportem segundo uma distribuição normal.
G
De maneira análoga, um gráfico de probabilidade lognormal permite testar a hipótese dos dados se comportarem segundo um modelo de distribuição lognormal.
G
O uso de qualquer procedimento estatístico assume que os dados de alguma forma pertencem a um mesmo grupo ou população estacionaridade.
A meta de um dado estudo irá determinar a escolha das populações relevantes.
A distinção entre valores extremos e outliers necessariamente envolve informações qualitativas normalmente não contidas nas amostras propriamente ditas.
Populações estatísticasPopulações estatísticas
G
Valores extremosValores extremos: valores erráticos que pertencem à solução do problema e devem ter impacto significativo na estimativa.
OutliersOutliers: valores normalmente elevados que não são relevantes para a solução da meta imposta pelo estudo.
O que fazer com os valores extremos?
i. Declará-los valores errôneos e removê-los?ii. Classificá-los como pertencentes à outra população?iii. Levantar a hipótese de tamanho diferente da
amostra?iv. Estratificação da região?
Utilizar parâmetros estatísticos mais robustos, que não sejam afetados pela média. Ex.: mediana, distância entre quartis (IQR). Trabalhar com dados transformados (ex.: log). Cuidado ao retornar os valores ao espaço original dos dados.