análise preliminar dos dados aula 02 prof. christopher freire souza centro de tecnologia...

50
Análise Preliminar dos Dados Aula 02 Prof. Christopher Freire Souza Centro de Tecnologia Universidade Federal de Alagoas www.ctec.ufal.br/professor/cfs

Upload: luiz-penha-chaplin

Post on 07-Apr-2016

215 views

Category:

Documents


2 download

TRANSCRIPT

Introduo Probabilidade e Estatstica

Anlise Preliminar dos DadosAula 02

Prof. Christopher Freire SouzaCentro de TecnologiaUniversidade Federal de Alagoaswww.ctec.ufal.br/professor/cfsObjetivoCompreenso e descrio dos dados a partir da organizao, resumo e elaborao de grficos e estimao de estatsticas.2Anlise Preliminar dos DadosCaractersticas importantes dos dadosCentro: indica o meio do conjunto de dadosVariao: indica quanto os dados variam em relao ao centroDistribuio: indica a formaOutliers ou valores discrepantes: indica valores amostrais que se localizam muito longe da grande maioriaTempo: variao dos valores com o tempo

3Anlise Preliminar dos DadosAnlise Preliminar dos DadosResumos e GrficosEstatsticasAnlise Exploratria de Dados4Anlise Preliminar dos DadosResumos e GrficosDistribuio de freqnciaHistogramasHistogramas polaresPolgono de freqnciaOgivaGrfico de ParetoDiagramas de dispersoGrficos de sries temporaisCriao de grficos estatsticos (Curva de permanncia e grfico polar)5Anlise Preliminar dos DadosResumos e Grficos (Distribuio de freqncia)Para n>20, agrupa-se os dados em classes, sendo a freqncia o nmero de valores em cada classe.Definies:Limites inferiores de classe: menores nmeros que podem pertencer a cada classe. Ex. ...,21; 31; 41;...Limites superiores de classe: maiores nmeros que podem pertencer a cada classe. Ex. ...,30; 40; 50;...Fronteiras de classe: nmeros usados para separar as classes. Ex. ...,30,5; 40,5; 50,5;...Ponto mdio de classe: mdia aritmtica dos limites de cada classe. Ex. ...,35,5; 45,5; 55,5;...Amplitude de classe: diferena entre limites inferiores de classe consecutivos. Ex. 31-21=10.

IdadeFreqncia21-302831-403041-501251-60261-70271-8026Anlise Preliminar dos DadosResumos e Grficos (Distribuio de freqncia)Procedimento para elaborao de tabelas de distribuio de freqncia:Definir nmeros de classe, recomendando-se um nmero entre 5 e 20, definido por convenincia. Ex. para dados cujos valores variam entre 20 e 100, aplicar 8 classes.Calcular a amplitude dos dados e arredondar o nmero de classes para cima.Definir ponto inicial (limite inferior da 1 classe): valor mnimo ou inferior.Definir outros limites inferiores.Definir limites superiores (possibilidade de intervalos abertos).Calcular freqncias (realizar contagem)IdadeFreqncia21-302831-403041-501251-60261-70271-802Mesmo procedimento para freqncia relativa ou acumulada7Anlise Preliminar dos DadosResumos e Grficos (Histogramas)Verso grfica da tabela de freqncias.MATLAB: hist

Vazes mdias anuais no rio Paran na UHE Itaip8Anlise Preliminar dos DadosResumos e Grficos (Histogramas polares)Histogramas em eixos polares, onde as classes so apresentadas no eixo angular e as freqncias no eixo radial.MATLAB: rose

9Anlise Preliminar dos DadosResumos e Grficos (Polgono de freqncia)Segmentos de retas que conectam pontos mdios da parte superior de barras de freqncia de classe, estendidos esquerda e direita para alcanar o eixo horizontal.

10Anlise Preliminar dos DadosResumos e Grficos (Ogiva)Grficos de linhas que representam freqncia acumulada de no-excedncia. O grfico intercepta valores das fronteiras de classes, iniciando da fronteira inferior da primeira classe e terminando na fronteira superior da ltima classe.

11Anlise Preliminar dos Dados11Resumos e Grficos (Grfico de Pareto)Grfico de barras para dados qualitativos, sendo as barras ordenadas em funo dos valores de freqncia de maneira decrescente.Recomenda-se a aplicao de grficos de Pareto em vez de grficos de setores (i.e. pizza).MATLAB: pareto

12Anlise Preliminar dos DadosResumos e Grficos (Diagramas de disperso)Grfico de pares de dados, til anlise de relao/associao entre variveis.MATLAB: scatter

13Anlise Preliminar dos DadosResumos e Grficos (Grficos de sries temporais)

Grfico onde as informaes de uma varivel so representadas no eixo das ordenadas com seus pares equivalentes ao momento/tempo de ocorrncia no eixo das abcissas.MATLAB: plot14Anlise Preliminar dos DadosResumos e Grficos (Criao de grficos estatsticos)Oportunidade para apresentar dados importantes e interessantes de maneira eficazPrincpios para criao de grficos (Tufte apud Triola pg 50)P/ pequena quantidade de dados, use tabelaFoco nos dados. Ilustrao no deve distrair o leitor. Gaste a tinta de impresso nos dados.No distorcer os dados. No use reas e volumes para informao unidimensional.No usar linhas inclinadas, pontos ou quadriculados (hachuras), pois criam desconfortvel iluso de movimento.15Anlise Preliminar dos DadosResumos e Grficos (Criao de grficos estatsticos)Curva de permannciaFreqncia acumulada de excedncia de valoresProcedimento:Ordena dados de forma decrescenteCalcula a % de excedncia pela razo da ordem de cada registro pela quantidade de dadosGrfico das vazes ordenadas contra a % de excedncia

16Anlise Preliminar dos DadosResumos e Grficos (Criao de grficos estatsticos)Grfico polarApresenta dados em coordenadas polares, onde o eixo radial a magnitude e o angular a direo ou a data.MATLAB: polar

17Anlise Preliminar dos DadosEstatsticasMedidas de centroMedidas de variaoMedidas de forma (posio relativa)Medidas de associao entre variveis18Anlise Preliminar dos Dados18EstatsticasQuantis: dividem a amostra ordenada de dados em grupos com aproximadamente o mesmo nmero de dados99 percentis - diviso em 100 partes3 quartis diviso em 4 partesAnlise Preliminar dos Dados19Estatsticas (Medidas de forma / posio relativa)PercentilPercentis dividem os valores ordenados em 100 partes iguais. Assim, existem 99 percentis.Para calcular o percentil a que um valor xi corresponde, aplica-se:

onde n o tamanho da amostra.

20Anlise Preliminar dos Dados20Estatsticas (Medidas de forma / posio relativa)PercentilPara calcular o valor x para um percentil especfico, aplica-se aos dados ordenados:

onde L o percentil que se deseja estimar. Caso i no seja exato, o valor de x referente ao percentil em anlise ser o da posio maior inteiro mais prximo de i. Caso i seja exato, estima-se o percentil a partir da mdia entre os valores de xi e xi+1

MATLAB: prctile

Como em curvas de permanncia a ordem dos dados decrescente, PL=Q(100-L). Ex. P10=Q90

21Anlise Preliminar dos Dados21Estatsticas (Medidas de forma / posio relativa)QuartilPercentil que divide os dados em quartos.Q1=P25; Q2=P50 ; Q3=P7522Anlise Preliminar dos Dados22Estatsticas (Medidas de centro)Ponto MdioMedianaModaMdiaMdia aparada23Anlise Preliminar dos Dados23Estatsticas (Medidas de centro)Ponto Mdio = (min+max)/2

Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]

Ponto mdio = (1+36)/2 = 18,524Anlise Preliminar dos Dados24Estatsticas (Medidas de centro)MedianaValor do meio da amostra, para dados ordenados em funo de seus valores

MATLAB: median

Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]

Mediana = 12,5

25Anlise Preliminar dos Dados25Estatsticas (Medidas de centro)Mdia

onde n o nmero de dados, i.e., o tamanho da amostra, fi a freqncia (nmero de observaes) de ocorrncia do valor xi.MATLAB: meanPor exemplo, para a amostra [1, 3, 6, 15, 15, 21, 28, 36]

Mdia = (1+3+6+21+28+36).1/8+15.2/8 = 15,625

26Anlise Preliminar dos Dados26Estatsticas (Medidas de centro)Mdia aparadaClculo da mdia da parcela central (100-x)% da amostra ordenada em funo de seus valores.MATLAB: trimmean

Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]

Mdia aparada em 0% = 15Mdia aparada em 25% = 13,83Mdia aparada em 50% = 1327Anlise Preliminar dos Dados27Estatsticas (Medidas de centro)ModaValor que ocorre mais freqentementeMATLAB: mode

Simetria da distribuio dos dados: mdia=moda=mediana

28Anlise Preliminar dos Dados28Estatsticas (Medidas de variao)AmplitudeDesvio mdio absolutoDesvio padroVarinciaCoeficiente de variaoIntervalo interquartilIntervalo percentlico29Anlise Preliminar dos Dados29Estatsticas (Medidas de variao)Amplitude = max-minMATLAB: range

Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]

Amplitude = (36-1) = 3530Anlise Preliminar dos Dados30Estatsticas (Medidas de variao)Intervalo interquartil = Q3-Q1

Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]

Intervalo interquartil = 24,5 - 4,5 = 2031Anlise Preliminar dos Dados31Estatsticas (Medidas de variao)Intervalo percentlico = P90-P10

Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]

Intervalo percentlico = 36 - 1 = 35

32Anlise Preliminar dos Dados32Estatsticas (Medidas de variao)Desvio mdio absoluto

MATLAB: madPor exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36], mdia=15Desvios |xi-media|=[14,12,9,5, 0, 6, 13, 21]Desvio mdio absoluto = 10

33Anlise Preliminar dos Dados33Estatsticas (Medidas de variao)VarinciaEstimador da disperso em relao mdia a partir dos quadrados dos valores observados

MATLAB: varPor exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]

var = 156

34Anlise Preliminar dos Dados34Estatsticas (Medidas de variao)Graus de liberdade: nmero de valores escolhidos livremente antes que os demais sejam determinados.

Por exemplo, para a amostra [10, 13, 15, 18]

Conhecida a mdia (14) e outros n-1 dados, chega-se ao n-simo. Logo, nmero de graus de liberdade = n-1

Anlise Preliminar dos Dados3535Estatsticas (Medidas de variao)Desvio padroDesvio mdio dos valores em relao mdia

MATLAB: std

Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]Desvios (xi-media)=[-14,-12,-9,-5, 0, 6, 13, 21]Quadrados (xi-media)=[196,144,81,25,0,36,169,441]Soma dos Quadrados = 1092Desvio padro =12,49

36Anlise Preliminar dos Dados36Graus de LiberdadeAmostraMdiaMedianaAmp.Var.(n-1)Std(n-1)Var.(n)std(n)1,11,01,000,00,0001,21,51,510,50,7070,250,51,53,03,048,02,828422,11,51,510,50,7070,250,52,22,02,000,00,0002,53,53,534,52,1212,251,55,13,03,048,02,828425,23,53,534,52,1212,251,55,55,05,000,00,000Mdia amostral8/38/316/926/91,31,440,89Parmetro8/32426/91,72,891,7Christopher Souza: Anlise Preliminar de Dados37Populao: 1, 2, 5Estatsticas (Medidas de variao)Desvio padro

Disperso tpica (Regra emprica da amplitude)

Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]

Desvio padro (36 1)/4 = 8,75

Anlise Preliminar dos Dados38

38Estatsticas (Medidas de variao)Coeficiente de variaoEstimador adimensionalizado da disperso de valores em relao mdia de maneira a permitir comparaes entre populaes.

Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]

Cv=83,27%

39Anlise Preliminar dos Dados39Estatsticas (Medidas de forma / posio relativa)Escore zQuartilPercentilSimetria/AssimetriaCurtose40Anlise Preliminar dos Dados40Estatsticas (Medidas de forma / posio relativa)Escore zNmero de desvios padro a que se situa o valor i da amostra, acima ou abaixo da mdia.

Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] Escores z=[-1,12;-0,96;-0,72;-0,4; 0; 0,48; 1,04; 1,68]

41Anlise Preliminar dos Dados41Estatsticas (Medidas de forma / posio relativa)Simetria/AssimetriaCoeficiente que descreve quanto a maior parte dos dados se encontra afastada da mdia.O coeficiente analisa o desvio em relao mdia na 3a potncia.

MATLAB: skewness

Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]

assimetria=0,5

42Anlise Preliminar dos Dados42Estatsticas (Medidas de forma / posio relativa)CurtoseCoeficiente que descreve quanto os valores mais extremos se afastam da mdia.O coeficiente descreve o desvio em relao mdia na 4a potncia.

MATLAB: kurtosisPor exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]

Curtose = 1,95

43Anlise Preliminar dos Dados43Estatsticas (Medidas de associao entre variveis)Coeficiente de correlao linear de PearsonMede a intensidade da relao linear entre os valores quantitativos emparelhados de amostras de duas variveis (x e y)

MATLAB: corrcoef

44Anlise Preliminar dos Dados44Estatsticas (Medidas de associao entre variveis)Coeficiente de correlao linear de Pearson = 0,703645Anlise Preliminar dos Dados

Bacia do rio Acara-CE (semi-rido; 1560 km)

45PostosNmero atribudo a um item da amostra de acordo com sua posio na lista ordenada.Em caso de empates, aplica-se a mdia dos postos como valor de posto de cada item com igual valorEx:x: [12 10 5 5 4 5 11 12]xo: [4 5 5 5 10 11 12 12]io: [1 3 3 3 5 6 7,5 7,5]i: [7,5 5 3 3 1 3 6 7,5]Christopher Souza: Teste de hipteses46Estatsticas (Medidas de associao entre variveis)Coeficiente de correlao de postos de SpearmanMede a associao das magnitudes de duas variveis a partir das posies dos valores ordenados por amostra (x e y)

onde d a diferena entre as posies dos correspondentes x e y.

MATLAB: corr

Spearman = 0,7143

47Anlise Preliminar dos Dados

47Anlise Exploratria de DadosOutliersDiagrama de caixa48Anlise Preliminar dos DadosAnlise Exploratria de Dados (Outliers)Outlier - dado cujo valor se localiza muito afastado de quase todos os demais valores da amostra.Outliers podem ser valores atpicos reais ou um dado errado/inexistente.Outliers podem afetar significativamente os valores de estatsticas como a mdia e outras dela dependentes (e.g. desvio padro, c.v.), bem como, na definio de classes em estudos de freqncia e em grficos.Se um outlier for um dado real, deve-se estudar a srie com e sem o outlier.Uma tcnica usual para deteco de outliers comparar valores com 1,5x(Q3-Q1) abaixo de Q1 e acima de Q3.49Anlise Preliminar dos DadosAnlise Exploratria de Dados (Diagrama de caixa)Representao grfica do resumo dos cinco nmeros (mnima, Q1, mediana, Q3 e mxima).timo para comparao de duas ou mais amostras.Outliers podem ser representados.

MATLAB: boxplot

50Anlise Preliminar dos Dados