2- apostila sas

Upload: jorge-camargo

Post on 11-Jul-2015

215 views

Category:

Documents


2 download

TRANSCRIPT

MINISTRIO DE EDUCAO E DESPORTOS UNIVERSIDADE FEDERAL DE SANTA MARIA CENTRO DE CINCIAS NATURAIS E EXATAS DEPARTAMENTO DE ESTATSTICA LABORATRIO - S.A.S.

TREINAMENTO SISTEMA - S.A.S.Prof. Luis Felipe Lopes

SANTA MARIA RS 2002

SAS/STATObjetivo: Este curso tem por objetivo expor alguns conceitos estatsticos e interpret-los atravs da utilizao de procedimentos do Sistema SAS. Os exemplos apresentados ilustram caractersticas da release 6.08 do SAS/STAT e orientam o usurio na sua programao quando seu interesse for: Obter estatsticas descritivas elementares; Desempenhar testes estatsticos de significncia para verificar a normalidade da distribuio de seus dados; Testar a igualdade de mdias entre grupos de observaes; Encontrar um modelo que explique o comportamento de seus dados e, atravs deste modelo, fazer previses e calcular intervalos de confiana para parmetros da populao em estudo. Analisar a variabilidade de uma srie de dados atravs do Mtodo de Anlise de Varincia (ANOVA), critrio de tomada de decises estatisticamente formulado para detectar qualquer diferena no desempenho mdio de um ensaio experimental. Os conceitos bsicos sero abordados a medida que os procedimentos forem sendo utilizados, assim como a interpretao das principais sadas.

Treinamento Sistema SAS

1

Prof. Dr. Luis Felipe Lopes

1 ESTATSTICA DESCRITIVA E TESTE DE NORMALIDADE 1.1 Introduo Depois que o usurio cria seu arquivo de dados ele pode desejar sumarizar estes dados atravs de medidas que descrevam seu comportamento. Estas medidas incluem parmetros de posio como mdias, modas, medianas, quartis e percentis, parmetros de disperso, como varincias, desvios padres, amplitude (range), e parmetros que auxiliam na descrio da forma dos dados, como assimetria e curtose (ver ANEXO 1). Nos problemas que envolvem a Estatstica Indutiva, os conjuntos de dados analisados so representados por amostras retiradas das populaes de interesse. Sendo as amostras aleatrias, todos os seus elementos fornecero valores aleatrios da varivel em anlise. Para caracterizar a distribuio dos diversos valores assumidos por uma varivel aleatria, o conceito de distribuio de probabilidades deve ser utilizado e estendido s populaes, ou seja, cada valor da amostra deve ser considerado como valor de uma varivel aleatria cuja distribuio de probabilidade a mesma da populao no instante da retirada desse elemento da amostra. Os valores calculados em funo dos elementos da amostra, denominam-se estatsticas. Se estas estatsticas forem utilizadas para inferir informaes a respeito de uma populao, elas so consideradas como variveis aleatrias, e tero, portanto uma distribuio de probabilidades, com uma mdia, uma varincia, etc. Muitos mtodos da anlise estatstica assumem que os dados da amostra provm de uma populao com distribuio normal. A distribuio normal tem uma definio matemtica precisa, com as seguintes caractersticas: - ser completamente definida por sua mdia e seu desvio padro. - ser uma distribuio simtrica, ou seja, sua mdia coincide com sua moda, que por sua vez coincide com sua mediana. - ser uma distribuio regular. Do seu ponto central mais alto at suas extremidades no existe padres irregulares. - ter curtose = 0 (a curtose descreve o grau de achatamento de uma distribuio). 1.2 Teste de normalidade Nos testes de normalidade estabelecida a idia de que uma amostra provm de uma distribuio normal. Atravs da amostra uma estatstica calculada e testada para checar essa idia. Uma comparao feita entre a forma da distribuio da amostra, com a forma de uma distribuio normal. Se no for encontrada nenhuma evidncia para rejeitar a hiptese de normalidade, prossegue-se as anlises baseando-se na suposio de que os dados da amostra so normalmente distribudos (anlise paramtrica). Quando os dados no so gerados por uma distribuio normal, a anlise deve ser baseada em Treinamento Sistema SAS 2 Prof. Dr. Luis Felipe Lopes

mtodos no paramtricos. A distribuio normal simtrica, com os valores distribudos em forma de sino. Ao desempenhar um teste de hiptese tem-se sempre uma hiptese nula que descreve uma idia sobre a populao, e uma hiptese alternativa, que descreve uma idia alternativa sobre a populao. Nos testes para a normalidade, a hiptese nula que os dados da amostra so gerados por uma distribuio normal. A hiptese alternativa que eles so gerados por uma distribuio no normal. O mtodo utilizado para testar hipteses consiste num contedo de deciso onde a probabilidade de rejeitar a hiptese nula, sendo ela verdadeira (erro do tipo I), no excede um valor prfixado chamado de nvel de significncia do teste. Ao menor nvel de significncia para o qual a hiptese nula rejeitada denominamos probabilidade de significncia (p-valor). Se p-valor > h evidncias de que a hiptese nula verdadeira. A PROC UNIVARIATE utilizada para a obteno de estatsticas descritivas. Ela difere de outros procedimentos SAS por fornecer maiores detalhes das variveis, tais como plots das distribuies, tabelas de freqncia e testes estatsticos para a normalidade. FORMA GERAL: PROC UNIVARIATE DATA = arquivo de dados opes; VAR variveis; BY variveis; FREQ varivel; ID variveis; OUTPUT OUT = arquivo de dados palavra-chave = nomes; OPES DISPONVEIS: FREQ gera uma tabela de freqncia com valores de freqncia, percentagens e percentagens acumuladas. suprime toda a informao do OUTPUT. Esta opo utilizada geralmente na criao de um arquivo de dados de sada. desempenha um teste para a hiptese nula de que os dados provm de uma distribuio normal. Dependendo do tamanho da amostra, o teste utilizado ser baseado na estatstica de Shapiro-Wilk (N2000).

NOPRINT

NORMAL

Treinamento Sistema SAS

3

Prof. Dr. Luis Felipe Lopes

PLOT

produz plotes de probabilidade da distribuio normal e plotes em box que auxiliam na determinao da forma da distribuio dos dados investigados.

COMANDOS SELECIONADOS: VAR BY lista as variveis a serem sumarizadas no arquivo de dados. especifica subgrupos onde as estatsticas devem ser obtidas. Para usar este comando o arquivo j dever estar ordenado pela varivel de subgrupo . especifica variveis de freqncia. especifica as variveis que iro identificar os valores extremos. cria arquivo de sada que ir gravar as estatsticas geradas.

FREQ ID

OUTPUT OUT

Estatsticas reservadas utilizadas na criao de um arquivo de sada: N MEAN STDMEAN SUM STD NMISS VAR CV RANGE SKEWNESS Prob T KURTOSIS MEDIAN

Ex1.: Resultados obtidos de uma distribuio aproximadamente Normal. Para ilustrar, suponha que estejamos analisando uma amostra. No programa SAS abaixo, a idade de cada pessoa est sendo representada pela varivel IDADE, e sua identificao pela varivel IDENT.OPTIONS FORMDLIM='*' LS=80; DATA A; /* EXEMPL01 SAS */ INPUT IDENT IDADE @@; CARDS; 1 72 2 69 3 75 4 71 5 71 6 73 7 70 8 67 9 71 10 72 11 73 12 68 13 69 14 70 15 70 16 71 17 74 18 72 ; PROC UNIVARIATE NORMAL PLOT FREQ; VAR IDADE; ID IDENT; RUN;

Treinamento Sistema SAS

4

Prof. Dr. Luis Felipe Lopes

ANLISE DOS RESULTADOS:Univariate Procedure Variable=IDADE Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank W:Normal 18 71 2.057983 0 90810 2.898568 146.3702 18 9 85.5 0.98356 Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| Pr |R| under Ho: Rho=0 / N = 6 VELOC VELOC DIST 1.00000 0.0 0.97772 0.0007 DIST 0.97772 0.0007 1.00000 0.0

O valor de 0.97772 mede o coeficiente de correlao entre as variveis VELOC e DIST. Um p-valor de 0.0007 indica uma forte evidncia que a correlao no nula. O p-valor a probabilidade de significncia para se testar a hiptese de que a verdadeira correlao da populao em questo zero. 2.3 Regresso (PROC REG)

Os coeficientes de correlao indicam somente a existncia ou no de algum tipo de relacionamento entre variveis. Para investigar a forma desse relacionamento, o mtodo mais apropriado a anlise de regresso, onde a relao pode ser expressa sob forma matemtica, por meio de uma equao que interligue as variveis. Atravs do diagrama de disperso possvel visualizar uma curva que se aproxime dos dados. Essa curva denominada curva de ajustamento. Para fins de referncia, a seguir encontram-se relacionados vrios tipos comuns de curvas de ajustamento e suas equaes. As variveis independentes esto representadas pela letra X e as variveis dependentes pela letra Y. As demais letras representam constantes. Funo Linear Funo Quadrtica Y = a0 + a1 X Y = a0 + a1 X + a2 X2 12 Prof. Dr. Luis Felipe Lopes

Treinamento Sistema SAS

Funo Cbica Funo Exponencial

Y = a0 +a1 x + a2 x2 + a3 x3 Y = a bx log y = Ioga + (log b) x = a0 +a1 x

Para evitar o critrio individual na construo de funes que se adaptem ao conjunto de dados, necessrio instituir uma definio da "melhor funo de ajustamento". Uma medida da qualidade do ajustamento aos dados apresentados (aderncia) proporcionada a partir da distncia dos pontos observados at a equao de regresso. De todas as equaes que podem ser traadas atravs do grupo de pontos no diagrama de disperso, a funo que melhor se ajusta aquela com a menor soma dos quadrados das distncias (Mtodo dos Mnimos Quadrados). Estas distncias so designadas como desvios, erros ou resduos, e podem ser positivas, negativas ou nulas, como apresentado na figura a seguir:

O modelo linear: Yj = 0 + 1 Xj + j Suas suposies: - Xj so fixos; - 0 e 1 so parmetros fixos desconhecidos; - j ~ N id (0 , 2) . Considere a regresso como um particionamento da Soma Total dos Quadrados:

( Yj Y )

2

$ = Yj Y

(

$ ) + (Y Y )2 j j

2

SST = SSM + SSE Treinamento Sistema SAS 13 Prof. Dr. Luis Felipe Lopes

onde: SST - a soma total dos quadrados. SSM - a soma dos quadrados devido ao modelo (soma dos quadrados devido regresso ). SSE - a soma dos quadrados devido ao erro , ou resduo. Num modelo de regresso preciso: Estimar: - 2, ou seja, o erro mdio quadrtico; - 0 e 1. Testaras Hipteses : H0: 1 = 0 0 = 0 Obter valores preditos e limites de predio. Estimar a mdia da varivel resposta Y, dado um valor fixo X, determinando tanto as estimativas por ponto como por intervalo. 2.4 Inferncia na regresso

Estatsticas usadas na Anlise de Regresso: - valor estimado de 2 =MSE, Mdia quadrtica para o erro = SSE/ df(erro) = Soma dos Quadrados devido ao erro / df(erro) - estimativas de mnimos quadrados de 0 e 1, que minimize SSE. min

(Y j Y )

2

- teste de 0 = 0 e 1 = 0 com a estatstica t de Student ou teste de 0 no modelo / 1 = 0 com a estatstica F.

Treinamento Sistema SAS

14

Prof. Dr. Luis Felipe Lopes

2.5 Resduos

Os resduos representam o comportamento de Y (varivel resposta), do qual as variveis independentes no fazem a estimativa. Se for suposto que o modelo correto, que no se tenha omitido nenhuma varivel independente, e tambm que os resduos so normais e independentemente distribudos, com mdia zero e varincia constante, pode-se provar hipteses, assinalar limites de confiana, predizer valores da varivel dependente a partir das variveis independentes e computar probabilidades de significncia . Um plote dos resduos sobres as variveis independentes ou sobre os valores preditos pode ser gerado para avaliar a qualidade do ajuste. Se o modelo necessitar de algum outro termo, o plote dos resduos sugere que tipo de termo pode ser adicionado ao modelo. Alguns modelos so mostrados a seguir:

PROC REG A procedure REG o procedimento SAS mais comum para anlise da regresso. um procedimento interativo, ou seja, o usurio pode dispor de seus comandos bsicos para ajustar uma funo, verificar a sada das estatsticas, e posteriormente adicionar mais comandos dando continuidade suas anlises sem necessidade de reinicializar o comando da PROC. Quando usado interativamente, o comando RUN no finaliza o procedimento. Para finaliz-lo o Treinamento Sistema SAS 15 Prof. Dr. Luis Felipe Lopes

usurio deve estabelecer outro DATA STEP ou PROC STEP, ou usar o comando QUIT, que nunca deve ser acessado quando o procedimento estiver em curso.

FORMA GERAL: PROC REG DATA = arquivo SAS opes; MODEL dependente = independente / opes; VAR varivel; ID varivel; OUTPUT OUT = novo arquivo P = nova varivel R = nova varivel U95 = nova varivel L95 = nova varivel U95M = nova varivel L95M = nova varivel; PLOT varivel Y * varivel X = 'smbolo'; PRINT opes; RUN; OPES DISPONVEIS NA PROC REG: SIMPLE OUTEST Lista estatsticas descritiva para cada varivel. Cria um data set contendo as estimativas dos parmetros do modelo de regresso.

OPES DISPONVEIS NO COMANDO CLI Fornece limites de confiana superior e inferior a 95% para um valor particular predito da varivel dependente. Fornece limites de confiana superior e inferior a 95% para a mdia da varivel dependente nos nveis da(s) varivel(is) independentes para cada observao. Fornece valores preditos a partir do modelo estimado para cada observao do arquivo a de entrada. Fornece valores residuais (REAL-PREDITO) observao e uma anlise dos resduos. para cada

CLM

P

R

SELECTION = mtodo Especifica o mtodo usado para seleo do modelo (Backward, Stepwise, MAXR, ADJRSQ, por exemplo). O default NONE (usa o modelo completo).

Treinamento Sistema SAS

16

Prof. Dr. Luis Felipe Lopes

ADJRSQ

Fornece o R-Square ajustado para o grau de liberdade, para cada modelo selecionado. Fornece o Critrio de Informao de Akaike's. Fornece o Critrio de Informao Bayesiano de Sawa . Fornece o erro mdio quadrtico para cada modelo.

AIC BIC MSE

COMANDOS DISPONVEIS: MODEL VAR especifica as variveis dependentes e independentes. lista a varivel (ou variveis) que possam vir a ser adicionadas no modelo durante o processo de anlise. Este comando deve aparecer antes do primeiro comando RUN. especifica a varivel que identifica as observaes na sada do relatrio, quando so solicitadas estimativas de valores individuais de uma varivel independente ( valores preditos ), valores residuais, etc. especifica o arquivo de sada e os nomes das variveis que iro conter os valores previstos, residuais , etc. gera plotes de disperso com a varivel y representando o eixo vertical e a varivel x o eixo horizontal. Para plotar estatsticas utiliza-se as palavras chave (nomes reservados) disponveis no comando OUTPUT. (Ex: plot y.*p;) Lista as opes disponveis.

ID

OUTPUT

PLOT

PRINT

Os seguintes nomes reservados so utilizados para especificar as estatsticas desejadas. Eles devem ser seguidos por um nome de varivel: P (ou PREDICTED) R (ou RESIDUAL) U95, L95 representa os valores preditos. representa os valores residuais para cada observao. representam, respectivamente, os limites superior e inferior de predio para os valores observados. representam, respectivamente os limites superior e inferior de confiana para a mdia da populao.

U95M, L95M

Treinamento Sistema SAS

17

Prof. Dr. Luis Felipe Lopes

Ex3.: Os dados a seguir provem de um experimento para testar o desempenho de atletas em corrida de fundo. O experimento utilizou uma pista com 1 km de comprimento. O valor da freqncia cardaca aps 2 voltas foi coletado supondo que o atleta manteve durante as duas uma velocidade constante. Analisar o diagrama de disperso e encontrar um modelo de regresso que se ajuste aos dados.OPTIONS FORMDLIM='*' LS=80; DATA A; /* EXEMPL03 SAS */ INPUT VELOC FREQ @@; CARDS; 22.0 84.03 20.0 72.47 18.0 12.0 61.48 15.0 66.85 17.0 22.0 85.03 20.0 74.63 18.0 12.0 60.63 10.5 60.05 13.0 19.0 80.65 21.0 82.61 23.0 ; PROC PLOT; PLOT FREQ * VELOC = '0'; TITLE 'DIAGRAMA DE DISPERSAO'; RUN; PROC

74.94 61.17 75.90 64.68 85.31

16.0 19.0 16.0 15.0 24.0

68.84 78.00 69.84 67.79 86.89

14.0 21.0 14.0 17.0

63.73 83.21 64.74 62.18

REG; MODEL FREQ = VELOC; OUTPUT OUT= RESIDl P=PREVISTO R=RESIDUAL; TITLE 'AJUSTE DA FUNCAO LINEAR'; RUN; PROC GPLOT; PLOT RESIDUAL* VELOC /VREF = 0; TITLE 'PLOT DE RESIDUOS P/ AJUSTE LINEAR'; RUN; PROC UNIVARIATE DATA= RESIDl NORMAL PLOT; VAR RESIDUAL; TITLE 'TESTE DE NORMALIDADE DOS RESIDUOS'; RUN;

Treinamento Sistema SAS

18

Prof. Dr. Luis Felipe Lopes

ANLISE DOS RESULTADOS:DIAGRAMA DE DISPERSAO Plot of FREQ*VELOC. Symbol used is '0'.

FREQ | | 85 0 | 0 | 0 80 | | 0 | 0 75 0 0 | | 0 | 70 0 | 0 | | 0 | 0 | 65 0 0 | | 0 | 0 | 0 | 0 0 60 0 | -----------------------------------------------------------------10 12 14 16 18 20 22 VELOC

O diagrama de disperso mostra uma tendncia crescente da freqncia cardaca em funo da velocidade utilizada. Os dados observados sero ajustados inicialmente por uma funo linear. O relatrio de sada consta de duas sees, Anlise da Varincia e Estimativas dos Parmetros, apresentadas a seguir:AJUSTE DA FUNCAO LINEAR Model: MODEL1 Dependent Variable: FREQ Analysis of Variance Source Model Error C Total Root MSE Dep Mean C.V. DF 1 18 19 Sum of Squares 985.43407 272.53322 1257.96730 3.89111 70.00950 5.55797 Mean Square 985.43407 15.14073 R-square Adj R-sq F Value 65.085 Prob>F 0.0001

0.7834 0.7713

Treinamento Sistema SAS

19

Prof. Dr. Luis Felipe Lopes

Parameter Estimates Variable INTERCEP VELOC DF 1 1 Parameter Estimate 35.138198 2.103849 Standard Error 4.40913004 0.26078002 T for H0: Parameter=0 7.969 8.068 Prob > |T| 0.0001 0.0001

A seo de Anlise de Varincia contm informaes sobre a qualidade do ajuste. So elas: - DF Identifica as fontes de variaes dos dados e os respectivos graus de liberdade. - SOMA DOS QUADRADOS (SS): Separam a variao dos dados em pores que podem ser tanto atribudas ao modelo como ao erro. Parte da variao total da capacidade da mquina se deve velocidade utilizada e outra parte se deve a erros aleatrios ou outros fatore s independentes da velocidade. SS total = SS models + SS erro Observando os valores da varivel Desempenho do Atleta quando o valor da velocidade de 18 km/h, por exemplo, tem-se 74.94 bat/s e 75,90 bat/s. Esta variao se deve ao erro do experimento ou a fatores outros que no a velocidade. - MDIA QUADRTICA (MS): SS/DF MS erro = 15.14073 estima a varincia da populao dos valores da capacidade da mquina para valores determinados da velocidade. - F, PROB > F: Fornece o valor da estatstica teste e o p-valor associado ao teste de hiptese de que o modelo explica uma parte significante da variao dos dados. - R_SQUARE : SS modelo / SS Total R_Square a frao da variao total devida s variveis do modelo. Seu valor varia dentro do intervalo [0,1], sendo que quanto mais prximo de 1, melhor o modelo explica a variao dos dados. Neste caso o modelo proposto explica 78% da variabilidade tota, implicando um alto grau de aderncia dos valores observados reta ajustada. Sobre a qualidade do ajuste o valor de R_Square , no a explica sozinho. Recomenda-se tambm uma Anlise dos Resduos.

Treinamento Sistema SAS

20

Prof. Dr. Luis Felipe Lopes

- Adj R_SQUARE uma estatstica alternativa ao R-Square. utilizada em REGRESSO MLTIPLA. A seo Estimativas dos Parmetros prov coeficientes para a linha de regresso e testes para determinar se estes coeficientes so significativamente diferentes de zero. O modelo de ajuste, neste caso, representado por: FREQ = 35.1382 + 2,1038 VELOC O valor de INTERCEP = 35,1382 no tem uma interpretao especfica no modelo. Para VELOC = 0, a capacidade predita pelo modelo de 35,1382 bat/s. O coeficiente 2,1038 pode ser interpretado como o acrscimo da capacidade esperada para cada unidade adicional da velocidade. Para verificar a suposio de que os coeficientes so no nulos, tem-se: - DF Fornece o grau de liberdade para os parmetros estimados. Para cada parmetro estimado DF= 1. - Erro Padro: Mede o quanto cada parmetro estimado poderia vaiar de um conjunto de dados para outro. Eles so utilizados na construo de intervalos de confiana. - T para H0 : Parmetro = 0: Estatstica para testar a hiptese que o parmetro igual a zero. Seu valor dado por: Valor Estimado do Parmetro / Erro Padro - PROB > T: Fornece o p-valor para a estatstica teste T. Para o parmetro VELOC, o p-valor de 0.0001, evidenciando que o grau de inclinao da reta ajustada diferente de zero. O intercepto tambm difere de zero. A anlise dos resduos ei= Yi - Y i = Yi 35,1382 2,1038 VELOC importante para avaliar se a escolha do modelo apropriada para o conjunto de dados apresentado. Pelo comportamento da distribuio dos resduos (PROC GPLOT) sugere-se a utilizao de um termo quadrtico.

Treinamento Sistema SAS

21

Prof. Dr. Luis Felipe Lopes

A validade dos testes de significncia dependem da suposio de que os resduos so normalmente distribudos. Para se verificar essa suposio basta utilizar a PROC UNIVARIATE com as opes NORMAL e PLOT, o que gera as seguintes sadas:

TESTE DE NORMALIDADE DOS RESIDUOS Univariate Procedure Variable=RESIDUAL Residual Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank W:Normal 20 0 3.787328 -1.60934 272.5332 . 0 20 5 32 0.807436 Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| PrF 0.0001

0.8554 0.8416

Parameter Estimates Variable INTERCEP VELOC VELOC2 DF 1 1 1 Parameter Estimate 57.285084 -0.647906 0.082888 Standard Error 16.01658537 1.89999792 0.05456828 T for H0: Parameter=0 3.577 -0.341 1.519 Prob > |T| 0.0018 0.7365 0.1437

O modelo do ajuste quadrtico dado por: CAPAC = 57,2851 0,6479 VELOC + 0,0829 VELOC2 O teste de significncia dos coeficientes indica que para o coeficiente 0,0829 de VELOC2 : t = -0.08 /SE (VELOC2) = -0.08 / 0.0546 = -1,4652 Treinamento Sistema SAS 25 Prof. Dr. Luis Felipe Lopes

A probabilidade de significncia para esta estatstica 0.1437, ou seja, existe somente 1437 chances em dez mil de se encontrar uma estatstica t. O desvio padro da estimativa do coeficiente de VELOC2 pequeno, mas no pode-se afirmar que seu valor estatisticamente diferente de zero. O modelo quadrtico, portanto no representando uma melhora no relacionamento entre a velocidade do atleta e sua freqncia respiratria, quando comparado ao modelo linear. Os valores preditos e os limites de confiana para a mdia da populao obtidos com o ajuste quadrtico esto relacionados a seguir:AJUSTE DE FUNCAO QUADRATICA Obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 VELOC 22 20 18 16 14 12 15 17 19 21 22 20 18 16 14 12 10.5 13 15 17 19 21 23 24 Dep Var FREQ 84.0300 72.4700 74.9400 68.8400 63.7300 61.4800 66.8500 61.1700 78.0000 83.2100 85.0300 74.6300 75.9000 69.8400 64.7400 60.6300 60.0500 64.6800 67.7900 62.1800 80.6500 82.6100 85.3100 86.8900 Std Err Predict Value 83.1488 77.4820 72.4784 68.1378 64.4604 61.4460 66.2162 70.2252 74.8973 80.2325 83.1488 77.4820 72.4784 68.1378 64.4604 61.4460 59.6204 62.8703 66.2162 70.2252 74.8973 80.2325 86.2308 89.4787 Student Std Err Predict 1.266 0.969 1.039 1.028 1.025 1.543 0.998 1.051 0.998 1.032 1.266 0.969 1.039 1.028 1.025 1.543 2.387 1.193 0.998 1.051 0.998 1.032 1.688 2.275 Lower95% Mean 80.5163 75.4667 70.3180 65.9996 62.3284 58.2362 64.1405 68.0400 72.8220 78.0860 80.5163 75.4667 70.3180 65.9996 62.3284 58.2362 54.6562 60.3903 64.1405 68.0400 72.8220 78.0860 82.7203 84.7466 Upper95% Mean 85.7813 79.4974 74.6388 70.2761 66.5924 64.6558 68.2920 72.4104 76.9727 82.3790 85.7813 79.4974 74.6388 70.2761 66.5924 64.6558 64.5847 65.3504 68.2920 72.4104 76.9727 82.3790 89.7414 94.2107 Cook's Residual 0.8812 -5.0120 2.4616 0.7022 -0.7304 0.0340 0.6338 -9.0552 3.1027 2.9775 1.8812 -2.8520 3.4216 1.7022 0.2796 -0.8160 0.4296 1.8097 1.5738 -8.0452 5.7527 2.3775 -0.9208 -2.5887

O plote dos resduos studentizados pode indicar a ocorrncia de pontos discrepantes. Cada asterisco corresponde metade de uma unidade. Observaes com quatro ou cinco asteriscos tem resduos studentizados entre 2.0 e 3.0, e esto num range suspeito. Observaes com seis ou mais asteriscos provavelmente so outliers. No plote a seguir, as observaes 8 e 20 (VELOC=17), esta num range suspeito. O grfico dos reduos mostrado ao fim deste exemplo confirma estas suposies. O prximo passo seria reavaliar a fonte de dados e identificar alguma razo peculiar para a ocorrncia destes valores.

Treinamento Sistema SAS

26

Prof. Dr. Luis Felipe Lopes

Obs1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

VELOC22 20 18 16 14 12 15 17 19 21 22 20 18 16 14 12 10.5 13 15 17 19 21 23 24

Residual3.410 3.506 3.486 3.489 3.490 3.294 3.498 3.482 3.498 3.488 3.410 3.506 3.486 3.489 3.490 3.294 2.745 3.436 3.498 3.482 3.498 3.488 3.222 2.838

Residual0.258 -1.430 0.706 0.201 -0.209 0.010 0.181 -2.600 0.887 0.854 0.552 -0.813 0.982 0.488 0.080 -0.248 0.157 0.527 0.450 -2.310 1.645 0.682 -0.286 -0.912 0 277.8534 340.1957

-2-1-0 1 2| | | | | | | | | | | | | | | | | | | | | | | | 0.003 0.052 0.015 0.001 0.001 0.000 0.001 0.205 0.021 0.021 0.014 0.017 0.029 0.007 0.000 0.004 0.006 0.011 0.005 0.162 0.073 0.014 0.007 0.178

D

| | | **| | |* | | | | | | | | | *****| | |* | |* | |* | *| | |* | | | | | | | | | |* | | | ****| | |*** | |* | | | *|

Sum of Residuals Sum of Squared Residuals Predicted Resid SS (Press)

Atravs do grfico dos resduos (PROC GPLOT) observa-se que nem toda as observaes seguem a mesma forma geral. Os pontos onde VELOC=17 encontra-se abaixo dos demais, e os dois pontos na VELOC=19 e 20 esto um pouco acima e abaixo dos demais. Isto pode se dever causas especiais ou simplesmente ao acaso, e precisa ser verificado. Os demais pontos esto bem distribudos ao longo do grfico, podendo ser admitida a suposio de varincia da distribuio dos resduos.TESTE PARA NORMALIDADE DOS RESIDUOS Univariate Procedure Variable=RESIDUAL Residual Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank W:Normal 24 0 3.475713 -1.23529 277.8534 . 0 24 4 27 0.891954 Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| Pr|T| --------------------------------------Unequal 1.6641 7.2 0.1392 Equal 1.6641 8.0 0.1347 For H0: Variances are equal, F' = 2.04 DF = (4,4) Prob>F' = 0.5072

Para comparar dois grupos independentes observa-se primeiramente a linha que testa a igualdade de varincias. O p-valor para este teste dado por PROB>F'=0.5072 que maior que 0.10, indicando que as varincias no so significantemente diferentes a um nvel de 10% de significncia. Utiliza-se ento o t-test exato. Para o teste da igualdade de mdias, a linha denominada UNEQUAL d o resultado de um t-test aproximado, que utilizado quando no se pode assumir a igualdade das varincias os dois grupos de observaes. O p-valor para o t-test PROB > ITI = 0.1347 que maior que 0.05, indicando que ambas as mdias para o cabo do tipo 1 e tipo 2 no so significativamente diferentes ao nvel de 5% de significncia. Valores altos para estatstica T indicam diferenas significativas entre as mdias. Para o teste exato, o grau de liberdade DF calculado como a soma dos tamanhos das amostras dos dois grupos menos dois (8 = 5 + 5 - 2).

Treinamento Sistema SAS

31

Prof. Dr. Luis Felipe Lopes

Ex6.: Dados no pareados com varincias desconhecidas e supostamente diferentes. Deseja-se saber se duas equipes de basquete esto tendo o mesmo percentual de acertos em cesta de 3 pontos. Sabendo que a equipe A possui idade mais elevada que a equipe B, razovel supor-se que trabalhem com diferentes variabilidades no percentual de acerto nos arremessos. As amostras disponveis constam de 6 atletas para a equipe A e 9 na equipe B. O percentual em arremesso foi de : Equipe A Equipe B 0,82 0,83 0,79 0,81 0,81 0,80 0,79 0,82 0,73 0,74 0,80 0,77 0,75 0,84 0,78

Qual a concluso, ao nvel de 5% de significncia ?OPTIONS FORMDLIM='*' LS=80; DATA A; /* EXEMPL06 SAS */ INPUT EQUIPE $ PERC @@, CARDS; EQU_A 0.82 EQU_A 0.83 EQU_A 0.79 EQU_A 0.81 EQU_A 0.81 EQU_A 0.80 EQU_B 0.79 EQU_B 0.82 EQU_B 0.73 EQU_B 0.74 EQU_B 0.80 EQU_B 0.77 EQU_B 0.75 EQU_B 0.84 EQU_B 0.78 ; PROC TTEST; CLASS EQUIPE; VAR PERC; TITLE 'TESTE PARA IGUALDADE DE MEDIAS DADOS NO PAREADOS'; RUN;

ANLISE DOS RESULTADOS:TESTE PARA IGUALDADE DE MEDIAS - DADOS NAO PAREADOS TTEST PROCEDURE Variable: PESO EQUIPE N Mean Std Dev Std Error Minimum Maximum ------------------------------------------------------------------------EQU_A 6 0.81000000 0.01414214 0.00577350 0.79000000 0.83000000 EQU_B 9 0.78000000 0.03674235 0.01224745 0.73000000 0.84000000 Variances T DF Prob>|T| --------------------------------------Unequal 2.2156 11.1 0.0486 Equal 1.8893 13.0 0.0814 For H0: Variances are equal, F' = 6.75 DF = (8,5) Prob>F' = 0.0501

O p-valor para o teste de igualdade de varincias dado por PROB >F'=0.0501 que menor que 0.10, indicando que as varincias so significativamente Treinamento Sistema SAS 32 Prof. Dr. Luis Felipe Lopes

diferentes a um nvel de 10% de significncia. Para o teste de igualdade de mdias, a linha denominada UNEQUAL deve ser utilizada. A um nvel de 5% de significncia h diferena significativa entre as mdias dos pesos dos pacotes, pois PROB > ITI = 0.0486 < 0.05.

3.2 Testes para dados pareados

Os resultados de duas amostras constituem dados emparelhados (ou pareados) quando esto relacionados dois a dois segundo algum critrio que introduz uma influncia mercante entre os diversos pares. Esta influncia incide igualmente sobre os valores de cada par. Assim, por exemplo, suponha que 10 cobaias sejam submetidas durante uma semana a uma dieta com certo tipo de rao. Os pesos das cobaias so medidos no incio e no fim do tratamento, e deseja-se tirar concluses sobre o aumento mdio do peso verificado. Se os animais forem perfeitamente identificados, teremos duas amostras de valores do tipo 'antes' e 'depois', e os dados sero pareados, pois cada valor da palmeira amostra estar perfeitamente associado ao respectivo valor da segunda amostra. O critrio que garante o emparelhamento a identidade de cada cobaia. razovel esperar que a identidade de cada animal tenha influncia nos valores observados de seu peso, porm essa influncia deve exercer-se de forma aproximadamente igual dentro de cada para de valores 'antes e depois', logo, ao se tomarem as diferenas entre vrios pares de valores, a influncia individual de cada animal tende a desaparecer, restando apenas os efeitos produzidos pela rao. No mesmo exemplo, se os animais no fossem identificados, no haveria como associar os valores das duas amostras, e os dados seriam noemparelhados. Se os dados de duas amostras so emparelhados tem sentido calcular as diferenas di correspondentes a cada par de valores, reduzindo assim os dados a uma nica amostra de n diferenas. Testa-se ento a hiptese de que a diferena entre as mdias das populaes emparelhadas seja igual a um certo valor, reduzindo o problema ao teste de uma nica mdia. As hipteses a serem atendidas para validao deste teste so listadas baixo: - AMOSTRAS PAREADAS: Nvel de medida: A varivel resposta deve estar na escala de intervalo ou de razo. A varivel independente deve estar na escala nominal e assumir somente duas categorias. Observaes pareadas: Uma dada observao que aparece em uma condio tem que estar de algum moda associada uma observao correspondente na outra condio. 33 Treinamento Sistema SAS Prof. Dr. Luis Felipe Lopes

Observaes Independentes: Um valor de dado em uma condio no pode ser afetado por qualquer outro valor de dado em ambas condies. Amostras Aleatrias: Os valores da varivel resposta devem representar uma amostra aleatria oriunda de uma populao de interesse. Distribuio Normal para a diferena de Scores: As diferenas de scores entre os pares de valores devem ser normalmente distribudas. No h necessidade que a varivel resposta seja normalmente distribuda. Homogeneidade de Varincias: As populaes representadas pelas duas condies devem ter iguais varincias . PROC UNIVARIATE Para observaes pareadas, o primeiro passo encontrar as diferenas para cada observao na amostra. O segundo sumarizar estas diferenas. Para calcular estas diferenas, pode-se criar uma nova varivel no DATA STEP, cuja mdia ser sumarizada atravs da PROC UNIVARIATE. Outro caminho para sumarizar os dados amostrais produzir grficos que mostrem a distribuio dos valores. Ex7.: Dez alunos foram submetidas ao determinado treinamento e acompanhado por determinado tipo de reforo alimentar durante 2 meses. Os alunos formaram um grupo mais homogneo possvel, com mesma idade e mesmo sexo. Os pesos, em gramas, no princpio e no fim do segundo ms, so designados respectivamente por peso 1 e peso 2. Ao nvel de 5% de significncia pode-se concluir que o uso do reforo alimentar contribuiu para o aumento do peso mdio dos alunos? O programa a seguir prov um teste de hiptese para checar se a diferena mdia de pesos significativamente diferente de zero.OPTIONS FORMDLIM='*' LS=80; DATA TRAT A; /* EXEMPL08 SAS */ INPUT ALUNOS PESO1 PESO2 @@; DIF= PESO2-PESOl; CARDS; 1 63.5 64.0 2 70.4 71.2 3 66.2 68.1 4 56.0 55.8 5 60.3 61.0 6 74.5 74.0 7 69.8 70.7 8 57.5 58.5 9 63.3 63.5 10 66.9 68.2 ; PROC PRINT; TITLE 'LISTA DAS DIFERENCAS PAREADAS'; RUN; PROC UNIVARIATE; VAR DIF;

Treinamento Sistema SAS

34

Prof. Dr. Luis Felipe Lopes

TITLE 'TESTE PARA DIFERENCAS DE OBSERVACOES PAREADAS'; PROC CHART; VBAR DIF; TITLE 'CARTA PARA DIFERENCAS PAREADAS'; RUN;

ANLISE DOS RESULTADOS:LISTA DAS DIFERENCAS PAREADAS OBS 1 2 3 4 5 6 7 8 9 10 ALUNOS 1 2 3 4 5 6 7 8 9 10 PESO1 63.5 70.4 66.2 56.0 60.3 74.5 69.8 57.5 63.3 66.9 PESO2 64.0 71.2 68.1 55.8 61.0 74.0 70.7 58.5 63.5 68.2 DIF 0.5 0.8 1.9 -0.2 0.7 -0.5 0.9 1.0 0.2 1.3

TESTE PARA DIFERENCAS DE OBSERVACOES PAREADAS Univariate Procedure Variable=DIF Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank 10 0.66 0.704273 -0.0293 8.82 106.708 2.963487 10 3 22.5 Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| 10 6.6 0.496 0.054015 4.464 0.222711 0.0159 8 0.1094 0.0215

Quantiles(Def=5) 100% 75% 50% 25% 0% Range Q3-Q1 Mode Max Q3 Med Q1 Min 1.9 1 0.75 0.2 -0.5 2.4 0.8 -0.5 Extremes Lowest -0.5( -0.2( 0.2( 0.5( 0.7( Obs 6) 4) 9) 1) 5) Highest 0.8( 0.9( 1( 1.3( 1.9( Obs 2) 7) 8) 10) 3) 99% 95% 90% 10% 5% 1% 1.9 1.9 1.6 -0.35 -0.5 -0.5

O relatrio parcial da PROC UNIVARIATE mostra na linha denominada T:MEAN=0 o valor da estatstica de teste T (T=2.9635) e o p-valor associado ao teste PROB > |T| = 0,0159. O p-valor menor que 0.05, donde se conclui que a Treinamento Sistema SAS 35 Prof. Dr. Luis Felipe Lopes

diferena mdia dos pesos dos alunos com a utilizao do reforo alimentar significativamente diferente de zero. A um nvel de 5% de significncia o uso da reforo alimentar contribui para o aumento do peso mdio dos alunos.CARTA PARA DIFERENCAS PAREADAS Frequency 4 + ***** | ***** | ***** | ***** | ***** | ***** | ***** 3 + ***** ***** | ***** ***** | ***** ***** | ***** ***** | ***** ***** | ***** ***** | ***** ***** 2 + ***** ***** ***** | ***** ***** ***** | ***** ***** ***** | ***** ***** ***** | ***** ***** ***** | ***** ***** ***** | ***** ***** ***** 1 + ***** ***** ***** ***** | ***** ***** ***** ***** | ***** ***** ***** ***** | ***** ***** ***** ***** | ***** ***** ***** ***** | ***** ***** ***** ***** | ***** ***** ***** ***** --------------------------------------------------------0.4 0.4 1.2 2.0 DIF Midpoint

O grfico com a distribuio dos valores das diferenas obtido atravs da PROC CHART. As barras verticais mostram que a mais alta freqncia ocorre para valores entre 0.8 e 0.16, prximo a 0.12, indicando mais uma vez que a variao mdia das diferenas estatisticamente significante.

Treinamento Sistema SAS

36

Prof. Dr. Luis Felipe Lopes

4 MTODOS NO PARAMTRICOS

4.1 Testes para igualdade de duas mdias (PROC NPAR1WAY) Os testes no paramtricos utilizam-se de poucas suposies a respeito da distribuio de habilidade dos dados. Ele indicado quando o tamanho das amostras analisadas muito pequeno para validar a suposio de normalidade dos dados. PROC NPAR1WAY A PROC NPARLWAY um procedimento no paramtrico para testar se a distribuio de uma varivel tem o mesmo parmetro de locao sobre diferentes grupos. Ela trabalha com grupos independentes, dados no pareados. Para dados pareados, a PROC UNIVARIATE desempenha um teste de sinais e o teste dos ranks de Wilcoxon. FORMA GERAL: PROC NPARLWAY DATA= arquivo de dados opes; VAR variveis; CLASS varivel; BY variveis; COMANDOS DISPONVEIS: VAR nomeia variveis a serem analisadas para a comparao dos dois grupos. (comando opcional). Uma vez omitido , as anlises so feitas sobre todas as variveis numricas do arquivo de dados. nomeia somente uma varivel de classificao de grupo. O comando CLASS obrigatrio. A varivel que identifica os grupos podem ser caracteres ou numricas. separa a anlise em observaes definidas pelas variveis do comando BY. Os dados precisam estar ordenados antes de se utilizar este comando.

CLASS

BY

OPES DISPONVEIS: WILCOXON desempenha o teste da Soma dos Ranks de Wilcoxon para uma varivel de dois nveis. Ele se baseia na soma dos ranks dos valores observados. Este rank ir indicar a posio de um determinado valor no conjunto ordenado (crescente ou decrescentemente), do primeiro ao ltimo elemento Valores iguais so considerados com um rank mdio de modo a no 37 Prof. Dr. Luis Felipe Lopes

Treinamento Sistema SAS

afetar os rank seguintes. Por exemplo, os valores 15, 12, 16, 19 e 16, considerados numa ordem crescente, tero os seguintes ranks: 2, 1, 3.5 , 5 e 3.5. Wilcoxon considerou que sendo vlida a hiptese nula de identicidade entre as populaes, a soma dos postos nas amostras deveriam fornecer valores intermedirios compatveis com cada amostra. Com base nessa idia, determina-se quais os limites para a soma dos ranks nas amostras, alm dos quais deve-se rejeitar a hiptese nula. Para uma varivel de classificao que assuma mais que dois nveis, esta opo corresponde ao Teste de Kruskal- Wallis. MEDIAN requisita uma anlise dos escores das medianas. Se as populaes so idnticas, a mediana do conjunto formado pelas duas amostras fornece uma boa estimativa da mediana da distribuio comum. A proporo de valores abaixo da mediana geral deve tender a ser a mesma nas duas amostras. O escore da mediana 1 para pontos abaixo da mediana geral, e 0 caso contrrio. Para mais que duas amostras, esta opo produz o Teste de Brown- Mood.

Ex8.: Pesquisadores estudam novas tcnicas de cirurgia para reduzir os perodos sob anestesia a que so submetidos determinados atletas. Nove atletas que se submeteram ci urgia foram aleatoriamente assinalados para uma r dentre as duas tcnicas utilizadas. A tcnica A envolve a suspenso da anestesia depois da sutura da inciso, e a tcnica B envolve a suspenso da anestesia durante a sutura. O tempo de recuperao da anestesia foi medido em minutos a partir do final da cirurgia at o momento que o atleta acorda. Determinar se os tempos de recuperao diferem para as duas tcnicas cirrgicas utilizadas.OPTIONS FORMDLIM='*' LS=80; DATA A; /* EXEMPL08 SAS */ INPUT ATLETA TECN $ TEMREC @@; CARDS; l A 47 2 A 34 3 A 44 4 A 16 5 A 53 6 B 79 7 B 42 8 B 14 9 B 11 ; PROC NPAR1WAY WILCOXON MEDIAN; VAR TEMREC; CLASS TECN; TITLE 'ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA'; RUN;

Treinamento Sistema SAS

38

Prof. Dr. Luis Felipe Lopes

ANLISE DOS RESULTADOS:ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA N P A R 1 W A Y P R O C E D U R E

Wilcoxon Scores (Rank Sums) for Variable TEMREC Classified by Variable TECN TECN A B N 5 4 Sum of Scores 28.0 17.0 Expected Under H0 25.0 20.0 Std Dev Under H0 4.08248290 4.08248290 Mean Score 5.60000000 4.25000000

Wilcoxon 2-Sample Test (Normal Approximation) (with Continuity Correction of .5) S= 17.0000 Z= -.612372 Prob > |Z| = 0.5573 0.4624 0.5403

T-Test approx. Significance =

Kruskal-Wallis Test (Chi-Square Approximation) CHISQ= 0.54000 DF= 1 Prob > CHISQ= ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA N P A R 1 W A Y P R O C E D U R E

Median Scores (Number of Points above Median) for Variable TEMREC Classified by Variable TECN TECN A B N 5 4 Sum of Scores 3.0 1.0 Expected Under H0 2.22222222 1.77777778 Std Dev Under H0 0.785674201 0.785674201 Mean Score 0.600000000 0.250000000

Median 2-Sample Test (Normal Approximation) S= 1.00000 Z= -.989949 Prob > |Z| = 0.3222

Median 1-Way Analysis (Chi-Square Approximation) CHISQ= 0.98000 DF= 1 Prob > CHISQ= 0.3222

O p-valor para o teste de Wilcoxon dado por Prob > |Z|= 0.5403 que superior a 0.05. Conclui-se, portanto, que as mdias dos tempos de recuperao no so significativamente diferentes ao nvel de 5% de significncia. O p-valor para o teste de medianas dado por Prob > |Z| = O.3222 que maior que 0.05, ou seja, a um nvel de 5% de significncia no h diferena significativa entre os tempos de recuperao referentes as duas tcnicas utilizadas. O valor dado por Prob > CHISQ = 0.3222 resulta de uma aproximao de Chi-quadrado.

Treinamento Sistema SAS

39

Prof. Dr. Luis Felipe Lopes

Ex9.: Se no exemplo anterior os atletas fossem divididos em grupos por sexo, Por exemplo feita no sentido de verificar a existncia de diferena entre os tempos de recuperao dentro de cada grupo. O programa a seguir mostra como desempenhar esta anlise.OPTIONS FORMDLIM='*' LS=80; DATA ANEST2 A; /* EXEMPLO9 INPUT ATLETA SEXO $ TECN $ CARDS; l M A 47 2 M A 34 3 F A 44 4 F A 16 5 F A 53 6 M B 79 7 M B 42 8 M B 14 9 F B 11 ; PROC SORT; BY SEXO; PROC NPAR1WAY WILCOXON; VAR TEMPREC; CLASS TECN; BY SEXO; RUN; SAS */ TEMPREC;

ANLISE DOS RESULTADOS:ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA --------------------------------- SEXO=F -------------------------------N P A R 1 W A Y P R O C E D U R E

Wilcoxon Scores (Rank Sums) for Variable TEMREC Classified by Variable TECN TECN A B N 3 1 Sum of Scores 9.0 1.0 Expected Under H0 7.50000000 2.50000000 Std Dev Under H0 1.11803399 1.11803399 Mean Score 3.0 1.0

Wilcoxon 2-Sample Test (Normal Approximation) (with Continuity Correction of .5) S= 1.00000 Z= -.894427 Prob > |Z| = 0.4370 0.1797 0.3711

T-Test approx. Significance =

Kruskal-Wallis Test (Chi-Square Approximation) CHISQ= 1.8000 DF= 1 Prob > CHISQ=

Treinamento Sistema SAS

40

Prof. Dr. Luis Felipe Lopes

ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA --------------------------------- SEXO=M -------------------------------N P A R 1 W A Y P R O C E D U R E

Wilcoxon Scores (Rank Sums) for Variable TEMREC Classified by Variable TECN TECN A B N 2 3 Sum of Scores 6.0 9.0 Expected Under H0 6.0 9.0 Std Dev Under H0 1.73205081 1.73205081 Mean Score 3.0 3.0

Wilcoxon 2-Sample Test (Normal Approximation) (with Continuity Correction of .5) S= 6.00000 Z= 0 Prob > |Z| = 0.9999 0.9999 0.9999

T-Test approx. Significance =

Kruskal-Wallis Test (Chi-Square Approximation) CHISQ= 0 DF= 1 Prob > CHISQ=

O p-valor de 0.3711 superior a 0.05, ou seja, para o grupo feminino no h diferena significativa para os tempos de recuperao referentes as duas tcnicas utilizadas Prob > |Z| = 0.3711, um nvel de 5% de significncia. Para o grupo masculino, PROB>|Z| = 0.9999 tambm superior 0.05, donde se conclui que no h diferena significativa entre os tempos de recuperao dentro deste subgrupo, a um nvel de 5% de significncia.

5 ANLISE DE VARINCIA

5.1 Dados balanceados (PROC ANOVA)

Quando se deseja fazer inferncias sobre um conjunto de mais que duas mdias, utiliza-se a Anlise de Varincia. A Anlise da Varincia se resume na aplicao de um teste de hipteses sobre um experimento projetado estatisticamente. Esta anlise permite saber se h efeitos significativos de determinadas variveis agindo sobre os resultados alm do erro experimental. Neste captulo, o termo ANOVA refere-se especificamente a uma anlise paramtrica da varincia, que utilizada se algumas suposies sobre os dados observados forem atendidas. As suposies que envolvem uma anlise da varincia so: - as observaes devem ser independentes: a medida para determinada observao no afeta a medida de outra observao. Treinamento Sistema SAS 41 Prof. Dr. Luis Felipe Lopes

- as observaes so geradas por uma distribuio normal. Se existe uma diferena entre os grupos, talvez exista uma distribuio normal especfica para cada grupo. - as varincias dos grupos so iguais. Quando o experimento consiste na anlise de uma nica varivel (ou fator), com vrios nveis, a anlise dita ANOVA a fator nico. Para este tipo de anlise, os procedimentos SAS no fazem distino quanto ao tipo de dados utilizados: se balanceados ou no. Dados balanceados so aqueles cujos grupos experimentais tem o mesmo tamanho de amostra. Dados no balanceados, o tamanho da amostra difere para cada grupo. Ambos os procedimentos GLM e ANOVA, tratam estes dados na devida situao. PROC ANOVA A PROC ANOVA para anlise da varincia a fator nico pode ser utilizada, como visto anteriormente, para ambos dados balanceados e no balanceados. Em geral, entretanto, no se utiliza a PROC ANOVA para dados no alanceados. Ela utilizada para: - Blocos aleatorizados - Quadrados latinos Projetos com Blocos Aleatorizados assumem que uma populao de unidades experimentais pode ser dividida em um nmero relativamente homogneo de subpopulaes ou blocos. Os tratamentos so aleatoriamente atribudos s unidades experimentais dentro de cada bloco. Se todos os tratamentos so atribudos em cada bloco, o projeto denominado Projeto com Blocos Completamente Aleatorizados. Para exemplificar, suponha um experimento que, em funo da durao do mesmo, sejam efetuadas edies pela manh e outra tarde. Se a temperatura influir na varivel resposta, a variabilidade do experimento cresce, e a sensibilidade dos efeitos do fator em anlise ser prejudicada. Em outras palavras, entre ma medida feita pela manh e a outra tarde, tem -se as variabilidades devidas ao erro experimental da edio em si, ao efeito do fator (se houver) e variao da temperatura. Como a temperatura no um fator de interesse no experimento, pode-se dizer que ela aumentou o erro experimental. Uma maneira de quantificar e isolar esta influncia consiste em efetuar um grupo completo de medies, que inclua todos os nveis do fator pela manh e outro tarde. Cada grupo ser homogneo em relao temperatura e recebe a designao de bloco aleatorizado. Quando o projeto envolve a blocagem de mais de um fator no experimento, ele denominado de quadrado latino, e representado por uma forma quadrada (4 X 4) tendo o fator em estudo representado por letras latinas. Treinamento Sistema SAS 42 Prof. Dr. Luis Felipe Lopes

Os aspectos acima descritos dizem respeito ao controle do erro experimental. Outro aspecto a ser considerado na Anlise de Varincia seria a estrutura de tratamento fatorial, que pode ser aplicada qualquer esquema de aleatorizao. Um experimento fatorial balanceado consiste de todas as possveis combinaes dos nveis de duas ou mais variveis. Estes nveis podem se referir quantidades numricas das variveis, tais como graus de temperatura, quantidade de fertilizantes, ou variveis que definam categorias q ualitativas, tais como tipos de fertilizantes, condies operacionais (Temperatura: baixa, mdia ou alta). Um exemplo de experimento fatorial o estudo envolvendo o uso de nitrognio, fsforo e potssio, cada um trs nveis. Este experimento possui 3 **3 = 27 combinaes de tratamento. Experimentos fatoriais so utilizados para investigar no somente todas as diferenas entre os nveis de cada fator (efeitos principais), como tambm como os nveis de um fator afetam a varivel resposta, em combinao com os nveis dos demais fatores (interaes). A PROC ANOVA pode ser utilizada interativamente. Uma vez especificado um modelo com o comando MODEL, que ser visto a seguir, e rodar o procedimento com o comando RUN, outra variedade de comandos poder ser executada sem que o procedimento recalcule as estatsticas do modelo geradas inicialmente. FORMA GERAL: PROC ANOVA DATA = arquivo SAS; CLASS variveis; /*tratamentos*/ MODEL dependente = efeitos / opes; MANOVA H = varivel / opes; MEANS efeitos / opes; OUTPUT OUT = arquivo SAS P= nova varivel R = nova varivel L95 = nova varivel U95 = nova varivel L95M = nova varivel U95M=nova varivel; RUN; COMANDOS DISPONVEIS: CLASS nomeia as variveis de classificao utilizadas para identificar os grupos para anlise. Este comando tem que aparecer antes do comando MODEL. nomeia as variveis dependentes e independentes do modelo. se o comando MODEL inclui mais que uma varivel dependente, este comando fornece estatsticas multivariadas. gera mdias para cada nvel das variveis independentes e para a interao dos nveis, quando existir. 43 Prof. Dr. Luis Felipe Lopes

MODEL MANOVA

MEANS

Treinamento Sistema SAS

OUTPUT

gera arquivo de sada com as variveis que iro conter os valores previstos, residuais, intervalos de confiana para um valor individual da varivel dependente, e intervalos de confiana para o valor esperado ( mdia ) da varivel dependente.

OPES DISPONIVEIS NO COMANDO MODEL: INT requisita teste associado ao intercepto como parmetro do modelo. Por default, ele includo no modelo, mas o teste associado no listado. Com esta opo o teste associado listado. requisita que o intercepto no seja usado no modelo. suprimi estatsticas univariadas.

NOINT NOUNI

OPES DISPONVEIS NO COMANDO MANOVA: H PRINTH especifica efeitos no modelo para usar como matriz de hipteses. lista a matriz de hipteses SSCP e a matriz de erro. A opo PRINTE tambm lista uma matriz de coeficientes de correlao parcial e derivada da matiz de erros SSCP. Esta matriz de correlao representa a correlao das variveis dependentes corrigidas para todos os fatores independentes definidos no comando MODEL.

OPES DISPONVEIS NO COMANDO MEANS: As opes especificam os testes utilizados para comparao mltipla e so aplicadas somente para os termos de efeitos principais . DUNCAN desempenha teste de mltiplos ranges para todas as mdias dos efeitos principais especificados no comando MEANS. desempenha teste de ranges de Student para todas as mdias dos efeitos principais especificados no comando MEANS. d os nveis de significncia para a comparao entre as mdias. Por default Alpha=0.05. Para a opo DUNCAN, somente os valores 0.01, 0.05 ou 0.1 so vlidos. Nas demais opes que desempenham testes de comparao mltipla, valores entre 0.0001 e 0.9999 so vlidos.

TUKEY

ALPHA

Treinamento Sistema SAS

44

Prof. Dr. Luis Felipe Lopes

ESTUDO DE CASO

5.1.1 Experimento Completamente Casualizado

Suponha que os pesquisadores de uma linha de produo automobilstica queiram comparar o desgaste de 4 tipos de pneus. Eles decidiram usar 4 pneus de cada tipo e posicionaram aleatoriamente os 16 pneus em 4 carros diferentes, medindo a quantidade de desgaste em mm aps 10.000 Km rodados pelos 4 carros em condies idnticas de direo.

Considere as seguintes questes: 1 - As unidades experimentais deste experimento so os pneus. 2 - As suposies para anlise consistem em tratamentos aleatoriamente atribudos para as 16 posies nos 4 carros, com o desgaste por marca de pneu sendo normalmente distribudo, com varincia comum. 3 - O modelo experimental representado por: DESGASTE = CTE + efeito TIPO + erro A hiptese a ser testada : Ho: As mdias dos desgastes para os 4 tipos de pneus so iguais Leia os dados em um arquivo SAS e anlise com a PROC ANOVA a hiptese testada.

Treinamento Sistema SAS

45

Prof. Dr. Luis Felipe Lopes

OPTIONS FORMDLIM='*' LS=80; DATA A; /* EXEMP10 SAS */ INPUT TIPOS $ DESGASTE @@; CARDS; A 1.83 B 2.42 C 1.98 D 1.83 A 1.88 B 2.05 C 1.86 D 1.81 A 1.86 B 2.10 C 2.30 D 1.75 A 1.77 B 2.61 C 2.31 D 1.92 ; PROC ANOVA; CLASS TIPO; MODEL DESGASTE = TIPO; TITLE 'EXPERIMENTO COMPLETAMENTE CASUALIZADO'; RUN;

ANLISE DOS RESULTADOS:EXPERIMENTO COMPLETAMENTE CASUALIZADO Analysis of Variance Procedure Class Level Information Class TIPO Levels 4 Values A B C D

Number of observations in data set = 16 EXPERIMENTO COMPLETAMENTE CASUALIZADO Analysis of Variance Procedure Dependent Variable: DESGASTE Source Model Error Corrected Total DF 3 12 15 Sum of Squares 0.62175000 0.39015000 1.01190000 C.V. 8.937409 Anova SS 0.62175000 Root MSE 0.1803122 Mean Square 0.20725000 F Value 6.37 DESGASTE Mean 2.0175000 Pr > F 0.0079 Mean Square 0.20725000 0.03251250 F Value 6.37 Pr > F 0.0079

R-Square 0.614438 Source TIPO DF 3

A estimativa da varincia do erro da populao dada por MSE (Error) = 0.032; O R_Square descreve a quantidade de variao nos dados que se deve a diferena existente entre os Grupos. Logo, 61% da variabilidade do modelo explicada pela diferena entre os tipos dos pneus.

Treinamento Sistema SAS

46

Prof. Dr. Luis Felipe Lopes

O p-valor dado por Pr > F = 0.0079 inferior ao nvel de significncia de 0.10, donde se conclui que a mdia do desgaste significativamente diferente para os diferentes tipos de pneus. A Soma dos Quadrados (SS) mede a quantidade de variao atribuda a uma dada fonte. Note que Model SS e Error SS somam a variao total do modelo. A mdia global do desgaste dos pneus dada por DESGASTE Mean. O coeficiente de variao CV calculado multiplicando o desvio padro por 100 e dividindo pela mdia, ou seja. 100 (std/mean).

5.1.2 Experimento com Blocos Aleatorizados

A fim de controlar a influncia do fator tipo de carro no desgaste dos pneus, decidiu-se coletar medidas do desgaste de modo que cada tipo de pneu aparecesse em cada carro, Logo, cada carro consiste num bloco de edies, o que permite: - O controle da variao que se deve aos diferentes tipos de carro. - A eliminao da variao de cada carro em relao aos tipos de pneus utilizados. - A obteno de uma preciso maior do erro do experimento. O modelo experimental em questo dado por: DESGASTE = CTE + efeito TIPO + efeito CARRO + erro Os efeitos dos blocos so aditivos, ou seja, no existe interao entre o tipo de pneu e o tipo de carro. O novo experimento tem o seguinte layout:

Treinamento Sistema SAS

47

Prof. Dr. Luis Felipe Lopes

OPTIONS FORMDLIM='*' LS=80; DATA A; /* EXEMP11 SAS */ INPUT TIPO $ CARRO DESGASTE @@; CARDS; A l 1.51 A 2 1.71 A 3 1.78 A B l 2.36 B 2 2.45 B 3 2.24 B C l 2.20 C 2 2.05 C 3 2.01 C D l 1.51 D 2 2.22 D 3 1.73 D ; PROC ANOVA; CLASS TIPO CARRO; MODEL DESGASTE = TIPO CARRO; TITLE 'EXPERIMENTO COM BLOCOS ALEATORIZADOS'; RUN;

4 4 4 4

1.80 2.41 2.01 1.80

ANLISE DOS RESULTADOS:EXPERIMENTO COM BLOCOS ALEATORIZADOS Analysis of Variance Procedure Class Level Information Class TIPO CARRO Levels 4 4 Values A B C D 1 2 3 4

Number of observations in data set = 16 ************************************************************************* EXPERIMENTO COM BLOCOS ALEATORIZADOS Analysis of Variance Procedure Dependent Variable: DESGASTE Source Model Error Corrected Total DF 6 9 15 Sum of Squares 1.14733750 0.26440625 1.41174375 C.V. 8.626687 Anova SS 1.04526875 0.10206875 Root MSE 0.1714015 Mean Square 0.34842292 0.03402292 F Value 11.86 1.16 DESGASTE Mean 1.9868750 Pr > F 0.0018 0.3780 Mean Square 0.19122292 0.02937847 F Value 6.51 Pr > F 0.0068

R-Square 0.812709 Source TIPO CARRO DF 3 3

Treinamento Sistema SAS

48

Prof. Dr. Luis Felipe Lopes

Pode-se notar que estimativa da varincia do erro deste experimento inferior a vista anteriormente. O fator de blocagem CARRO poderia ser retirado do experimento, uma vez que ele no significativo.

5.1.3 Experimento com Quadrado Latino

A localizao do pneu no carro pode ter algum efeito sobre o resultado do desgaste. Se o interesse for controlar o efeito da localizao do pneu a fim de se obter uma idia melhor do tipo de pneu no desgaste, os tipos de pneus devem ser posicionados da seguinte maneira:

Nesse experimento cada tipo de pneu aparece em cada carro, todos os tipos em diferentes posies. O modelo experimental dado por: DESGASTE = CTE + TIPO + CARRO + POS + ERRO

Os efeitos dos blocos (carro e posio do pneu) so aditivos. Analise a varincia do experimento apresentado.OPTIONS FORMDLIM='*' LS=80; DATA A; /* EXEMP12 SAS */ INPUT CARRO POS TIPO $ DESGASTE; CARDS; 1 l B 2.23 2 l C 2.31 3 l D 2.07 l 2 C 2.04 2 2 D 1.97 3 2 A 1.69 1 3 D 1.78 2 3 A 1.73 3 3 B 2.20 1 4 A 1.64 2 4 B 2.22 3 4 C 1.80 ; PROC ANOVA; CLASS CARRO POS TIPO; MODEL DESGASTE = CARRO POS TIPO; TITLE 'EXPERIMENTO COM QUADRADO LATINO'; RUN;

4 4 4 4

1 2 3 4

A B C D

1.97 2.59 2.25 1.86

Treinamento Sistema SAS

49

Prof. Dr. Luis Felipe Lopes

ANLISE DOS RESULTADOS:EXPERIMENTO COM QUADRADO LATINO Analysis of Variance Procedure Class Level Information Class CARRO POS TIPO Levels 4 4 4 Values 1 2 3 4 1 2 3 4 A B C D

Number of observations in data set = 16 ************************************************************************* EXPERIMENTO COM QUADRADO LATINO Analysis of Variance Procedure Dependent Variable: DESGASTE Source Model Error Corrected Total DF 9 6 15 Sum of Squares 0.98925625 0.06598750 1.05524375 C.V. 5.186817 Anova SS 0.15621875 0.15546875 0.67756875 Root MSE 0.1048710 Mean Square 0.05207292 0.05182292 0.22585625 F Value 4.73 4.71 20.54 DESGASTE Mean 2.0218750 Pr > F 0.0505 0.0510 0.0015 Mean Square 0.10991736 0.01099792 F Value 9.99 Pr > F 0.0055

R-Square 0.937467 Source CARRO POS TIPO DF 3 3 3

Observa-se uma reduo na varincia do erro experimental MS(ERROR) = 0.010. O modelo apresentado explica 93.75% da variabilidade do experimento. O tipo de pneu um fator significativo para o modelo, pois Pr > F = 0.0055 inferior ao nvel de significncia de 0.10.

Treinamento Sistema SAS

50

Prof. Dr. Luis Felipe Lopes

6 EXEMPLO PRTICO 6.1 Banco de DadosGRUPO A A A A A A A A A A A A A B B B B B B B B B B B B B B B B IDADE 11,9 11,11 12,5 11,8 11,8 11,8 11,9 11,9 11,11 11,11 11,12 12,2 12,4 12,2 12,1 11,1 11,9 11,8 11,8 11,7 11,6 11,6 11,8 11,9 11,9 11,1 11,11 12,1 12,2 PAS_INI PAD_INI PAS_FIM PAD_FIM 120 110 110 120 110 130 120 90 120 80 110 130 90 100 100 120 100 110 100 100 110 140 110 120 130 110 130 110 110 80 60 60 60 70 90 70 60 80 50 60 70 50 80 50 70 60 70 70 60 70 90 70 90 90 80 70 80 80 120 130 120 160 130 170 140 150 150 160 160 150 150 150 140 140 150 120 160 160 120 130 120 130 130 140 140 120 130 70 70 60 60 80 100 80 100 100 80 90 40 90 90 90 80 70 80 100 90 50 70 50 70 60 80 60 30 40 PESO 40 42 40,4 46,5 49 53,6 49 43,5 43,3 53,8 45 55,2 52,1 31,6 36,4 37,5 45,4 37,1 55,5 39 41,2 31,2 33,3 32,4 47,2 52 43,6 41,7 34,7 ESTAT 154,5 155,5 148,4 160,8 166 157 159 154 156,3 157,3 164,7 157,2 167,3 155 158,9 147,2 156,1 152 161,5 152 141 155,3 163,5 158 152 147 153 158 154

Treinamento Sistema SAS

51

Prof. Dr. Luis Felipe Lopes

TESTE DE NORMALIDADE - TESTE DE SHAPIRO-WILK ---------------------------------- GRUPO=A -----------------------------------Univariate Procedure Variable=IDADE W:Normal 0.874563 Pr 0,05) Teste de Shapiro-WilkUnivariate Procedure Variable=PAS_IN W:Normal 0.888869 Pr 0,05) Teste de Shapiro-WilkVariable=PAD_IN W:Normal 0.918092 Pr 0,05) Teste de Shapiro-WilkVariable=PAD_FI W:Normal 0.920703 Pr 0,05) Teste de Shapiro-WilkVariable=PAS_FI W:Normal 0.930316 Pr 0,05) Teste de Shapiro-WilkVariable=PESO W:Normal 0.932284 Pr 0,05) Teste de Shapiro-WilkVariable=ESTAT W:Normal 0.946241 Pr 0,05) Teste de Shapiro-Wilk

Treinamento Sistema SAS

52

Prof. Dr. Luis Felipe Lopes

---------------------------------- GRUPO=B -----------------------------------Univariate Procedure Variable=IDADE W:Normal 0.878959 Pr F 0.0929

******************************************************************************** Analysis of Variance Procedure Dependent Variable: PAS_FI Source Model Error Corrected Total DF 1 27 28 R-Square 0.056641 Source GRUPO DF 1 Sum of Squares 592.19164456 9862.98076923 10455.17241379 C.V. 26.02200 Anova SS 592.19164456 Root MSE 19.112707 Mean Square 592.19164456 F Value 1.62 PAS_FI Mean 73.448276 Pr > F 0.2138 Mean Square 592.19164456 365.29558405 F Value 1.62 Pr > F 0.2138

******************************************************************************** Analysis of Variance Procedure Dependent Variable: PAD_FI Source Model Error Corrected Total DF 1 27 28 R-Square 0.092122 Sum of Squares 598.47480106 5898.07692308 6496.55172414 C.V. 10.53118 Root MSE 14.779963 PAD_FI Mean 140.34483 Mean Square 598.47480106 218.44729345 F Value 2.74 Pr > F 0.1095

Treinamento Sistema SAS

54

Prof. Dr. Luis Felipe Lopes

Source GRUPO

DF 1

Anova SS 598.47480106

Mean Square 598.47480106

F Value 2.74

Pr > F 0.1095

******************************************************************************** ANALISE DE VARIANCIA - DADOS PARAMTRICOS 298 22:01 Tuesday, March 18, 1997 Analysis of Variance Procedure Dependent Variable: PESO Source Model Error Corrected Total DF 1 27 28 R-Square 0.247717 Source GRUPO DF 1 Sum of Squares 371.52005968 1128.25442308 1499.77448276 C.V. 14.95889 Anova SS 371.52005968 Root MSE 6.4643020 Mean Square 371.52005968 F Value 8.89 PESO Mean 43.213793 Pr > F 0.0060 Mean Square 371.52005968 41.78720085 F Value 8.89 Pr > F 0.0060

******************************************************************************** Analysis of Variance Procedure Dependent Variable: ESTAT Source Model Error Corrected Total DF 1 27 28 R-Square 0.137685 Source GRUPO DF 1 Sum of Squares 131.16880802 821.50360577 952.67241379 C.V. 3.537059 Anova SS 131.16880802 Root MSE 5.5159822 Mean Square 131.16880802 F Value 4.31 ESTAT Mean 155.94828 Pr > F 0.0475 Mean Square 131.16880802 30.42605947 F Value 4.31 Pr > F 0.0475

Treinamento Sistema SAS

55

Prof. Dr. Luis Felipe Lopes

******************************************************************************** Analysis of Variance Procedure Duncan's Multiple Range Test for variable: PAD_IN NOTE: This test controls the type I comparisonwise error rate, not the experimentwise error rate Alpha= 0.05 df= 27 MSE= 136.396 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Number of Means 2 Critical Range 8.948 Means with the same letter are not significantly different. Duncan Grouping A A A Mean 73.750 66.154 N 16 13 GRUPO B A

******************************************************************************** Analysis of Variance Procedure Tukey's Studentized Range (HSD) Test for variable: PAD_IN NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 27 MSE= 136.396 Critical Value of Studentized Range= 2.902 Minimum Significant Difference= 8.9477 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Means with the same letter are not significantly different. Tukey Grouping A A A Mean 73.750 66.154 N 16 13 GRUPO B A

******************************************************************************** Analysis of Variance Procedure Scheffe's test for variable: PAD_IN NOTE: This test controls the type I experimentwise error rate but generally has a higher type II error rate than REGWF for all pairwise comparisons Alpha= 0.05 df= 27 MSE= 136.396 Critical Value of F= 4.21001 Minimum Significant Difference= 8.9477 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Means with the same letter are not significantly different. Scheffe Grouping A A A Mean 73.750 66.154 N 16 13 GRUPO B A

Treinamento Sistema SAS

56

Prof. Dr. Luis Felipe Lopes

******************************************************************************** Analysis of Variance Procedure Duncan's Multiple Range Test for variable: PAS_FI NOTE: This test controls the type I comparisonwise error rate, not the experimentwise error rate Alpha= 0.05 df= 27 MSE= 365.2956 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Number of Means 2 Critical Range 14.64 Means with the same letter are not significantly different. Duncan Grouping A A A Mean 78.462 69.375 N 13 16 GRUPO A B

******************************************************************************** Analysis of Variance Procedure Tukey's Studentized Range (HSD) Test for variable: PAS_FI NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 27 MSE= 365.2956 Critical Value of Studentized Range= 2.902 Minimum Significant Difference= 14.643 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Means with the same letter are not significantly different. Tukey Grouping A A A Mean 78.462 69.375 N 13 16 GRUPO A B

******************************************************************************** Analysis of Variance Procedure Scheffe's test for variable: PAS_FI NOTE: This test controls the type I experimentwise error rate but generally has a higher type II error rate than REGWF for all pairwise comparisons Alpha= 0.05 df= 27 MSE= 365.2956 Critical Value of F= 4.21001 Minimum Significant Difference= 14.643 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Means with the same letter are not significantly different. Scheffe Grouping A A A Mean 78.462 69.375 N 13 16 GRUPO A B

Treinamento Sistema SAS

57

Prof. Dr. Luis Felipe Lopes

******************************************************************************** Analysis of Variance Procedure Duncan's Multiple Range Test for variable: PAD_FI NOTE: This test controls the type I comparisonwise error rate, not the experimentwise error rate Alpha= 0.05 df= 27 MSE= 218.4473 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Number of Means 2 Critical Range 11.32 Means with the same letter are not significantly different. Duncan Grouping A A A Mean 145.385 136.250 N 13 16 GRUPO A B

******************************************************************************** Analysis of Variance Procedure Tukey's Studentized Range (HSD) Test for variable: PAD_FI NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 27 MSE= 218.4473 Critical Value of Studentized Range= 2.902 Minimum Significant Difference= 11.324 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Means with the same letter are not significantly different. Tukey Grouping A A A Mean 145.385 136.250 N 13 16 GRUPO A B

******************************************************************************** Analysis of Variance Procedure Scheffe's test for variable: PAD_FI NOTE: This test controls the type I experimentwise error rate but generally has a higher type II error rate than REGWF for all pairwise comparisons Alpha= 0.05 df= 27 MSE= 218.4473 Critical Value of F= 4.21001 Minimum Significant Difference= 11.324 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Means with the same letter are not significantly different. Scheffe Grouping A A A Mean 145.385 136.250 N 13 16 GRUPO A B

Treinamento Sistema SAS

58

Prof. Dr. Luis Felipe Lopes

******************************************************************************** Analysis of Variance Procedure Duncan's Multiple Range Test for variable: PESO NOTE: This test controls the type I comparisonwise error rate, not the experimentwise error rate Alpha= 0.05 df= 27 MSE= 41.7872 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Number of Means 2 Critical Range 4.953 Means with the same letter are not significantly different. Duncan Grouping A B Mean 47.185 39.988 N 13 16 GRUPO A B

******************************************************************************** Analysis of Variance Procedure Tukey's Studentized Range (HSD) Test for variable: PESO NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 27 MSE= 41.7872 Critical Value of Studentized Range= 2.902 Minimum Significant Difference= 4.9526 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Means with the same letter are not significantly different. Tukey Grouping A B Mean 47.185 39.988 N 13 16 GRUPO A B

******************************************************************************** Analysis of Variance Procedure Scheffe's test for variable: PESO NOTE: This test controls the type I experimentwise error rate but generally has a higher type II error rate than REGWF for all pairwise comparisons Alpha= 0.05 df= 27 MSE= 41.7872 Critical Value of F= 4.21001 Minimum Significant Difference= 4.9526 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Means with the same letter are not significantly different. Scheffe Grouping A B Mean 47.185 39.988 N 13 16 GRUPO A B

Treinamento Sistema SAS

59

Prof. Dr. Luis Felipe Lopes

******************************************************************************** Analysis of Variance Procedure Duncan's Multiple Range Test for variable: ESTAT NOTE: This test controls the type I comparisonwise error rate, not the experimentwise error rate Alpha= 0.05 df= 27 MSE= 30.42606 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Number of Means 2 Critical Range 4.226 Means with the same letter are not significantly different. Duncan Grouping A B Mean 158.308 154.031 N 13 16 GRUPO A B

******************************************************************************** Analysis of Variance Procedure Tukey's Studentized Range (HSD) Test for variable: ESTAT NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 27 MSE= 30.42606 Critical Value of Studentized Range= 2.902 Minimum Significant Difference= 4.226 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Means with the same letter are not significantly different. Tukey Grouping A B Mean 158.308 154.031 N 13 16 GRUPO A B

******************************************************************************** Analysis of Variance Procedure Scheffe's test for variable: ESTAT NOTE: This test controls the type I experimentwise error rate but generally has a higher type II error rate than REGWF for all pairwise comparisons Alpha= 0.05 df= 27 MSE= 30.42606 Critical Value of F= 4.21001 Minimum Significant Difference= 4.226 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Means with the same letter are not significantly different. Scheffe Grouping A B Mean 158.308 154.031 N 13 16 GRUPO A B

Treinamento Sistema SAS

60

Prof. Dr. Luis Felipe Lopes

******************************************************************************** N P A R 1 W A Y P R O C E D U R E

Wilcoxon Scores (Rank Sums) for Variable IDADE Classified by Variable GRUPO Sum of Scores Expected Under H0 Std Dev Under H0 Mean Score 15.5769231 14.5312500

GRUPO A B

N 13 16

202.500000 195.0 22.5578621 232.500000 240.0 22.5578621 Average Scores Were Used for Ties

Wilcoxon 2-Sample Test (Normal Approximation) (with Continuity Correction of .5) S = 202.500 Z = 0.310313 Prob > |Z| = 0.7563

T-Test Approx. Significance = 0.7586 Kruskal-Wallis Test (Chi-Square Approximation) CHISQ = 0.11054 DF = 1 Prob > CHISQ = 0.7395

******************************************************************************** TESTE NAO PARAMETRICO - WILCOXON N P A R 1 W A Y P R O C E D U R E

Wilcoxon Scores (Rank Sums) for Variable PAS_IN Classified by Variable GRUPO Sum of Scores Expected Under H0 Std Dev Under H0 Mean Score 15.3076923 14.7500000

GRUPO A B

N 13 16

199.0 195.0 22.1452883 236.0 240.0 22.1452883 Average Scores Were Used for Ties

Wilcoxon 2-Sample Test (Normal Approximation) (with Continuity Correction of .5) S = 199.000 Z = 0.158047 Prob > |Z| = 0.8744

T-Test Approx. Significance = 0.8756 Kruskal-Wallis Test (Chi-Square Approximation) CHISQ = 0.03263 DF = 1 Prob > CHISQ = 0.8567

Treinamento Sistema SAS

61

Prof. Dr. Luis Felipe Lopes

******************************************************************************** ANALISE DE CORRELAO - POR GRUPO ----------------------------------- GRUPO=A -----------------------------------Correlation Analysis Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 13 IDADE IDADE PAS_IN 1.00000 0.0 0.11355 0.7119 -0.01829 0.9527 -0.29866 0.3216 -0.35359 0.2359 0.11772 0.7017 -0.09825 0.7495 PAS_IN 0.11355 0.7119 1.00000 0.0 0.78224 0.0016 -0.05119 0.8681 -0.32011 0.2863 -0.03421 0.9116 -0.14034 0.6475 PAD_IN -0.01829 0.9527 0.78224 0.0016 1.00000 0.0 -0.01332 0.9655 0.16250 0.5958 -0.03653 0.9057 -0.21510 0.4803 PAD_FI -0.29866 0.3216 -0.05119 0.8681 -0.01332 0.9655 1.00000 0.0 0.37142 0.2115 0.61683 0.0247 0.35160 0.2388 PAS_FI -0.35359 0.2359 -0.32011 0.2863 0.16250 0.5958 0.37142 0.2115 1.00000 0.0 -0.03737 0.9035 0.22572 0.4584 PESO 0.11772 0.7017 -0.03421 0.9116 -0.03653 0.9057 0.61683 0.0247 -0.03737 0.9035 1.00000 0.0 0.45355 0.1196 ESTAT -0.09825 0.7495 -0.14034 0.6475 -0.21510 0.4803 0.35160 0.2388 0.22572 0.4584 0.45355 0.1196 1.00000 0.0

PAD_IN

PAD_FI PAS_FI PESO

ESTAT

----------------------------------- GRUPO=B -----------------------------------Correlation Analysis 7 'VAR' Variables: IDADE ESTAT PAS_IN PAD_IN PAD_FI PAS_FI PESO

Simple Statistics Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 16 IDADE IDADE 1.00000 0.0 -0.41854 0.1066 0.02114 0.9381 -0.08451 0.7557 -0.15240 0.5731 -0.32680 0.2167 0.52205 0.0381 PAS_IN -0.41854 0.1066 1.00000 0.0 0.63341 0.0084 -0.41562 0.1094 -0.31914 0.2283 -0.16878 0.5320 -0.17507 0.5167 PAD_IN 0.02114 0.9381 0.63341 0.0084 1.00000 0.0 -0.37376 0.1538 -0.34073 0.1966 -0.12430 0.6465 -0.05596 0.8369 PAD_FI -0.08451 0.7557 -0.41562 0.1094 -0.37376 0.1538 1.00000 0.0 0.73254 0.0012 0.36355 0.1663 0.12034 0.6571 PAS_FI -0.15240 0.5731 -0.31914 0.2283 -0.34073 0.1966 0.73254 0.0012 1.00000 0.0 0.16864 0.5324 0.05036 0.8530 PESO -0.32680 0.2167 -0.16878 0.5320 -0.12430 0.6465 0.36355 0.1663 0.16864 0.5324 1.00000 0.0 -0.14503 0.5920 ESTAT 0.52205 0.0381 -0.17507 0.5167 -0.05596 0.8369 0.12034 0.6571 0.05036 0.8530 -0.14503 0.5920 1.00000 0.0

PAS_IN

PAD_IN

PAD_FI

PAS_FI

PESO ESTAT

Treinamento Sistema SAS

62

Prof. Dr. Luis Felipe Lopes

Teste de Duncan O teste de Duncan usado na anlise de varincia para comparar todo e qualquer contraste entre duas mdias de tratamentos. menos rigoroso que o Teste de Tukey, pois detecta diferena significativa entre duas mdias quando o o teste de Tukey no o faz. um teste bastante usado em trabalhos de laboratrios, pode ser usado tanto para tratamentos com o mesmo nmero de repeties, quanto tratamentos com parcelas perdidas. Teste de Tukey O teste de Tukey usado na anlise de varincia para comparar todo e qualquer contraste entre duas mdias de tratamentos. o teste de comparao de mdias mais usado em experimentao, por ser bastante rigoroso e de fcil aplicao. Ele mais exato quando os nmeros de repeties das mdias dos tratamentos forem iguais. Quando o Teste Tukey no der diferena significativa e o teste F for significativo, o mesmo poder ser substitudo pelo Teste de Duncan, por ser menos rigoroso, ou trocar o nvel de significncia para 10%, ou simplesmente aceitar a anlise encontrada. Teste de Scheff O teste de Schfe usado na anlise de varincia numa forma mais abrangente que o Teste de Duncan e de Tukey, pois permite julgar qualquer constraste, pode ser usado tanto para duas mdias (contraste simples) como para mais de duas mdias (contraste mltiplo), na qual ele o mais indicado, por ser mais rigoroso que o Teste de Tukey. Anlise dos Trs Testes Quando o teste F da anlise de varincia no for significativo os trs testes acima no tero efeito de aplicao (s se o teste F estiver prximo da significncia). Para melhor visualizar a anlise comparativa das mdias, as mdias dos tratamentos so colocadas em ordem crescente e para cada conjunto de mdias que no diferem estatisticamente atribuda uma mesma letra, ou seja, para letras iguais mdias estatisticamente iguais, para letras diferentes mdias estatisticamente diferentes. Para a anlise usa-se um nvel de significncia de 5%.

Treinamento Sistema SAS

63

Prof. Dr. Luis Felipe Lopes

ANEXO 1 - ANLISE DE NORMALIDADE USANDO A TABELA DE ASSIMENTRIA E CURTOSE - Skewness and Kurtosis Intervalo de confiana de 95%

n 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37

Skewness -1.81 -1.70 -1.57 -1.45 -1.37 -1.31 -1.26 -1.21 -1.17 -1.13 -1.09 -1.06 -1.03 -1.00 -0.98 -0.95 -0.93 -0.91 -0.89 -0.87 -0.85 -0.84 -0.82 -0.81 -0.79 -0.78 -0.77 -0.76 -0.74 -0.73 -0.72 -0.71 -0.70 1.81 1.70 1.57 1.45 1.37 1.31 1.26 1.21 1.17 1.13 1.09 1.06 1.03 1.00 0.98 0.95 0.93 0.91 0.89 0.87 0.85 0.84 0.82 0.81 0.79 0.78 0.77 0.76 0.74 0.73 0.72 0.71 0.70

Kurtosis . . -0.87 -0.89 -0.90 -0.92 . -0.93 . . -0.94 . . . . . -1.27 -1.25 -1.22 -1.20 -1.18 -1.16 -1.14 -1.12 -1.11 -1.09 -1.08 -1.06 -1.05 -1.04 -1.03 -1.01 -1.00 . . 1.54 1.68 1.79 1.85 . 1.93 . . 1.95 . . . . . 2.44 2.39 2.34 2.30 2.26 2.22 2.18 2.15 2.12 2.08 2.05 2.03 2.00 1.97 1.94 1.92 1.90

n 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70

Skewness -0.69 -0.68 -0.67 -0.67 -0.66 -0.65 -0.64 -0.63 -0.63 -0.62 -0.61 -0.61 -0.60 -0.59 -0.59 -0.58 -0.58 -0.57 -0.57 -0.56 -0.56 -0.55 -0.55 -0.54 -0.54 -0.53 -0.53 -0.52 -0.52 -0.51 -0.51 -0.51 -0.50 0.69 0.68 0.67 0.67 0.66 0.65 0.64 0.63 0.63 0.62 0.61 0.61 0.60 0.59 0.59 0.58 0.58 0.57 0.57 0.56 0.56 0.55 0.55 0.54 0.54 0.53 0.53 0.52 0.52 0.51 0.51 0.51 0.50

Kurtosis -0.99 -0.98 -0.97 -0.96 -0.95 -0.95 -0.94 -0.93 -0.92 -0.91 -0.91 -0.90 -0.89 -0.88 -0.88 -0.87 -0.87 -0.86 -0.85 -0.85 -0.84 -0.84 -0.83 -0.83 -0.82 -0.82 -0.81 -0.81 -0.80 -0.80 -0.79 -0.79 -0.78 1.87 1.85 1.83 1.81 1.79 1.77 1.75 1.73 1.71 1.69 1.68 1.66 1.64 1.63 1.61 1.60 1.58 1.57 1.56 1.54 1.53 1.52 1.50 1.49 1.48 1.47 1.46 1.45 1.43 1.42 1.41 1.40 1.39

Treinamento Sistema SAS

64

Prof. Dr. Luis Felipe Lopes

n 71 72 73 74 75 76 77 78 79 80 81 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 100 101 102 103 105 107 108 109

Skewness -0.50 -0.50 -0.49 -0.49 -0.48 -0.48 -0.48 -0.47 -0.47 -0.47 -0.46 -0.46 -0.46 -0.45 -0.45 -0.45 -0.44 -0.44 -0.44 -0.44 -0.43 -0.43 -0.43 -0.43 -0.42 -0.42 -0.42 -0.41 -0.41 -0.41 -0.41 -0.40 -0.40 -0.40 -0.40 0.50 0.50 0.49 0.49 0.48 0.48 0.48 0.47 0.47 0.47 0.46 0.46 0.46 0.45 0.45 0.45 0.44 0.44 0.44 0.44 0.43 0.43 0.43 0.43 0.42 0.42 0.42 0.41 0.41 0.41 0.41 0.40 0.40 0.40 0.40

Kurtosis -0.78 -0.78 -0.77 -0.77 -0.76 -0.76 -0.76 -0.75 -0.75 -0.75 -0.74 -0.74 -0.73 -0.73 -0.73 -0.72 -0.72 -0.72 -0.71 -0.71 -0.71 -0.70 -0.70 -0.70 -0.70 -0.69 -0.69 -0.69 -0.68 -0.68 -0.68 -0.67 -0.67 -0.67 -0.66 1.38 1.37 1.36 1.35 1.35 1.34 1.33 1.32 1.31 1.30 1.29 1.28 1.27 1.26 1.26 1.25 1.24 1.23 1.23 1.22 1.21 1.21 1.20 1.19 1.19 1.18 1.17 1.16 1.16 1.15 1.14 1.13 1.12 1.12 1.11

n 110 111 112 113 114 115 117 118 119 121 123 125 127128 129 130 132 133 134 135 137 140 143 146 148 149 152 155 156 158 159 161 164 165

Skewness -0.39 -0.39 -0.39 -0.39 -0.39 -0.38 -0.38 -0.38 -0.38 -0.37 -0.37 -0.37 -0.36 -0.36 -0.36 -0.36 -0.36 -0.35 -0.35 -0.35 -0.35 -0.34 -0.34 -0.34 -0.33 -0.33 -0.33 -0.33 -0.32 -0.32 -0.32 -0.32 -0.32 -0.31 0.39 0.39 0.39 0.39 0.39 0.38 0.38 0.38 0.38 0.37 0.37 0.37 0.36 0.36 0.36 0.36 0.36 0 35 0 35 0 35 0 35 0 34 0 34 0 34 0 33 0 33 0 33 0 33 0 32 0 32 0 32 0.32 0.32 0.31

Kurtosis -0.66 -0.66 -0.66 -0.65 -0.65 -0.65 -0.65 -0.64 -0.64 -0.64 -0.63 -0.63 -0.63 -0.62 -0.62 -0.62 -0.62 -0.62 -0.61 -0.61 -0.61 -0.60 -0.60 -0.59 -0.59 -0.59 -0.5 -0.58 -0.58 -0.58 -0.57 -0.57 -0.57 -0.57 1.11 1.10 1.09 1.09 1.08 1.08 1.07 1.07 1.06 1.05 1.04 1.03 1.02 1.02 1.01 1.01 1.00 1.00 1.00 0.99 0.98 0.97 0.96 0.95 0.95 0.94 0.93 0.92 0.92 0.91 0.91 0.90 0.89 0.89

Treinamento Sistema SAS

65

Prof. Dr. Luis Felipe Lopes

n 167 168 171 175 179 183 186 187 191 192 196 198 200 201 205 210 211 212 215 220 222 225 231 234 237 241 243 246 249 255 258 260 262

Skewness -0.31 -0.31 -0.31 -0.30 -0.30 -0.30 -0.29 -0.29 -0.29 -0.29 -0.29 -0.28 -0.28 -0.28 -0.28 -0.28 -0.27 -0.27 -0.27 -0.27 -0.27 -0.26 -0.26 -0.26 -0.26 -0.25 -0.25 -0.25 -0.25 -0.25 -0.24 -0.24 -0.24 0.31 0.31 0.31 0.30 0.30 0.30 0.29 0.29 0.29 0.29 0.29 0.28 0.28 0.28 0.28 0.28 0.27 0.27 0.27 0.27 0.27 0.26 0.26 0.26 0.26 0.25 0.25 0.25 0.25 0.25 0.24 0.24 0.24

Kurtosis -0.56 -0.56 -0.56 -0.55 -0.55 -0.54 -0.54 -0.54 -0.54 -0.53 -0.53 -0.53 -0.53 -0.52 -0.52 -0.52 -0.52 -0.51 -0.51 -0.51 -0.50 -0.50 -0.50 -0.49 -0.49 -0.49 -0.49 -0.48 -0.48 -0.48 -0.48 -0.47 -0.47 0.89 0.88 0.87 0.86 0.85 0.84 0.84 0.83 0.82 0.82 0.81 0.81 0.80 0.80 0.79 G.78 0.78 0.78 0.77 0.76 0.76 0.75 0.74 0.74 0.73 0.73 0.72 0.72 0.71 0.70 0.70 0.70 0.69

n 269 274 277 278 284 289 292 300 301 306 309 318 323 325 328 338 342 348 354 359 363 371 383 385 386 396 409 410 423 436 438 454 464

Skewness -0.24 -0.24 -0.24 -0.23 -0.23 -0.23 -0.23 -0.22 -0.22 -0.22 -0.22 -0.22 -0.22 -0.21 -0.21 -0.21 -0.21 -0.21 -0.20 -0.20 -0.20 -0.20 -0.20 -0.20 -0.19 -0.19 -0.19 -0.19 -0.18 -0.18 -0.18 -0.18 -0.18 0.24 0.24 0.24 0.23 0.23 0.23 0.23 0.22 0.22 0.22 0.22 0.22 0.22 0.21 0.21 0.21 0.21 0.21 0.20 0.20 0.20 0.20 0.20 0.20 0.19 0.19 0.19 0.19 0.18 0.18 0.18 0.18 0.18

Kurtosis -0.47 -0.46 -0.46 -0.46 -0.46 -0.45 -0.45 -0.45 -0.45 -0.44 -0.44 -0.44 -0.43 -0.43 -0.43 -0.43 -0.42 -0.42 -0.42 -0.42 -0.41 -0.41 -0.41 -0.40 -0.43 -0.40 -0.40 -0.39 -0.39 -0.38 -0.38 -0.38 -0.37 0.68 0.68 0.67 0.67 0.66 0.66 0.65 0.65 0.64 0.64 0.63 0.62 0.62 0.62 0.61 0.60 0.60 0.59 0.59 0.58 0.58 0.57 0.56 0.56 0.56 0.55 0.54 0.54 0.53 0.53 0.52 0.51 0.51

Treinamento Sistema SAS

66

Prof. Dr. Luis Felipe Lopes

n 466 470 488 495 506 516 526 529 547 566 569 575 593 607 618 645 652 674 701 705 730 738 755 774 812 816 833 853 883 898 947 958 961 1000

Skewness -0.17 -0.17 -0.17 -0.17 -0.17 -0.16 -0.16 -0.16 -0.16 -0.16 -0.16 -0.15 -0.15 -0.15 -0.15 -0.14 -0.14 -0.14 -0.14 -0.14 -0.13 -0.13 -0.13 -0.13 -0.13 -0.13 -0.12 -0.12 -0.12 -0.12 -0.12 -0.12 -0.11 -0.11 0.17 0.17 0.17 0.17 0.17 0.16 0.16 0.16 0.16 0.16 0.16 0.15 0.15 0.15 0.15 0.14 0.14 0.14 0.14 0.14 0.13 0.13 0.13 0.13 0.13 0.13 0.12 0.12 0.12 0.12 0.12 0.12 0.11 0.11

Kurtosis -0.37 -0.37 -0.37 -0.36 -0.36 -0.36 -0.36 -0.35 -0.35 -0.34 -0.34 -0.34 -0.34 -0.33 -0.33 -0.33 -0.32 -0.32 -0.31 -0.31 -0.31 -0.31 -0.30 -0.30 -0.30 -0.29 -0.29 -0.29 -0.28 -0.28 -0.28 -0.27 -0.27 -0.27 0.51 0.50 0.49 0.49 0.48 0.48 0.47 0.47 0.46 0.46 0.45 0.45 0.44 0.44 0.43 0.42 0.42 0.41 0.41 0.40 0.40 0.39 0.39 0.38 0.37 0.37 0.37 0.36 0.36 0.35 0.34 0.34 0.34 0.33

Treinamento Sistema SAS

67

Prof. Dr. Luis Felipe Lopes