apostila sas ifma

70
INSTITUTO FEDERAL DO MARANHÃO - IFMA Treinamento e aperfeiçoamento em Análise de Dados NATANAEL SANTOS (Prof. Estatística Experimental / UFPI)

Upload: aurino-azeved

Post on 15-Jan-2016

61 views

Category:

Documents


1 download

DESCRIPTION

apostila teórica sobre o programa SAS, bastante utilizado em estatística.

TRANSCRIPT

Page 1: Apostila Sas IFMA

INSTITUTO FEDERAL DO MARANHÃO - IFMA

Treinamento e aperfeiçoamento em

Análise de Dados

NATANAEL SANTOS

(Prof. Estatística Experimental / UFPI)

Page 2: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

APRESENTAÇÃO

O curso tem como objetivo capacitar o aluno para

utilizar o programa estatístico para a entrada,

manipulação e análise de dados.

Esta apostila destina-se a comunidade de iniciantes na

pesquisa e pesquisadores que desejam se familiarizar e

capacitar na utilização do SAS para elaboração das

análises estatísticas pertinentes aos seus trabalhos.

O material pode não satisfazer os mais familiarizados

com o problema da experimentação, daí a necessidade de

que esse material seja considerado como texto básico e

que não objetiva esgotar todas as possibilidades de uso

do SAS na elaboração de análises estatísticas.

O objetivo deste documento é o de servir de guia, em

língua portuguesa, para as principais aplicações da

linguagem SAS. Não se pretende substituir os manuais

originais, mas facilitar o acesso ao que se considera o

mais importante da linguagem.

Os assuntos contidos nesta apostila são parte integrante

da apostila elaborada e gentilmente cedida pelo

Professor Doutor José Lindenberg Rocha Sarmento e foram

organizados em sequência apropriada para aprendizagem

passo a passo.

Page 3: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

1 INTRODUÇÃO

O SAS (Statistical Analysis System), produto da SAS Institute Inc., Cary, North Caroline,

USA, constitui-se num sistema de gerenciamento, análise estatística de dados e geração de

relatórios.

O SAS é um sistema de aplicação integrada, que consiste em vários produtos que tem por

função: acesso, gerenciamento, análise estatística e apresentação de dados, somada a uma

linguagem poderosa de programação e geração de relatórios.

O SAS por ser um sistema integrado, ele é composto por módulos para comercialização.

2 COMERCIALIZAÇÃO

O SAS é um sistema composto por vários módulos, com aplicações diversas. Além do

módulo para análises estatísticas, o SAS/STAT, vários outros módulos fazem parte do sistema.

2.1 Módulos do SAS

SAS/ACCESS Módulo para acesso aos diversos tipos de Banco de Dados;

SAS/AF Módulo para desenvolvimento de aplicações;

SAS/BASE Módulo básico, obrigatório em toda instalação;

SAS/CALC Análise e modelagem financeira/Planilha tridimensional

SAS/CONNECT Módulo para conexão entre ambientes operacionais heterogêneos;

SAS/ETS Módulo de econometria (Séries Temporais, Modelagem de Equações

Simultâneas);

SAS/FSP Módulo para facilitar o acesso a arquivos com programação de telas;

SAS/GIS Geoprocessamento;

SAS/GRAPH Módulo gráfico (Histogramas, plots, ... );

SAS/IML Módulo para análise e operação de matrizes;

SAS/OR Módulo de análise e pesquisa operacional (Programação linear, Análise

de Caminho Crítico);

SAS/QC Módulo para análise de controle de qualidade;

SAS/SHARE Sistema multiusuário;

SAS/STAT Módulo estatístico.

Page 4: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

3 CONCEITOS BÁSICOS

DATA SET Arquivo de dados com estrutura SAS;

OBSERVAÇÃO Registro de um arquivo de dados SAS;

JOB SAS Arquivo com um programa SAS (É um conjunto de DATA Step's e

PROC Step's);

DATA STEP Divisão lógica de um programa SAS, no qual se cria e altera um, ou

vários arquivos SAS (Data Set's);

PROC STEP Divisão lógica de um programa SAS, no qual se analisa e manipula os

dados contidos num arquivo SAS (Data Set's);

OBS: A funcionalidade do Sistema SAS foi construída em torno de quatro idéias básicas no

tratamento de dados:

Acessar dados;

Administrar dados;

Analisar dados;

Apresentar dados;

4 ARQUIVOS SAS

Todos os dados devem estar armazenados em arquivos com estrutura SAS (DATA Set's),

para serem analisados pelos procedimentos do SAS (PROC's). Os arquivos SAS podem ser

temporários (armazenados em uma biblioteca definida pelo SAS - WORK) ou permanentes

(bibliotecas definidas pelos usuários).

Em um único programa SAS (Job SAS), vários arquivos podem ser abertos e analisados.

Os arquivos SAS, depois de criados, podem ser analisados pelos procedimentos SAS.

5 JANELAS DO SAS

O SAS tem a característica de trabalhar simultaneamente com 3 janelas, com finalidades

específicas, que são:

EDITOR DE PROGRAMAS - PGM® Janela onde o usuário edita os programas. Quando o

programa é processado (RUN), o SAS gera o conteúdo das janelas LOG e OUTPUT.

LOG® Janela onde é apresentada uma depuração do programa, ou seja, informações sobre o

processamento como: tempo gasto; listagem de erros, se houver; etc. (gerada pelo SAS).

OUTPUT® Janela para a saída dos resultados (gerada pelo SAS).

Page 5: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

A tela de abertura do SAS, quando as janelas são apresentadas em colunas, é mostrada na

Figura 1.

Figura 1 – Tela inicial do SAS

A opção WINDOW, na barra de menus, permite minimizar as janelas ou apresentá-las de

diferentes formas, ou seja: em cascata (Cascade), em forma de ladrilhos em colunas (Tile) ou

reorganiza no formato padrão do SAS (Resize). Permite também acessar cada uma das janelas

(Figura 2).

Figura 2 - Opção WINDOW da Barra de Menus

Acessos às janelas, bem como outras operações, podem ser feitos utilizando-se as Teclas

de Atalhos, como:

CTRL + E ® Limpa a Janela.

F1 → HELP.

F4 → Recarrega o último programa rodado (Janela PGM).

F5 → Retoma a Janela do EDITOR (Janela EDITOR).

F6 → Retoma a Janela do LOG (Janela LOG).

F7 → Retoma a janela do OUTPUT (Janela OUTPUT).

F8 → Executa o programa – comando submeter.

Page 6: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

F9 → Janela com as definições das funções do teclado (KEYS). Pode ser usado para redefinir

essas funções.

F12 → Limpa a janela (não é padrão do SAS, precisa ser definido na janela KEYS).

Essas e outras Teclas de Atalho podem ser vistas na Janela KEYS (Figura 3).

Figura 3 – Teclas de atalhos do SAS (Tecla F9)

É interessante destacar que:

1. Ao rodar um programa,

a) caso as janelas LOG e OUTPUT não estejam limpas, os resultados serão acumulados nos

conteúdos dessas janelas.

b) A janela EDITOR ou PGM é limpa automaticamente.

Assim sendo, toda vez que um programa for rodado e precisar ser editado, para a correção

de algum erro ou para a inclusão de outros comandos, deve-se:

Acessar a janela OUTPUT e apagá-la ................................................ (F7 / F12),

Acessar a janela LOG e apagá-la ........................................................ (F6 / F12),

Acessar a janela PGM e recarregar o último programa rodado .......... (F5 / F4).

2. O conteúdo de cada janela é salvo individualmente. O SAS usa as extensões:

_ .SAS para os programas (janela PGM),

_ .LOG para o conteúdo da janela LOG,

_ .LST para o conteúdo do OUTPUT.

A maioria das ferramentas disponíveis na Barra de Ferramentas do SAS (Figura 4) são

conhecidas pelos usuários do Microsoft Word.

Page 7: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

Figura 4 – Barra de ferramentas do SAS

6 PROGRAMAÇÃO SAS

Os programas SAS são escritos na janela PGM, em linhas de 256 caracteres. Os comandos

de programação terminam com ponto e vírgula (;), podendo ter tantos comandos por linha

quantos se desejar, desde que respeitado o tamanho da linha.

Os programas SAS possuem duas fases: a Fase 1, que constitui na criação do arquivo SAS

(SAS-DATA-SET) e a Fase 2, que inclui os Procedimentos do SAS (PROC) para trabalhar com

os dados (impressão, representações gráficas, análises, etc).

O SAS-DATA-SET é o arquivo de dados a ser usado pelo SAS. Ele é formado por linhas

e colunas, sendo nas colunas as variáveis e nas linhas os registros.

Banco de dados

Sintaxe:

Nome Logradouro Número Cidade Estado Peso

Maria Rua100 567 Itu SP 59.50

José RuaTiradentes 123 Matão SP 85.00

Rosa Av.Marajás 750 Jaboticabal SP .

João RuaPoty 1250 Maringá PR 79.00

Valores perdidos

Valor perdido (ou faltante), é entendido como a inexistência de conteúdo em um ou mais

registros de uma ou mais variáveis de um arquivo SAS. Quando não existe valor em uma

variável, o caracter utilizado é o ponto (.).

Portanto, sempre que houver falta de um valor nos arquivos de dados, nos vetores, ou em

matrizes, este deve ser informado como um ponto (.). Quando o conteúdo de um arquivo é

Page 8: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

impresso e faltam valores em registros e colunas, é impresso um ponto (.) no local de cada valor

que falta.

Valores perdidos são sempre os primeiros de um ordenamento ascendente e os últimos

no descendente. Em experimentos com parcelas perdidas, o seu valor deve ser informado como

um ponto (.). Então, o sistema entende que aquela parcela foi perdida e não a considera.

Entretanto, se o resultado nulo deve ser considerado como consequência do efeito dos

tratamentos, o valor que deve ser informado para que o sistema o considere é zero (0).

NOTA: alguns procedimentos do SAS System permitem que o usuário informe que os

valores perdidos devem ser considerados na análise.

6.1 Alguns comandos do SAS

OPTIONS:

Define, dentre muitas opções, parâmetros para configurar a página do OUTPUT.

Ex: OPTIONS LS=80 PS=66 PAGENUMBER=1 NOCENTER NODATE;

LS (Line Size) define o tamanho da linha; PS (Page Size) define o tamanho da página – número

de linhas; PAGENUMBER define o número inicial para a numeração das páginas.

Obs:

a) Os parâmetros não definidos assumem os valores “Default”.

b) Os valores dos parâmetros definidos com o comando OPTIONS, só são válidos para o

programa em questão.

TITLE:

Define o cabeçalho a ser impresso no topo das páginas de saída (Output)

sintaxe: TITLE[n] <título>;

Ex:

TITLE1 “Análise do Experimento de Fertilidade”;

TITLE3 “Coleta do Ano 2014”;

Obs:

a) Se for omitido o “n” o 1º TITLE define a 1ª linha do Cabeçalho, o 2º a 2ª linha, e assim por

diante.

b) Se o cabeçalho não for definido, o SAS usa o definido como “Default”.

Page 9: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

FOOTNOTE:

Define o título da linha do rodapé para o OUTPUT. Uso equivalente ao uso do TITLE.

sintaxe: FOOTNOTE[n] <nota de rodapé>;

Ex.:

OPTIONS LS=64 PS=75;

TITLE1 "ANALISE GERAL DE PRODUCAO DE LEITE DE CABRAS";

FOOTNOTE1 "CURSO DE ESTATISTICA";

COMENTÁRIOS (*): Usados na documentação dos programas.

Sintaxe: * <comentário> ; ou: /* <comentário> */

Obs:

a) Os comentários não são executados.

b) Os comentários podem ser colocados em qualquer parte do programa.

c) Pode-se usar tantos comentários quantos se desejar.

DATA:

Atribui nome ao SAS_DATA_SET. Assim, é usado para criar um arquivo SAS. O

arquivo SAS é sempre um arquivo temporário, a menos que se especifique o contrário através

de comandos apropriados.

Sintaxe: DATA < nome do SAS_DATA_SET >;

Obs:

a) O nome do SAS_DATA_SET (SDS) pode ser:

simples – quando apenas o nome do arquivo é especificado (Ex: NNNN). Neste caso será criado

um arquivo temporário (até fechar o SAS), de nome NNNN, na pasta SASWORK, também

temporária.

composto – quando o nome tem duas partes, separadas por “ponto” (Ex: CCCC.NNNN). Neste

caso será criado um arquivo permanente, de nome NNNN, no caminho nomeado por CCCC.

b) O nome do SDS deve ter de 1 a 8 caracteres alfanuméricos (alfabéticos ou numéricos) e o

primeiro deve ser alfabético.

c) Se o nome for omitido, o SAS usa DATA1 para o 1º, DATA2 para o 2º, e assim por diante.

Ex.:

OPTIONS LS=64 PS=75;

TITLE "ANALISE GERAL DE PRODUCAO DE LEITE DE CABRAS";

DATA LEITE;

Page 10: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

LIBNAME:

Atribui nome a um caminho. Serve para criar uma livraria.

Ex: LIBNAME CAM "C:\SAS";

Com este comando, o caminho C:\SAS é nomeado por CAM.

FILENAME:

Atribui nome a um arquivo.

Ex: FILENAME ARQ "C:\SAS\DADOS.ASC";

Com este comando, o arquivo C:\SAS\DADOS.ASC é nomeado por ARQ.

RUN:

Determina ao SAS para Rodar (Executar) o programa até este ponto.

COMANDOS ARITMÉTICOS:

Usados para criar novas variáveis.

Sintaxe:

<NOME DA VARIÁVEL>=<EXPRESSÃO>;

Ex: PORCG=PGORD/PLEITE*100;

As expressões podem conter: Constantes, Variáveis, Operadores e Funções.

Constantes: Podem ser: Numéricas, Caracter, Data e Hora.

Numéricas: Sistema decimal no modo padrão (Ex: -125.45) ou em notação

científica (Ex: -1.456E-03); sistema octal1 (Ex: 0B123X).

Caracter: Até 200 caracteres entre aspas (Ex: “Femea”).

Data: Data seguida por D, e entre aspas (Ex: “25/10/98D”).

Hora: Hora seguida por T, e entre aspas (Ex: “10:15:45T”).

Para maiores detalhes consultar o HELP.

Variáveis: As variáveis podem ser numéricas ou caracter. Os nomes das variáveis devem ter

de 1 a 8 caracteres alfanuméricos (alfabéticos ou numéricos) e o primeiro deve ser alfabético.

Operadores: Os mais usuais são os operadores aritméticos, lógicos e de comparação.

1 Sistema de numeração em que a base é oito, adotado na tecnologia de computadores.

Page 11: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

Operadores Aritméticos

Operador Operação Exemplos

Usual SAS

+ Adição A+B A+B

- Subtração ou Negação A-B ou -B A-B ou -B

* Multiplicação A.B A*B

/ Divisão A:B A/B

** Potenciação AB A**B

Operadores Lógicos

Operador Operação Exemplos

Usual SAS

& ou AND A e B A&B ou A AND B

| ou OR A ou B A|B ou A OR B

^ ou NOT Negação Não A ^A ou NOT A

Operadores de Comparação

Operador Operação Exemplos

Usual SAS

= ou EQ Igual a A=B A=B ou A EQ B

> ou GT Maior que A>B A>B ou A GT B

< ou LT Menor que A<B A<B ou A LT B

>= ou GE Maior ou igual que AB A>=B ou A GE B

<= ou LE Menor ou igual que AB A<=B ou A LE B

^= NE Diferente de AB A^=B ou A NE B

Sintaxe:

If mp>01 and mp<=06 then ep=1;

If mp>=07 or mp=01 then ep=2;

Para maiores detalhes consultar o HELP (F1)

6.2 Algumas formas para criar o SAS-DATA-SET

a) Quando os dados são colocados no próprio programa.

Sintaxe:

DATA <sds>;

INPUT <lista de variáveis>;

CARDS;

<dados>

;

Define o nome do SAS-DATA-SET.

Informa as variáveis a serem lidas.

Informa que iniciarão os dados.

Informa que terminaram os dados

Page 12: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

b) Importar arquivo do Excel

Sintaxe:

PROC IMPORT OUT=SDS DATAFILE="ARQ.XLS" DBMS=EXCEL2000

REPLACE;

SHEET="PLANILHA$";

GETNAMES=YES;

RUN;

Onde:

SDS – é o nome do SAS DATA SET a ser criado

ARQ.XLS – é o arquivo Excel a ser importado (especificando o caminho onde ele se encontra).

PLANILHA – É o nome da planilha.

c) Importar arquivo ASCII (American Standard Code – Interchange Information).

Sintaxe:

DATA <sds>;

INFILE “<arquivo ASC>”;

INPUT <lista de variáveis>;

6.2.1 Comando INPUT

O comando INPUT relaciona os nomes das variáveis a serem criadas no SAS-DATA-

SET. Ele pode ser de uma das formas: listado, colunado ou formatado. É usado para especificar

o conteúdo de cada coluna (variável) que compõe o arquivo. Neste se deve especificar o nome

das variáveis, o seu tipo (numéricas ou caracteres) e o intervalo de campos que a mesma ocupa

Listado: quando se especifica no INPUT apenas a lista de variáveis (nomes separados

por pelo menos um espaço em branco). Usado quando os dados a serem lidos estão

separados por, pelo menos, um espaço em branco.

Sintaxe: INPUT NOME$ PESO ALTURA;

Colunado: quando se especifica a variável e a coluna inicial e final onde se encontram

os dados a serem lidos. O uso do INPUT colunado requer o auxílio de um comando, que

pode ser o CARDS ou o INFILE, de acordo com o banco de dados. O CARDS precede

as linhas de dados, quando esses são editados no Program Editor do SAS. Já o INFILE,

permite ler arquivos editados externamente.

Define o nome do SAS-DATA-SET

Arquivo ASC a ser importado

Lista de variáveis importadas

Page 13: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

Sintaxe1: Input colunado com CARDS data cabra;

input trat rep cmn cms gpv gmd;

cards;

1 1 2.31 0.76 0.16 0.01

1 2 2.315 0.76 0.16 0.01

2 1 2.04 0.8 1.45 0.096

2 2 2.045 0.8 1.45 0.096

3 1 2.33 0.91 1.33 0.088

3 2 2.335 0.91 1.33 0.088

4 1 2.015 0.79 0.72 0.048

4 2 2.015 0.79 0.72 0.048

5 1 1.98 0.77 0.35 0.023

5 2 0 0 0 0

;

NOTA: Ao usar o comando CARDS, sempre se faz necessário utilizar no final da edição do

conjunto de dados um ponto e vírgula (;).

Sintaxe2: Input colunado com INFILE data cabra;

infile 'c:\ZEBU\ufpi.txt';

input trat rep cmn cms gpv gmd;

Formatado: quando se especifica a variável e formato que o dado a ser lido deve ser

considerado.

Sintaxe1: Input formatado data UFPI2;

infile 'c:\ZEBU\ufpi.txt';

input prop 1-5 faz 6-7 raca 8-9 reg 10 animal 11-20 sex $ 21 anc 22-23 mnc

24-25 dnc 26-27 pn 28-29 racp 30-31 catpai 32 codpai 33-42 anp 43-44 mnp;

Sintaxe2: INPUT NOME$ 1-20 DATANAS DDMMYY6. PESONAS 8.2

DDMMYY6. especifica que a data a ser lida contém 2 caracteres para o dia, 2

para o mês e 2 para o ano, num total de 6.

8.2 especifica que o peso a ser lido tem 8 casas, sendo 2 decimais.

Obs.: Quando se usa o INPUT, o número de valores por linha de dados deve coincidir com o número

de variáveis do INPUT, a menos que a lista de variáveis seja seguida por @@.

Exemplo:

Data Exemplo;

Input X Y;

Cards;

10 20

12 22

15 35

;

Data Exemplo;

Input X Y @ @;

Cards;

10 20 12 22 15 35

;

Page 14: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

Nota: Como se percebe, o INPUT formatado também requer o auxílio do comando INFILE, o

qual informa ao sistema o caminho do arquivo que deverá ser lido para posterior processamento.

Percebe-se, também, que no INPUT informa-se ao sistema o nome e o intervalo de campos que

cada variável irá ocupar.

Observe que no INPUT colunado consta apenas o nome dado a cada variável, enquanto

no formatado, além do nome encontra-se o intervalo de campos que a mesma está ocupando.

Pode-se perceber, também, na variável SEX, que em seguida aparece o símbolo $, o qual

informa ao sistema que esta variável é constituída por letras (caractere), no caso em questão,

“M” para macho e “F” para fêmea.

6.2.2 Comando FILE PUT

Permite gerar arquivos externos, que podem ser usados no próprio SAS ou em outros

programas.

Ex.: data b; set a;

file "D:\ARQUIVOSSAS\REGRESSÃONLINEAR\SIpG2.prn";

put codani 1-8 codPAI 10-19 codMAE 21-27 S 29 TN 31 GCN 33-37 cid 39 a 43-

46 3 b 48-51 3 c 53-56 3 p28 58-61 2;

run;

Nota: O comando FILE informa ao sistema o caminho onde o arquivo gerado será alocado,

enquanto o PUT informará o nome e o número de campos que cada variável irá ocupar.

Observe, também, que para gerar arquivos com variáveis que contenham decimais, deve-se

informar ao sistema o número de decimais desejado. Por exemplo, a variável p28, ocupará os

campos de 58 a 61. Em seguinda aparece o número 2, que está infomando ao sistema que a

referida variável possui dois decimais. Deve-se tomar o cuidado ao dimensionar o número de

campos que a variável irá ocupar, pois os decimais e o ponto, devem estar contidos neste

intervalo. Por exemplo, a variável p28 ocupará 4 campos (58-61), sendo que dois são destinados

aos decimais e um ao ponto.

6.2.3 Comandos Keep e Drop

O comando KEEP faz com que somente a(s) variável(eis) listada(s) permaneça(m) no

SASdataset2 no momento da emissão do relatório.

O DROP faz o contrário, não aparecerá no relatório a(s) variável(eis) listada(s).

2 É um arquivo onde são armazenados os dados no formato ASCII. Os dados são compilados e armazenados no

SASdataset. Uma vez armazenados, a partir do SASdataset pode-se utilizar os dados para processamento

Page 15: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

Esses comandos são úteis quando se tem muitas variáveis em um arquivo e deseja-se a

omissão de apenas algumas delas.

No SASdataset as observações são dispostas em linhas de uma matriz. Cada coluna ou

grupo delas refere-se a uma categoria ou variável (ver saída OUTPUT).

6.2.4 Comando VAR

O comando VAR listas as variáveis a serem processadas em um determinado programa.

Se o comando VAR não é usado, todas as variáveis numéricas contidas no arquivo serão

processadas.

Sintaxe: Proc print data=cabras;

var pp p1 p2;

run;

6.2.5 Comando BY

O comando BY é usado quando se deseja processar um conjunto de variáveis dentro (BY)

de um grupo ou de uma outra determinada variável.

Sintaxe: Proc print data=cabras;

var pp p1 p2;

by trat;

run;

6.2.6 Comando SET

O comando SET é utilizado para concatenar verticalmente arquivos que apresentam a

mesma estrutura de variáveis. Pode-se juntar dois ou mais arquivos.

Sintaxe:

Data UFPI14;

Infile 'c:\meudoc\analise\ufpi1.txt';

Input prop 1-5 faz 6-7 raca 8-9 reg 10 animal 11-20 sex $ 21 anc 22-23 mnc

24-25 dnc 26-27 pn 28-29 racp 30-31 catpai 32 codpai 33-42 anp 43-44 mnp

45-46 dnp 47-48;

Run;

Data UFPI13;

Infile 'c:\meudoc\analise\ufpi2.txt';

Input prop 1-5 faz 6-7 raca 8-9 reg 10 animal 11-20 sex $ 21 anc 22-23 mnc

24-25 dnc 26-27 pn 28-29 racp 30-31 catpai 32 codpai 33-42 anp 43-44 mnp

45-46 dnp 47-48;

Run;

Data UFPI15;

Set UFPI14 UFPI13; Run;

Page 16: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

6.2.7 Comandos IF-THEN-ELSE

Usam-se os comandos IF-THEN-ELSE quando se deseja executar alguma expressão

condicional.

Sintaxe: IF expressão THEN comando; ELSE comando;

Ex.1: If codmae >= codani then verifica=1; else verifica=0;

Ex.2: data aula;

input animal mes cod $ prod;

length raca $ 12;

cards;

10 1 a 17.5

11 2 a 18.5

12 3 a 19.5

13 4 a 9.35

14 5 b 18.2

15 6 b 20.1

16 7 b 14.5

17 8 b 18.7

18 9 a 19.3

19 10 a 14.5

20 11 b 8.95

21 12 b 12.3

22 1 a 17.8

23 2 a 21.5

24 3 b 35.6

25 4 b 22.5

26 5 b 42.0

27 6 a 8.56

28 7 b 12.5

29 8 a 14.5

30 9 a 22.0

;

data modifica; set aula;

if mes <=3 then epoca=1;

if mes > 3 and mes <=6 then epoca=2;

if mes > 6 and mes <=9 then epoca=3;

if mes > 9 then epoca=4;

if cod= "a" then raca="Landrace"; else raca="Large White";

proc print;

run;

Nota: O comando “length” foi especificado após o “input” para aumentar o número de campos

ocupado pela variável “raça” que será criada. Caso o número de campos não seja especificado,

o SAS apresentará no relatório os oito primeiros campos do nome da variável.

Page 17: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

6.2.8 Comando DELETE

O comando DELETE permite eliminar um subconjunto de observações. Geralmente

utiliza-se juntamente com os comandos condicionais, uma vez que seu uso sem especificação

de condições implicará na eliminação de todos as observações.

Sintaxe: If codmae > = codani then verifica=1; else verifica=0;

If verifica=0 then DELETE;

Ex.: data aula;

input animal mes cod $ prod;

cards;

10 1 a 17.5

11 2 a 18.5

12 3 a 19.5

13 4 a 9.35

14 5 b 18.2

15 6 b 20.1

16 7 b 14.5

17 8 b 18.7

18 9 a 19.3

19 10 a 14.5

20 11 b 8.95

21 12 b 12.3

22 1 a 17.8

23 2 a 21.5

24 3 b 35.6

25 4 b 22.5

26 5 b 42.0

27 6 a 8.56

28 7 b 12.5

29 8 a 14.5

30 9 a 22.0

;

data a; set aula;

if prod < 11 or prod > 27 then delete;

run;

proc print;

run;

6.2.9 Comando MERGE

O comando MERGE é utilizado para concatenar horizontalmente arquivos utilizando uma

variável em comum entre esses dois. Essa união coloca os arquivos lado a lado.

Sintaxe:

options ls=75 ps=70;

data a;

infile "D:\ARQUIVOSSAS\REGRESSÃONLINEAR\SIpG1.prn";

input codani 1-8 codPAI 10-19 codMAE 21-27 S 29 TN 31 GCN 33-37 cid 39 a

43-46 b 48-51 c 53-56 pn 58-61;

proc sort;

by codani;

run;

Page 18: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

data b;

infile "D:\ARQUIVOSSAS\REGRESSÃONLINEAR\SIpG2.prn";

input codani 1-8 codPAI 10-19 codMAE 21-27 S 29 TN 31 GCN 33-37 cid 39 a

43-46 b 48-51 c 53-56 p28 58-61;

proc sort;

by codani;

run;

data c;

merge a b;

by codani;

run;

Nota: Como se pode observar, os datas a e b têm quase todas as variáveis em comum, com

exceção de pn e p28, as quais encontram-se nos datas a e b, respectivamente. Com a utilização

do MERGE, cria-se um novo dataset que irá conter todas as variáveis, inclusive pn e p28. Os

dados dentro de cada dataset devem está ordenados pela variável comum aos dois datas, que

servirá como elo de ligação entre os mesmos, que no exemplo em questão é a variável

CODANI. Caso não estejam ordenados, deve-se ordenar através do PROC SORT, solicitando

a ordenação pela variável de ligação (CODANI).

6.3 Contagem de Tempo entre Datas

O programa calcula o número de dias entre datas. Os valores de datas passam a ter

significado quando lidos pelo formato especificado no INPUT. O primeiro passo é informar ao

SAS que estilo de datas usar.

Ex.:

DATAS EXPLANAÇÃO FORMATO

102050 Mês-dia-ano MMDDYY6.

10/21/50 Mês-dia-ano (barra) MMDDYY8.

10-21-50 Mês-dia-ano (hífen) MMDDYY8.

211050 Dia-mês-ano (Europeu) DDMMYY6.

501021 Ano-mês-dia YYMMDD6.

10211950 2 dígitos mês, 2 dígitos dia, 4 dígitos ano MMDDYY8.

10/21/1950 2 dígitos mês, 2 dígitos dia, 4 dígitos ano (barras) MMDDYY10.

O SAS pode ler qualquer um desses exemplos, desde que se informe o formato. Uma vez

lidos os dados, eles são convertidos para o número de dias à partir de um ponto fixo no tempo

- 1 de janeiro de 1960. Não tem importância se os dados vem antes ou depois desta data. Desta

forma, pode-se subtrair qualquer duas datas para encontrar o número de dias entre elas.

Page 19: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

Sintaxe: data teste;

input dat1 mmddyy6. @8 dat2 mmddyy6. volume;

dias=dat2-dat1;

cards;

051176 051104 50;

proc print;

run;

Nota: o 6 no formato tipo DDMMYY6., refere-se ao número de colunas ocupadas pelas datas.

De forma idêntica o 8. O sinal @ referido como ponteiro, diz ao SAS qual coluna deve iniciar

a leitura da próxima data.

Ex:

data teste2;

input dat11 mmddyy10. @12 dat21 mmddyy10. volume1;

dias1=dat21-dat11;

cards;

05/11/1976 05/11/2004 50;

proc print;

run;

7 CRIAÇÃO E TRANSFORMAÇÃO DE VARIÁVEIS

O sistema SAS possui vários comandos, alguns vistos anteriormente, que são usados para

criação de novas variáveis e para modificação dos valores das variáveis existentes.

As formas mais comuns de se gerar ou criar novas variáveis são: utilizar fórmulas

aritméticas; modificar características e/ou variáveis já existentes no arquivo de dados; utilizar

diferentes funções pré-definidas pelo SAS; e etc.

Para gerar uma nova variável deve-se considerar:

1 – Escolher um nome para a nova variável. Este nome deve ser diferente dos nomes já

existentes. Se for usado nome igual ao já existente, então, os valores destas serão substituídos

pelos novos valores criados pela expressão definida;

2 – Escolher a fórmula para gerar ou modificar a variável;

3 – Atribuir à variável a expressão que se deseja com um sinal de igual;

4 – Utilizar os operadores de comparação e condicionais vistos anteriormente;

5 – Escolher a função adequada (raiz quadrada - sqrt, seno - fft, logaritmo - log, etc.).

Sintaxe:

if mp>01 and mp<= 05 then ep=1; if mp >= 06 and mp <= 08 then ep =2;

if mp> 8 or mp=01 then ep=3;

gc=(ap*10)+ ep;

run;

Page 20: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

Observe que a variável "mp" (mês do parto) foi utilizada para criar a variável "ep"

(estação do parto), simplesmente impondo limites aos meses e informando que tais limites se

referem a tal estação. Ainda no mesmo exemplo, criou-se a variável "gc" (grupo

contemporâneo) através da junção de "ap" (ano de parto) + "ep" (estação do parto, criada

anteriormente). Observe, também, que "ap" foi multiplicado por 10, isso é necessário para que

na variável "ap" seja criado mais um campo, permitindo, então, concatenar as variáveis “ap” e

“ep” para criar a nova variável “gc”. Essa multiplicação pode ser por 10, 100, 1000 e assim

sucessivamente, de acordo com o número de campos necessários para concatenar duas ou mais

variáveis.

Em situações práticas em que as pressuposições para realizar a análise de variância sobre

a escala original dos dados não são atendidas, uma das alternativas para contornar este problema

é a mudança adequada da escala da variável reposta por meio de transformações (Bartlett, 1948;

Sampaio, 2007). Várias transformações têm sido recomendadas em situações bem

estabelecidas, como exemplos podemos citar:

Transformação Comandos SAS Recomendação

Raiz quadrada 𝑠𝑞𝑟𝑡 (𝑥) Dados de contagem

Logarítmica 𝑙𝑜𝑔(𝑥) ou 𝑙𝑜𝑔10(𝑥) Dados de contagem e Não aditividade

do modelo

Arco seno 𝑎𝑟𝑠𝑖𝑛(𝑠𝑞𝑟𝑡 (𝑥

100)) Proporções

Nota: Na presença de zeros, recomenda-se adicionar constantes as variáveis respostas antes da transformação (0.5,

1.0,...)

Podemos, no entanto, de acordo com Box e Cox (1946), determinar analiticamente que

tipo de transformação usar por meio do valor estimado do coeficiente de regressão entre o

logaritmo da variância e o logaritmo da média, quando temos uma relação entre a média e a

variância. A decisão de que transformação usar é dada por:

Estimativas de b Transformação

0 Nenhuma

1 Raiz (x)

2 Log (x)

3 1/raiz (x)

4 1/x Fonte: Barbim (2003)

Nota1: Quando uma resposta muito instável é medida sob diferentes tratamentos, é comum

observarmos um aumento de instabilidade à medida que o valor médio observado no tratamento

aumenta. Nesse caso observa-se uma proporcionalidade entre a média do grupo experimental e

Page 21: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

seu respectivo desvio padrão. Quando esta relação for observada, a transformação logarítmoca

será a recomendada, e se X for a resposta medida, ela deverpa se analisada como log (X) ou log

(X+1). No segundo caso (log (X+1)), se houver algum resultado zerado, pois log (0) é

indeterminado.

Nota2: Algumas situações envolvem respostas discretas correspondentes a contagens. Uma

variável discreta pode apresentar aproximadamente uma distribuiçõa normal, mas se isto não

ocorrer, haverá necessidade de tgransformação, principalmente se o evente estudado for difícl

de ser detectado nas amostras experimentais. Neste caso, o fenômeno é dito raro e sua

distribuição aponta altas frequências para contagem nulas ou baixas e pouca frequencia de

contagens altas. Esse tipo de distribuição, chamada de distribuição de Poason, se caracteriza

por ter um valor médio equivalente (ou proporcional) à variância. Dessa forma, número de

peixes capturados por armadilha, a frequência de uma espécie vegeta ou animal ameaçada de

extinção por unidade de área, o número de colônias bacterianas por placa semeada são exemplos

clássicos de variáveis que demandam a transformação de radical, uma das que mais

drasticamente controlam a variação original observada, e que consiste em substituir a resposta

𝑋 por √𝑋 ou √𝑋 + 1 (se houver muitos valores nulos) para alcançar as premissas de uma nálise

de variância.

Sintaxe: data trans; set medvar;

lmed=log(med); lvar=log(var);

run;

8 PROCEDIMENTOS DO SAS

Existem vários Procedimentos, dentro de cada módulo, disponíveis a usuários de uma

grande diversidade de áreas de aplicações.

Estrutura básica dos procedimentos

A 1ª linha de cada procedimento tem a seguinte estrutura:

PROC NOME < opções >;

Lista de Opções.

Nome do Procedimento.

Prefixo de todo Procedimento (PROCEDURE).

Os procedimentos podem incluir outras linhas para especificações especiais. A estrutura

geral de um procedimento é:

PROC NOME < opções >;

Uma opção é:

DATA=<Arquivo SAS>

Especifica o arquivo SAS que será usado. Caso seja

omitido, o SAS usa o último arquivo criado

Page 22: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

VAR < lista de variáveis >;

BY < lista de variáveis >;

CLASS < lista de variáveis>;

ID < lista de variáveis >;

TITLE < “título” >;

FOOTNOTE < “rodapé”>;

WHERE < condição >;

OUTPUT OUT= <SDS> <VS> = <VU>;

...

RUN;

8.1 Comandos que podem ser usados nos procedimentos

_ VAR < lista de variáveis >;

Especifica as variáveis para as quais será executado o procedimento.

_ BY < lista de variáveis >;

Especifica que o procedimento deve ser executado para cada valor da(s) variável(is)

especificada(s). Este comando exige que o SAS-DATA-SET esteja classificado por essa(s)

variavel(is).

_ CLASS < lista de variáveis >;

Especifica que o procedimento deve ser executado para cada valor da(s) variável(is)

especificada(s).

_ ID < lista de variáveis >;

Especifica a variável de identificação dos registros. Se não for especificado, o SAS usa o

número do Registro.

_ TITLE < “título” >;

Especifica o título para todas as páginas geradas por este procedimento.

_ FOOTNOTE < “rodapé >;

Especifica o rodapé para todas as páginas geradas por este procedimento.

_ WHERE < condição >;

Especifica que o procedimento deve ser executado somente para os registros para os quais a

condição for satisfeita.

_ OUTPUT OUT= <SDS> <VS> = <VU>;

Opcionais, e no geral, independem da ordem

Page 23: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

Coloca no SAS-DATA-SET “SDS”, além das variáveis do SAS-DATA-SET em uso, variáveis

criadas pelo SAS “VS” (cujos nomes são criados pelo SAS e devem ser especificados

corretamente), com os nomes das variáveis do usuário “VU”.

8.2 Principais procedimentos do SAS:

Como verificado anteriormente, todo procedimento SAS vem identificado pela palavra

PROC e pode apresentar diversas opções e subcomandos específicos. A estrutura dos PROC’s

são basicamente a mesma para todos.

A) Procedimentos de estatísticas descritivas:

PROC CORR – fornece correlações e medidas de associação.

PROC MEANS – estatísticas descritivas.

PROC UNVARIATE – estatísticas descritivas, incluindo quantis e plots descritivos.

PROC CHART – histogramas e gráficos.

PROC TABULATE – tabelas com estatísticas descritivas.

PROC TTEST – compara médias de dois grupos de variáveis através do teste t.

B) Procedimentos para impressão:

PROC PRINT – mostra o conteúdo de SASdataset na janela OUTPUT.

PROC FORMS – formas padrões, por exemplo mala direta.

PROC PLOT – para construir gráficos.

PROC TIMEPLOT – para gráficos de uma ou mais variáveis na ordem temporal.

PROC CALENDAR – para construir calendários.

C) Procedimentos de regressão e análise de variância:

PROC REG – ajusta uma regressão linear com várias opções de diagnósticos e diversos

métodos para seleção de modelos.

PROC NLIN – ajusta modelos de regressão não lineares.

PROC ANOVA – para análise de variância, análise de variância multivariada, análise de

variância com medidas repetidas em experimentos balanceados,

comparações múltiplas.

PROC GLM – ajusta modelos lineares gerais (regressão simples, múltipla, polinomial e

ponderada, faz análise de variância para dados desbalanceados).

PROC VARCOMP – para componentes de variância.

PROC LIFEREG – ajusta modelos paramétricos para dados de tempos de vida.

Page 24: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

D) Procedimentos para dados multivariados:

PROC PRINCOMP – faz análise de componentes principais.

PROC CANCORR – faz análise de correlação canônica.

PROC FACTOR – faz análise de fatores ortogonais com rotações.

PROC CLUSTER – faz análise de cluster (ou agrupamentos ).

E) Procedimentos não paramétricos e para dados categóricos:

PROC NPAR1WAY – análise não paramétrica one-way para ranks.

PROC CATMOD – para tabelas de contingência.

PROC FREQ – faz distribuições de frequência para variáveis categóricas e tabelas

cruzadas.

PROC LOGIST – ajusta modelos logísticos.

PROC PROBIT – faz regressão probit, logística e logística ordinal.

F) Procedimentos Utilitários:

PROC APPEND – anexa dados de um data set no fim de um outro data set.

PROC COMPARE – compara os conteúdos de dois data set's.

PROC FORMAT – define formatos de saída e de leitura de dados.

PROC SORT – ordena os dados de um SASdataset.

9. ESTATÍSTICA DESCRITIVA E TESTE DE NORMALIDADE

9.1 Introdução

Depois que o usuário cria seu arquivo de dados ele pode desejar sumarizar estes dados

através de medidas que descrevam seu comportamento. Estas medidas incluem parâmetros de

posição como médias, modas, medianas, quartis e percentis, parâmetros de dispersão, como

variâncias, desvios padrões, amplitude (range), e parâmetros que auxiliam na descrição da

forma dos dados, como assimetria e curtose.

Nos problemas que envolvem a Estatística Indutiva, os conjuntos de dados analisados são

representados por amostras retiradas das populações de interesse. Sendo as amostras aleatórias,

todos os seus elementos fornecerão valores aleatórios da variável em análise. Para caracterizar

a distribuição dos diversos valores assumidos por uma variável aleatória, o conceito de

distribuição de probabilidades deve ser utilizado e estendido às populações, ou seja, cada valor

da amostra deve ser considerado como valor de uma variável aleatória cuja distribuição de

probabilidade é a mesma da população no instante da retirada desse elemento da amostra. Os

valores calculados em função dos elementos da amostra, denominam-se estatísticas. Se estas

Page 25: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

estatísticas forem utilizadas para inferir informações a respeito de uma população, elas são

consideradas como variáveis aleatórias, e terão, portanto uma distribuição de probabilidades,

com uma média, uma variância, etc. Muitos métodos da análise estatística assumem que os

dados da amostra provém de uma população com distribuição normal. A distribuição normal

tem uma definição matemática precisa, com as seguintes características:

ser completamente definida por sua média e seu desvio padrão.

ser uma distribuição simétrica, ou seja, sua média coincide com sua moda, que por sua

vez coincide com sua mediana.

ser uma distribuição regular. Do seu ponto central mais alto até suas extremidades não

existe padrões irregulares.

ter curtose=0 (a curtose descreve o grau de achatamento de uma distribuição).

9.2 Teste de normalidade

Nos testes de normalidade é estabelecida a idéia de que uma amostra provém de uma

distribuição normal. Através da amostra, uma estatística é calculada e testada para checar essa

idéia. Uma comparação é feita entre a forma da distribuição da amostra, com a forma de uma

distribuição normal. Se não for encontrada nenhuma evidência para rejeitar a hipótese de

normalidade, prossegue-se as análises baseando-se na suposição de que os dados da amostra

são normalmente distribuídos (análise paramétrica). Quando os dados não são gerados por uma

distribuição normal, a análise deve ser baseada em métodos não paramétricos. A distribuição

normal é simétrica.

Ao desempenhar um teste de hipótese tem-se sempre uma hipótese nula que descreve

uma idéia sobre a população, e uma hipótese alternativa, que descreve uma idéia alternativa

sobre a população.

Nos testes para a normalidade, a hipótese nula é que os dados da amostra são gerados por

uma distribuição normal. A hipótese alternativa é que eles são gerados por uma distribuição

não normal. O método utilizado para testar hipóteses consiste num conteúdo de decisão onde a

probabilidade de rejeitar a hipótese nula, sendo ela verdadeira (erro do tipo I), não excede um

valor prefixado chamado de nível de significância 𝛼 do teste. Ao menor nível de significância

para o qual a hipótese nula é rejeitada denominamos probabilidade de significância (p-valor).

Se p-valor > 𝛼 há evidências de que a hipótese nula é verdadeira.

Page 26: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

9.3 O PROC UNIVARIATE: Estatísticas descritivas, incluindo quantis e plots descritivos

para variáveis numéricas.

Sintaxe: PROC UNIVARIATE opções;

var <variáveis>;

by <variáveis>;

freq <variáveis>;

weight <variáveis>;

id <variáveis>;

output out=SASdataset Keyword=<nomes>;

1) Opções:

DATA=SASdataset – especifica o conjunto de dados.

NOPRINT – não mostra as saídas.

PLOT – opções de gráficos (ramos-folhas, box-plot, normal-plot).

FREQ – faz tabela de frequência.

NORMAL – faz teste de normalidade dos dados,

se n<51 faz o teste de Shapiro-Wilks,

se n51 faz o teste de Kolmogorov-Sirnov.

PCTLDEF=k – especifica o método para o cálculo dos quartis,

k = 1, 2, 3, 4 ou 5 (default k = 5).

VARDEF=df/weight/n/wdf – especifica o divisor para o cálculo da variância (default =df):

df = graus de liberdade,

weight = soma dos pesos,

n = número de observações,

wdf = soma dos pesos menos 1 (w-1).

ROUND=n – especifica as unidades para arredondamento

2) Descrição das declarações:

var3 – lista de variáveis para o PROC UNIVARIATE (default = todas).

by4 – separa as análises em subgrupos definidos pela variável declarada.

freq5 – considera os valores da variável como frequências.

3 usar sempre após uma declaração de output. 4 os dados devem estar ordenados em ordem crescente pela variável em questão. 5 se os dados não são inteiros, os valores são truncados.

Page 27: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

weight6 – variável com pesos para o cálculo da média e variância ponderadas ( xW e sW2

) – só

para calcular xW e sW2

.

id7 – usado para identificar as observações (ou casos).

output – requisita um arquivo interno de saídas.

out = SASdataset – define o nome do arquivo interno de saídas.

keyword = nomes – identifica as estatísticas desejadas.

NOTA: o comando OUTPUT grava o conteúdo da memória RAM num arquivo SASdataset.

Gravar as saídas num SASdataset não é o mesmo que salvar num arquivo definitivo, o que pode

ser obtido através do comando FILE. Os conteúdos dos SASdataset se perdem quando ao sair

do SAS.

Os nomes definidos através da opção keyword podem ser:

N – número de observações consideradas para os cálculos (menos MISSING).

NMISS – número de valores perdidos.

NOBS – número total de observações.

MEAN – média aritmética.

SUM – soma das observações.

STD – desvio padrão.

VAR – variância.

SKEWNESS – medida de simetria.

KURTOSIS – curtosi.

SUMWGT – soma dos pesos.

MAX – valor máximo.

MIN – valor mínimo.

RANGE – amplitude amostral (MAX-MIN).

Q3 – terceiro quartil.

MEDIAN – mediana.

Q1 – primeiro quartil.

QRANGE – amplitude interquartil (Q3-Q1).

P1 – 10 percentil (quantil 0.01).

P5 – 50 percentil (quantil 0.05).

6 valores negativos são considerados como zero. 7 considera os 8 primeiros caracteres.

Page 28: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

P10 – 100 percentil (quantil 0.10).

P90 – 900 percentil (quantil 0.90).

P95 – 950 percentil (quantil 0.95).

P99 – 990 percentil (quantil 0.99).

MODE – moda (se houver mais do que uma moda, é usada a menor delas).

Pode ser notado que este procedimento apresenta resultados mais completos, os quais são

essenciais para o estudo da distribuição dos dados.

Nota: A opção NORMAL definida no PROC UNIVARIATE gera os testes de normalidade de

SHAPIRO-WILK e de KOLMOGOROV-SMIRNOV. A estatística W (Shapiro-Wilk) é maior

que zero e menor ou igual a 1 (0<W1). Valores de W muito pequenos indicam que os dados

não são uma amostra de distribuição normal. A segunda coluna Pr < W, contém o valor da

probabilidade, a qual descreve quão duvidoso é a idéia de normalidade. A hipótese de nulidade

a ser testada é a de aceitar que os dados seguem distribuição normal. Para amostra com até duas

mil observações o teste correto é o de SHAPIRO-WILK, caso contrário, o teste é o

KOLMOGOROV-SMIRNOV.

Ex.: Resultados obtidos de uma distribuição aproximadamente Normal. Para ilustrar, suponha

que estejamos analisando uma amostra. No programa SAS abaixo, a idade de cada pessoa está

sendo representada pela variável IDADE, e sua identificação pela variável IDENT.

OPTIONS FORMDLIM='*' LS=80;

DATA NORM A; /* EXEMPL01 SAS */

INPUT IDENT IDADE @@;

CARDS;

1 72 2 69 3 75 4 71 5 71 6 73

7 70 8 67 9 71 10 72 11 73 12 68

13 69 14 70 15 70 16 71 17 74 18 72

;

PROC UNIVARIATE NORMAL PLOT FREQ;

VAR IDADE;

ID IDENT;

RUN;

ANÁLISE DOS RESULTADOS: The UNIVARIATE Procedure

Variable: IDADE

Moments

N 18 Sum Weights 18

Mean 71 Sum Observations 1278

Std Deviation 2.05798302 Variance 4.23529412

Skewness 0 Kurtosis -0.1357639

Uncorrected SS 90810 Corrected SS 72

Coeff Variation 2.89856764 Std Error Mean 0.48507125

Page 29: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

Basic Statistical Measures

Location Variability

Mean 71.00000 Std Deviation 2.05798

Median 71.00000 Variance 4.23529

Mode 71.00000 Range 8.00000

Interquartile Range 2.00000

Tests for Location: Mu0=0

Test -Statistic- -----p Value------

Student's t t 146.3702 Pr > |t| <.0001

Sign M 9 Pr >= |M| <.0001

Signed Rank S 85.5 Pr >= |S| <.0001

Tests for Normality

Test --Statistic--- -----p Value------

Shapiro-Wilk W 0.983895 Pr < W 0.9812

Kolmogorov-Smirnov D 0.111111 Pr > D >0.1500

Cramer-von Mises W-Sq 0.036122 Pr > W-Sq >0.2500

Anderson-Darling A-Sq 0.196144 Pr > A-Sq >0.2500

A tabela acima fornece estatísticas descritivas da variável IDADE, além do teste para

normalidade. O valor zero de assimetria traduz a forma simétrica da distribuição. A estatística

de curtose de -0.13576 significa que a distribuição de valores é relativamente achatada. O alto

p-valor associado ao teste de normalidade, dado por Pr < W, mostra que existe 9812 chances

em 10000 que se obtenha este mesmo resultado se os dados fossem oriundos de uma população

Normal. Por esta razão são poucas as chances de rejeitar a hipótese nula. Em geral, rejeita-se a

hipótese nula de normalidade dos dados somente quando o p-valor for menor que 0.05 .

Os quartis, percentis, a moda da distribuição, e os valores extremos estão relacionados a

seguir:

Quantiles (Definition 5)

Quantile Estimate

100% Max 75

99% 75

95% 75

90% 74

75% Q3 72

50% Median 71

25% Q1 70

10% 68

5% 67

1% 67

0% Min 67

Page 30: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

Extreme Observations

--------Lowest-------- --------Highest-------

Value IDENT Obs Value IDENT Obs

67 8 8 72 18 18

68 12 12 73 6 6

69 13 13 73 11 11

69 2 2 74 17 17

70 15 15 75 3 3

A opção FREQ da PROC UNIVARIATE permite a obtenção de uma tabela de

distribuição de frequência onde o número de ocorrências de cada valor da variável IDADE é

contabilizado juntamente com os percentuais e percentuais acumulados de ocorrência em cada

categoria.

Frequency Counts

Percents Percents Percents

Value Count Cell Cum Value Count Cell Cum Value Count Cell Cum

67 1 5.6 5.6 70 3 16.7 38.9 73 2 11.1 88.9

68 1 5.6 11.1 71 4 22.2 61.1 74 1 5.6 94.4

69 2 11.1 22.2 72 3 16.7 77.8 75 1 5.6 100.0

O plote ‘stem leaf’ (tronco e folhas) mostra a distribuição dos valores observados. Entre

estes plotes e o ‘boxplot’, há uma coluna (#) que fornece a frequência de observações em cada

barra. No gráfico Boxplot as linhas externas inferior e superior indicam os percentis de 25 e

75%, respectivamente. A linha central indica a mediana (50º percentil). O sinal de (+) indica a

média da distribuição, que está coincidindo com a mediana.

Stem Leaf # Boxplot

75 0 1 |

74 0 1 |

73 00 2 |

72 000 3 +-----+

71 0000 4 *--+--*

70 000 3 +-----+

69 00 2 |

68 0 1 |

67 0 1 |

----+----+----+----+

O plote a seguir mostra tantos sinais positivos quanto asteriscos. Os sinais de (+) formam

uma linha reta. Os (*) representam os valores amostrais. Se a amostra é gerada por uma

distribuição normal, os asteriscos devem formar uma linha reta e cobrir a maioria dos sinais

positivos. A distribuição amostral aproxima-se da normalidade.

Page 31: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

Normal Probability Plot

75.5+ * +++++

| * +++++

| * +*+++

| **+*++

71.5+ **+**++

| * **+++

| * +*+++

| +*+++

67.5+ +*+++

+----+----+----+----+----+----+----+----+----+----+

-2 -1 0 +1 +2

9 O PROC MEANS: Estatísticas descritivas para variáveis numéricas.

Sintaxe: PROC MEANS opções;

var <variáveis>;

by <variáveis>;

class <variáveis>;

freq <variáveis>;

weight <variáveis>;

id <variáveis>;

output out=SASdataset Keyword=<nomes>;

1) Principais opções:

DATA=SASdataset – especifica o conjunto de dados.

NOPRINT – não mostra as saídas.

MAXDEC – número de casas decimais para os resultados (0 a 8).

FW – tamanho do campo para impressão.

2) Declarações:

var – lista de variáveis para o PROC MEANS (default = todas).

by – especifica subgrupos.

class – especifica as variáveis que definem subgrupos.

freq – considera os valores da variável como frequências.

weight – variável com pesos para o cálculo da média e variância ponderadas.

id – usado para identificar as observações (casos).

output – requisita um arquivo interno de saídas.

out = SASdataset – define o nome do arquivo interno de saídas.

keyword = nomes – identifica as estatísticas desejadas.

Os nomes definidos através da opção keyword podem ser:

MEAN RANGE

MAX STD

Page 32: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

MIN SUM

N SUMWGT

NMISS VAR

CV – coeficiente de variação (porcentagem).

STDERR – erro padrão da média.

USS – soma de quadrados não corrigida.

CSS – soma de quadrados corrigida.

T – valor t para testar se a média da população é zero.

PRT – P T t , onde T ~ t-Student.

Ex.: OPTIONS LS=75 PS=64;

TITLE "ANALISE GERAL DE PRODUCAO DE LEITE DE CABRAS";

FILENAME sila "c:\usuarios\norma\cabra\pret.DBF";

PROC DBF DB3 = sila OUT=a;

DATA b; SET a;

Proc sort;

by anocorte;

proc means mean n min max cv std nmiss range;

var alt fol folio mas msr;

run;

Saída (OUTPUT) The SAS System 13

07:24 Tuesday, July 31, 2001

Variable Mean N Minimum Maximum CV

---------------------------------------------------------------------

ALT 61.0541667 144 7.3000000 194.0000000 71.5295460

FOL 13.7152778 144 4.5000000 28.5000000 41.7992300

FOLIO 96.2743056 144 8.0000000 352.0000000 77.4822784

MAS 5.0838542 144 0.0300000 25.9270000 125.9038913

MSR 1.4321538 117 0.0600000 5.3460000 91.5293716

---------------------------------------------------------------------

Variable Std Dev Nmiss Range

-------------------------------------------

ALT 43.6717682 0 186.7000000

FOL 5.7328805 0 24.0000000

FOLIO 74.5955254 0 344.0000000

MAS 6.4007702 0 25.8970000

MSR 1.3108414 27 5.2860000

-------------------------------------------

Quando a variável independente contém muitos níveis, antes de se processar o PROC

MEANS faz-se um PROC SORT para àquela variável.

10 O PROC PRINT: Imprime os valores das variáveis de um arquivo de dados na janela

OUTPUT.

Page 33: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

Sintaxe:

PROC PRINT data=nome;

var <variáveis>; /* seleciona variáveis*/

by <variáveis>; /*especifica subgrupos*/

sum <variáveis>; /*apresenta a soma das variáveis selecionadas*/

NOTA: A opção data=nome define o SASdataset a ser impresso. Se este não for definido, o

último SASdataset utilizado pelo SAS será considerado.

Ex.: OPTIONS LS=64 PS=75;

Data cabra;

Infile "c:\usuarios\CABRA.dat";

Input RGV 1-5 REBANHO 7 RGpai 9-12 RGmae 14-17 op 19-20 t 22 iap 24-27 pl

29-31 dl 33-35 iep 37-39 EP 41-42 ANOPART 44-47 MESPART 49-52 DATPART 54-59

DTNAS 61-66 GC 68-73;

Proc print;

Var RGV DATNAS REBANHO RGPAI RGMAE DATPART MESPART ANOPART OP IAP IEP EP

GC;

Run;

Saída (OUTPUT) The SAS System 1

07:24 Tuesday, July 31, 2011

R D M A

D E A E N

A B R R T S O

T A G G P P P

O R N N P M A A A I I

B G A H A A R R R O A E E G

S V S O I E T T T P P P P C

1 71 . 1 16 816 . 7 1992 1 1409 437 2 199221

2 117 . 1 16 0 . 12 1988 1 1071 346 3 198831

3 118 . 1 16 433 . 2 1990 1 1125 722 1 199011

4 119 . 1 16 424 . 3 1990 1 1137 694 1 199011

5 120 . 1 16 1303 . 6 1990 1 1039 598 2 199021

6 123 . 1 19 422 . 2 1990 1 1298 478 1 199011

7 305 . 1 19 1551 . 2 1995 1 1458 504 1 199511

8 317 . 1 1052 2395 . 6 1989 1 1231 385 2 198921

9 407 . 1 1502 1169 . 2 1990 1 1200 705 1 199011

10 422 0 1 303 1306 . 9 1986 1 0 429 3 198631

11 O PROC SORT

Este procedimento ordena os registros de um arquivo existente ou a ser criado, permitindo

classificar por um ou múltiplos campos e em ordem crescente ou decrescente. O default do

SAS, quando o PROC SORT é usado, é ordenamento em ordem crescente. Para ordenar em

ordem decrescente, tem-se que usar a opção DESCENDING. Outra opção que pode ser usada

associada ao PROC SORT é a opção NODUPKEY. Esta opção elimina dados repetidos ou

iguais de uma mesma variável.

Page 34: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

NODUPKEY – Procura e elimina observações com valores BY duplicados. Se esta

opção for especificada, todos os valores BY de cada observação são comparados com a

observação predecessora. Se uma observação exatamente igual é encontrada, ela é

eliminada do arquivo final resultante do procedimento.

NODUPRECS – Procura e elimina observações duplicadas. Todos os valores das

variáveis de cada observação são comparados com a observação prévia se esta opção

for especificada. Se um valor exato é encontrado, a observação é eliminada do arquivo

final resultante do procedimento. NODUPRECS confere só observações sucessivas,

assim, algumas observações duplicadas não sucessivas podem permanecer arquivo

final.

BY – A instrução BY é obrigatória e especifica as variáveis pelas quais o arquivo deve

ser ordenado. O padrão é a ordem ascendente. Se for necessário usar ordem descendente,

é necessário especificar através da opção DESCENDING.

DESCENDING – Quando for necessário ordenar de forma descendente, o termo

DESCENDING deve ser escrito antes de cada variável que deve ser ordenada desta

forma. Se uma variável da lista de variáveis que segue a instrução BY não for precedida

pela opção DESCENDING, automaticamente será ordenada ascendentemente.

Ex.: data aula;

input animal mes cod $ prod;

cards;

10 1 a 17.5

11 2 a 18.5

12 3 a 19.5

13 4 a 9.35

14 5 b 18.2

15 6 b 20.1

16 7 b 14.5

17 8 b 18.7

18 9 a 19.3

19 10 a 14.5

20 11 b 8.95

21 12 b 12.3

;

proc sort; by animal;

/*proc sort nodupkey; by cod;*/

/*proc sort; by descending animal;*/

proc print;

run;

Page 35: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

12 O PROC FREQ: Produz tabelas de frequência univariada ou cruzadas.

Ex.: Frequência univariada ou tabela de uma entrada

data ufpb1; set ufpb;

proc freq;

tables raca;

run;

Output The SAS System 13:57 Tuesday, February 29, 2000 1

Cumulative Cumulative

RACA Frequency Percent Frequency Percent

----------------------------------------------------

1 211 1.6 211 1.6

2 539 4.1 750 5.7

3 4216 31.9 4966 37.6

4 916 6.9 5882 44.5

5 6691 50.6 12573 95.1

6 271 2.1 12844 97.2

7 145 1.1 12989 98.3

8 225 1.7 13214 100.0

Frequência cruzada ou de duas entradas

data ufpb1; set ufpb;

proc freq;

tables prop*raca;

run;

Output

The SAS System 16:28 Wednesday, March 1, 2000 8

TABLE OF PROP BY RACA

PROP RACA

Frequency‚

Percent ‚

Row Pct ‚

Col Pct ‚ 1‚ 2‚ 3‚ 4‚ 5‚ 6‚ 7‚ 8‚ Total

ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ

164 ‚ 0 ‚ 0 ‚ 0 ‚ 137 ‚ 0 ‚ 0 ‚ 0 ‚ 0 ‚ 137

‚ 0.00 ‚ 0.00 ‚ 0.00 ‚ 1.04 ‚ 0.00 ‚ 0.00 ‚ 0.00 ‚ 0.00 ‚ 1.04

‚ 0.00 ‚ 0.00 ‚ 0.00 ‚ 100.00 ‚ 0.00 ‚ 0.00 ‚ 0.00 ‚ 0.00 ‚

‚ 0.00 ‚ 0.00 ‚ 0.00 ‚ 14.96 ‚ 0.00 ‚ 0.00 ‚ 0.00 ‚ 0.00 ‚

ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ

235 ‚ 0 ‚ 93 ‚ 186 ‚ 0 ‚ 1 ‚ 0 ‚ 0 ‚ 0 ‚ 280

‚ 0.00 ‚ 0.70 ‚ 1.41 ‚ 0.00 ‚ 0.01 ‚ 0.00 ‚ 0.00 ‚ 0.00 ‚ 2.12

‚ 0.00 ‚ 33.21 ‚ 66.43 ‚ 0.00 ‚ 0.36 ‚ 0.00 ‚ 0.00 ‚ 0.00 ‚

‚ 0.00 ‚ 17.25 ‚ 4.41 ‚ 0.00 ‚ 0.01 ‚ 0.00 ‚ 0.00 ‚ 0.00 ‚

13 PROC ANOVA: Processa análise de variância para dados balanceados em diferentes

delineamentos experimentais.

O Proc Anova (Analysis of Variance) é um procedimento disponível no módulo

SAS\STAT para análise de variância de dados balanceados, isto é, sem perda de tratamentos e

igual número de observações para toda combinação dos níveis dos fatores. A obtenção da

Page 36: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

Análise de Variância é feita considerando o modelo fixo, ou seja, tendo o erro experimental

como único efeito aleatório. Neste procedimento são utilizados dois comandos, o CLASS, que

identifica para o procedimento as variáveis independentes (fontes de variação) e o comando

MODEL, no qual especifica-se o modelo estatístico que será empregado na análise.

Delineamento Inteiramente Casualizado

OPTIONS LS=75 PS=64;

TITLE "ANALISE materia seca";

FILENAME ed " a:mseca.DBF";

PROC DBF DB3 = ed OUT=a;

DATA b; SET a;

Run;

PROC ANOVA data=b;

Class trat;

Model producao=trat;

Run;

Um passo seguinte seria a execução de teste de médias que permitirá identificar quais

tratamentos diferem entre si.

means trat/tukey;

run;

Output

Analysis of Variance Procedure

Class Level Information

Class Levels Values

TRATAM 3 1 2 3

Number of observations in data set = 15

Analysis of Variance Procedure

Dependent Variable: PRODUCAO

Source DF Sum of Squares F Value Pr > F

Model1 2 423.33333333 3.20 0.0770

Error2 12 794.00000000

Corrected Total 14 1217.33333333

R-Square C.V. PRODUCAO Mean

0.347755 25.15760 32.3333333

Source DF Anova SS F Value Pr > F

TRAT3 2 423.33333333 3.20 0.07708

8 Não significativo a 5% pelo teste F

Page 37: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

1 Model – Linha do quadro da análise de variância que mede o efeito de todos os componentes

do modelo. Na maioria dos casos, a rejeição do modelo implica na aceitação da hipótese de

nulidade referente a todos os fatores em estudo.

2 Error – Nessa linha é computado o erro experimental.

3 Trat – Linha que testa, através do teste F, a existência de efeito de tratamento sobre a

produção. O DF representa os graus de liberdade para trat. ANOVA SS representa a soma de

quadrados e F Value representa o valor de F calculado.

Pr > F – Fornece o nível de significância para rejeição ou não de H0.

Tukey's Studentized Range (HSD) Test for variable: PRODUCAO

Alpha= 0.05 df= 12 MSE= 66.16667

Critical Value of Studentized Range= 3.773

Minimum Significant Difference= 13.724

Means with the same letter are not significantly different.

Tukey Grouping Mean N TRATAM

A 39.000 5 2

A 32.000 5 3

A 26.000 5 1

Delineamento em Blocos Casualizados

Consideremos o exemplo a seguir. Analisar como DBC e usar o teste de DUNCAN com

alpha igual a 1%.

OPTIONS LS=75 PS=64;

DATA a;

Input Var $ rep PROD @@;

Cards;

A 1 25 A 2 26 A 3 20 A 4 23 A 5 21

B 1 31 B 2 25 B 3 28 B 4 27 B 5 24

C 1 22 C 2 26 C 3 28 C 4 25 C 5 29

D 1 33 D 2 29 D 3 31 D 4 34 D 5 28

;

PROC ANOVA;

Class VAR REP;

Model prod=VAR REP;

MEANS VAR/DUNCAN ALPHA=0.01;

RUN;

Output

The SAS System

The ANOVA Procedure

Class Level Information

Class Levels Values

Var 4 A B C D

rep 5 1 2 3 4 5

Number of observations 20

Page 38: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

The ANOVA Procedure

Dependent Variable: PROD

Sum of

Source DF Squares Mean Square F Value Pr > F

Model 7 175.2500000 25.0357143 2.99 0.0462

Error 12 100.5000000 8.3750000

Corrected Total 19 275.7500000

R-Square Coeff Var Root MSE PROD Mean

0.635539 10.81854 2.893959 26.75000

Source DF Anova SS Mean Square F Value Pr > F

Var 3 163.7500000 54.5833333 6.52 0.0073

rep 4 11.5000000 2.8750000 0.34 0.8436

The SAS System

The ANOVA Procedure

Duncan's Multiple Range Test for PROD

NOTE: This test controls the Type I comparisonwise error rate, not the

experimentwise error rate.

Alpha 0.01

Error Degrees of Freedom 12

Error Mean Square 8.375

Number of Means 2 3 4

Critical Range 5.591 5.829 5.982

Means with the same letter are not significantly different.

Duncan Grouping Mean N Var

A 31.000 5 D

B A 27.000 5 B

B A 26.000 5 C

B 23.000 5 A

14 PROC GLM (General Linear Models - Modelos Lineares Gerais): Processa análise de

variância para diversos delineamentos experimentais balanceados ou não. O uso do GLM é

muito parecido com o procedimento ANOVA.

O PROC GLM usa o método dos quadrados mínimos para ajustar modelos lineares gerais.

Além da análise de variância de ensaios desbalanceados, é também utilizado para análise de

covariância.

Quando o delineamento é balanceado, a análise é relativamente mais simples. Essa

simplicidade é infelizmente perdida logo que o delineamento torna-se desbalanceado. Como

resultado, este procedimento calcula quatro tipos de soma de quadrados diferentes.

A soma de quadrados tipo I representa uma partição da soma de quadrados do modelo em

componentes de somas de quadrados devido a cada fator ou interação adicionado

sequencialmente no modelo, sendo, portanto, chamado de soma de quadrado sequencial.

Page 39: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

Ex.:

FV SQ tipo I

A SQ(A/)

B SQ(B/, A)

A*B SQ(A*B/, A, B)

As somas de quadrado para cada efeito depende da ordem com que os mesmos são

dispostos no modelo.

A soma de quadrados tipo II, para um fator particular, representa o incremento na soma

de quadrados do modelo. Esse acréscimo é devido à adição do fator particular ou interação para

um modelo que já contém todas as variáveis e interações, exceto aquelas de interesse. Essas

somas de quadrados são comumente chamadas de somas de quadrados parciais.

Ex.:

FV SQ tipo II

A SQ(A/, B)

B SQ(B/, A)

A*B SQ(A*B/, A, B)

A soma de quadrados tipo III e IV são também um tipo de soma de quadrados parciais.

São consideradas por muitos como a soma de quadrados mais desejável. Quando os dados são

desbalanceados, dependendo do modelo em análise, essa soma de quadrados deve ser preferida.

Em condições de balanceamento, essas somas de quadrados são iguais. Pode haver casos,

dependendo do modelo e da condição de balanceamento que os quatro tipos de somas de

quadrado serão equivalentes.

Ex.1: proc glm;

class npai ncab gc t;

model pl dl iep=npai ncab(npai) gc t iap iap*iap/ss3;

lsmeans gc t;

random npai ncab(npai);

run;

Saída (OUTPUT) The SAS System 07:09 Friday, August 20, 1999 140

General Linear Models Procedure

Class Level Information

Class Levels Values

NPAI 20 1 2 3 6 7 8 9 10 11 12 13 15 16 18 20 22 23 29 36 37

NCAB 174 7 105 106 107 110 112 113 114 117 120 131 134 136 137 138 141 143 144 146

151 157 159 162 163 166 168 174 176 177 178 179 181 185 190 192 193 195

197 198 200 207 208 219 221 224 225 228 230 231 232 233 237 238 240 242

243 244 249 252 253 258 259 263 264 266 268 270 272 275 276 277 281 282

290 294 296 299 301 304 306 313 314 316 319 322 323 333 340 349 351 355

GC 27 19551 19882 19883 19891 19892 19893 19901 19902 19903 19911 19912 19913

19921 19922 19923 19931 19932 19933 19942 19943 19951 19952 19953 19961

19962 19963 19972

T 2 1 2

Page 40: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

Number of observations in data set = 629

The SAS System 07:09 Friday, August 20, 1999 141

General Linear Models Procedure

Dependent Variable: PL

Source DF Sum of Squares Mean Square F Value Pr > F

Model 202 5054158.68003796 25020.58752494 5.38 0.0001

Error 421 1957650.47220563 4650.00112163

Corrected Total 623 7011809.15224359

R-Square C.V. Root MSE PL Mean

0.720807 25.23687 68.19091671 270.20352564

Source DF Type III SS Mean Square F Value Pr > F

NPAI 19 381401.46821976 20073.76148525 4.32 0.0001

NCAB(NPAI) 154 2669771.04363959 17336.17560805 3.73 0.0001

GC 26 422470.28115473 16248.85696749 3.49 0.0001

T 1 500.73869837 500.73869837 0.11 0.7430

IAP 1 5698.88492457 5698.88492457 1.23 0.2689

IAP*IAP 1 73561.54292701 73561.54292701 15.82 0.0001

The SAS System 07:09 Friday, August 20, 1999 151

General Linear Models Procedure

Dependent Variable: IEP

Source DF Sum of Squares Mean Square F Value Pr > F

Model 202 1648470.33897673 8160.74425236 2.03 0.0001

Error 421 1691894.69788224 4018.75225150

Corrected Total 623 3340365.03685898

R-Square C.V. Root MSE IEP Mean

0.493500 23.71830 63.39362942 267.27724359

Source DF Type III SS Mean Square F Value Pr > F

NPAI 19 195792.62370748 10304.87493197 2.56 0.0004

NCAB(NPAI) 154 837144.41524875 5436.00269642 1.35 0.0097

GC 26 446660.74750527 17179.25951943 4.27 0.0001

T 1 353.29381430 353.29381430 0.09 0.7670

IAP 1 6776.78344025 6776.78344025 1.69 0.1948

IAP*IAP 1 4862.99208062 4862.99208062 1.21 0.2719

The SAS System 07:09 Friday, August 20, 1999 156

General Linear Models Procedure

Least Squares Means

GC PL DL IEP

LSMEAN LSMEAN LSMEAN

19551 279.344265 198.622626 -132.768691

19882 254.700543 182.109936 362.527849

19883 195.863896 192.002938 386.624595

19891 264.605793 223.514181 389.303811

19892 192.913009 173.551485 334.748019

19893 209.771648 185.438615 338.512819

19901 219.326006 182.577311 315.833808

19902 263.916315 177.517259 315.448650

19903 230.956861 188.294759 320.928972

19911 202.524675 178.442906 312.181031

19912 193.548996 166.385597 297.605299

19913 199.810770 206.723519 320.190069

19921 263.138481 234.955788 365.197105

19922 236.494862 163.279992 251.044667

T PL DL IEP

LSMEAN LSMEAN LSMEAN

Page 41: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

1 228.691353 181.691416 267.555362

2 231.065333 183.006944 269.549429

General Linear Models Procedure

Source Type III Expected Mean Square

NPAI Var(Error) + 2.6413 Var(NCAB(NPAI)) + 20.215 Var(NPAI)

NCAB(NPAI) Var(Error) + 3.3943 Var(NCAB(NPAI))

GC Var(Error) + Q(GC)

T Var(Error) + Q(T)

IAP Var(Error) + Q(IAP)

IAP*IAP Var(Error) + Q(IAP*IAP)

Ex.2: data bloco;

input trat bloco prod @@;

cards;

1 1 142.36 1 2 144.78 1 3 145.19 1 4 138.88

2 1 139.28 2 2 137.77 2 3 144.44 2 4 130.61

3 1 140.73 3 2 134.06 3 3 136.07 3 4 144.11

4 1 150.88 4 2 135.83 4 3 136.97 4 4 136.36

5 1 153.49 5 2 165.02 5 3 151.75 5 4 150.22

;

proc glm;

class trat bloco;

model prod = trat bloco;

run;

Saída (OUTPUT)

The GLM Procedure

Class Level Information

Class Levels Values

trat 5 1 2 3 4 5

bloco 4 1 2 3 4

Number of observations 20

The GLM Procedure

Dependent Variable: prod

Sum of

Source DF Squares Mean Square F Value Pr > F

Model 7 867.627350 123.946764 3.66 0.0238

Error 12 406.324850 33.860404

Corrected Total 19 1273.952200

R-Square Coeff Var Root MSE prod Mean

0.681052 4.070917 5.818969 142.9400

Source DF Type I SS Mean Square F Value Pr > F

trat 4 794.9297500 198.7324375 5.87 0.0074

bloco 3 72.6976000 24.2325333 0.72 0.5614

Source DF Type III SS Mean Square F Value Pr > F

trat 4 794.9297500 198.7324375 5.87 0.0074

bloco 3 72.6976000 24.2325333 0.72 0.5614

Page 42: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

Nota: Como se pode verificar, o efeito de tratamento foi significativo, ou seja, pelo menos um

dos contrastes entre tratamentos difere dos demais. Neste caso, é interessante solicitar um teste

de comparação entre médias.

means trat/tukey;

run;

Tukey's Studentized Range (HSD) Test for prod

NOTE: This test controls the Type I experimentwise error rate, but it generally has a higher

Type II error rate than REGWQ.

Alpha 0.05

Error Degrees of Freedom 12

Error Mean Square 33.8604

Critical Value of Studentized Range 4.50760

Minimum Significant Difference 13.115

Means with the same letter are not significantly different.

Tukey Grouping Mean N trat

A 155.120 4 5

B A 142.803 4 1

B 140.010 4 4

B 138.743 4 3

B 138.025 4 2

Delineamentos em DIC e DBC

OPTIONS LS=78 PS=60 NODATE NONUMBER;

DATA UM;

INPUT TRAT REP Y;

CARDS;

1 1 35

1 2 19

1 3 31

1 4 15

1 5 30

2 1 40

2 2 35

2 3 46

2 4 41

2 5 33

3 1 39

3 2 27

3 3 20

3 4 29

3 5 45

4 1 27

4 2 12

4 3 13

4 4 28

4 5 30

;

Title 'EXEMPLO DE DELINEAMENTO INTEIRAMENTE CASUALIZADO COM TESTE DE TUKEY

A 5% ';

PROC GLM;

Page 43: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

CLASS TRAT;

MODEL Y=TRAT;

MEANS TRAT/TUKEY;

RUN;

Title 'EXEMPLO EM BLOCOS COMPLENTOS COM TESTE DE TUKEY A 1% E A 5% ';

PROC GLM;

CLASS TRAT REP;

MODEL Y=REP TRAT;

MEANS TRAT/TUKEY ALPHA=0.01;

MEANS TRAT/TUKEY;

RUN;

Title 'EXEMPLO COM CONTRASTES ORTOGONAIS';

PROC GLM;

CLASS TRAT REP;

MODEL Y=REP TRAT;

CONTRAST 'm1-M2' TRAT 1 -1 0 0 ;

CONTRAST 'M1+M2-2M4' TRAT 1 1 0 -2;

CONTRAST 'b1-b4'rep 1 0 0 -1;

run;

Output EXEMPLO DE DELINEAMENTO INTEIRAMENTE CASUALIZADO COM TESTE DE TUKEY A 5%

The GLM Procedure

Class Level Information

Class Levels Values

TRAT 4 1 2 3 4

Number of observations 20

The GLM Procedure

Dependent Variable: Y

Sum of

Source DF Squares Mean Square F Value Pr > F

Model 3 823.750000 274.583333 3.99 0.0267

Error 16 1100.000000 68.750000

Corrected Total 19 1923.750000

R-Square Coeff Var Root MSE Y Mean

0.428200 27.87080 8.291562 29.75000

Source DF Type I SS Mean Square F Value Pr > F

TRAT 3 823.7500000 274.5833333 3.99 0.0267

Source DF Type III SS Mean Square F Value Pr > F

TRAT 3 823.7500000 274.5833333 3.99 0.0267

The GLM Procedure

Tukey's Studentized Range (HSD) Test for Y

NOTE: This test controls the Type I experimentwise error rate, but it

generally has a higher Type II error rate than REGWQ.

Alpha 0.05

Error Degrees of Freedom 16

Error Mean Square 68.75

Critical Value of Studentized Range 4.04609

Minimum Significant Difference 15.003

Page 44: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

Means with the same letter are not significantly different.

Tukey Grouping Mean N TRAT

A 39.000 5 2

B A 32.000 5 3

B A 26.000 5 1

B 22.000 5 4

EXEMPLO EM BLOCOS COMPLENTOS COM TESTE DE TUKEY A 1% E A 5%

The GLM Procedure

Class Level Information

Class Levels Values

TRAT 4 1 2 3 4

REP 5 1 2 3 4 5

Number of observations 20

The GLM Procedure

Dependent Variable: Y

Sum of

Source DF Squares Mean Square F Value Pr > F

Model 7 1233.250000 176.178571 3.06 0.0429

Error 12 690.500000 57.541667

Corrected Total 19 1923.750000

R-Square Coeff Var Root MSE Y Mean

0.641066 25.49789 7.585622 29.75000

Source DF Type I SS Mean Square F Value Pr > F

REP 4 409.5000000 102.3750000 1.78 0.1978

TRAT 3 823.7500000 274.5833333 4.77 0.0206

Source DF Type III SS Mean Square F Value Pr > F

REP 4 409.5000000 102.3750000 1.78 0.1978

TRAT 3 823.7500000 274.5833333 4.77 0.0206

The GLM Procedure

Tukey's Studentized Range (HSD) Test for Y

NOTE: This test controls the Type I experimentwise error rate, but it

generally has a higher Type II error rate than REGWQ.

Alpha 0.01

Error Degrees of Freedom 12

Error Mean Square 57.54167

Critical Value of Studentized Range 5.50160

Minimum Significant Difference 18.664

Means with the same letter are not significantly different.

Tukey Grouping Mean N TRAT

A 39.000 5 2

A 32.000 5 3

A 26.000 5 1

A 22.000 5 4

The GLM Procedure

Tukey's Studentized Range (HSD) Test for Y

NOTE: This test controls the Type I experimentwise error rate, but it

generally has a higher Type II error rate than REGWQ.

Page 45: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

Alpha 0.05

Error Degrees of Freedom 12

Error Mean Square 57.54167

Critical Value of Studentized Range 4.19852

Minimum Significant Difference 14.243

Means with the same letter are not significantly different.

Tukey Grouping Mean N TRAT

A 39.000 5 2

B A 32.000 5 3

B A 26.000 5 1

B 22.000 5 4

EXEMPLO COM CONTRASTES ORTOGONAIS

The GLM Procedure

Class Level Information

Class Levels Values

TRAT 4 1 2 3 4

REP 5 1 2 3 4 5

Number of observations 20

The GLM Procedure

Dependent Variable: Y

Sum of

Source DF Squares Mean Square F Value Pr > F

Model 7 1233.250000 176.178571 3.06 0.0429

Error 12 690.500000 57.541667

Corrected Total 19 1923.750000

R-Square Coeff Var Root MSE Y Mean

0.641066 25.49789 7.585622 29.75000

Source DF Type I SS Mean Square F Value Pr > F

REP 4 409.5000000 102.3750000 1.78 0.1978

TRAT 3 823.7500000 274.5833333 4.77 0.0206

Source DF Type III SS Mean Square F Value Pr > F

REP 4 409.5000000 102.3750000 1.78 0.1978

TRAT 3 823.7500000 274.5833333 4.77 0.0206

Contrast DF Contrast SS Mean Square F Value Pr > F

m1-M2 1 422.5000000 422.5000000 7.34 0.0190

M1+M2-2M4 1 367.5000000 367.5000000 6.39 0.0266

b1-b4 1 98.0000000 98.0000000 1.70 0.2164

Page 46: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

Experimentos em Esquemas Fatoriais

Seja um experimento fatorial instalado em DBC, com dois fatores, temperatura e diluente,

cada um deles com três níveis, em que se buscou estudar a motilidade de espermatozóides de

jumentos.

Ex.: data a;

input Temp jumento dil mot;

cards;

1 1 1 75

1 1 2 81

1 1 3 68

1 2 1 65

1 2 2 69

1 2 3 60

1 3 1 78

1 3 2 79

1 3 3 72

1 4 1 68

1 4 2 76

1 4 3 61

1 5 1 44

1 5 2 55

1 5 3 34

2 1 1 73

2 1 2 75

2 1 3 61

2 2 1 60

2 2 2 62

2 2 3 55

2 3 1 83

2 3 2 76

2 3 3 68

2 4 1 61

2 4 2 66

2 4 3 57

2 5 1 43

2 5 2 51

2 5 3 24

3 1 1 66

3 1 2 62

3 1 3 50

3 2 1 61

3 2 2 51

3 2 3 50

3 3 1 70

3 3 2 60

3 3 3 61

3 4 1 51

3 4 2 51

3 4 3 53

3 5 1 37

3 5 2 41

3 5 3 21

;

Page 47: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

proc glm ;

class Temp jumento dil;

model mot = jumento dil Temp dil*Temp;

Output The SAS System

The GLM Procedure

Class Level Information

Class Levels Values

Temp 3 1 2 3

jumento 5 1 2 3 4 5

dil 3 1 2 3

Number of observations 45

The SAS System

The GLM Procedure

Dependent Variable: mot

Sum of

Source DF Squares Mean Square F Value Pr > F

Model 12 8385.555556 698.796296 38.39 <.0001

Error 32 582.444444 18.201389

Corrected Total 44 8968.000000

R-Square Coeff Var Root MSE mot Mean

0.935053 7.150238 4.266309 59.66667

Source DF Type I SS Mean Square F Value Pr > F

jumento 4 5845.555556 1461.388889 80.29 <.0001

dil 2 1013.333333 506.666667 27.84 <.0001

Temp 2 1373.333333 686.666667 37.73 <.0001

Temp*dil 4 153.333333 38.333333 2.11 0.1031

Source DF Type III SS Mean Square F Value Pr > F

jumento 4 5845.555556 1461.388889 80.29 <.0001

dil 2 1013.333333 506.666667 27.84 <.0001

Temp 2 1373.333333 686.666667 37.73 <.0001

Temp*dil 4 153.333333 38.333333 2.11 0.1031

Nota: Observe que a interação TEMP*DIL não foi significativa (P > 0,1). Nesta situação o

estudo dos fatores isoladamente é suficiente para avaliar a motilidade dos espermatozóides.

Nota: A título de ilustração será apresentado às comparações de médias dos fatores

isoladamente, como também da interação.

means Temp dil/tukey;

means dil*Temp/snk;

Com estes comandos, o SAS faz a comparação das médias dos níveis dos fatores

(temperatura e diluente) e da interação.

Page 48: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

Output

Tukey's Studentized Range (HSD) Test for mot

NOTE: This test controls the Type I experimentwise error rate, but it

generally has a higher Type II error rate than REGWQ.

Alpha 0.05

Error Degrees of Freedom 32

Error Mean Square 18.20139

Critical Value of Studentized Range 3.47525

Minimum Significant Difference 3.8282

Means with the same letter are not significantly different.

Tukey Grouping Mean N Temp

A 65.667 15 1

B 61.000 15 2

C 52.333 15 3

Tukey's Studentized Range (HSD) Test for mot

NOTE: This test controls the Type I experimentwise error rate, but it

generally has a higher Type II error rate than REGWQ.

Alpha 0.05

Error Degrees of Freedom 32

Error Mean Square 18.20139

Critical Value of Studentized Range 3.47525

Minimum Significant Difference 3.8282

Means with the same letter are not significantly different.

Tukey Grouping Mean N dil

A 63.667 15 2

A 62.333 15 1

B 53.000 15 3

The SAS System

The GLM Procedure

Level of Level of -------------mot-------------

Temp dil N Mean Std Dev

1 1 5 66.0000000 13.3603892

1 2 5 72.0000000 10.5356538

1 3 5 59.0000000 14.8323970

2 1 5 64.0000000 15.0665192

2 2 5 66.0000000 10.2713193

2 3 5 53.0000000 16.9558250

3 1 5 57.0000000 13.2476413

3 2 5 53.0000000 8.3964278

3 3 5 47.0000000 15.2151241

Nota: Observe que estudar a interação, como feito anteriormente, não é uma boa opção, pois

esta apenas apresenta as médias observadas para cada tratamento com os respectivos desvios

padrão.

Nota: A opção é usar o LSMEANS. Com a opção LSMEANS, passa-se a trabalhar com médias

ajustadas de quadrados mínimos, ao invés de médias observadas. Neste caso, as médias são

ajustadas para os fatores que compõem o modelo estatístico. Além disso, o programa compara

Page 49: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

quaisquer duas médias componentes da interação, sendo, portanto, uma boa alternativa para

estudar a interação. Vale salientar que as médias ajustadas podem ser solicitadas para os fatores

isoladamente, como segue:

lsmeans Temp dil dil*Temp/pdiff adjust=tukey stderr;

Output

Least Squares Means

Adjustment for Multiple Comparisons: Tukey

Standard LSMEAN

Temp mot LSMEAN Error Pr > |t| Number

1 65.6666667 1.1015561 <.0001 1

2 61.0000000 1.1015561 <.0001 2

3 52.3333333 1.1015561 <.0001 3

Least Squares Means for effect Temp

Pr > |t| for H0: LSMean(i)=LSMean(j)

Dependent Variable: mot

i/j 1 2 3

1 0.0141 <.0001

2 0.0141 <.0001

3 <.0001 <.0001

Least Squares Means

Adjustment for Multiple Comparisons: Tukey

Standard LSMEAN

dil mot LSMEAN Error Pr > |t| Number

1 62.3333333 1.1015561 <.0001 1

2 63.6666667 1.1015561 <.0001 2

3 53.0000000 1.1015561 <.0001 3

Least Squares Means for effect dil

Pr > |t| for H0: LSMean(i)=LSMean(j)

Dependent Variable: mot

i/j 1 2 3

1 0.6715 <.0001

2 0.6715 <.0001

3 <.0001 <.0001

Least Squares Means

Adjustment for Multiple Comparisons: Tukey

Standard LSMEAN

Temp dil mot LSMEAN Error Pr > |t| Number

1 1 66.0000000 1.9079512 <.0001 1

1 2 72.0000000 1.9079512 <.0001 2

1 3 59.0000000 1.9079512 <.0001 3

2 1 64.0000000 1.9079512 <.0001 4

2 2 66.0000000 1.9079512 <.0001 5

2 3 53.0000000 1.9079512 <.0001 6

3 1 57.0000000 1.9079512 <.0001 7

3 2 53.0000000 1.9079512 <.0001 8

3 3 47.0000000 1.9079512 <.0001 9

Page 50: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

Least Squares Means for effect Temp*dil

Pr > |t| for H0: LSMean(i)=LSMean(j)

Dependent Variable: mot

i/j 1 2 3 4 5

1 0.4154 0.2283 0.9977 1.0000

2 0.4154 0.0010 0.1106 0.4154

3 0.2283 0.0010 0.6485 0.2283

4 0.9977 0.1106 0.6485 0.9977

5 1.0000 0.4154 0.2283 0.9977

6 0.0010 <.0001 0.4154 0.0076 0.0010

7 0.0485 0.0001 0.9977 0.2283 0.0485

8 0.0010 <.0001 0.4154 0.0076 0.0010

9 <.0001 <.0001 0.0028 <.0001 <.0001

i/j 6 7 8 9

1 0.0010 0.0485 0.0010 <.0001

2 <.0001 0.0001 <.0001 <.0001

3 0.4154 0.9977 0.4154 0.0028

4 0.0076 0.2283 0.0076 <.0001

5 0.0010 0.0485 0.0010 <.0001

6 0.8553 1.0000 0.4154

7 0.8553 0.8553 0.0197

8 1.0000 0.8553 0.4154

9 0.4154 0.0197 0.4154

Nota: A comparação dos fatores isoladamente é imediata. Já para a interação é preciso guiar-se

pelo número da média (LSMEAN NUMBER). Por exemplo, ao comparar as médias 1 e 2,

estará comparando-se as médias entre os tratamentos temp 1 dil 1 contra temp 1 dil 2. Assim,

observa-se na matriz de probabilidade abaixo, o valor de probabilidade entre as médias 1 (i) e

2 (j), o qual irá informar se as mesmas são iguais ou diferentes. O valor de probabilidade entre

as médias 1 e 2 é de 0,4154, indicando, desta forma, que as mesmas não diferem entre si.

Nota: Como se pode observar, a comparação é feita, porém, não da maneira usual como nos

teste de médias, os quais vêm com as letras para indicar as diferenças. Caso seja o interesse do

usuário, com os valores de probabilidade entre as médias, é perfeitamente possível colocar as

letras para ilustrar a comparação das médias.

Nota: Outra opção para estudar a interação, seria estudar um fator dentro do outro. Por exemplo,

temperatura dentro do diluente 1 (Temp/dil1), temperatura dentro do diluente 2 (Temp/dil2) e

temperatura dentro do diluente 3 (Temp/dil3), ou o contrário, diluente dentro de temperatura.

Esse estudo pode ser feito usando a opção SLICE ou CONTRAST.

A opção SLICE já solicita o desdobramento de cada fator dentro do outro, como segue:

lsmeans dil*Temp/slice=dil; /* Temp/dil*/

lsmeans dil*Temp/slice=Temp;/*Dil/temp*/

Page 51: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

Output The GLM Procedure

Least Squares Means

Temp dil mot LSMEAN

1 1 66.0000000

1 2 72.0000000

1 3 59.0000000

2 1 64.0000000

2 2 66.0000000

2 3 53.0000000

3 1 57.0000000

3 2 53.0000000

3 3 47.0000000

The SAS System

The GLM Procedure

Least Squares Means

Temp*dil Effect Sliced by dil for mot

Sum of

dil DF Squares Mean Square F Value Pr > F

1 2 223.333333 111.666667 6.14 0.0056

2 2 943.333333 471.666667 25.91 <.0001

3 2 360.000000 180.000000 9.89 0.0005

The SAS System

The GLM Procedure

Least Squares Means

Temp dil mot LSMEAN

1 1 66.0000000

1 2 72.0000000

1 3 59.0000000

2 1 64.0000000

2 2 66.0000000

2 3 53.0000000

3 1 57.0000000

3 2 53.0000000

3 3 47.0000000

The SAS System

The GLM Procedure

Least Squares Means

Temp*dil Effect Sliced by Temp for mot

Sum of

Temp DF Squares Mean Square F Value Pr > F

1 2 423.333333 211.666667 11.63 0.0002

2 2 490.000000 245.000000 13.46 <.0001

3 2 253.333333 126.666667 6.96 0.0031

Com a opção CONTRAST pode-se fazer a comparação entre quaisquer pares de médias.

As médias entre temperaturas, como também entre os diluentes, podem ser comparadas como

segue:

/*qualquer contraste entre médias*/

contrast 'Temp1/Temp2' Temp 1 -1 0;

contrast 'Temp1/Temp3' Temp 1 0 -1;

contrast 'Temp2/Temp3' Temp 0 1 -1;

Page 52: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

Output The SAS System

The GLM Procedure

Dependent Variable: mot

Contrast DF Contrast SS Mean Square F Value Pr > F

Temp1-Temp2 1 163.333333 163.333333 8.97 0.0053

Temp1-Temp3 1 1333.333333 1333.333333 73.25 <.0001

Temp2-Temp3 1 563.333333 563.333333 30.95 <.0001

Outra maneira de estudar a interação é com a opção CONTRAST. Neste caso, o

encaminhamento a ser dado é estudar um fator dentro do outro. Para isso, o seguinte programa

deve ser usado:

proc glm ;

class Temp jumento dil;

model mot = jumento dil Temp(dil);

contrast 'Temp/dil1' Temp(dil) 1 -1 0,

Temp(dil) 1 0 -1;

contrast 'Temp/dil2' Temp(dil) 0 0 0 1 -1 0,

Temp(dil) 0 0 0 1 0 -1;

contrast 'Temp/dil3' Temp(dil) 0 0 0 0 0 0 1 -1 0,

Temp(dil) 0 0 0 0 0 0 1 0 -1;

run;

Nota: Pode-se observar que para proceder esta análise, repetiu-se, previamente, a análise de

variância (PROC GLM), sendo que agora se utilizou, no modelo, o efeito aninhado de

temperatura dentro de diluente (Temp/dil). Para que a opção CONTRAST possa fazer o estudo

de um fator dentro do outro (Temp/dil), este efeito deve aparecer, previamente, no MODEL.

Daí a necessidade de repetir a análise de variância. Feito isso, é só montar os contrastes

ortogonais, como mostrado anteriormente. Observe que os resultados obtidos com esta opção

são equivalentes aos obtidos com a opção SLICE.

Output The GLM Procedure

Dependent Variable: mot

Sum of

Source DF Squares Mean Square F Value Pr > F

Model 12 8385.555556 698.796296 38.39 <.0001

Error 32 582.444444 18.201389

Corrected Total 44 8968.000000

R-Square Coeff Var Root MSE mot Mean

0.935053 7.150238 4.266309 59.66667

Page 53: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

Source DF Type I SS Mean Square F Value Pr > F

jumento 4 5845.555556 1461.388889 80.29 <.0001

Temp 2 1373.333333 686.666667 37.73 <.0001

dil(Temp) 6 1166.666667 194.444444 10.68 <.0001

Source DF Type III SS Mean Square F Value Pr > F

jumento 4 5845.555556 1461.388889 80.29 <.0001

Temp 2 1373.333333 686.666667 37.73 <.0001

dil(Temp) 6 1166.666667 194.444444 10.68 <.0001

Contrast DF Contrast SS Mean Square F Value Pr > F

dil/Temp1 2 423.3333333 211.6666667 11.63 0.0002

dil/Temp2 2 490.0000000 245.0000000 13.46 <.0001

dil/Temp3 2 253.3333333 126.6666667 6.96 0.0031

O mesmo estudo pode ser feito com diluente dentro de temperatura.

15 ANÁLISE DE CORRELAÇÃO E REGRESSÃO

Introdução

Existem numerosos procedimentos estatísticos para investigar relacionamentos

bivariados (somente entre duas variáveis). Estes procedimentos podem fornecer um teste

estatístico de significância, uma medida de associação, ou ambos. O teste estatístico objetiva

testar hipóteses sobre o grau de relacionamento entre variáveis na população. Por exemplo, o

coeficiente de correlação de Pearson.

Num estudo para se testar a hipótese nula de que a correlação entre duas variáveis é zero

na população, uma amostra de 200 observações determinou um coeficiente de correlação entre

duas variáveis de 0.35. Com base nesta amostra, o resultado do teste forneceu uma

probabilidade de significância de 0.001. Este p-valor sugere que existe menos que uma chance

em 1000 de se obter um valor igual ou superior à 0.35, para correlação amostral, se a hipótese

nula fosse verdadeira. Rejeita-se, portanto, a hipótese nula, concluindo-se que a correlação é

significativamente diferente de zero na população.

A escolha apropriada da estatística a ser usada no estudo do relacionamento entre duas

variável irá depender da natureza delas. Atenção particular deve ser dada aos níveis de medidas

usados para avaliar as duas variáveis. Uma breve discussão à este respeito é feita a seguir.

Uma variável medida numa escala nominal representa classes que indicam o grupo ao

qual pertence uma determinada observação. Por exemplo, SEXO é uma variável que está numa

escala nominal. Uma observação pode ser classificada como sendo da classe "masculino" ou da

classe "feminino".

Uma variável medida numa escala ordinal representa valores num “rank” ordenado, ou

seja, possui hierarquia. Por exemplo, se cada aluno de uma turma fosse avaliado a respeito de

Page 54: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

sua habilidade verbal. O melhor aluno foi avaliado com o valor 1, o segundo melhor com o

valor 2, e assim por diante. Este “rank” de valores são ditos ordinais. Escalas ordinais de valores

porém possuem uma limitação: iguais diferenças na escala de valores não tem necessariamente

o mesmo significado quantitativo. Isto quer dizer que a diferença de habilidade verbal entre um

aluno com grau 1 e um aluno com grau 2 não é necessariamente a mesma diferença existente

entre as habilidades de um aluno com grau 2 e um com grau 3.

Uma variável medida numa escala de intervalo significa que iguais diferenças entre

valores da escala tem igual significado quantitativo. Um exemplo é a escala Fahrenheit de

medição de temperatura. A diferença entre 70 e 75 graus é igual a diferença entre 75 e 80 graus.

As unidades de medidas são iguais através de todo o range da escala. A limitação existente

nesta escala é que não existe um ponto zero real, ou seja, o zero da distribuição de temperaturas

não indica que não haja nenhum calor presente no ambiente.

Uma variável medida numa escala de razão é aquela que iguais diferenças entre valores

da escala tem igual significado quantitativo. Neste caso, além deste fato, é possível interpretar

a razão entre os valores da escala. Um valor para peso igual à zero indica nenhum peso corporal.

Com isto, é possível estabelecer que o peso de uma criança com 20 kg é o dobro de peso de

uma criança com 10 kg .

A tabela a seguir identifica as estatísticas apropriadas para avaliar o relacionamento de

pares de variáveis nos seus respectivos níveis de medida.

TABELA COM ESTATÍSTICAS APROPRIADAS

Análise de Regressão

Na análise de regressão procura-se estabelecer uma relação funcional entre uma variável

dependente y e p variáveis independentes, ou seja, determina-se, através de estimativas de

Page 55: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

parâmetros, como uma variável independente exerce, ou parece execer, efeito sobre uma outra

variável dependente.

O PROC REG é o procedimento do SAS mais comum para análise de regressão. Ele é

utilizado para se ajustar equações lineares de acordo com algum modelo pré-estabelecido.

Processa análise de regressão de dados balanceados ou não.

Nesse capítulo abordaremos, basicamente, a utilização do procedimento REG na

execução de análises de regressão pelo método dos quadrados mínimos.

O procedimento REG ajusta modelos de regressão linear usando o método dos mínimos

quadrados. O procedimento é descrito com detalhes no manual “SAS / STAT Software – Chapter

50: The REG Procedure. Cary: SAS Institute.

Sintaxe: PROC REG < Opções > ;

< Rótulo: >;

MODEL VariáveisDependentes= <Regressores>

< / Opções > ;

BY Variáveis ;

FREQ Variável ;

ID Variáveis ;

VAR Variáveis ;

WEIGHT Variável ;

ADD Variáveis ;

DELETE Variáveis ;

< Rótulo: >;

MTEST <Equaçãon, : : : ,Equaçãon>

</ Opções > ;

OUTPUT < OUT=ArquivoDeSaída > PalavrasChaves=Nomes

< : : : PalavrasChaves=Nomes > ;

PAINT <Condição j ALLOBS>

< / Opções > j < STATUS | UNDO> ;

PLOT <Variávely*Variávelx> <=Símbolo>

< : : :Variávely*Variávelx> <=Símbolo>

</ Opções > ;

PRINT < Opções > < ANOVA > < MODELDATA > ;

REFIT;

RESTRICT Equaçãon, : : : ,Equaçãon ;

REWEIGHT <Condição j ALLOBS>

< / Opções > j < STATUS | UNDO> ;

< Rótulo: >;

TEST Equaçãon,<; : : :,Equaçãon>

Page 56: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

PROC REG

Finalidade: Ajuste da equação de regressão linear.

Sintaxe:

PROC REG < opções1 >;

MODEL < Var.Dep > = < Lista Var.Indep > / < opções2 >;

RUN;

A < Lista Var. Indep. > é tal que:

__Se conter apenas 1 variável – Reg Linear simples

__Se conter 2 ou mais variáveis – Reg. linear Múltipla

Algumas das <opções2> são:

__P – apresenta os valores estimados (preditos)

__CLI – apresenta os intervalos de confiança dos valores preditos

__CLM – apresenta os intervalos de confiança das médias

__SELECTION= BACKWARD (B) FORWARD (F) STEPWISE SLSTAY= n1

SLENTRY=n2

__As opções BACKWARD (B) FORWARD (F) STEPWISE são usadas para definir o

método para seleção do modelo de regressão

__As opções SLSTAY= n1 SLENTRY=n2 são usadas para definir os Níveis de significância

para ficar ou entrar, respectivamente, uma variável no modelo

OPÇÕES DO PROCEDIMENTO

DATA=ArquivoDeDados - Nome do arquivo de dados a usar com o procedimento.

OUTEST=ArquivoDeSaída - Cria um arquivo de saída que contém os parâmetros estimados e

outras estatísticas.

OUTSSCP=ArquivoDeSaída - Cria um arquivo de saída que contém as somas de quadrados e

produtos cruzados.

COVOUT – Imprime a matriz de covariância para os parâmetros estimados. Só funciona em

conjunto com OUTEST.

CORR – Imprime a matrix de correlações das variáveis listadas nas instruções MODEL e VAR.

SIMPLE – Imprime estatísticas simples para as variáveis listadas nas instruções MODEL e

VAR.

COLLIN – Imprime a análise de colinearidade.

USCCP – Imprime a matriz de somas de quadrados e produtos cruzados não-corrigidos.

ALL – Imprime todas as estatísticas (CORR, SIMPLE e USSCP).

Page 57: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

NOPRINT – Impede a impressão de relatório automático.

ALPHA=Valor – Atribui um valor de significância para os testes do procedimento

(Padrão=0.05).

SINGULAR=Critério – Atribui um critério para verificação de singularidade.

Observação: há outras opções para o procedimento.

Análise de Regressão Simples

Os coeficientes de correlação indicam somente a existência ou não de algum tipo de

relacionamento entre variáveis. Para investigar a forma desse relacionamento, o método mais

apropriado é a análise de regressão, onde a relação pode ser expressa sob forma matemática,

por meio de uma equação que interligue as variáveis.

Através do diagrama de dispersão é possível visualizar uma curva que se aproxime dos

dados. Essa curva é denominada curva de ajustamento.

Para fins de referência, a seguir encontram-se relacionados vários tipos comuns de

curvas de ajustamento e suas equações. As variáveis independentes estão representadas pela

letra X e as variáveis dependentes pela letra Y. As demais letras representam constantes.

Para evitar o critério individual na construção de funções que se adaptem ao conjunto de

dados, é necessário instituir uma definição da "melhor função de ajustamento". Uma medida da

qualidade do ajustamento aos dados apresentados (aderência) é proporcionada a partir da

distância dos pontos observados até a equação de regressão. De todas as equações que podem

ser traçadas através do grupo de pontos no diagrama de dispersão, a função que melhor se ajusta

é aquela com a menor soma dos quadrados das distâncias (Método dos Mínimos Quadrados).

Estas distâncias são designadas como desvios, erros ou resíduos, e podem ser positivas,

negativas ou nulas, como é apresentado na figura a seguir:

Como os dados a seguir não foram originados de um delineamento experimental

envolvendo repetições, os resultados apresentados pelo programa abaixo estarão corretos.

Page 58: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

Ex.:

OPTIONS LS=75 PS=64;

Title "análise de regressao de pl em funcao do ap"; data reg;

input n pl ap;

cards;

57 258.70 1988

108 245.08 1989

158 246.39 1990

128 222.68 1991

64 223.30 1992

107 209.45 1993

12 206.83 1994

44 170.40 1995

20 155.00 1996

;

data a;set reg; ap2=ap*ap;

PROC REG;

Model PL = ap;

Run;

Output análise de regressao de pl em funcao do ap 44

14:31 Tuesday, July 31, 2001

Model: MODEL1

Dependent Variable: PL

Analysis of Variance

Sum of Mean

Source DF Squares Square F Value Prob>F

Model 1 8910.64693 8910.64693 88.742 0.0001

Error 7 702.87549 100.41078

C Total 8 9613.52242

Root MSE 10.02052 R-square 0.92691

Dep Mean 215.31444 Adj R-sq 0.91642

C.V. 4.65390

Parameter Estimates

Parameter Standard T for H0:

Variable DF Estimate Error Parameter=0

INTERCEP 1 24491 2576.9396778 9.504

AP 1 -12.186500 1.29364333 -9.420

O modelo especificado neste procedimento está caracterizando uma regressão linear de 1o grau. Caso houvesse interesse em ajustar uma regressão linear de 2o grau, bastaria criar o termo quadrático, como foi feito com a variável AP, sendo AP2=AP*AP; e inseri-lo no modelo, MODEL PL= AP AP2;

Page 59: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

Variable DF Prob > |T|

INTERCEP 1 0.0001

AP 1 0.0001

1 – R-Square – Coeficiente de determinação (R2), dado pela divisão da soma de quadrados do

modelo pela soma de quadrados do resíduo. Esta estatística indica o quanto da soma de

quadrados total está sendo explicada pela regressão linear ajustada, ou ainda, o quanto da

variação observada na variável dependente está sendo explicada pela variável independente.

2 – Adj R-sq – Coeficiente de determinação ajustado segundo a fórmula:

pn

RnRAj

22 11

1 ,

em que n, p e R2 são, respectivamente, o número de observações, o número de parâmetros

estimatidos e o coeficiente de determinação.

A equação ajustada é: Xy 1865,1224491ˆ

O programa seguinte solicitará a emissão de outras estatísticas relacionadas à análise de

regressão para o modelo já estudado:

PROC REG;

Model PL = ap/ r cli clm;

Run;

Output

Output Statistics

Dep Var1 Predicted2 Std Error3

Obs pl Value Mean Predict 95% CL Mean4

1 258.7000 264.0604 6.1590 249.4968 278.6241

2 245.0800 251.8739 5.1204 239.7662 263.9817

3 246.3900 239.6874 4.2250 229.6969 249.6780

4 222.6800 227.5009 3.5819 219.0310 235.9709

5 223.3000 215.3144 3.3402 207.4162 223.2127

6 209.4500 203.1279 3.5819 194.6580 211.5979

7 206.8300 190.9414 4.2250 180.9509 200.9320

8 170.4000 178.7549 5.1204 166.6472 190.8627

9 155.0000 166.5684 6.1590 152.0048 181.1321

Output Statistics

Std Error Student

Obs 95% CL Predict5 Residual6 Residual7 Residual8 -2-1 0 1 29

1 236.2478 291.8731 -5.3604 7.904 -0.678 | *| |

2 225.2649 278.4830 -6.7939 8.614 -0.789 | *| |

3 213.9726 265.4023 6.7026 9.086 0.738 | |* |

4 202.3378 252.6640 -4.8209 9.358 -0.515 | *| |

5 190.3380 240.2909 7.9856 9.447 0.845 | |* |

6 177.9648 228.2910 6.3221 9.358 0.676 | |* |

Page 60: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

7 165.2266 216.6563 15.8886 9.086 1.749 | |*** |

8 152.1459 205.3640 -8.3549 8.614 -0.970 | *| |

9 138.7558 194.3811 -11.5684 7.904 -1.464 | **| |

Output Statistics

Cook's10

Obs D

1 0.140

2 0.110

3 0.059

4 0.019

5 0.045

6 0.033

7 0.331

8 0.166

9 0.650

Sum of Residuals11 -1.2056E-11

Sum of Squared Residuals12 702.87549

Predicted Residual SS (PRESS)13 1235.94815

1- Valores observados da variável dependente;

2- Valores estimados para a variável dependente através da equação de regressão ajustada;

3- Desvio padrão do valor estimado;

4- Nível inferior e superior do intervalo de confiança a 95% de probabilidade para a região

que contem os dados observados. Impreso pela opção CLI;

5- Nível inferior e supeior do intervalo de confiança a 95% de probabilidade para a região que

contem os dados estimados. Impresso pela opção CLM;

6- Diferença entre os valores observados e estimados. Impresso pela opção R;

7- Erro padrão das estimativas;

8- Residúo estudentizado, é a razão entre o resíduo original e o desvio padrão obtido para cada

observação. Valores maiores, em valor absoluto, podem indicar observações discrepantes.

Através desta análise, pode-se obter benefícios para a regressão eliminando os dados

discrepantes;

9- Gráfico de resíduos estudentizados. Para facilitar a obervação da magnitude do resíduo

estudentizado, o gráfico mostra se os valores se encontram dentro da faixa ótima –2 a +2;

10- Distância de COOK, representa a influência de cada observação na estimativa dos

parâmetros. O valor é obtido através da diferença entre todos os valores da equação

estimada com todos os valores e sem o valor corrente;

11- Soma de resíduos, deve ter um valor próximo de zero;

Page 61: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

12- Soma de quadrados dos resíduos, esse valor deve ser próximo à soma de quadrados

apresentada no quadro de análise de variância da regressão;

13- Soma de quadrado dos resíduos pretidos.

Muitas outras estatísticas podem ser calculadas por meio do procedimento REG. Uma das

possibilidades é a criação de gráficos.

O seguinte programa permite a análise dos resíduos da regressão até então estudados:

PROC REG;

Model PL = ap;

Plot r.*PL;

Run;

Análise de correlação

A correlação mede a magnitude da relação linear ou o grau de relacionamento entre duas

variáveis, ou seja, procura-se medir a covariabilidade entre elas. Na análise de regressão é

necessário distingir a variável dependente e a variável independente, enquanto na análise de

correlação tal distinção não é necessária.

Através do procedimeto CORR do SAS permite calcular a correlação de Pearson, que é

a mais utilizada, e a de Spearman, que permite a análise de variáveis a partir do posto ou rank

da variáveis.

Page 62: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

Correlação de Pearson

O estudo de medidas de associação reflete o grau da intensidade da relação entre

variáveis. Se X e Y representam duas variáveis, ambas acessadas na escala de intervalo ou de

razão, o diagrama de dispersão irá mostrar a localização dos pontos (x , y) em um sistema de

coordenadas retangulares. Se os pontos desse diagrama se distribuírem nas proximidades de

uma reta, como nas figuras (A) e (B) a seguir, a correlação é denominada linear. Se todos os

pontos se distribuírem próximos de alguma curva, a correlação é denominada não linear, como

pode ser visto na figura (C). Quando os pontos não apresentam nenhuma forma definida, figura

(D), diz-se que as variáveis x e y são não correlacionadas.

Quando o coeficiente de Pearson é utilizado para medir o grau de relacionamento entre

duas variáveis com relacionamento não linear, ele normalmente subestima o verdadeiro valor.

Por esta razão é sempre prudente avaliar primeiro o diagrama de dispersão para as variáveis,

usando para isso a PROC PLOT, que tem a seguinte forma geral:

PROC PLOT DATA= ARQSAS;

PLOT Y*X;

RUN;

Para o tratamento quantitativo do problema da dispersão dos dados amostrais é necessário

estabelecer medidas de correlação. O coeficiente de correlação de Pearson, simbolizado por

“r”, será utilizado para medir o relacionamento entre duas variáveis que estejam na escala de

intervalo ou de razão. Outra consideração a ser feita ao usar esta medida de associação, é que

ambas as amostras tenham sido retiradas de uma população Normal. Caso contrário, uma

medida de associação não paramétrica deverá ser usada, tal como o coeficiente de correlação

de Spearman.

O range de “r” varia de -1 a 1. Se “r” for um valor próximo de 1 significa que as duas

variáveis são correlacionadas positivamente, se for próximo de -1, significa que as variáveis

são correlacionadas negativamente. Valores de “r” próximos de zero correspondem a uma

dispersão de pontos que não mostra nem uma tendência crescente, nem decrescente, indicando

uma baixa correlação entre as variáveis.

Page 63: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

PROC CORR

O “procedure” CORR é utilizadao para gerar coeficientes de correlação. Quando é

utilizado sozinho, ele obtém coeficientes de Pearson para todas as variáveis numéricas do

arquivo, além de estatísticas básicas como médias e desvios padrões da distribuição de dados.

Outros coeficientes de correlacão podem ser obtidos como opção da PROC CORR. São

eles: Kendall, Hoeffding e Spearman, que são medidas não paramétricas de associação.

FORMA GERAL:

PROC CORR opções;

VAR variáveis;

WITH variáveis;

FREQ variáveis;

BY variáveis;

RUN;

OPÇÕES DISPONÍVEIS:

DATA= arquivo.sas arquivo com os dados a serem analisados.

OUTP= arquivo.sas arquivo de saída - Pearson

OUTS= arquivo.sas arquivo de saída - Sperman

OUTK= arquivo.sas arquivo de saída - Kendall

OUTH = arquivo.sas arquivo de saída - Hoeffding

NOSIMPLE suprime a impressão das estatísticas descritivas básicas.

COMANDOS DISPONÍVEIS:

VAR variáveis especifica as variáveis a serem correlacionadas

WITH variáveis especifica as variáveis que devem aparecer na lateral da matriz de correlação.

FREQ variável especifica variáveis de frequência

BY variáveis especifica subgrupos onde a correlação deve ser obtida. Para usar o comando BY,

o arquivo já deve estar ordenado pela variável de subgrupo.

MAIS DETALHES

ALPHA – Calcula e imprime o coeficiente alfa de Cronbach

BEST=n – Imprime n coeficientes de correlação para cada variável.

COV – Calcula e imprime as covariâncias.

CSSCP – Imprime as somas de quadrados corrigidos e os produtos cruzados.

Page 64: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

DATA=ArquivoDeDados – Especifica o arquivo de dados para processamento.

EXCLNPWGT – Exclui observações com pesos nulos e negativos da análise.

HOEFFDING – Calcula e imprime a estatística D de Hoeffding.

KENDALL – Calcula e imprime os coeficientes tau-b de Kendall com base no número de pares

de observações concordantes e discordantes. Não funciona com a instrução PARTIAL.

NOCORR – Suspende o cálculo dos coeficientes de correlação de Pearson.

NOMISS – Exclui as observações com valores perdidos.

NOPRINT – Suspende a impressão de relatório do procedimento.

NOPROB – Suspende a impressão de probabilidades associadas a cada coeficiente de

correlação.

NOSIMPLE – Suspende a impressão de estatísticas descritivas simples para cada variável.

OUTH=ArquivoDeSaída – Cria um arquivo de saída contendo a estatística D deHoeffding.

OUTK=ArquivoDeSaída – Cria um arquivo de saída contendo as estatísticas para a correlação

de Kendall.

OUTP=ArquivoDeSaída – Cria um arquivo de saída contendo as estatísticas da correlação de

Pearson, médias, desvios-padrão e número de observações.

OUTS=ArquivoDeSaída – Cria um arquivo de saída contendo as estatísticas da correlação de

Spearman.

PEARSON – Calcula e imprime as correlações de produto-momento de Pearson product-

moment quando é utilizada a opção HOEFFDING, KENDALL, ou SPEARMAN. Se a opção

for omitida, o procedimento calcula automaticamente os coeficientes de correlação de Pearson.

RANK – Imprime os coeficientes de correlação para cada variável na ordem do mais alto para

o mais baixo. O procedimento imprime a estatística D se for utilizada a opção HOEFFDING.

SINGULAR=p – Especifica o critério para determinação de singularidade quando é utilizada

a instrução PARCIAL. Uma variável é considerada singular se a diagonal principal após a

decomposição de Cholesky tiver valor menor que p vezes a original soma de quadrados não

parcializada da variável. O padrão é 1E-8 e a amplitude de 0 até 1.

SPEARMAN – Calcula e imprime os coeficientes de correlação de Spearman com base nos

graus das variáveis. Não é válido com a instrução WEIGHT.

SSCP – Imprime as somas de quadrados dos produtos cruzados. Invoca a correlação de

PEARSON. Usada com a instrução PARTIAL , é impressa a matriz não partial com a opção

SSCP.

Page 65: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

Ex.: O tempo necessário para um trem parar depois que percebe um perigo é composto de tempo

de reação e tempo de freagem. A variável DIST representa a distância de parada de um trem

que está a uma velocidade VELOC no instante que o perigo é avistado. Analise o diagrama de

dispersão e determine o coeficiente de correlação entre as duas variáveis.

DATA PERIGO A; /* EXEMPLO SAS */

INPUT VELOC DIST @@;

CARDS;

20 54

30 90

40 138

50 206

60 292

70 396

;

PROC PLOT;

PLOT DIST*VELOC;

PROC CORR;

VAR VELOC DIST;

TITLE 'CORRELAÇAO ENTRE VELOCIDADE E DISTANCIA DE PARADA';

RUN;

Page 66: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

Plot of DIST*VELOC. Legend: A = 1 obs, B = 2 obs, etc.

DIST ‚

400 ˆ A

350 ˆ

300 ˆ

‚ A

250 ˆ

‚ A

200 ˆ

150 ˆ

‚ A

100 ˆ

‚ A

50 ˆ A

Šƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒ

20 30 40 50 60 70

VELOC

O diagrama de dispersão ostra claramente uma tendência crescente da

distribuição dos dados, ou seja, aumentando-se a velocidade do trem, aumentase a

distância de parada.

Page 67: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

The CORR Procedure

2 Variables: VELOC DIST

Simple Statistics

Variable N Mean Std Dev Sum Minimum Maximum

VELOC 6 45.00000 18.70829 270.00000 20.00000 70.00000

DIST 6 196.00000 129.67652 1176 54.00000 396.00000

Pearson Correlation Coefficients, N = 6

Prob > |r| under H0: Rho=0

VELOC DIST

VELOC 1.00000 0.98268

0.0004

DIST 0.98268 1.00000

0.0004

O valor de 0.98268 mede o coeficiente de correlação entre as variáveis VELOC

e DIST. Um p-valor de 0.0004 indica uma forte evidência que a correlação é não nula.

O p-valor é a probabilidade de significância para se testar a hipótese de que a

verdadeira correlação da população em questão é zero.

data exemplo;

options nodate nonumber ls=75 ps=90;

input x1 x2 x3 x4;

cards;

42.2 11.2 31.9 167.1

48.6 10.6 13.2 174.4

42.6 10.6 28.7 160.8

39 10.4 26.1 162

34.7 9.3 30.1 140.8

44.5 10.8 8.5 174.6

39.1 10.7 24.3 163.7

40.1 10 18.6 174.5

45.9 12 20.4 185.7

;

/*Pedindo a matriz de correlacoes*/

proc corr;

run;

/*programa pedindo apenas correlacao de x3 com x1 e x2*/

proc corr;

var x3;

with x1 x2;

run;

Através dos comandos VAR e WITH, formamos grupos de variáveis cuja

correlação será calculada. Caso não utilize essas opções, o PROC CORR calculará

as correlações entre todas as variáveis numéricas existentes no arquivo.

Page 68: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

Output

The SAS System

The CORR Procedure

4 Variables: x1 x2 x3 x4

Simple Statistics

Variable N Mean Std Dev Sum

x1 9 41.85556 4.17646 376.70000

x2 9 10.62222 0.74629 95.60000

x3 9 22.42222 7.92792 201.80000

x4 9 167.06667 12.64516 1504

Simple Statistics

Variable Minimum Maximum

x1 34.70000 48.60000

x2 9.30000 12.00000

x3 8.50000 31.90000

x4 140.80000 185.70000

Pearson Correlation Coefficients, N = 9

Prob > |r| under H0: Rho=0

x1 x2 x3 x4

x1 1.00000 0.68374 -0.61597 0.80175

0.0423 0.0774 0.0094

x2 0.68374 1.00000 -0.17249 0.76795

0.0423 0.6572 0.0157

x3 -0.61597 -0.17249 1.00000 -0.62875

0.0774 0.6572 0.0697

x4 0.80175 0.76795 -0.62875 1.00000

0.0094 0.0157 0.0697

The SAS System

The CORR Procedure

2 With Variables: x1 x2

1 Variables: x3

Simple Statistics

Variable N Mean Std Dev Sum

x1 9 41.85556 4.17646 376.70000

x2 9 10.62222 0.74629 95.60000

x3 9 22.42222 7.92792 201.80000

Simple Statistics

Variable Minimum Maximum

x1 34.70000 48.60000

x2 9.30000 12.00000

x3 8.50000 31.90000

Page 69: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

Pearson Correlation Coefficients, N = 9

Prob > |r| under H0: Rho=0

x3

x1 -0.61597

0.0774

x2 -0.17249

0.6572

Correlação de Spearman

Para que a correlação de Spearman seja calculada, basta utilizar a opção SPEARMAN

após declarar PROC CORR, desta forma, o coeficiente de correlação de Pearson (default), não

será calculado.

/*Pedindo a matriz de correlacoes*/

proc corr spearman;

run;

/*programa pedindo apenas correlacao de x3 com x1 e x2*/

proc corr spearman;

var x3;

with x1 x2;

run;

Output

The SAS System

The CORR Procedure

4 Variables: x1 x2 x3 x4

Simple Statistics

Variable N Mean Std Dev Median

x1 9 41.85556 4.17646 42.20000

x2 9 10.62222 0.74629 10.60000

x3 9 22.42222 7.92792 24.30000

x4 9 167.06667 12.64516 167.10000

Simple Statistics

Variable Minimum Maximum

x1 34.70000 48.60000

x2 9.30000 12.00000

x3 8.50000 31.90000

x4 140.80000 185.70000

Page 70: Apostila Sas IFMA

Treinamento e aperfeiçoamento emAnálises de Dados

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

E-mail: [email protected]

Copyright © SAS Institute Inc. Todos os Direitos Reservados

Spearman Correlation Coefficients, N = 9

Prob > |r| under H0: Rho=0

x1 x2 x3 x4

x1 1.00000 0.61088 -0.56667 0.68333

0.0805 0.1116 0.0424

x2 0.61088 1.00000 -0.12552 0.60252

0.0805 0.7476 0.0860

x3 -0.56667 -0.12552 1.00000 -0.71667

0.1116 0.7476 0.0298

x4 0.68333 0.60252 -0.71667 1.00000

0.0424 0.0860 0.0298

The SAS System

The CORR Procedure

2 With Variables: x1 x2

1 Variables: x3

Simple Statistics

Variable N Mean Std Dev Median

x1 9 41.85556 4.17646 42.20000

x2 9 10.62222 0.74629 10.60000

x3 9 22.42222 7.92792 24.30000

Simple Statistics

Variable Minimum Maximum

x1 34.70000 48.60000

x2 9.30000 12.00000

x3 8.50000 31.90000

Spearman Correlation Coefficients, N = 9

Prob > |r| under H0: Rho=0

x3

x1 -0.56667

0.1116

x2 -0.12552

0.7476