introdução ao sas - eco.unicamp.br · introdução ao sas ce 731 –econometria ii prof....

15
Introdução ao SAS CE 731 – Econometria II Prof. Alexandre Gori Maia Instituto de Economia - UNICAMP 1 Ementa Leitura de Arquivos Manipulação de Arquivos Análises Descritivas Regressão Linear Bibliografia CENAPAD. 2012. SAS Programação I – Introdução ao SAS: DATA Step e PROC Step. Disponível em http://www.cenapad.unicamp.br/servicos/treinamentos/sas.shtml SAS. 2012. SAS Product Documentation. Disponível em http://support.sas.com/documentation/index.html

Upload: buitruc

Post on 15-Oct-2018

246 views

Category:

Documents


0 download

TRANSCRIPT

Introdução ao SASCE 731 – Econometria II

Prof. Alexandre Gori Maia

Instituto de Economia - UNICAMP

1

Ementa

Leitura de Arquivos

Manipulação de Arquivos

Análises Descritivas

Regressão Linear

Bibliografia

CENAPAD. 2012. SAS Programação I – Introdução ao SAS: DATA Step e PROC Step. Disponível em http://www.cenapad.unicamp.br/servicos/treinamentos/sas.shtml

SAS. 2012. SAS Product Documentation. Disponível em http://support.sas.com/documentation/index.html

Estrutura de Análise - SAS• O primeiro passo é obter um arquivo em formato de trabalho

do SAS (SAS Dataset). Este arquivo pode ser convertido a partir de um arquivo externo (.TXT, .XLS, .DBF, .SAV, ...) ou originado de outro Dataset (.SAS7BDAT);

• A partir de um Dataset de entrada, executamos rotinas com procedimentos (PROC Step) para obtermos os resultados estatísticos desejados;

2

Arquivo Externo

SAS DataSet

DATA Step

PROC Step

Output DataSet

OutputTela

Manipulação de dados

Procedimentos Estatísticos

Leitura de Arquivos – Datalines

• O comando DATA cria e/ou manipula um arquivo de dados no SAS. O comando INPUT especifica o nome das variáveis a serem lidas;

• Com a opção DATALINES, podemos criar um arquivo de dados no SAS digitando os valores de suas variáveis na própria janela de comandos;

3

Nesse exemplo, o arquivo poluição conterá 4 variáveis (Sigla, CO2, GDP e Setor2) e 6 observações. A variável Sigla é alfanumérica (comando $) e as demais são todas numéricas.

Leitura de Arquivos – Colunado

• Quando os valores das variáveis estão dispostos em colunas fixas, podemos especificar a coluna inicial e final de cada variável no comando INPUT;

4

Por exemplo, o conteúdo da variável GDP começará a ser lido na 10ª coluna e terminará na 16ª coluna.

Leitura de Arquivos – Textos• Pode ser mais conveniente ler os dados diretamente de um

arquivo texto, especialmente quando temos muitas observações. Para isso, incorporamos o comando INFILE, que permite especificar o nome do arquivo texto onde estão os dados;

5

O arquivo Dados_CO2.txt contém todos os valores das variáveis em formato texto.

No comando INFILE, precisamos especificar o endereço físico onde consta o arquivo de entrada. O comando RUN finaliza o comando DATA. É necessário na ausência do comando DATALINES;

Leitura de Arquivos – Textos Colunados• Caso os valores das variáveis estejam em colunas fixas em um

arquivo texto, devemos especificar a coluna inicial e final de cada variável no comando INPUT;

6

O arquivo Dados_CO2_Colunado.txt contém os valores das variáveis dispostos em colunas fixas.

Por exemplo, os valores da variável Setor2 começarão a ser lidos na 34ª coluna de cada linha e terminarão na 38ª coluna;

Leitura de Arquivos – Excel• Arquivos Excel (XLS) e em

outros formatos podem ser lidos de duas formas. Primeiramente, através do módulo interativo;

7

Selecionando as opções File/Import Data..., entramos em uma caixa de diálogo que permitirá importar o arquivo Dados_CO2.xls

Leitura de Arquivos – Excel• Arquivos Excel (XLS) e em outros formatos podem

também ser lido através do procedimento (PROC) de importação de dados (IMPORT);

8

Observem que a primeira linha dos dados do arquivo Dados_CO2.xls contém o nome das variáveis.

A opção DBMS identifica o tipo de arquivo a ser importado. A opção REPLACE sobrescreve o arquivo poluição caso ele já exista. O comando SHEET especifica a planilha contendo os valores das variáveis e GETNAME informa se os nomes das variáveis estão presentes na linha (primeira) de valores.

Manipulando Arquivos - Dataset• Um arquivos com o formato de leitura do SAS é

denominados DATASET;

• Para gerar um dataset a partir de outro dataset, utilizamos a opção SET do comando DATA;

9

O dataset poluição2 será criado a partir de uma cópia do dataset poluição. Além das variáveis já presentes no dataset poluição, serão criadas três outras variáveis: CO2dollar, poluido e grupo. Os símbolos /* e */ delimitam, respectivamente, o ínicio e fim de qualquer comentário inserido nas linhas de comando.

Manipulando Arquivos - Libname• Arquivos dataset podem ser salvos fisicamente em qualquer

local de destino. Estes serão reconhecido pela extensão .SAS7BDAT;

• Para especificarmos o local de destino (nome da bilbioteca) onde será salvo um dataset, utilizamos o comando LIBNAME;

• Quando não especificamos o local de destino de um dataset, o SAS os salva autmoaticamente em um local provisório (libname WORK), que é limpo toda vez que se encerra o SAS;

10

O dataset poluição2 será salvo na pasta C:\TEMP com o nome POLUICAO2.SAS7BDAT. Toda vez que nos referirmos ao libname CE442 na programação, o SAS procurará arquivos com a extensão SAS7BDAT na pasta C:\TEMP .

Estatísticas Descritivas - FREQ• O procedimento FREQ gera frequências simples ou

combinadas para variáveis qualitativas (nominais ou ordinais);

11

Gera distribuição simples de frequências para a variável poluido.

Gera distribuição combinada de frequências (tabela cruzada para as variáveis grupo e poluido. A primeira variável (grupo) aparecerá nas linhas e a segunda (poluido) nas colunas.

Estatísticas Descritivas – ODS GRAPHICS• Gráficos associados a procedimentos estatísticos podem ser

facilmente criados utilizando o comando ODS GRAPHICS;

• Antes de iniciarmos o procedimento estatístico, devemos habilitar a elaborações dos gráficos com o comando ODS GRAPHICS ON. Após o término do procedimento , devemos encerrar a elaboração com ODS GRAPHICS OFF;

• Adicionalmente, devemos também especificar o destino dos gráficos (arquivo RTF, HTML, entre outros);

12

Será criado o arquivo FREQ_POLUICAO.RTF contendo gráficos descritivos da distribuição frequëncias para a variável poluído. É preciso finalizar tanto a geração de gráficos (ODS GRAPHICS OFF) como a geração do arquivo rtf (ODS RTF CLOSE).

Estatísticas Descritivas – Univariate

• O procedimento UNIVARIATE gerá estatísticas descritivas univariadas para variáveis quantitativas;

• O comando ODS GRAPHICS pode ser também aplicado para gerar gráficos descritivos;

13

Serão geradas estatísticas descritivas (média, variância, quantis, entre outras) para as variáveis CO2, GDP e Setor2. O comando HISTOGRAMelaborará histogramas para as variáveis CO2 e GDP. Adicionalmente, será criado o arquivo UNIVARIATE_POLUICAO.RTF contendo os resultados e gráficos das análises.

Regressão Linear – REG• O procedimento REG estima modelos de regressão linear por

mínimos quadrados

• Devemos especificar a variável dependente e as variáveis independentes no comando MODEL;

• Caso deseje gerar gráficos para o ajuste, você pode utilizar a opção ODS GRAPHICS;

14

O modelo a ser ajustado será definido por CO2 = + GDP + e. Adicionalmente, será criado o arquivo REG_POLUICAO.RTF, contendo gráficos para análise da qualidade do ajuste.

Exercícios1) Leia as 5 primeiras linhas do arquivo Dados_mortalidade.txt nas

linhas de comando do SAS utilizando o comando DATALINES;

2) Leia o arquivo texto Dados _Mortalidade.txt no SAS;

3) Leia o arquivo excel Dados_Mortalidade.xls no SAS;

4) Crie uma cópia do arquivo lido em (3), salvando-o fisicamente como um dataset em seu disco, com duas novas variáveis: i) região (1=Norte; 2=Nordeste; 3=Sudeste; 4=Sul; 5=Centro-Oeste); ii) muitodesigual (1 quando theil>0,7; 0 c.c.);

5) Elabore e analise estatísticas descritivas para as variáveis mortalidade, educacao, pobres e theil . Elabore e analise uma tabela cruzada para as variáveis regiao e muitodesigual;

6) Elabore histogramas para as variáveis mortalidade e educacao;

7) Analise as relações univariadas entre as variáveis mortalidade (dependente) e as variáveis educacao, pobres e theil; 15