introdução ao sas - eco.unicamp.br · introdução ao sas ce 731 –econometria ii prof....
TRANSCRIPT
Introdução ao SASCE 731 – Econometria II
Prof. Alexandre Gori Maia
Instituto de Economia - UNICAMP
1
Ementa
Leitura de Arquivos
Manipulação de Arquivos
Análises Descritivas
Regressão Linear
Bibliografia
CENAPAD. 2012. SAS Programação I – Introdução ao SAS: DATA Step e PROC Step. Disponível em http://www.cenapad.unicamp.br/servicos/treinamentos/sas.shtml
SAS. 2012. SAS Product Documentation. Disponível em http://support.sas.com/documentation/index.html
Estrutura de Análise - SAS• O primeiro passo é obter um arquivo em formato de trabalho
do SAS (SAS Dataset). Este arquivo pode ser convertido a partir de um arquivo externo (.TXT, .XLS, .DBF, .SAV, ...) ou originado de outro Dataset (.SAS7BDAT);
• A partir de um Dataset de entrada, executamos rotinas com procedimentos (PROC Step) para obtermos os resultados estatísticos desejados;
2
Arquivo Externo
SAS DataSet
DATA Step
PROC Step
Output DataSet
OutputTela
Manipulação de dados
Procedimentos Estatísticos
Leitura de Arquivos – Datalines
• O comando DATA cria e/ou manipula um arquivo de dados no SAS. O comando INPUT especifica o nome das variáveis a serem lidas;
• Com a opção DATALINES, podemos criar um arquivo de dados no SAS digitando os valores de suas variáveis na própria janela de comandos;
3
Nesse exemplo, o arquivo poluição conterá 4 variáveis (Sigla, CO2, GDP e Setor2) e 6 observações. A variável Sigla é alfanumérica (comando $) e as demais são todas numéricas.
Leitura de Arquivos – Colunado
• Quando os valores das variáveis estão dispostos em colunas fixas, podemos especificar a coluna inicial e final de cada variável no comando INPUT;
4
Por exemplo, o conteúdo da variável GDP começará a ser lido na 10ª coluna e terminará na 16ª coluna.
Leitura de Arquivos – Textos• Pode ser mais conveniente ler os dados diretamente de um
arquivo texto, especialmente quando temos muitas observações. Para isso, incorporamos o comando INFILE, que permite especificar o nome do arquivo texto onde estão os dados;
5
O arquivo Dados_CO2.txt contém todos os valores das variáveis em formato texto.
No comando INFILE, precisamos especificar o endereço físico onde consta o arquivo de entrada. O comando RUN finaliza o comando DATA. É necessário na ausência do comando DATALINES;
Leitura de Arquivos – Textos Colunados• Caso os valores das variáveis estejam em colunas fixas em um
arquivo texto, devemos especificar a coluna inicial e final de cada variável no comando INPUT;
6
O arquivo Dados_CO2_Colunado.txt contém os valores das variáveis dispostos em colunas fixas.
Por exemplo, os valores da variável Setor2 começarão a ser lidos na 34ª coluna de cada linha e terminarão na 38ª coluna;
Leitura de Arquivos – Excel• Arquivos Excel (XLS) e em
outros formatos podem ser lidos de duas formas. Primeiramente, através do módulo interativo;
7
Selecionando as opções File/Import Data..., entramos em uma caixa de diálogo que permitirá importar o arquivo Dados_CO2.xls
Leitura de Arquivos – Excel• Arquivos Excel (XLS) e em outros formatos podem
também ser lido através do procedimento (PROC) de importação de dados (IMPORT);
8
Observem que a primeira linha dos dados do arquivo Dados_CO2.xls contém o nome das variáveis.
A opção DBMS identifica o tipo de arquivo a ser importado. A opção REPLACE sobrescreve o arquivo poluição caso ele já exista. O comando SHEET especifica a planilha contendo os valores das variáveis e GETNAME informa se os nomes das variáveis estão presentes na linha (primeira) de valores.
Manipulando Arquivos - Dataset• Um arquivos com o formato de leitura do SAS é
denominados DATASET;
• Para gerar um dataset a partir de outro dataset, utilizamos a opção SET do comando DATA;
9
O dataset poluição2 será criado a partir de uma cópia do dataset poluição. Além das variáveis já presentes no dataset poluição, serão criadas três outras variáveis: CO2dollar, poluido e grupo. Os símbolos /* e */ delimitam, respectivamente, o ínicio e fim de qualquer comentário inserido nas linhas de comando.
Manipulando Arquivos - Libname• Arquivos dataset podem ser salvos fisicamente em qualquer
local de destino. Estes serão reconhecido pela extensão .SAS7BDAT;
• Para especificarmos o local de destino (nome da bilbioteca) onde será salvo um dataset, utilizamos o comando LIBNAME;
• Quando não especificamos o local de destino de um dataset, o SAS os salva autmoaticamente em um local provisório (libname WORK), que é limpo toda vez que se encerra o SAS;
10
O dataset poluição2 será salvo na pasta C:\TEMP com o nome POLUICAO2.SAS7BDAT. Toda vez que nos referirmos ao libname CE442 na programação, o SAS procurará arquivos com a extensão SAS7BDAT na pasta C:\TEMP .
Estatísticas Descritivas - FREQ• O procedimento FREQ gera frequências simples ou
combinadas para variáveis qualitativas (nominais ou ordinais);
11
Gera distribuição simples de frequências para a variável poluido.
Gera distribuição combinada de frequências (tabela cruzada para as variáveis grupo e poluido. A primeira variável (grupo) aparecerá nas linhas e a segunda (poluido) nas colunas.
Estatísticas Descritivas – ODS GRAPHICS• Gráficos associados a procedimentos estatísticos podem ser
facilmente criados utilizando o comando ODS GRAPHICS;
• Antes de iniciarmos o procedimento estatístico, devemos habilitar a elaborações dos gráficos com o comando ODS GRAPHICS ON. Após o término do procedimento , devemos encerrar a elaboração com ODS GRAPHICS OFF;
• Adicionalmente, devemos também especificar o destino dos gráficos (arquivo RTF, HTML, entre outros);
12
Será criado o arquivo FREQ_POLUICAO.RTF contendo gráficos descritivos da distribuição frequëncias para a variável poluído. É preciso finalizar tanto a geração de gráficos (ODS GRAPHICS OFF) como a geração do arquivo rtf (ODS RTF CLOSE).
Estatísticas Descritivas – Univariate
• O procedimento UNIVARIATE gerá estatísticas descritivas univariadas para variáveis quantitativas;
• O comando ODS GRAPHICS pode ser também aplicado para gerar gráficos descritivos;
13
Serão geradas estatísticas descritivas (média, variância, quantis, entre outras) para as variáveis CO2, GDP e Setor2. O comando HISTOGRAMelaborará histogramas para as variáveis CO2 e GDP. Adicionalmente, será criado o arquivo UNIVARIATE_POLUICAO.RTF contendo os resultados e gráficos das análises.
Regressão Linear – REG• O procedimento REG estima modelos de regressão linear por
mínimos quadrados
• Devemos especificar a variável dependente e as variáveis independentes no comando MODEL;
• Caso deseje gerar gráficos para o ajuste, você pode utilizar a opção ODS GRAPHICS;
14
O modelo a ser ajustado será definido por CO2 = + GDP + e. Adicionalmente, será criado o arquivo REG_POLUICAO.RTF, contendo gráficos para análise da qualidade do ajuste.
Exercícios1) Leia as 5 primeiras linhas do arquivo Dados_mortalidade.txt nas
linhas de comando do SAS utilizando o comando DATALINES;
2) Leia o arquivo texto Dados _Mortalidade.txt no SAS;
3) Leia o arquivo excel Dados_Mortalidade.xls no SAS;
4) Crie uma cópia do arquivo lido em (3), salvando-o fisicamente como um dataset em seu disco, com duas novas variáveis: i) região (1=Norte; 2=Nordeste; 3=Sudeste; 4=Sul; 5=Centro-Oeste); ii) muitodesigual (1 quando theil>0,7; 0 c.c.);
5) Elabore e analise estatísticas descritivas para as variáveis mortalidade, educacao, pobres e theil . Elabore e analise uma tabela cruzada para as variáveis regiao e muitodesigual;
6) Elabore histogramas para as variáveis mortalidade e educacao;
7) Analise as relações univariadas entre as variáveis mortalidade (dependente) e as variáveis educacao, pobres e theil; 15