modulo - i - stata

86
Prof. Sidinei Silvério da Silva Prof. Sidinei Silvério da Silva [email protected] @prof_sidinei

Upload: wesley-pereira-rogerio

Post on 09-Aug-2015

276 views

Category:

Documents


71 download

TRANSCRIPT

Page 1: Modulo - I - Stata

Prof. Sidinei Silvério da SilvaProf. Sidinei Silvério da Silva

[email protected]

@prof_sidinei

Page 2: Modulo - I - Stata

Graduado em Economia pela Universidade Estadual de Maringá (UEM),Especialista em Consultoria Econômico-Financeira de Empresas (UEM).Mestrando em Economia Regional pela Universidade Estadual deLondrina (UEL), professor e pesquisador na Faculdade Cidade Verde(FCV).

ProfessorProfessor

Aquele que quer aprender gosta que lhe digam quando

está errado; só o tolo não gosta de ser corrigido.

(Provérbios, 12. 1)

Page 3: Modulo - I - Stata

Sobre o StataSobre o Stata

Métodos estatísticos para análise de dados são utilizados porpesquisadores de diversas áreas: economia , sociologia, ciênciaspolíticas, marketing, epidemiologia, nutrição, saúde pública. Para oprocesso de análise dos dados, os pesquisadores necessitam depacotes que sejam de fácil manejo (amigáveis) e tenham umaampla gama de técnicas estatísticas.ampla gama de técnicas estatísticas.

É o caso do software Stata, que oferece uma variedade detécnicas estatísticas das mais elementares às mais sofisticadas,tem uma sintaxe simples e é usado por meio de linha de comandosde fácil execução. Foi desenvolvido no Texas (EUA), em 1984, ejá é distribuído para 132 países. Periodicamente, o grupo quedesenvolve este programa (StataCorp) disponibiliza atualizaçõesvia internet e tem lançado novas versões a cada três anos, emmédia. O StataCorp também mantém a publicação de um periódico(Stata Journal) e uma lista de discussão virtual.

Page 4: Modulo - I - Stata

Sobre o StataSobre o Stata

Stata [Estata ou Esteita] - Stata Corporation• Intercooled Stata• Versão resumida - Short Stata• Versão simplificada StataQuest

Existem versões do programa para 3 sistemas: Windows, Unix eExistem versões do programa para 3 sistemas: Windows, Unix eMacintosh. Atualmente está na versão 11.

Este curso: Intercooled Stata versão 9.1 para sistema Windows.

Informações sobre o Stata, bem como atualizações, realização decursos via Internet e lista das dúvidas mais freqüentes podem serobtidas no site: http://www.stata.com

O Stata possui lista de discussão sobre dúvidas. Endereço:[email protected]

Page 5: Modulo - I - Stata

Proposta do CursoProposta do Curso

O intuito é oferecer uma introdução ao campo da estatística eeconometria aplicada utilizando o programa Stata.

Didaticamente, o curso é dividido em cinco módulos:

Módulo I – Noções básicas sobre Econometria e o StataMódulo I – Noções básicas sobre Econometria e o Stata

Módulo II – Manipulação de microdados

Módulo III – Análises descritivas de dados

Módulo IV – Testes de hipóteses: testes de comparação demédias/proporções e testes de independência

Módulo V – Análises de regressão

Page 6: Modulo - I - Stata

Módulo I

Noções básicasSobre Econometria

e o StataStata

Page 7: Modulo - I - Stata

O que é Econometria?O que é Econometria?

A econometria consiste na aplicação de procedimentosmatemáticos e estatísticos a problemas de economia.

Gujarati (2000) cita que “o método da pesquisa econométricavisa essencialmente, a uma conjunção da teoria econômicacom medidas concretas, usando como ponte à teoria e ascom medidas concretas, usando como ponte à teoria e astécnicas de inferência estatística”.

Teoria Econômica (micro e macro) + Economia Matemática +Estatística Econômica = Econometria (que literalmente significa“medida econômica”)

Page 8: Modulo - I - Stata

Quais são os objetivos da Econometria?Quais são os objetivos da Econometria?

Segundo Christ (1966), a produção de afirmações econômicasquantitativas que permitam EXPLICAR o comportamento devariáveis que já observamos ou PREVER comportamentosainda não observados, ou ambos.

O corpo da teoria econômica pode ser considerado como umaO corpo da teoria econômica pode ser considerado como umacoleção de relações entre variáveis, ou seja, a teoriaeconômica preocupa-se, sobretudo com relações entrevariáveis:

- Oferta x Demanda- Função de Custo- Função de Produção- Taxa de Juros x Investimentos- Consumo X Renda Disponível

Page 9: Modulo - I - Stata

Quais são os objetivos da Econometria?Quais são os objetivos da Econometria?

A econometria é um tipo especial de análise econômica naqual a abordagem teórica é combinada com formulaçõesmatemáticas, procedimentos estatísticos complexos emensuração empírica dos fenômenos econômicos por meio deanálise de uma base de dados .

Em econometria a preocupação está em testar as proposiçõesteóricas nestas relações e estimar parâmetros envolvidos.

A análise de regressão é a técnica básica para medir ouestimar relações entre variáveis econômicas que constituem aessência da teoria econômica. O objetivo fundamental daanálise de regressão é estimar a relação entre as variáveis,que os economistas usam para fins de análise estrutural,análise de política econômica e previsões.

Page 10: Modulo - I - Stata

Quais são os objetivos da Econometria?Quais são os objetivos da Econometria?

Nesse contexto, a análise de regressão ocupa-se do estudo dadependência de uma variável em relação a uma ou maisvariáveis (explicativas) com o objetivo de obter informações dofenômeno analisado. Para isso, existe uma metodologiatradicional no trato da Econometria.

Page 11: Modulo - I - Stata

Metodologias EconométricasMetodologias Econométricas

Na metodologia da pesquisa econométrica, o critério deavaliação do modelo pode ser especificado da seguinte forma:

(1) Análise Estrutural:- Verificar a Teoria Econômica- Entender o Fenômeno em Estudo- Entender o Fenômeno em Estudo- Avaliar os Parâmetros do Modelo (efeito marginal e

elasticidade, por exemplo)

(2) Análise de Política:- Avaliar Alternativas de Tributação, elaborar simulações.

(3) Previsões:- Prever Valores Futuros da Oferta e Demanda de soja, por

exemplo.

Page 12: Modulo - I - Stata

Metodologias EconométricasMetodologias Econométricas

O “sucesso”da análise econométrica depende, evidentemente,do grau em que o modelo estimado satisfaz os objetivos deexplicar e/ou prever o comportamento das variáveis sobanálise.

A palavra modelo pode ser interpretada como umaA palavra modelo pode ser interpretada como umarepresentação simplificada da realidade, estruturada de formatal que permita compreender de forma total ou parcial umdeterminado fenômeno.

A racionalização dos modelos permite a investigação dasconsequências lógicas das hipóteses. Desta forma é possível oconhecimento melhor da realidade e o desenvolvimento deações que tenham maior eficácia.

Page 13: Modulo - I - Stata

Modelo EconométricoModelo Econométrico

Os modelos econométricos são aqueles que necessariamentecontém as especificações (forma matemática, definição dasvariáveis e número de equações) para aplicação empírica,além de incorporar um termo residual com a finalidade de levarem contar variáveis ou outros elementos, que, por algumarazão, não puderam ser considerados explicitamente.razão, não puderam ser considerados explicitamente.

Exemplo - Função Consumo:

Y = β1 + β2 X + u

Onde:β1 + β2 = parâmetros do modeloY = variável dependenteX = variável independenteu = termo de perturbação ou erro

Page 14: Modulo - I - Stata

Modelo EconométricoModelo Econométrico

O modelo econométrico é determinado para examinar relaçõesentre variáveis econômicas.

Toda relação matemática pode ser classificada comodeterminística ou como estocástica, que apresenta-se daseguinte forma:seguinte forma:

(a) DETERMINÍSTICA: se cada elemento do domínio (X) seassocia com apenas um elemento da imagem (Y). Ou seja, emuma função Y = f (X) se para cada valor de X houver um valorde Y. Este é o caso de Modelo Estritamente Matemático .

Page 15: Modulo - I - Stata

Modelo EconométricoModelo Econométrico

(b) ESTOCÁSTICA: para cada valor do domínio (X) existeuma distribuição de probabilidade total dos valores daimagem (Y). Assim, para cada valor de X a variável Y podeassumir um intervalo específico.

(c) A IMPORTÂNCIA DO TERMO ERRO: a reta ajustada de(c) A IMPORTÂNCIA DO TERMO ERRO: a reta ajustada deregressão é gerada por um conjunto de dados que leva emconsideração um termo chamado de erro aleatório (ouperturbação aleatória).

Page 16: Modulo - I - Stata

Modelo EconométricoModelo Econométrico

Para cada observação (Y, X) há um termo de erro associado.Estes termos “erros” são iguais a distância vertical entre ospontos observados e os pontos correspondentes sobre a retade regressão. Representam que há várias possibilidades(probabilidades) de ocorrência de Y para determinado X(resíduos aleatórios). A utilização de testes estatísticos faz com(resíduos aleatórios). A utilização de testes estatísticos faz comque as relações em econometria, sejam estocásticas. Isto é,em econometria trataremos exclusivamente com relaçõesestocásticas.

A natureza estocástica do modelo de regressão implica quepara cada valor de X haja uma distribuição de probabilidadestotal dos valores de Y. Isto significa que o valor de Y não podeser previsto exatamente. A incerteza relativa de Y surge porcausa da presença de erro aleatório , que provoca causalidadeem Y.

Page 17: Modulo - I - Stata

Base de DadosBase de Dados

Três tipos de dados podem estar disponíveis para a análiseempírica: dados de série temporal, de corte e combinados(série temporais e corte).

(1) Dados de Série Temporal

Uma série temporal é um conjunto de observações dos valoresque uma variável assume em diferentes momentos. Emoutras palavras, uma série temporal é um conjunto dedados sequenciais observados em intervalos de tempo. Porexemplo:

- Retornos diários do IBOVESPA- Taxa de desemprego mensal

Page 18: Modulo - I - Stata

Base de DadosBase de Dados

(2) Dados de Corte ( Cross-Section)

São dados de uma ou mais variáveis coletadas no mesmoponto do tempo. Por exemplo:

- Altura de indivíduos selecionados aleatoriamente (amostraaleatória) em um determinado instante de tempoaleatória) em um determinado instante de tempo

- PIB dos países emergentes no primeiro trimestre de 2001Assim como os dados das séries temporais dão origens a

problemas específicos (por causa da estacionariedade), osdados de corte também tem seus problemas, deheterogeneidade.

Alguns pontos são demasiadamente grandes enquanto outrosapresentam demasiadamente pequenos. Quando incluímosunidades heterogêneas em uma análise estatística, otamanho ou o efeito escala deve ser levado emconsideração para evitar problemas de estimação.

Page 19: Modulo - I - Stata

Base de DadosBase de Dados

(3) Dados de Painel

Nos dados combinados há elementos tanto de sériestemporais como de dados de corte. Um tipo de dadoscombinados, os dados de painel, representam uma mesmaunidade cross-sectional (uma família ou uma firma) éunidade cross-sectional (uma família ou uma firma) épesquisada durante um período de tempo. Por exemplo,uma pesquisa periodicamente sobre a trajetória de umapessoa com renda média em um determinado Estado. Emcada pesquisa é considerada a mesma pessoa. Exemplos:

- PIB trimestral dos países emergentes nos últimos 10 anos- Inflação mensal dos países da América Latina- Vendas semanais de refrigerante em cada região do Brasil- Demanda de energia elétrica mensal em cada Estado do

Brasil

Page 20: Modulo - I - Stata

Calculando Função Consumo KeynesianaCalculando Função Consumo Keynesiana

Y = β1 + β2 X + u

Onde:β1 + β2 = parâmetros do modeloY = variável dependente = consumoX = variável independente = PIBX = variável independente = PIBu = termo de perturbação ou erro

Considere os dados a direitapara os EUA (Gujarati, 2000):

Page 21: Modulo - I - Stata

Calculando Função Consumo KeynesianaCalculando Função Consumo Keynesiana

Y = β1 + β2 X + u

Realizando a técnica estatística de análise de regressão comdados do Slide anterior no Stata, temos:

Page 22: Modulo - I - Stata

Calculando Função Consumo KeynesianaCalculando Função Consumo Keynesiana

Y = β1 + β2 X + u

Após a regressão obteve-se as seguintes estimativas para β1 eβ2 : β1 = - 56,42 β2 = 0,6836

Logo, a função consumo estimada é:Logo, a função consumo estimada é:

Y^ = - 56,42 + 0,6836 X

O acento circunflexo em Y indica que se trata de umaestimativa. Nesta equação verificamos que, no período 1980-1991, o coeficiente de declividade (isto é, a PMgC) foi deaproximadamente 0,68, sugerindo que um aumento de umdólar na renda real provocará, em média, um aumento de 68centavos na despesa real de consumo.

Page 23: Modulo - I - Stata

Calculando Função Consumo KeynesianaCalculando Função Consumo Keynesiana

TESTE DE HIPÓTESE

De acordo com economistas “positivos”, como MiltonFriedman, uma teoria ou hipótese que não seja verificável pormeio da evidência empírica não pode ser admitida como parteda investigação científica.da investigação científica.

Keynes supunha que a PMgC era positiva mas menor do que1. Em nosso exemplo, obtivemos uma PMgC deaproximadamente 0,68. Como 0,68 é estatísticamente menordo que 1, pode-se sustentar a teoria de Keynes.

A confirmação ou rejeição de teorias econômicas com base naevidência da amostra se baseia em um ramo da teoriaestatística conhecido como inferência estatística (teste dehipótese).

Page 24: Modulo - I - Stata

Calculando Função Consumo KeynesianaCalculando Função Consumo Keynesiana

PREVISÃO OU PREDIÇÃO

Se o modelo escolhido confirmar a hipótese ou a teoria emconsideração, podemos usá-lo para prever os valores futurosda variável dependente Y, ou previsão , com base nos valoresfuturos conhecidos ou esperados da variável explicativa, oufuturos conhecidos ou esperados da variável explicativa, ouprevisor .

A título de ilustração, suponha uma expectativa de um PIB realde US$ 6.000 (bilhões) em 1994. Qual a previsão de consumoem 1994? Se acreditarmos que a função consumo irá semanter em 1994, podemos responder a esta questãosimplesmente assim:

Page 25: Modulo - I - Stata

Calculando Função Consumo KeynesianaCalculando Função Consumo Keynesiana

Y^ = - 56,42 + 0,6836 X

= - 56,42 + 0,6836 (6.000)

= 4.045,18

ou cerca de US$ 4.045 bilhões

USO DO MODELO PARA FINS DE CONTROLE OUELABORAÇÃO DE POLÍTICA ECONÔMICA

Suponha que tenhamos a função consumo keynesianaestimada anteriormente. Suponha ainda que o Governoacredite que um nível de gastos de 4.000 (bilhões de dólaresde 1987) manterá a taxa de desemprego no patamar atual decerca de 6,5%.

Page 26: Modulo - I - Stata

Calculando Função Consumo KeynesianaCalculando Função Consumo Keynesiana

Que nível de renda garantirá o montante almejado deconsumo?

Se a função consumo dada for aceitável, um cálculo aritméticosimples mostrará que:

Y^ = - 56,42 + 0,6836 X

4.000 = - 56,42 + 0,6836 X

X = 5.993,88

ou seja, um nível de renda de US$ 5.993 (bilhões), dada umaPMgC de aproximadamente 0,68, produzirá um gasto de US$4.000 (bilhões).

Page 27: Modulo - I - Stata

Calculando Função Consumo KeynesianaCalculando Função Consumo Keynesiana

Como sugerem estes cálculos, um modelo estimado pode serusado para fins de controle ou política econômica.Combinando políticas fiscal e monetária apropriadas, ogoverno pode manipular a variável de controle X paraproduzir o nível desejado da variável-alvo Y .

Page 28: Modulo - I - Stata

Recomendações GeraisRecomendações Gerais

Estrutura de um modelo econométrico:

1 – Especificação (parte relevante/complexa/papel dopesquisador)

2 – Estimação2 – Estimação

3 – Verificação (junto com especificação são as partes maisimportantes do modelo)

4 – Aplicações (série temporal [previsão], testes decausalidade [microeconomia])

Page 29: Modulo - I - Stata

Recomendações GeraisRecomendações Gerais

Variável Y Variável X

Endógena Exógenas (determinadas fora do modelo)

Dependente Independente

Explicada Explicativa

Variável de Interesse (alvo) Variável de Controle

Page 30: Modulo - I - Stata

Recomendações GeraisRecomendações Gerais

Sentido da causalidade = sinal

Base de dados = Pnad (por exemplo)

Banco de dados = o que eu fiz/modelei

Testes de hipóteses:

H0: β1 = 0 HA: β1 0 Possibilidades:- teste bilateral

H0: Y1-Y0 = 0 HA = Y1-Y0 0- teste unilateral a direita

HA = Y1-Y0 > 0- teste unilateral a esquerda

HA= Y1-Y0 < 0

Page 31: Modulo - I - Stata

Recomendações GeraisRecomendações Gerais

Teste T (para pequenas amostras)

Teste F SQR

Teste Z (distribuição normal padronizada)

Pr = nível de significância estatística do teste

Se o valor de qui-quadrado for próximo de zero não há associação linerar.

Quanto maior o valor de qui-quadrado maior a correlação entre as variações.

Quanto maior o GL (grau de liberdade) maior a significância do teste.

Page 32: Modulo - I - Stata

Recomendações GeraisRecomendações Gerais

O relevante e primário é determinar o problema. Depois verificar qual é o método mais adequado.

Em microdados o R2 é o último parâmetro a ser usado.

As estatísticas amostrais convergem para as estatísticas As estatísticas amostrais convergem para as estatísticas populacionais.

Toda estimativa é viesada, porque toda estimativa por definição é viesada para mais ou menos. O estimador não pode ser viesado.

Logaritmo = transformação monotônica crescente, o log diminui a variabilidade, mantendo as características.

Page 33: Modulo - I - Stata

Recomendações GeraisRecomendações Gerais

A heterocedasticidade não causa viés no estimador, apenas diminui a sua força.

Assimetria numa normal = 0

Grau de curtose numa normal = 3Grau de curtose numa normal = 3

Log normal = típica de mercado financeiro

Page 34: Modulo - I - Stata

ReferênciasReferências

GUJARATI, D. N. Econometria Básica. São Paulo: MAKRON Books, 2000.

GREENE, W. H. Econometric Analysis. Prentice Hall, 5. edition.

HOFFMAN, R. e VIEIRA, S. Análise de Regressão: uma HOFFMAN, R. e VIEIRA, S. Análise de Regressão: uma introdução à econometria. São Paulo: Hucitec, 1983.

KMENTA, J. Elementos de econometria. São Paulo: Atlas, 1988.

SALVATORE, D. Estatística e econometria. São Paulo: McGraw-Hill, 1983.

WOOLDRIGDE, J. Introductory Econometrics: A Modern Approach. South-Western College Pub, 2. edition.

Page 35: Modulo - I - Stata

Introdução ao STATAIntrodução ao STATA

O STATA diferencia letras maiúsculas das minúsculas. Usesempre letras minúsculas quando digitar comandos, erecomendamos que você também use letras minúsculas paraos nomes de suas variáveis. O STATA aceita abreviações paracomandos e nomes de variáveis, desde que estas abreviaçõesnão sejam ambíguas.não sejam ambíguas.

Iniciando o STATA

O programa STATA, é iniciado clicando duas vezes no íconelocalizado no desktop do Windows.

Page 36: Modulo - I - Stata

Apresentação das JanelasApresentação das Janelas

Quatro janelas são apresentadas quando o STATA é iniciado.

São elas:

Review: janela onde são armazenados os comandos

Variables: janela que apresenta a lista das variáveis do bancode dados ativo

Stata Results: janela que mostra os resultados

Stata Command: janela onde os comandos do STATA devemser digitados

Page 37: Modulo - I - Stata

Apresentação das JanelasApresentação das Janelas

Page 38: Modulo - I - Stata

Apresentação das JanelasApresentação das Janelas

O menu está disponível na primeira linha e possui os recursos:

File Edit Prefs Data Graphics Statistics Window Help

Na segunda linha encontra-se a Barra de Ferramentas com os ícones: ícones:

(1) Open (use): Carrega ou abre um banco de dados no formato do STATA (dta).(2) Save: Salva um arquivo no formato do STATA (dta).(3) Print Results: Imprime a janela de resultados.(4) Begin Log: Carrega, abre ou cria um arquivo do tipo ".log" ou ".smcl".(5) Start Viewer: Exibe a tela de ajuda (Help) em primeiro plano.

Page 39: Modulo - I - Stata

Apresentação das JanelasApresentação das Janelas

(6) Bring Results Window to Front: Exibe a tela dos resultados em primeiro plano.

(7) Bring Graph Window to Front: Exibe a tela com o gráfico em primeiro plano.

(8) Do-file Editor: Edita um arquivo de comandos (arquivo tipo ".do").

(9) Data Editor: Edita o arquivo de dados que está sendo utilizado.(10) Data Browser: Visualiza o arquivo de dados que está sendo utilizado.

(11) Clear : prossegue a execução do comando.(12) Break: Interrompe a execução de uma tarefa ou comando.

Page 40: Modulo - I - Stata

Sintaxe dos ComandosSintaxe dos Comandos

De um modo geral, a sintaxe dos comandos do Stata tem a seguinte forma:

[by varlist]: comando [varlist] [=exp] [if exp] [in range] [, options]

Os “colchetes”, representam opções e varlist , nome dasOs “colchetes”, representam opções e varlist , nome dasvariáveis; exp , expressão algébrica ou lógica ; range , intervalo deobservações ; e options , lista de opções. Exemplos:

sum idade peso altura if sexo==”F” in 1/50 , detail

O comando acima, irá produzir medidas de tendência central paraas variáveis: idade, peso e altura, para o sexo feminino e registrosde 1 a 50. A opção “detail” exibe detalhes para as medidas detendência central.

Page 41: Modulo - I - Stata

Sintaxe dos ComandosSintaxe dos Comandos

tab sexoproduzirá tabela de freqüência simples para a variável sexo.

tab risco sexo escolaproduzirá tabela de freqüência simples para as variáveis produzirá tabela de freqüência simples para as variáveis relacionadas.

tab risco sexo, row col cel chiproduzirá tabela cruzada para as variáveis risco e sexo, exibindo percentagens na linha, coluna e total e calculará o chi-quadrado.

Nota: O nome dos comandos são escritos em letras minúsculas.

Page 42: Modulo - I - Stata

Tipos de ArquivosTipos de Arquivos

O programa STATA, utiliza os arquivos:

.dta arquivos de dados (bancos de dados)

.ado arquivos programa "do-files“

.dct arquivos ASCII , arquivo dicionário

.do do-file arquivos de comandos.do do-file arquivos de comandos

.gph arquivos gráficos

.log ou .smcl arquivos textos com os resultados

.out arquivos para impressão

.raw arquivos ASCII arquivos de dados

.sum arquivos controle de rede

Page 43: Modulo - I - Stata

Tipos de VariáveisTipos de Variáveis

(1) Variáveis NuméricasAs variáveis numéricas assumem os formatos abaixo por definição

byte %8.0g (g = geral)int %8.0glong %12.0glong %12.0gfloat %9.0gdouble %10.og

Os formatos podem ser alterados com o comando formatExemplo: variáveis peso e altura nos formatos float ou byte

gen imc = peso/(altura^2) (imc formato 9.0g 5 casas decimais )format imc %9.3f (imc formato 9.3f 3 casas decimais fixas)

Page 44: Modulo - I - Stata

Tipos de VariáveisTipos de Variáveis

(2) Variáveis Texto

Armazena textos, tamanho máximo 80 caracteres, simbologia str1, str2, str3, ... , str80.

Exemplos : Exemplos :

sexo str1 ( “1” ou “2” ; “f” ou “m” ; “F” ou “M” )

sexo str9 ( “feminino” ou “masculino”)

Page 45: Modulo - I - Stata

Tipos de VariáveisTipos de Variáveis

(3) Variáveis Data

Armazena as datas como números a partir de 01Jan1960.

Exemplos: variável dtn formato long %d

gen xdtn = dtn(xdtn formato 9.0g numérico)

format xdtn %d(xdtn formato %d dd/mmm/aa)

Page 46: Modulo - I - Stata

Expressões LógicasExpressões Lógicas

Expressões lógicas atribuem 1 (verdadeiro) ou 0 (falso) eutiliza os operadores:

Page 47: Modulo - I - Stata

Expressões AlgébricasExpressões Algébricas

Expressões algébricas utilizam os operadores:

Page 48: Modulo - I - Stata

Criando pastas para o CursoCriando pastas para o Curso

Vocês devem criar uma pasta do drive C com o seguintenome: c:\cursostata

Nessa pasta devem ser criadas as seguintes as pastas:

arqlog

dados

rotinas

slidespdf

Page 49: Modulo - I - Stata

Iniciando o StataIniciando o Stata

Execute os seguintes comandos:

set more off [esse comando é utilizadopara que todo os resultados sejam apresentado na janela deresultados]

set matsize 200 [para definir o númeromáximo de variáveis que podem ser incluídas em qualquercomando de estimação]

set mem 500 [para aumentar a capacidadede memória para a realização dos procedimentos que serãorealizados]

log using "C:\cursostata\arqlog\mod1.smcl“[cria um arquivo log]

Page 50: Modulo - I - Stata

Criando um Banco de Dados no StataCriando um Banco de Dados no Stata

Abra o modo de edição clicando sobre o ícone Data editor e digiteos dados dos registros. Use Tab para entrada horizontal e Enterpara entrada vertical. Quando terminar, pressione Preserveseguido de Close no menu do Stata editor.

Page 51: Modulo - I - Stata

Criando um Banco de Dados no StataCriando um Banco de Dados no Stata

Para exercitar vamos criar um banco de dados com nomedados1 que contenha as variáveis: id (nome), idade (idade emanos), estciv (estado civil), gen (gênero), para 5 colegas destaturma.

Page 52: Modulo - I - Stata

Criando um Banco de Dados no StataCriando um Banco de Dados no Stata

Para alterar as propriedades das variáveis, clique com o botãodireito do mouse em cima da variável, clique em Variable ,Properties e realize as mudanças desejadas.

Page 53: Modulo - I - Stata

Criando um Banco de Dados no StataCriando um Banco de Dados no Stata

Page 54: Modulo - I - Stata

Criando um Banco de Dados no StataCriando um Banco de Dados no Stata

Faça isso para as demais variáveis, clique em Preserve e depoisutilize a caixa de diálogo para salvar o banco de dados criado.Clique em File , Save As , selecione c:\cursostata\dados , digite onome do arquivo (dados1 ) e clique em Salvar.

Page 55: Modulo - I - Stata

VariáveisVariáveis

Utilize o comando describe para investigar as variáveis quecompõem o banco de dados.

Page 56: Modulo - I - Stata

VariáveisVariáveis

Utilize o comando codebook para descrever as variáveis.

Page 57: Modulo - I - Stata

VariáveisVariáveis

O nome de uma variável pode ser alterado. Por exemplo, podemosalterar o nome da variável gen para sexo usado o comando:

rename gen sexo

ou simplesmenteou simplesmente

ren gen sexo

Page 58: Modulo - I - Stata

VariáveisVariáveis

O rótulo de uma variável também pode ser alterado. Por exemplo,podemos alterar o rótulo da variável id de “nome” para“identificação”. Para isso escreve o seguinte comando:

label variable id “identificação”

Page 59: Modulo - I - Stata

Leitura e Salvamento de Banco de DadosLeitura e Salvamento de Banco de Dados

O salvamento do banco pode ser realizado selecionando-se Saveou Save As na opção File .

Outra opção via linha de comando - para fechar o banco de dadose salvar as modificações utilize:

save, replace

Page 60: Modulo - I - Stata

Encerrando as AtividadesEncerrando as Atividades

Para fechar um arquivo log deve-se utilizar o comando

log close

Para fechar o Stata use o comando:

exit

Page 61: Modulo - I - Stata

Reiniciando as AtividadesReiniciando as Atividades

Como dito, sempre é aconselhável abrir um arquivo log paraarmazenar todos os comandos e resultados da execução destes.

Se desejar armazenar num arquivo já existente, você deveráescolher uma das duas últimas opções na janela Stata Logescolher uma das duas últimas opções na janela Stata LogOptions .

A segunda opção nesta janela fará com o conteúdo seja anexadono arquivo anterior, e a última fará com que o novo conteúdo sejasalvo sobre o conteúdo do arquivo anterior.

Page 62: Modulo - I - Stata

Reiniciando as AtividadesReiniciando as Atividades

Page 63: Modulo - I - Stata

Reiniciando as AtividadesReiniciando as Atividades

Page 64: Modulo - I - Stata

Reiniciando as AtividadesReiniciando as Atividades

Com linha de comando:

1.set more off

2.2.set mem 500

3.set matsize 200

4.log using “c:\cursostata\arqlog\mod1.smcl", append

5.use “c:\cursostata\dados\dados1.dta", clear

Page 65: Modulo - I - Stata

Reiniciando as AtividadesReiniciando as Atividades

O comando executado aparecerá na janela Review e pode serreutilizado e corrigido, se necessário, posicionando-se o cursor sobreele e pressionando-se Enter (para retornar na linha de comandopara correção) e mais um Enter para ser executado;

ou utilizando-se as teclas PgUp e PgDown .

Page 66: Modulo - I - Stata

Listando VariáveisListando Variáveis

Os comandos têm uma forma geral do tipo command varlist.

Por exemplo, para listar as variáveis [ id, idade, estciv, sexo ] dobanco de dados dados1.dta execute o comando:

list id idade estciv sexo

Page 67: Modulo - I - Stata

Listando VariáveisListando Variáveis

Page 68: Modulo - I - Stata

Listando VariáveisListando Variáveis

Outros componentes podem ser adicionados. Por exemplo, ifidade>=44 fará com que sejam listados somente os registros emque os valores de idade são maiores ou iguais a 44.As opções são incluídas após o comando. As opções são incluídasAs opções são incluídas após o comando. As opções são incluídasapós o comando.

list id if idade>=44

Page 69: Modulo - I - Stata

Listando VariáveisListando Variáveis

Page 70: Modulo - I - Stata

Criando VariáveisCriando Variáveis

Por exemplo, podemos criar a variável [ idoso ] com a idade igual oumaior que 50 anos.

gen idoso=idade>=50

Page 71: Modulo - I - Stata

Comando SumComando Sum

O comando sum é utilizado para obter um sumário dos dados davariável.

Exemplos:

1.1.

sum idade

2.

sum idade, det

Page 72: Modulo - I - Stata

Comando SumComando Sum

Page 73: Modulo - I - Stata

Comando TabComando Tab

O comando tab é utilizado para obter a distribuição de freqüênciados dados da variável.

Exemplo:

tab idade

Page 74: Modulo - I - Stata

Comando RenameComando Rename

Renomeando a variável id para nome :

Exemplo:

rename id nome

Page 75: Modulo - I - Stata

Tabulação CruzadaTabulação Cruzada

Qual o percentual de indivíduos que são homens e casados?

Utilize:

tab2 sexo estciv, cell

tab2 sexo estciv, row

tab2 sexo estciv, col

Page 76: Modulo - I - Stata

Estatísticas CondicionaisEstatísticas Condicionais

tabstat idade, by(estciv) columns(variables)

Page 77: Modulo - I - Stata

Histograma e Distribuição NormalHistograma e Distribuição Normal

histogram idade

histogram idade, normal

Page 78: Modulo - I - Stata

Gerando GráficosGerando Gráficos

graph7 idade

Page 79: Modulo - I - Stata

Gerando GráficosGerando Gráficos

graph bar idade idoso

Page 80: Modulo - I - Stata

Gerando GráficosGerando Gráficos

Para melhorar a apresentação visual do histograma, utilize o opçãoxlabel e ylabel. O número de retângulos do histograma pode sermodificado pela opção bin(x). Para sobrepor ao seu histograma umacurva normal com média e desvio padrão, adicione a opção normal.

gr7 idade, hist xlabel ylabel bin(10) normal freq

Page 81: Modulo - I - Stata

Cálculo com MatrizesCálculo com Matrizes

Comandos:

matrix input mymat=(1,2\3,4)

matrix list mymat

Page 82: Modulo - I - Stata

Cálculo com MatrizesCálculo com Matrizes

Agora vamos calcular a inversa desta matriz:

matrix B=inv(mymat)

matrix list B

Page 83: Modulo - I - Stata

Cálculo com MatrizesCálculo com Matrizes

O comando matrix list simplesmente lista a matriz B na janela deresultados.

matrix C=mymat*B

matrix list C

Como não poderia ser de outra forma, a matriz C é a matrizidentidade.

Page 84: Modulo - I - Stata

Cálculo com MatrizesCálculo com Matrizes

Agora vamos resolver um sistema de equações lineares no Stata:3x + 7y – 2z = 3x - 2y + z = 12x + 3y – 4z = -4

Resolvendo por Laplace:Resolvendo por Laplace:

matrix A = (3,7,-2\1,-2,1\2,3,-4)matrix A1 = (3,7,-2\1,-2,1\-4,3,-4)matrix A2 = (3,3,-2\1,1,1\2,-4,-4)matrix A3 = (3,7,3\1,-2,1\2,3,-4)scalar X = det(A1)/det(A)scalar Y = det(A2)/det(A)scalar Z = det(A3)/det(A)disp X, Y, Z

Page 85: Modulo - I - Stata

Encerrando o MóduloEncerrando o Módulo

save, replace

exit

Na elaboração deste material, utilizei também algumas notas de aulasdos seguintes professores:

- Prof. Sérgio Ricardo de GadelhaEscola de Administração Fazendária do Ministério da Fazenda

- Prof. Marcelo Justus dos SantosUniversidade Estadual de Ponta Grossa - UEPG

Page 86: Modulo - I - Stata

Humor