Download - Introdução ao STATA vs. 9 (PDF)
Universidade Federal do Rio de JaneiroFaculdade de MedicinaDepartamento de Medicina PreventivaInstituto de Estudos de Saúde Coletiva
IntroduIntrodu çãção ao o ao STATA STATA
Tania Guillén de Torres([email protected])
Rejane Sobrino Pinheiro(rejane @iesc.ufrj.br)
IntroduIntrodu çãção ao STATA o ao STATA
� técnicas descritivas simples
� ou ajuste de modelos complexos
O STATA é um Software que permite analisar grandes bases de dados, usando métodos estatísticos.
IntroduIntrodu çãção ao STATA o ao STATA Vantagens:Vantagens:
1. Requer pouco espaço no disco rígido
2. Requer pouca memória RAM - se necessário é possível aumenta-la, através do comando “set mem 300m” por exemplo.
3. Métodos gráficos poderosos na parte de diagnóstico de modelos
4. Boa interface com processadores de texto e impressoras
5. É atualizado con freqüência - e publica o Stata Technical Bulletin .
6. Na página http://www.stata.com encontram-se disponíveis diversas rotinas que podem ser copiadas para o diretório c:\ado e executadas dentro do Stata.
DesvantagensDesvantagens
� Não importa arquivos de bancos de dados (Dbase, Epi Info, Acces, etc.) diretamente requer de um programa de interface (Stat-Transfer)
IntroduIntrodu çãção ao STATA o ao STATA Operadores usados pelo STATA :Operadores usados pelo STATA :
Operadores Aritméticos
+ → Adição
- → Subtração
* → Multiplicação
/ → Divisão
^ → exponenciação
Operadores Lógicos
& → e
| → ou
~ → não
Operadores Relacionais= → igual ( Obs. Após o comando “if” devemos usar == )
~= → diferente
> → maior
>= → maior igual
< → menor
<= → menor igual
Obs.As expressões lógicas assumem o valor 1 para “verdadeiro” e 0 para “falso”.
Iniciando o STATAClicar 2 vezes no ícone do STATA do Windows
Caso não exista o ícone clique a seguinte seqüência
iniciar →→→→ Programas →→→→ Stata →→→→
� Command : Dos comandos a serem executados
� Results : Saídas dos comandos executados
� Variables : Lista de variáveis do banco em uso
� Review : Comandos já executados
� Stata Graph : Gráficos
Janelas do STATAJanelas do STATA
Os comandos também podem ser digitados a partir da janela dos comandos.
Barra de FerramentasO menu do STATA permite a execução de diversas tarefas de forma análoga a maioria dos programas para o sistema Windows.
e se necessário podem ser repetidos clicando duas vezes no comando desejado a partir da janela [Review]
Permite realizar tarefas do tipo:
� Abrir e salvar bases de dados no formato STATA (*.dta)
� Abrir e salvar gráficos criados pelo STATA
� Executar programas de comandos criados pelo usuário (*.do)
� Abrir e salvar arquivo que guarde as saídas da janela de resultados,
� Importar e salvar arquivos em formato ASCII
FileFile
EditEdit
É possível: Copiar e colar
� bases de dados
� Saídas da janela de Resultados em formato texto ou tabela
PreferencesPreferences
Permite personalizar
• As cores das janelas do Stata
• Dos Gráficos
• Voltar as configurações Padrão.
DataData
Descrever o banco de dados
Editar a base de dados
Sortear o banco
Combinar bases de Dados do tipo: “Append” ou “Merge”
Criar rótulos para a base de dados, variáveis ou categorias de variáveis
Mudar o nome das variáveis,
eliminar observações / variáveis
Procurar observações duplicadas
Operações com matrizes
Calculadora
GraphicsGraphics
Elaborar gráficos tipo:
� Histograma
� Boxplot
� Barra
� Setores
� Dispersão,
� Diagnósticos para os modelos de regressão
� Series Temporais
� Controle de qualidade
� Etc.
� Estatística descritiva (Médias, proporções, intervalos de confiança, testes de hipóteses, etc.
� Modelos de Regressão :
� Linear
� Logística
� Sobrevida
� Lineares Generalizados
� Séries Temporais (Arima, Arch/Garch)
� Dados Longitudinais
� Amostragem Complexa
� Analise Multivariada (Componente principais, Analise Fatorial, etc.)
� Bootstrap/Jackknife
StatisticsStatistics
Permite lembrar a sintaxe dos comandos,
� Pesquisar tópicos no site do STATA.
� Obter versões atualizadas do STATA.exee dos programas com extensão *.ado
� Importar e instalar rotinas desenvolvidas por outros pesquisadores,
Janela do HELP:Janela do HELP:
Barra de Ferramentas ....contBarra de Ferramentas ....cont
• Abrir arquivos do tipo *.dta
• Salvar arquivo *.dta em uso
• Janela do Log
• Editar base de dados
• Browse – nao permite modificar a base de dados
• Editor de arquivos de comandos (*.do)
• Janela do “Help”
• Interrompe execução de comandos
Janela [[[[Log…]…]…]…]: As saídas da janela de “Resultados ” podem ser salvas em formato:
*.log ou *.smcl
O formato *.log pode ser editado no bloco de notas, Word, etc.
Barra de FerramentasBarra de Ferramentas
� mostrar conteúdo do arquivo que guarda as saídas
� fechar o arquivo *.log
� suspender temporariamente a gravação das saídas no
arq.log
� Resume → redireciona as saídas novamente ao
arq.log
1. É possível criar a base diretamente no editor
2. Importar ou exportar arquivos do tipo ASCII e planilhas
3. E copiare colar no editor do STATA dados de outras planilhas
Bases de Dados no STATABases de Dados no STATA
Obs. Não esquecer de apertar o botão “Preserve” para manter as alterações feitas no banco de dados no editor de dados
Entrada de DadosEntrada de DadosClicar no botão [Editor]
Digitar os dados na planilha Stata - uma coluna por variável e uma linha por paciente.
O Stata automaticamente escolhera o tipo da variável de acordo com os valores digitados.
Para dar nome à variável clique 2 vezes numa célula da coluna correspondente e digite o nome da variável, que deverá ter no máximo 8 caracteres no campo “Name” e o rótulo da variável no campo “Label”.
Stata usa o ponto “.” para indicar que a observação émissing
Nome de variáveis Adicionando novas observaAdicionando novas observaçõçõesesNa janela do [Data Editor ] , bastará digitar as novas observações nas linhas vazias que se encontram após a última preenchida.
Adicionando novas variAdicionando novas variááveisveisNa janela do editor basta digitar os valores da nova variavel numa coluna vazia e depois atribuir-lhe um nome
� Não esqueça de apertar o botão [Preserve] para que o Stata guarde as mudanças feitas no banco de dados
� Aperte o [X] no canto superior direito para sair da janela do editor.
� Salve o banco na opção File � [Save as] indique o diretório e escreva o nome do arquivo.
ImportaImporta çãção / Exportao / Exportaçãção de dadoso de dados
Lembre que o Stata tem os recursos do windows “copiar” e “colar” que permitem importar qualquer planilha tipo windows ou salvar bancos do tipo Stata (*.dta) em outros tipos de planilhas.
Exemplo:
1. Abrir a planilha “leucemia0.xls” no programa Excell
2. Marque e copie as linhas e colunas com o nome e o conteúdo das variáveis que serão coladas no Stata (use o ícone de copiar ou “Ctrl+c")
3. No Stata posicione o cursor na célula da primeira linha e primeira coluna e cole a área selecionada, apertando o botão direito do mouse selecione a opção colar ou use a opção “Ctrl+v”
ImportaImporta çãção / Exportao / Exportaçãção de dadoso de dados
Lembre que o Stata tem os recursos do windows “copiar” e “colar” que permitem importar qualquer planilha tipo windows ou salvar bancos do tipo Stata (*.dta) em outros tipos de planilhas.
Os comandos “Import” ou “infile – na janela de comandos ” do STATA permitem ler um banco de dados em formato ASCII e “Export” ou “outfile- na janela de comandos ” permitem salvar o banco de dados em uso, no formato ASCII, para que possa ser importado por qualquer outro pacote que leia este formato.
Existem ainda 2 aplicativos o Stat/Transfer do propio STATA e o DBMSCOPY que permitem transformar bancos tipo Stata para outros formatos.
StatStat//Transfer Transfer É possível transformar bancos de dados em formatos DBASE, Lotus, Excel, Paradox, SPSS, Splus, SAS, etc. para o formato STATA ou para qualquer um dos formatos anteriores
• input file type o tipo do banco de dados de entrada
• file especificationa unidade, a pasta, e onome do banco origem
• ouput file type o tipo do banco de dados de saida
• file especificationa unidade, a pasta, e onome do banco destino
Obs: Também é possível escolher as variáveis e as observações a serem incluídas no banco destino.
Sintaxe de um comando STATASintaxe de um comando STATA[by varlist:] comando [varlist] [=exp] [if exp] [in range] [weight] [, options]
os elementos nos colchetes são opcionais
by : o comando é repetido para cada valor da variável ou variáveis contidas navarlist
varlist : lista de variáveis para as quais será executado o comando, sevarlist for omitida, o comando será executado para todas as variáveis
=exp : opção usada nos comandosgenerate, replace, egenpara definir ou transformar variáveis ( generate imc=peso/(altura*altura)
if : restringe a ação do comando a aquelas observações para as quais a expressão é verdadeira (edit if sexo==”masculino” � editor de dados mostrara as observações de indivíduos do sexo masculino )
in : restringe a ação do comando a aquelas observações contidas no intervalo definido no “range” (ex.: edit in1/10 � editor de dados mostrara as primeiras 10 observações)
weight : variável contendo os pesos que serão usados para ponderar as observações
options : indica as opções específicas a cada comando que serão usadas, devem ser precedidas sempre por uma vírgula.
Conhecendo o conteúdo do BancoConhecendo o conteúdo do Banco
Describe variables in memory
Data Describe Data
describe ou desc:
permite conhecer o conteúdo de um banco de dados tipo STATA,
fornecendo uma série de detalhes como por exemplo: número de
observações, número de variáveis, data da última atualização, lista de
variáveis com seus respectivos tipos e formatos e os rótulos criados.
Conhecendo o conteúdo do Banco
. desc
Contains data from F:\Regressao\Introd_Stata9\leucemia _wbc0.dta
obs: 42 Leukemia Remission Study
vars: 8 6 Aug 20 08 08:26
size: 1,008 (99.9% of memory free)
--------------------------------------------------- -----------------
storage display value
variable name type format label varia ble label
--------------------------------------------------- -----------------
weeks byte %8.0g Weeks in remission
relapse byte %8.0g yesno Relapse
trtment byte %8.0g trtment Treatment
logwbcc float %9.0g White blood cell count (ln)
sex byte %8.0g sexlbl Sex
trtwbcc float %9.0g trtment x logwbcc
lgwbccat float %9.0g wbc
trlwbcat float %9.0g
--------------------------------------------------- -----------------
Sorted by:
Label: colocando Rótulos
Podemos associar descrições (rótulos oulabels) a uma base de dados, a uma variável ou aos códigos de uma variável.
No Banco de Dados
Para associar uma descrição, de até 31 caracteres, a uma base de dados
Data ���� Labels ���� Label dataset
label dataset
Para associar uma descrição, de até 31 caracteres, a um banco dedados.
Data ���� Labels ���� Label dataset
Inserir comentário sobre o banco de dados
Label Variable
Para associar uma descrição, de até 31 caracteres, a uma variável do banco de dados.
Data ���� Labels ���� Label variable
Inserir comentário sobre a variável
Labels a definir nas observações
. label list
wbc: 0: Baixo 1: Medio 2: Alto
yesno: 0:Nao 1:Sim
sexlbl: 0: Feminino 1: Masculino
trtment: 0:tratamento 1:placebo
Nas Observações
Para criar e associar uma descrição, as categorias ou valores deuma variável do banco de dados
1. Defina os rótulos para cada uma das categorias
a. Clique 2 vezes no
botão “Define....”
Data ���� Labels ���� Label values ���� Define or modify value labels
Nas Observações
d. Digite os códigos e seus respectivos rótulos para cada uma das categorias
e. Após digitar o último código e rótulo, clique no [Cancel]e na janela seguinte no [Close]
c. Clique em “OK”
b. Nome do conjunto de rótulos
Código
Rótulo
Associar o conjunto de rótulos à variável originalAssociar o conjunto de rótulos à variável original
1
2 – escolha avariável
3 – escolha oconjunto de rótulos
4
Labels ���� Label values ���� Assign value labels to variables
Gerando novas variáveis: Gerando novas variáveis: logwbcclogwbcc == loglog (( wbccwbcc ))
Create new Variable
DataCreate or change variables
Cria uma variável “newvar” adicional no banco de dados, que irá receber o valor da expressão “exp” , para as observações selecionadas na condição “if” e/ou no intervalo “in”.
. generate float logwbcc = log(wbcc)
nome da nova variável: logwbcc
Expressão que define a nova variável: log(wbcc)
Create new Variable
DataCreate or change variables
. generate float wbcc2 = (wbcc)^2
Gerando novas variáveis: Gerando novas variáveis: wbcc2 = (wbcc2 = ( wbccwbcc )^2)^2
Obs: Quando há muitas categorias, é interessante buscar uma fórmula matemática que automatize a atribuição de valores às categorias.
. generate float logwbcat = int(logwbcc/2)
Gerando novas variáveisGerando novas variáveis
Create new Variable
DataCreate or change variables
Corrigindo os valores de uma variCorrigindo os valores de uma variCorrigindo os valores de uma variCorrigindo os valores de uma variCorrigindo os valores de uma variCorrigindo os valores de uma variCorrigindo os valores de uma variCorrigindo os valores de uma variáááááááávelvelvelvelvelvelvelvelReplace- muda o conteúdo de variáveis e/ou de observações já definidas de acordo
com as regras especificadas na expressão “=exp”
Change contentsof Variable
DataCreate or change variables
. replace wbcc2 = sqrt(wbcc)(42 real changes made)
Muda conteúdo da variável: wbcc2
Expressão que corrige a variável: sqrt(wbcc)
Observação:
sqrt(wbcc)= raíz quadrada da variável ¨wbcc¨
Corrigindo valores Corrigindo valores Recode Recode -- muda o conteúdo de alguns valores ou de toda a variável já
definida de acordo as regras especificadas
Change contentsof Variable
DataCreate or change variables
. replace wbccat2 = 2 if logwbcc>=4(7 real changes made)
Gerando novas variáveis: variável IndicadoraGerando novas variáveis: variável Indicadora
Create new Variable
DataCreate or change variables
. generate float wbccat2 = (wbcc>10) & wbcc~=.
Condição
Gerando novas variáveis: Pontos de corte (2.3, 3)Gerando novas variáveis: Pontos de corte (2.3, 3)
Create new Variable extended
DataCreate or change variables
. egen float logwbccat3 = cut(logwbcc), at(0,2.29999, 2.999999,5.1) icodes
Opção: pontos de corte
Indicar: mínimo, valores anteriores aos pontos de corte e máximo
Gerando novas variáveis: Pontos de corte (com largura Gerando novas variáveis: Pontos de corte (com largura de intervalo fixa)de intervalo fixa)
Create new Variable extended
DataCreate or change variables
. egen float logwbccat5 = cut(logwbcc), at(0(1)6) icod es
Opção: ¨Cut¨ -pontos de corte
Indicar: mínimo, (largura do intervalo) e máximo.
Obs: 0(1)6 vai gerar os códigos: 0,1,2,3,4 que representam as faixas:
1|-2, 2 |-3, 3 |-4, 4 |-5 e 5 |-6
Nome da nova variável
Nome da variável original
Usar os códigos: 0,1,2,..
Escolha de variEscolha de variááveis e/ou observaveis e/ou observaçõçõesesDrop – elimina as variáveis ou observações selecionadas do banco em uso.
keep – é um comando similar aodrop, porem neste comando especifica-se as variáveis e/ ou observações que ficaram no banco
Keep or drop variablesData Variables utilities
Escolha de observaEscolha de observaçõçõeses
Keep or drop observationsData Variables utilities
. keep in 1/35(7 observations deleted)
Manter as observações 1 até 35
Keep
Escolha de observaEscolha de observaçõçõeses
Keep or drop observationsData Variables utilities
Exemplos
drop wbcc2 ���� elimina a variável “wbcc2”
keep weeks relapse trtment sex wbcc logwbcc���� variáveis que ficam no banco
drop if relapse==1 � elimina todas as observações para as
quais “ relapse==1”
Olhando somente algumas observaçõesOlhando somente algumas observações
Existem diferentes maneiras de visualizar o conteúdo dos arquivos de dados:
Edit,
List e
Browse.
Olhando somente algumas observaçõesOlhando somente algumas observações
EditEdit ::
� O icone do “Edit” permite, acessar a planilha de dados do [Editor] do Stata. Apresentando o conteúdo de todas as variáveis e todos os registros, sendo possível também criar novas variáveis, fazer entrada de novas observações, edição dos já existentes, etc.
� O comando “edit” (digitado na janela de comandos) pode ser usado para visualizar subconjuntos de variáveis ou de observações.
EditEdit ::
Data ���� Data editor Exemplos para digitar na janela de comandos:
� edit weeks relapse
� edit weeks relapse if trtment==0
� edit weeks relapse if trtment==0 in 15/35
Olhando somente algumas observaçõesOlhando somente algumas observações
EditEdit ::
List
É um comando permite que os valores das variáveis e/ou observações selecionadas na expressão dolist sejam apresentados na janela de resultados.
Para tal siga a seqüência:
Data ���� Describe data ���� List data
Na Janela “Main ” do “List – List values of variables” selecione as variáveis que serão listadas na janela de resultados.
se deseja selecionar somente algumas observações digite acondição no retângulo do “if”
por exemplo: “sexo==0” ou se deseja pode usar a opção [Usea range of observations] na janela “by/if/in”
List
Na Janela “Main ” do “List – List values of variables” selecione as variáveis que serão listadas na janela de resultados.
List – List values of variables”
Se deseja selecionar somente algumas observações digite acondição no retângulo do “if” (por exemplo: “sex==0 & trtment==1”) na opção [Restrict to observations] na janela “by/if/in”
. list weeks relapse ifsex==0 & trtment==1
+-----------------+
| weeks relapse |
|-----------------|
5. | 17 0 |
6. | 19 0 |
13. | 10 1 |
15. | 6 1 |
17. | 11 0 |
|-----------------|
20. | 13 1 |
21. | 10 0 |
25. | 9 0 |
27. | 6 0 |
38. | 6 1 |
|-----------------|
41. | 7 1 |
+-----------------+
Browse:
É um comando que também permite visualizar a planilha de dados ou uma parte dela, com a diferença que este comando não permite realizar mudanças nas celulas da planilha.
É uma alternativa ao comando “list”
. browse weeks relapse if trtment==0 in 15/35 , nolabel
Data ���� Data browser (read-only editor)