apostila spss parte 1.pdf
TRANSCRIPT
spss
Módulo Base
Conceitos e
Recursos
Volume 1
spss
Módulo Base
Conceitos e Recursos
Volume 1
SPSS Treinamento pag. 2
1. Introdução___________________________________________________ 3
1. Passos de uma análise estatística_________________________________ 3
2. Família SPSS for Windows ______________________________________ 4
3. Visão geral do SPSS for Windows ________________________________ 5
II. Sobre o Banco de Dados_______________________________________ 15
1. Como criar seu próprio banco de dados___________________________ 15
2. Criando várias variáveis com as mesmas características _____________ 21
3. Formas de importação e exportação de dados _____________________ 24
4. Importação de arquivos de dados do tipo Excel ou Lotus______________ 25
5. Exercícios 29
III. Transformação de Dados _____________________________________ 30
1. Recodificação usando o procedimento Recode _____________________ 30
2. Recodificação automática para criação de faixas ____________________ 33
3. Recodificação automática de variáveis alfanuméricas________________ 35
4. Cálculo de novas variáveis usando o procedimento Compute__________ 36
5. Exercícios __________________________________________________ 39
IV. Tabelas____________________________________________________40
1. Usando os ícones de organização _______________________________ 41
2. Modificando as células ________________________________________ 44
V. Um Pouco de Estatística Descritiva______________________________ 47
1. Nível de medida das variáveis___________________________________ 47
2. Distribuição de frequências _____________________________________ 48
3. Medidas de posição ___________________________________________49
4. Medidas de variabilidade _______________________________________51
VI. Comandos do SPSS para Análise Descritiva_______________________ 55
1. OLAP Cubes_________________________________________________55
2. Frequencies _________________________________________________59
3. Descriptives_________________________________________________64
4. Crosstabs ___________________________________________________66
5. Exercícios __________________________________________________ 72
VII. Gráficos Não-Interativos_______________________________________73
1. Gráfico de pizza______________________________________________73
2. Gráfico de barras ____________________________________________ 79
3. Diagramas de dispersão _______________________________________ 88
4. Ternplates e exportação de gráficos_______________________________91
5. Exercícios __________________________________________________ 93
VIII. Manipulação de Dados_______________________________________94
1. Ordenação de casos __________________________________________94
2. Seleção de casos _____________________________________________96
3. Procedimento Split File _______________________________________100
4. Procedimento Aggregate _____________________________________ 102
5. Exercícios__________________________________________________105
SPSS Treinamento pag. 3
1. Passos de uma análise estatística
Em nosso dia a dia, vivemos constantemente rodeados por potenciais fontes
de dados, que podem ser funcionários de uma empresa (se estivermos
interessados em avaliar seu desempenho antes e após um treinamento)
pacientes de uma clínica (se quisermos estudar tempo de reação a uma
determinada droga) objetos uma linha de produção (se quisermos avaliar
quantidades de peças defeituosas produzidas) dos índices da bolsa de valores
(se nosso alvo são as projeções econômicas). Por hora, vamos supor que
estamos interessados em estimar a altura média dos brasileiros do sexo
masculino com mais do que 25 anos. Em geral não temos recursos financeiros
ou mesmo tempo suficiente para entrevistar cada pessoa e, por isso, é preciso
selecionar um grupo ou uma amostra de pessoas. Esta etapa é chamada de
coleta de dados que é seguida do devido armazenamento dos mesmos.
Uma vez reunidas as informações, frequentemente esses dados precisam
passar por alguma transformação. Se a altura das pessoas tivesse sido tomada
em pés e polegadas, seria conveniente transformá-la para centímetros. Esta é
a etapa de transformação de dados, que poderia se estender a cálculos bem
mais complexos.
Finalmente os dados estão prontos para a análise a qual será dividida em duas
fases. A primeira é chamada de descritiva, na qual como o próprio nome diz
descreveremos os dados. Alguns procedimentos utilizados nessa etapa são:
construção de tabelas e gráficos, cálculo de medidas como média, variância,
etc. No estudo sobre a altura dos brasileiros, por exemplo, poderíamos ter
como primeiros resultados: a altura média na amostra entrevistada é de 168 cm
com um desvio padrão de 12 cm. Mas daí a dizer que esta é a altura média do
brasileiro do sexo masculino com mais do que 25 anos é um grande passo, que
deve ser dado com muito cuidado. É então que entra a segunda parte da
análise, a análise inferencial. Com a ajuda de testes estatísticos, poderemos
mais do que simplesmente dizer qual a altura média do brasileiro, mas também
associar uma certa confiabilidade a tal conclusão.
Depois de tanto trabalho é hora de relatar as conclusões do estudo. Agora toda
informação, seja ela numérica ou gráfica, é bem-vinda para que alguém que
não participou do processo de análise possa compreender as conclusões sobre
o estudo, através do relatório.
Mas afinal, porque devemos realizar uma análise estatística? Simplesmente
porque precisamos da confiabilidade que essa análise oferece em um
momento de tomada de decisão.
A Figura 1-1 apresenta um esquema com os passos de uma análise estatística.
SPSS Treinamento pag. 4
Figura 1-1: Passos de uma análise estatística de dados
O SPSS tem sido considerado um dos melhores softwares estatísticos do
mercado, justamente porque participa de grande parte do processo que
engloba uma análise estatística. Logo na primeira etapa é possível armazenar
dados de forma rápida e prática no próprio SPSS. Durante o processo de
transformação e análise de dados, o SPSS tem recursos considerados dos
mais poderosos. Até mesmo em um dos momentos mais delicados da análise,
a elaboração de relatórios, o SPSS tem recursos excelentes para ajudá-lo.
Mas, e na hora de tomar decisões?
Mesmo nesse momento crítico da sua análise, você pode contar com os
recursos do SPSS, como por exemplo, um técnico de resultados que lhe ensina
como analisar os resultados apresentados em alguma tabela.
2. Família SPSS for Windows
A família SPSS for Windows é formada por dez módulos: Base, Regression
Modeis, Tables, Advanced Models, Trends, Exact Tests, Categories, Conjoint,
Missing Values e Maps.
O módulo Base é o módulo central, com o qual todos os demais interagem. Ele
é o responsável pela importação e exportação de arquivos, toda etapa de
manipulação e
SPSS Treinamento pag. 5
transformação de dados, análise descritiva, análise não paramétrica, análise
inferencial básica, e toda a produção gráfica. Ao adicionar outros módulos ao
Base, estaremos apenas acrescentando novos procedimentos estatísticos,
ganhando em termos de opções e complexidade; porém o acréscimo dë outros
módulos não altera o aspecto geral do SPSS. Dessa forma, os módulos podem
ser adquiridos levando em conta a área de atuação e o trabalho a ser
desenvolvido (obs.: para maiores detalhes, contate a SPSS Brasil).
3. Visão geral do SPSS for Windows
Inicialmente, o SPSS abre uma janela para que começamos a trabalhar com
nossos dados: a janela Untitled - SPSS Data Editor (veja Figura 1-2). A medida
em que formos trabalhando, outras podem ser abertas. Cada janela aberta é
um arquivo em potencial, ou seja, pode ser armazenado, impresso, copiado
para outras janelas, etc.
O menu File (ver Figura 1-3) permite que você tenha controle sobre tudo que
se refere ao gerenciamento de arquivos, como importação, exportação,
impressão e salvamento.
O primeiro bloco desse menu destina-se à abertura de arquivos, seja ele um
banco de dados, uma janela de saídas produzida anteriormente ou uma janela
de sintaxe, Os tipos de
SPSS Treinamento pag. 6
bancos de dados que podem ser lidos diretamente pelo SPSS são os mais
diversos, desde do formato ASCII (texto) até bancos em formato Lotusl23,
Excel, dBase, entre outros e, é claro, arquivos produzidos pelo próprio SPSS
nas suas diferentes versões. A opção New inicializa um novo banco de dados
ou outro tipo de janela, a opção Open abre um arquivo diretamente, a opção
Open Database... serve para você ler arquivos de vários bancos de dados
diferentes através de ODBC, e a opção Read Text Data abre um wizard para
auxiliá-lo na leitura de um arquivo em formato texto.
O segundo bloco do menu File tem por função salvar qualquer janela do SPSS;
assim se estivermos na janela Saídas, podemos salvar os resultados obtidos
em uma análise estatística através da opção Save, etc. O software permite
ainda salvar um banco de dados criado no SPSS em um outro formato, assim
como no próprio formato SPSS.
No terceiro bloco de File, você pode obter informações sobre o conteúdo do
seu banco de dados usando a opção Display Data Info, aplicar definições de
variáveis estabelecidas em um outro arquivo do SPSS com Apply Data
Dictionary ou forçar a criação de um arquivo de dados temporário em Cache
Data. No quarto bloco de File está localizada a opção de impressão (em Print)
de qualquer janela que esteja ativa. Finalmente, temos a opção de parar o
processador do SPSS (através de Stop Processor), conectar-se a um servidor
para executar
SPSS Treinamento pag. 7
análises em bancos de dados maiores (desde que você tenha um módulo
servidor do SPSS), a lista de arquivos recentemente utilizados e a opção Exit
para você fechar o SPSS.
O menu Edit (ver Figura 1-4) traz comandos relacionados à edição, que podem
ser diferentes de acordo com a janela que estiver ativa. Se estivermos na
janela de dados, podemos utilizar os recursos Cut e Paste para cortar e colar,
respectivamente, um conjunto de dados de um lugar para outro. No último
bloco do menu Edit, temos o comando Options..., onde podemos definir os
principais parâmetros do SPSS, como o padrão para o tipo da variável (o
padrão do SPSS é Numeric8.2, i.e., variável numérica com 8 dígitos, sendo que
os 2 últimos são casas decimais), ou ainda o tamanho e fonte dos títulos na
janela de saídas entre muitas outras. Todas as opções do comando Options...
serão estudadas detalhadamente mais adiante.
SPSS Treinamento pag. 8
Pelo menu View (ver Figura 1-5) você escolhe como serão mostrados os dados
na janela Data Editor (usando as opções Fonts..., Grid Lines e Value Labeis).
Por esse menu também é possível disponibilizar ou não através da opção
Status Bar, a barra inferior, chamada de barra de status, que contém algumas
mensagens importantes sobre o SPSS: e finalmente, através da opção
ToolBars... você pode customizar a(s) barra(s) de ferramentas, podendo
inclusive, criar uma barra totalmente nova.
SPSS Treinamento pag. 9
O menu Data traz funções relacionadas a manipulação dos dados. Comandos
como definição de datas, ordenação do banco de dados, junção de arquivos
em formato SPSS, seleção de casos do arquivo de dados para trabalho,
ponderação de valores, etc., fazem parte das opções desse menu (ver Figura
1-6).
SPSS Treinamento pag. 10
A etapa de transformação dos dados concentra-se basicamente no menu
Transform. Recursos como criação de novas variáveis a partir das já
existentes, recodificação de valores do banco de dados, e até mesmo
interpolação de valores ausentes em urna série de tempo são algumas das
opções desse menu (ver Figura 1-7).
SPSS Treinamento pag. 11
O menu Analyze (ver Figura 1-8) reúne todos os procedimentos estatísticos
disponíveis no SPSS. Este é o principal menu que sofre alterações com a
inclusão de outros módulos. A medida que são incluídos módulos opcionais o
número de opções (linhas) existentes nesse menu vai aumentando, ou seja, a
quantidade de recursos estatísticos vai se tornando cada vez maior e o seu
SPSS cada vez mais poderoso.
SPSS Treinamento pag. 12
O menu Graphs contém todos os tipos de gráficos que o SPSS oferece.
Gráficos de sequencia, barras, área, pizza, boxplot, pareto e cartas de controle
são apenas alguns deles (ver Figura 1-9). Nesse menu temos a opção de
construir gráficos interativos e caso você tenha o módulo Maps, é possível a
construção de mapas no SPSS.
Utilities (ver Figura 1-10) é um menu que oferece recursos que não são
imprescindíveis, mas certamente “quebram alguns galhos”. Um exemplo é
obter um resumo da estrutura do seu banco de dados bastando clicar a opção
File Info. A opção Variables abre uma janela com informações sobre as
variáveis do seu arquivo; clicando em Menu Editor... você pode customizar os
menus do SPSS, criando até mesmo um menu totalmente novo. A principal
opção nesse menu é Run Sscript..., onde podemos escolher algum script do
SPSS para ser executado (scripts são programas em Visual Basic que veremos
adiante).
SPSS Treinamento pag. 13
Através do menu Window do SPSS (ver Figura 1-11), você pode navegar pelas
janelas criadas pelo SPSS, bastando escolher a janela desejada e clicar em
seu nome: ou você pode minimizar o SPSS com todas as suas janela através
da opção Minimize Ali Windows.
O último menu que aparece é o Help (ver Fiqura 1-12). A ajuda no SPSS é um
dos pontos fortes do software, já que ela é muito mais do que uma cópia do
manual. Quando clicamos em Help, a primeira opção Topics lhe dá a chance
de escolher entre esclarecimentos do significado de algum termo técnico ou de
algum comando e um índice remissivo.
SPSS Treinamento pag. 14
Um tutorial do SPSS está disponível através da opção Tutorial. Com ele você
pode obter detalhadamente informações básicas do uso do SPSS.
A opção SPSS Home Page abre automaticamente a página da SPSS norte-
americana na Internet. Na opção Syntax Guide você terá todos os manuais de
sintaxe do SPSS. Finalmente, a opção Statistics Coach funciona como um
técnico estatístico. Ele irá fazer a você algumas perguntas sobre seus dados e
o tipo de análise que você gostaria de obter, e então, baseado nas suas
respostas, ele lhe indicará o procedimento do SPSS mais apropriado para o
seu caso.
SPSS Treinamento pag. 15
II. Sobre o Banco de Dados
1. Como criar seu próprio banco de dados
Antes de começar a entrar valores na janela de dados, é preciso atentar ao fato
de que o SPSS tem por regra geral trabalhar com as variáveis (campos)
definidas em colunas e casos (registros) em linhas.
Digamos que estamos interessados em armazenar informações de uma
pesquisa sobre a programação das emissoras de televisão realizada no Rio de
Janeiro e em São Paulo. Vamos criar uma coluna para a cidade do
respondente.
Para definir uma variável, dique duas vezes no nome da variável no topo da
coluna ou na parte inferior da janela de dados dique em Variable Víew. Dessa
maneira o modo de definição de variáveis será exibido na janela de dados.
Nesse modo temos a opção de definir todas as características que fazem parte
de uma variável: nome, tipo, rótulos, valores ausentes, formato da coluna e o
nível de medida (ver Figura 11-1).
Para dar um nome à variável, basta digitá—lo no espaço designado por Name;
o nome pode ter no máximo 8 caracteres, sem que haja caracteres especiais,
como +, &, \,-, etc. (porém podemos acentuar); no nosso caso o nome será
cidade (Figura 11-2).
SPSS Treinamento pag. 16
Para alterarmos o tipo da variável, basta clicar em Type, onde podemos definir
a variável como numérica (numei-ic), moeda (dollar), data (date), alfanumérica
(string), entre outros tipos. Usaremos no nosso caso uma codificação para a
variável cidade, onde o número 1 corresponderá a cidade de São Paulo e o
número 2 ao Rio de Janeiro, pois estas foram as duas únicas cidades
pesquisadas. Portanto, a variável cidade será definida como numérica (Figura
11-3). Ainda nessa janela você pode especificar quantos caracteres a variável
ocupa (em Width) e o número de casas decimais (em Decimais Piaces). Vamos
deixar 8 em Width e O em Decimal Places (dado que só usamos os números 1
e 2 não precisamos de casas decimais) e cicar em 0K.
Você pode estar se perguntando: porque não definir a variável cidade como
alfanumérica (string) e digitar São Paulo e Rio de Janeiro, ao invés dos
números 1 e 2? A resposta é simples: muitos dos procedimentos estatitiscos
não conseguem trabalhar com variáveis desse tipo, diminui-se o tempo e a
ocorrência de erros na digitação e também porque economizamos espaço e
consequentemente tempo no processamento dos casos.
SPSS Treinamento pag. 17
Um recurso muito útil no SPSS é a possibilidade de relacionarmos um texto
(rótulo) ao nome das variáveis (já que o nome só pode ter até 8 letras). Basta
selecionar a coluna Label e digitar o texto desejado. Vamos colocar “Cidade do
entrevistado” como rótulo da variável.
Podemos também definir rótulos para os valores que uma determinada variável
pode assumir. A coluna Values é reservada para esse tipo de definição. Clique
no botão que aparece ao selecionarmos essa coluna e no espaço Value
digitamos o valor que a variável assume e em Value Label o rótulo (texto) para
aquele valor. Feito isso basta clicar Add para armazenar o rótulo do primeiro
valor e passar para a segunda definição.
No caso da variável cidade definimos “São Paulo” como rótulo para o valor 1 e
“Rio de Janeiro” para o valor 2 (ver Figura 11-4). A vantagem de definirmos
rótulos para variáveis ou para os valores que uma variável pode assumir é que
toda vez que pedimos qualquer estatística envolvendo essas variáveis eles
aparecerão junto com os resultados na janela de saídas (ver Figura 11-5).
Dessa maneira poderemos identificar qual é a cidade referente a cada número
(código).
SPSS Treinamento pag. 18
Geralmente não temos condições de obter um banco de dados totalmente
completo (vamos supor que uma das perguntas da pesquisa é a idade do
respondente; algumas pessoas não gostam de mencionar a idade). Se nada for
informado ao SPSS, como padrão a opção No missing values é usada. Nesse
caso basta deixar em branco o espaço reservado à informação que falta e o
SPSS coloca o separador decimal (. ou ,) no local e interpreta todos os pontos
(ou vírgulas) como valores ausentes.
Podemos, porém, querer definir valores específicos como valores ausentes.
Nesse caso basta selecionar a coluna Missing, clicar no botão que aparecerá e
escolher a opção mais conveniente (ver Figura 11-6). Por exemplo, se
escolhermos a opção Discrete missing values podemos definir o número 999
como valor missing e cada vez que o SPSS encontrai o número 999 no meio
de uma análise estatística que envolve essa variável ele saberá que aquele
valor se refere a um valor ausente.
A definição do formato da coluna é um aspecto meramente estético. Através da
coluna Columns você poderá determinar a largura da coluna e na coluna Align
o alinhamento do texto que pode ser: à esquerda (Left), à direita (Right) ou
centralizado (Center).
No caso da variável cidade definiremos a largura da coluna como 12 e o
alinhamento à. direita (ver Figura II-7).
SPSS Treinamento pag. 19
E finalmente na coluna Measure, devemos escolher o nível de medida da
variável. As possíveis escolhas são:
• Escalar (Scale): use essa opção quando os dados são valores numéricos
numa escala intervalar ou de razão (ex: idade, renda, peso, altura). Devem ser
numéricas.
• Ordinal quando os dados representam categorias com uma ordem intrínseca
(ex: pequeno, médio, grande; concordo totalmente, concordo, discordo,
discordo totalmente). Podem ser variáveis alfanuméricas (string) ou numéricas
com valores representando as categorias distintas (ex: 1=pequeno, 2=médio,
3=grande).
• Nominal: quando os dados representam categorias sem ordem intrínseca (ex:
as categorias de estado civil, ocupação, nacionalidade). Podem ser variáveis
alfanuméricas (string) ou numéricas com valores representando as categorias
distintas (ex: 1 =masculino; 2=feminino).
No nosso caso escolhemos a opção Nominal (não existe ordem nas categorias
de cidade). Pronto! Agora é só voltar para o modo de exibição dos dados
(selecione Data View na parte inferior da janela de dados) e digitar os valores
coletados, lembrando que cada caso (registro) deve ser digitado em uma linha
(ver Figura 11-8). Desse modo o primeiro respondente é de São Paulo o
segundo do Rio de Janeiro e assim por diante.
SPSS Treinamento pag. 20
Note que apenas os números 1 e 2 aparecem na janela de dados e não os
rótulos (nome das cidades). Para ativá-los basta clicar no ícone 1. A Figura 11-
9 mostra a janela de dados agora com os rótulos ativos. Para desativá-los
basta clicar novamente no mesmo ícone.
SPSS Treinamento pag. 21
2. Criando várias variáveis com as mesmas características
Suponha agora que você tenha que definir as perguntas abaixo no SPSS. Note
que elas têm as mesmas opções de resposta:
1) Qual a emissora de televisão a que você mais assiste?
2) Qual a emissora de televisão que tem a melhor programação?
3) Qual a emissora de televisão que tem os programas mais apelativos?
4) Qual a emissora de televisão que sua família prefere?
Possíveis respostas:
1) Emissora A
4) Outra Emissora
2) Emissora B
5) Nenhuma
3) Emissora C
Usando os conhecimentos adquiridos até agora poderíamos definir quatro
variáveis, uma para cada pergunta. Para cada uma delas poderíamos definir
tipo, rótulos, valores ausentes, formato da coluna e nível de medida. Todas as
definições seriam exatamente iguais nas quatro variáveis. Portanto seria
desejável definir apenas uma vez as características das
SPSS Treinamento pag. 22
quatro perguntas e através de algum mecanismo poder relacioná-las a todas as
colunas de uma só vez. Podemos fazer isso no modo de definição de variáveis
usando as opções Copy e Paste Variables.
Para começar basta definir uma das variáveis; por exemplo, perg1. Vamos
definir como: numérica de tamanho 8 e sem nenhuma casa decimal, dados
ausentes padrão, formato da coluna com largura 10, rótulos dos valores da
variável sendo valor 1 - emissora A; valor 2 - emissora B; valor 3 - emissora C;
valor 4 - outra emissora e valor 5 - nenhuma e nível de medida nominal. A
Figura TI-lo mostra a janela de dados (modo de definição de variáveis) após a
criação da variável perg1
O próximo passo é simples: selecione a variável perg1 na janela de dados
(modo de definição de variáveis) clicando no número da variável (2 no nosso
caso), selecione Copy no menu Edit, depois marque uma linha vazia (no nosso
caso, selecionamos a linha 3) e selecione a opção Paste Variables do menu
Edit.
Na janela aberta (ver Figura TI-li) você escolha quantas variáveis são criadas a
partir da variável copiada e o nome delas. Escolha 3 no quadro Number of new
variables (pois queremos criar perg2, perg3 e perg4), 2 no segundo quadro à
direita de New variable names (lembre-se de que já existe uma variável
chamada perg1) e dique em 0K.
SPSS Treinamento pag. 23
A Figura 11-12 mostra a janela de dados (modo de exibição dos dados — Data
View) com as variáveis criadas e alguns valores já digitados.
Para salvar as informações armazenadas nessa janela no formato SPSS basta
clicar o menu File.. Save ou Save As...e digitar o nome que queremos dar ao
novo arquivo no quadro File Name. Note que a extensão dos arquivos do tipo
SPSS é sav.
Uma outra opção muito útil para ajudá-lo na definição das características de
suas variáveis chama Apply Data Dictionary e está presente no menu File. Ao
escolher essa opção, será aberta uma janela para você escolher um arquivo no
formato SPSS, chamado de arquivo modelo. Após a escolha, o SPSS compara
os nomes das variáveis do arquivo ativo com as do arquivo modelo e para
aquelas variáveis que tiverem o mesmo nome, ele copia todas as definições
dessas variáveis (como tipo, rótulo, valores ausentes, etc.) do arquivo modelo
para o arquivo ativo.
SPSS Treinamento pag. 24
3. Formas de importação e exportação de dados
Conforme já mencionamos, o SPSS tem capacidade para importar bancos de
dados gerados nos mais diversos formatos, entre eles Lotus 123, Excel, dBase
e ASCLI. Para ter acesso aos diferentes formatos de banco de dados basta
clicar o menu File.. Open.. Data. Aparece então uma tela (ver Figura 11-13)
onde determinamos disco e subdiretórios (Look in), o nome do arquivo (File
name), e a forma sob a qual o arquivo foi gerada (opção File Type no canto
inferior esquerdo). O padião é o formato SPSS (extensão .sav). Discutiremos a
seguir como importar arquivos em formato Excel (.xls).
Já mencionamos também que os dados da janela de dados podem ser
armazenados sob diversos formatos, tenha ele sido gerado através do SPSS
ou de qualquer outro aplicativo; para isso, entramos no menu File e clicamos
em Save ou Save as.. Aparecerá uma tela (ver Figura 11-14) semelhante
àquela para abertura de arquivos, onde especificamos novamente disco e
subdiretórios, o nome do arquivo, e a forma sob a qual o arquivo deve ser salvo
abrindo o menu Save as type (canto inferior esquerdo). O default é o formato
SPSS (extensão “.sav”). Outra opção é salvar no formato Excel (extensão “xis’).
Para maiores detalhes sobre importação e exportação de bancos de dados
com extensão diferente das mencionadas aqui, consulte o manual do módulo
Base do SPSS.
SPSS Treinamento pag. 25
4. Importação de arquivos de dados do tipo Excel ou Lotus
O exemplo que utilizaremos aqui utiliza uma pesquisa de opinião sobre lazer
que iremos analisar durante o treinamento. Ao invés de importar os dados no
formato SPSS, vamos importá-los do formato Excel.
Antes de iniciar a importação precisamos observar como os dados se
encontram no arquivo original inicializando o Excel. Através do menu File..
Open... (do Excel) abrimos o arquivo lazer.xls. A Figura 11-15 apresenta o
conteúdo desse arquivo.
SPSS Treinamento pag. 26
Notamos que o banco de dados contém não apenas números, mas também
título, linhas em branco e o nome das variáveis. Precisamos então ter um certo
cuidado na importação, pois o SPSS só consegue ler o nome das variáveis e
os valores das mesmas. Títulos, comentários, gráficos ou fórmulas presentes
no arquivo não podem ser importados.
Uma possível solução é anotarmos as coordenadas dos cantos superior
esquerdo e inferior direito da matriz onde o nome das variáveis e dados estão
efetivamente situados (no nosso caso A4 e P3 5).
Fechamos então o arquivo no Excel já que se não fecharmos o arquivo dentro
de um aplicativo, não conseguimos abri-lo em outro e então, vamos importá-lo
no SPSS. Para isso, volte ou abre o SPSS (caso ele já não esteja aberto).
Para importar esse arquivo de dados no SPSS, cicamos o menu File.. Open..
Data.. (ver Figura 11-16). Devemos indicar o disco e o subdiretório, além é
claro, do tipo do arquivo, que no nosso caso é Excel (*.xls). No quadro File
name digitamos o nome do arquivo a ser importado, que no nosso caso é
lazer.xls.
SPSS Treinamento pag. 27
Ao clicar em Open (ou Abrir se o seu Windows está em português), será aberta
uma janela de nome Opening Excel Data Source (ver Figura 11-17). Nessa
janela, em Worksheet, devemos especificar a planilha a ser lida (no nosso caso
é a primeira; LAZER). Além disso, como o nosso arquivo original contém o
nome das variáveis devemos selecionar a opção Read variable names from the
first row of data e no quadro Range devemos especificar a faixa de valores que
deve ser lida, no nosso caso A4:P35. Agora é só clicar ok e pronto!
SPSS Treinamento pag. 28
Observações:
1 - Caso o arquivo original estivesse limpo, isto é, com os dados começando da
célula AI, não seria necessário entrar com as coordenadas em Range e
precisaríamos apenas especificar se a primeira linha contém ou não o nome
das variáveis (em Read variable names from the first row of data)
2- Para leitura no formato Lotus o procedimento é exatamente o mesmo com
duas exceções: no quadro Files of type escolhemos a opção Lotus (*.w*) e no
quadro Range ao invés da especificação A4:P35, usaríamos A4..P35.
Quando o arquivo aparece na tela de dados, observe que seu título continua
sendo Untitled (ver Figura 11-18). Somente a partir do momento em que
salvamos no formato SPSS é que o título da janela de dados passa a ser o
nome escolhido para o arquivo.
SPSS Treinamento pag. 29
5. Exercícios
1 - Defina uma variável num novo banco de dados chamada ESTCIVIL. As
características dessa variável dévem ser:
- Tipo: Numérica sem casas decimais
- Rótulo da variável: Estado Civil
- Rótulos dos valores: 1 - Solteiro
2 - Casado
3 - Separado
4 - Viúvo
- Nível de medida: Nominal
SPSS Treinamento pag. 30
III. Transformação de Dados
1. Recodificação usando o procedimento Recode
Utilizaremos aqui um recurso muitas vezes necessário que antecede a análise
estatística propriamente dita. A recodificação simples de variáveis pode ser
usada, entre outras coisas, para criar faixas de valores baseados em variáveis
já existentes. Um exemplo típico é ter interesse em estudar a faixa etária das
pessoas em um estudo onde a informação disponível originalmente é a idade.
No nosso exemplo vamos criar essa variável representando a faixa etária a
partir da variável idade. Nossa idéia é construir tal variável de acordo com a
seguinte divisão por faixas:
Valores atuais (Idade) Valores Futuros (Faixa Etária)
<=25anos..................................................................................................1
26 até 35 anos..........................................................................................2
36 até 45 anos..........................................................................................3
>45 anos...................................................................................................4
Para fazer uma recodificação no SPSS entramos no menu Transform e
escolhemos a opção Recodi. Temos ainda que escolher entre as opções Into
Sarne Variables ou Into Different Variables (ver Figura 111-1). Através dessa
última opção uma nova coluna é adicionada ao banco de dados com os valores
recodificados. Já através da opção Into Sarne Variables a informação
recodificada é armazenada na mesma coluna da variável Idade, perdendo,
dessa maneira, a informação da antiga variável.
SPSS Treinamento pag. 31
Escolhendo a opção Into Different Variables uma nova janela é aberta (ver
Figura 111-2). Devemos informar o nome da variável a ser recode.ficada (no
caso Idade). Para isso basta clicar em Ida de dos Entrevistados (que é o rótulo
da variável Idade) dentre todos os rótulos que estão no quadro esquerdo e
movê-lo, clicando a seta logo ao lado, para o quadro Numeric Variable> Output
Variable. Devemos, também, dar um nome para a nova variável que será
criada através do quadro Output Variable no canto superior direito. No espaço
reservado ao nome da nova variável (Name) digitamos fai.xaet. Podemos ainda
criar um rótulo para a nova variável Faixaet (por exemplo, ‘Faixa Etária”),
preenchendo o quadro abaixo de Label. Após essas definições, basta clicar
Change e terminamos a primeira etapa da recodificação.
SPSS Treinamento pag. 32
Falta agora informar ao SPSS as condições da recodificação. Para isso basta
clicar a opção Old and New Values, localizada na parte inferior da janela e
aparece uma nova tela (ver Figura 111-3).
No quadro Old Value, à esquerda, temos que especificar os valores da antiga
variável que vão determinar os valores da nova variável. Para isso temos
disponível uma série de opções:
Value - usado quando estamos interessados em transformar um valor
específico da variável em questão em um novo valor:
System Missing - usado quando queremos especificar um valor
numérico para os valores ausentes do sistema (pontos ou vírgulas):
System or User Missing - usado quando queremos especificar um valor
numérico para todos os tipos de valores ausentes: os do sistema e os
especificados pelo usuário;
Range [J through O - usado para especificar uma faixa de valores que
receberão um novo valor (ex. de 30 até 40);
Range Lowest through O - usado para especificar uma faixa de valores
que se transformarão num novo valor; nesse caso, do menor_valor da
variável em questão até o número especificado;
RanTFthroiij:ii highest - usado para especificar uma faixa de valores que
receberão um novo valor; nesse caso do número especificado até
omaior valor da sua variável.
No quadro New Value, no canto superior direito, existe um pequeno espaço
(Value), no qual deve ser digitado o valor que a nova variável deve assumir
para cada uma das faixas ou valores definidos à esquerda.
SPSS Treinamento pag. 33
No nosso caso clicamos em Range Lowest through à esquerda e preenchemos
com o valor 25, ou seja, estamos falando em valores menores ou iguais a 25, e
à direita no quadro New Value digitamos o valor 1. Cique em Add para incluir a
primeira faixa no quadro Old—’New. Podemos definir o segundo grupo de
valores: dique em Range O through EJ, digite os valores 26 e 35; no quadro
Value à direita, entre com o valor 2 e dique Add. Analogamente repita essa
operação para a terceira faixa etária (de 36 até 45 anos). Finalmente, defina a
última categoria clicando em Range: O through highest e entrando com o valor
46; estamos agora falando em valores maiores ou iguais a 46. No quadro Value
digite o número 4 e dique Add. Dessa maneira a definição da nova variável
Faixaet está encerrada.
Clicando Continue, voltamos à tela anterior onde clicamos 0K. A nova variável
passa a existir e aparece na última coluna do arquivo. Ela assume os valores 1,
2, 3 e 4 porém os rótulos ainda não estão associados a esses valores. Para
associar rótulos aos valores da nova variável podemos usar a opção do menu
View.. Variables e na opção Values acrescentar o rótulos dos valores.
2. Recodificação automática para criação de faixas
Quando usamos o procedimento Recode para a criação da faixa etária, nós
especificamos os limites de cada uma das faixas. Porém suponha que você
não tenha idéia de como dividir sua variável em faixas, mas que tenha em
mente o número de faixas. O
SPSS Treinamento pag. 34
procedimento Categorize Variables converte valores contínuos de uma variável
escalar em um número discreto de categorias. Esse procedimento cria novas
variáveis contendo os dados categorizados baseado nos valores dos
percentis1, com cada grupo contendo aproximadamente o mesmo número de
casos. Por exemplo, uma especificação de quatro grupos iria designar valor 1
para os casos abaixo do 25 percentil 2 para os casos entre o 25 e o 5O
percentil 3 para os casos entre o 50º e o 75º percentil e 4 para os casos acima
do 75º
Vamos criar uma nova variável contendo a divisão em faixas da variável idade,
porém usando esse procedimento. Na janela aberta após clicarmos em
Categorize Variables no menu Transform (veja a Figura 111-4), basta escolher
a variável Idade dos Entrevistados, movêla para o quadro Create Categories for
e escolher o número de categorias em Number of categories (quatro no nosso
caso). Agora basta dicar em 0K e ele criará uma variável chamada nidade (ou
seja ‘n’ ± nome da variável) no nosso banco de dados.
1 ‘Um determinado percentil é o valor de uma variável escalar que divide os dados ordenados em grupos
de maneira que um certo percentual dos valores está abaixo e um outro percentual acima. Por exemplo, se dissermos que o 25 percentil do salário numa empresa é de R2OO,OO, estamos dizendo que 25% dos funcionários dessa empresa ganham menos de R$200,OO e que os outros 75% ganham mais do que esse valor.
A Figura 111-5 mostra a distribuição de frequências da variável criada e logo
abaixo os valores dos percentis de número 25, 50 e 75 que definem as faixas
criadas. Posteriormente veremos como pedir essa tabela de frequência e os
percentis no SPSS.
Note na tabela que o número de casos em cada faixa é bem parecido: 7, 8 ou 9
casos.
Olhando na tabela dos percentis temos que a primeira faixa são as pessoas
que têm até 21 anos; a segunda faixa representa quem tem entre 21 e 26 anos,
a terceira quem tem entre 26 e 36 anos e a última faixa representa quem tem
mais de 36 anos.
SPSS Treinamento pag. 35
3. Recodificação automática de variáveis alfanuméricas
Outro recurso para recodificação presente no SPSS é o Automatic Recode.
Através desse procedimento podemos transformar variáveis do tipo
alfanuméricas (string) ou numéricas em variáveis numéricas consecutivas já
codificadas (com rótulos associados). O SPSS ordena em ordem alfabética
(crescente ou decrescente) os valores da variável selecionada relacionando o
número 1 ao primeiro valor e assim por diante até o último valor. A nova
variável será numérica assumindo desde o valor 1 até o número de valores (ou
cadeia de caracteres) existentes, além de assumir os antigos valores
(alfanuméricos ou numéricos originais) como rótulos da nova variável numérica.
Por exemplo suponha que queiramos transformar a variável Cidade (que é
alfanumérica) do nosso banco de dados lazer.sav numa variável numérica. Se
quisermos fazer determinadas análises usando a cidade de origem teremos
que executar esse procedimento.
Para isso basta usar a opção Automatic Recode presente no menu Transform.
Uma janela (ver Figura 111-6) é aberta e a primeira coisa a fazer é mover a
variável a ser recodificada para o quadro central Variable -> New Name. No
nosso caso moveremos a variável Cidade. Como uma outra coluna será criada
para armazenar a nova variável é preciso dar um nome para
SPSS Treinamento pag. 36
essa coluna, digamos Cidade2. Devemos colocar essa informação no retângulo
logo abaixo do quadro central e dicar New Name.
A última decisão a ser tomada é quanto à ordem da recodificação, que pode
ser em ordem alfabética crescente ou decrescente, usando uma das opções:
Recode Starting from:
Lowest Value (ordem crescente) ou Highest Value (ordem decrescente).
Podemos escolher por exemplo Lowest Value e clicar 0K. Feito isso o resultado
da recodificação é mostrado na janela de saídas (ver Figura 111-7). Note que
antes da recodificação a variável Cidade assumia os valores São Paulo, Rio de
Janeiro e Brasifia. Após a recodificação a nova variável criada, Cidade2,
assume os valores 1, 2 e 3 já com os rótulos relacionados (lado direito).
4. Cálculo de novas variáveis usando o procedimento Compute
Vamos agora estudar um outro recurso de transformação de dados: a criação
de uma nova variável como função de variáveis já existentes. Vamos utilizar as
variáveis Trabalho e Lazer. Nosso interesse é investigar qual a porcentagem de
lazer em relação às horas gastas com trabalho mais lazer. Por exemplo, se a
pessoa trabalha 60 horas por semana e gasta 20 horas com lazer, ela gasta
25% do tempo dela de trabalho(+)lazer com lazer. Para chegar a esse
SPSS Treinamento pag. 37
número a operação que fizemos foi muito simples: soma-se as horas de
trabalho e lazer (trabalho+lazer); divide-se o número de horas de lazer por essa
soma (lazer/(trabalho+lazer)) e ,multiplica-se o resultado por 100.
Nosso objetivo agora é criar no banco de dados uma nova variável, com nome
p_lazer, que contenha a informação desejada. Para isso basta entrar no menu
Transform e clicar opção Compute. Uma janela (ver Figura 111-8) é aberta com
as seguintes características: um quadro no canto esquerdo apresenta uma lista
com todas as variáveis existentes no banco de dados que podem ser usadas
para o cálculo da nova variável, para selecioná-las basta clicar a seta ao lado;
um quadro no canto superior esquerdo designado por Target Variable, onde
digitaremos o nome da variável a ser criada; um quadro à direita na parte
superior designado por Numeric Expression, onde devemos escrever a função
(envolvendo as variáveis já existentes no arquivo) que permitirá o cálculo da
nova variável; um quadro central com uma série de botões que contém desde
funções matemáticas (+, -, , etc) até funções lógicas (&, etc); e no quadro
inferior direito, Functions, há um vasto conjunto de funções, desde soma,
multiplicação até arco-tangente, logaritmo neperiano, entre outras, que também
podem ser usadas na construção da expressão numérica.
No nosso caso, a expressão a ser criada é (Lazer/(Trabalho+Lazer))* 100.
Selecionamos a variável Lazer do quadro esquerdo, clicamos o símbolo /
presente no quadro central da janela; em seguida clicamos o símbolo ( ),
selecionamos a variável Lazer, o símbolo + e a variável Trabalho; agora basta
clicar o símbolo * e o número 100. Poderíamos, ainda, ter escrito a expressão
digitando diretamente no quadro Numeric Expression.
SPSS Treinamento pag. 38
Agora que nossa função já está pronta, devemos dar um nome a nova variável.
Digitamos p lazer no quadro superior esquerdo Target Variable, e clicamos 0k
(ver Figura 111-9). Urna nova variável com nome p_lazer será adicionada à
janela de dados na primeira coluna vazia.
SPSS Treinamento pag. 39
5. Exercícios
1 - Abra o banco de dados Banco.sav, que está no formato SPSS.
2 - Utilize o procedimento Recode para, baseado nos valores da variá:el Salário
Atual (salário) criar uma nova variável com as características a seguir:
Após a criação de Faixa Salarial, entre na sua janela de definição e mude seu
nível de medidas para Ordinal.
3 - Crie uma variável que representará a porcentagem de aumento que os
funcionários do banco tiveram desde que entraram na empresa. O nome da
nova variável será PERCENT e seu rótulo será ‘Porcentagem de Aumento”.
Dica: essa variável pode ser criada através da construção de uma função que
envolva os valores do Salário Inicial (salarin) e Atual (salário) dos funcionários.
Utilize o procedimento Compute.
4 - Salve o arquivo com as modificações feitas até agora, no formato do SPSS
com o nome de Novobanco.sav.
SPSS Treinamento pag. 40
IV. Tabelas
Nem sempre as tabelas feitas automaticamente pelo SPSS estão prontas para
apresentação da maneira que você gostaria ou por exemplo a visualização dos
resultados não está satisfatória. Porém, o SPSS tem recursos poderosos para
deixar sua tabela da maneira que você quiser e o que é melhor, de uma
maneira muito fácil e rápida.
Nesta seção iremos manipular tabelas, trabalhar com estratos e identificadores
e mudar características como fonte, cor, etc.
Começaremos criando uma tabela pelo procedimento Crosstabs (menu
Analyze, opção Descriptive Statistics) do SPSS (posteriormente veremos
detalhadamente as opções e a funcionalidade dessa janela), com as variáveis
sexo, filhos e estcivil do arquivo Lazer.sav, como na Figura IV- 1.
A Figura IV-2 mostra a tabela criada pelo SPSS. Para editá-la, você pode clicar
duas vezes2 sobre a tabela ou então clicar apenas uma vez com o botão direito
do mouse e
SPSS Treinamento pag. 41
selecionar a opção SPSS Pivot Table Object... Open. Escolhendo a segunda
maneira, o SPSS abre uma janela própria para editar a tabela selecionada e é
melhor que a primeira especialmente quando você tem uma tabela muito
grande.
2 Posteriormente veremos como mudar a ação padrão que o SPSS executa quando clicamos duas vezes
numa tabela.
Vamos supor que você queira dividir a tabela primeiro pelo número de filhos e
depois pelas categorias de sexo, ou então mostrar apenas um subgrupo das
pessoas estudadas (por exemplo só as mulheres), ou ainda passar a
informação do número de filhos para as colunas e do estado civil para as
linhas. Tudo isso pode ser feito usando os ícones de organização (Pivoting
Trays) como veremos a seguir.
1. Usando os ícones de organização
Para acionar os ícones de organização, caso não estejam ativados, dique no
menu Pivot e escolha a opção Pivoting Trays (veja a Figura IV-3). A região
cinza Row representa os elementos que estão nas linhas que nosso caso são
as variáveis sexo e filhos (coloque o mouse sobre um dos dois ícones e será
mostrado o que ele representa), a região Column representa os elementos das
colunas (no nosso caso, um ícone representando a variável est ci vil) e
finalmente a região Layer representa as camadas de tabelas que podemos ter.
A tabela pode ser pensada como se estivesse armazenada em camadas
(layers), onde apenas a camada de cima está visível. Por exemplo, se você
colocar a variável sexo na parte Layer, o SPSS divide a tabela em duas
camadas, uma para o sexo masculino e outra para o sexo feminino.
SPSS Treinamento pag. 42
Note que os ícones dessa região possuem duas setas, que servem para você
mudar a categoria (camada) que é apresentada na janela de saídas, sendo que
você pode depois mandar o SPSS imprimir apenas a tabela mostrada na janela
ou todas as tabelas.
Vamos, por exemplo, dividir a tabela em duas camadas de acordo com o sexo,
arrastando seu ícone da região Row para a região Layer. Dessa maneira, você
pode mudar a disposição da sua tabela à vontade (veja na Figura PJ-7 dois
exemplos do uso dos ícones de organização, incluindo a divisão da tabela de
acordo com sexo).
No momento a sua tabela deve estar mostrando apenas os homens (que é a
primeira categoria de sexo); para mudar para as mulheres você pode proceder
como dissemos anteriormente, clicando nas setas pretas ao lado do icone Sexo
até você achar a categoria desejada ou clicar na seta ao lado da categoria da
variável sexo mostrada na própria tabela (veja a Figura 1V-4).
SPSS Treinamento pag. 43
Suponha agora que você queira guardar urna ou mais configurações para uma
posterior revisão, apresentação ou para marcar importantes descobertas na
sua tabela. Para tal tarefa vamos utilizar os identificadores (bookmarks)
clicando em Pivot e depois em Bookmarks. Na janela aberta (ver Figura 1V-5)
escolhemos um nome para o identificador e depois clicamos em Add. No nosso
exemplo, vamos criar um identificador para a nossa configuração atual (só
mulheres) e depois vamos selecionar a categoria masculino de sexo e solteiro
de estcivil (após passar o ícone estcivíi para a dimensão Layer) e criar um
identificador para essa nova configuração. Posteriormente para acessar
qualquer identificador basta acessar novamente a opção Bookmarks do menu
Pivot, escolher o identificador e clicar em Go to, ou então clicar em View e
depois Toolbar (para mostrar a barra de. ferramentas de formatação) e
escolher o identificador da lista. A barra de ferramentas de formatação é
mostrada na Figura IV-6.
Finalmente, no menu Pivot, você tem a opção de transpor as linhas e colunas
da sua tabela escolhendo a opção Transpose Rows and Columns. Isto tem o
mesmo efeito de arrastar todos os ícones da região Column para a região Row
e vice-versa.
SPSS Treinamento pag. 44
2. Modificando as células
Quando você tiver a disposição da sua tabela da maneira ideal, você pode
modificar a formatação das células. Para isso, selecione as células que você
gostaria de editar e escolha a opção Ceil Properties... do menu Format (veja na
Figura 1V-8), onde você poderá modificar o formato dos valores para número,
data, tempo ou monetário, e ajustar o número de dígitos decimais mostrados
clicando em Value. Selecionando Alignment você ajusta o alinhamento vertical
e horizontal e direção do texto para a(s) célula(s). Em Margins você modifica a
distância dos valores a cada uma das margens, porém não esqueça de levar
em conta o alinhamento que você deu à célula. Por último em Shading, você
pode mudar a porcentagem de sombreamento baseado nas cores de frente e
fundo (Foreground e Background colors). Isto não muda a cor do texto. Para
mudar a cor e tipo de fonte do texto você pode selecionar
SPSS Treinamento pag. 45
Font... no menu Format (Figura IV—9) ou ativar a barra de ferramentas de
formatação (Formatting toolbar) escolhendo no menu View a opção Toolbar
(veja Figura lV-6).
SPSS Treinamento pag. 46
Você pode ainda ajustar o comprimento das células movendo o mouse pelos
rótulos da categoria até a borda direita da coluna que você gostaria de mudar.
O cursor mudará para uma flecha com duas pontas, depois deixe o botão do
mouse apertado até arrastar a borda para sua nova posição. A Figura IV-10
mostra uma tabela editada, posteriormente iremos ver como modificar as
bordas e as várias propriedades de uma tabela em geral e o uso de
TableLooks.
SPSS Treinamento pag. 47
V. Um Pouco de Estatística Descritiva
Nesta seção vamos definir alguns conceitos básicos que nos ajudarão a
entender melhor a linguagem estatística do SPSS.
População - conjunto de todos os elementos sobre os quais temos
interesse em estudar, por exemplo, se estamos interessados em
investigar qual será o próximo presidente do Brasil nossa população é o
colégio eleitoral do país;
Na maioria das vezes não temos condições de pesquisar todos os elementos
de uma população, por razões como tempo e dinheiro. Portanto uma alternativa
para podermos realizar o estudo é pesquisar apenas parte dos elementos da
população, ou seja uma amostra.
Amostra - é constituída por qualquer subconjunto de elementos de uma
população;
Variável - qualquer característica de interesse dos elementos da
população; exemplos: intenção de voto para presidente, idade, sexo,
altura, entre outras;
1. Nível de medida das variáveis
Como vimos anteriormente as variáveis podem ser classificadas em três tipos
no SPSS de acordo com o seu nível de medida. Vamos recordar esses tipos:
• Escalar (Scale): quando os dados são valores numéricos numa escala
intervalar ou de razão (ex: idade, renda, peso, altura).
• Ordinal: quando os dados representam categorias com uma ordem intrínseca
(ex:
pequeno, médio, grande; concordo totalmente, concordo, discordo, discordo
totalmente).
• Nominal: quando os dados representam categorias sem ordem intrínseca (ex:
as categorias de estado civil, ocupação, nacionalidade).
A importância de se conhecer os tipos de variáveis existentes está ligada à
forma que a variável deverá assumir no banco de dados, bem como ao tipo de
análise descritiva e inferencial que a mesma deverá ser submetida.
No momento de definição de variáveis categóricas, a maneira mais natural
seria defini-las como alfanuméricas (tipo string). Entretanto, muitos
procedimentos estatísticos no SPSS não
SPSS Treinamento pag. 48
podem ser realizados com variáveis desse tipo. Assim, uma sugestão seria
defini-las como numéricas e codificá-las. Por exemplo:
• País de origem: 1 Alemanha; 2 = Bélgica: ... ; 18 = Venezuela.
• Sexo: 1 = Masculino; 2 = Feminino.
2. Distribuição de frequências
Para entendermos melhor o comportamento de uma variável categórica uma
das medidas resumo que pode ser usada é a tabela de frequência. Através
dessa tabela podemos descobrir o número (ou porcentagem) de ocorrências de
cada uma das categorias da variável.
Tabelas de frequência também podem ser construídas para variáveis não
categóricas que assumam um número pequeno de valores. Por exemplo, o
número de filhos, que geralmente assume os valores O, 1, 2 3 e 4.
A tabela abaixo (Figura V-1) apresenta a distribuição de frequência da variável
estado civil. Notamos que a categoria mais frequente é a dos solteiros com 13
pessoas, e representa 41.9% do total de respondentes. A categoria menos
frequente é a dos viúvos com 3 pessoas e representa apenas 9.7% do total de
respondentes. As categorias casado e separado/divorciados apresentam cada
uma 8 e 7 pessoas, respectivamente.
Devemos ressaltar que para variáveis escalares que apresentam muitos
valores diferentes a construção de tabelas de frequência não nos traz nenhuma
informação relevante na descrição dos dados. Nesse caso uma alternativa
seria criar categorias baseadas nos valores da variável, ou seja categorizar
essa variável, e contar o número de ocorrências em cada categoria. O
procedimento Recode pode ser usado para criar a variável categórica.
SPSS Treinamento pag. 49
Na tabela abaixo (Figura V-2), apresentamos a distribuição de frequências da
variável idade dividida em 4 faixas etárias. Notamos que as pessoas dessa
amostra são muito jovens, pois 48,4% têm menos do que 25 anos (15
pessoas). Sete pessoas têm entre 26 e 35 anos, seis pessoas entre 36 e 45
anos e apenas 3 pessoas têm mais do que 45 anos.
Quando trabalhamos com variáveis escalares algumas medidas resumo”
podem ser usadas para obtermos uma descrição mais apurada dos dados.
Essas medidas são divididas basicamente em duas classes, as medidas de
posição e as medidas de variabilidade. Faremos a seguir um resumos desses
dois grupos e apresentaremos as medidas mais conhecidas e importantes.
3. Medidas de posição
As medidas de posição são muito importantes para a descrição dos dados.
Geralmente usadas para variáveis escalares (pois muitas vezes não
acrescentam nenhuma informação no estudo de variáveis categóricas) essas
medidas nos dão uma boa ideia da magnitude dos dados.
Suponha por exemplo que você está interessado em descrever as horas gastas
semanalmente com trabalho de um grupo de 31 pessoas. Uma opção seria
imprimir uma listagem dos 31 valores ordenados e estudá-los um a um. Quanto
maior for a amostra mais complicado será analisar a variável dessa maneira.
Imagine o trabalho que você teria com uma amostra de 1500 pessoas!
Precisamos, portanto, encontrar uma maneira de condensar a informação
através da construção de índices ou medidas que facilitem nossa análise.
SPSS Treinamento pag. 50
Podemos apresentar os valores mínimo e máximo que a variável assume na
amostra. Esse par de valores determina o intervalo de variação da variável em
estudo. No caso das horas de trabalho o mínimo é O e o máximo 70, ou seja,
ninguém trabalha menos de O horas ou mais de 70 horas por semana.
Vamos pensar novamente na listagem dos valores ordenados do menor paia o
maior. Já comentamos que essa lista não nos ajuda muito. Mas se, ao invés de
olharmos a lista toda, escolhermos alguns valores de maneira conveniente
poderemos tirar proveito da informação. Os valores mínimo e máximo são um
exemplo.
Uma outra medida de interesse é o valor que divide os dados ao meio, ou seja
o valor que deixa pelo menos 50% das observações ordenadas à esquerda. No
caso das horas de trabalho esse valor é o número 40, portanto 50% das
pessoas trabalham até 40 horas por semana. Esse valor é denominado de 502
percentil. Um determinado percentil é o valor da variável de estudo que divide
os dados ordenados em grupos de modo que um certo percentual está acima
desse valor e o restante abaixo.
O 25, 502, e o 752 percentis são denominados respectivamente de 1Q., 2 e 32
quartis, pois dividem o conjunto de dados em quatro grupos.
O 102, 202, 3Q2 902 percentis são denominados respectivamente de 1Q, 22,
32, •., 92 decis, pois dividem os dados em 10 grupos
Vamos agora estudar um pouco sobre algumas medidas que nos trazem
informações sobre o valor central da distribuição dos nossos dados.
A mais famosa dentre todas as medidas de posição é certamente a média
aritmética. Fácil de ser calculada a média aritmética é simplesmente a soma de
todas as observações dividida pelo número delas. Para as horas de trabalho a
média é 37.9 horas.
Apesar das características descritas acima a média é uma medida muito
influenciada por valores extremos. Observe o valor da média para os dois
conjuntos de dados abaixo:
Notamos que nos dois conjuntos os valores são idênticos a não ser pelo último
valor que no primeiro é 6 e no segundo é 30. O valor da média passou de 4
para 7.43.
Nesse caso, como alternativa podemos calcular uma outra medida que não é
influenciada por valores extremos. Essa medida é conhecida como mediana. A
mediana nada mais é do que o 22 quartil, que já foi discutido. Relembrando,
essa medida é o valor que deixa pelo menos 50% das observações à sua
esquerda. Para os dois conjuntos de dados apresentados acima:
SPSS Treinamento pag. 51
Note que, apesar da alteração do último valor no segundo conjunto de dados, a
mediana permanece inalterada. Por essa razão, dizemos que a mediana é uma
medida mais robusta do que a média.
Uma outra medida de centralidade não muito utilizada é a moda. A moda nada
mais é do que o valor mais frequente do conjunto de dados. Para variáveis que
apresentam muitos valores diferentes, a moda não traz nenhuma informação
relevante. Porém, pala variáveis categóricas, numéricas que assumem um
número pequeno de valores ou escalares categorizadas a moda nos dá a
informação da categoria mais frequente.
Nos exemplos do estado civil e faixa etária a moda é, respectivamente, 1 e 1.
Portanto para amostra estudada o estado civil mais frequente é o solteiro
(estado civil=1) e a faixa etária mais frequente é a primeira, com pessoas de
até 25 anos (faixa etária=’l).
4. Medidas de variabilidade
Analisando os dois conjuntos de dados abaixo notamos que apesar das médias
serem iguais, os conjunto têm uma diferença grande com relação a
homogeneidade dos valores.
No primeiro conjunto todos os valores são iguais a 2 e portanto iguais a média
(dados totalmente homogêneos). Já no segundo conjunto os valores não são
todos iguais (dados heterogêneos) embora a média continue sendo 2.
Seria importante agora, expressar a variabilidade dos dados através de alguma
medida numérica. Para que essa medida fosse coerente ela deveria assumir o
valor zero apenas se todos os dados fossem iguais (ex. conjunto 1). Além
disso, quanto maior fosse a variabilidade do conjunto de dados, maior seria o
valor da medida.
Uma medida bastante simples e fácil de ser calculada é a amplitude. A
amplitude nada mais é do que o valor máximo menos o valor mínimo de um
conjunto de dados. No caso dos conjuntos 1 e 2 a amplitude é igual a O e 4,
respectivamente. Uma desvantagem dessa
SPSS Treinamento pag. 52
medida é que ela é muito influenciada por valores extremos. Além disso ela
não leva em conta a variabilidade entre todas as observações do conjunto de
dados. Observe no exemplo abaixo que apesar de a amplitude ser a mesma
para os dois conjuntos, o primeiro aparenta ser mais homogêneo:
A próxima medida que apresentaremos tenta corrigir esse “defeito’ da
amplitude. Em primeiro lugar iremos considerar as distâncias de todas as
observações a um valor central, a média. Após o cálculo de todas as distâncias
(diferenças), faremos a sua soma. Para refinar um pouco a medida podemos
dividir a soma pelo número total de observações. Acompanhe o cálculo da
medida proposta no exemplo a seguir:
Deixamos para você verificar que para qualquer conjunto de dados a medida
apresentada acima é sempre zero. Dessa maneira é impossível trabalhar com
essa medida para estudar a variabilidade dos dados. Fazendo, porém, uma
pequena mudança na medida acima obteremos a famosa variância. A variância
nada mais é do que a soma das diferenças das observações em relação à
média elevadas ao quadrado, dividida pelo número total de observações.
Dessa maneira a variância será sempre positiva e só assumirá o valor zero se
todas as observações do conjunto de dados forem iguais. Para o conjunto de
dados acima a variância é dada por:
Devemos porém tomar cuidado ao analisar essa medida, pois ao elevarmos as
diferenças ao quadrado estamos mudando a unidade de medida dos dados.
Por exemplo se os números do conjunto 1 estão expressos em metros a
variância estará expressa em metros quadrados. Para contornar esse problema
foi criado o desvio padrão, que nada mais é do que
SPSS Treinamento pag. 53
a raiz quadrada da variância (voltamos portanto à unidade de medida original).
Para o conjunto de dados acima o desvio padrão é dado por:
Ainda baseado no desvio padrão existe uma medida que tenta expressar a
variabilidade da média e não a variabilidade dos dados como um todo. Essa
medida é chamada de erro padrão da média, ou simplesmente erro padrão, e é
obtida pela divisão do desvio padrão pela raiz quadrada do número de
observações. Para o conjunto de dados acima o erro padrão é:
Conforme já foi mencionado anteriormente, existem vários tipos de variáveis e
é razoável pensar que cada tipo deva receber um tratamento específico; afinal,
não faz sentido calcular a média da variável Opção (Qual sua primeira opção
para as horas de lazer?), nem tão pouco fazer uma tabela de dupla entrada
para Ida de e Trabalho (Horas de trabalho por semana) com seus valores
absolutos.
Se estamos trabalhando com variáveis categóricas nominais, digamos Estcivii
(estado civil), não faz sentido calcularmos medidas como média ou variância já
que não existe uma ordem natural das possíveis respostas. Podemos, por
exemplo, pedir uma tabela de frequências e calcular a moda.
Para as variáveis ordinais surgem algumas novas opções, já que agora as
respostas assumem uma ordem natural; este é o caso da variável Escola (Grau
de instrução), onde a ordem natural é 12 grau incompleto, lQ. grau completo,
22 grau incompleto, e assim por diante até superior completo. Nesse caso,
além da distribuição de frequências e da moda, podemos calcular medidas
como mediana, mínimo e máximo.
As variáveis escalares são as que apresentam mais opções para análise
descritiva; é o caso da variável Idade, onde além de mediana, quartis e
percentis, podemos também calcular média, desvio padrão, valores mínimo e
máximo, medidas de assimetria e curtose (relacionadas à distribuição da
variável) etc. Além disso, se quisermos uma distribuição de frequências e moda
podemos fazê-lo transformando a Ida de em variável qualitativa ordinal,
digamos FaixaEt
SPSS Treinamento pag. 54
(exatamente como fizemos anteriormente através do comando Recode
presente no menu Transform).
Como veremos a seguir, o SPSS apresenta procedimentos para o cálculo de
todas as medidas descritas acima e algumas outras. É importante ressaltar que
o SPSS não saberá decidir qual é o tipo de medida adequada para as variáveis
existentes no seu estudo; cabe a. você decidir
SPSS Treinamento pag. 55
VI. Comandos do SPSS para Análise Descritiva
Os comandos relacionados a análise descritiva encontram-se nas opções
Reports e Descriptive Statistics do menu Analyze. Figura VI-1 apresenta as
opções de Descriptives Statistics. Vamos agora estudar as opções mais
usadas.
1. OLAP Cubes
A primeira opção do menu Analize. ..Reports é OLAP Cubes. Esse
procedimento é utilizado para a construção de relatórios e estes podem se
tomar bem flexíveis graças ao uso dos ícones de organização. A construção
dos relatórios é simples, basta preencher os quadros da janela mostrada na
Figura VI-2 com as variáveis desejadas. A seguir detalharemos os quadros.
SPSS Treinamento pag. 56
No quadro Summary Variable(s) coloque as variáveis para as quais você
deseja que ele calcule medidas descritivas como médias, somas, percentuais,
mínimos, máximos, etc.; geralmente as variáveis nesse quadro são
quantitativas. Como exemplo, vamos colocar as variáveis idade, trabalho e
lazer.
No quadro abaixo Grouping Variable(s), coloque variáveis para as quais você
gostaria que sejam criados subgrupos. No nosso exemplo, colocaremos as
variáveis sexo, estci vil e escola.
Clicando no botão Statistics... você escolhe quais as estatísticas que serão
calculadas. Como padrão temos: soma, número de casos, média, desvio-
padrão, percentual sobre a soma total, percentual sobre o N total; várias outras
estatísticas como mediana, mínimo, máximo e variância, podem ser escolhidas
(veja Figura VI-3). No nosso exemplo removeremos a soma (sum) e o
percentual sobre a soma total (percent of total sum). Depois basta clicarmos
em Continue.
SPSS Treinamento pag. 57
Finalmente ao clicar no botão Titie... (ver Figura VI-4), você pode escolher um
título e uma legenda para a tabela, que poderão ser modificados
posteriormente. Após a digitação do título e da legenda dique em Continue.
Agora basta clicar no botão 0K e teremos nosso relatório como na Figura \TJ-5.
SPSS Treinamento pag. 58
Inicialmente, temos o número de casos, a média, o desvio-padrão e o
percentual sobre o número de casos para as variáveis idade, trabalho e lazer
considerando todos os casos, independentemente de sexo, estado civil e grau
de instrução. Assim, por exemplo, temos para a idade que:
- O número de pessoas que responderam a idade é 3
- A idade média dessas pessoas é 28,9 anos e o desvio-padrão é 11,31 anos;
- Elas representam 100% das pessoas que responderam a idade (por enquanto
essa coluna é inútil).
Vamos editar a tabela e mostrar subgrupos baseados em sexo, estado civil e
escolaridade; dique com o botão direito do mouse na tabela e escolha a opção
SPSS Pivot Table Object - Open.
Primeiro vamos selecionar apenas os homens; para isso dique na seta ao lado
da palavra Total associada a sexo e selecione masculino da lista que irá
aparecer. De maneira similar, vamos selecionar as categorias solteiro e
superior incompleto. Agora nossa análise para a idade ficaria assim (ver Figura
VI-6):
- O número de homens solteiros com superior incompleto que responderam a
idade é 4;
- A idade média desses homens é 20,75 anos e o desvio-padrão é 1,26 anos;
- Eles representam 12,9% das pessoas que responderam a idade.
SPSS Treinamento pag. 59
Usando os ícones de organização você poderia mostrar apenas uma estatística
por vez, todos os grupos de uma ou mais variáveis na mesma tabela, etc. A
Figura VI-7 mostra essa versatilidade e lembre-se que você também pode usar
os identificadores (bookmarks) para marcar aquelas configurações que mais
lhe interessa
Usando os ícones de organização você poderia mostrar apenas uma estatística
por vez, todos os grupos de uma ou mais variáveis na mesma tabela, etc. A
Figura VI-7 mostra essa versatilidade e lembre-se que você também pode usar
os identificadores (bookmarks) para marcar aquelas configurações que mais
lhe interessa
SPSS Treinamento pag. 60
Na parte inferior temos um quadro chamado Statistics. Esse quadro apresenta
várias opções de medidas estatísticas (ver Figura VI-9). Devemos tomar
cuidado pois nem todas as medidas apresentadas trazem informações
relevantes para o estudos das variáveis em questão. As medidas estão
divididas em 4 grupos:
Percentile Values - no canto superior esquerdo essa opção possibilita o
cálculo dos quartis (Quartiles), decis (Cut points for 10 equal groups -
você pode mudar o número 10 para qualquer divisão que desejar) e
quaisquer percentis (Percentile(s)) de interesse;
Central Tendency - no canto superior esquerdo essa opção possibilita o
cálculo da média (Mean), mediana (Median), moda (Mode) e soma
(Sum);
Dispersion - no canto inferior esquerdo essa opção possibilita o cálculo
do desvio padrão (Std. deviation), variância (Variance), amplitude
(Range), valor mínimo (Minimum), valor máximo (Maximum) e erro
padrão da média (SE. mean);
Distribution - no canto inferior direito essa opção possibilita o cálculo de
duas medidas de distribuição: Kurtosis e Skewness. A kurtosis é uma
medida do achatamento da distribuição e skewness é um índice que
reflete a simetria da distribuição em torno de um valor central.
Devemos decidir agora dentre todas essas medidas aquelas que são
adequadas para as variáveis prog-tv e peças. Como ambas são nominais
apenas a moda trará alguma informação relevante.
SPSS Treinamento pag. 61
Um outro quadro que aparece na parte inferior da janela principal é o Charts.
Esse quadro apresenta três gráficos como opção: histograma com ou sem uma
curva normal (Histograms marcando ou não a opção With normal curve),
gráfico de barras (Bar charts), e gráfico de Pizza (Pies), como mostrado na
Figura VI-lO. Note que apesar de apresentar um menu exclusivamente para
gráficos (menu Graphs) o SPSS também possibilita a construção de gráficos
dentro de procedimentos estatísticos.
Discutiremos alguns dos tipos de gráficos mais utilizados na seção seguinte.
Por hora, vamos escolher a opção Bar charts.
SPSS Treinamento pag. 62
O último quadro que aparece na parte inferior da janela principal é o Format.
que inclui opções de ordem estética (ver Figura VI-li). Através do quadro Order
by controlamos a ordem em que as categorias da variável são apresentadas na
janela de saídas. As opções disponíveis são por ordem crescente (ou
decrescente) dos valores que a variável assume e crescente (ou decrescente)
de frequências. Se você marcar a opção Suppress tables with more than
categories, o SPSS não irá fazer nenhuma tabela que tiver mais do que um
certo número de categorias, sendo que o padrão é 10. Finalmente no quadro
Multiple Variables, caso você tenha pedido estatísticas para suas variáveis,
você pode escolher que essas estatísticas saiam numa só tabela (Compare
variables) ou uma tabela para cada variável separadamente (Organize output
by variables). No nosso exemplo, vamos escolher a opção Ascending counts
do quadro Order by.
Escolhidas todas as opções podemos clicar 0K. Feito isso o SPSS ativa a
janela de saídas e apresenta o resultado da frequência (ver Figura VI-12).
Você deve perceber que duas distribuições de frequências são apresentadas.
Uma para a variável progtv e outra para peças. A distribuição de frequências
apresenta os rótulos dos valores, o número de observações em cada categoria
(Frequency); a porcentagem que a frequência representa no total de
observações levando-se em conta valores ausentes (Percent);
a percentagem que a frequência representa no total de observações
desconsiderando os valores ausentes (Valid Percent) e o percentual válido
acumulado (Cum Percent).
Acima da distribuição de frequências, a moda também é apresentada no
quadro Statistics (lembre-se que escolhemos a opção mode no quadro
Statistics).
SPSS Treinamento pag. 63
Temos ainda os gráficos de barras localizados na janela de saídas. Olhando o
gráfico apresentado referente à variável progtv, por exemplo, notamos com
facilidade que o tipo de programa preferido é filme (barra maior) e que o menos
preferido é programa humorístico (menor barra) como mostra a Figura VI-13.
É fácil perceber que a informação contida em um gráfico é muito mais simples
de ser interpretada do que a informação numérica. É por esse motivo que os
gráficos são tão importantes na etapa de análise exploratória de dados.
SPSS Treinamento pag. 64
3. Descriptives
A segunda opção de Descriptive Statistics é o procedimento Descriptives. De
maneira similar ao procedimento Frequencies temos a opção de incluir as
variáveis que julgarmos necessárias (vamos colocar Trabalho e Lazer) ao
quadro central Variable(s) (ver Figura VI-14). Essa opção geralmente é usada
quando temos interesse em estudar variáveis escalares de maneira rápida.
SPSS Treinamento pag. 65
O quadro inferior direito Options apresenta medidas estatísticas que podem ser
usadas para descrição dos dados (ver Figura VI-15). Existem dois grupos de
medidas idênticos aos já discutidos anteriormente na opção Statistics do
procedimento Frequencies, são eles Dispersion e Distribution. Além dessas
medidas podemos pedir para o SPSS apresentar a média (Mean) e a soma
(Sum) das variáveis em estudo, O último quadro, Display Order, nos permite
escolher a ordem com que os resultados serão apresentados na janela de
saídas:
crescente ou decrescente de médias, alfabética ou a ordem em que as
variáveis aparecem na lista. Este quadro é útil quando estamos estudando
mais do que uma variável.
No nosso caso podemos escolher, por exemplo, as medidas mínimo, máximo,
média, desvio padrão e erro padrão, em ordem decrescente de médias.
Agora basta cicar 0K na janela principal e analisar os resultados que são
apresentados na janela de saídas (ver Figura VI-16).
SPSS Treinamento pag. 66
Notamos que em média as pessoas entrevistadas nesse estudo trabalham 37.9
horas por semana e têm 16.85 horas de lazer. Além disso o máximo de horas
trabalhadas foi 70 e o mínimo 0, enquanto que o máximo de horas de lazer foi
40 e o mínimo 2.
4. Crosstabs
A quarta opção de Descriptive Statistics é o procedimento Crosstabs que é
usado para construção de tabelas simples (geralmente de dupla entrada).
Imagine que temos duas variáveis qualitativas e estamos interessados em
observar a distribuição de frequências de ambas em conjunto. Para isso,
construímos uma tabela onde uma variável entra com suas categorias em
linhas e a outra em colunas. Podemos então fazer um estudo descritivo sobre o
comportamento conjunto das variáveis. Porém, muitas vezes queremos mais
do que
SPSS Treinamento pag. 67
simplesmente observar. Queremos, também, verificar se existe efetivamente
assoc:ação entre tais variáveis. Então precisamos utilizar testes estatísticos
(análise inferencial). Vários testes estatísticos estão disponíveis no
procedimento Crosstabs.
A Figura VI-17 mostra as opções do procedimento Crosstabs. No canto
esquerdo estão disponíveis todas as variáveis do banco de dados. Para
construção da tabela basta movermos a variável cujas categorias desejamos
dispostas nas linhas para o quadro Row(s) localizado no centro da janela e a
variável cujas categorias desejamos dispostas nas colunas para o quadro
Column(s). Note que podemos colocar mais do que uma variável nos quadros
Column(s) e Row(s). Entretanto, através do comando Crosstabs serão
construídas várias tabelas de dupla entrada a partir de combinação das
variáveis duas a duas. Se você deseja construir uma tabela com mais de duas
entradas (envolvendo 3 variáveis ou mais) você pode usar o quadro Layer,
porém você terá opções ilimitadas de estatísticas e customização; neste caso,
o módulo Tables é indicado, já que ele possui recursos avançados para a
customização e criação de tabelas.
Suponha que estamos interessados em verificar se existe alguma associação
entre a preferência religiosa e a região do país nos E.U.A., abrindo, para isso, o
arquivo GSS93Treinamento.sav. Moveremos então a variável Região (região4)
para o quadro Column(s) e Preferência religiosa (religião) para o quadro
Row(s).
Se você marcar a opção Display clustered bar charts serão feitos gráficos de
barras com as variáveis pedidas e a opção Suppress tables faz com que
nenhuma tabela seja feita; apenas as estatísticas, testes e gráficos pedidos
serão mostrados na janela de saídas.
SPSS Treinamento pag. 68
Aparece ainda na janela quatro pequenos botões (ou três, caso você não tenha
o módulo SPSS Exact Tests instalado) na parte inferior:
Exact - como dito acima, essa opção só estará disponível se o módulo
Exact Tests for instalado; indicado para estudos onde as suposições
dos testes assintóticos não estão satisfeitas (por exemplo, uma amostra
pequena); apresenta dois procedimentos para cálculo do nível
descritivo: método Monte Cano (baseado em sirnulações) e o método
Exato (ver Figura VI-18);
Statistics - deve ser usado para selecionar os testes estatísticos que
serão realizados; note que são apresentados nesse quadro catorze
testes estatísticos diferentes; cada um deles é apropriado para
verificarmos suposições diferentes sobre as variáveis em questão (ver
Figura VI-19); vamos selecionar a estatística Chi-square que é usada
para testar a hipótese de que as variáveis que definem as linhas e
colunas são independentes;
Celis - essa opção é usada para escolha das medidas que serão
apresentadas em cada uma das células da tabela (ver Figura VI-20); as
possíveis medidas apresentadas são: frequências ou valores
observados (Counts.. Observed); valores esperados, isto é, frequências
calculadas assumindo que as variáveis são independentes (Counts..
Expected); porcentagens por linha, coluna e total (Percentages.. Row,
Column e
SPSS Treinamento pag. 69
Total) e vários tipos de resíduos, que são a diferença entre o valor observado e
esperado (quadro Residuais); pediremos, para nosso exemplo, os valores
observados e as porcentagens por coluna;
1 Format - usada apenas para escolher a ordem em que as categorias
(valores) da variável apresentada nas linhas da tabela serão apresentadas
(Row Order), que pode ser crescente ou decrescente (Ascending ou
Descending);
SPSS Treinamento pag. 70
O passo mais importante agora é saber interpretar todos os resultados
presentes na janela de saídas, senão todo o trabalho que tivemos até agora foi
apenas perda de tempo A Figura ‘11-21 apresenta o resultado da tabela de
dupla entrada feita através do procedimento Crosstabs
Note que dentro de cada célula são apresentados os dois valores pedidos:
Count que representa a frequência e % within Region representando a
porcentagem sobre a coluna (a variável Região). Essa disposição pode ser
facilmente modificada usando os ícones de organização como já visto; note na
Figura ‘11-21 a diferença com a tabela que você tem na tela do seu
computador.
SPSS Treinamento pag. 71
Além da tabela também é apresentada na janela de saídas a estatística de qui-
quadrado. Através dos valores apresentados saberemos se existe alguma
evidência para concluir que as variáveis que representam a região dos E.U.A. e
religião são estatisticamente relacionadas (dependentes). Valores das
estatísticas de qui-quadrado de Pearson e da razão de verossimilhança são
apresentados; a mais usada e conhecida é a de Pearson, que no nosso caso
tem valor 109.104. Como o nível de significância, Asymp. Sig. (ver Figura VI-
22), associado a essa estatística é muito baixo (menor que 0.0965) temos
evidência suficiente para afirmar que as variáveis são relacionadas.
A terceira linha da tabela nos mostra uma estatística (Lineai-by-Linear
Association) que mede a associação linear entre as variáveis da linha e da
coluna. Esta estatística não deve ser usada para variáveis nominais (nosso
caso, por exemplo) e também é chamada de teste de qui-quadrado de Mantel-
Haenszel.
Você deve ter percebido que as opções disponíveis em Reports e Descriptive
Statistics para análise descritiva são usadas para obter diferentes informações
sobre os dados. É importante lembrar que, embora o SPSS seja um software
muito fácil de operar, o bom senso do usuário é fundamental; em outras
palavras, a cada passo que pretendemos dar, é preciso pensar antes se a
análise faz sentido ou não, pois se pedirmos ao SPSS que calcule a média
para a variável estcivil do nosso arquivo Lazer.sav, ele o fará, mas a resposta
obtida certamente não fará sentido algum.
SPSS Treinamento pag. 72
5. Exercícios
1 — Abra o arquivo Novobanco.sav. Construa uma tabela usando o
procedimento OLAP
Cubes para mostrar o número de casos, média, desvio padrão e percentual
sobre o número total de casos das variáveis Anos de Estudo (estudo), Salário
Atual (salário) e Experiência Prévia (exp ant). Para visualizar subgrupos, use as
variáveis Sexo, Pertence a alguma minoria étnica? (minoria) e Categoria de
Emprego (catemp).
2- Utilize o procedimento Frequencies presente no menu Analyze.. Descriptive
Statistics para estudar o comportamento das variáveis Sexo e Categoria de
Emprego (catemp). Peça ainda através desse procedimento um gráfico de
barras para cada uma das variáveis e faça uma análise dos mesmos
posteriormente.
3 - Analise o comportamento das variáveis Salário Inicial (salarin), Salário Atual
(salário) e Porcentagem de Aumento (percent) através do cálculo das seguintes
estatísticas: média, mínimo, máld.mo e desvio-padrão. Utilize o procedimento
Descriptives.
4 - Construa tabelas de dupla entrada através do procedimento Crosstabs para
as variáveis Faixa Salarial (faixasal) e Sexp.. Apresente em cada célula o valor
observado e a porcentagem pela coluna. Peça também o cálculo da estatística
de qui-quadrado. Baseado nos resultados, que conclusões você pode tirar a
respeito da relação entre as variáveis?
5 - Construa um cruzamento entre as variáveis Faixa Salarial (faixasal) nas
colunas e pertence a alguma minoria étnica? (minoria) nas linhas, dividindo por
Sexo. Utilize o procedimento Crosstabs e faça uso do quadro Layer para fazer
a divisão por sexo.
6 - Edite a tabela feita no exercício anterior, mostrando apenas as mulheres,
mudando a variável Faixa Salarial (faixasal) para as linhas e Pertence a alguma
minoria étnica? (minoria) para as colunas. Selecione algumas células e
modifique a cor, coloque em negrito e centralize seu conteúdo.
SPSS Treinamento pag. 73
VII. Gráficos Não interativos
Abordaremos nesse capítulo aspectos elementares para produção de gráficos
nãointerativos3 no SPSS. A maneira com que a informação é apresentada nos
gráficos permite uma interpretação mais fácil e intuitiva dos dados. Isso faz
com que eles sejam uma ferramenta muito importante para análise exploratória
dos dados.
Como já foi mencionado, é no menu Graphs que encontramos todos os tipos
de gráficos gerados pelo SPSS. Esse menu apresenta mais de 10 tipos de
gráficos diferentes. A decisão sobre qual dos tipos é mais adequado vai
depender do tipo de variável(eis) que você possui e da informação que você
quer obter sobre elas. Precisamos ter alguns cuidados para não produzir
gráficos que não trazem informação relevante ao nosso estudo, como por
exemplo um gráfico de barras (Bar) para uma variável que contenha o valor da
altura das pessoas.
Vamos discutir a construção e aplicabilidade dos gráficos do tipo pizza, barras
e diagrama de dispersão.
1. Gráfico de pizza
Para estudar o gênero de peças de teatro preferido das pessoas vamos
construir um gráfico de pizza. Selecionamos a opção Pie do menu Graphs.
Devemos decidir entre as três opções que são apresentadas na Figura VII- 1.
3 A partir da versão 8.0 do SPSS existem dois tipos de gráficos: interativos e não-interativos. As principais
diferenças do gráfico interativo para o não-interativo é que você têm muitas outras opções para edição, pode arrastar e largar variáveis e atualizar o gráfico, dividi-lo em painéis múltiplos para comparação lado a lado e colá-lo em outras aplicações como objetos Active-X. Posteriormente estudaremos essa opção.
SPSS Treinamento pag. 74
Cada uma das opções apresentadas é adequada para uma situação diferente:
Depois de escolhida a opção a ser usada, no nosso caso a primeira, basta
clicar Define e uma janela para definição do gráfico é aberta (ver Figura Vll-2).
Devemos mover para o quadro Define Slices by a variável cujas categorias
definirão os pedaços da pizza, no nosso caso Qual seu estilo preferido de
peças (peças). A largura de cada pedaço é determinada pela função escolhida
no quadro Slices Represent. As seguintes opções estão disponíveis:
Além das opções descritas acima, ainda podemos dar um título ao gráfico
através do botão Tities, no canto inferior direito; escolher opções referentes ao
tratamento dado a valores ausentes através do botão Options ou fazer uso da
opção Template, que será comentada adiante.
SPSS Treinamento pag. 75
Para o tipo de peça preferido podemos usar, por exemplo,o número de casos
(N o! cases) para determinar a largura dos pedaços da pizza. Vamos
acrescentar um título e uma legenda ao nosso gráfico, bastando para isso,
clicar em Titles, escolher um título, subtítulo e/ou legenda e clicar em Continue.
Agora basta clicar 0K. O SPSS desenha o gráfico e o apresenta na janela de
saídas (ver Figura VII-4).
SPSS Treinamento pag. 76
Notamos que o gênero de peça preferido das pessoas é a comédia. A mesma
porcentagem de pessoas prefere os gêneros tragédia e musical. Além disso
urna porcentagem razoavelmente grande de pessoas não opinou sobre o
gênero teatral preferido. É possível que essas pessoas não frequentam teatros.
O gráfico apresentado pelo SPSS pode não estar exatamente no formato que
você deseja. Porém com algumas edições você pode modificar muito a
apresentação do seu gráfico.
Essas modificações são feitas através de uma janela própria para a edição de
gráficos não interativos gerados pelo SPSS. Para transferir um gráfico da
janela de saídas para sua própria janela de edição basta clicar duas vezes
sobre ele.
Isso feito o gráfico de pizza aparece agora em uma outra janela de nome Chart
1 - SPSS Chart Editor. Note que nessa janela uma nova barra de ferramentas é
apresentada, além de um novo grupo de menus. E é através dessas
ferramentas que faremos as modificações desejadas.
SPSS Treinamento pag. 77
a) Omitindo pedaços da pizza
Você pode decidir quais dos pedaços da pizza omitir sem ter que redefinir todo
o gráfico. O menu Series permite que você especifique quais pedaços que você
deseja omitir (além d outras modificações diferentes para outros tipos de
gráfico).
Podemos, por exemplo, omitir o pedaço que contém os valores ausentes. Para
isso basta clicar o menu Series.. Displayed (ver Figura VII-5). Abre-se uma
janela que possui um quadro chamado Slices na parte inferior. Todas as
categorias presentes no lado direito, Display, serão mostradas no gráfico. Para
omiti.r alguma dessas categorias basta movê-las para o quadro no canto
esquerdo, Omit. Dessa maneira moveremos a categoria Missing para o quadro
Omit e clicamos 0K. A Figura Vll-6 apresenta o gráfico já sem os valores
ausentes.
SPSS Treinamento pag. 78
Para destacar um ou mais pedaços do seu gráfico, você pode explodi-lo. Para
isso, basta selecionar o pedaço desejado (clicando em tal pedaço) e clicar no
ícone ou clicar no menu Format.. Explode Slice. Por exemplo, podemos
explodir a categoria musical, destacando-a das demais (veja Figura VII-7)
SPSS Treinamento pag. 79
Para a construção do novo gráfico você tem a opção de substituir o gráfico de
pizza clicando em Replace. Isso significa que o SPSS desenha o gráfico de
barras na mesma janela em que está o gráfico de pizza e você perde a
customização já feita para o mesmo. A Figura VII-9 apresenta o novo gráfico.
Algumas mudanças também podem ser feitas nesse gráfico. Podemos
sombrear, mudar a cor e o padrão das barras, etc...
SPSS Treinamento pag. 81
a) Gráficos de barras envolvendo mais de uma variável
O gráfico de barras da Figura VlI-9 apresenta a distribuição do tipo de peça
favorita de todas os respondentes. Você pode criar, no SPSS um gráfico de
barras do tipo agrupado. Nesse caso uma outra variável categórica pode ser
usada além do tipo de peça favorita, por exemplo, sexo. A informação obtida no
gráfico (se as barras representarem o número de casos) é equivalente à obtida
a partir de uma tabela de dupla entrada, ou seja, o gráfico apresentará o
gênero de peça favorito dos homens e mulheres.
Para definir tal gráfico temos que selecionar no menu Graphs.. Bar, a opção
Clustered. Uma janela é aberta na qual faremos a opção pelo tipo Clustered
(ver Figura VII-10).
O quadro Data in Chart Are apresenta as mesmas opções do gráfico do tipo
Pie, que já foram discutidas anteriormente na página 73. No nosso caso
escolheremos a opção Summaries for groups of cases.
Para especificar as variáveis que definirão o gráfico devemos clicar o quadro
Define no canto superior direito. A janela de definição é aberta (ver Figura Vil-
li). O quadro Bars Represent apresenta as mesmas opções do quadro Slices
Represent presentes no gráfico do tipo Pie, que já foram discutidas na página
75. Escolheremos a opção Nºof cases, para que as barras representem o
número de casos.
Opções como inserção de título (Tities) utilização de Template e o quadro
Options (para tratamento dos valores ausentes) também estão presentes nessa
janela.
SPSS Treinamento pag. 82
Ainda falta informar ao SPSS quais variáveis irão compor o gráfico. Para isso
dois quadros foram reservados:
1 Category Axis - a variável escolhida para ocupar esse quadro definirá as
categorias presentes no eixo horizontal do gráfico;
f Define Clusters by - as categoria da variável escolhida para ocupar esse
quadro determinarão o número de barras que serão apresentados para cada
categoria da variável usada como Category Axis; cada uma das barras
definidas pelas categorias dessa variável receberá uma cor diferente;
No nosso caso usaremos o Sexo como Category Axis e Qual seu estilo
preferido de peças (peças) como variável de definição de Cluster.
Após todas as definições basta clicar 0K e o SPSS desenha o gráfico na janela
de saídas. A Figura VII-12 apresenta o gráfico resultante.
Faremos agora algumas modificações no gráfico para melhorar seu aspecto,
movendo-o para a janela de edição como descrito anteriormente.
SPSS Treinamento pag. 83
Dois ícones presentes na barra de ferramentas são responsáveis pela
mudança de padrão e cor dos objetos selecionados (por exemplo, barras,
rótulos, títulos, molduras etc.). Estes ícones são: e respectivamente.
Mudaremos em primeiro lugar o padrão das barras. Precisamos escolher a(s)
barra(s) para as quais desejamos efetuar a mudança, fazendo isso com um
dique do mouse dentro da barra. Vamos selecionar por exemplo a(s) barra(s)
referente(s) ao gênero comédia. Agora basta um dique no ícone e uma janela
com oito tipos de padrões diferentes é aberta (ver Figura VII-13). Escolhemos
aquele que mais nos agrada com um dique. Para validar a mudança basta
clicar Apply no canto superior direito. Para fechar essa janela basta clicar
Close.
SPSS Treinamento pag. 84
Abriremos agora a janela para mudança de cor. Precisamos escolher a(s)
barra(s) para as quais desejamos efetuar a mudança com um dique de mouse
dentro da(s) barra(s). Vamos selecionar por exemplo a barra referente ao
gênero tragédia. Agora basta um dique de mouse no ícone e uma janela para
mudança de cor é aberta (ver Figura VII-14).
Escolhemos a cor desejada com um dique em uma das 16 opções
apresentadas ou podemos criar a cor desejada através do quadro Edit no canto
inferior direito. Para validar a mudança basta clicar Apply no canto superior
direito. Para fechar essa janela basta cicar Close.
c) Mudando o estilo dos rótulos e barras
O estilo das barras também pode ser mudado no SPSS. Três estilos diferentes
para gráficos não interativos estão disponíveis. Com um dique no ícone
abrimos a janela para
SPSS Treinamento pag. 85
mudança de estilo (ver Figura VII-15). Os três estilos disponíveis são: simples
(Normal), sombreado (Drop shadow) e tridimensional (3-D effect).
Escolhendo estilo sombreado ou tridimensional, ainda podemos optar pela
profundidade do efeito, através da opção Depth presente no canto inferior
esquerdo. Como padrão, o valor presente nesse quadro é 20. Vamos optar
pelo efeito tridimensional. Para validar a mudança basta dicar Apply Ali. Para
fechar essa janela basta clicar Close.
Podemos inserir rótulos com valores que representam o número de casos em
cada barra. Os rótulos serão apresentados dentro das barras e podem ser
customizados. Com um dique no ícone abrimos a janela que nos permite inseri-
los (ver Figura VII-16). Três opções estão disponíveis: sem rótulos (None),
inserção dos números (Standard), inserção dos números dentro de uma
moldura (Framed).
Escolheremos a opção Framed. Para validar a opção, clicamos o quadro Apply
Ali. Para fechar essa janela basta clicar Close.
SPSS Treinamento pag. 86
d) Mudando as opções das fontes gráficas das seleções
Podemos mudar o tipo e tamanho da fonte de qualquer seleção do gráfico,
como títulos, legendas, anotações etc.; para isso, basta selecionarmos o objeto
que gostaríamos de modificar e clicar no ícone , que fará com que uma
janela seja aberta (ver Figura I-17), a qual poderemos fazer as mudanças
desejadas. Após escolher a fonte e o tamanho, dique em Apply.
A orientação das barras também pode ser mudada de vertical para horizontal e
vice- versa. Para isso basta clicar o ícone .
e) O menu Chart
Várias outras mudanças importantes, como inserção de título, rótulos dos
eixos, linhas de referência, anotações, inclusão ou exclusão de moldura interna
ou externa, etc., podem ser efetuadas através do menu Chart. Tomaremos
como exemplo a criação de uma anotação no gráfico; para isso, escolha a
opção Annotation do menu Chart e uma janela será aberta (ver Figura Vll-18).
Nessa janela você pode escolher o texto, a justificação, a inclusão de uma
moldura em torno texto e a posição no eixo das categorias e eixo Y. Feita a
definição da sua anotação, não esqueça de clicar em Add.
SPSS Treinamento pag. 87
O gráfico resultante após todas as mudanças é apresentado na Figura VII-19.
SPSS Treinamento pag. 88
3. Diagramas de dispersão
Os gráficos de barras e pizza vistos anteriormente são indicados para variáveis
categóricas (nominais ou ordinais). Estudaremos agora um outro tipo de gráfico
que é indicado para variáveis escalares.
Na pesquisa sobre lazer realizada foram coletadas as seguintes variáveis:
horas de trabalho por semana (trabalho) e horas gastas com lazer por semana
(lazer). É razoável imaginar que quanto mais a pessoa trabalha menos tempo
ela tem para gastar com lazer. O diagrama de dispersão é um gráfico que vai
nos ajudar a investigar se essa relação entre as horas de trabalho e lazer é
plausível.
Um diagrama de dispersão é um gráfico que apresenta em cada um dos eixos
(dois eixos no nosso caso) os valores das variáveis em questão. Pala nosso
exemplo, os valores das horas de trabalho podem ser apresentados no eixo X
(horizontal) e os valores das horas de lazer no eixo Y (vertical). Para cada
respondente um ponto será plotado.
Uma vez na janela de dados ou na janela de saídas, basta clicar a opção
Scatter no menu Graphs e uma janela é aberta (ver Figura ‘/11-20). É através
dessa janela que escolheremos o tipo de diagrama de dispersão adequado ao
nosso estudo.
Simple - nesse tipo de gráfico para cada caso um ponto é plotado; cada
ponto representa os valores de duas variáveis;
Overlay - esse tipo de gráfico permite a sobreposição de vários gráficos
do tipo Simple;
Matrix - essa opção permite a construção de uma matriz quadrada de
diagramas de dispersão do tipo Si.mple; são construídos dois diagramas
para cada combinação das variáveis especificadas, sempre duas a
duas;
3-D - nesse tipo de gráfico para cada caso da janela de dados um ponto
é plotado; cada ponto representa os valores de três variávei.s; os pontos
são plotados em um sistema de coordenadas tridimensional que pode
ser rotacionado posteriormente;
SPSS Treinamento pag. 89
Como temos interesse na relação entre duas variáveis apenas, o tipo indicado
para nosso caso é o Simple. A janela para definição do gráfico é acessada
através do botão Define no canto superior direito. A Figura VII-21 apresenta
essa janela.
Podemos mover variáveis para quatro quadros presentes na parte central da
janela de
definição:
Y Axis - a variável escolhida para esse quadro vai determinar a posição
vertical de cada ponto no gráfico;
X Axis - a variável escolhida para esse quadro vai determinar a posição
horizontal de cada ponto no gráfico;
Set Markers by - os pontos referentes a cada uma das categorias dessa
variável serão apresentados em cores ou marcadores diferentes no
gráfico;
Label Cases by - você pode ver os valores da variável escolhida para
esse quadro plotados em cima de determinados pontos do diagrama de
dispersão, usando posteriormente o ícone na janela de edição. Se
rótulos foram definidos para essa variável,eles serão plotados ao invés
dos valores;
SPSS Treinamento pag. 90
Escolheremos a variável horas gastas com lazer por semana (lazer) para o
quadro Y Axis, horas de trabalho por semana (trabalho) para X Axis, sexo para
Set Marker by e estado civil (estcivil) para Label Cases by. Opções como
inserção de título (Tities), utilização de Template e o quadro Options também
estão presentes nessa janela.
Depois de feitas todas as definições basta clicar 0K e o SPSS apresenta o
gráfico resultante na janela de saídas. Clicando duas vezes no gráfico, você
entrará na janela de edição, onde poderá, por exemplo, mudar o tamanho e o
estilo dos marcadores do gráfico clicando no ícone (ver Figura VII-22)
ou mudar o tipo de interpolação de linha clicando em . Note que não faz
sentido mudar a interpolação de linha no nosso exemplo de gráfico de
dispersão.
Nosso gráfico de dispersão, com estilo e tamanho dos marcadores
modificados, está na Figura ‘/11-23.
SPSS Treinamento pag. 91
Por causa do número pequeno de pontos, fica difícil dizer algo sobre a possível
relação entre as duas variáveis; talvez fosse necessário realizar uma nova
pesquisa com um número maior de casos. Além disso, lembre-se que sempre
que você estiver falando de um gráfico seus resultados não serão conclusivos.
O gráfico serve para nos dar indicações sobre as hipóteses que levantamos e
não conclusões. Os dados apresentados no gráfico são baseados apenas nas
pessoas que responderam o questionário (amostra) e não na população toda.
Para podermos concluir, com um certo grau de confiabilidade, se existe relação
entre as horas de trabalho e as horas de lazer precisamos fazer um teste
estatístico (análise inferencial). Lembrando, é claro, que para toda análise
inferencial existe um erro associado.
4. Templates e exportação de gráficos
Como vimos anteriormente a produção de gráficos no SPSS é feita de maneira
muito simples através do menu Graphs. Escolhemos, dentre as muitas opções,
o tipo de gráfico adequado e especificamos a(s) variável(eis) juntamente com o
tipo de resumo desejado. Além disso podemos especificar título, subtítulo e
nota de rodapé. Uma vez pronto, o gráfico é colocado na janela de saídas e
pode ainda ser modificado através de sua própria janela de edição.
SPSS Treinamento pag. 92
Vamos supor que desejamos produzir uma série de gráficos similares. Algumas
características como título, subtítulo, tipo de letra, cor e padrão podem ser
aplicados a vários gráficos ao mesmo tempo, sem a necessidade de especificá-
las novamente para cada um dos gráficos separadamente. Isso pode ser feito,
no SPSS, através da criação de Templates Gráficos.
Para construir um template gráfico, hasta editar um gráfico e salvá-lo como
template gráfico, escolhendo a opção Save Chart Template do menu File da
janela de edição de gráficos. Note que o arquivo salvo terá a terminação .sct
(de SPSS Chart Template).
Quando você for utilizar um template, você terá duas opções para aplicá-lo no
seu gráfico:
1. Na janela de criação do gráfico, marcar a opção Use chart specifications
from, dicar em File e escolher algum arquivo de template gráfico;
2. Na janela de edição do gráfico, escolher a opção Apply Chart Template do
menu Format, escolher algum arquivo de template gráfico e dicar em Open
Ainda na janela de edição de gráficos, você pode exportar o seu gráfico
escolhendo um dos formatos disponíveis no SPSS: JPEG (padrão), CGM,
PNG, Macintosh PICT, PostScript, TIF, Windows Bitmap (BMP) e Windows
Metafile (WMF). Para exportá-lo, selecione a opção Export Chart do menu File,
escolha o formato em Save as Type, um nome para o arquivo a ser criado e
dique em Save. A Figura VIl-24 mostra a janela de exportação de gráficos com
suas opções de formatos.
SPSS Treinamento pag. 94
VIII. Manipulação de Dados
1. Ordenação de casos
Antes de realizarmos qualquer análise é comum termos que “preparar” os
dados para que possamos obter a informação desejada.
Uma das necessidades na hora da manipulação dos dados em nosso dia a dia
é a ordenação dos casos segundo uma ou mais variáveis. Para fazer isso no
SPSS você pode usar o procedimento Sort Cases presente no menu Data.
Após clicar o menu Data, opção Sort Cases, uma janela é aberta (ver Figura
VIll-1). Movemos para o quadro Sort by a variável segundo a qual o arquivo
deve ser ordenado. Podemos mover para esse quadro mais do que uma
variável. Nesse caso o arquivo é ordenado, em primeiro lugar, pelos valores da
primeira variável presente no quadro e em segundo lugar pela segunda variável
presente no quadro; a segunda ordenação é feita para os valores comuns da
primeira variável e assim por diante.
Podemos escolher também entre ordem crescente ou decrescente de
ordenação para cada uma das variáveis. Isso é feito através do quadro Sort
Order, opções Descending (decrescente) ou Ascending (crescente).
Vamos fazer uma ordenação segundo sexo (ordem crescente) e idade (ordem
decrescente). Para isso movemos a variável sexo para o quadro Sort by e
escolhemos a opção Ascending no quadro Sort Order. Movemos em seguida a
variável ida de para o quadro Sort by e escolhemos a opção Descending no
quadro Sort Order. Agora basta clicar 0K para validar a ordenação.
SPSS Treinamento pag. 95
Você pode notar na Figura \TIII1 que aparece a letra A (ou a palavra
Ascending) na frente da variável sexo e a letra D (ou a palavra Descending) na
frente da variável idade. Isso indica a ordem pela qual será feita o ordenação
para cada uma das variáveis.
A Figura \TIII-2 mostra a janela de dados após a ordenação. Note que as 19
primeiras linhas contém informações referente a pessoas do sexo masculino
(sexo=1); além disso a primeira linha do arquivo contém as informações do
homem mais velho e a linha 19 do mais jovem. As demais linhas contém as
informações das mulheres (sexo=2) também ordenadas pela idade.
Dica sobre ordenação: Você pode ordenar os dados direto da janela de dados
sem usar a opção Sort Cases do menu Data. Para isso, basta selecionar as
variáveis que definem a ordenação (você pode usar as teclas Ctrl ou Shift para
selecionar várias variáveis), cicar com o botão direito do mouse no nome de
qualquer uma das variáveis selecionadas e escolher Sort Ascending ou Sort
Descending.
SPSS Treinamento pag. 96
2. Seleção de casos
Outra grande necessidade é a seleção (temporária ou permanente) de parte do
arquivo de dados. Digamos que estamos interessados em estudar um
segmento específico da amostra
O SPSS possui várias formas de seleção de dados. Falaremos nessa seção de
todas elas, mas discutiremos detalhadamente a mais usada de todas. Para
maiores detalhes sobre as demais formas de seleção recomenda-se que o
leitor use o manual do SPSS for Windows.
Para fazer qualquer tipo de seleção devemos clicar o menu Data opção Select
Cases ou clicar no ícone . A janela aberta é apresentada na Figura Vffl-3.
No quadro central Select estão presentes cinco opções diferentes para
seleção. Faremos a seguir uma breve descrição de cada uma delas.
Ali cases - opção usada como padrão; utiliza todas as observações do
banco de dados;
If condition is satisfied - através dessa opção podemos definir
expressões condicionais para seleção de casos; estudaremos essa
opção detalhadamente mais adiante;
Random sample of cases - podemos selecionar uma porcentagem
aproximada ou um número exato de casos dos n primeiros casos; a
seleção é feita aleatoriamente;
SPSS Treinamento pag. 97
Based on time or case range - usamos essa opção quando estamos
interessados em selecionar uma faixa específica de valores, por
exemplo os casos de número 100 até 200; também utilizada para fazer
seleções baseadas em datas (por exemplo, selecionando todos os
dados do mês de fevereiro até outubro);
User filter variable - escolhemos uma variável no banco de dados e
usamos corno filtro; todos os casos para os quais a variável filtro
assume o valor O ou ausente não serão selecionados.
Você tem duas opções para o tratamento dos casos que não serão
selecionados. É através do quadro Unselected Cases Are que podemos fazer a
escolha:
Filtered - os casos (linhas) que não são selecionados não são mcluídos
nas análises posteriores, porém permanecem na janela de dados; caso
você mude de idéia e queira usar os casos não selecionados na mesma
sessão do SPSS basta “desligar” o filtro (usando a opção Ali Cases no
quadro Select);
Deleted - os casos (linhas) não selecionados são apagados da janela de
dados; caso você mude de idéia e queira usar os casos não
selecionados você deverá ler novamente o arquivo de dados original.
Suponha que estamos interessados em selecionar as pessoas que tra.balham
pelo menos 40 horas por semana e que têm até 20 horas de lazer. A função
condicional para seleção nesse caso é dada por:
trabalho >= 40 AND lazer < 20
Portanto o tipo de seleção de dados que faremos deve possibilitar a criação de
sentenças matemáticas lógicas para seleção dos casos. Para isso, clicamos
em If condition is satisfied, e entramos na caixa de diálogo If....
Através da janela que é aberta (ver Figura VlII-4) usamos o quadro superior
para escrever uma função lógica na qual a seleção vai ser baseada. Para a
construção da função podemos usar todas as variáveis que estão no quadro à
esquerda e as funções disponíveis no quadro inferior direito.
Uma vez escrita a função que determina a regra de seleção dos casos, dique
Continue, e você voltará à janela anterior. No quadro inferior (Unselect cases
are), vamos optar pelo modo Filtered (ou seja, os casos não selecionados
permanecem na tela de dados, porém não serão utilizados em análises futuras)
e clicar 0K.
Você pode perceber que depois de feita a seleção, a janela de dados sofre
algumas alterações (ver Figura VII1-5). As linhas (casos) que não foram
selecionadas apresentam uma listra no canto esquerdo da janela de dados. A
barra de status ,localizada na parte inferior da janela, apresenta a mensagem
Filter On. Além disso uma variável de nome filter_$ é adicionada à janela de
dados. Essa nova variável apresenta valor O para as linhas que não foram
selecionadas e valor 1 para as linhas que foram selecionadas.
Apesar de você conseguir ver os casos que não foram selecionados qualquer
análise efetuada daí pra frente não levará em conta esses casos.
A Figura VIII-6 apresenta o resultado de uma análise descritiva feita através do
menu Analyze.. Descriptive Statistics.. Descriptives para a variável trabalho.
Note que o número médio de horas trabalhadas é 43.06, o valor mínimo é 40
horas e apenas 16 observações foram usadas para esses cálculos. Isso parece
óbvio, já que usamos trabalho >=40 como parte do critério de seleção.
SPSS Treinamento pag. 99
Podemos mudar de ideia e querer usar todas as observações para o cálculo
das estatísticas. Temos duas maneiras de cancelar a seleção de casos, se a
opção Fiitered foi usada para efetuar a seleção. A primeira delas é ativar a
opção Ali Cases da janela de seleção de casos (opção Select Cases do menu
Data) e clicar 0K. A segunda maneira é apagar a variável filter $ do banco de
dados.
Usando agora a mesma opção do menu Analyze.. Descriptive Statistics para a
variável trabalho o resultado apresentado na Figura VlII-7 é bem diferente do
apresentado anteriormente, quando a seleção de casos estava ativa.
SPSS Treinamento pag. 100
Note que o número de casos usados nos cálculos passou de 16 para 30, a
média de horas trabalhadas abaixou para 37,90 e agora o mínimo de horas
trabalhadas é 0 horas.
3. Procedimento Split File
Vamos supor agora que após uma série de análises chegamos à conclusão de
que o comportamento dos homens e das mulheres são completamente
diferentes com relação as preferências para horas de lazer. Não faz sentido,
portanto, apresentar a análise do questionário de opinião sobre lazer com os
homens e mulheres juntos. No fundo o que pretendemos fazer, daqui pra
frente, são duas análises idênticas, uma para cada sexo.
Para esse tipo de situação podemos utilizar o procedimento Split File, presente
no menu Data ou acessado através do ícone (ver Figura VllI-8). Como padrão
sempre analisamos todos os casos juntos, sem separação por grupos. Por
esse motivo a opção selecionada na janela é Analyse ali cases. Podemos
separar a análise de acordo com as categorias da variável escolhida (ou
combinação das categorias de várias variáveis, se for o caso) escolhendo
Compare groups ou Organize output by groups. A opção Compare groups faz
com que os grupos sejam apresentados juntos para comparação e a opção
Organize output by groups mostra os resultados de cada procedimento do
SPSS organizados separadamente para cada grupo4.
4 Esta diferença só vale para as tabelas (pivot tables). Para os outros tipos de saída essas duas
opções são idênticas.
Escolhida uma das duas ultimas opções, podemos mover para o quadro
Groups based on a variável (ou variáveis) que definirão os grupos para os
quais a análise deve ser repetida. Se mais do que uma variável for
selecionada, os grupos serão definidos pela combinação das categorias de
todas as variáveis. Podemos ainda escolher se o banco de dados deve ser
ordenado pela variável que definirá os grupos (Sort the file by group variables)
ou se nenhuma ordenação deve ser feita ( File is aiready sorted). Tenha em
mente que, se o arquivo não estiver ordenado por essas variáveis, o
procedimento Split File não funcionará corretamente.
SPSS Treinamento pag. 101
No nosso caso selecionamos Organize output by groups, escolhemos a
variável sexo e movemos para o quadro Groups Based on e cicamos 0k. A
única mudança que acontece na janela de dados é a mensagem Split File On
na barra de status. Porém qualquer análise ou gráfico feitos de agora em diante
vão gerar dois resultados, um para os homens e outro para as mulheres. A
Figura \TIll-9 apresenta o resultado de uma análise descritiva feita através do
menu Analyze..Descriptive Statistics.. Descriptives para a variável trabalho
usando a opção Organize output by groups.
Note que os resultados são apresentados separadamente para cada categoria
da variável sexo.
SPSS Treinamento pag. 102
Podemos mudar de ideia e querer usar todas as observações para o cálculo
das estatísticas. Para cancelar o procedimento Split File basta ativar a opção
Anaiyse ali cases presente na janela de definição da opção Split File no menu
Data.
4. Procedimento Aggregate
O procedimento Aggregate combina grupos de casos em um único caso e cria
um novo banco de dados agregados. Os casos são agregados baseados fios
valores de uma ou mais variáveis. O novo arquivo conterá um caso para cada
grupo. Por exemplo, suponha que você tenha um banco de dados onde cada
caso representa um município do Brasil; você poderia agregar esses dados
criando um novo arquivo com uma linha para cada estado.
Como exemplo, usaremos o arquivo Rede de FastFood.sav, que contém dados
sobre itens de várias redes de fast food norte americanas. Nosso objetivo é
criar um arquivo que
SPSS Treinamento pag. 103
contenha uma linha para cada rede, tendo como variáveis o preço médio dos
itens, a quantidade média de gordura, de calorias, etc.
Para isso devemos então selecionar a opção Aggregate... do menu Data. Na
janela aberta (ver Figura Viu-lO) temos que escolher uma ou mais variáveis
que definirão os grupos (Break Varjables); no nosso caso escolheremos rede,
que é a variável que contém a rede qo qual o riem pertence. No quadro
Aggregate Variable(s) colocamos as variáveis que queremos no novo arquivo;
note que a função padrão usada para agregar os dados para as variáveis é a
média, mas podemos mudar essa função para qualquer variável, clicando em
Function. Além disso, você pode colocar a mesma variável várias vezes no
quadro Aggregate Variable(s), o que significa que você pode ter no novo
arquivo,várias colunas representado funções diferentes dessa variável.
Você pode ainda, criar uma variável no novo arquivo que contenha o número
de casos que foram agregados por grupo. No nosso caso, chamaremos essa
variável de N_itens, representando o número de itens que estão sendo
estudados por cada cadeia de fastfood.
Finalmente, deve ser escolhido se o SPSS salva o resultado num novo arquivo
de dados (opção default - Create new file) ou se ele fecha o arquivo atual e
mostra o resultado do procedimento aggregate na janela de dados (opção
Replace working data file), sendo que você deve salvar esse arquivo
posteriormente. O arquivo criado usando a opção Create new file será gravado
no diretório corrente com o nome de aggr.sav, mas você pode mudá-lo clicando
em File....
SPSS Treinamento pag. 104
O resultado do procedimento pode ser visualizado na Figura Viu-li.
SPSS Treinamento pag. 105
5. Exercícios
1- Ordene o arquivo Mundo95.sav usando a opção Sort Cases segundo as
variáveis
Região ou grupo econômico (região) em ordem crescente e População em
milhares (populami) em ordem decrescente.
2 - Peça tabelas de frequência para as variáveis Região ou grupo econômico
(região) e Clima predominante (clima). Após a anáiise de sua saída, faça uma
seleção dos países que tenham Expectativa média de vida feminina (expvidaf)
menor do que 75 anos e Índice de alfabetismo (aifabet) menor do que 80%.
Peça novamente as tabelas e gráficos anteriores e compare os resultados.
3 - Certifique-se que todos os casos do banco de dados estão selecionados e
construa tabelas de frequência e gráficos de pizza (usando Frequencies) para
as variáveis Religião predominante (religião) e Clima predominante (clima) para
cada categoria da variável Região ou grupo econômico (região). Utilize o
procedimento Split File para pedir a quebra por região.
4 - Um hospital tem um banco de dados sobre seus pacientes contendo uma
variável chamada paciente (representando o código do paciente) e uma outra
variável chamada data_.int (data da internação do paciente). O hospital
gostaria que você criasse um arquivo com apenas uma linha para cada
paciente com uma variável contendo o número de internações e outra contendo
a última internação do paciente. Utilize o procedimento Aggregate substituindo
o arquivo atual ao invés de gravar um novo arquivo.
Os dados para esse exercício estão no arquivo hospital.sav.