apostila spss parte 1.pdf

spss

Módulo Base

Conceitos e

Recursos

Volume 1

spss

Módulo Base

Conceitos e Recursos

Volume 1

SPSS Treinamento pag. 2

1. Introdução___________________________________________________ 3

1. Passos de uma análise estatística_________________________________ 3

2. Família SPSS for Windows ______________________________________ 4

3. Visão geral do SPSS for Windows ________________________________ 5

II. Sobre o Banco de Dados_______________________________________ 15

1. Como criar seu próprio banco de dados___________________________ 15

2. Criando várias variáveis com as mesmas características _____________ 21

3. Formas de importação e exportação de dados _____________________ 24

4. Importação de arquivos de dados do tipo Excel ou Lotus______________ 25

5. Exercícios 29

III. Transformação de Dados _____________________________________ 30

1. Recodificação usando o procedimento Recode _____________________ 30

2. Recodificação automática para criação de faixas ____________________ 33

3. Recodificação automática de variáveis alfanuméricas________________ 35

4. Cálculo de novas variáveis usando o procedimento Compute__________ 36

5. Exercícios __________________________________________________ 39

IV. Tabelas____________________________________________________40

1. Usando os ícones de organização _______________________________ 41

2. Modificando as células ________________________________________ 44

V. Um Pouco de Estatística Descritiva______________________________ 47

1. Nível de medida das variáveis___________________________________ 47

2. Distribuição de frequências _____________________________________ 48

3. Medidas de posição ___________________________________________49

4. Medidas de variabilidade _______________________________________51

VI. Comandos do SPSS para Análise Descritiva_______________________ 55

1. OLAP Cubes_________________________________________________55

2. Frequencies _________________________________________________59

3. Descriptives_________________________________________________64

4. Crosstabs ___________________________________________________66

5. Exercícios __________________________________________________ 72

VII. Gráficos Não-Interativos_______________________________________73

1. Gráfico de pizza______________________________________________73

2. Gráfico de barras ____________________________________________ 79

3. Diagramas de dispersão _______________________________________ 88

4. Ternplates e exportação de gráficos_______________________________91

5. Exercícios __________________________________________________ 93

VIII. Manipulação de Dados_______________________________________94

1. Ordenação de casos __________________________________________94

2. Seleção de casos _____________________________________________96

3. Procedimento Split File _______________________________________100

4. Procedimento Aggregate _____________________________________ 102

5. Exercícios__________________________________________________105


1. Passos de uma análise estatística

Em nosso dia a dia, vivemos constantemente rodeados por potenciais fontes

de dados, que podem ser funcionários de uma empresa (se estivermos

interessados em avaliar seu desempenho antes e após um treinamento)

pacientes de uma clínica (se quisermos estudar tempo de reação a uma

determinada droga) objetos uma linha de produção (se quisermos avaliar

quantidades de peças defeituosas produzidas) dos índices da bolsa de valores

(se nosso alvo são as projeções econômicas). Por hora, vamos supor que

estamos interessados em estimar a altura média dos brasileiros do sexo

masculino com mais do que 25 anos. Em geral não temos recursos financeiros

ou mesmo tempo suficiente para entrevistar cada pessoa e, por isso, é preciso

selecionar um grupo ou uma amostra de pessoas. Esta etapa é chamada de

coleta de dados que é seguida do devido armazenamento dos mesmos.

Uma vez reunidas as informações, frequentemente esses dados precisam

passar por alguma transformação. Se a altura das pessoas tivesse sido tomada

em pés e polegadas, seria conveniente transformá-la para centímetros. Esta é

a etapa de transformação de dados, que poderia se estender a cálculos bem

mais complexos.

Finalmente os dados estão prontos para a análise a qual será dividida em duas

fases. A primeira é chamada de descritiva, na qual como o próprio nome diz

descreveremos os dados. Alguns procedimentos utilizados nessa etapa são:

construção de tabelas e gráficos, cálculo de medidas como média, variância,

etc. No estudo sobre a altura dos brasileiros, por exemplo, poderíamos ter

como primeiros resultados: a altura média na amostra entrevistada é de 168 cm

com um desvio padrão de 12 cm. Mas daí a dizer que esta é a altura média do

brasileiro do sexo masculino com mais do que 25 anos é um grande passo, que

deve ser dado com muito cuidado. É então que entra a segunda parte da

análise, a análise inferencial. Com a ajuda de testes estatísticos, poderemos

mais do que simplesmente dizer qual a altura média do brasileiro, mas também

associar uma certa confiabilidade a tal conclusão.

Depois de tanto trabalho é hora de relatar as conclusões do estudo. Agora toda

informação, seja ela numérica ou gráfica, é bem-vinda para que alguém que

não participou do processo de análise possa compreender as conclusões sobre

o estudo, através do relatório.

Mas afinal, porque devemos realizar uma análise estatística? Simplesmente

porque precisamos da confiabilidade que essa análise oferece em um

momento de tomada de decisão.

A Figura 1-1 apresenta um esquema com os passos de uma análise estatística.


Figura 1-1: Passos de uma análise estatística de dados

O SPSS tem sido considerado um dos melhores softwares estatísticos do

mercado, justamente porque participa de grande parte do processo que

engloba uma análise estatística. Logo na primeira etapa é possível armazenar

dados de forma rápida e prática no próprio SPSS. Durante o processo de

transformação e análise de dados, o SPSS tem recursos considerados dos

mais poderosos. Até mesmo em um dos momentos mais delicados da análise,

a elaboração de relatórios, o SPSS tem recursos excelentes para ajudá-lo.

Mas, e na hora de tomar decisões?

Mesmo nesse momento crítico da sua análise, você pode contar com os

recursos do SPSS, como por exemplo, um técnico de resultados que lhe ensina

como analisar os resultados apresentados em alguma tabela.

2. Família SPSS for Windows

A família SPSS for Windows é formada por dez módulos: Base, Regression

Modeis, Tables, Advanced Models, Trends, Exact Tests, Categories, Conjoint,

Missing Values e Maps.

O módulo Base é o módulo central, com o qual todos os demais interagem. Ele

é o responsável pela importação e exportação de arquivos, toda etapa de

manipulação e


transformação de dados, análise descritiva, análise não paramétrica, análise

inferencial básica, e toda a produção gráfica. Ao adicionar outros módulos ao

Base, estaremos apenas acrescentando novos procedimentos estatísticos,

ganhando em termos de opções e complexidade; porém o acréscimo dë outros

módulos não altera o aspecto geral do SPSS. Dessa forma, os módulos podem

ser adquiridos levando em conta a área de atuação e o trabalho a ser

desenvolvido (obs.: para maiores detalhes, contate a SPSS Brasil).

3. Visão geral do SPSS for Windows

Inicialmente, o SPSS abre uma janela para que começamos a trabalhar com

nossos dados: a janela Untitled - SPSS Data Editor (veja Figura 1-2). A medida

em que formos trabalhando, outras podem ser abertas. Cada janela aberta é

um arquivo em potencial, ou seja, pode ser armazenado, impresso, copiado

para outras janelas, etc.

O menu File (ver Figura 1-3) permite que você tenha controle sobre tudo que

se refere ao gerenciamento de arquivos, como importação, exportação,

impressão e salvamento.

O primeiro bloco desse menu destina-se à abertura de arquivos, seja ele um

banco de dados, uma janela de saídas produzida anteriormente ou uma janela

de sintaxe, Os tipos de


bancos de dados que podem ser lidos diretamente pelo SPSS são os mais

diversos, desde do formato ASCII (texto) até bancos em formato Lotusl23,

Excel, dBase, entre outros e, é claro, arquivos produzidos pelo próprio SPSS

nas suas diferentes versões. A opção New inicializa um novo banco de dados

ou outro tipo de janela, a opção Open abre um arquivo diretamente, a opção

Open Database... serve para você ler arquivos de vários bancos de dados

diferentes através de ODBC, e a opção Read Text Data abre um wizard para

auxiliá-lo na leitura de um arquivo em formato texto.

O segundo bloco do menu File tem por função salvar qualquer janela do SPSS;

assim se estivermos na janela Saídas, podemos salvar os resultados obtidos

em uma análise estatística através da opção Save, etc. O software permite

ainda salvar um banco de dados criado no SPSS em um outro formato, assim

como no próprio formato SPSS.

No terceiro bloco de File, você pode obter informações sobre o conteúdo do

seu banco de dados usando a opção Display Data Info, aplicar definições de

variáveis estabelecidas em um outro arquivo do SPSS com Apply Data

Dictionary ou forçar a criação de um arquivo de dados temporário em Cache

Data. No quarto bloco de File está localizada a opção de impressão (em Print)

de qualquer janela que esteja ativa. Finalmente, temos a opção de parar o

processador do SPSS (através de Stop Processor), conectar-se a um servidor

para executar


análises em bancos de dados maiores (desde que você tenha um módulo

servidor do SPSS), a lista de arquivos recentemente utilizados e a opção Exit

para você fechar o SPSS.

O menu Edit (ver Figura 1-4) traz comandos relacionados à edição, que podem

ser diferentes de acordo com a janela que estiver ativa. Se estivermos na

janela de dados, podemos utilizar os recursos Cut e Paste para cortar e colar,

respectivamente, um conjunto de dados de um lugar para outro. No último

bloco do menu Edit, temos o comando Options..., onde podemos definir os

principais parâmetros do SPSS, como o padrão para o tipo da variável (o

padrão do SPSS é Numeric8.2, i.e., variável numérica com 8 dígitos, sendo que

os 2 últimos são casas decimais), ou ainda o tamanho e fonte dos títulos na

janela de saídas entre muitas outras. Todas as opções do comando Options...

serão estudadas detalhadamente mais adiante.


Pelo menu View (ver Figura 1-5) você escolhe como serão mostrados os dados

na janela Data Editor (usando as opções Fonts..., Grid Lines e Value Labeis).

Por esse menu também é possível disponibilizar ou não através da opção

Status Bar, a barra inferior, chamada de barra de status, que contém algumas

mensagens importantes sobre o SPSS: e finalmente, através da opção

ToolBars... você pode customizar a(s) barra(s) de ferramentas, podendo

inclusive, criar uma barra totalmente nova.


O menu Data traz funções relacionadas a manipulação dos dados. Comandos

como definição de datas, ordenação do banco de dados, junção de arquivos

em formato SPSS, seleção de casos do arquivo de dados para trabalho,

ponderação de valores, etc., fazem parte das opções desse menu (ver Figura

1-6).


A etapa de transformação dos dados concentra-se basicamente no menu

Transform. Recursos como criação de novas variáveis a partir das já

existentes, recodificação de valores do banco de dados, e até mesmo

interpolação de valores ausentes em urna série de tempo são algumas das

opções desse menu (ver Figura 1-7).


O menu Analyze (ver Figura 1-8) reúne todos os procedimentos estatísticos

disponíveis no SPSS. Este é o principal menu que sofre alterações com a

inclusão de outros módulos. A medida que são incluídos módulos opcionais o

número de opções (linhas) existentes nesse menu vai aumentando, ou seja, a

quantidade de recursos estatísticos vai se tornando cada vez maior e o seu

SPSS cada vez mais poderoso.


O menu Graphs contém todos os tipos de gráficos que o SPSS oferece.

Gráficos de sequencia, barras, área, pizza, boxplot, pareto e cartas de controle

são apenas alguns deles (ver Figura 1-9). Nesse menu temos a opção de

construir gráficos interativos e caso você tenha o módulo Maps, é possível a

construção de mapas no SPSS.

Utilities (ver Figura 1-10) é um menu que oferece recursos que não são

imprescindíveis, mas certamente “quebram alguns galhos”. Um exemplo é

obter um resumo da estrutura do seu banco de dados bastando clicar a opção

File Info. A opção Variables abre uma janela com informações sobre as

variáveis do seu arquivo; clicando em Menu Editor... você pode customizar os

menus do SPSS, criando até mesmo um menu totalmente novo. A principal

opção nesse menu é Run Sscript..., onde podemos escolher algum script do

SPSS para ser executado (scripts são programas em Visual Basic que veremos

adiante).


Através do menu Window do SPSS (ver Figura 1-11), você pode navegar pelas

janelas criadas pelo SPSS, bastando escolher a janela desejada e clicar em

seu nome: ou você pode minimizar o SPSS com todas as suas janela através

da opção Minimize Ali Windows.

O último menu que aparece é o Help (ver Fiqura 1-12). A ajuda no SPSS é um

dos pontos fortes do software, já que ela é muito mais do que uma cópia do

manual. Quando clicamos em Help, a primeira opção Topics lhe dá a chance

de escolher entre esclarecimentos do significado de algum termo técnico ou de

algum comando e um índice remissivo.


Um tutorial do SPSS está disponível através da opção Tutorial. Com ele você

pode obter detalhadamente informações básicas do uso do SPSS.

A opção SPSS Home Page abre automaticamente a página da SPSS norte-

americana na Internet. Na opção Syntax Guide você terá todos os manuais de

sintaxe do SPSS. Finalmente, a opção Statistics Coach funciona como um

técnico estatístico. Ele irá fazer a você algumas perguntas sobre seus dados e

o tipo de análise que você gostaria de obter, e então, baseado nas suas

respostas, ele lhe indicará o procedimento do SPSS mais apropriado para o

seu caso.


II. Sobre o Banco de Dados

1. Como criar seu próprio banco de dados

Antes de começar a entrar valores na janela de dados, é preciso atentar ao fato

de que o SPSS tem por regra geral trabalhar com as variáveis (campos)

definidas em colunas e casos (registros) em linhas.

Digamos que estamos interessados em armazenar informações de uma

pesquisa sobre a programação das emissoras de televisão realizada no Rio de

Janeiro e em São Paulo. Vamos criar uma coluna para a cidade do

respondente.

Para definir uma variável, dique duas vezes no nome da variável no topo da

coluna ou na parte inferior da janela de dados dique em Variable Víew. Dessa

maneira o modo de definição de variáveis será exibido na janela de dados.

Nesse modo temos a opção de definir todas as características que fazem parte

de uma variável: nome, tipo, rótulos, valores ausentes, formato da coluna e o

nível de medida (ver Figura 11-1).

Para dar um nome à variável, basta digitá—lo no espaço designado por Name;

o nome pode ter no máximo 8 caracteres, sem que haja caracteres especiais,

como +, &, \,-, etc. (porém podemos acentuar); no nosso caso o nome será

cidade (Figura 11-2).


Para alterarmos o tipo da variável, basta clicar em Type, onde podemos definir

a variável como numérica (numei-ic), moeda (dollar), data (date), alfanumérica

(string), entre outros tipos. Usaremos no nosso caso uma codificação para a

variável cidade, onde o número 1 corresponderá a cidade de São Paulo e o

número 2 ao Rio de Janeiro, pois estas foram as duas únicas cidades

pesquisadas. Portanto, a variável cidade será definida como numérica (Figura

11-3). Ainda nessa janela você pode especificar quantos caracteres a variável

ocupa (em Width) e o número de casas decimais (em Decimais Piaces). Vamos

deixar 8 em Width e O em Decimal Places (dado que só usamos os números 1

e 2 não precisamos de casas decimais) e cicar em 0K.

Você pode estar se perguntando: porque não definir a variável cidade como

alfanumérica (string) e digitar São Paulo e Rio de Janeiro, ao invés dos

números 1 e 2? A resposta é simples: muitos dos procedimentos estatitiscos

não conseguem trabalhar com variáveis desse tipo, diminui-se o tempo e a

ocorrência de erros na digitação e também porque economizamos espaço e

consequentemente tempo no processamento dos casos.


Um recurso muito útil no SPSS é a possibilidade de relacionarmos um texto

(rótulo) ao nome das variáveis (já que o nome só pode ter até 8 letras). Basta

selecionar a coluna Label e digitar o texto desejado. Vamos colocar “Cidade do

entrevistado” como rótulo da variável.

Podemos também definir rótulos para os valores que uma determinada variável

pode assumir. A coluna Values é reservada para esse tipo de definição. Clique

no botão que aparece ao selecionarmos essa coluna e no espaço Value

digitamos o valor que a variável assume e em Value Label o rótulo (texto) para

aquele valor. Feito isso basta clicar Add para armazenar o rótulo do primeiro

valor e passar para a segunda definição.

No caso da variável cidade definimos “São Paulo” como rótulo para o valor 1 e

“Rio de Janeiro” para o valor 2 (ver Figura 11-4). A vantagem de definirmos

rótulos para variáveis ou para os valores que uma variável pode assumir é que

toda vez que pedimos qualquer estatística envolvendo essas variáveis eles

aparecerão junto com os resultados na janela de saídas (ver Figura 11-5).

Dessa maneira poderemos identificar qual é a cidade referente a cada número

(código).


Geralmente não temos condições de obter um banco de dados totalmente

completo (vamos supor que uma das perguntas da pesquisa é a idade do

respondente; algumas pessoas não gostam de mencionar a idade). Se nada for

informado ao SPSS, como padrão a opção No missing values é usada. Nesse

caso basta deixar em branco o espaço reservado à informação que falta e o

SPSS coloca o separador decimal (. ou ,) no local e interpreta todos os pontos

(ou vírgulas) como valores ausentes.

Podemos, porém, querer definir valores específicos como valores ausentes.

Nesse caso basta selecionar a coluna Missing, clicar no botão que aparecerá e

escolher a opção mais conveniente (ver Figura 11-6). Por exemplo, se

escolhermos a opção Discrete missing values podemos definir o número 999

como valor missing e cada vez que o SPSS encontrai o número 999 no meio

de uma análise estatística que envolve essa variável ele saberá que aquele

valor se refere a um valor ausente.

A definição do formato da coluna é um aspecto meramente estético. Através da

coluna Columns você poderá determinar a largura da coluna e na coluna Align

o alinhamento do texto que pode ser: à esquerda (Left), à direita (Right) ou

centralizado (Center).

No caso da variável cidade definiremos a largura da coluna como 12 e o

alinhamento à. direita (ver Figura II-7).


E finalmente na coluna Measure, devemos escolher o nível de medida da

variável. As possíveis escolhas são:

• Escalar (Scale): use essa opção quando os dados são valores numéricos

numa escala intervalar ou de razão (ex: idade, renda, peso, altura). Devem ser

numéricas.

• Ordinal quando os dados representam categorias com uma ordem intrínseca

(ex: pequeno, médio, grande; concordo totalmente, concordo, discordo,

discordo totalmente). Podem ser variáveis alfanuméricas (string) ou numéricas

com valores representando as categorias distintas (ex: 1=pequeno, 2=médio,

3=grande).

• Nominal: quando os dados representam categorias sem ordem intrínseca (ex:

as categorias de estado civil, ocupação, nacionalidade). Podem ser variáveis

alfanuméricas (string) ou numéricas com valores representando as categorias

distintas (ex: 1 =masculino; 2=feminino).

No nosso caso escolhemos a opção Nominal (não existe ordem nas categorias

de cidade). Pronto! Agora é só voltar para o modo de exibição dos dados

(selecione Data View na parte inferior da janela de dados) e digitar os valores

coletados, lembrando que cada caso (registro) deve ser digitado em uma linha

(ver Figura 11-8). Desse modo o primeiro respondente é de São Paulo o

segundo do Rio de Janeiro e assim por diante.


Note que apenas os números 1 e 2 aparecem na janela de dados e não os

rótulos (nome das cidades). Para ativá-los basta clicar no ícone 1. A Figura 11-

9 mostra a janela de dados agora com os rótulos ativos. Para desativá-los

basta clicar novamente no mesmo ícone.


2. Criando várias variáveis com as mesmas características

Suponha agora que você tenha que definir as perguntas abaixo no SPSS. Note

que elas têm as mesmas opções de resposta:

1) Qual a emissora de televisão a que você mais assiste?

2) Qual a emissora de televisão que tem a melhor programação?

3) Qual a emissora de televisão que tem os programas mais apelativos?

4) Qual a emissora de televisão que sua família prefere?

Possíveis respostas:

1) Emissora A

4) Outra Emissora

2) Emissora B

5) Nenhuma

3) Emissora C

Usando os conhecimentos adquiridos até agora poderíamos definir quatro

variáveis, uma para cada pergunta. Para cada uma delas poderíamos definir

tipo, rótulos, valores ausentes, formato da coluna e nível de medida. Todas as

definições seriam exatamente iguais nas quatro variáveis. Portanto seria

desejável definir apenas uma vez as características das


quatro perguntas e através de algum mecanismo poder relacioná-las a todas as

colunas de uma só vez. Podemos fazer isso no modo de definição de variáveis

usando as opções Copy e Paste Variables.

Para começar basta definir uma das variáveis; por exemplo, perg1. Vamos

definir como: numérica de tamanho 8 e sem nenhuma casa decimal, dados

ausentes padrão, formato da coluna com largura 10, rótulos dos valores da

variável sendo valor 1 - emissora A; valor 2 - emissora B; valor 3 - emissora C;

valor 4 - outra emissora e valor 5 - nenhuma e nível de medida nominal. A

Figura TI-lo mostra a janela de dados (modo de definição de variáveis) após a

criação da variável perg1

O próximo passo é simples: selecione a variável perg1 na janela de dados

(modo de definição de variáveis) clicando no número da variável (2 no nosso

caso), selecione Copy no menu Edit, depois marque uma linha vazia (no nosso

caso, selecionamos a linha 3) e selecione a opção Paste Variables do menu

Edit.

Na janela aberta (ver Figura TI-li) você escolha quantas variáveis são criadas a

partir da variável copiada e o nome delas. Escolha 3 no quadro Number of new

variables (pois queremos criar perg2, perg3 e perg4), 2 no segundo quadro à

direita de New variable names (lembre-se de que já existe uma variável

chamada perg1) e dique em 0K.


A Figura 11-12 mostra a janela de dados (modo de exibição dos dados — Data

View) com as variáveis criadas e alguns valores já digitados.

Para salvar as informações armazenadas nessa janela no formato SPSS basta

clicar o menu File.. Save ou Save As...e digitar o nome que queremos dar ao

novo arquivo no quadro File Name. Note que a extensão dos arquivos do tipo

SPSS é sav.

Uma outra opção muito útil para ajudá-lo na definição das características de

suas variáveis chama Apply Data Dictionary e está presente no menu File. Ao

escolher essa opção, será aberta uma janela para você escolher um arquivo no

formato SPSS, chamado de arquivo modelo. Após a escolha, o SPSS compara

os nomes das variáveis do arquivo ativo com as do arquivo modelo e para

aquelas variáveis que tiverem o mesmo nome, ele copia todas as definições

dessas variáveis (como tipo, rótulo, valores ausentes, etc.) do arquivo modelo

para o arquivo ativo.


3. Formas de importação e exportação de dados

Conforme já mencionamos, o SPSS tem capacidade para importar bancos de

dados gerados nos mais diversos formatos, entre eles Lotus 123, Excel, dBase

e ASCLI. Para ter acesso aos diferentes formatos de banco de dados basta

clicar o menu File.. Open.. Data. Aparece então uma tela (ver Figura 11-13)

onde determinamos disco e subdiretórios (Look in), o nome do arquivo (File

name), e a forma sob a qual o arquivo foi gerada (opção File Type no canto

inferior esquerdo). O padião é o formato SPSS (extensão .sav). Discutiremos a

seguir como importar arquivos em formato Excel (.xls).

Já mencionamos também que os dados da janela de dados podem ser

armazenados sob diversos formatos, tenha ele sido gerado através do SPSS

ou de qualquer outro aplicativo; para isso, entramos no menu File e clicamos

em Save ou Save as.. Aparecerá uma tela (ver Figura 11-14) semelhante

àquela para abertura de arquivos, onde especificamos novamente disco e

subdiretórios, o nome do arquivo, e a forma sob a qual o arquivo deve ser salvo

abrindo o menu Save as type (canto inferior esquerdo). O default é o formato

SPSS (extensão “.sav”). Outra opção é salvar no formato Excel (extensão “xis’).

Para maiores detalhes sobre importação e exportação de bancos de dados

com extensão diferente das mencionadas aqui, consulte o manual do módulo

Base do SPSS.


4. Importação de arquivos de dados do tipo Excel ou Lotus

O exemplo que utilizaremos aqui utiliza uma pesquisa de opinião sobre lazer

que iremos analisar durante o treinamento. Ao invés de importar os dados no

formato SPSS, vamos importá-los do formato Excel.

Antes de iniciar a importação precisamos observar como os dados se

encontram no arquivo original inicializando o Excel. Através do menu File..

Open... (do Excel) abrimos o arquivo lazer.xls. A Figura 11-15 apresenta o

conteúdo desse arquivo.


Notamos que o banco de dados contém não apenas números, mas também

título, linhas em branco e o nome das variáveis. Precisamos então ter um certo

cuidado na importação, pois o SPSS só consegue ler o nome das variáveis e

os valores das mesmas. Títulos, comentários, gráficos ou fórmulas presentes

no arquivo não podem ser importados.

Uma possível solução é anotarmos as coordenadas dos cantos superior

esquerdo e inferior direito da matriz onde o nome das variáveis e dados estão

efetivamente situados (no nosso caso A4 e P3 5).

Fechamos então o arquivo no Excel já que se não fecharmos o arquivo dentro

de um aplicativo, não conseguimos abri-lo em outro e então, vamos importá-lo

no SPSS. Para isso, volte ou abre o SPSS (caso ele já não esteja aberto).

Para importar esse arquivo de dados no SPSS, cicamos o menu File.. Open..

Data.. (ver Figura 11-16). Devemos indicar o disco e o subdiretório, além é

claro, do tipo do arquivo, que no nosso caso é Excel (*.xls). No quadro File

name digitamos o nome do arquivo a ser importado, que no nosso caso é

lazer.xls.


Ao clicar em Open (ou Abrir se o seu Windows está em português), será aberta

uma janela de nome Opening Excel Data Source (ver Figura 11-17). Nessa

janela, em Worksheet, devemos especificar a planilha a ser lida (no nosso caso

é a primeira; LAZER). Além disso, como o nosso arquivo original contém o

nome das variáveis devemos selecionar a opção Read variable names from the

first row of data e no quadro Range devemos especificar a faixa de valores que

deve ser lida, no nosso caso A4:P35. Agora é só clicar ok e pronto!


Observações:

1 - Caso o arquivo original estivesse limpo, isto é, com os dados começando da

célula AI, não seria necessário entrar com as coordenadas em Range e

precisaríamos apenas especificar se a primeira linha contém ou não o nome

das variáveis (em Read variable names from the first row of data)

2- Para leitura no formato Lotus o procedimento é exatamente o mesmo com

duas exceções: no quadro Files of type escolhemos a opção Lotus (*.w*) e no

quadro Range ao invés da especificação A4:P35, usaríamos A4..P35.

Quando o arquivo aparece na tela de dados, observe que seu título continua

sendo Untitled (ver Figura 11-18). Somente a partir do momento em que

salvamos no formato SPSS é que o título da janela de dados passa a ser o

nome escolhido para o arquivo.


5. Exercícios

1 - Defina uma variável num novo banco de dados chamada ESTCIVIL. As

características dessa variável dévem ser:

- Tipo: Numérica sem casas decimais

- Rótulo da variável: Estado Civil

- Rótulos dos valores: 1 - Solteiro

2 - Casado

3 - Separado

4 - Viúvo

- Nível de medida: Nominal


III. Transformação de Dados

1. Recodificação usando o procedimento Recode

Utilizaremos aqui um recurso muitas vezes necessário que antecede a análise

estatística propriamente dita. A recodificação simples de variáveis pode ser

usada, entre outras coisas, para criar faixas de valores baseados em variáveis

já existentes. Um exemplo típico é ter interesse em estudar a faixa etária das

pessoas em um estudo onde a informação disponível originalmente é a idade.

No nosso exemplo vamos criar essa variável representando a faixa etária a

partir da variável idade. Nossa idéia é construir tal variável de acordo com a

seguinte divisão por faixas:

Valores atuais (Idade) Valores Futuros (Faixa Etária)

<=25anos..................................................................................................1

26 até 35 anos..........................................................................................2

36 até 45 anos..........................................................................................3

>45 anos...................................................................................................4

Para fazer uma recodificação no SPSS entramos no menu Transform e

escolhemos a opção Recodi. Temos ainda que escolher entre as opções Into

Sarne Variables ou Into Different Variables (ver Figura 111-1). Através dessa

última opção uma nova coluna é adicionada ao banco de dados com os valores

recodificados. Já através da opção Into Sarne Variables a informação

recodificada é armazenada na mesma coluna da variável Idade, perdendo,

dessa maneira, a informação da antiga variável.


Escolhendo a opção Into Different Variables uma nova janela é aberta (ver

Figura 111-2). Devemos informar o nome da variável a ser recode.ficada (no

caso Idade). Para isso basta clicar em Ida de dos Entrevistados (que é o rótulo

da variável Idade) dentre todos os rótulos que estão no quadro esquerdo e

movê-lo, clicando a seta logo ao lado, para o quadro Numeric Variable> Output

Variable. Devemos, também, dar um nome para a nova variável que será

criada através do quadro Output Variable no canto superior direito. No espaço

reservado ao nome da nova variável (Name) digitamos fai.xaet. Podemos ainda

criar um rótulo para a nova variável Faixaet (por exemplo, ‘Faixa Etária”),

preenchendo o quadro abaixo de Label. Após essas definições, basta clicar

Change e terminamos a primeira etapa da recodificação.


Falta agora informar ao SPSS as condições da recodificação. Para isso basta

clicar a opção Old and New Values, localizada na parte inferior da janela e

aparece uma nova tela (ver Figura 111-3).

No quadro Old Value, à esquerda, temos que especificar os valores da antiga

variável que vão determinar os valores da nova variável. Para isso temos

disponível uma série de opções:

Value - usado quando estamos interessados em transformar um valor

específico da variável em questão em um novo valor:

System Missing - usado quando queremos especificar um valor

numérico para os valores ausentes do sistema (pontos ou vírgulas):

System or User Missing - usado quando queremos especificar um valor

numérico para todos os tipos de valores ausentes: os do sistema e os

especificados pelo usuário;

Range [J through O - usado para especificar uma faixa de valores que

receberão um novo valor (ex. de 30 até 40);

Range Lowest through O - usado para especificar uma faixa de valores

que se transformarão num novo valor; nesse caso, do menor_valor da

variável em questão até o número especificado;

RanTFthroiij:ii highest - usado para especificar uma faixa de valores que

receberão um novo valor; nesse caso do número especificado até

omaior valor da sua variável.

No quadro New Value, no canto superior direito, existe um pequeno espaço

(Value), no qual deve ser digitado o valor que a nova variável deve assumir

para cada uma das faixas ou valores definidos à esquerda.


No nosso caso clicamos em Range Lowest through à esquerda e preenchemos

com o valor 25, ou seja, estamos falando em valores menores ou iguais a 25, e

à direita no quadro New Value digitamos o valor 1. Cique em Add para incluir a

primeira faixa no quadro Old—’New. Podemos definir o segundo grupo de

valores: dique em Range O through EJ, digite os valores 26 e 35; no quadro

Value à direita, entre com o valor 2 e dique Add. Analogamente repita essa

operação para a terceira faixa etária (de 36 até 45 anos). Finalmente, defina a

última categoria clicando em Range: O through highest e entrando com o valor

46; estamos agora falando em valores maiores ou iguais a 46. No quadro Value

digite o número 4 e dique Add. Dessa maneira a definição da nova variável

Faixaet está encerrada.

Clicando Continue, voltamos à tela anterior onde clicamos 0K. A nova variável

passa a existir e aparece na última coluna do arquivo. Ela assume os valores 1,

2, 3 e 4 porém os rótulos ainda não estão associados a esses valores. Para

associar rótulos aos valores da nova variável podemos usar a opção do menu

View.. Variables e na opção Values acrescentar o rótulos dos valores.

2. Recodificação automática para criação de faixas

Quando usamos o procedimento Recode para a criação da faixa etária, nós

especificamos os limites de cada uma das faixas. Porém suponha que você

não tenha idéia de como dividir sua variável em faixas, mas que tenha em

mente o número de faixas. O


procedimento Categorize Variables converte valores contínuos de uma variável

escalar em um número discreto de categorias. Esse procedimento cria novas

variáveis contendo os dados categorizados baseado nos valores dos

percentis1, com cada grupo contendo aproximadamente o mesmo número de

casos. Por exemplo, uma especificação de quatro grupos iria designar valor 1

para os casos abaixo do 25 percentil 2 para os casos entre o 25 e o 5O

percentil 3 para os casos entre o 50º e o 75º percentil e 4 para os casos acima

do 75º

Vamos criar uma nova variável contendo a divisão em faixas da variável idade,

porém usando esse procedimento. Na janela aberta após clicarmos em

Categorize Variables no menu Transform (veja a Figura 111-4), basta escolher

a variável Idade dos Entrevistados, movêla para o quadro Create Categories for

e escolher o número de categorias em Number of categories (quatro no nosso

caso). Agora basta dicar em 0K e ele criará uma variável chamada nidade (ou

seja ‘n’ ± nome da variável) no nosso banco de dados.

1 ‘Um determinado percentil é o valor de uma variável escalar que divide os dados ordenados em grupos

de maneira que um certo percentual dos valores está abaixo e um outro percentual acima. Por exemplo, se dissermos que o 25 percentil do salário numa empresa é de R2OO,OO, estamos dizendo que 25% dos funcionários dessa empresa ganham menos de R$200,OO e que os outros 75% ganham mais do que esse valor.

A Figura 111-5 mostra a distribuição de frequências da variável criada e logo

abaixo os valores dos percentis de número 25, 50 e 75 que definem as faixas

criadas. Posteriormente veremos como pedir essa tabela de frequência e os

percentis no SPSS.

Note na tabela que o número de casos em cada faixa é bem parecido: 7, 8 ou 9

casos.

Olhando na tabela dos percentis temos que a primeira faixa são as pessoas

que têm até 21 anos; a segunda faixa representa quem tem entre 21 e 26 anos,

a terceira quem tem entre 26 e 36 anos e a última faixa representa quem tem

mais de 36 anos.


3. Recodificação automática de variáveis alfanuméricas

Outro recurso para recodificação presente no SPSS é o Automatic Recode.

Através desse procedimento podemos transformar variáveis do tipo

alfanuméricas (string) ou numéricas em variáveis numéricas consecutivas já

codificadas (com rótulos associados). O SPSS ordena em ordem alfabética

(crescente ou decrescente) os valores da variável selecionada relacionando o

número 1 ao primeiro valor e assim por diante até o último valor. A nova

variável será numérica assumindo desde o valor 1 até o número de valores (ou

cadeia de caracteres) existentes, além de assumir os antigos valores

(alfanuméricos ou numéricos originais) como rótulos da nova variável numérica.

Por exemplo suponha que queiramos transformar a variável Cidade (que é

alfanumérica) do nosso banco de dados lazer.sav numa variável numérica. Se

quisermos fazer determinadas análises usando a cidade de origem teremos

que executar esse procedimento.

Para isso basta usar a opção Automatic Recode presente no menu Transform.

Uma janela (ver Figura 111-6) é aberta e a primeira coisa a fazer é mover a

variável a ser recodificada para o quadro central Variable -> New Name. No

nosso caso moveremos a variável Cidade. Como uma outra coluna será criada

para armazenar a nova variável é preciso dar um nome para


essa coluna, digamos Cidade2. Devemos colocar essa informação no retângulo

logo abaixo do quadro central e dicar New Name.

A última decisão a ser tomada é quanto à ordem da recodificação, que pode

ser em ordem alfabética crescente ou decrescente, usando uma das opções:

Recode Starting from:

Lowest Value (ordem crescente) ou Highest Value (ordem decrescente).

Podemos escolher por exemplo Lowest Value e clicar 0K. Feito isso o resultado

da recodificação é mostrado na janela de saídas (ver Figura 111-7). Note que

antes da recodificação a variável Cidade assumia os valores São Paulo, Rio de

Janeiro e Brasifia. Após a recodificação a nova variável criada, Cidade2,

assume os valores 1, 2 e 3 já com os rótulos relacionados (lado direito).

4. Cálculo de novas variáveis usando o procedimento Compute

Vamos agora estudar um outro recurso de transformação de dados: a criação

de uma nova variável como função de variáveis já existentes. Vamos utilizar as

variáveis Trabalho e Lazer. Nosso interesse é investigar qual a porcentagem de

lazer em relação às horas gastas com trabalho mais lazer. Por exemplo, se a

pessoa trabalha 60 horas por semana e gasta 20 horas com lazer, ela gasta

25% do tempo dela de trabalho(+)lazer com lazer. Para chegar a esse


número a operação que fizemos foi muito simples: soma-se as horas de

trabalho e lazer (trabalho+lazer); divide-se o número de horas de lazer por essa

soma (lazer/(trabalho+lazer)) e ,multiplica-se o resultado por 100.

Nosso objetivo agora é criar no banco de dados uma nova variável, com nome

p_lazer, que contenha a informação desejada. Para isso basta entrar no menu

Transform e clicar opção Compute. Uma janela (ver Figura 111-8) é aberta com

as seguintes características: um quadro no canto esquerdo apresenta uma lista

com todas as variáveis existentes no banco de dados que podem ser usadas

para o cálculo da nova variável, para selecioná-las basta clicar a seta ao lado;

um quadro no canto superior esquerdo designado por Target Variable, onde

digitaremos o nome da variável a ser criada; um quadro à direita na parte

superior designado por Numeric Expression, onde devemos escrever a função

(envolvendo as variáveis já existentes no arquivo) que permitirá o cálculo da

nova variável; um quadro central com uma série de botões que contém desde

funções matemáticas (+, -, , etc) até funções lógicas (&, etc); e no quadro

inferior direito, Functions, há um vasto conjunto de funções, desde soma,

multiplicação até arco-tangente, logaritmo neperiano, entre outras, que também

podem ser usadas na construção da expressão numérica.

No nosso caso, a expressão a ser criada é (Lazer/(Trabalho+Lazer))* 100.

Selecionamos a variável Lazer do quadro esquerdo, clicamos o símbolo /

presente no quadro central da janela; em seguida clicamos o símbolo ( ),

selecionamos a variável Lazer, o símbolo + e a variável Trabalho; agora basta

clicar o símbolo * e o número 100. Poderíamos, ainda, ter escrito a expressão

digitando diretamente no quadro Numeric Expression.


Agora que nossa função já está pronta, devemos dar um nome a nova variável.

Digitamos p lazer no quadro superior esquerdo Target Variable, e clicamos 0k

(ver Figura 111-9). Urna nova variável com nome p_lazer será adicionada à

janela de dados na primeira coluna vazia.


5. Exercícios

1 - Abra o banco de dados Banco.sav, que está no formato SPSS.

2 - Utilize o procedimento Recode para, baseado nos valores da variá:el Salário

Atual (salário) criar uma nova variável com as características a seguir:

Após a criação de Faixa Salarial, entre na sua janela de definição e mude seu

nível de medidas para Ordinal.

3 - Crie uma variável que representará a porcentagem de aumento que os

funcionários do banco tiveram desde que entraram na empresa. O nome da

nova variável será PERCENT e seu rótulo será ‘Porcentagem de Aumento”.

Dica: essa variável pode ser criada através da construção de uma função que

envolva os valores do Salário Inicial (salarin) e Atual (salário) dos funcionários.

Utilize o procedimento Compute.

4 - Salve o arquivo com as modificações feitas até agora, no formato do SPSS

com o nome de Novobanco.sav.


IV. Tabelas

Nem sempre as tabelas feitas automaticamente pelo SPSS estão prontas para

apresentação da maneira que você gostaria ou por exemplo a visualização dos

resultados não está satisfatória. Porém, o SPSS tem recursos poderosos para

deixar sua tabela da maneira que você quiser e o que é melhor, de uma

maneira muito fácil e rápida.

Nesta seção iremos manipular tabelas, trabalhar com estratos e identificadores

e mudar características como fonte, cor, etc.

Começaremos criando uma tabela pelo procedimento Crosstabs (menu

Analyze, opção Descriptive Statistics) do SPSS (posteriormente veremos

detalhadamente as opções e a funcionalidade dessa janela), com as variáveis

sexo, filhos e estcivil do arquivo Lazer.sav, como na Figura IV- 1.

A Figura IV-2 mostra a tabela criada pelo SPSS. Para editá-la, você pode clicar

duas vezes2 sobre a tabela ou então clicar apenas uma vez com o botão direito

do mouse e


selecionar a opção SPSS Pivot Table Object... Open. Escolhendo a segunda

maneira, o SPSS abre uma janela própria para editar a tabela selecionada e é

melhor que a primeira especialmente quando você tem uma tabela muito

grande.

2 Posteriormente veremos como mudar a ação padrão que o SPSS executa quando clicamos duas vezes

numa tabela.

Vamos supor que você queira dividir a tabela primeiro pelo número de filhos e

depois pelas categorias de sexo, ou então mostrar apenas um subgrupo das

pessoas estudadas (por exemplo só as mulheres), ou ainda passar a

informação do número de filhos para as colunas e do estado civil para as

linhas. Tudo isso pode ser feito usando os ícones de organização (Pivoting

Trays) como veremos a seguir.

1. Usando os ícones de organização

Para acionar os ícones de organização, caso não estejam ativados, dique no

menu Pivot e escolha a opção Pivoting Trays (veja a Figura IV-3). A região

cinza Row representa os elementos que estão nas linhas que nosso caso são

as variáveis sexo e filhos (coloque o mouse sobre um dos dois ícones e será

mostrado o que ele representa), a região Column representa os elementos das

colunas (no nosso caso, um ícone representando a variável est ci vil) e

finalmente a região Layer representa as camadas de tabelas que podemos ter.

A tabela pode ser pensada como se estivesse armazenada em camadas

(layers), onde apenas a camada de cima está visível. Por exemplo, se você

colocar a variável sexo na parte Layer, o SPSS divide a tabela em duas

camadas, uma para o sexo masculino e outra para o sexo feminino.


Note que os ícones dessa região possuem duas setas, que servem para você

mudar a categoria (camada) que é apresentada na janela de saídas, sendo que

você pode depois mandar o SPSS imprimir apenas a tabela mostrada na janela

ou todas as tabelas.

Vamos, por exemplo, dividir a tabela em duas camadas de acordo com o sexo,

arrastando seu ícone da região Row para a região Layer. Dessa maneira, você

pode mudar a disposição da sua tabela à vontade (veja na Figura PJ-7 dois

exemplos do uso dos ícones de organização, incluindo a divisão da tabela de

acordo com sexo).

No momento a sua tabela deve estar mostrando apenas os homens (que é a

primeira categoria de sexo); para mudar para as mulheres você pode proceder

como dissemos anteriormente, clicando nas setas pretas ao lado do icone Sexo

até você achar a categoria desejada ou clicar na seta ao lado da categoria da

variável sexo mostrada na própria tabela (veja a Figura 1V-4).


Suponha agora que você queira guardar urna ou mais configurações para uma

posterior revisão, apresentação ou para marcar importantes descobertas na

sua tabela. Para tal tarefa vamos utilizar os identificadores (bookmarks)

clicando em Pivot e depois em Bookmarks. Na janela aberta (ver Figura 1V-5)

escolhemos um nome para o identificador e depois clicamos em Add. No nosso

exemplo, vamos criar um identificador para a nossa configuração atual (só

mulheres) e depois vamos selecionar a categoria masculino de sexo e solteiro

de estcivil (após passar o ícone estcivíi para a dimensão Layer) e criar um

identificador para essa nova configuração. Posteriormente para acessar

qualquer identificador basta acessar novamente a opção Bookmarks do menu

Pivot, escolher o identificador e clicar em Go to, ou então clicar em View e

depois Toolbar (para mostrar a barra de. ferramentas de formatação) e

escolher o identificador da lista. A barra de ferramentas de formatação é

mostrada na Figura IV-6.

Finalmente, no menu Pivot, você tem a opção de transpor as linhas e colunas

da sua tabela escolhendo a opção Transpose Rows and Columns. Isto tem o

mesmo efeito de arrastar todos os ícones da região Column para a região Row

e vice-versa.


2. Modificando as células

Quando você tiver a disposição da sua tabela da maneira ideal, você pode

modificar a formatação das células. Para isso, selecione as células que você

gostaria de editar e escolha a opção Ceil Properties... do menu Format (veja na

Figura 1V-8), onde você poderá modificar o formato dos valores para número,

data, tempo ou monetário, e ajustar o número de dígitos decimais mostrados

clicando em Value. Selecionando Alignment você ajusta o alinhamento vertical

e horizontal e direção do texto para a(s) célula(s). Em Margins você modifica a

distância dos valores a cada uma das margens, porém não esqueça de levar

em conta o alinhamento que você deu à célula. Por último em Shading, você

pode mudar a porcentagem de sombreamento baseado nas cores de frente e

fundo (Foreground e Background colors). Isto não muda a cor do texto. Para

mudar a cor e tipo de fonte do texto você pode selecionar


Font... no menu Format (Figura IV—9) ou ativar a barra de ferramentas de

formatação (Formatting toolbar) escolhendo no menu View a opção Toolbar

(veja Figura lV-6).


Você pode ainda ajustar o comprimento das células movendo o mouse pelos

rótulos da categoria até a borda direita da coluna que você gostaria de mudar.

O cursor mudará para uma flecha com duas pontas, depois deixe o botão do

mouse apertado até arrastar a borda para sua nova posição. A Figura IV-10

mostra uma tabela editada, posteriormente iremos ver como modificar as

bordas e as várias propriedades de uma tabela em geral e o uso de

TableLooks.


V. Um Pouco de Estatística Descritiva

Nesta seção vamos definir alguns conceitos básicos que nos ajudarão a

entender melhor a linguagem estatística do SPSS.

População - conjunto de todos os elementos sobre os quais temos

interesse em estudar, por exemplo, se estamos interessados em

investigar qual será o próximo presidente do Brasil nossa população é o

colégio eleitoral do país;

Na maioria das vezes não temos condições de pesquisar todos os elementos

de uma população, por razões como tempo e dinheiro. Portanto uma alternativa

para podermos realizar o estudo é pesquisar apenas parte dos elementos da

população, ou seja uma amostra.

Amostra - é constituída por qualquer subconjunto de elementos de uma

população;

Variável - qualquer característica de interesse dos elementos da

população; exemplos: intenção de voto para presidente, idade, sexo,

altura, entre outras;

1. Nível de medida das variáveis

Como vimos anteriormente as variáveis podem ser classificadas em três tipos

no SPSS de acordo com o seu nível de medida. Vamos recordar esses tipos:

• Escalar (Scale): quando os dados são valores numéricos numa escala

intervalar ou de razão (ex: idade, renda, peso, altura).

• Ordinal: quando os dados representam categorias com uma ordem intrínseca

(ex:

pequeno, médio, grande; concordo totalmente, concordo, discordo, discordo

totalmente).

• Nominal: quando os dados representam categorias sem ordem intrínseca (ex:

as categorias de estado civil, ocupação, nacionalidade).

A importância de se conhecer os tipos de variáveis existentes está ligada à

forma que a variável deverá assumir no banco de dados, bem como ao tipo de

análise descritiva e inferencial que a mesma deverá ser submetida.

No momento de definição de variáveis categóricas, a maneira mais natural

seria defini-las como alfanuméricas (tipo string). Entretanto, muitos

procedimentos estatísticos no SPSS não


podem ser realizados com variáveis desse tipo. Assim, uma sugestão seria

defini-las como numéricas e codificá-las. Por exemplo:

• País de origem: 1 Alemanha; 2 = Bélgica: ... ; 18 = Venezuela.

• Sexo: 1 = Masculino; 2 = Feminino.

2. Distribuição de frequências

Para entendermos melhor o comportamento de uma variável categórica uma

das medidas resumo que pode ser usada é a tabela de frequência. Através

dessa tabela podemos descobrir o número (ou porcentagem) de ocorrências de

cada uma das categorias da variável.

Tabelas de frequência também podem ser construídas para variáveis não

categóricas que assumam um número pequeno de valores. Por exemplo, o

número de filhos, que geralmente assume os valores O, 1, 2 3 e 4.

A tabela abaixo (Figura V-1) apresenta a distribuição de frequência da variável

estado civil. Notamos que a categoria mais frequente é a dos solteiros com 13

pessoas, e representa 41.9% do total de respondentes. A categoria menos

frequente é a dos viúvos com 3 pessoas e representa apenas 9.7% do total de

respondentes. As categorias casado e separado/divorciados apresentam cada

uma 8 e 7 pessoas, respectivamente.

Devemos ressaltar que para variáveis escalares que apresentam muitos

valores diferentes a construção de tabelas de frequência não nos traz nenhuma

informação relevante na descrição dos dados. Nesse caso uma alternativa

seria criar categorias baseadas nos valores da variável, ou seja categorizar

essa variável, e contar o número de ocorrências em cada categoria. O

procedimento Recode pode ser usado para criar a variável categórica.


Na tabela abaixo (Figura V-2), apresentamos a distribuição de frequências da

variável idade dividida em 4 faixas etárias. Notamos que as pessoas dessa

amostra são muito jovens, pois 48,4% têm menos do que 25 anos (15

pessoas). Sete pessoas têm entre 26 e 35 anos, seis pessoas entre 36 e 45

anos e apenas 3 pessoas têm mais do que 45 anos.

Quando trabalhamos com variáveis escalares algumas medidas resumo”

podem ser usadas para obtermos uma descrição mais apurada dos dados.

Essas medidas são divididas basicamente em duas classes, as medidas de

posição e as medidas de variabilidade. Faremos a seguir um resumos desses

dois grupos e apresentaremos as medidas mais conhecidas e importantes.

3. Medidas de posição

As medidas de posição são muito importantes para a descrição dos dados.

Geralmente usadas para variáveis escalares (pois muitas vezes não

acrescentam nenhuma informação no estudo de variáveis categóricas) essas

medidas nos dão uma boa ideia da magnitude dos dados.

Suponha por exemplo que você está interessado em descrever as horas gastas

semanalmente com trabalho de um grupo de 31 pessoas. Uma opção seria

imprimir uma listagem dos 31 valores ordenados e estudá-los um a um. Quanto

maior for a amostra mais complicado será analisar a variável dessa maneira.

Imagine o trabalho que você teria com uma amostra de 1500 pessoas!

Precisamos, portanto, encontrar uma maneira de condensar a informação

através da construção de índices ou medidas que facilitem nossa análise.


Podemos apresentar os valores mínimo e máximo que a variável assume na

amostra. Esse par de valores determina o intervalo de variação da variável em

estudo. No caso das horas de trabalho o mínimo é O e o máximo 70, ou seja,

ninguém trabalha menos de O horas ou mais de 70 horas por semana.

Vamos pensar novamente na listagem dos valores ordenados do menor paia o

maior. Já comentamos que essa lista não nos ajuda muito. Mas se, ao invés de

olharmos a lista toda, escolhermos alguns valores de maneira conveniente

poderemos tirar proveito da informação. Os valores mínimo e máximo são um

exemplo.

Uma outra medida de interesse é o valor que divide os dados ao meio, ou seja

o valor que deixa pelo menos 50% das observações ordenadas à esquerda. No

caso das horas de trabalho esse valor é o número 40, portanto 50% das

pessoas trabalham até 40 horas por semana. Esse valor é denominado de 502

percentil. Um determinado percentil é o valor da variável de estudo que divide

os dados ordenados em grupos de modo que um certo percentual está acima

desse valor e o restante abaixo.

O 25, 502, e o 752 percentis são denominados respectivamente de 1Q., 2 e 32

quartis, pois dividem o conjunto de dados em quatro grupos.

O 102, 202, 3Q2 902 percentis são denominados respectivamente de 1Q, 22,

32, •., 92 decis, pois dividem os dados em 10 grupos

Vamos agora estudar um pouco sobre algumas medidas que nos trazem

informações sobre o valor central da distribuição dos nossos dados.

A mais famosa dentre todas as medidas de posição é certamente a média

aritmética. Fácil de ser calculada a média aritmética é simplesmente a soma de

todas as observações dividida pelo número delas. Para as horas de trabalho a

média é 37.9 horas.

Apesar das características descritas acima a média é uma medida muito

influenciada por valores extremos. Observe o valor da média para os dois

conjuntos de dados abaixo:

Notamos que nos dois conjuntos os valores são idênticos a não ser pelo último

valor que no primeiro é 6 e no segundo é 30. O valor da média passou de 4

para 7.43.

Nesse caso, como alternativa podemos calcular uma outra medida que não é

influenciada por valores extremos. Essa medida é conhecida como mediana. A

mediana nada mais é do que o 22 quartil, que já foi discutido. Relembrando,

essa medida é o valor que deixa pelo menos 50% das observações à sua

esquerda. Para os dois conjuntos de dados apresentados acima:


Note que, apesar da alteração do último valor no segundo conjunto de dados, a

mediana permanece inalterada. Por essa razão, dizemos que a mediana é uma

medida mais robusta do que a média.

Uma outra medida de centralidade não muito utilizada é a moda. A moda nada

mais é do que o valor mais frequente do conjunto de dados. Para variáveis que

apresentam muitos valores diferentes, a moda não traz nenhuma informação

relevante. Porém, pala variáveis categóricas, numéricas que assumem um

número pequeno de valores ou escalares categorizadas a moda nos dá a

informação da categoria mais frequente.

Nos exemplos do estado civil e faixa etária a moda é, respectivamente, 1 e 1.

Portanto para amostra estudada o estado civil mais frequente é o solteiro

(estado civil=1) e a faixa etária mais frequente é a primeira, com pessoas de

até 25 anos (faixa etária=’l).

4. Medidas de variabilidade

Analisando os dois conjuntos de dados abaixo notamos que apesar das médias

serem iguais, os conjunto têm uma diferença grande com relação a

homogeneidade dos valores.

No primeiro conjunto todos os valores são iguais a 2 e portanto iguais a média

(dados totalmente homogêneos). Já no segundo conjunto os valores não são

todos iguais (dados heterogêneos) embora a média continue sendo 2.

Seria importante agora, expressar a variabilidade dos dados através de alguma

medida numérica. Para que essa medida fosse coerente ela deveria assumir o

valor zero apenas se todos os dados fossem iguais (ex. conjunto 1). Além

disso, quanto maior fosse a variabilidade do conjunto de dados, maior seria o

valor da medida.

Uma medida bastante simples e fácil de ser calculada é a amplitude. A

amplitude nada mais é do que o valor máximo menos o valor mínimo de um

conjunto de dados. No caso dos conjuntos 1 e 2 a amplitude é igual a O e 4,

respectivamente. Uma desvantagem dessa


medida é que ela é muito influenciada por valores extremos. Além disso ela

não leva em conta a variabilidade entre todas as observações do conjunto de

dados. Observe no exemplo abaixo que apesar de a amplitude ser a mesma

para os dois conjuntos, o primeiro aparenta ser mais homogêneo:

A próxima medida que apresentaremos tenta corrigir esse “defeito’ da

amplitude. Em primeiro lugar iremos considerar as distâncias de todas as

observações a um valor central, a média. Após o cálculo de todas as distâncias

(diferenças), faremos a sua soma. Para refinar um pouco a medida podemos

dividir a soma pelo número total de observações. Acompanhe o cálculo da

medida proposta no exemplo a seguir:

Deixamos para você verificar que para qualquer conjunto de dados a medida

apresentada acima é sempre zero. Dessa maneira é impossível trabalhar com

essa medida para estudar a variabilidade dos dados. Fazendo, porém, uma

pequena mudança na medida acima obteremos a famosa variância. A variância

nada mais é do que a soma das diferenças das observações em relação à

média elevadas ao quadrado, dividida pelo número total de observações.

Dessa maneira a variância será sempre positiva e só assumirá o valor zero se

todas as observações do conjunto de dados forem iguais. Para o conjunto de

dados acima a variância é dada por:

Devemos porém tomar cuidado ao analisar essa medida, pois ao elevarmos as

diferenças ao quadrado estamos mudando a unidade de medida dos dados.

Por exemplo se os números do conjunto 1 estão expressos em metros a

variância estará expressa em metros quadrados. Para contornar esse problema

foi criado o desvio padrão, que nada mais é do que


a raiz quadrada da variância (voltamos portanto à unidade de medida original).

Para o conjunto de dados acima o desvio padrão é dado por:

Ainda baseado no desvio padrão existe uma medida que tenta expressar a

variabilidade da média e não a variabilidade dos dados como um todo. Essa

medida é chamada de erro padrão da média, ou simplesmente erro padrão, e é

obtida pela divisão do desvio padrão pela raiz quadrada do número de

observações. Para o conjunto de dados acima o erro padrão é:

Conforme já foi mencionado anteriormente, existem vários tipos de variáveis e

é razoável pensar que cada tipo deva receber um tratamento específico; afinal,

não faz sentido calcular a média da variável Opção (Qual sua primeira opção

para as horas de lazer?), nem tão pouco fazer uma tabela de dupla entrada

para Ida de e Trabalho (Horas de trabalho por semana) com seus valores

absolutos.

Se estamos trabalhando com variáveis categóricas nominais, digamos Estcivii

(estado civil), não faz sentido calcularmos medidas como média ou variância já

que não existe uma ordem natural das possíveis respostas. Podemos, por

exemplo, pedir uma tabela de frequências e calcular a moda.

Para as variáveis ordinais surgem algumas novas opções, já que agora as

respostas assumem uma ordem natural; este é o caso da variável Escola (Grau

de instrução), onde a ordem natural é 12 grau incompleto, lQ. grau completo,

22 grau incompleto, e assim por diante até superior completo. Nesse caso,

além da distribuição de frequências e da moda, podemos calcular medidas

como mediana, mínimo e máximo.

As variáveis escalares são as que apresentam mais opções para análise

descritiva; é o caso da variável Idade, onde além de mediana, quartis e

percentis, podemos também calcular média, desvio padrão, valores mínimo e

máximo, medidas de assimetria e curtose (relacionadas à distribuição da

variável) etc. Além disso, se quisermos uma distribuição de frequências e moda

podemos fazê-lo transformando a Ida de em variável qualitativa ordinal,

digamos FaixaEt


(exatamente como fizemos anteriormente através do comando Recode

presente no menu Transform).

Como veremos a seguir, o SPSS apresenta procedimentos para o cálculo de

todas as medidas descritas acima e algumas outras. É importante ressaltar que

o SPSS não saberá decidir qual é o tipo de medida adequada para as variáveis

existentes no seu estudo; cabe a. você decidir


VI. Comandos do SPSS para Análise Descritiva

Os comandos relacionados a análise descritiva encontram-se nas opções

Reports e Descriptive Statistics do menu Analyze. Figura VI-1 apresenta as

opções de Descriptives Statistics. Vamos agora estudar as opções mais

usadas.

1. OLAP Cubes

A primeira opção do menu Analize. ..Reports é OLAP Cubes. Esse

procedimento é utilizado para a construção de relatórios e estes podem se

tomar bem flexíveis graças ao uso dos ícones de organização. A construção

dos relatórios é simples, basta preencher os quadros da janela mostrada na

Figura VI-2 com as variáveis desejadas. A seguir detalharemos os quadros.


No quadro Summary Variable(s) coloque as variáveis para as quais você

deseja que ele calcule medidas descritivas como médias, somas, percentuais,

mínimos, máximos, etc.; geralmente as variáveis nesse quadro são

quantitativas. Como exemplo, vamos colocar as variáveis idade, trabalho e

lazer.

No quadro abaixo Grouping Variable(s), coloque variáveis para as quais você

gostaria que sejam criados subgrupos. No nosso exemplo, colocaremos as

variáveis sexo, estci vil e escola.

Clicando no botão Statistics... você escolhe quais as estatísticas que serão

calculadas. Como padrão temos: soma, número de casos, média, desvio-

padrão, percentual sobre a soma total, percentual sobre o N total; várias outras

estatísticas como mediana, mínimo, máximo e variância, podem ser escolhidas

(veja Figura VI-3). No nosso exemplo removeremos a soma (sum) e o

percentual sobre a soma total (percent of total sum). Depois basta clicarmos

em Continue.


Finalmente ao clicar no botão Titie... (ver Figura VI-4), você pode escolher um

título e uma legenda para a tabela, que poderão ser modificados

posteriormente. Após a digitação do título e da legenda dique em Continue.

Agora basta clicar no botão 0K e teremos nosso relatório como na Figura \TJ-5.


Inicialmente, temos o número de casos, a média, o desvio-padrão e o

percentual sobre o número de casos para as variáveis idade, trabalho e lazer

considerando todos os casos, independentemente de sexo, estado civil e grau

de instrução. Assim, por exemplo, temos para a idade que:

- O número de pessoas que responderam a idade é 3

- A idade média dessas pessoas é 28,9 anos e o desvio-padrão é 11,31 anos;

- Elas representam 100% das pessoas que responderam a idade (por enquanto

essa coluna é inútil).

Vamos editar a tabela e mostrar subgrupos baseados em sexo, estado civil e

escolaridade; dique com o botão direito do mouse na tabela e escolha a opção

SPSS Pivot Table Object - Open.

Primeiro vamos selecionar apenas os homens; para isso dique na seta ao lado

da palavra Total associada a sexo e selecione masculino da lista que irá

aparecer. De maneira similar, vamos selecionar as categorias solteiro e

superior incompleto. Agora nossa análise para a idade ficaria assim (ver Figura

VI-6):

- O número de homens solteiros com superior incompleto que responderam a

idade é 4;

- A idade média desses homens é 20,75 anos e o desvio-padrão é 1,26 anos;

- Eles representam 12,9% das pessoas que responderam a idade.


Usando os ícones de organização você poderia mostrar apenas uma estatística

por vez, todos os grupos de uma ou mais variáveis na mesma tabela, etc. A

Figura VI-7 mostra essa versatilidade e lembre-se que você também pode usar

os identificadores (bookmarks) para marcar aquelas configurações que mais

lhe interessa

Usando os ícones de organização você poderia mostrar apenas uma estatística

por vez, todos os grupos de uma ou mais variáveis na mesma tabela, etc. A

Figura VI-7 mostra essa versatilidade e lembre-se que você também pode usar

os identificadores (bookmarks) para marcar aquelas configurações que mais

lhe interessa


Na parte inferior temos um quadro chamado Statistics. Esse quadro apresenta

várias opções de medidas estatísticas (ver Figura VI-9). Devemos tomar

cuidado pois nem todas as medidas apresentadas trazem informações

relevantes para o estudos das variáveis em questão. As medidas estão

divididas em 4 grupos:

Percentile Values - no canto superior esquerdo essa opção possibilita o

cálculo dos quartis (Quartiles), decis (Cut points for 10 equal groups -

você pode mudar o número 10 para qualquer divisão que desejar) e

quaisquer percentis (Percentile(s)) de interesse;

Central Tendency - no canto superior esquerdo essa opção possibilita o

cálculo da média (Mean), mediana (Median), moda (Mode) e soma

(Sum);

Dispersion - no canto inferior esquerdo essa opção possibilita o cálculo

do desvio padrão (Std. deviation), variância (Variance), amplitude

(Range), valor mínimo (Minimum), valor máximo (Maximum) e erro

padrão da média (SE. mean);

Distribution - no canto inferior direito essa opção possibilita o cálculo de

duas medidas de distribuição: Kurtosis e Skewness. A kurtosis é uma

medida do achatamento da distribuição e skewness é um índice que

reflete a simetria da distribuição em torno de um valor central.

Devemos decidir agora dentre todas essas medidas aquelas que são

adequadas para as variáveis prog-tv e peças. Como ambas são nominais

apenas a moda trará alguma informação relevante.


Um outro quadro que aparece na parte inferior da janela principal é o Charts.

Esse quadro apresenta três gráficos como opção: histograma com ou sem uma

curva normal (Histograms marcando ou não a opção With normal curve),

gráfico de barras (Bar charts), e gráfico de Pizza (Pies), como mostrado na

Figura VI-lO. Note que apesar de apresentar um menu exclusivamente para

gráficos (menu Graphs) o SPSS também possibilita a construção de gráficos

dentro de procedimentos estatísticos.

Discutiremos alguns dos tipos de gráficos mais utilizados na seção seguinte.

Por hora, vamos escolher a opção Bar charts.


O último quadro que aparece na parte inferior da janela principal é o Format.

que inclui opções de ordem estética (ver Figura VI-li). Através do quadro Order

by controlamos a ordem em que as categorias da variável são apresentadas na

janela de saídas. As opções disponíveis são por ordem crescente (ou

decrescente) dos valores que a variável assume e crescente (ou decrescente)

de frequências. Se você marcar a opção Suppress tables with more than

categories, o SPSS não irá fazer nenhuma tabela que tiver mais do que um

certo número de categorias, sendo que o padrão é 10. Finalmente no quadro

Multiple Variables, caso você tenha pedido estatísticas para suas variáveis,

você pode escolher que essas estatísticas saiam numa só tabela (Compare

variables) ou uma tabela para cada variável separadamente (Organize output

by variables). No nosso exemplo, vamos escolher a opção Ascending counts

do quadro Order by.

Escolhidas todas as opções podemos clicar 0K. Feito isso o SPSS ativa a

janela de saídas e apresenta o resultado da frequência (ver Figura VI-12).

Você deve perceber que duas distribuições de frequências são apresentadas.

Uma para a variável progtv e outra para peças. A distribuição de frequências

apresenta os rótulos dos valores, o número de observações em cada categoria

(Frequency); a porcentagem que a frequência representa no total de

observações levando-se em conta valores ausentes (Percent);

a percentagem que a frequência representa no total de observações

desconsiderando os valores ausentes (Valid Percent) e o percentual válido

acumulado (Cum Percent).

Acima da distribuição de frequências, a moda também é apresentada no

quadro Statistics (lembre-se que escolhemos a opção mode no quadro

Statistics).


Temos ainda os gráficos de barras localizados na janela de saídas. Olhando o

gráfico apresentado referente à variável progtv, por exemplo, notamos com

facilidade que o tipo de programa preferido é filme (barra maior) e que o menos

preferido é programa humorístico (menor barra) como mostra a Figura VI-13.

É fácil perceber que a informação contida em um gráfico é muito mais simples

de ser interpretada do que a informação numérica. É por esse motivo que os

gráficos são tão importantes na etapa de análise exploratória de dados.


3. Descriptives

A segunda opção de Descriptive Statistics é o procedimento Descriptives. De

maneira similar ao procedimento Frequencies temos a opção de incluir as

variáveis que julgarmos necessárias (vamos colocar Trabalho e Lazer) ao

quadro central Variable(s) (ver Figura VI-14). Essa opção geralmente é usada

quando temos interesse em estudar variáveis escalares de maneira rápida.


O quadro inferior direito Options apresenta medidas estatísticas que podem ser

usadas para descrição dos dados (ver Figura VI-15). Existem dois grupos de

medidas idênticos aos já discutidos anteriormente na opção Statistics do

procedimento Frequencies, são eles Dispersion e Distribution. Além dessas

medidas podemos pedir para o SPSS apresentar a média (Mean) e a soma

(Sum) das variáveis em estudo, O último quadro, Display Order, nos permite

escolher a ordem com que os resultados serão apresentados na janela de

saídas:

crescente ou decrescente de médias, alfabética ou a ordem em que as

variáveis aparecem na lista. Este quadro é útil quando estamos estudando

mais do que uma variável.

No nosso caso podemos escolher, por exemplo, as medidas mínimo, máximo,

média, desvio padrão e erro padrão, em ordem decrescente de médias.

Agora basta cicar 0K na janela principal e analisar os resultados que são

apresentados na janela de saídas (ver Figura VI-16).


Notamos que em média as pessoas entrevistadas nesse estudo trabalham 37.9

horas por semana e têm 16.85 horas de lazer. Além disso o máximo de horas

trabalhadas foi 70 e o mínimo 0, enquanto que o máximo de horas de lazer foi

40 e o mínimo 2.

4. Crosstabs

A quarta opção de Descriptive Statistics é o procedimento Crosstabs que é

usado para construção de tabelas simples (geralmente de dupla entrada).

Imagine que temos duas variáveis qualitativas e estamos interessados em

observar a distribuição de frequências de ambas em conjunto. Para isso,

construímos uma tabela onde uma variável entra com suas categorias em

linhas e a outra em colunas. Podemos então fazer um estudo descritivo sobre o

comportamento conjunto das variáveis. Porém, muitas vezes queremos mais

do que


simplesmente observar. Queremos, também, verificar se existe efetivamente

assoc:ação entre tais variáveis. Então precisamos utilizar testes estatísticos

(análise inferencial). Vários testes estatísticos estão disponíveis no

procedimento Crosstabs.

A Figura VI-17 mostra as opções do procedimento Crosstabs. No canto

esquerdo estão disponíveis todas as variáveis do banco de dados. Para

construção da tabela basta movermos a variável cujas categorias desejamos

dispostas nas linhas para o quadro Row(s) localizado no centro da janela e a

variável cujas categorias desejamos dispostas nas colunas para o quadro

Column(s). Note que podemos colocar mais do que uma variável nos quadros

Column(s) e Row(s). Entretanto, através do comando Crosstabs serão

construídas várias tabelas de dupla entrada a partir de combinação das

variáveis duas a duas. Se você deseja construir uma tabela com mais de duas

entradas (envolvendo 3 variáveis ou mais) você pode usar o quadro Layer,

porém você terá opções ilimitadas de estatísticas e customização; neste caso,

o módulo Tables é indicado, já que ele possui recursos avançados para a

customização e criação de tabelas.

Suponha que estamos interessados em verificar se existe alguma associação

entre a preferência religiosa e a região do país nos E.U.A., abrindo, para isso, o

arquivo GSS93Treinamento.sav. Moveremos então a variável Região (região4)

para o quadro Column(s) e Preferência religiosa (religião) para o quadro

Row(s).

Se você marcar a opção Display clustered bar charts serão feitos gráficos de

barras com as variáveis pedidas e a opção Suppress tables faz com que

nenhuma tabela seja feita; apenas as estatísticas, testes e gráficos pedidos

serão mostrados na janela de saídas.


Aparece ainda na janela quatro pequenos botões (ou três, caso você não tenha

o módulo SPSS Exact Tests instalado) na parte inferior:

Exact - como dito acima, essa opção só estará disponível se o módulo

Exact Tests for instalado; indicado para estudos onde as suposições

dos testes assintóticos não estão satisfeitas (por exemplo, uma amostra

pequena); apresenta dois procedimentos para cálculo do nível

descritivo: método Monte Cano (baseado em sirnulações) e o método

Exato (ver Figura VI-18);

Statistics - deve ser usado para selecionar os testes estatísticos que

serão realizados; note que são apresentados nesse quadro catorze

testes estatísticos diferentes; cada um deles é apropriado para

verificarmos suposições diferentes sobre as variáveis em questão (ver

Figura VI-19); vamos selecionar a estatística Chi-square que é usada

para testar a hipótese de que as variáveis que definem as linhas e

colunas são independentes;

Celis - essa opção é usada para escolha das medidas que serão

apresentadas em cada uma das células da tabela (ver Figura VI-20); as

possíveis medidas apresentadas são: frequências ou valores

observados (Counts.. Observed); valores esperados, isto é, frequências

calculadas assumindo que as variáveis são independentes (Counts..

Expected); porcentagens por linha, coluna e total (Percentages.. Row,

Column e


Total) e vários tipos de resíduos, que são a diferença entre o valor observado e

esperado (quadro Residuais); pediremos, para nosso exemplo, os valores

observados e as porcentagens por coluna;

1 Format - usada apenas para escolher a ordem em que as categorias

(valores) da variável apresentada nas linhas da tabela serão apresentadas

(Row Order), que pode ser crescente ou decrescente (Ascending ou

Descending);


O passo mais importante agora é saber interpretar todos os resultados

presentes na janela de saídas, senão todo o trabalho que tivemos até agora foi

apenas perda de tempo A Figura ‘11-21 apresenta o resultado da tabela de

dupla entrada feita através do procedimento Crosstabs

Note que dentro de cada célula são apresentados os dois valores pedidos:

Count que representa a frequência e % within Region representando a

porcentagem sobre a coluna (a variável Região). Essa disposição pode ser

facilmente modificada usando os ícones de organização como já visto; note na

Figura ‘11-21 a diferença com a tabela que você tem na tela do seu

computador.


Além da tabela também é apresentada na janela de saídas a estatística de qui-

quadrado. Através dos valores apresentados saberemos se existe alguma

evidência para concluir que as variáveis que representam a região dos E.U.A. e

religião são estatisticamente relacionadas (dependentes). Valores das

estatísticas de qui-quadrado de Pearson e da razão de verossimilhança são

apresentados; a mais usada e conhecida é a de Pearson, que no nosso caso

tem valor 109.104. Como o nível de significância, Asymp. Sig. (ver Figura VI-

22), associado a essa estatística é muito baixo (menor que 0.0965) temos

evidência suficiente para afirmar que as variáveis são relacionadas.

A terceira linha da tabela nos mostra uma estatística (Lineai-by-Linear

Association) que mede a associação linear entre as variáveis da linha e da

coluna. Esta estatística não deve ser usada para variáveis nominais (nosso

caso, por exemplo) e também é chamada de teste de qui-quadrado de Mantel-

Haenszel.

Você deve ter percebido que as opções disponíveis em Reports e Descriptive

Statistics para análise descritiva são usadas para obter diferentes informações

sobre os dados. É importante lembrar que, embora o SPSS seja um software

muito fácil de operar, o bom senso do usuário é fundamental; em outras

palavras, a cada passo que pretendemos dar, é preciso pensar antes se a

análise faz sentido ou não, pois se pedirmos ao SPSS que calcule a média

para a variável estcivil do nosso arquivo Lazer.sav, ele o fará, mas a resposta

obtida certamente não fará sentido algum.


5. Exercícios

1 — Abra o arquivo Novobanco.sav. Construa uma tabela usando o

procedimento OLAP

Cubes para mostrar o número de casos, média, desvio padrão e percentual

sobre o número total de casos das variáveis Anos de Estudo (estudo), Salário

Atual (salário) e Experiência Prévia (exp ant). Para visualizar subgrupos, use as

variáveis Sexo, Pertence a alguma minoria étnica? (minoria) e Categoria de

Emprego (catemp).

2- Utilize o procedimento Frequencies presente no menu Analyze.. Descriptive

Statistics para estudar o comportamento das variáveis Sexo e Categoria de

Emprego (catemp). Peça ainda através desse procedimento um gráfico de

barras para cada uma das variáveis e faça uma análise dos mesmos

posteriormente.

3 - Analise o comportamento das variáveis Salário Inicial (salarin), Salário Atual

(salário) e Porcentagem de Aumento (percent) através do cálculo das seguintes

estatísticas: média, mínimo, máld.mo e desvio-padrão. Utilize o procedimento

Descriptives.

4 - Construa tabelas de dupla entrada através do procedimento Crosstabs para

as variáveis Faixa Salarial (faixasal) e Sexp.. Apresente em cada célula o valor

observado e a porcentagem pela coluna. Peça também o cálculo da estatística

de qui-quadrado. Baseado nos resultados, que conclusões você pode tirar a

respeito da relação entre as variáveis?

5 - Construa um cruzamento entre as variáveis Faixa Salarial (faixasal) nas

colunas e pertence a alguma minoria étnica? (minoria) nas linhas, dividindo por

Sexo. Utilize o procedimento Crosstabs e faça uso do quadro Layer para fazer

a divisão por sexo.

6 - Edite a tabela feita no exercício anterior, mostrando apenas as mulheres,

mudando a variável Faixa Salarial (faixasal) para as linhas e Pertence a alguma

minoria étnica? (minoria) para as colunas. Selecione algumas células e

modifique a cor, coloque em negrito e centralize seu conteúdo.


VII. Gráficos Não interativos

Abordaremos nesse capítulo aspectos elementares para produção de gráficos

nãointerativos3 no SPSS. A maneira com que a informação é apresentada nos

gráficos permite uma interpretação mais fácil e intuitiva dos dados. Isso faz

com que eles sejam uma ferramenta muito importante para análise exploratória

dos dados.

Como já foi mencionado, é no menu Graphs que encontramos todos os tipos

de gráficos gerados pelo SPSS. Esse menu apresenta mais de 10 tipos de

gráficos diferentes. A decisão sobre qual dos tipos é mais adequado vai

depender do tipo de variável(eis) que você possui e da informação que você

quer obter sobre elas. Precisamos ter alguns cuidados para não produzir

gráficos que não trazem informação relevante ao nosso estudo, como por

exemplo um gráfico de barras (Bar) para uma variável que contenha o valor da

altura das pessoas.

Vamos discutir a construção e aplicabilidade dos gráficos do tipo pizza, barras

e diagrama de dispersão.

1. Gráfico de pizza

Para estudar o gênero de peças de teatro preferido das pessoas vamos

construir um gráfico de pizza. Selecionamos a opção Pie do menu Graphs.

Devemos decidir entre as três opções que são apresentadas na Figura VII- 1.

3 A partir da versão 8.0 do SPSS existem dois tipos de gráficos: interativos e não-interativos. As principais

diferenças do gráfico interativo para o não-interativo é que você têm muitas outras opções para edição, pode arrastar e largar variáveis e atualizar o gráfico, dividi-lo em painéis múltiplos para comparação lado a lado e colá-lo em outras aplicações como objetos Active-X. Posteriormente estudaremos essa opção.


Cada uma das opções apresentadas é adequada para uma situação diferente:

Depois de escolhida a opção a ser usada, no nosso caso a primeira, basta

clicar Define e uma janela para definição do gráfico é aberta (ver Figura Vll-2).

Devemos mover para o quadro Define Slices by a variável cujas categorias

definirão os pedaços da pizza, no nosso caso Qual seu estilo preferido de

peças (peças). A largura de cada pedaço é determinada pela função escolhida

no quadro Slices Represent. As seguintes opções estão disponíveis:

Além das opções descritas acima, ainda podemos dar um título ao gráfico

através do botão Tities, no canto inferior direito; escolher opções referentes ao

tratamento dado a valores ausentes através do botão Options ou fazer uso da

opção Template, que será comentada adiante.


Para o tipo de peça preferido podemos usar, por exemplo,o número de casos

(N o! cases) para determinar a largura dos pedaços da pizza. Vamos

acrescentar um título e uma legenda ao nosso gráfico, bastando para isso,

clicar em Titles, escolher um título, subtítulo e/ou legenda e clicar em Continue.

Agora basta clicar 0K. O SPSS desenha o gráfico e o apresenta na janela de

saídas (ver Figura VII-4).


Notamos que o gênero de peça preferido das pessoas é a comédia. A mesma

porcentagem de pessoas prefere os gêneros tragédia e musical. Além disso

urna porcentagem razoavelmente grande de pessoas não opinou sobre o

gênero teatral preferido. É possível que essas pessoas não frequentam teatros.

O gráfico apresentado pelo SPSS pode não estar exatamente no formato que

você deseja. Porém com algumas edições você pode modificar muito a

apresentação do seu gráfico.

Essas modificações são feitas através de uma janela própria para a edição de

gráficos não interativos gerados pelo SPSS. Para transferir um gráfico da

janela de saídas para sua própria janela de edição basta clicar duas vezes

sobre ele.

Isso feito o gráfico de pizza aparece agora em uma outra janela de nome Chart

1 - SPSS Chart Editor. Note que nessa janela uma nova barra de ferramentas é

apresentada, além de um novo grupo de menus. E é através dessas

ferramentas que faremos as modificações desejadas.


a) Omitindo pedaços da pizza

Você pode decidir quais dos pedaços da pizza omitir sem ter que redefinir todo

o gráfico. O menu Series permite que você especifique quais pedaços que você

deseja omitir (além d outras modificações diferentes para outros tipos de

gráfico).

Podemos, por exemplo, omitir o pedaço que contém os valores ausentes. Para

isso basta clicar o menu Series.. Displayed (ver Figura VII-5). Abre-se uma

janela que possui um quadro chamado Slices na parte inferior. Todas as

categorias presentes no lado direito, Display, serão mostradas no gráfico. Para

omiti.r alguma dessas categorias basta movê-las para o quadro no canto

esquerdo, Omit. Dessa maneira moveremos a categoria Missing para o quadro

Omit e clicamos 0K. A Figura Vll-6 apresenta o gráfico já sem os valores

ausentes.


Para destacar um ou mais pedaços do seu gráfico, você pode explodi-lo. Para

isso, basta selecionar o pedaço desejado (clicando em tal pedaço) e clicar no

ícone ou clicar no menu Format.. Explode Slice. Por exemplo, podemos

explodir a categoria musical, destacando-a das demais (veja Figura VII-7)


Para a construção do novo gráfico você tem a opção de substituir o gráfico de

pizza clicando em Replace. Isso significa que o SPSS desenha o gráfico de

barras na mesma janela em que está o gráfico de pizza e você perde a

customização já feita para o mesmo. A Figura VII-9 apresenta o novo gráfico.

Algumas mudanças também podem ser feitas nesse gráfico. Podemos

sombrear, mudar a cor e o padrão das barras, etc...


a) Gráficos de barras envolvendo mais de uma variável

O gráfico de barras da Figura VlI-9 apresenta a distribuição do tipo de peça

favorita de todas os respondentes. Você pode criar, no SPSS um gráfico de

barras do tipo agrupado. Nesse caso uma outra variável categórica pode ser

usada além do tipo de peça favorita, por exemplo, sexo. A informação obtida no

gráfico (se as barras representarem o número de casos) é equivalente à obtida

a partir de uma tabela de dupla entrada, ou seja, o gráfico apresentará o

gênero de peça favorito dos homens e mulheres.

Para definir tal gráfico temos que selecionar no menu Graphs.. Bar, a opção

Clustered. Uma janela é aberta na qual faremos a opção pelo tipo Clustered

(ver Figura VII-10).

O quadro Data in Chart Are apresenta as mesmas opções do gráfico do tipo

Pie, que já foram discutidas anteriormente na página 73. No nosso caso

escolheremos a opção Summaries for groups of cases.

Para especificar as variáveis que definirão o gráfico devemos clicar o quadro

Define no canto superior direito. A janela de definição é aberta (ver Figura Vil-

li). O quadro Bars Represent apresenta as mesmas opções do quadro Slices

Represent presentes no gráfico do tipo Pie, que já foram discutidas na página

75. Escolheremos a opção Nºof cases, para que as barras representem o

número de casos.

Opções como inserção de título (Tities) utilização de Template e o quadro

Options (para tratamento dos valores ausentes) também estão presentes nessa

janela.


Ainda falta informar ao SPSS quais variáveis irão compor o gráfico. Para isso

dois quadros foram reservados:

1 Category Axis - a variável escolhida para ocupar esse quadro definirá as

categorias presentes no eixo horizontal do gráfico;

f Define Clusters by - as categoria da variável escolhida para ocupar esse

quadro determinarão o número de barras que serão apresentados para cada

categoria da variável usada como Category Axis; cada uma das barras

definidas pelas categorias dessa variável receberá uma cor diferente;

No nosso caso usaremos o Sexo como Category Axis e Qual seu estilo

preferido de peças (peças) como variável de definição de Cluster.

Após todas as definições basta clicar 0K e o SPSS desenha o gráfico na janela

de saídas. A Figura VII-12 apresenta o gráfico resultante.

Faremos agora algumas modificações no gráfico para melhorar seu aspecto,

movendo-o para a janela de edição como descrito anteriormente.


Dois ícones presentes na barra de ferramentas são responsáveis pela

mudança de padrão e cor dos objetos selecionados (por exemplo, barras,

rótulos, títulos, molduras etc.). Estes ícones são: e respectivamente.

Mudaremos em primeiro lugar o padrão das barras. Precisamos escolher a(s)

barra(s) para as quais desejamos efetuar a mudança, fazendo isso com um

dique do mouse dentro da barra. Vamos selecionar por exemplo a(s) barra(s)

referente(s) ao gênero comédia. Agora basta um dique no ícone e uma janela

com oito tipos de padrões diferentes é aberta (ver Figura VII-13). Escolhemos

aquele que mais nos agrada com um dique. Para validar a mudança basta

clicar Apply no canto superior direito. Para fechar essa janela basta clicar

Close.


Abriremos agora a janela para mudança de cor. Precisamos escolher a(s)

barra(s) para as quais desejamos efetuar a mudança com um dique de mouse

dentro da(s) barra(s). Vamos selecionar por exemplo a barra referente ao

gênero tragédia. Agora basta um dique de mouse no ícone e uma janela para

mudança de cor é aberta (ver Figura VII-14).

Escolhemos a cor desejada com um dique em uma das 16 opções

apresentadas ou podemos criar a cor desejada através do quadro Edit no canto

inferior direito. Para validar a mudança basta clicar Apply no canto superior

direito. Para fechar essa janela basta cicar Close.

c) Mudando o estilo dos rótulos e barras

O estilo das barras também pode ser mudado no SPSS. Três estilos diferentes

para gráficos não interativos estão disponíveis. Com um dique no ícone

abrimos a janela para


mudança de estilo (ver Figura VII-15). Os três estilos disponíveis são: simples

(Normal), sombreado (Drop shadow) e tridimensional (3-D effect).

Escolhendo estilo sombreado ou tridimensional, ainda podemos optar pela

profundidade do efeito, através da opção Depth presente no canto inferior

esquerdo. Como padrão, o valor presente nesse quadro é 20. Vamos optar

pelo efeito tridimensional. Para validar a mudança basta dicar Apply Ali. Para

fechar essa janela basta clicar Close.

Podemos inserir rótulos com valores que representam o número de casos em

cada barra. Os rótulos serão apresentados dentro das barras e podem ser

customizados. Com um dique no ícone abrimos a janela que nos permite inseri-

los (ver Figura VII-16). Três opções estão disponíveis: sem rótulos (None),

inserção dos números (Standard), inserção dos números dentro de uma

moldura (Framed).

Escolheremos a opção Framed. Para validar a opção, clicamos o quadro Apply

Ali. Para fechar essa janela basta clicar Close.


d) Mudando as opções das fontes gráficas das seleções

Podemos mudar o tipo e tamanho da fonte de qualquer seleção do gráfico,

como títulos, legendas, anotações etc.; para isso, basta selecionarmos o objeto

que gostaríamos de modificar e clicar no ícone , que fará com que uma

janela seja aberta (ver Figura I-17), a qual poderemos fazer as mudanças

desejadas. Após escolher a fonte e o tamanho, dique em Apply.

A orientação das barras também pode ser mudada de vertical para horizontal e

vice- versa. Para isso basta clicar o ícone .

e) O menu Chart

Várias outras mudanças importantes, como inserção de título, rótulos dos

eixos, linhas de referência, anotações, inclusão ou exclusão de moldura interna

ou externa, etc., podem ser efetuadas através do menu Chart. Tomaremos

como exemplo a criação de uma anotação no gráfico; para isso, escolha a

opção Annotation do menu Chart e uma janela será aberta (ver Figura Vll-18).

Nessa janela você pode escolher o texto, a justificação, a inclusão de uma

moldura em torno texto e a posição no eixo das categorias e eixo Y. Feita a

definição da sua anotação, não esqueça de clicar em Add.


O gráfico resultante após todas as mudanças é apresentado na Figura VII-19.


3. Diagramas de dispersão

Os gráficos de barras e pizza vistos anteriormente são indicados para variáveis

categóricas (nominais ou ordinais). Estudaremos agora um outro tipo de gráfico

que é indicado para variáveis escalares.

Na pesquisa sobre lazer realizada foram coletadas as seguintes variáveis:

horas de trabalho por semana (trabalho) e horas gastas com lazer por semana

(lazer). É razoável imaginar que quanto mais a pessoa trabalha menos tempo

ela tem para gastar com lazer. O diagrama de dispersão é um gráfico que vai

nos ajudar a investigar se essa relação entre as horas de trabalho e lazer é

plausível.

Um diagrama de dispersão é um gráfico que apresenta em cada um dos eixos

(dois eixos no nosso caso) os valores das variáveis em questão. Pala nosso

exemplo, os valores das horas de trabalho podem ser apresentados no eixo X

(horizontal) e os valores das horas de lazer no eixo Y (vertical). Para cada

respondente um ponto será plotado.

Uma vez na janela de dados ou na janela de saídas, basta clicar a opção

Scatter no menu Graphs e uma janela é aberta (ver Figura ‘/11-20). É através

dessa janela que escolheremos o tipo de diagrama de dispersão adequado ao

nosso estudo.

Simple - nesse tipo de gráfico para cada caso um ponto é plotado; cada

ponto representa os valores de duas variáveis;

Overlay - esse tipo de gráfico permite a sobreposição de vários gráficos

do tipo Simple;

Matrix - essa opção permite a construção de uma matriz quadrada de

diagramas de dispersão do tipo Si.mple; são construídos dois diagramas

para cada combinação das variáveis especificadas, sempre duas a

duas;

3-D - nesse tipo de gráfico para cada caso da janela de dados um ponto

é plotado; cada ponto representa os valores de três variávei.s; os pontos

são plotados em um sistema de coordenadas tridimensional que pode

ser rotacionado posteriormente;


Como temos interesse na relação entre duas variáveis apenas, o tipo indicado

para nosso caso é o Simple. A janela para definição do gráfico é acessada

através do botão Define no canto superior direito. A Figura VII-21 apresenta

essa janela.

Podemos mover variáveis para quatro quadros presentes na parte central da

janela de

definição:

Y Axis - a variável escolhida para esse quadro vai determinar a posição

vertical de cada ponto no gráfico;

X Axis - a variável escolhida para esse quadro vai determinar a posição

horizontal de cada ponto no gráfico;

Set Markers by - os pontos referentes a cada uma das categorias dessa

variável serão apresentados em cores ou marcadores diferentes no

gráfico;

Label Cases by - você pode ver os valores da variável escolhida para

esse quadro plotados em cima de determinados pontos do diagrama de

dispersão, usando posteriormente o ícone na janela de edição. Se

rótulos foram definidos para essa variável,eles serão plotados ao invés

dos valores;


Escolheremos a variável horas gastas com lazer por semana (lazer) para o

quadro Y Axis, horas de trabalho por semana (trabalho) para X Axis, sexo para

Set Marker by e estado civil (estcivil) para Label Cases by. Opções como

inserção de título (Tities), utilização de Template e o quadro Options também

estão presentes nessa janela.

Depois de feitas todas as definições basta clicar 0K e o SPSS apresenta o

gráfico resultante na janela de saídas. Clicando duas vezes no gráfico, você

entrará na janela de edição, onde poderá, por exemplo, mudar o tamanho e o

estilo dos marcadores do gráfico clicando no ícone (ver Figura VII-22)

ou mudar o tipo de interpolação de linha clicando em . Note que não faz

sentido mudar a interpolação de linha no nosso exemplo de gráfico de

dispersão.

Nosso gráfico de dispersão, com estilo e tamanho dos marcadores

modificados, está na Figura ‘/11-23.


Por causa do número pequeno de pontos, fica difícil dizer algo sobre a possível

relação entre as duas variáveis; talvez fosse necessário realizar uma nova

pesquisa com um número maior de casos. Além disso, lembre-se que sempre

que você estiver falando de um gráfico seus resultados não serão conclusivos.

O gráfico serve para nos dar indicações sobre as hipóteses que levantamos e

não conclusões. Os dados apresentados no gráfico são baseados apenas nas

pessoas que responderam o questionário (amostra) e não na população toda.

Para podermos concluir, com um certo grau de confiabilidade, se existe relação

entre as horas de trabalho e as horas de lazer precisamos fazer um teste

estatístico (análise inferencial). Lembrando, é claro, que para toda análise

inferencial existe um erro associado.

4. Templates e exportação de gráficos

Como vimos anteriormente a produção de gráficos no SPSS é feita de maneira

muito simples através do menu Graphs. Escolhemos, dentre as muitas opções,

o tipo de gráfico adequado e especificamos a(s) variável(eis) juntamente com o

tipo de resumo desejado. Além disso podemos especificar título, subtítulo e

nota de rodapé. Uma vez pronto, o gráfico é colocado na janela de saídas e

pode ainda ser modificado através de sua própria janela de edição.


Vamos supor que desejamos produzir uma série de gráficos similares. Algumas

características como título, subtítulo, tipo de letra, cor e padrão podem ser

aplicados a vários gráficos ao mesmo tempo, sem a necessidade de especificá-

las novamente para cada um dos gráficos separadamente. Isso pode ser feito,

no SPSS, através da criação de Templates Gráficos.

Para construir um template gráfico, hasta editar um gráfico e salvá-lo como

template gráfico, escolhendo a opção Save Chart Template do menu File da

janela de edição de gráficos. Note que o arquivo salvo terá a terminação .sct

(de SPSS Chart Template).

Quando você for utilizar um template, você terá duas opções para aplicá-lo no

seu gráfico:

1. Na janela de criação do gráfico, marcar a opção Use chart specifications

from, dicar em File e escolher algum arquivo de template gráfico;

2. Na janela de edição do gráfico, escolher a opção Apply Chart Template do

menu Format, escolher algum arquivo de template gráfico e dicar em Open

Ainda na janela de edição de gráficos, você pode exportar o seu gráfico

escolhendo um dos formatos disponíveis no SPSS: JPEG (padrão), CGM,

PNG, Macintosh PICT, PostScript, TIF, Windows Bitmap (BMP) e Windows

Metafile (WMF). Para exportá-lo, selecione a opção Export Chart do menu File,

escolha o formato em Save as Type, um nome para o arquivo a ser criado e

dique em Save. A Figura VIl-24 mostra a janela de exportação de gráficos com

suas opções de formatos.


VIII. Manipulação de Dados

1. Ordenação de casos

Antes de realizarmos qualquer análise é comum termos que “preparar” os

dados para que possamos obter a informação desejada.

Uma das necessidades na hora da manipulação dos dados em nosso dia a dia

é a ordenação dos casos segundo uma ou mais variáveis. Para fazer isso no

SPSS você pode usar o procedimento Sort Cases presente no menu Data.

Após clicar o menu Data, opção Sort Cases, uma janela é aberta (ver Figura

VIll-1). Movemos para o quadro Sort by a variável segundo a qual o arquivo

deve ser ordenado. Podemos mover para esse quadro mais do que uma

variável. Nesse caso o arquivo é ordenado, em primeiro lugar, pelos valores da

primeira variável presente no quadro e em segundo lugar pela segunda variável

presente no quadro; a segunda ordenação é feita para os valores comuns da

primeira variável e assim por diante.

Podemos escolher também entre ordem crescente ou decrescente de

ordenação para cada uma das variáveis. Isso é feito através do quadro Sort

Order, opções Descending (decrescente) ou Ascending (crescente).

Vamos fazer uma ordenação segundo sexo (ordem crescente) e idade (ordem

decrescente). Para isso movemos a variável sexo para o quadro Sort by e

escolhemos a opção Ascending no quadro Sort Order. Movemos em seguida a

variável ida de para o quadro Sort by e escolhemos a opção Descending no

quadro Sort Order. Agora basta clicar 0K para validar a ordenação.


Você pode notar na Figura \TIII1 que aparece a letra A (ou a palavra

Ascending) na frente da variável sexo e a letra D (ou a palavra Descending) na

frente da variável idade. Isso indica a ordem pela qual será feita o ordenação

para cada uma das variáveis.

A Figura \TIII-2 mostra a janela de dados após a ordenação. Note que as 19

primeiras linhas contém informações referente a pessoas do sexo masculino

(sexo=1); além disso a primeira linha do arquivo contém as informações do

homem mais velho e a linha 19 do mais jovem. As demais linhas contém as

informações das mulheres (sexo=2) também ordenadas pela idade.

Dica sobre ordenação: Você pode ordenar os dados direto da janela de dados

sem usar a opção Sort Cases do menu Data. Para isso, basta selecionar as

variáveis que definem a ordenação (você pode usar as teclas Ctrl ou Shift para

selecionar várias variáveis), cicar com o botão direito do mouse no nome de

qualquer uma das variáveis selecionadas e escolher Sort Ascending ou Sort

Descending.


2. Seleção de casos

Outra grande necessidade é a seleção (temporária ou permanente) de parte do

arquivo de dados. Digamos que estamos interessados em estudar um

segmento específico da amostra

O SPSS possui várias formas de seleção de dados. Falaremos nessa seção de

todas elas, mas discutiremos detalhadamente a mais usada de todas. Para

maiores detalhes sobre as demais formas de seleção recomenda-se que o

leitor use o manual do SPSS for Windows.

Para fazer qualquer tipo de seleção devemos clicar o menu Data opção Select

Cases ou clicar no ícone . A janela aberta é apresentada na Figura Vffl-3.

No quadro central Select estão presentes cinco opções diferentes para

seleção. Faremos a seguir uma breve descrição de cada uma delas.

Ali cases - opção usada como padrão; utiliza todas as observações do

banco de dados;

If condition is satisfied - através dessa opção podemos definir

expressões condicionais para seleção de casos; estudaremos essa

opção detalhadamente mais adiante;

Random sample of cases - podemos selecionar uma porcentagem

aproximada ou um número exato de casos dos n primeiros casos; a

seleção é feita aleatoriamente;


Based on time or case range - usamos essa opção quando estamos

interessados em selecionar uma faixa específica de valores, por

exemplo os casos de número 100 até 200; também utilizada para fazer

seleções baseadas em datas (por exemplo, selecionando todos os

dados do mês de fevereiro até outubro);

User filter variable - escolhemos uma variável no banco de dados e

usamos corno filtro; todos os casos para os quais a variável filtro

assume o valor O ou ausente não serão selecionados.

Você tem duas opções para o tratamento dos casos que não serão

selecionados. É através do quadro Unselected Cases Are que podemos fazer a

escolha:

Filtered - os casos (linhas) que não são selecionados não são mcluídos

nas análises posteriores, porém permanecem na janela de dados; caso

você mude de idéia e queira usar os casos não selecionados na mesma

sessão do SPSS basta “desligar” o filtro (usando a opção Ali Cases no

quadro Select);

Deleted - os casos (linhas) não selecionados são apagados da janela de

dados; caso você mude de idéia e queira usar os casos não

selecionados você deverá ler novamente o arquivo de dados original.

Suponha que estamos interessados em selecionar as pessoas que tra.balham

pelo menos 40 horas por semana e que têm até 20 horas de lazer. A função

condicional para seleção nesse caso é dada por:

trabalho >= 40 AND lazer < 20

Portanto o tipo de seleção de dados que faremos deve possibilitar a criação de

sentenças matemáticas lógicas para seleção dos casos. Para isso, clicamos

em If condition is satisfied, e entramos na caixa de diálogo If....

Através da janela que é aberta (ver Figura VlII-4) usamos o quadro superior

para escrever uma função lógica na qual a seleção vai ser baseada. Para a

construção da função podemos usar todas as variáveis que estão no quadro à

esquerda e as funções disponíveis no quadro inferior direito.

Uma vez escrita a função que determina a regra de seleção dos casos, dique

Continue, e você voltará à janela anterior. No quadro inferior (Unselect cases

are), vamos optar pelo modo Filtered (ou seja, os casos não selecionados

permanecem na tela de dados, porém não serão utilizados em análises futuras)

e clicar 0K.

Você pode perceber que depois de feita a seleção, a janela de dados sofre

algumas alterações (ver Figura VII1-5). As linhas (casos) que não foram

selecionadas apresentam uma listra no canto esquerdo da janela de dados. A

barra de status ,localizada na parte inferior da janela, apresenta a mensagem

Filter On. Além disso uma variável de nome filter_$ é adicionada à janela de

dados. Essa nova variável apresenta valor O para as linhas que não foram

selecionadas e valor 1 para as linhas que foram selecionadas.

Apesar de você conseguir ver os casos que não foram selecionados qualquer

análise efetuada daí pra frente não levará em conta esses casos.

A Figura VIII-6 apresenta o resultado de uma análise descritiva feita através do

menu Analyze.. Descriptive Statistics.. Descriptives para a variável trabalho.

Note que o número médio de horas trabalhadas é 43.06, o valor mínimo é 40

horas e apenas 16 observações foram usadas para esses cálculos. Isso parece

óbvio, já que usamos trabalho >=40 como parte do critério de seleção.


Podemos mudar de ideia e querer usar todas as observações para o cálculo

das estatísticas. Temos duas maneiras de cancelar a seleção de casos, se a

opção Fiitered foi usada para efetuar a seleção. A primeira delas é ativar a

opção Ali Cases da janela de seleção de casos (opção Select Cases do menu

Data) e clicar 0K. A segunda maneira é apagar a variável filter $ do banco de

dados.

Usando agora a mesma opção do menu Analyze.. Descriptive Statistics para a

variável trabalho o resultado apresentado na Figura VlII-7 é bem diferente do

apresentado anteriormente, quando a seleção de casos estava ativa.


Note que o número de casos usados nos cálculos passou de 16 para 30, a

média de horas trabalhadas abaixou para 37,90 e agora o mínimo de horas

trabalhadas é 0 horas.

3. Procedimento Split File

Vamos supor agora que após uma série de análises chegamos à conclusão de

que o comportamento dos homens e das mulheres são completamente

diferentes com relação as preferências para horas de lazer. Não faz sentido,

portanto, apresentar a análise do questionário de opinião sobre lazer com os

homens e mulheres juntos. No fundo o que pretendemos fazer, daqui pra

frente, são duas análises idênticas, uma para cada sexo.

Para esse tipo de situação podemos utilizar o procedimento Split File, presente

no menu Data ou acessado através do ícone (ver Figura VllI-8). Como padrão

sempre analisamos todos os casos juntos, sem separação por grupos. Por

esse motivo a opção selecionada na janela é Analyse ali cases. Podemos

separar a análise de acordo com as categorias da variável escolhida (ou

combinação das categorias de várias variáveis, se for o caso) escolhendo

Compare groups ou Organize output by groups. A opção Compare groups faz

com que os grupos sejam apresentados juntos para comparação e a opção

Organize output by groups mostra os resultados de cada procedimento do

SPSS organizados separadamente para cada grupo4.

4 Esta diferença só vale para as tabelas (pivot tables). Para os outros tipos de saída essas duas

opções são idênticas.

Escolhida uma das duas ultimas opções, podemos mover para o quadro

Groups based on a variável (ou variáveis) que definirão os grupos para os

quais a análise deve ser repetida. Se mais do que uma variável for

selecionada, os grupos serão definidos pela combinação das categorias de

todas as variáveis. Podemos ainda escolher se o banco de dados deve ser

ordenado pela variável que definirá os grupos (Sort the file by group variables)

ou se nenhuma ordenação deve ser feita ( File is aiready sorted). Tenha em

mente que, se o arquivo não estiver ordenado por essas variáveis, o

procedimento Split File não funcionará corretamente.


No nosso caso selecionamos Organize output by groups, escolhemos a

variável sexo e movemos para o quadro Groups Based on e cicamos 0k. A

única mudança que acontece na janela de dados é a mensagem Split File On

na barra de status. Porém qualquer análise ou gráfico feitos de agora em diante

vão gerar dois resultados, um para os homens e outro para as mulheres. A

Figura \TIll-9 apresenta o resultado de uma análise descritiva feita através do

menu Analyze..Descriptive Statistics.. Descriptives para a variável trabalho

usando a opção Organize output by groups.

Note que os resultados são apresentados separadamente para cada categoria

da variável sexo.


Podemos mudar de ideia e querer usar todas as observações para o cálculo

das estatísticas. Para cancelar o procedimento Split File basta ativar a opção

Anaiyse ali cases presente na janela de definição da opção Split File no menu

Data.

4. Procedimento Aggregate

O procedimento Aggregate combina grupos de casos em um único caso e cria

um novo banco de dados agregados. Os casos são agregados baseados fios

valores de uma ou mais variáveis. O novo arquivo conterá um caso para cada

grupo. Por exemplo, suponha que você tenha um banco de dados onde cada

caso representa um município do Brasil; você poderia agregar esses dados

criando um novo arquivo com uma linha para cada estado.

Como exemplo, usaremos o arquivo Rede de FastFood.sav, que contém dados

sobre itens de várias redes de fast food norte americanas. Nosso objetivo é

criar um arquivo que


contenha uma linha para cada rede, tendo como variáveis o preço médio dos

itens, a quantidade média de gordura, de calorias, etc.

Para isso devemos então selecionar a opção Aggregate... do menu Data. Na

janela aberta (ver Figura Viu-lO) temos que escolher uma ou mais variáveis

que definirão os grupos (Break Varjables); no nosso caso escolheremos rede,

que é a variável que contém a rede qo qual o riem pertence. No quadro

Aggregate Variable(s) colocamos as variáveis que queremos no novo arquivo;

note que a função padrão usada para agregar os dados para as variáveis é a

média, mas podemos mudar essa função para qualquer variável, clicando em

Function. Além disso, você pode colocar a mesma variável várias vezes no

quadro Aggregate Variable(s), o que significa que você pode ter no novo

arquivo,várias colunas representado funções diferentes dessa variável.

Você pode ainda, criar uma variável no novo arquivo que contenha o número

de casos que foram agregados por grupo. No nosso caso, chamaremos essa

variável de N_itens, representando o número de itens que estão sendo

estudados por cada cadeia de fastfood.

Finalmente, deve ser escolhido se o SPSS salva o resultado num novo arquivo

de dados (opção default - Create new file) ou se ele fecha o arquivo atual e

mostra o resultado do procedimento aggregate na janela de dados (opção

Replace working data file), sendo que você deve salvar esse arquivo

posteriormente. O arquivo criado usando a opção Create new file será gravado

no diretório corrente com o nome de aggr.sav, mas você pode mudá-lo clicando

em File....


O resultado do procedimento pode ser visualizado na Figura Viu-li.


5. Exercícios

1- Ordene o arquivo Mundo95.sav usando a opção Sort Cases segundo as

variáveis

Região ou grupo econômico (região) em ordem crescente e População em

milhares (populami) em ordem decrescente.

2 - Peça tabelas de frequência para as variáveis Região ou grupo econômico

(região) e Clima predominante (clima). Após a anáiise de sua saída, faça uma

seleção dos países que tenham Expectativa média de vida feminina (expvidaf)

menor do que 75 anos e Índice de alfabetismo (aifabet) menor do que 80%.

Peça novamente as tabelas e gráficos anteriores e compare os resultados.

3 - Certifique-se que todos os casos do banco de dados estão selecionados e

construa tabelas de frequência e gráficos de pizza (usando Frequencies) para

as variáveis Religião predominante (religião) e Clima predominante (clima) para

cada categoria da variável Região ou grupo econômico (região). Utilize o

procedimento Split File para pedir a quebra por região.

4 - Um hospital tem um banco de dados sobre seus pacientes contendo uma

variável chamada paciente (representando o código do paciente) e uma outra

variável chamada data_.int (data da internação do paciente). O hospital

gostaria que você criasse um arquivo com apenas uma linha para cada

paciente com uma variável contendo o número de internações e outra contendo

a última internação do paciente. Utilize o procedimento Aggregate substituindo

o arquivo atual ao invés de gravar um novo arquivo.

Os dados para esse exercício estão no arquivo hospital.sav.

apostila spss parte 1.pdf

Documents