guia pratico de spss
DESCRIPTION
SPSSTRANSCRIPT
GGuuiiaa PPrrááttiiccoo ddoo SSPPSSSS
Outubro/2010
2
UUttiilliizzaaççããoo ddoo SSPPSSSS ((SSttaattiissttiiccaall PPaacckkaaggee ffoorr tthhee SSoocciiaall SScciieenncceess))
– Guia Prático I –
3
Programa “Utilização do SPSS”
1. Introdução 2. Origem
3. Abordagem conceptual
4. Áreas de interesse
5. Ambiente de trabalho
6. Criação de ficheiro de dados
7. Importação de ficheiros 8. Análise estatística de dados
9. Análise de gráficos
10. Ajuda - Utilização do tutorial Bibliografia • PESTANA, M. H., GAGEIRO, J. N., Análise de Dados para Ciências Sociais
– a complementaridade do SPSS, Ed. Sílabo, 1998
• PEREIRA, Alexandre, SPSS – Guia prático de utilização – Análise de
Dados para Ciências Sociais e Psicologia, Ed. Sílabo, Lisboa, 1999
• HILL MAGALHÃES, Manuela, Hill, ANDREW, Investigação por
Questionário, Ed. Sílabo, Lisboa, 2000.
• Site: www.spss.com
4
1. Introdução O SPSS é um package estatístico que integra diversas funcionalidades que envolvem a recolha, validação e a análise de dados. A sua utilização deve ser sempre supervisionada por uma boa orientação em termos de conhecimento e domínio das técnicas estatísticas envolvidas.
1.1 Objectivo:
Dotar os formandos de conhecimentos básicos para a utilização de determinadas técnicas para a obtenção e análise de resultados estatísticos.
1.2 Requisitos básicos:
Estatística (ou que utilizem como apoio um livro de estatística).
Informática (windows,..).
1.3 Resultados esperados:
Introduzir dados num novo ficheiro; gravar ficheiros e abrir ficheiro criado anteriormente; definir e transformar variáveis;
Importar dados do Excel e de outras aplicações;
Analisar dados (estatística univariada e bivariada, tabelas e gráficos);
Executar alguns procedimentos de estatística inferencial.
5
2. Origem
Universidade de Londres nos anos 60. Tornou-se muito popular no meio académico a partir da década de 70;
Além do SPSS, foram desenvolvidos na década de 60 vários softwares estatísticos. De entre esses, podem ser citados:
SAS (Statistic Analysis System): foi desenvolvido na Universidade da Carolina do Norte; é semelhante ao SPSS; contém vários módulos; é muito popular nos institutos de pesquisa;
"BMD" (Biomedical Computer Programs): desenvolvido na Universidade da Califórnia.
EPINFO: foi desenvolvido sob os auspícios da ONU, para ser utilizado e popularizado na área médica; possui diversos módulos estatísticos; todavia, tecnicamente constitui um software limitado, principalmente quanto aos seus recursos gráficos;
6
SPHINX: é originário da França; possui particularidades como a capacidade de realizar análises lexicais, factoriais e de correspondências múltiplas; ao contrário dos softwares tradicionais, possui uma visão dos dados que vai do particular ao geral;
Alguns endereços estatísticos:
♦ www.spss.com — é o site do SPSS com alguns links interessantes.
♦ www.statsoft.com — é o site de um pacote
menos conhecido, chamado Statistica. ♦ www.statsoft.com/textbook/stathome.html ♦ trochim.human.cornell.edu/selstat/ssstart.htm
— é um site para seleccionar procedimentos estatísticos.
♦ www.ats.ucla.edu/stat/ — é o site sobre
recursos académicos da Univiversidade Califórnia Los Angeles (UCLA).
7
3. Abordagem conceptual
Segundo alguns especialistas, o SPSS é:
uma poderosa ferramenta informática que permite realizar cálculos estatísticos complexos, e visualizar os seus resultados, em poucos segundos, (Pereira, 1999).
Uma das muitas aplicações para o tratamento estatístico de dados disponíveis e das mais divulgadas no mundo inteiro (Fonseca & Silva, 2003).
Um software útil para gerir e analisar estatisticamente uma matriz de dados. Processa em ambientes DOS e Windows e possui uma visão que vai do geral para o particular.
Um poderoso software estatístico especialmente desenvolvido para a utilização por profissionais de ciências humanas. Diferentemente de outros pacotes estatísticos existentes no mercado, o SPSS apresenta uma interface bastante amigável ao usuário, facilitando em muito suas análises estatísticas (Valentim, Fernando, 2001: [email protected])
8
4. Áreas de interesse
O SPSS pode ser utilizado nas mais diversas áreas do conhecimento e aplicações:
Marketing Psicologia Administração Educação Ciências Sociais Serviço Social Economia Governamental Finanças Saúde Pública Pesquisa de Mercado Pesquisa Social Pesquisa Eleitoral Pesquisa de Opinião Pesquisa de Mídia Investigação cientifica.
9
5. Ambiente de trabalho 5.1 Janelas
Há oito tipos de janelas/windows no SPSS:
Figura 1 – Lista de janelas do SPSS.
10
Data Editor – A janela que apresenta o conteúdo do ficheiro de dados. Os dados podem ser criados ou modificados através desta janela. Só é possível ter uma destas abertas num dado momento. É a primeira janela que abre quando inicia o SPSS.
Figura 2 – Janela de edição de dados
Barra de menusBarra de ferramentas
Folha de edição de dados
Barra de
estado
Modo de visualização e definição das variáveis.
Modo de visualização de dados
11
Viewer (Output) – Janela onde são apresentados todos os resultados estatísticos, tabelas, gráficos, etc. Abre automaticamente, sempre que um determinado procedimento gera resultados. É composto por duas sub-janelas: à esquerda está um organigrama do output: à direita estão os resultados propriamente ditos.
Figura 3 – Janela de visualização de resultados.
Draft Viewer – Os resultados podem ser apresentados em forma de texto (instead of interactive pivot table) no Draft Viewer.
Pivot Table Editor – permite editar e modificar tabelas (editor da tabela dinâmica). Pode editar-se o texto, trocar os dados de linhas com colunas, adicionar cor, criar tabelas multidimensionais, etc.
12
Chart Editor – permite editar e modificar gráficos. Podem alterar-se as cores, seleccionar tipos e tamanhos de letras, trocar os eixos vertical com horizontal, fazer rotações, etc.
Figura 4 - Janela de edição de gráficos.
Text Output Editor – permite alterar texto que não seja visível no Pivot Table Editor. Pode alterar-se com o tipo, tamanho, cor e estilo das letras.
Syntax Editor – Todos os comandos emitidos a partir dos menus do SPSS podem ser apresentados numa janela de sintaxe. Para isso, utiliza-se o comando Paste das caixas de diálogo.
Script Editor – Janela de programação que permite personalizar e automatizar tarefas do SPSS (pequenos programas).
13
5.2 Menus File Edit View Data Transform Analyze Graphs Utilities Windows Help Tabela 1 – Menu da Janela de dados
MMeennuu FFuunncciioonnaalliiddaaddeess
File Criar, abrir, ler, gravar ou imprimir ficheiros.
Edit
Modificar, copiar ou colar textos das janelas de output ou de sintaxe; pesquisa de dados e parametrização de opções diversas.
View
Activar diversas barras de ferramentas/botões, fontes, grelhas, barra de status e mostrar os rótulos (labels) definidos.
Data
Alterar globalmente os dados tais como: transpor variáveis e casos, criar subconjuntos de casos para análise, inserção de dados. Obs: Estas alterações são temporárias e não afectam o ficheiro, excepto se for efectuada uma gravação com estas alterações.
Transform Produzir alterações nas variáveis seleccionadas e, calcular novas variáveis a partir de valores de outras já existentes. Obs: Estas alterações só serão efectivas se forem gravadas.
Analyze Seleccionar vários procedimentos estatísticos como a análise descritiva, cruzamento de variáveis, análise da variância, correlações, regressões, clusters, séries, amostras, análise multivariada, estatísticas não paramétricas, etc.
Graph Criar gráficos de colunas, de sectores, histogramas, diagramas de dispersão, etc.
Utilities Obter informação acerca das variáveis, controlar lista de variáveis que aparece nas caixas de diálogos, correr scripts e alterar menus.
Add-ons
Windows Comutar entre as várias janelas do SPSS ou minimizá-las.
Help Ajudar o funcionamento do SPSS.Ligar à Página do SPSS na Internet.
14
6. Criação de Ficheiro de dados
6.1 Introdução de dados Aspectos a considerar:
Muitas das características da Janela do Data Editor do SPSS são similares às de qualquer folha de calculo em ambiente Windows, tal como o Excel.
As colunas correspondem às variáveis (ou campos). E as linhas aos casos (ou registos).
As células podem apenas conter valor (numéricos e não numéricos); não é possível, tal como se faz nas folhas de cálculos, definir fórmulas nas células.
Definição das variáveis (Data → Define Variable):
O primeiro caracter deve ser uma letra; os restantes podem ser numéricos ou não numéricos; ou mesmo incluir certos símbolos (@, #, _, ou $). Não deve incluir espaços em branco ou conter os símbolos: &, !,? ou *.
As palavras ALL, NE, EQ, TO, LE, LT, BY, OR, GT, AND, NOT, GE, WITH não podem constituir nomes para as variáveis. Estão reservadas para a Syntax.
Deve indicar o tipo da variável: numérico, textos/não numéricos (string), data (date), etc; descrever a variável e dos seus valores (rótulos/labels); e codificar os valores em falta/sem informação (missing values).
Obs: É recomendável definir uma variável qualitativa como numérica e depois atribuir os rótulos ou labels. Por exemplo, a variável sexo: digitar 1 para sexo feminino e 2 para sexo masculino e nos labels colocar a equivalência.
15
Exemplo 1 - Considere um exemplo prático.
Figura 5 – Introdução de dados
1. Guarde o ficheiro: File → Save → nomeficheiro (osvaldo.sav) 2. Produza: Tabela de frequências para a variável ano.
Analyze → Descriptive Statistics → Frequencies → variável 3. Repita a alínea 2) para as outras variáveis. 4. Feche todas as janelas do SPSS. Abra de novo o SPSS. 5. Abra o ficheiro de dados introduzido anteriormente:
File → Open → nomeficheiro 6. Utilize no menu Edit as opções (copiar, apagar, paste, find, ...) 7. Introduza/Insira 5 novos casos: Data → Insert Case 8. Insira 2 novas variáveis: Data → Insert variable
Número de linha Nome da variável Editor de Célula Célula activa
16
Depois de efectuar o exemplo anterior, faça o seguinte: 9. Seleccione as variáveis sexo, idade, ano e turma e
construa as frequências e os respectivos gráficos de barras.
Figura 6 – Selecção de variáveis
10. Cruze as variáveis ano e sexo.
Analyze → Descriptive Statistics → Crosstabs ANO * SEXO Crosstabulation
Count
4 42 22 1 3
1 14 6 10
78910
ANO
Total
f mSEXO
Total
Obs: Este resultado foi obtido para 10 casos/indivíduos.
17
11. Repita o procedimento utilizado em 10), separando os resultados por turma.
Split File: permite dividir uma variável qualitativa/categórica por grupos.
Data → Split File → Organize output by groups
Figura 7 – Divisão de ficheiro A seguir, cruze as variáveis ano e sexo.
Para anular o Split File, deve fazer:
Data → Split File → Analyze all cases, do not create groups
12. Seleccione apenas os alunos do sexo feminino.
Select Cases: Selecciona determinados casos.
Data → Select Cases → if condition, is satisfied
18
Figura 8
19
6.2 Transformação de variável (TRANSFORM)
Transform Função Como accionar e os subcomandos
Compute Calcula uma nova variável a partir de outras já existentes, podendo usar todas as funções matemáticas e estatísticas
Colocar o nome da nova variável em target variable. Em numerical expression colocar as variáveis existentes e as operações entre elas. Por exemplo: soma=a1+a2+a3+a4. Ainda, pode seleccionar casos utilizando a condição if .
Random Number Seed
Serve para gerar um número aleatório
Recode Recodifica variáveis • Into the same variable: altera os valores da variável e guarda as alterações na mesma variável. Seleccionar a variável e entrar em Old and new values, e a cada valor antigo colocar o valor novo e adicionar clicando add, no fim dar continue.
• Into the diferent variable: cria uma nova variável em função de uma já existente, seguir o mesmo esquema do item anterior.
Rank cases Atribui postos na variável segundo uma outra.
Automatic recode Cria uma nova variável com o mesmo conteúdo da variável desejada
Run Pending transforms
Roda as transformações pendentes
Create Time Series
Cria séries temporais.
20
7. Importação de ficheiros O SPSS dispõe de procedimentos de importação de ficheiros criados noutras aplicações designadamente folhas de cálculo (Lotus 123, Excel), bases de dados (dBase, Access), ficheiros ASCII (separados por tabulações, vírgula, espaços), etc. IMPORTAÇÃO DE FICHEIROS DE EXCEL
File → Open →
Figura 9 – Tipos de ficheiros Nesta janela deve:
Procurar a pasta onde se encontra o ficheiro; Especificar Excel e seleccionar a opção (*.xls).
Aparece de seguida uma caixa de diálogo, onde se especifica se as primeiras células contêm os nomes das variáveis (se sim activar Read variable names) e o intervalo (rectangular) de células (no exemplo, A1:B11). Por último, o SPSS cria um ficheiro com tantas variáveis quantas as colunas e tantos casos quantas as linhas do bloco especificado. Não se esqueça de guardá-lo na sua pasta (extensão .sav).
21
8. Análise de estatística de dados (STATISTICS)
O SPSS apresenta um conjunto de funções e procedimentos avançados para a análise estatística de dados, os quais se encontram sob o comando AAnnaallyyzzee (Análise de dados).
8.1 Tabelas de Frequência
Antes de dar início à apresentação das diferentes funções estatísticas, aconselha-se a interpretação das tabelas de frequência (frequency).
Considere o seguinte exemplo:
Ano de Escolaridade
18 36,0 36,0 36,014 28,0 28,0 64,011 22,0 22,0 86,07 14,0 14,0 100,0
50 100,0 100,0
78910Total
Valid
Frequency PercentValid
PercentCumulative
Percent
Interpretação:
Dezoito (18) alunos frequentam o 7º ano de escolaridade. Ou seja, 36% dos alunos estão a frequentar o 7º ano. ... 28% o 8º ano de estudo. ...
Há 64% de inquiridos estudam o 1º ciclo do ensino secundário (7º e 8º anos de escolaridade). Por outro lado, 36% frequentam o 2º ciclo (9º e 10º anos de escolaridade).
...
22
8.2 Análise de Relatórios (Reports)
O SPSS produz pequenos relatórios, contendo medidas estatísticas. Por exemplo, para seleccionar uma ou mais variáveis (ou categorias de variáveis), utiliza-se o seguinte procedimento:
Analyze → Reports → OLAP Cubes... OLAP: Online Analytical Processing.
Figura 10 • Ainda, pode-se seleccionar diferentes medidas estatísticas,
clicando no Statistics.
Figura 11
23
8.3 Medidas Estatísticas (Statistics)
8.3.1 Descritivas (Descriptives statistics)
O SPSS apresenta as medidas:
Figura 12 – Estatísticas Descritiva
Podem ser obtidas de 2 formas: Analyze → Descriptive Statistics → Frequencies → Statistics
Ou Analyze → Descriptive Statistics → Descriptive → Options
Localização/Posição (Tendência Central)
Assimetria e Achatamento/Curtose Dispersão
(ou variabilidade)
Localização (Tendência não Central)
24
Medidas de Tendência Central
Mean (Media) – medida de tendência central mais utilizada,
sendo definida como o resultado da divisão da soma de todos os valores observados pelo número total de observações.
Median (Mediana) – valor central (meio) de uma
distribuição; divide a distribuição em 2 partes iguais, tendo assim, 50% dos dados à sua direita como à sua esquerda.
Mode (Moda) - valor que ocorre com maior frequência
numa distribuição. Ela pode não existir e, quando existe, pode não ser única.
Medidas de Tendência não Central (ou de ordem)
Quartiles (Quartis) – são 3 pontos (Q1, Q2 e Q3) que dividem
um conjunto de dados em 4 partes iguais: o Q1 (1º Quartil) é precedido de 25% dos valores e sucedido por 75%; o Q2 tem abaixo de si 50% dos valores e acima de si também 50% e, por esta razão, coincide com a Mediana; o Q3 é antecedido de 75% dos valores e seguido por 25% dos mesmos.
Cut points for equal groups – definem outros
separadores: Decis (dividem em 10 partes iguais: D1, D2,...., D9), Percentis/centis (dividem em 100 partes iguais: P1, P2 ,....,P99), ....
Percentile(s): permitem especificar o percentil pretendido,
(por exemplo, 67º, 15º, ....)
Medidas de Dispersão (ou variabilidade)
n
25
Std deviation (Desvio Padrão) – mais importante medida de dispersão, sendo definida como a raiz quadrada da variância.
Variance (Variância) – média dos quadrados dos desvios de cada valor em relação à sua média. Contudo, a sua utilização como medida descritiva ocasiona alguma dificuldade (sobretudo de interpretação) visto que se trata, por definição, de uma média quadrática, não possuindo a mesma unidade de medida dos dados originais.
Range (amplitude do intervalo de variação) – diferença entre
os valores máximo e mínimo do conjunto de dados. Mínino (Minimum) – valor mínimo de uma distribuição. Máximo (Maximum) – Valor máximo de uma distribuição. S.E. Mean (Estimativa do Erro amostral) – quociente entre o
desvio padrão e a raiz quadrada da dimensão da amostra. Indica a variabilidade da média aritmética entre amostras tiradas da mesma população. Esta medida permite a construção dos intervalos de confiança sobre o valor da média da população.
Intervalo Interquartil (Interquartile Range): Q3 - Q1.
Medidas de Assimetria
A medida de assimetria utilizada pelo SPSS é dada pelo quociente entre o Skewness e o seu Std Error. O resultado desse quociente deve ser analisado da seguinte forma:
Assimétrica negativa
Não rejeitar a simetria
Assimetria positiva
< -2 -2 0 +2 > +2
Medidas de Achatamento (ou curtose) A divisão do Kurtosis pelo seu Std Error dá o coeficiente de achatamento (k). Quanto à forma de achatamento, uma
26
distribuição pode ser Mesocúrtica (k igual a 0), Platicurtica (k menor que -2) e Leptocúrtica (k maior que +2).
Exemplo 4. Considere o seguinte output.
Statistics
IDADE500
12,78,25
13,0014
1,803,24-,554,337
-1,093,662
51015
63910,7513,0014,00
ValidMissing
N
MeanStd. Error of MeanMedianModeStd. DeviationVarianceSkewnessStd. Error of SkewnessKurtosisStd. Error of KurtosisRangeMinimumMaximumSum
255075
Percentiles
IDADE
12 24,0 24,0 24,01 2,0 2,0 26,03 6,0 6,0 32,012 24,0 24,0 56,014 28,0 28,0 84,08 16,0 16,0 100,050 100,0 100,0
101112131415Total
Valid
Frequency PercentValid
PercentCumulative
Percent
27
Interpretação:
A idade média dos inquiridos é de 12,78 anos (Mean).
A mediana ou precentil 50 indica que metade dos alunos tem até 13
anos. Na tabela de frequência, a mediana é a idade que acumula até si
metade (50%) das observações, isto é, a idade que corresponde ao
Cumulative Percent imediatamente superior a 50 (13 ⇔ Cumulative
Percent=56,0), (Median).
O quociente entre o desvio padrão (1,80) e a raiz quadrada da
dimensão da amostra (n=50) é 0,25. Significa que a variação entre a
média calculada (12,78) e a média de outras amostra aleatórias de
igual dimensão é de 0,25 anos (Std Error Mean).
A maioria dos alunos tem 14 anos (Mode).
A variância é de 3,24. O desvio padrão igual a 1,80 denota uma baixa
dispersão (coef.variação, 1,80/12,78=14%). Quanto menos dispersos
estiverem os valores da variável idade relativamente à média, menor
será o desvio padrão, e vice versa (Variance e Std Deviation).
O coeficiente de skewness é de –0.554 e o seu Std Error (estimativa do
erro) é de 0.337. O quociente entre estes dois valores é igual a –1.64.
Como o resultado é negativo e menor que 2, pode-se concluir que a
distribuição é assimétrica negativa. Na prática, faz-se a diferença da
média e da moda e divide-se pelo desvio padrão. Neste caso, esta
diferença é negativa, - 0.68, e a conclusão é a mesma.
Kurtosis/Std Error Kurtosis=-1,65. Como é menor que –2, diz-se que
a distribuição é Platicúrtica (mais achatada do que a normal).
As idades variam entre os 10 (Mínimo) e os 15 (Máximo), sendo a
amplitude do intervalo de variação de 5 anos (Range).
A soma de todas idades é de 639 (Sum).
Percentil 75: Significa que 75% dos inquiridos têm até 14 anos.
28
Distribuição normal
O SPSS apresenta o histograma com a distribuição normal sobreposta.
Recorda-se que a distribuição normal é: Teórica, contínua, simétrica e mesocúrtica; Tem a forma de um sino e é definida com base em dois
parâmetros: média e desvio padrão. O ponto máximo da distribuição é a média.
Analyze → Descriptive Statistics → Frequencies → Chart
Figura 13 – Histograma com normal sobreposta
Veja o Output:
IDADE
15,014,013,012,011,010,0
IDADE
Freq
uenc
y
16
14
12
10
8
6
4
2
0
Std. Dev = 1,80 Mean = 12,8
N = 50,00
Figura 14 – Histograma com normal sobreposta O histograma acima com ajustamento à distribuição normal tem o aspecto onde sobressai o enviesamento da amostra para a direita em
29
relação à distribuição teórica, bem como um achatamento um maior que o que seria de esperar.
Opção Explore - calcula as estatísticas, e elabora o gráfico caule-e-folhas e o gráfico de extremos-e-quartis, muito útil para analisar a amostra em termos de concentração ou dispersão dos valores por intervalos quartílicos, bem como a sua simetria; além disso, é uma boa ferramenta de verificar se há observações “outliers”, isto é, observações extremas que se afastam muito da média dos valores da amostra. Analyze → Descriptive Statistics → Explore
Selecciona-se a variável a analisar (idade), tal como descrito atrás. De seguida, seleccionar o botão, Statistics.
Figura 15 Faça Continue para voltar ao Explore. Escolha, de seguida a opção Plots. Seleccione histograma.
Faça Ok e analise o Output.
Figura 16
30
Faça Explore, utilizando o Factor List para a variável Sexo. Teste de Normalidade
Testa a hipótese de que os dados da amostra estão normalmente distribuídos.
Analyze → Descriptives statistics → Explore → Plots
Figura 17 A tabela Teste de Normalidade (Tests of Normality) mostra os resultados do Teste de Kolmogorov Smirnov (K-S). Se a amostra tiver menos de 50 casos o SPSS também calcula o teste de Shapiro-Wilk.
Tests of Normality
,229 50 ,000 ,824 50 ,010**IDADEStatistic df Sig. Statistic df Sig.
Kolmogorov-Smirnova Shapiro-Wilk
This is an upper bound of the true significance.**.
Lilliefors Significance Correctiona.
. Um baixo valor de significância (é geralmente considerado baixo se Sig. < 0.05) indica que a distribuição dos dados difere significativamente de uma distribuição normal.
31
Intervalos de Confiança sobre a média (IC μ)
Média: 12,78 com o Std Error = 0,25
Níveis: Confiança de 95% ⇒ Significância (risco) de 5%
Figura 18 Resultado: IC95% μ = ] 12,27 ; 13; 29[
Significado: Existe uma probabilidade de 95% para que o valor desconhecido da média da população pertença ao intervalo ]12,27 ; 13; 29[. Ou seja, com 95% de confiança, a verdadeira média da população deverá pertencer ao intervalo de 12,27 a 13,29. Este intervalo de confiança só tem interesse se os valores em causa são de uma amostra seleccionada aleatoriamente de uma população mais vasta.
Níveis: Confiança de 99% ⇒ Significância (risco) de 1%
Figura 19
32
Resultado: IC99% μ = ] 12,10 ; 13; 46[ Conclusão: Diminuindo o nível de significância (risco) implica um aumento do intervalo de confiança.
8.3.2 Análise Inferencial
8.3.2.1 Análise Bivariada: Cruzamentos e Medidas de Associação (Crosstabs)
"p" (nível de) significância estatística (Asymp. Sig.). – Prob. Geralmente, em ciências sociais, quando estas probabilidades (Asymp. Sig.) são inferiores a 5%, ou seja, há menos de 5 possibilidades em 100 de suceder um determinado resultado, considera-se que são estatisticamente significativas.
Variável Qualitativa – Nominal
Independência Estatística – utiliza-se normalmente o Teste de Qui-Quadrado de Pearson, χ2.
As hipóteses do Teste de Qui-Quadrado são:
H0 (Hip. Nula): As variáveis turma e sexo são independentes.
Ha (Hip. Alternativa): As variáveis turma e sexo são dependentes (existe uma relação entre as 2 variáveis).
Analyze → Descriptive Statistics → Crosstabs → Statistics
33
Figura 20 Resultado:
Chi-Square Tests
36,883a 2 ,000
40,291 2 ,000
50
Pearson Chi-SquareContinuity CorrectionLikelihood RatioLinear-by-LinearAssociationN of Valid Cases
Value dfAsymp. Sig.
(2-sided)
2 cells (33,3%) have expected count less than 5. Theminimum expected count is 3,90.
a.
Conclusão:
Como o nível de significância do teste de Qui-Quadrado é de 0,000, valor inferior a 0,05 (5% de signficância fixada), rejeita-se a hipótese de serem independentes (H0), ou seja, há evidência/significância estatística para aceitar a hipótese alternativa de que são dependentes (existe relação entre 2 variáveis).
Portanto, pode-se inferir a relação de dependência observada na amostra para o universo/população em estudo.
34
Medidas de Associação – baseadas no Teste de Qui-Quadrado
Symmetric Measures d
,859 ,000,859 ,000,652 ,000-,117 ,132 -,893 ,372-,122 ,136 -,893 ,372-,162 ,179 -,893 ,372
,c
50
PhiCramer's VContingency Coefficient
Nominal by Nominal
Kendall's tau-bKendall's tau-cGamma
Ordinal by Ordinal
KappaMeasure of AgreementN of Valid Cases
ValueAsymp.
Std. Errora Approx. Tb Approx. Sig.
Not assuming the null hypothesis.a.
Using the asymptotic standard error assuming the null hypothesis.b.
Kappa statistics cannot be computed.They require a symmetric 2-way table in which the valuesof the first variable match the values of the second variable.
c.
Correlation statistics are available for numeric data only.d.
Significado: Todos esses testes indicam que existe uma associação forte entre as duas variáveis devido aos seus altos valores. O teste Phi só se aplica para tabelas 2 x 2.
Variáveis Quantitativas
Coeficiente de Correlação de Pearson – aplica-se às variáveis quantitativas. Varia entre –1 (negativa) e 1 (positiva). Quanto mais próximo estiver dos valores extremos maior e a associação linear. Associação ou Correlação Negativa: variação entre as variáveis
for em sentido contrário (aumento de uma variável está associada à diminuição de outra).
Associação ou Correlação Positiva : variação entre as variáveis
for no mesmo sentido.
Analyze → Correlate → Bivariate → variáveis
35
Figura 21
Variáveis Ordinais
Coeficiente de Spearman – utiliza-se para as variáveis ordinais.
8.3.2.2 Regressão (Regression)
Modelo estatístico usado para prever o comportamento de uma variável contínua (variável dependente ou Y) a partir de uma ou mais variáveis (var. independentes ou X).
Modelo de Regressão Linear Simples (MRLS): Quando existe apenas uma variável independente. Modelo de Regressão Linear Múltipla (MRLS): Quando existe mais do que uma variável independente.
Modelo de Regressão Linear Simples (MRLS): permite encontrar a recta que melhor representa a relação entre 2 variáveis (X e Y).
36
Y = aX + b, em que, Y: var. dependente/explicada X: var. independente/explicativa a: declive ou inclinação b: ordenada na origem (CONSTANT)
Para proceder ao cálculo da equação da recta de regressão linear, deve executar o seguinte procedimento:
Analyze → Regression → Linear
Figura 22
Resultado da regressão linear Coefficientsa
,238 ,276 ,864 ,413,858 ,154 ,892 5,574 ,001
(Constant)ALTURAP
Model
1
B Std. Error
UnstandardizedCoefficients
Beta
Standardized
Coefficients
t Sig.
Dependent Variable: ALTURAFa.
Figura 23
Ordenada na origemDeclive
0.01<0.05 .... H0 é rejeitada para o nível
de significância de 5%
37
Equação da recta ⇒ ALTURAF = 0.858ALTURAP + 0,238
Interpretação:
a = 0,858 - Por cada aumento de uma unidade na altura dos País (X) implica um aumento de 0.858 na altura dos Filhos (Y). O valor positivo indica de que a recta cresce da esquerda para a direita. Se o declive fosse negativo, a recta decresceria da esquerda para a direita. b = 0,238 – Para ALTURAP=0 ⇒ ALTURAF=0,238.
Método utilizado: Mínimos Quadrados (MMQ).
Exercício:
Se um Pai tiver 1,95 m de altura, a altura do Filho será 1,91, aproximadamente.
Coeficiente de determinação (R2 e R2 Ajustado) – indica a qualidade do ajustamento da recta estimada aos dados.
Model Summaryb
,892a ,795 ,770 4,638E-02Model1
R R SquareAdjustedR Square
Std. Errorof the
Estimate
Predictors: (Constant), ALTURAPa.
Dependent Variable: ALTURAFb.
Cerca de 80% (79,5%) da variação da variável dependente (ALTURAF) em torno da sua média é explicada pela regressão, ou seja, o modelo explica 80%. Portanto, considera-se um bom ajustamento.
Coeficiente de correlação
Coeficiente de determinação
38
Teste T – testa a hipótese dos parâmetros, individualmente, serem nulos.
Como o Sig.do Teste T é de 0,01, valor inferior a 0.05 (5%), pode-se concluir que a variável ALTURAP é diferente de zero, isto é, esta variável é estatisticamente significativa. Entretanto, a conclusão não é a mesma para a CONSTANT.
Teste F – valida, em termos globais o modelo, e não cada um dos parâmetros isoladamente.
ANOVAb
6,683E-02 1 6,683E-02 31,072 ,001a
1,721E-02 8 2,151E-038,404E-02 9
RegressionResidualTotal
Model
1
Sum ofSquares df
MeanSquare F Sig.
Predictors: (Constant), ALTURAPa.
Dependent Variable: ALTURAFb.
Como o Sig.do Teste F é de 0,01, valor inferior a 5%, pode-se concluir que o modelo é adequado para descreve esta relação, ou seja, o modelo é estatisticamente significativo.
Diagrama de Dispersão (ou de pontos)
I. Graphs → Scatter → Simple → Define II. Escolha as variáveis dependente e independentes III. Label Cases by → colocar o nome da variável que
identifique os pontos nos gráficos. Seleccione Options e active Display chart with case labels.
39
Figura 24 Resultado: Utilizando o ajustamento da recta.
Figura 25
ALTURAP
2,01,91,81,71,6
ALT
UR
AF
2,0
1,9
1,8
1,7
1,6
Elmano, Pedro
El ton, ElioAntonio, Joao
Tavares, Silva
Li to, SilvaMontei ro, Pina
Mapa, MeloLeao, Santos
Borges, Elzo
Pedr o, Jorge
40
Tabela 2 - Procedimentos de estatística: descritiva, inferencial e multivariada disponíveis pelo SPSS.
Analyze Sub-comandos Função
Summarize Descriptives statistics
Frequencies Calcula a tabela de distribuição de frequências.
Descriptives Calcula as principais estatísticas descritivas.
Explore Faz uma análise completa das variáveis, podendo ainda repetir essas análises por outra variável.
Crosstabs Calcula a tabela de distribuição de frequências cruzadas, calcula o teste Qui-quadrado e o Coeficiente de Pearson para associação de variáveis e outros testes.
List cases Lista casos escolhendo as variáveis desejadas
Report Summaries in Rows
Organiza relatórios em linhas, segundo uma variável
Compare means
Means Calcula a média, o desvio padrão, soma, etc. das variáveis desejadas.
Independent–sampled T-test
Calcula o teste de diferença de duas médias de populações independentes
Paired-sampled T-test
Calcula o teste de diferença de duas médias de populações emparelhadas.
One-Way ANOVA Testa a diferença de médias de mais de duas amostras
ANOVA models
Simple factorial Testa a diferença de médias do modelo fatorial
General factorial Testa a diferença de médias do modelo geral
Multivariate Calcula o teste de análise de variância multivariada
Correlate Bivariate Partial Distances
Calcula a matriz de correlação, tomando as variáveis de duas em duas. Calcula o coeficiente de correlação
41
parcial. Calcula a distância euclidiana entre os casos.
Regression Linear Logistic Probit Nonlinear
Ajusta o modelo de regressão linear Ajusta o modelo de regressão logística Ajusta o modelo Probit Ajusta um modelo não linear
Loglinear General Hierarchical Logit
Classify K-means cluster Hierarchical clusters Discriminant
Análise de clusters Análise de clusters hierárquicos Análise discriminante
Data Reduction
Factor Análise factorial
Scale Reliabity analysis Multidimensional Scaling
Análise de confiabilidade
Non Parametric Test
Chi-square Binomial Runs 1-Sample K-S 2-Independent Samples k-Independent Samples 2-Related SamplesK-Related Samples
Testes não paramétricos ou de distribuição livre
Survival Análise de sobrevivência Multiple response
Análise de respostas múltiplas
Obs: As versões mais recentes do SPSS (11.0) apresentam mais procedimentos estatísticos.
42
9. Análise de gráficos (GRAPHS) A representação gráfica é uma das possibilidades de análise de dados sob uma forma ilustrada, produzindo uma visão mais clara e imediata dos resultados.
• SPSS oferece vários tipos de gráficos: Graphs
Função Tipo de variáveis
Bar Gráfico de barra Qualitativas, discretas de poucos valores
Line De linha Séries de tempo Area De área Série de tempo Pie Circular Qualitativas Boxplot Da caixa QuantitativasScatter De dispersão Relação entre duas variáveis
quantitativas, podendo colorir segundo outra variável
Histogram Histograma Quantitativa (de preferência contínua). Tem a opção de desenhar a curva normal superposta ao histograma