análise de dados_5 capítulos

ANÁLISE DE DADOS EM CIÊNCIAS SOCIAISINTRODUÇÃO ÀS TÉCNICAS UTILlZNDO O SPSS PARA WINDOWS

Título Anólise de dodos em Ciêncios Sociois

CELTAwww.celtaeditora.pt

Ruo Vera Cruz, 28 I 2780-305 Oeiras

Apartado 151 12781-901 OeirasTel: 2144174331 Fax: [email protected]

Autor Alon Brymon e Duncon Creme r

Distribuidor HT - Rua Rodrigues Sampaio, 77, c/v LisboaTel: 213529006/08 I Fax; 213159259

ISBN 972-774-169-X Preço 28,35 €

ALAN BRYMAN E DUNCAN CRAMER

ANÁLISE DE DADOSEM CIÊNCIAS SOCIAISINTRODUÇÃO ÀS TÉCNICAS UTILIZANDO O SPSS PARA WINDOWS

Tradução

Alexandra Figueiredo de Barros (La edição)

Diniz Lopes (3: edição)

Revisão técnica

Luísa Pedroso de Lima (La edição)

Diniz Lopes (3: edição)

CELTA EDITORAOEIRAS / 2003

Título original: QuantitativData Analysis with SPSS Release 10 for Windows:

A Cuide for Social Scientists

© Routledge, 2001

Alan Bryman e Duncan Cramer

Análise de Dados em Ciências Sociais: Introdução às Técnicas Utilizando

o SPSS O para Windows

Primeira edição portuguesa: Novembro de 1992

Tiragem: 1000 Exemplares

Segunda edição portuguesa: Novembro de 1993


Terceira edição portuguesa: Março de 2003


Tradução do inglês: Alexandra Figueiredo de Barros (La edição) e Diniz Lopes (3.a edição)

Revisão técnica: Luísa Pedroso de Lima (La edição) e Diniz Lopes (3: edição)

ISBN: 972-774-169-X

Depósito legal: 192457/03

ISBN da edição original: 0-415-24400-5, Londres, Routledge

Composição: Celta Editora, utilizando caracteres Palatino, corpo 10

Capa: Mário Vaz I Arranjo: Paula Neves

Impressão e acabamentos: Tipografia Lousanense, Lda.

Reservados todos os direitos para a língua portuguesa,

de acordo com a legislação em vigor, por Celta Editora, Lda.

CeIta Editora, Rua Vera Cruz, 2B, 2780-305 Oeiras, Portugal

Endereço postal: Apartado 151, 2781-901 Oeiras, PortugalTe!.: (+351) 214 417 433

Fax: (+351) 214467304

E-mail: [email protected]

Página: www.celtaeditora.pt

PLANO DA OBRA

Índice de figuras, caixas e quadros XlPrefácio xxi

1 A análise de dados e o processo de investigação 1

2 Analisar dados com o computador: os primeiros passoscom o SPSS10para Windows 19

3 Analisar dados com o computador: dominar melhoro SPSS10 para Windows 47

4 Os conceitos e a sua medição 63

5 Resumir os dados 81

6 Arnostragem e significância estatística 111

7 Análise bivariada: explorar diferenças entre valoresde duas variáveis 131

8 Análise bivariada: identificar associações entre variáveis 183

9 Análise multivariada: explorar diferenças entre trêsou mais variáveis 225

10 Análise multivariada: caracterizar relações entre trêsou mais variáveis 259

11 Agregar variáveis: análise fadorial exploratória 297

Respostas aos exercícios 313Referências bibliográficas 325

ÍNDICE

Plano da obra v

Índice de figuras, caixas e quadros xiPrefácio xxi

A ANÁLISE DE DADOS E O PROCESSO DE INVESTIGAÇÃO. 1A análise de dados quantitativos e o processo de investigação 2Plano de investigação e causalidade 8Inquérito/plano correlacional e causalidade 14Exercícios 16

ANALISAR DADOS COM O COMPUTADOR: OS PRIMEIROSPASSOS COM O SPSS 10 PARA WINDOWS 19O ficheiro de dados 20Como ter acesso ao SPSS 25A introdução e edição de dados no Data Editor 29Procedimentos estatísticos 37

Guardar e imprimir o Output 40Sistema de ajuda 40Terminar uma sessão de trabalho no SPSS 41Exercícios 41

Apêndice 2.1 Questionário do Trabalho 43

ANALISAR DADOS COM O COMPUTADOR:DOMINAR MELHOR O SPSS 10 PARA WINDOWS 47Seleccionar casos 48

Operadores relacionais 49Combinar operadores lógicos 50Recodificar os valores das variáveis 51Criar uma nova variável 56

viii ANÁLISE DE DADOS EM CIÊNCIAS SOCIAIS

Dados omissos e cálculo de valores para formar medidascompostas 57

Exercícios 60

4 OS CONCEITOS E A SUA MEDIÇÃO 63Tipos de variáveis 66Dimensões dos conceitos 70Validade e fidelidade das medidas 73Exercícios 78

5 RESUMIR OS DADOS 81Distribuições de frequência 81Medidas de tendência central 92Medir a dispersão 95Métodos de apresentação dos dados: diagramas

troncos-e-folhas e diagramas extremos-e-quartis 98A forma de uma distribuição 104Exercícios 108

6 AMOSTRAGEM E SIGNIFICÂNCIA ESTATÍSTICA 111Amostragem 111Problemas relacionados com a amostragem 116Significância estatística 118A inferência a partir de amostras da população 126Exercícios 129

7 ANÁLISE BIVARIADA: EXPLORAR DIFERENÇASENTRE VALORES DE DUAS VARIÁVEIS 131Critérios para seleccionar testes bivariados de diferenças 132Testes paramétricos versus não paramétricos 133Variáveis nominais e testes não paramétricos 136Variáveis não nominais e testes não paramétricos 147Variáveis não nominais e testes paramétricos 159Análise de variância a um factor para três ou mais médias não

relacionadas 165Análise de variância multivariada para três ou mais médias

relacionadas 174Exercícios 180

8 ANÁLISE BIVARIADA: IDENTIFICAR ASSOCIAÇÕES ENTREVARIÁVEIS 183Tabelas de contingência (crosstabulation) 184Tabelas de contingência e significância estatística: o teste do

qui-quadrado (X2) ••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••• 190Correlação 195

ÍNDICE ix

Outras abordagens de associações entre duas variáveis 207Regressão 211Abordagem geral sobre os diferentes tipos de variáveis

e métodos de análise das suas relações 220Exercícios 222

9 ANÁLISE MULTIVARIADA: EXPLORAR DIFERENÇASENTRE TRÊS OU MAIS VARIÁVEIS 225Planos de estudo multivariados 225Análise multi variada 235Exercícios 256

10 ANÁLISE MULTIVARIADA: CARACTERIZAR RELAÇÕESENTRE TRÊS OU MAIS VARIÁVEIS 259

Análise multivariada através de tabelas de contingência 261Análise multivariada e correlação 270Regressão e análise multivariada 275Path analysis 287Exercícios 293

11 AGREGAR VARIÁVEIS: ANÁLISE FACTORIALEXPLORATÓRIA 297Matriz de correlações (correlation matrix) 299Componentes principais ou factores? 300Número de factores a manter 303Rotação de factores 305O procedimento do SPSS para a análise factorial 308Exercícios 309

Respostas aos exercícios 313Referências bibliográficas 325

ÍNDICE DE FIGURAS, CAIXAS E QUADROS

Figuras

~.1 O processo de investigação 3~.2 Uma relação espúria 10~.3 Um estudo experimental 12~.4 Três tipos de planos experimentais 13~.5 Uma relação entre duas variáveis 15~.6 A relação será espúria? 15~.7 Duas possibilidades de interpretação causal de uma relação 16~.1 Decisão da natureza de uma variável 67~.2 Conceitos, dimensões e medidas 71:-.1 Gráfico de barras referente à distribuição dos estudantes

por faculdades 83:-.2 Histograma para os valores da variável rendim

(dados do Questionário do Trabalho) 855.3 Diagrama de "queijo" para gpracial (dados do Questionário

do Trabalho) 905.4 Amplitude interquartis 97.5 Diagrama de troncos-e-folhas para a variável necess 102

5.6 Diagrama de extremos-e-quartis 1045.7 Diagrama extremos-e-quartis da variável necess

(output do SPSS) 104Duas distribuições normais 106

5.9 Média e distribuição normal 106

:-.10 Propriedades da distribuição normal 1075.11 Distribuições positiva e negativamente enviesada 108, .1 Resultados teóricos similares de dois lançamentos de

uma moeda 119

xii ANÁLISE DE DADOS EM CIÊNCIAS SOCIAIS

6.2

6.3

6.47.1

8.1

8.28.38.48.58.68.78.88.98.10

8.11

8.12

8.138.14

8.15

8.16

8.17

9.19.29.39.4

9.5

9.6

10.1

10.2

10.3

10.4

Distribuição de resultados teóricos similares obtidos por 64lançamentos de moeda .Nível de significância de 5% para hipótese unicaudalou bicaudal .Intervalos de confiança .Uma comparação da distribuição do erro padrão da diferençade médias para amostras relacionadas .Diagrama de dispersão mostrando uma associação negativa:satis por rotina .

Diagrama de dispersão mostrando uma associação positiva .Uma associação perfeita .Ausência de associação entre duas variáveis .Três associações curvilineares .Duas associações positivas .Duas associações negativas .Força e direcção dos coeficientes de correlação .Tipos de associações entre duas variáveis .A recta de regressão .Regressão: uma associação negativa .Regressão: um ponto de intercepção negativo .Regressão: uma associação perfeita .A precisão da recta de regressão .Diagramas de dispersão correspondentes a dois níveisde correlação idênticos .Heterocedasticidade .

Diagrama de dispersão do SPSS com recta de regressão(Dados do Questionário de Trabalho) .Exemplo de uma interacção entre duas variáveis .Exemplos de outros tipos de interacção entre duas variáveis .Exemplos de ausência de interacção entre duas variáveis .Representação esquemática de um efeito significativode um factor .

Níveis de depressão pós-teste em mulheres e homens (ProjectoDepressão) .Níveis de depressão pré e pós-teste nos três tratamentos(Projecto Depressão) .Será que a relação entre a variedade nas funções e a satisfaçãono trabalho é espúria? .Será a relação entre a variedade das funções e a satisfaçãono trabalho afectada por uma variável interveniente? .Será que a relação entre a variedade das funções e a satisfaçãono trabalho é moderada pelo sexo? .Causalidade múltipla .

119

125

128

173

196

197

197

197

198

199

199

200

201

213

214

214

215

215

216

217

222

226

227

228

230

239

252

262

265

267

269

ÍNDICE DE FIGURAS, CAIXAS E QUADROS xiii

0.3 Os efeitos do controlo de uma variável em teste 272

10.6 Diagrama de path para satis 288:0.7 Diagrama path para satis, especificando os coeficientes path 291:0.8 Diagrama path para absent 292_1.1 Variância comum e variância única 301

_1.2 Teste scree dos valores próprios (Questionário do Trabalho) 304,

Caixas

:.1 A janela de abertura do Windows 95/98 26_.2 O Editor de Dados (Data Editor) do SPSS 27_.3 O menú drop-down da opção Data 27_A A caixa de diálogo Select Cases 28_.3 A janela Variable View do Data Editor 30_.6 A caixa de diálogo Missing values 32_.7 A caixa de diálogo Value labels 33_.8 O menu drop-down File 34_.9 A caixa de diálogo Save Data As 35_.10 A caixa de diálogo Open File 36_.11 A caixa de diálogo Text Import Wizard 37_.12 A caixa de diálogo Descriptives 38_.13 A subcaixa de diálogo Descriptive: Options 39

_.14 A caixa de diálogo Help Topics Content 41_.15 A caixa de diálogo Help Topics Find 42_.16 A caixa de informação Help 423.1 A caixa de diálogo Select Cases 473.2 A subcaixa de diálogo Select Cases: If : 483.3 A caixa de diálogo Recode into Different Variables 513.4 A subcaixa de diálogo Recode into Different Variables:

Old and New Values 52

3.5 A caixa de diálogo Summarize Cases 533.6 A caixa de diálogo Recode into Same Variables 553.7 A subcaixa de diálogo Recode into Same Variables:


3.8 A caixa de diálogo Compute Variable 564.1 A caixa de diálogo Reliability Analysis 76-t2 A subcaixa de diálogo Reliability Analysis: Statistics 773.1 A recodificação de rendim para rendimgp 873.2 A subcaixa de diálogo Recode into Different Variables:


3.3 A caixa de diálogo Frequencies 883.4 A caixa de diálogo Bar Charts 89

xiv ANÁLISE DE DADOS EM CIÊNCIAS SOCIAIS

5.5

5.65.7

5.85.97.17.27.37.47.57.67.77.87.97.10

7.11

7.12

7.13

7.14

7.15

7.16

7.17

7.187.19

7.20

7.21

7.22

7.23

8.18.28.38.48.58.68.78.88.99.1

A subcaixa de diálogo Define Simple Bar:Summariesfor Groups of Cases .A caixa de diálogo Pie Charts .A subcaixa de diálogo Define Pie: Summaries forGroups of Cases .A caixa de diálogo Explore .A subcaixa de diálogo Frequencies: Statistics .A caixa de diálogo Binomial Test .A caixa de diálogo Chi-Square Test .A caixa de diálogo Crosstabs .A subcaixa de diálogo Crosstabs: Cell Display .A subcaixa de diálogo Crosstabs: Statistics .A caixa de diálogo Two-Related Samples Tests .A caixa de diálogo Tests for Several Related Samples .A caixa de diálogo One-Sample Kolmogorov-Smirnov Test .A caixa de diálogo Two-Independent-Samples Tests .A subcaixa de diálogo Two Independent Samples:Define Groups .A caixa de diálogo Tests for Several Independent Samples .A subcaixa de diálogo Several Independent Samples:Define Range .A caixa de diálogo One-Sample T Test .A caixa de diálogo Independent-Samples T Test .A subcaixa de diálogo Define Groups .A caixa de diálogo One-Way ANOVA .A subcaixa de diálogo One-Way ANOVA .A subcaixa de diálogo One-Way ANOVA: Contrasts .A subcaixa de diálogo One-Way ANOVA: Post Hoc MultipleComparisons .A caixa de diálogo Paired-Samples T Test .A caixa de diálogo Repeated Measures Define Factor[s] .A subcaixa de diálogo Repeated Measures .A subcaixa de diálogo Repeated Measures: Options .A caixa de diálogo Crosstabs .A subcaixa de diálogo Crosstabs: Statistics .A subcaixa de diálogo Crosstabs: Cell Display .A caixa de diálogo Scatterplot .A subcaixa de diálogo Simple Scatterplot .A caixa de diálogo Bivariate Correlations .A caixa de diálogo Means .A subcaixa de diálogo Means: Options .A caixa de diálogo Linear Regression .A caixa de diálogo Univariate .

90

91

91

98

108

137

139

143

143

144

146

148

149

151

151

152

153

160

163

163

167

168

169

170

173

176

176

177

189

189

190

203

204

204

210

210

220

236

ÍNDICE DE FIGURAS, CAIXAS E QUADROS xv

9.2 A subcaixa de diálogo Univariate: Options 237.3 A subcaixa de diálogo Univariate: Profile Plots 237.-l A subcaixa de diálogo Univariate: Model 242

9.3 A caixa de diálogo Multivariate 2459.6 A subcaixa de diálogo Multivariate: Options 2469.7 A caixa de diálogo Repeated Measures Define Factor[s] 2499.8 A subcaixa de diálogo Repeated Measures 250

.9 A subcaixa de diálogo Repeated Measures: Options 25à9.10 A subcaixa de diálogo Repeated Measures: Profile Plots 2519.11 A caixa de diálogo completa Repeated Measures:

Define Factor[s] 2539.12 A subcaixa de diálogo Repeated Measures

(análise de plano combinado) 25410.1 A caixa de diálogo Partial Correlations 274"1.0.2 A subcaixa de diálogo Partial Correlations: Options 274

:0.3 A caixa de diálogo Linear Regression 285:0.4 A subcaixa de diálogo Linear Regression: Statistics 285:1.1 A caixa de diálogo Factor Analysis 31011.2 A subcaixa de diálogo Factor Analysis: Descriptives 310"1.1.3 A subcaixa de diálogo Factor Analysis: Extraction 31011.4 A subcaixa de diálogo Factor Analysis: Rotation 31111.5 A subcaixa de diálogo Factor Analysis: Options 311

Quadros

.1 Violência na televisão e agressão 10_.1 Os dados do Questionário do Trabalho 222.2 Nomes e localização das variáveis do Questionário

de Trabalho no SPSS 25_.3 O output do comando Descritptives 382.4 O output Mean Descriptive 393.1 Idade média dos sujeitos do sexo masculino do Questionário

de Trabalho 49

3.2 O output do comando Case Summaries mostrando os valoresrecodificados de rsatis2 e rsatis4 54

3.3 O output do comando Case Summaries mostrando os valoresde satisl, rsatis2, satis3, rsatis4 e satis 57

3.4 Os dados transformados do Questionário de Trabalho 61';.1 Tipo de variáveis 67..1,,2 O ouput da análise de fidelidade da variável satis

(Questionário do Trabalho) 76

xvi ANÁLISE DE DADOS EM CIÊNCIAS SOCIAIS

5.1 Faculdades a que pertencem cinquenta e seis alunos(Dados Fictícios) 82

5.2 Tabela de frequência referente aos dados apresenadosno quadro 5.1 83

5.3 Distribuição de frequências para os valores de rendim (dadosdo Questionário do Trabalho) 85

5.4 Tabela de frequências para rendimgp (output do SPSS) 885.5 Resultados de um teste de aptidão matemática aplicado

aos alunos de dois professores (Dados Fictícios) 965.6 O output do comando Explore para a variável rendim 995.7 Percentagem de necessidades satisfeitas pelas autarquias

num período de seis meses em Inglaterra e Escócia, 1993-1994.... 1016.1 Definição de uma amostra estratificada: trabalhadores

não manuais de uma empresa 1166.2 Os quatro resultados que se podem obter a partir de dois

lançamentos da moeda 1186.3 Resultados teóricos correspondentes ao lançamento de uma

moeda 64 vezes: probabilidade de resultados similares 1206.4 Erros do Tipo I e do Tipo II 1267.1 Testes de diferenças para duas variáveis 1347.2 Comparação da proporção de homens e mulheres através

do teste binomial (Questionário de Trabalho) 1387.3 Comparação da proporção de brancos e não brancos através

do teste binomial (Questionário do Trabalho) 1387.4 Comparação do número de pessoas em cada um dos grupos

étnicos através do teste de qui-quadrado para uma amostra(Questionário de Trabalho) 140

7.5 Teste de qui-quadrado com número insuficiente de casos(Questionário de Trabalho) 141

7.6 O teste de qui-quadrado efectuado pelo procedimento Crosstabs,comparando o número de homens e mulheres brancoe não brancos 144

7.7 Os dados do estudo de painel 1457.8 Teste de McNemar comparando a comparência às reuniões

em dois meses (Estudo de Painel) 1467.9 Teste Q de Cochran comparando a comparência às reuniões

em três meses (Estudo de Painel) 1497.10 Teste de Kolmogorov-Smirnov para uma amostra comparando

a distribuição da qualidade do trabalho(Questionário de Trabalho) 150

7.11 Teste de Kolmogorov-Smirnov para dua':;amostras comparandoa distribuição da qualidade do trabalho em homens e mulheres(Questionário do Trabalho) 152

DICE DE FIGURAS, CAIXAS E QUADROS xvii

-0-.~::>

- -9

- 31

-23168

171

167

174

169

168

179

177

178

160

164

179

179

165

159

158

154

153

155

157

Teste de medianas comparando a qualidade de trabalhoem homens e mulheres (Questionário do Trabalho) .Teste de Mann-Whitney comparando a qualidade do trabalhoem homens e mulheres (Questionário do Trabalho) .Teste de Kruskal-Wallis comparando a qualidade do trabalhoentre grupos étnicos (Questionário do Trabalho) .Teste dos sinais comparando a qualidade do trabalho em doismeses (Estudo de Painel) .Teste das ordens de Wilcoxon comparando a qualidadedo trabalho nos dois primeiros meses (Estudo de Painel) .Teste de Friedman comparando a qualidade do trabalho emtrês meses (Estudo de Painel) .Teste t para uma amostra da qualidade do trabalho(Questionário do Trabalho) .Teste t para amostras não relacionadas comparando a satisfaçãono trabalho em homens e mulheres (Questionário do Trabalho) .Teste t comparando a qualidade no trabalho em homense mulheres (Questionário do Trabalho) .Tabela da análise de variância a um factor comparandoa satisfação no trabalho em diferentes grupos étnicos(Questionário do Trabalho) .Estatísticas descritivas grupais numa análise de variânciaa um factor comparando a satisfação no trabalho em diferentesgrupos étnicos (Questionário do Trabalho) .Teste de homogeneidade de variâncias de Levene(Questionário do Trabalho) .Estatísticas relativas aos contrastes a um factor comparandoa satisfação no trabalho nos grupos 1 e 2(Questionário do Trabalho) .Estatísticas relativas aos testes de Scheffé a um factor

comparando a satisfação no trabalho em diferentes gruposétnicos (Questionário do Trabalho) .Teste t para amostras relacionadas comparando a satisfaçãono trabalho nos primeiros dois meses (Questionário doTrabalho) .

_/ Médias e desvios padrões de medidas repetidas da satisfação notrabalho (Estudo de Painel) .Testes multivariados de medidas repetidas (Estudo de Painel) .Teste de esfericidade de Mauchly de medidas repetidas(Estudo de Painel) .Testes univariados de significância de medidas repetidas paraas variáveis transformadas (Estudo de Painel) .Testes de significância médios de medidas repetidas .

- ~)

xviii ANÁLISE DE DADOS EM CIÊNCIAS SOCIAIS

8.1 Dados relativos à satisfação no trabalho e ao absentismo de 30empregados 185

8.2 Quatro combinações possíveis 1858.3 A relação entre a satisfação no trabalho e o absentismo 1868.4 Dois tipos de associação entre variáveis 1868.5 Tabela de contingência especial por sexo (output do SPSS) 1888.6 Nível de especialização dos trabalhadores por sexo 1948.7 A matriz de coeficientes de correlação produto-momento

de Pearson (output do SPSS) 2058.8 A matriz de coeficientes de correlação rho de Spearman 2078.9 O output Means para satis por especial 2118.10 O impacto dos valores extremos: a associação entre a dimensão

da empresa e o número de funções especializa das 2188.11 Análise de regressão: satis por rotina (output do SPSS) 2219.1 Dados do projecto depressão 2349.2 Médias da depressão pós-teste (doepos) nos três tratamentos

para homens e mulheres (Projecto Depressão) 2389.3 Output dos Homogeneity tests (Projecto Depressão) 2399.4 Testes de significância para efeitos principais e de interacção

num plano factorial não relacionado (Projecto Depressão) 2409.5 Testes de significância para os efeitos da depressão pré-teste

(Projecto Depressão) 2419.6 Resultados da análise de covariância mostrando o teste de

homogeneidade do declive da recta de regressão intra-células(Projecto Depressão) 243

9.7 Análise de covariância (Projecto Depressão) 2449.8 Médias ajustadas de depressão pós-teste nos três tratamentos

(Projecto Depressão) 2449.9 Médias e desvios-padrão dos níveis de depressão pós-teste para

os doentes (doepos) e informadores (infpos) para os trêstratamentos (Projecto Depressão) 247

9.10 O teste M de Box (Projecto Depressão) 2479.11 O teste de Levene (Projecto Depressão) 2479.12 O teste de esfericidade de Bartlett (Projecto Depressão) 2489.13 Testes multivariados de significância para os efeitos do tratamento

(Projecto Depressão) 2489.14 Testes univariados de significância para as duas variáveis

dependentes (Projecto Depressão) 2489.15 Teste de significância para a interacção entre tempo

e tratamento (Projecto Depressão) 2519.16 Médias e desvios-padrão dos níveis de depressão pré-teste

(Doepre) e pós-teste (Doepos) nos três tratamentos(Projecto Depressão) 252

l'-UICE DE FIGURAS, CAIXAS E QUADROS xix

Relação entre a covariável idade e as duas variáveistransformadas (Projecto Depressão) 255Teste multivariados para a interacção entre tempo, tratamentoe sexo (Projecto Depressão) 255

- 19 Testes univariados para o efeito de interacção entre tempo,tratamento e sexo (Projecto Depressão) 256

·--=a Variáveis transformadas (Projecto Depressão) '2.56Relação entre variedade e satisfação no trabalho(Dados Fictícios) 262Urna relação espúria: a relação entre a variedade das funçõese a satisfação no trabalho controlando a dimensão da amostra(Dados Fictícios) 263

__ 3 Urna relação não espúria: a relação entre a variedade das funçõese a satisfação no trabalho controlando a dimensão da empresa(Dados Fictícios) 264

:: -! Urna variável interveniente: relação entre a variedade dasfunções e a satisfação no trabalho, controlandoa variável interesse pelo trabalho (Dados Fictícios) 265

~_J Urna relação moderada: a relação entre a variedade das funçõese a satisfação no trabalho controlando o sexo (Dados Fictícios) ... 267

: = ó Causalidade múltipla: urna relação entre variedade e satisfaçãono trabalho controlando a participação no trabalho 269

h I Rendimento, idade e posição face à economia de mercado(Dados Fictícios) 273

~ o A matriz de coeficientes de correlação parcial (Questionáriodo Trabalho) 275

__9 Comparação de coeficientes de regressão não estandardizadose estandardizados, com satis corno variável dependente 279

:.= 100 output do SPSS para a regressão múltipla(Questionário do Trabalho) 282

~:E.IRelação entre a concordância com a legislação que defendea igualdade de salários e sexo dos inquiridos 294

:·:E.2Relação entre a concordância com a legislação que defendea igualdade de salários e sexo dos inquiridos 294

:~ 1 Matrizes de correlações e níveis de significância para os itensde satisfação e rotina (Questionário do Trabalho) 300Comunalidades das componentes principais(Questionário do Trabalho) 302

~~3 Comunalidades dos eixos principais(Questionário do Trabalho) 302

:: -! Componentes principais iniciais e sua variância(Questionário do Trabalho) 303

xx ANÁLISE DE DADOS EM CIÊNCIAS SOCIAIS

11.5 Pesos dos itens nas duas primeiras componentes principais(Questionário do Trabalho) 305

11.6 Pesos dos itens nos dois primeiros eixos principais(Questionário do Trabalho) 305

11.7 Pesos dos itens nas duas primeiras componentes principaisrodadas ortogonalmente (Questionário do Trabalho) 307

11.8 Pesos dos itens nas duas primeiras componentes principaisrodadas obliquamente (Questionário do Trabalho) 307

11.9 Correlações entre as duas primeiras componentes principaisrodadas obliquamente (Questionário do Trabalho) 308

PREFÁCIO

;= ":e livro procura iniciar os leitores nas técnicas fundamentais de análise3:atistica utilizadas por psicólogos e sociólogos. No entanto, não conside':"=.::10Sque ele seja uma introdução à estatística semelhante ao que é habi-

..:a1; pensamos antes que a sua natureza é diferente, já que não nos preocu-:-=.::nosem incluir as complexas fórmulas subjacentes aos métodos estatís:..:uS abordados. É frequente os estudantes considerarem essas fórmulas e

:;cálculos que se lhes associam muito assustadores, especialmente quan:.~ as suas bases matemáticas são mais fracas. Além disso, nos dias de hoje,~':;?omos de poderosos computadores e de conjuntos de programas esta'=':;:::(os,parecendo desnecessário confrontar os estudantes com a ansieda~=:-elacionada com cálculos complexos quando podem ser as máquinas a:.=sempenhar a maior parte do trabalho. De facto, a maioria dos utilizado_::-:;dispõe de programas estatísticos que permitem que sejam os computa- -:-es a efectuar os cálculos havendo, assim, poucas razões para se consi,_=:-arem as fórmulas e a sua aplicação como um ritual de passagem para os-s::ldantes de ciências sociais. Acresce ainda que poucos estudantes che=::....~ama compreender plenamente o racional da fórmula que teriam que-:-:-ender.Na realidade, preferimos a designação "análise de dados quan-

-:ativos" em vez de "estatística", devido à imagem adversa que esta últi-;: ?alavra suscita em muitos potenciais leitores.

Tendo em conta o facto de termos disponíveis programas de estatística e_~:nputadores, achamos que as duas áreas em que os estudantes mais preci

de adquirir competências são, em primeiro lugar, como decidir quais os,__~<edimentos estatísticos que se devem usar para responder a cada necessi

-ie e, em segundo lugar, como interpretar os resultados obtidos. Neste lio::! procuramos enfatizar estes dois factores.

É, ainda, necessário que o estudante aprenda a utilizar o software que-= ?ermitirá operar com os procedimentos estatísticos descritos neste li

~. Para esse fim, iniciamos os leitores naquele que é, provavelmente, o

xxi

xxii ANÁLISE DE DADOS EM CIÊNCIAS SOCIAIS

mais amplamente utilizado conjunto de programas para análise estatísticanas ciências sociais - o SPSS (Statistical Package for the Social Sciences).Este programa foi criado nos anos 60 e constituiu a primeira grande tentativa de desenvolver software para as ciências sociais, tendo, desde aí, passado por várias revisões e aperfeiçoamentos. As primeiras duas ediçõesdeste livro (Bryman & Cramer, 1990, 1994)referiam-se a versões do SPSSdesenvolvidas para computadores de grande porte (maínframe) e para osistema operativo Microsoft MS-DOS.No entanto, há uns anos atrás, apareceu uma versão de SPSSdesenvolvida para o ambiente Microsoft Windows. Esta passou, também, por algumas revisões. Uma das edições anteriores deste livro (Bryman & Cramer, 1997)dizia respeito à versão 6 paraWindows, desenvolvida para o Microsoft Windows 3.11. Após a introdução do Windows 95, uma nova versão do SPSS(versão 7) foi desenvolvidapara correr neste sistema operativo. Aúltima versão para o Windows 95é aversão 10.O presente livro descreve a utilização desta versão, a que nos referiremos abreviadamente por SPSS.Autilização das versões 8e 9é descrita numa edição anterior desta obra (Bryman e Cramer, 1999).

Para fazer a distinção entre os métodos de análise de dados e os comandos do SPSS,apresentamos os últimos em negrito. Apresentamos, ainda, dados para os estudantes utilizarem, aparecendo os nomes das variáveis também em negrito [bold] (por exemplo, rendim, isto é, rendimento). As basesde dados podem ser retiradas do endereço da editora Routledge na internet;lhttp://www.routledge.com/textbooks/ titles/ quant10.html

Na parte final de cada capítulo incluímos exercícioscuja solução se encontra no fim do livro. Esperamos que estudantes e professores lhes encontrem utilidade; facilmente poderão ser adaptadas de modo a constituíremexercícios adicionais.

O facto de termos combinado métodos de análise de dados usadospor psicólogos e por sociólogos prende-se com a nossa crença de que asnecessidades dos estudantes das duas áreas se sobrepõem substancialmente. No entanto, os professores podem omitir algumas técnicas, se assim o entenderem.

Agradecemos a David Stonestreetpelo seu apoio nas edições anteriores deste livro, e à nossa presente editora, Vivien Ward, pelo seu apoiona presente edição. Gostaríamos de agradecer, também, a Louis Cohen,Max Hunt e Tony Westaway por terem lido o manuscrito da primeira edição deste livro, e por terem feito sugestões para o seu aperfeiçoamento.Obviamente eles não podem ser responsabilizados por quaisquer errosque, eventualmente, apareçam neste livro: esses erros serão de nossa

1 Neste endereço, o leitor encontrará as bases de dados em língua inglesa. Para aceder a es-tas mesmas bases de dados em versão portuguesa, o leitor deverá dirigir-se ahttp://www.celtaeditora.pt/materiais/ adados.

?REFACIO xxiii

:.:.t5iva responsabilidade, apesar de, inevitavelmente, cada um de nós~CU5aro outro de os ter cometido.2

Alan Bryman e Duncan Cramer

Universidade de Loughborough

Os erros de edição encontrados na obra original foram corrigidos na presente versão.

Capítulo 1:\. ANÁLISE DE DADOS E O PROCESSO DE INVESTIGAÇÃO

e 11no abrange amplamente o campo que se designa, em geral, por "esta' ..:a" mas, como procurámos salientar no prefácio, afastámo-nos em vários_dos da forma convencionalmente usada para ensinar este tema a estu:es pré e pós-graduados. Especificando, foi nossa intenção combinar a

L:se de dados com as competências no domínio da utilização de computa_5, sem sobrecarregar o leitor com fórmulas. Esta intenção afasta-nos de

....:as, ou mesmo da maior parte, das formulações deste tema. Preferimos o:T•.J "análise de dados quantitativos" porque a ênfase é posta na compreen-

:: na análise de dados e não tanto na natureza das próprias técnicasa::sticas.

Por que razão devem os estudantes de ciências sociais aprender a fa. ="""1álisede dados quantitativos, especialmente numa época em que a in>2.gação qualitativa está a assumir, cada vez mais, uma posição diantei~~'man, 1988a)? Afinal já todos nós ouvimos falar da forma como os

- 25 estatísticos podem ser distorcidos, como pode ser ilustrado pelas~"ras de Disraeli: "Há mentiras, grandes mentiras e estatísticas". Por

= :notivo se deverão preparar investigadores e estudantes para se envol-~;:::1numa actividade que pode ser tão ingrata? Se considerarmos a pri....::-aquestão - por que é que os estudantes de ciências sociais devem_=:1der a fazer análise de dados quantitativos - devemos lembrar-nos;: '.lIDagrande parte da pesquisa empírica desenvolvida no âmbito das:-.cias sociais é planeada para gerar dados quantitativos ou apoia-se ne-

• ara poderem apreciar o tipo de análises que se utilizou com esses da" e para analisarem os seus próprios dados (especialmente porque mui; :-:-ecisam de desenvolver projectos), os estudantes de ciências sociais~ '-antagem em conhecer os métodos de análise adequados. Além disso,_sar da investigação qualitativa se ter tornado uma estratégia proemi-

::: em Sociologia e nalgumas outras áreas das ciências sociais, ela não é~"1iYersalcomo a investigação quantitativa. De qualquer forma, vários

2 ANÁLISE DE DADOS EM CIÊNCIAS SOCIAIS

autores reconhecem que haverá muito a ganhar se se fundirem as duas tradições de pesquisa (Bryman, 1988a).

Em relação à questão da capacidade dos estatísticos de distorcer as análises que executam, o panorama é substancialmente exagerado por livros comtítulos desconcertantes do género "Como mentir com estatísticas" (Huff, 1973),devendo ser reconhecido que uma compreensão das técnicas abordadas nonosso livro dará aos leitores uma capacidade acrescida de ver para além dasrepresentações erradas que preocupam tantas pessoas. De facto, a aquisiçãode uma capacidade de avaliação da análise de dados quantitativos é benéfica,face à perspectiva de uma utilização universal de dados estatísticos na vidaquotidiana, já que somos constantemente sujeitos a uma série deles na formade resultados de estudos de opinião, estudos de mercado, inventários de atitudes, estatísticas de saúde e de criminalidade, etc. O domínio da análise dedados quantitativos aumenta a nossa capacidade para reconhecermos conclusões deficientes ou manipulações da informação. Existe, ainda, a hipótesede uma parte substancial dos nossos leitores virem a desempenhar funçõesem que sejam confrontados com a necessidade de analisar ou apresentar dados estatísticos. A análise de dados quantitativos não consiste numa aplicação mecanizada de técnicas pré-determinadas, sendo, antes, um tema que alimenta controvérsias e debates, à semelhança do que acontece com as própriasciências sociais. Quando for apropriado apresentaremos ao leitor alguns dosaspectos que fomentam essas discussões.

A análise de dados quantitativos e o processo de investigação

Nesta secção, vamos explorar a forma como a análise de dados quantitativosse adequa ao processo de investigação - especificamente o processo de investigação quantitativa. Como veremos, a área de conhecimentos abordadapor este livro não se limita a responder à questão de como lidar com dadosquantitativos, centrando-se também noutros aspectos ligados à investigaçãoque afectam a análise de dados.

A figura 1.1 ilustra os passos principais da investigação quantitativa.Embora se possa levantar a questão de se ela, de facto, se conforma sempre auma sequência linear bem ordenada (Bryman, 1988a; 1998b), os componentesapresentados na figura 1.1 fornecem um modelo de representação útil. Nessemodelo, são delineadas as etapas a seguir referenciadas.

Teoria

O ponto de partida do processo é o enquadramento teórico. As teorias, nasciências sociais, podem situar-se entre as abordagens abstractas e gerais

A ANÁLISE DE DADOS E O PROCESSO DE INVESTIGAÇÃO

-----------.~ Teoria

•Hipóteses

•Operacionalização

de conceitos

•Selecção de sujeitos ou

de respondentesli ~

3

Plano correlacionaVlnquérito

1- -Condução de entr"e;;stas-I

I ou aplicação de :~ ..9,,:~i':.n~i~s I

\Plano experimental--------------1

I Definição de grupos de I: controlo e de grupos II experimentais II. :I Realização de observações I

: elou aplicação de testes II ou questionários I______________ J

Recolha de dados

•Análise de dados

•Conclusões

~ 1.1 O processo de investigação

_:"0, por exemplo, o funcionalismo) e as abordagens de um nível de abs-70 inferior que procuram explicar fenómenos específicos (como o com:?mento de voto, a delinquência ou a agressividade). De um modo geral,

rias que tendem a receber mais atenção directa são as que têm um baixo::. de generalidade. Merton (1967) referiu-se a teorias de médio alcance

designar as construções que se situam entre as teorias gerais e abstractas. ':'escobertas empíricas. Hirschi (1969), por exemplo, formulou uma teoria•_ a delinquência juvenil que propõe que os actos de delinquência são- ?rováveis quando os laços da criança à sociedade estão quebrados. Esta- derivou, em grande parte, de outras teorias e de dados de investigação

-onados com a delinquência juvenil.

_'ipóteses

~;ir do momento em que uma teoria é formulada, é provável que os in-'5-adores a queiram testar. Será que a teoria continua a revelar-se adequa

te as evidências empíricas? No entanto, raramente é possível testar-eoria no seu todo. Em vez disso é mais frequente deduzir-se, a partir da=, uma hipótese que se relacione com uma faceta limitada daquela e que_:ilimetida ao teste da investigação. Hirschi, por exemplo, baseando-se


na teoria que já referimos, verificou que as crianças que se encontram ligadasa uma sociedade convencional (no sentido em que aderem aos valores convencionais, participando ou aspirando a participar desses valores) terão menos probabilidade de cometer actos de delinquência do que as crianças quenão se encontram nessa situação. Muitas vezes, as hipóteses apresentam-secomo uma relação entre duas ou mais entidades -neste caso, o envolvimento com a sociedade convencional e a delinquência juvenil. Essas" entidades"são, geralmente, designadas por "conceitos" - isto é, categorias onde se arrumam as nossas ideias e observações sobre os elementos comuns do mundo.A natureza dos conceitos será discutida com maior pormenor no capítulo 4.Apesar das hipóteses terem a vantagem de forçar os investigadores a pensarde forma sistemática sobre o que pretendem estudar e a estruturar os seusplanos de investigação de acordo com isso, têm uma potencial desvantagemque consiste em poderem afastar a atenção do investigador de outras facetasinteressantes dos dados recolhidos.

Operacionalização de conceitos

Para se avaliar a validade de uma hipótese é necessário desenvolver formasde medir os conceitos a que ela se refere. Aeste processo chama-se, geralmente, operacionalização, seguindo o exemplo do processo de medida utilizado emmedicina (Bridgman, 1927). De facto, o que se passa nesta fase é a traduçãodos conceitos em variáveis - isto é, em atributos que estabeleçam diferençasentre objectos relevantes (indivíduos, empresas, nações, etc.). Hirschi operacionalizou de diversas formas a ideia de envolvimento com a sociedade con

vencional. Uma dessas formas consistiu em incluir num questionário, que viria a ser aplicado às crianças, um item em que lhes perguntava se gostavamou não da escola. A delinquência foi medida inquirindo as crianças sobre onúmero de actos de delinquência que tinham cometido (i.e., através do número de actos de delinquência auto-relatados). A medida de conceitos, em muitos estudos experimentais no âmbito da psicologia, é consegui da através daobservação de pessoas e não tanto a partir da aplicação de questionários. Se oinvestigador está interessado na agressão, por exemplo, pode criar uma situação laboratorial que permita observar variações no comportamento agressivo. Uma outra forma de operacionalizar os conceitos consiste na análise deestatísticas existentes; foi, por exemplo, o que fez Durkheim (1898/1952) nasua análise das taxas de suicídio. No capítulo 4 discutir-se-ão outros aspectosligados à medição de conceitos e algumas das propriedades que as medidasdevem possuir.

~.;AUSE DE DADOS E O PROCESSO DE INVESTIGAÇÃO 5

.=e!2cçãode inquiridos ou de sujeitos

~er um estudo de opinião, o investigador necessita de encontrar as-s certas para aplicar o instrumento de medida que se construiu (por_~o,um questionário de auto-aplicação ou um protocolo de entrevista).:; considerar, novamente, o caso de Hirschi que seleccionou aleatoria

-= ::aais de 5500 crianças em idade escolar de uma zona da Càlifórnia._ :acto da selecção ser feita aleatoriamente é importante porque reflecte

_~se do investigador em chegar a conclusões que se possam generalizara:' crianças que não tenham participado no estudo. Raramente é possí-

:actar todos os elementos de uma população e, por isso, é imperativo_Laruma amostra. Para que os resultados se possam generalizar a uma

2.çãomais ampla, essa amostra tem que ser uma amostra representativa, oiXc.e ser garantido através de uma escolha aleatória dos sujeitos. Além

::-.uitas das técnicas estatísticas a que nos referiremos ao longo deste li~encem ao domínio da estatística inferencíal que permite ao investiga- =sde que a amostra constituída seja aleatória, determinar a probabilida-- .:::::eos resultados que obteve a partir de uma amostra coincidam com os

:-..arn obtidos para a população de onde a amostra foi retirada. Estes:; serão abordados no capítulo 6.

-. ,;reparação de um plano de investigação

e sociólogos utilizam basicamente dois tipos de planos de investiprimeiros tendem a usar estudos experimentais, em que o investiga

-:::pula aspectos da situação, quer no laboratório quer no campo, e ob:;efeitos dessa manipulação nos sujeitos experimentais. Este tipo de es-

~ge, ainda, que exista um "grupo de controlo", servindo como base de~;;ão com o grupo de sujeitos submetidos à manipulação experimental.

,/ano correlacíonal ou inquérito, o investigador não manipula qualquer.:::.e todos os dados relacionados com todas as variáveis são recolhidos si-~?:nente. O termo correlação também se refere a uma técnica para anali-6es entre variáveis (ver capítulo 8) mas, no presente contexto, designa

.: .:ieplano de investigação. Nem sempre o investigador pode escolher::::'--:25 dois tipos de estudos vai utilizar. Hirschi, por exemplo, não podia::"?IDas crianças mais envolvidas com a escola e outras menos para ob-

:; efeitos deste envolvimento na sua predisposição para cometer actos0lência. Algumas variáveis, como a maior parte daquelas que são ob

-:~lUdo por parte dos sociólogos, não se podem manipular. No entanto,-'-5 .:ieestudo em que os temas e as hipóteses podem ser abordados com

"5 um destes planos (por exemplo, o estudo dos efeitos da participação.=\":10 na satisfação e desempenho profissional - ver Bryman, 1986;


Locke e Schweiger, 1979).É importante realçar que, na maior parte dos casos, anatureza do plano de investigação - experimental ou correlacional- é conhecida no princípio da sequência representada na figura LI, de modo que as características do plano escolhido influenciam várias fases do processo de investigação. A natureza do plano de estudo tem também implicações no tipo demanipulação estatística que pode ser executada com os dados que dele resultam. Na próxima secção, serão abordadas com maior pormenor as diferençasentre os dois planos de estudo.

A recolha de dados

Nesta fase, o investigador recolhe dados a partir da realização de entrevistas,da aplicação de questionários, da observação ou de qualquer outro método.Num livro com as características do nosso não seria pertinente abordar os aspectos técnicos ligados a esta recolha de dados. No caso do leitor não estar familiarizado com este terna deverá consultar um livro sobre métodos de inves

tigação sociológica e psicológica.

A análise de dados

Esta fase tem urna relação muito directa com o terna deste livro. É provávelque o investigador queira descrever os sujeitos com que trabalhou pelo menos em termos das variáveis inerentes ao estudo. Pode, por exemplo, estar interessado em conhecer qual a proporção de crianças que referem nunca ter cometido actos de delinquência ou das que referem já ter cometido um ou doisou mais deste tipo de comportamentos. As diversas formas de análise e apresentação da informação relacionada com uma só variável (chamada, por vezes, análise univariada) serão examinadas no capítulo 5. No entanto, a análisede uma só variável raramente é suficiente e o investigador provavelmenteterá interesse em conhecer a ligação entre essa variável e cada uma das outrasvariáveis, i.e., em fazer uma análise bivariada. O estudo das ligações entre variáveis pode ser feito de uma de duas formas. Um investigador que tenha conduzido uma experiência pode estar interessado em saber qual a magnitudeda diferença entre o grupo experimental e o grupo de controlo em relação a algum aspecto. Pode querer saber, por exemplo, se o facto dos sujeitos veremfilmes violentos lhes aumenta a agressividade. O grupo experimental (que vêos filmes violentos) e o grupo de controlo (que não os vê) podem, então, sercomparados para se avaliar a extensão da diferença existente entre eles. Astécnicas para a verificação destas diferenças serão exploradas no capítulo 7. Oinvestigador pode, também, estar interessado nas relações existentes entrevariáveis - será que duas variáveis estarão ligadas entre si de forma a que

A A"'ÁLISE DE DADOS E O PROCESSO DE INVESTIGAÇÃO 7

a variar ao mesmo tempo? Hirschi (1969:121), por exemplo, apresenquadro que ilustra como o facto de gostar da escola e os actos de delin.a auto-relatados se encontram em interconexão: enquanto apenas 9%

;:rianças que diziam gostar da escola referiam ter cometido dois ou mais-'""5 de delinquência, 49% das que diziam não gostar afirmavam estar den-

-"--sa mesma condição. Os métodos que permitem analisar as relações en-_;:-aresde variáveis serão explicados no capítulo 8. Muito frequentemente,

estigador pretende explorar as conexões entre mais que duas variáveisdo a chamada análise multivariada. O capítulo 9 aborda esse tipo de

. -se no sentido da exploração das diferenças, enquanto o capítulo 10 se-=-ana análise multivariada de relações entre mais do que duas variáveis.,,::nção entre estudar as diferenças e estudar as relações nem sempre é cla

- .xl.eríamos, por exemplo, verificar que os rapazes apresentam, mais fre--emente que as raparigas, comportamentos de delinquência concluindo

que os rapazes e as raparigas diferem em relação à tendência para coem esse tipo de actos ou, em alternativa, que existe uma relação entre o~o sujeito e a delinquência.

Resultados

~álise dos dados recolhidos sugere que uma hipótese é confirmada, es_saltados podem servir de apoio à teoria que a suscitou. Os próximos in~dores poder-se-ão interessar quer por reproduzir essa mesma conclu_::erpor estudar outras implicações da teoria. No entanto, o facto de uma

ser refutada pode ser igualmente importante, já que sugere que a:. :lão é adequada ou, no mínimo, que precisa de ser revista. Por vezes,=05 alguns pontos da hipótese são confirmados. Uma análise multivaria-'e indicar que a relação entre duas variáveis só se verifica para alguns.~S da amostra mas não para os outros (por exemplo, verifica-se para as

2:'eS e não para os homens ou para os jovens e não para pessoas mais ve-:;m resultado deste tipo poderá exigir uma reformulação da teoria.:od.os os resultados se relacionam directamente com uma hipótese._.quérito, por exemplo, o investigador pode recolher dados sobre de

~.ados tópicos cuja relevância poderá só ser evidente num contexto:or.orno foi dito atrás, a sequência ilustrada na figura 1.1 constitui um mo

processo de investigação que nem sempre pode ser reproduzido,,::uação real. No entanto, serve para salientar a importância de proces

E'eI1tes à investigação quantitativa como o desenvolvimento de formas-..:.rr os conceitos e a posterior análise dos dados assim recolhidos. Um

tos que ainda não foi focado é o que se prende com a discussão da-:~e a hipótese e as conclusões tendem a assumir. Um dos principais


objectivos de muita da investigação quantitativa nas ciências sociais é ademonstração de causalidade, i.e., de que uma variável tem impacto sobreoutra variável. Os termos variável independente e variável dependente sãofrequentemente, utilizados neste contexto. O primeiro diz respeito a umavariável que influencia a segunda, sendo assim esta última um efeito da variável independente. Esta relação causal é bastante explorada ao nível dasciências sociais e um dos principais papéis da análise multivariada é, precisamente, elucidá-Ia (Bryman 1988a). A possibilidade do investigador estabelecer uma relação de causa-efeito é fortemente afectada pela natureza do planode investigação que utiliza. É sobre este assunto que nos vamos debruçar emseguida.

Plano de investigação e causalidade

Como vimos, no último parágrafo, um dos principais objectivos da investigação quantitativa é estabelecer relações de causalidade. Este facto decorre, emgrande parte, do interesse em estabelecer conclusões semelhantes às das ciências naturais que, frequentemente, tomam a forma de relações de causa-efeito. Além disso, as conclusões que estabelecem relações deste tipo têm umaimportância prática considerável: se soubermos que uma coisa afecta outra,podemos manipular a causa para obter um efeito. Da mesma forma que se demonstrou que o comportamento de fumar pode provocar um certo númerode doenças, como o cancro de pulmão e certas afecções cardíacas, o investigador das ciências sociais, se demonstrar relações de causalidade em contextosadequados, pode providenciar informações que podem ter importantes aplicações práticas.

Dizer que uma coisa causa outra não quer dizer que a variável dependente (o efeito) seja totalmente influenciada pela variável independente (acausa). Se se fumar não se adquire, necessariamente, uma doença e muitasdas doenças contraídas pelas pessoas que fumam também atingem os não fumadores. Assim, a palavra" causa" deve ser encarada como uma forma de referir que uma alteração na variável independente conduz a uma alteração navariável dependente. Aqueles que fumam muito têm mais probabilidade doque aqueles que fumam pouco de contrair uma série de doenças associadasao tabaco. Os que fumam pouco, por sua vez, têm mais probabilidade de teressas doenças do que aqueles que não fumam. Do mesmo modo, se verificarmos que o facto de ver actos de violência na televisão induz comportamentosagressivos, isso não significa que só as pessoas que assistem a programas violentos na televisão é que se vão comportar de forma agressiva, nem que aspessoas agressivas se expõem a programas violentos na televisão. Invariavelmente, as relações de causalidade referem-se à probabilidade de ocorrer umefeito em função dos diferentes níveis da causa: será mais provável que se

A ANÁLISE DE DADOS E O PROCESSO DE INVESTIGAÇÃO 9

manifestem comportamentos agressivos quando se vêem muitos programasÚolentos do que quando se é relativamente pouco exposto a esse tipo deprogramação.

Estabelecer a causalidade

Para estabelecer uma relação causal há que cumprir três condições. Primeiro,é necessário demonstrar que existe uma relação visível entre duas variáveis, oque significa que é preciso provar que a distribuição dos valores de uma variável estabelece uma correspondência com a distribuição de valores da ourra. O quadro 1.1 mostra-nos o número de comportamentos agressivos exibidos por dez crianças quando brincam, em grupos de cinco, durante duas horas. Verifica-se que existe uma relação entre as duas variáveis, já que a distribuição de valores relativos ao número de actos agressivos coincide com a distribuição da quantidade de horas em que os sujeitos estiveram expostos a actOS de violência na televisão - as crianças expostas a mais violência manifes(am mais actos agressivos do que as que estiveram expostas a menos violência. A relação não é perfeita: três pares de crianças - a 3 e a 4, a 6 e a 7 e a 9 e a10- tiveram o mesmo número de actos agressivos, mesmo tendo assistido adiferentes quantidades de violência na televisão. Além disso, a criança n.o 8exibe mais comportamentos agressivos do que a 6 ou a 7, embora estas últimas tenham estado expostas a mais violência. Apesar disto, é evidente queexiste uma relação entre as duas variáveis.

Em segundo lugar, é necessário demonstrar que essa relação não é espúria. Falamos em relação espúria quando duas variáveis que parecem estar ligadas não têm uma "verdadeira" relação entre si. A variação que ambas manifestam é afectada por uma variável comum a estas duas. Suponhamos queas primeiras cinco crianças eram rapazes e as outras cinco raparigas. Isto poderia querer dizer que o sexo dos sujeitos teria um forte impacto nas duas variáveis. Os rapazes tendem a ver mais programas violentos na televisão e aexibir maior agressividade do que as raparigas. No nosso exemplo, continuaa existir uma relação entre assistir à violência filmada e a agressão quer para ogrupo dos rapazes, quer para o grupo das raparigas; no entanto, essa relação émuito menos marcada do que quando considerávamos o grupo total dascrianças. Isto significa que o sexo da criança afecta cada uma das duas variá\'eis estudadas e é, precisamente, porque os rapazes têm mais tendência a assistir a programas violentos e a comportar-se de forma agressiva que existe,aqui, uma relação espúria. Esse tipo de relação é ilustrado na figura 1.2.

Em terceiro lugar, é necessário demonstrar que a causa precede o efeito,i.e., estabelecer a ordem temporal das duas variáveis que se relacionam. Por outras palavras, devemos demonstrar que o que se passa é que a agressão resulta do facto de se assistir à violência filmada nos programas de televisão e não


Quadro 1.1 Violência na televisão e agressão

Criança

12345

678910

Número de horas deexposição à violência

filmada

Número de horas semanais deexposião à violência filmada

9.509.258.758.258.00

5.505.254.754.504.00

Número de actos agressivosregistados

98776

44533

Número de actosagressivos

Figura 1.2 Uma relação espúria

o inverso. De facto, um efeito nunca pode preceder a causa. Este critério podeparecer óbvio e extremamente fácil de testar mas, como veremos, torna-se umproblema importante quando se trabalha com planos de investigação nãoexperimentais.

Planos experimentais e causalidade

Um plano de investigação define a estrutura básica do estudo. Embora sepossam delinear vários tipos de planos, costuma fazer-se uma distinção fundamental entre planos experimentais e não experimentais, dos quais se destaca o inquérito. Num estudo experimental, é fundamental elucidar a relaçãode causa e efeito. Usa-se o termo validade interna para referir um atributo doestudo que indique se as relações causais delineadas a partir de uma investigação são relativamente inequívocas. Um estudo com elevada validade


:,:-"ernaé aquele que aponta, com clareza, a causa e o efeito. Não é, então, surpre:::1denteque os estudos experimentais sejam especialmente fortes em validade inzna, já que foram criados especificamente para darem origem a dados que indi:::5sem relações de causalidade.

Se quisermos demonstrar que o facto das crianças verem violência na te.2\'isão aumenta a agressão que manifestam, podemos fazer o seguinte estu':'0: juntamos um grupo de dez crianças que podem interagir e brincar duran-2 duas horas, Nesse período de tempo, observadores registam o número de:omportamentos agressivos exibidos por cada criança. Em seguida, as mes::-..ascrianças assistem a um programa de televisão muito violento - poden':'0 designar-se esta condição de exposição à violência filmada por tratamento~'\perimental- após o que voltam a interagir por duas horas. Os comporta::"entos agressivos que manifestam são registados tal como na primeira fase':0 estudo. Na verdade, estamos aqui a seguir uma sequência do tipo:

~:n que OBS1 corresponde à medida inicial do comportamento agressivo (fre~uentemente designada por pré-teste), EXP representa o tratamento experi:nental em que é introduzida a variável independente e OBS2 é a medida sub~quente do comportamento agressivo (frequentemente chamada pós-teste).

Consideremos, agora, que o valor correspondente à OBS2 é 30% maiselevado que o relativo à OBS1, o que significa que a quantidade de comporta:nento agressivo aumentou consideravelmente. Será que podemos dizer que

aumento da agressão foi provocado pela violência a que os sujeitos assisti::'am?De facto, não podemos fazer essa atribuição uma vez que a relação que=-quiaparece, e que supomos ser causal, pode ter outras explicações alterna ti"as: as crianças podem ter-se tornado mais agressivas apenas como conse~uência de estarem juntas acabando por se irritarem mutuamente, ou ficaramde mau humor porque tinham fome ou sede e os experimentadores lhes de:-ampouca comida ou bebida. Pode até acontecer que os diferentes observadores presentes na fase de pré e de pós-teste tenham utilizado critérios dife:-entes de agressão. Sendo assim, e como não podemos excluir estas explica.;ões alternativas, não podemos tirar uma conclusão definitiva sobre a causa

o aumento do número de comportamentos agressivos.Qualquer pessoa que esteja familiarizada com as ciências naturais sabe

:-á que uma experiência bem conduzida deverá ser controlada de forma a mi:1Ímizar os factores de contaminação. Para os controlar (e, assim, poder rejei:ar as explicações alternativas), é necessário trabalhar com um grupo de contro

:0. Este grupo passará exactamente pelas mesmas situações que o grupo emque se introduz a variável independente - conhecido por grupo experimental- mas não recebe o tratamento experimental. No contexto do estudo que es--ávamos a imaginar teríamos, agora, dois grupos de crianças expostas às


Obs1

ExpObs2GrupoExperimental(Agressão

(Assistir a(Agressão

~ registada)violência)registada)

Distribuiçãoaleatória

------.(Agressão

(Não assistir(Agressãoregistada)

a violência)registada)

Não-Exp

Grupo de

Obs3Obs4Controlo

Figura 1.3

Um estudo experimental

mesmas condições mas só um deles assistiria ao filme violento - o grupo experimental - enquanto que o outro não receberia este tratamento experimental- o grupo de controlo. O plano do estudo é ilustrado pela figura 1.3.As situações vividas pelos dois grupos têm que ser tão semelhantes quantopossível de modo a que a única diferença entre as duas condições seja o próprio tratamento experimental.

É, também, necessário assegurar que os membros dos dois grupos sejam tão semelhantes quanto possível. Para o conseguir, pode-se partir de umaamostra de crianças e distribuí-las aleatoriamente pelo grupo experimental epelo grupo de controlo. 5e esta distribuição aleatória não for feita, existirásempre a possibilidade das diferenças encontradas entre os dois grupos serem atribuíveis à diversidade de características pessoais ou a quaisquer outras diferenças entre os grupos. Pode, por exemplo, haver um grupo commais rapazes que raparigas ou pode haver diferenças na composição étnicados dois grupos. Nesse caso, os resultados que obtivermos podem não estar aser determinados pela variável independente e unicamente por ela.

Vamos considerar que a diferença entre o valor da OB51 e o da OB52 é de30%, e que entre o valor da OB53 e o da OB54 é de 28%. 5e assim fosse, concluiríamos que a diferença entre os resultados dos dois grupos é tão pequena queparece que o tratamento experimental (EXP) não afectou o comportamentoagressivo; por outras palavras, a agressão teria aumentado no grupo experimental independentemente da observação do filme. O aborrecimento decorrente de estarem juntas por um período demasiado longo ou a insuficiênciade comida ou bebida ou qualquer outro factor justificaria a diferença entre osvalores da OB51 e os da OB52• Contudo, se a diferença entre os valores da OB53e os da OB54 fosse apenas de 3%, estaríamos em muito melhores condiçõespara afirmarmos que observar o filme violento tinha aumentado o número decomportamentos agressivos, no grupo experimental. Os 27% do aumento docomportamento agressivo no grupo experimental (30%-3%) poderiam seratribuídos ao tratamento experimental. Nas situações reais, as diferenças encontradas entre os resultados dos dois grupos raramente são tão acentuadas

·-\ .~"ÁLISE DE DADOS E O PROCESSO DE INVESTIGAÇÃO 13

______ Exp

Obs1

(1)

Distribuiçãoaleatória

---- Não-ExpObs2

~ObS1

EXP1Obs2

(2)

Distribuição Obs3EXP2Obs4aleatória

~Obss

EXP3Obs6

Obs7

Não-expObse

~

Obs1EXP1+AObs2

(3)

Distribuição Obs3EXP1+BObs4aleatória

~ Obss

EXP2+AObs6

Obs7

EXP2+BObse

1.4

Três tipos de planos experimentais

_~::J.ono nosso exemplo, tendo mais frequentemente uma menor extensão. É,:2.0, necessário utilizar testes estatísticos que permitam determinar a pro

~..0ilidade dessa diferença ocorrer por acaso. Esses testes serão descritos nos-:-:1ulos7 e 9.

Nesta investigação que imaginámos, cumprem-se os três critérios que--=:m.itemestabelecer a causalidade e, por isso, se de facto verificássemos que

~'...;ffientona variável dependente tinha sido bastante maior para o grupo ex.rmental do que para o grupo de controlo, poderíamos afirmar com uma_~-iançaconsiderável que assistir à violência através da televisão tinha cau:'0 mais agressão. Em primeiro lugar, verificámos a existência de uma reIa-

-=0 demonstrando que os sujeitos expostos à violência filmada exibiram~ comportamentos agressivos do que aqueles que não assistiram. Em se

=_""1dolugar, o facto de termos simultaneamente um grupo de controlo e uma.:...5:ribuiçãoaleatória dos sujeitos pelos grupos permite-nos eliminar a hipó

. - da relação ser apenas espúria, uma vez que se houvesse outros factores a:=--.-taros resultados, eles influenciariam de forma idêntica os dois grupos.

-.::: terceiro lugar, a ordem temporal das variáveis é demonstrada pelo au--ê:ltO do comportamento agressivo após a exposição do grupo experimental

·colência na televisão. Como a variável independente é manipulada pelo?€rimentador a sequência temporal é facilmente demonstrada, já que os

-e:tos da manipulação podem ser medidos directamente. Assim, como o es_;:ioapresenta um elevado grau de validade interna, podemos afirmar com

:iliança que "ver violência na televisão" ~ "comportamento agressivo".Existem vários tipos de planos experimentais. Esquematizamo-Ios na

:::;..ua 1.4. No primeiro tipo de plano, não existe pré-teste comparando-se


apenas OgrupO experimental e o grupo de controlo em relação à variável deperdente. No segundo caso, utilizam-se vários grupos o que, aliás, é frequente nz ciências sociais, porque é mais provável que o experimentador esteja interessa .em estudar diferentes níveis ou tipos de variáveis independentes do que em Vêrificar os efeitos da presença ou da ausência de uma só. Assim, no exemplo da têlevisão e da violência filmada, poderíamos considerar quatro grupos que assi5tissem a diversos graus de violência. O terceiro plano experimental, o plano fa:

tarial, é usado quando o investigador pretende conhecer os efeitos sobre a variavel dependente de mais do que uma variável independente. Suponhamos qu:::ele quer saber se a presença de adultos perto da criança reduz a sua tendêno.:para se comportar de forma agressiva. Poderia então fazer quatro combinaç~possíveis resultantes da manipulação de cada uma das duas variáveis indeperdentes. Por exemplo, EXP1+A seria a condição em que se combinava a exposição violência com a proximidade dos adultos e EXPl+B seria a condição de exposiçãà violência e de ausência de adultos perto da criança.

Inquérito/plano correlacional e causalidade

Quando se realiza um inquérito, a natureza do plano de investigação utilizado é muito diferente da do plano experimental. Normalmente, o inquérito er.volve a recolha simultânea de dados sobre diferentes variáveis. O investiga

dor pode estar interessado na relação entre as atitudes políticas e os comportamentos das pessoas por um lado, e um certo número de outras variáveispor outro, como a profissão do sujeito, o seu enquadramento social, a suaraça, sexo, idade e várias atitudes não políticas. Contudo, nenhuma destasvariáveis é manipulada como acontece no estudo experimental. De factmuitas delas não podem mesmo sê-lo, tornando-se necessário utilizar um inquérito para analisar a sua relação com outras variáveis. Não podem05mudar a idade dos sujeitos tornando uns mais velhos, outros mais novos edando a outros idades intermédias para depois analisar o efeito da idade nasatitudes políticas. Além disso, num estudo deste tipo não só não se manipulam variáveis como se recolhem simultaneamente os dados sobre todas elas

o que torna impossível estabelecer uma ordem temporal entre as variáveisque se estão a considerar. Com um plano experimental, pode determinar--uma ordem temporal quando o efeito da manipulação da variável independente sobre a variável dependente é directamente observado. As características dos inquéritos de opinião não estão apenas associadas a investigações queutilizem as técnicas de entrevista ou os questionários. Muitos estudos - queutilizam dados estatísticos sobre a população como os que são conduzid05por empresas ou por instituições estatais - exibem as mesmas característicasuma vez que os valores relativos a um determinado ano referem-se a dad~sobre diferentes variáveis num mesmo momento.

,"> A,....-ALISEDE DADOS E O PROCESSO DE INVESTIGAÇÃO 15

Satisfação no trabalho ••. I Produtividade

1.5 Uma relação entre duas variáveis

Satisfação no trabalho

Antiguidade na empresa

1.6 A relação será espúria?

Produtividade

Frequentemente, este tipo de plano de estudo é designado por plano cor--::onal para salientar a sua tendência para revelar relações entre variáveis e

",:.lalimitação no que diz respeito à possibilidade de estabelecer processos~;;.ais.Precisamente porque neste tipo de investigação as variáveis não são=_LÍpuladas(e muitas vezes não são susceptíveis de o ser) a possibilidade do-estigador determinar a causa e o efeito fica limitada. Vamos supor, por2illplo, que estamos a recolher dados sobre os níveis de satisfação com o

-=:"'alhoe a produtividade dos operários de uma empresa. Podemos verifi.: através das técnicas examinadas no capítulo 8, que existe uma forte asso.=.çàoentre as duas variáveis, o que quer dizer que os trabalhadores que ma~estam níveis elevados de satisfação têm também altos valores de produti'::ade. Podemos, assim, dizer que existe uma associação entre as duas variá

::..5 ver figura 1.5), mas como já vimos, isto é apenas um primeiro passo para:;.,::monstraçãode que existe causalidade. É também necessário provar que a2.ção não é espúria. Poderia acontecer que os trabalhadores mais antigos na

_"-a fossem, precisamente, os mais satisfeitos e os mais produtivos (ver figu-~.6).Os métodos através dos quais se pode verificar a possibilidade da rela=' ser ou não ser espúria são analisados no capítulo 10.

No entanto, o terceiro obstáculo - estabelecer que a potencial causa-e.:ede o potencial efeito - é extremamente difícil de superar. O problema é_e qualquer das duas hipóteses delineadas na figura 1.7 pode ser verdadei-

A.satisfação com o trabalho pode aumentar a produtividade, mas também. reconhece há muito que se pode passar precisamente o contrário (isto é,.:e o facto de se ser competente no trabalho pode aumentar a satisfação).::':110 os dados relativos a cada uma das variáveis foram recolhidos simulta

::ill1ente, não é possível decidir qual das versões de causalidade ilustradas" figura 1.7 corresponderá à realidade. Uma das formas de lidar com este

16

Satisfação no trabalho

Satisfação no trabalho I.

ANÁLISE DE DADOS EM CIÊNCIAS soe

.1 Produtividade I

I Produtividade

Figura 1.7 Duas possibilidades de interpretação causal de uma relação

problema é através de uma reconstrução da ordem causal que se supientre as variáveis. Muitas vezes, este processo de inferência pode sevoco. É o que se passa, por exemplo, quando encontramos uma relaçãraça e o número de anos de escolaridade e inferimos que a segundaafecta a primeira. Contudo, este modelo de conexões causais provávefrágil quando não é óbvio qual das variáveis afecta a outra, como é (ligação entre satisfação e produtividade. Quando surgem estas dificpode ser necessário incluir uma nova etapa de recolha de dados relalmesmos sujeitos de modo a verificar, por exemplo, se o impacto da Sé

com o trabalho na produtividade subsequente é maior que o impact<dutividade na subsequente satisfação com o trabalho. Este tipo de pLsignado por estudo de painel (Cramer, 1988), mas não é muito comum]cias sociais. Neste livro, a discussão sobre investigação não experimetrar-se-á, essencialmente, nos planos correlacionais/inquéritos deem que se recolhem, em simultâneo, dados sobre diferentes variávE

Os métodos relacionados com a possibilidade de fazer inferênsais, tendo como base dados obtidos através de inquéritos, são analÜcapítulo lO, onde se aborda a análise multivariada das relações entveis. O aspecto principal a reter da discussão anterior é que a inferêncnexões causais entre variáveis pode ser feita, com maior facilidade, SEmos perante dados provenientes de investigações em que se utilizouno experimental, do que se dispusermos de resultados recolhidos a ]um plano correlacional.

Exercícios

1 Qual é a principal diferença entre análise de dados quantitativoriada, bivariada e multivariada?

2 Por que razão é essencial haver uma distribuição aleatória dosnos grupos, para se poder falar de um verdadeiro estudo experiI

3 Um investigador entrevista uma amostra de donas de casa parcar se as pessoas que lêem jornais diários de "qualidade" têm


são sintetizadas e pouco aprofundadas. A hipótese foi confirmada: osleitores do primeiro tipo de jornais têm urna probabilidade duas vezesmaior de responder correctamente a urna série de questões destinadas aavaliar os seus conhecimentos de política. O investigador conclui que osdiários de "qualidade" induzem maiores níveis de conhecimentos sobre política do que o segundo tipo de jornais. Avalie este raciocínio.

Capítulo 2ANALISAR DADOS COM O COMPUTADOROs primeiros passos com o SPSS 10 para Windows

_ diferentes métodos estatísticos descritos neste livro serão abordados no con

~.co de um dos mais - ou mesmo, o mais -largamente utilizados e abrangen- programas estatísticos para as ciências sociais: o SPSS. Por essa razão começa-

::.:..'105 por nos debruçar sobre as suas características. SPSS significa Statistical-:.-.:kage for the Social Sciences (Conjunto de Programas Estatísticos para as-'ências Sociais). Este programa pode ser utilizado em computadores de grande:;~rte (maínframes) ou em computadores pessoais, e existem várias versões por,=:-:eos programas que o constituem estão constantemente a ser actualizados.':•.::rualmente, existem dois tipos de sistemas operativos para computadores: o~--:ema tradicional, ainda utilizado em computadores de grande porte (maínfra-

_.os), que requer a escrita de comandos. O sistema mais recente utiliza menus e.3:..xasde diálogo, a partir das quais os comandos podem ser seleccionados com a

:.Ida de um teclado ou de um rato. No entanto, este último sistema permite,2:T\bém, a escrita de comandos.

O sistema que recorre à utilização de janelas foi desenvolvido, primeirac:ente, para os computadores pessoais Macintosh e encontra-se, agora, disponível para o ambiente Windows ou para computadores pessoais3~1-compatíveis, com um processador do tipo 386 ou superior. A versão:-irra Windows 3.1 é conhecida como SPSS versão 6, e já foi alvo de explanação:-:una edição anterior deste livro (Bryman & Cramer, 1997). Após a introdu:lo do Windows 95, uma nova versão do SPSS (versão 7) foi desenvolvida

::-.araeste sistema operativo. A versão mais actual para Windows 95 é a versão- = : Este livro descreve a utilização desta versão, referida abreviadamente por---5. A utilização das versões 8 e 9 já foi descrita numa edição anterior deste_-oro (Bryman e Cramer, 1999).

À data da edição deste livro, encontrava-se já disponível a versão 11do SPSS, Contudo, asrotinas e procedimentos descritos neste livro não sofrem alterações, de um modo geral,da versão 10 para a versão 11 deste software, (N, do RJ

19


A maior vantagem de se utilizar um programa como o SPSS consiste errpoder registar e analisar dados quantitativos de muitas formas diferentes ecom grande rapidez, a partir do momento em que se adquire domínio sobreprograma. Por outras palavras, ele será uma grande ajuda para o leitor livrando-o das intermináveis horas gastas a registar dados e a fazer cálculos e d05inevitáveis erros que, geralmente, se cometem durante essas operações. Vaipermitir-lhe também a aplicação de técnicas estatísticas mais complexas - efrequentemente, mais adequadas - que, de outro modo, não se aventuraria ausar.

Existe, é claro, uma forte desvantagem em usar programas de computador para analisar dados - é que temos que aprender a trabalhar com elesContudo, o tempo gasto nessa aprendizagem será muito menor do que o queseria necessário para analisar os mesmos dados sem a sua ajuda. Acresce queao mesmo tempo que aprende a dominar o programa, adquire uma série deconhecimentos que lhe serão úteis num mundo em que a utilização de computadores se vai tornando cada vez mais generalizada. A possibilidade de fazer o mesmo com maior velocidade e menor esforço torna-se também divertida e frequentemente mais fácil do que se supôs no início.

Quando se procura aprender algo de novo é inevitável fazer erros que sepodem revelar frustrantes e desencorajadores. Inclusivamente pode parecer-nos que fazemos mais erros quando aprendemos a trabalhar com tur.computador do que quando desempenhamos qualquer outra actividade. Issjustifica-se porque para que os programas de computador funcionem é necessário que as instruções sejam dadas de um modo muito preciso e muitas vezesde acordo com uma ordem específica. Esta forma de dar as ordens ao computador pode parecer-nos menos óbvia do que a de concretizarmos outras actividades que realizamos no dia a dia. É importante notar, no entanto, que oserros que eventualmente se façam durante a aprendizagem não danificam deforma alguma o computador ou o programa.

Para conseguir fazer um número mínimo de erros é importante quenesta fase, se sigam exactamente as instruções enunciadas nos exemplos dados neste e nos capítulos subsequentes, respeitando os caracteres e os espaçosutilizados para cada ordem. Embora, por vezes, possam ocorrer falhas, é natural que os erros que vierem a surgir sejam resultado de algum engano doleitor e não de um defeito da máquina ou do programa. O próprio programadir-lhe-á qual o erro cometido se a sua falha tiver sido cometida ao dar as instruções; se, pelo contrário, lhe deu uma instrução correcta mas se enganou aespecificar os dados que queria considerar, o computador não lho indicará.Por outras palavras, o programa questiona a forma da instrução mas não 0_

seus objectivos.

"-=.3.-\R DADOS COM O COMPUTADOR 21

- cheiro de dados

. ::::> poder analisar os seus dados, necessita de criar um ficheiro onde2--ão armazenados. Para ilustrar a maneira de criar esses ficheiros va

---:.un conjunto de dados fictícios que, hipoteticamente, foram recolhi::-.~-:irde um questionário conhecido como Questionário do Trabalho.':2.'::05 derivam de duas fontes: um questionário aos empregados que.::=:na perguntas sobre eles próprios e um questionário aos superviso-- :-~-pondem a questões sobre cada um dos empregados. As perguntas=::' apresentadas no apêndice 2.1, no fim deste capítulo, e a codificação

:.açãoou dos dados recolhidos é ilustrada pelo quadro 2.1. Neste es,:=-,ectode análise era a pessoa, normalmente designada por sujeito pe:::::::ugose por inquirido pelos sociólogos. Apesar de se terem usado;.~=::nplo dados recolhidos através de um questionário, é importante

~ u SPSS e os procedimentos de análise de dados descritos neste livro;:icar-se a outras formas de dados quantitativos, como sejam estatís-~;:;" ou medidas de observação.

o conjunto destes dados é relativamente grande, pode ser mais..-;.~~:e pedir a alguém experiente que os introduza num ficheiro apro

'=-= ::alfor possível, basta criar um simples ficheiro de texto em formato~"~gla ASCII significa American Standard for Information Interchan;::urmato é utilizado, frequentemente, para transferir informação de_ ..::ador para outro. Uma vez realizada esta tarefa, o SPSS pode ler

. Se não conseguir aceder a ninguém que lhe crie um ficheiro des_ 3e o conjunto de de dados for pequeno, pode ser mais fácil introdu?::--amente no SPSS, numa janela chamada Data Editor. Tanto um-:::;,rocomo o outro serão discutidos no final deste capítulo.T:"endoa um simples ficheiro de texto, os dados são introduzidos=~ definido por um grande número de linhas e, na maioria dos com

"t!:: ~.?Or 80 colunas. Cada coluna em linha pode, apenas, comportarou seja, um único dígito. Os dados referentes à mesma variável

::~rroduzidzas na(s) mesma(s) coluna(s) e uma determinada linha::-'-e:las,os dados relativos a um mesmo objecto de interesse ou caso.

~=:'......cnte, os casos são pessoas mas qualquer entidade de interesse :::ia, a escola, o hospital, a região, ou o país - pode constituir um

:eresse.

c mais simples analisar dados que sejam representados só por nú-._c lidar com uma mistura de números e de outros caracteres, como

:etras do alfabeto, todas as variáveis ou respostas ao questioná__.:.ificadas na forma de números. Assim, por exemplo, fez-se cor-

~, :.:~~~ 2da uma das cinco respostas possíveis à primeira questão um al:tr:::::=:==:::.::?<Xievariar entre 1e 5. Se o sujeito tiver respondido: Branco jEu

= :esposta é cotada com um 1. (Embora o uso destas categorias


Quadro 2.1

Os dados do Questionário do Trabalho

01

1116600 29 14O3442422223223O1702

2114600 26 52OO23221234441344803

3117800 40 544441212221231434O04

3116400 461522524122232232334405

2218600 633643441233345541353O06

1116000 543122533211244441134107

1116600 29 2O3323223235422352O08

3117600 35 2522423432333223442

092217600 33 4331242341223222115

102213800 27 6432332132343512244

111114200 29 4224142112543422238

1221 O19 2115241111343313234

13

4118000 553533342223255541435114

1217000 29 123424223143441122O15

3118200 48 833221324423332455116

2115800 32 733422231242222223417

1116600 481433324122245441253118

1213400 18 122424232255511233619

3215000 28 244232343332322344320

3217600 37 132333321254451141321

11 O 431614433323,3 324424526

22

1117400 39 6323233223435321155

231118000 53 51434443223542133513

24

2216000 34 9134151211344321339

25

3217000 4317434533132324413522

26

1114000 21 1442234334232212553

27

1116200 5028323342112555412248

28

1212400 31 912514221244542355O

29

1113600 3112334333223231213546

30

2216400 5221232323333222224431031

1114400 5412353333232434424429932

3212400 2810224151222333212449

33

2216600 502344343423433332345534

2216000 5221543333433233213254

35

1215000 4021113433432232212236

36

2111800 19 1225242122555522323

37

2117600 38 454143533321212444838

2118000 614153241322221222354339

1215600 37 83242323324545134408

402113400 3115225252221555421125

41

2215000 432143222342333331142O42

3113600 23 312535112144451322843

2214000 27 511414111245442121944

1115000 28 7331333533122112439

45

1113200O101141422224255141310

46

3113400 18 142342233243541434347

1220600 482334333223221322443848

1213600 29102354422213422134411

491214600 421022333221255552144O

501118200 5312452514534222224441

511115200 3212324143223334212321

52

1213000 31 213515223254452131853

1119000 551954353543334331343O54

3214800 26 8441334523121224332

55

1217200 532234231344321221355O

56

1115600 513123333324454551411857

11 004823314342222554511326

(continua na página seguinte)

ANALISAR DADOS COM O COMPUTADOR 23

"~'m>~"'~"'"'1>""',,,,,, """-""'<1»

58

1213800 482811415222155552143459 2215800 624012325223254452II5760' 2 I1740057132342323J23343J44I461 1217800422054222333321242333262 1114200212I231423213333I422O63 32 12800 2683I32412112332I4I1464 121360046O12524312255552234565 12 21000592143242223323222451456 4214200308O3324232254441223267 111460029832233232153432I451038 3113800459234343333343322349

3931160005330325322122453422I42'J 1113800 47222342523424354124411

possa ser posto em causa, tal como muitos conceitos das Ciências Sociais, elas::orrespondem a um tipo de informação que, por vezes, é recolhido nos inqué:::os e funcionam, aqui, como exemplo de uma variável nominal; ao longo dolIVro, e para simplificar, passaremos a designar a primeira categoria apenaspor "branco"). Sempre que possível, quando se constrói um questionário, éaconselhável fazer corresponder números às várias respostas previsíveispara que, depois de recolhidos, não seja preciso trabalhar os dados antes deos dar a introduzir a outra pessoa. Antes de fazer cópias do questionário,convém verificar sempre com a pessoa que vai lançar os dados se a cadaresposta foi, de facto, atribuído um número.

É também importante reservar um valor numérico para dados omissos,ou seja, para as situações em que temos que registar uma resposta que é ambígua ou que não é suficientemente clara. Esse número não pode ser igual aqualquer outro que tenha sido designado para codificar dados reais ou nãoomissos. Por exemplo, se se utilizou os valores de 1a 5para representar as respostas à questão sobre o grupo étnico de pertença, é necessário considerar umnúmero diferente para as respostas omissas. Neste questionário todos os dados omissos, excepto os referentes ao absentismo, foram codificados com umOuma vez que esse valor não pode ser confundido com os números escolhidos para corresponder aos dados reais. Como houve alguns empregados quenunca estiveram ausentes do trabalho (i.e., cuja ausência é de Odias), as respostas omissas a esta pergunta não poderiam ser representadas por um "O".Em vez disso, foram codificadas com "99" já que nenhum empregado se ausentou por tanto tempo. Como veremos mais tarde, usar o "O"tem, ainda, avantagem de tornar mais fácil o processamento desses dados quando algumas variáveis similares são combinadas. Por vezes, poderá ser necessário distinguir vários tipos de respostas omissas como, por exemplo, distinguir umaresposta "Não Sei" de uma resposta "Não se Aplica"; neste caso, estas duascategorias de respostas devem corresponder a valores numéricos distintos .

.,<, ~ ~ ~11~~_._1 _>-_:1...••:_ ~ ~~rl~ ~";D;t,...l11'l'1n,í1'l'1prn c]piclentificacão para,


quando for necessário, ser mais fácil ter acesso a um determinado caso. Estenúmero de sujeito deve ser colocado nas primeiras colunas de cada linha.Corno no nosso exemplo ternos apenas setenta sujeitos, basta-nos ocupar ascolunas 1e 2. Se tivéssemos 100 sujeitos já teríamos que utilizar as três primeiras colunas para registar essa informação, urna vez que o número correspondente ao último sujeito seria constituído por três dígitos. Pode deixar-se embora não seja necessário - um espaço em branco entre as colunas onde sãointroduzidos dados correspondentes a diferentes variáveis.

De acordo com este formato, só precisamos de urna linha para registartoda a informação sobre um sujeito; assim, essa linha fica reservada para ele eos dados referentes ao próximo sujeito serão inscritos na linha seguinte. Separa os dados referentes a cada inquirido forem necessárias mais do que urnalinha, as linhas ocupadas com a informação adicional devem ser as subsequentes. Neste caso, pode haver vantagem em dar a cada urna das linhasonde se encontram os dados de um mesmo sujeito, um número de identificação que nos ajude a ler mais rapidamente a informação; chamaríamos, então,à primeira linha número I, à segunda número 2 e assim por diante. Cada linhade dados relativos a um sujeito é chamada, no SPSS, um registo (recard).

A primeira variável do nosso questionário e do nosso ficheiro de dadosrefere-se à origem racial ou étnica dos inquiridos. Corno ela só pode tornar umde seis valores alternativos (se incluirmos a possibilidade de eles não teremrespondido a esta questão), podemos colocar esta informação numa única coluna. Se deixarmos um espaço entre os dois dígitos correspondentes ao número de identificação do sujeito e o dígito que representa o número do seugrupo étnico de pertença, este último dado ficará inscrito na coluna 4. Sendotambém a segunda variável - o sexo - passível de ser codificada apenascom um dígito, o seu valor será registado na coluna 6. Contudo, a terceira variável- rendimento bruto anual- requer que utilizemos cinco colunas parao seu registo, urna vez que dois sujeitos (o 47 e o 65) receberam mais do que10,000 libras. Deste modo, os dados referentes a esta variável irão ocupar ascolunas 8 a 12, inclusive (de notar que, ao introduzir os dados, a vírgula quesinaliza o separador dos milhões e o símbolo que representa as libras não serão considerados).

Urna lista completa das variáveis e das colunas que elas ocupam é fornecida no quadro 2.2. O ficheiro de dados é designado por qtb.dat que é urnaabreviatura de "questionário (q) do trabalho (t) dados (dat) brutos (b)". Cornoo SPSS aceita letras maiúsculas (por exemplo, QTB.DAT) ou minúsculas(qtb.dat) é mais simples usar as minúsculas. As restrições e convenções relativas ao formato destes nomes serão descritas posteriormente neste capítulo.

ANALISAR DADOS COM O COMPUTADOR

dro 2.2 Nomes e localização das variáveis do Questionário de Trabalho no SPSS

25

1e da variável

1ero de identificação)0 racialo

dimento Anual Brutole

guidade na empresaolvimento com a empresaala de satisfação no trabalhoItem 1Item 2Item 3Item 4ala de autonomia no trabalhoItem 1Item 2

Item 3Item 4

ala de rotina no trabalhoItem 1Item 2Item 3Item 4

sença na reunião.ecializaçãodutividade,lidade;entismo

Como ter acesso ao SPSS

Nome no SPSS

idgpracialsexorendimidadeanosenvolv

satis1satis2satis3satis4

autonom1autonom2autonom3autonom4

rotina1rotina2rotina3rotina4reuniao

especialprodutivqualidabsent

Colunas em que se localiza

1-246

8-1214-1517-18

20

22

2426

28

30

32

3436

3840

42

4446

485052

54-55

.Ia usar O SPSS, é necessário dispor de um computador pessoal. Um compu:lor pessoal é constituído por um teclado, através do qual se escrevem as inslções, um rato, que fornece uma forma alternativa de movimentação noran e de selecção de instruções, e um monitor (VDU) ou écran que permitesualizar aquilo que se digitou. Na medida em que a informação apresentaI, a cada momento, no monitor é, necessariamente, limitada, informaçãolicional pode ser obtida através da utilização apropriada do teclado ou doto. Os computadores pessoais dispõem ainda, habitualmente, de uma im'essora que pode ser utilizada para imprimir informação guardada no comltador. A impressora pode, então, servir para imprimir registos daquilo querezo

Os teclados são usados para escrever ou introduzir os dados (input) quepretende analisar, bem como os nomes de variáveis e ficheiros criados.

O sistema Windows permite que os comandos sejam seleccionados a,--rirde palavras ou ícones, apresentados em menús ou janelas mostradas: icran. Estes comandos podem ser, normalmente, seleccionados através da


movimentação de um ponteiro, chamado cursor, cursar este que é operadoatravés de um teclado ou de um rato. O comando é efectivado pressionando atecla ente r ou o botão esquerdo do rato ou ainda, no sistema Windows 95 / 98,seleccionando a opção next. A selecção de opções com o rato é, pois, mais fácildo que através do teclado, na medida em que envolve movimentos simples.Com o teclado, algumas opções são selecciona das através das teclas de cursorapropriadas, enquanto outras são seleccionadas através da utilização de outras teclas. As teclas de cursor encontram-se, habitualmente, localizadas nolado direito do teclado, e possuem setas que indicam a direcção para a qual ocursar é movimentado. Em resumo, o rato pode ser preferível para realizardeterminadas operações, enquanto que o teclado pode ser útil para outras.

Para aceder ao SPSS no ambiente Windows, basta seleccionar o botão .:gfâtf!no fundo do écran, o que abre a primeira coluna (ou menú) apresentado na caixa 2.1. Seleccionar Programs neste menú, o que abre o segundo menú (colunas 2 e 3 da caixa 2.1). Note-se que, na maior parte dos computadores, estesmenús podem conter menos programas do que os mostrados na caixa 2.1.

~onrneService$:

ta PUleVoice

ta s,••'Up

@Jw~O eudo!.f! 10000000e

'i!J I_EI<I'I ••••l~ Microsoft Acce<,

~ M"'o,.f'E><eeI

iIi!ilM",osoftO_

~M",osoftP_

li!! MictosoftW •• d

,ia MS.flOS F10mpl

i~ O_El<pIe"Illi S'~l'Iin

~W_EI<l'I<>"m WIrlTun91

'.~ Wmip32

~ MictosoftOfflCeT""'"

'1!ilI MÍCfooof, FrontPege

·:[ta EQSf •• W_@l NortonAntlVlrus

ta QuickTine

'@l USRELf •• Win<:lowo95ti SPSS for Windows ~

. ,@J Tine Zooe Corwert ••

,ta QuickTine forWlrldow,

ta Net.cape Communical ••

)oiGa D•.••~

Caixa 2.1 A janela de abertura do Windows 95/98


:aixa 2.2 o Editor de Dados (Data Editor) do SPSS

:3eleccionar SPSS for Windows, o que faz surgir um último menú (localizado::-,0 fundo da coluna 3 da caixa 2.1). Seleccionar SPSS 10.0 for Windows, o que=.:'rea janela Data Editor apresentada na caixa 2.2. A caixa de diálogo SPSS

~ Unlilled - SPSS Dala Editor

Cases .

T ranspose .

MergeFiles

tJggregate ...

Ortbogonal Design""'~

Sp6tEüe ...

Se!ect ,Çases .

:!Iieighl Cases .

l!3r

I~-

:aixa 2.3 o menú drop-down da opção Data


Caixa 2.4 A caixa de diálogo Select Cases

for Windows, que abre sobre o Data Editor cada vez que se acede ao SPSS,pode ser eliminada seleccionando Don't show this dialog in the future nofundo desta caixa de diálogo. Em opção, e de forma a introduzir dados directamente nas células do Data Editor, podemos seleccionar Cancel.

No topo da janela do Data Editor encontram-se os nomes de diferentesprocedimentos, tais como File, Edit, ete. Para verificar o conteúdo destes procedimentos basta mover o cursor para uma destas opções e pressionar umavez o botão esquerdo do rato. Um menu drop-down aparecerá, tal como exemplificado na caixa 2.3 para a opção Data. Para ver as restantes opções, bastadeslocar o cursor até elas.

As opções dos menús drop-down seguidas de reticências ( ... ), tal comona opção Select Cases ... , indicam que uma caixa de diálogo aparecerá umavez selecionada a opção. Por exemplo, se seleccionarmos a opção Select Cases ... , surgirá uma caixa de diálogo com o mesmo nome (ver caixa 2.4).Note-se que este procedimento é conseguido uma vez que alguns dados tenham sido introduzidos no Data Editor. Para remover esta caixa de diálogo,carregar no botão Cancel.

A ponta de uma seta apontando para a direita (~) seguida de uma opção,tal como acontece no procedimento Merge Files, indica que, após seleccionado, aparecerá um submenu à direita (tal como mostrado na caixa 2.8). Uma


:-"ão sem qualquer tipo de sinais significa que não aparecerão novos menus. -::>rJ-down para seleccionar.

Ainda imediatamente abaixo destas opções existe uma barra de ferra::-.entas com botões. Estes permitem a realização de procedimentos sem ter~e passar pela selecção de menus e opções. As funções destes botões são::-.ostradas colocando o rato sobre cada um deles (aparecerá uma caixa amare...2. e uma descrição da função no seu interior. Esta descrição surge, também, no:-.:ndo do écran). Assim, por exemplo, o primeiro botão diz respeito à opçãoOpen File. Podem adicionar-se mais botões a esta barra. A opção Help (des=:ra nas pp. 40-41) fornece instruções para realizar este procedimento.

A introdução e edição de dados no Data Editor

-. Íorma mais simples de introduzir dados no SPSS será a de inscreve-los di=-",,--tamentena matriz de colunas e de linhas numeradas da janela do Data~ditor, apresentada na caixa 2.2. Note-se que, neste caso, cada coluna pode,::mter mais do que um dígito. Quando se acede ao SPSS, o curso r encontra-se:-2. célula correspondente à primeira linha da primeira coluna. O contorno::;?stacélula é apresentado a negrito de forma a evidenciar que esta se encon::-aactiva. Para introduzir um valor em qualquer das células será necessário,==n primeiro lugar, torná-las activas movendo as teclas de cursor ou o rato ins::-evendo, de seguida, o valor e, por último, deslocando o cursor para outra:;?:ula em que se deseje repetir esta operação. As colunas são consecutiva::-,ente numeradas uma vez introduzido um valor. Assim, se introduzirmos

.....:::1 número na quinta coluna, as colunas 1 a 5 serão númeradas varOOOOlaarOOOOS.Para modificar um valor já introduzido, deslocar o curso r para a cé

.":":aque contém o valor a modificar e introduzir o novo valor. Se quisermos::::ixaruma célula em branco, basta remover o valor com a tecla Backspace ou;:}elete e mover o cursar para outra célula. Na célula em branco deverá, agora,=gurar um ponto (.), o que denota a presença de um valor omisso.

Nomear variáveis no Data Editor

?:rra dar um nome a uma variável no Data Editor, seleccionamos Variablelew no canto inferior esquerdo da janela. De seguida, e sob a coluna Name,

_scolhemos a linha onde queremos introduzir o nome da variável (por exem:-;0, e tal como apresentado na caixa 2.5, gpracial na primeira linha).


Caixa 2.5 A janela Variable View do Data Editor

Os nomes no SPSS

Os nomes usados para designar ficheiros de dados ou quaisquer variáveisno SPSS têm que estar de acordo com determinadas condições. Não podemser formados por mais do que oito caracteres e é preciso que comecem comuma letra (A-Z). Os restantes caracteres permitidos podem ser letras, números, pontos,@,$ou_.2Nãoépermitido, também, deixar espaços em branco eos nomes não devem terminar com um ponto nem, de preferência, com _.Adicionalmente, algumas palavras, as chamadas palavras-chave (key

words), não podem ser utilizadas porque poderiam ser interpretadas peloSPSS como se fossem comandos. Por exemplo, estão nesta situação palavrascomo add (somar), and (e ), any (qualquer), or (ou) e to (a). Se se utilizar, acidentalmente, uma dessas palavras como nome, o programa avisar-nos-áque se trata de um procedimento inválido. Nenhuma das palavras-chave inclui números, o que significa que um nome de variável que contenha números será sempre reconhecido como tal. É importante lembrar que não se

2 Os nomes de variáveis não podem incluir caracteres portugueses como o "ç"ou o "ã".(N. do T.)


?ode utilizar o mesmo nome para designar variáveis ou ficheiros diferentes._\ssim, não é possível usar a palavra satis para referir as quatro questões re~ativas à satisfação no trabalho, mas deve-se diferenciá-las de alguma forma,?odendo, por exemplo, acrescentar o número da pergunta. Nesse caso, o:1ome das variáveis seria satisl, para a resposta à primeira questão, satis2,?ara a resposta à segunda, e assim por diante. Os nomes do SPSS dados às va:iáveis do questionário de trabalho são apresentados no quadro 2.2.

A definição de outros aspectos das variáveis no Data Editor

Para além do seu nome, podemos definir nove tipos de características das variáveis presentes no Data Editor. Estas características encontram-se listadasnas colunas da matriz de dados e variam entre o tipo de variável (Type) à esquerda e o seu nível de mensuração (Measure) à direita. Na medida em quepode não ser possível ver todas estas características de uma só vez no moniror, podemos modificar a largura de cada coluna seleccionando a linha adjacente ao seu nome e colocando-a na posição desejada, tal como fizemos nacaixa 2.5.

As definições previamente existentes à criação de uma base de dados noSPSS encontram-se apresentadas e são conhecidas como as opções por defeito. Se desejarmos modificar quaisquer destas definições, podemos seleccionar a linha e coluna apropriada e proceder às alterações desejadas. De umaforma geral, e para aquilo que nos interessa neste momento, a definição maisimportante a alterar é a relativa aos dados omissos (Missing values).

A definição de dados omissos (missing values)

No questionário do Trabalho, existem valores omissos para as avriáveisrendim (casos 12 e 21), idade (caso 45), satisl (casos 1 e 2), satis2 (caso 2),produtiv (caso 1) e absent (caso 31). Assim, teremos que especificar os valores omissos apropriados para estas variáveis, e que são O para as primeiras cinco (rendim, idade, satisl, satis 2 e produtiv) e 99 para a sexta variável (absent). Para realizar esta operação, basta seleccionar, no VariableView do Data Editor, a linha apropriada da coluna Missing, seguida da selecção da elipse ou das reticências que aparecem nessa célula. Este últimocomando abre a caixa de diálogo Missing Values apresentada na caixa 2.6.Para as nossas variáveis, escolhemos a opção Discrete Missing Values, introduzimos o valor correspondente na primeira coluna em branco e seleccionamos OK. Se, por exemplo, escrevermos O nesta última caixa, a palavra N one da célula correspondente do Variable View será substituída porO, tal como mostrado na caixa 2.5.


Missing Values IIIilEJ

No missing values

ío:l Qiscrete missing values

I~ ,1

Caixa 2.6 A caixa de diálogo Missing values

Se os dados foram introduzidos por outra pessoa, será convenientedar-lhe a conhecer a forma como planeámos a codificação dos dados omissos.

A definição de casas decimais

onúmero de casas decimais definidas por defeito pelo SPSS é de duas. Para amaior parte das utilizações, é mais fácil codificar as variáveis através de números, tal como fizemos para o Questionário do Trabalho. Como todas os valores destas variáveis assumem números inteiros, poderíamos alterar o número de casas décimais de 2 para Ona coluna DecimaIs da janela VariableView. Para tal, bastaria seleccionar a linha correspondente a esta coluna (umalinha de cada vez) e pressionar o botão com a seta apontando para baixo atésurigir o valor O.

A definição de etiquetas das variáveis e dos seus valores (value labels)

Os nomes das variáveis no SPSSsão restringidos a 8caracteres, oque significa que,a maior parte das vezes, teremos que os alterar, tomando o seu significado menosclaro. Usando esta opção, podemos criar etiquetas (labels) das variáveis que aparecerão no output. Estas etiquetas podem ser bastante extensas, ainda que a maiorparte dos outputs não as apresentem. Por exemplo, a variável do SPSS gpracialpode ser etiquetada grupo racial. Para realizar esta operação, introduzimos, na janela Variable View, aquela etiqueta na primeira linha da coluna Labels. Desta forma, o nome completo da variável será apresentado nas caixas de diálogo em queexista listagem de variáveis (por exemplo, ver caixa 2.12), seguido do seu nomeabreviado entre parentesis. Na presente obra, optámos pela utilização dos nomesabreviados das variáveis do Questionário do Trabalho.

.-\.."lALISAR DADOS COM O COMPUTADOR 33

-. 'alue Labelss;;;;;;7=.

1 = "Branco"2 = "Asiático"3 = "Indiano"4 = "Africano"

A caixa de diálogo Value labels

Podemos, também, etiquetar os valores de uma dada variável, esco_-'endo a linha apropriada na coluna Values (por exemplo, gpracial), seguido':a selecção da elipse, ou das reticências, presentes nessa célula. Este procedi=:ento faz abrir a caixa de diálogo Value Labels apresentada na caixa 2.7. De:-ois, basta escrever o valor (por exemplo, 1) na caixa designada Value:, a eti~:leta (por exemplo, branco) na caixa designada Value Label: e seleccionarAdd. As etiquetas dos valores de uma variável podem conter até 60 caracte:-.:s,ainda que a maior parte dos outputs não os mostrem na íntegra. Para re:::lOveruma determinada etiqueta basta seleccioná-la e escolher Remove.?ara modificar uma etiqueta, teremos que seleccioná-la, introduzir as altera;ões desejadas e escolher Change. Terminadas estas operações, pressiona::lOSOK para fechar a caixa de diálogo Value Labels.

A definição do formato e alinhamento das colunas

-=: pouco provável que desejemos modificar a largura de uma coluna do DataEditor. Contudo, se o quisermos fazer basta seleccionar a linha apropriada na:oluna Columns e pressionar o botão com as setas apontando para cima e?ara baixo até obter o valor desejado. Se pretendermos alterar o alinhamento;:iosdados numa determinada coluna, teremos que seleccionar a linha apro?riada na coluna Align, pressionar a seta apontando para baixo seguida de-..unadas duas opções que aparecem na sequência desta operação.

Definir variáveis consecutivas em simultâneo

Sedesejarmos definir o mesmo formato para variáveis consecutivas (como porexemplo, satis1 a rotina4), teremos que definir a primeira variável ( satis1),


copiar esta linha, seleccionar as linhas subsequentes a modificar (9 a 19), seleccionar Paste ou Paste Variables ... e renome ar as variáveis de acordo com oseu nome original.

Guardar os dados no Data Editor

Quando pretendemos encerrar uma sessão de trabalho no SPSS, ou utilizaroutra base de dados numa mesma sessão, devemos guardar os dados, ouqualquer alteração que tenhamos operado sobre os mesmos, num ficheiro.Podemos, portanto, gravar este ficheiro no disco rígido do computador. Contudo, se outras pessoas utilizam este equipamento podem, inadvertidamente, apagar o nosso trabalho. Mesmo que mais ninguém utilize o computador,é sempre conveniente fazer uma cópia de segurança do nosso ficheiro numaou mais disquetes formatadas. Adisquete é, normalmente, inserida numa drive do computador.

Para que o ficheiro seja identificável, é necessário dar-lhe um nome. Onome de um ficheiro consiste de uma prefixo com o máximo de oito caracteres, seguido de um ponto e de um sufixo (ou extensão) com três caracteres. Onome do ficheiro refere-se, usualmente, ao seu conteúdo (tal como no nosso

'lar

View ºal3LIranslorfl!_~naiYzeJàraphs

•.-1ia'J'iiia-Dsta ...

fulntax. ..

QutpuLSJ;<ripl.

Olher .

'ª Untilled - SPSS Data Editor~.

S~itch Server...

RecenUyUsed Da!a •.

Recently Used files •.

Ej!it

Caixa 2.8 o menu drop-down File


: Save Data As 6 EJ

35

GjJaldar em: IGi D isquele de 3li (A:)

_orne do ficheiro:

Guardalcorno!ipo:!SPSS (".sav)

qúardaít

:eã'Siew~

Cãncelar k.

::aixa 2.9 A caixa de diálogo Save Data As

:.asoqtb refere-se a questionário de trabalho - dados brutos), enquanto que o:-.orneda extensão refere-se ao tipo de ficheiro. Os ficheiros criados no DataEditor possuem, por defeito, uma extensão sav. Assim, o nosso ficheiro de da':'ospode tomar o nome de qtb.sav. Nos sistemas operativos mais recentes, as~·,tensões aparecem representadas sob a forma de símbolos e não de nomes:al como mostrado na caixa 2.10).

Ao longo desta obra, vamos utilizar uma notação particular para des:::-everos passos envolvidos num procedimento do SPSS. A selecção de um-;asso ou de uma opção será indicada por uma seta apontando para a direi--2. ?,o que indica as opções dos menus ou caixas de diálogo a serem esco-_---:idas.Todas as explicações adicionais aos procedimentos serão introdu.::das entre parêntesis rectos. Os passos referentes a uma caixa de diálogo,::1 a uma subcaixa de diálogo (que é uma caixa que só pode ser acedida=?Ós ter sido aberta uma caixa de diálogo principal) começam numa linha- .)\Oa.A totalidade da sequência de procedimentos será identada. Assim, a- ;)tação dos procedimentos para gravar o ficheiro que referimos anterior-::-.ente numa disquete introduzi da na drive A é:

? File [apresentado na caixa 2.8] ? Save As ... [abre a caixa de diálogoSave Data As apresentada na caixa 2.9]escrever a:\qtb.sav na caixa situada ao lado de File name: ~ Save


Nome do ficheiro: [qtb

Ficheiros do !ipo: I5Ps 5 [".sav J

Caixa 2.10 A caixa de diálogo Open File

'~ii'~'~'ll'

Eailte'

Recuperar um ficheiro guardado no Data Editor

Se quisermos recuperar o ficheiro anterior numa fase posterior, vamos utilizar o procedimento seguinte:

~ File ~ Open Data [abre a caixa de diálogo Open File apresentada nacaixa 2.10fescrever a:\qtb.sav na caixa situada ao lado de File name: ~ Open

Abrir um ficheiro de dados em ASCII no Data Editor

Se os dados foram guardados numa disquete sob a forma de um ficheiroASCII chamado qtb.dat, então teremos que seguir o procedimento seguintepara abrir este ficheiro no Data Editor:

~ File ~ Read Text Data ... [abre a caixa de diálogo Open File apresentada na caixa 2.10]

3 Esta instrução está omissa no original. Contudo, como o leitor pode verificar, o procedi-mento "File" seguido de "Open" exige a escolha de uma opção adicional, isto é, a opçãoentre abrir um ficheiro de dados (Data), de sintaxe (Sinta x), de resultados (Output), ete.(N. do R)


Ield Imporl Wrzard - Slep 1 016

Welcome lo lhe texl imporl wizard!

T hís wizerd wili help you read dale f,omyour lexl file endspecify informálion ebout lhe variables.

oes your text file match e predefined formei?

CJYes

37

Textfile:

OI

~~11660029 140342242222322301

2 11460026 5200232212344413443 11780040 5442452122212314344 116400461522122122232232334

~

:aixa 2.11 A caixa de diálogo Tex! Impor! Wizard

Help

escrever a:\qtb.dat na caixa situada ao lado de File name: ~ Open[abre a caixa de diálogo Text Import Wizard - Step 1 of 6apresentada nacaixa 2.11]~ Next> [abre a caixa de diálogo Text Import Wizard - Step 2 of 6]~ Fixed width ~ Next> [abre a caixa de diálogo Text Import WizardStep 3 of 6]~ Next> [abre a caixa de diálogo Text Import Wizard - Step 4 of 6]~ Next> [abre a caixa de diálogo Text Import Wizard - Step 5 of 6]~ Next> [abre a caixa de diálogo Text Import Wizard - Step 6 of 6]~ Finish [fecha a caixa de diálogo Text Import Wizard - Step 6 of 6 eapresenta os dados no Data View]~ Variable View [para definir os dados]

Procedimentos estatísticos

:=;.epoisde termos introduzido os dados no Data Editor, estamos preparados-:~a analisar os dados. O resto do livro procura descrever as diferentes for::-..3.5 de o fazer. Para lhe mostrarmos como isto se faz, vamos pedir ao SPSS


~Descriplives E!

<t> gpracial

<t> sexo

<t> rendim

<t> anos

<iI') envolv

<t> satis1

<t> satis2

/#L~atis3

Save standardged values as variables

Caixa 2.12 A caixa de diálogo Descriptives

Quadro 2.3 O output do comando Descritptives

Descriptive Statistics

)

IDADE 691863 12,32

Valid N

69

que calcule a idade média (mean) da amostra. Podíamos fazê-lo a partir de vários comandos do programa mas vamos usar apenas o que aparece com onome de Descriptives Satistics (estatísticas descritivas). Este fornece-nos,também, acesso a outras estatísticas descritivas da variável. O procedimentopara realizar este comando é:

~ Analyze 7 Descriptive Statistics ~ Descriptives ... [abre a caixa dediálogo Descriptives apresenada na caixa 2.12]~ variável [por exemplo, idade; note-se que as variáveis encontram-selistadas por ordem no Data Editor]~~[botão] [coloca a variável seleccionada na caixa abaixo de Variable[s]:] ~ OK

O output deste comando é mostrado na janela Viewer, tal como apresentadono quadro 2.3. A idade média da amostra é de 39,19. As restantes estatísticasdescritivas, apresentadas por defeito, são o desvio-padrão (ver capítulo 5), aidade mínima, a idade máxima e o número total de casos (N) sobre o qual as

·"-"ALISAR DADOS COM O COMPUTADOR 39

:Bescriplives: Options D

Help

rlSke~ness

r~~um

_Minimum

C. Ma]!imum

riS.&.. mean

.:1ean

rsion

-spla!,! Order

• VariaQle list

êlphabetic

As.Qending means

Qescending means

-.:. xa 2.13 A subcaixa de diálogo Descriptive: Options

- ..adro 2.4 O ou/pu/ Mean Descriptive


IDADE

Valid N

3:atísticas descritivas foram calculadas. Se olharmos para as idades do Qu_:õ:ionáriode Trabalho, podemos confirmar que a idade mínima é, de facto, 18.:'.os(caso número 1), enquanto que a idade máxima é de 63 anos (caso núme

- = 3). Devemos notar, também, que a idade de um dos respondentes (caso nú=-.ero45) é omissa, o que faz com que o número total de dados válidos para_3,avariável seja 69 e não 70.

Como se pode observar no quadro 2.3, o output apresentado na janela'lewer é sempre precedido pelo nome do procedimento estatístico realizado.

,) presente caso, o procedimento que utilizámos foi o Descriptive. Por ra= ~€sde espaço de edição, os outputs que apresentaremos ao longo desta obra-io contêm este tipo de títulos.

ANÁLISE DE DADOS EM CIÊNCIAS SOCIAIS

?re:emiessemos obter, apenas, a média das idades da nossa amostra sem as :-e::.'"i:ch".tesestatísticas, poderíamos proceder do seguinte modo: se

leccionar Options ... na caixa de diálogo Descriptive: Options apresent~ana caixa 2.13. Depois, remover a selecção Std. deviation, Minimum e Maxlmum, ffim'e:'.cio o cursor para as caixas adjacentes a cada uma destas opções.O Oll:pl..; corre:,,-pondente a este procedimento é apresentado no quadro 2.4.

Se ::ecessitarmos de voltar ao Data Editor, podemos optar por um dedois procedimentos: seleccionar qtb-S ... no fundo do écran ou a opção Window segmeia de 1 qtb-SPSS Data Editor do menú drop-down. Se uma operação do SPSS ioi começa da e não concluída (por exemplo, se todas as caixas dediálogo r~-peitantes a uma dada operação não foram encerradas), não serápossí,,:,el percorrer o conteúdo da janela Viewer.

Guardar e imprimir o Output

Para imprimir o conteúdo de uma janela, basta torná-la activa e executar a sequência seguinte:

~ File ~ Print ... ~ OK

Se quisermos guardar os conteúdo de uma janela numa disquete, podemosseguir os passos seguintes:

~ File ~ Save As ~ janela [abre-se a caixa de diálogo Save As]~ identificar a drive e nomear o ficheiro na caixa ao lado de File name:

[por exemplo, a:\qtb.spo] ~ Save

O nome, por defeito, das extensões dos ficheiros de output é spo, ou seja, aabreviatura de ficheiro spss output. Estes ficheiros podem ser editados antesde serem gravados: por exemplo, pode desejar apagar-se determinadas análises ou escrever comentários adicionais às análises efectuadas.

Sistema de ajuda

O SPSS possui um sistema de ajuda que pode ser muito útil para evitar o recurso constante a um livro como o presente, ou ao manual do programa.Como este sistema foi concebido para ser auto-explicativo, o leitor deveráser capaz de o utilizar depois de adquirida alguma experiência. Para obterajuda num tópico como file (ficheiro), vamos realizar a sequênciaseguinte:

..'•...'\lALISAR DADOS COM O COMPUTADOR

'"' . ' .... "

I~~t.I

I

~.::I

= lÇ<! tique robre livro e, em ;egufdà, sobreAbJir, Pode ~ fazer dique""O..C1:> _odor como, polel<et'llpio, índice remissivo', '1\.'

'. Getting Help

"I

• Tliorials

• Dist,;buted Analysis• Data managementI

• 5 tatistical anal}lsis

• Graphical analysis•• Inleractive charts• Output management• Saving FilesI

•• Printing Files

.:::.• Customizing SPSS l~~~:~~:e~~r~~~~~o,~ ..__

'.'l'.

fjIr

Alíi1r1I1'!~~llr~1

2.14 A caixa de diálogo Help Topics Content

41

~ Help ~ Topics [abre a janela Help Topics Contents apresentada nacaixa 2.14]~ Find [abre a janela Help Topics Find apresentada na caixa 2.15] ~ naprimeira caixa escrever o termo a pesquisar, ou o mais próximo possíveldo desejado [por exemplo, file] ~ Select some matching topics to narrow your search [por exemplo, File] ~ Click a topic, then click Display[por exemplo, Open file] ~ Display [abre a caixa de informação Helpapresentada na caixa 2.16]~ ? [para minirnizar (Minimise) ou fechar (Close) o sistema de ajuda]

::ecessitarmos de ajuda enquanto se trabalha numa caixa de diálogo, selec_:.ar a opção Help nessa mesma caixa.

Terminar uma sessão de trabalho no SPSS

-==. terminar uma sessão no SPSS, seleccionar File seguido de Exit. Se tive--sido editados ou analisados dados numa dada sessão, o SPSS envia umasagem de aviso para gravar os conteúdos do data editor ou do output vi eSe não desejarmos gravar a nossa sessão de trabalho, seleccionar No. Se

:.~jar gravar, seleccionar Yes e dar um nome ao ficheiro (no caso de ainda


Lõcaizar I

~ CiQua num tópico e, em seguida. sobre 'tAoollar'

Add CasesAdd Cases 01 Variables: Rename

Add Cases: Dictionary InformationAdd Files Command Synla.Add Variables

AJJding T\,xt

!Jmpor

~u

"B

ftecoristruit.u

"111X /

Caixa 2.15 A caixa de diálogo Help Topics Find

Opens lhe selected data file.

O nl~ one dala file can be open ai a lime. T he current dala

file is aulomaticall~ c10sed when a new dala file is opened.

If ~ou wanllo have mulliple data files open ai lhe same

time, ~ou can starl mulliple sessions.

Click See Also above for addilional information on

opening data files.

Caixa 2.16 A caixa de informação Help

não existir nenhum ficheiro já previamente gravado). O leitor deve notar bemque se sairmos do SPSS sem guardar quaisquer alterações, todo o trabalhorealizado na sessão será perdido.


Exercícios

43

Você pretende recolher informação sobre as preferências religiosas dosseus inquiridos e lembrou-se das seguintes alternativas: agnóstico,ateu, budista, católico, hindu, judeu, muçulmano, protestante e taoísta.Que outra categoria deveria ainda ser incluída?Você pretende gravar esta informação num ficheiro de dados, para ficararmazenada num computador. Como deveria codificá-la?Depois de ter os questionários preenchidos, você repara que num deleso sujeito não respondeu a esta pergunta. Quando introduzir os dados noficheiro de dados, como é que vai referir este facto?Suponha que um outro sujeito assinalou duas categorias em vez de umasó. O que faria nesta situação?Os primeiros dois sujeitos da sua amostra de cinquenta descrevem-secomo agnósticos e os dois seguintes como ateus. As idades destes sujeitos são, respectivamente, 25, 47, 33 e 18. Como escreveria esta informação no ficheiro de dados?Quantas colunas de um ficheiro ASCII são necessárias para codificar asrespostas dos sujeitos à pergunta sobre a sua filiação religiosa, se todasas opções tiverem sido escolhidas pelo menos uma vez?Como é que o SPSS sabe o que representam os diferentes números queconstituem o ficheiro de dados?

Em cada linha, qual o número de colunas disponível para colocar dadosou comandos que existe na maior parte dos computadores?Qual o número máximo de caracteres que podem ser usados para designar uma variável no SPSS?

Apêndice 2.1 Questionário do Trabalho

Questionário aos Empregados

:=.stequestionário foi construído para estudar alguns factos sobre si e sobre oseu trabalho. Por favor, responda com sinceridade. Não existem respostas:ertas ou erradas.

Código

Qual o grupo racial ou étnico a que pertence? (Assinale um)

Coluna

4

__ Branco / europeu--Asiático

12

44 ANÁLISE DE DADOS EM CJ~NCJAS SOCIAIS

--Indiano 3-- Africano 4--outro 5

2. Qual o seu sexo? 6-- Masculino 1-- Feminino 2

3. Actualmente, qual é o seu rendimento anual bruto (antes dos descontose impostos)?-€ 8-12

4. Quantos anos tem?--anos 14-15

5. Há quantos anos trabalha nesta empresa?--anos 17-18

6. Por favor, indique em relação a cada uma das afirmações seguintes se (1)discorda totalmente, (2) discorda, (3) está indeciso, (4) concorda, ou (5)concorda totalmente. Para cada afirmação, assinale só uma resposta.(a) Não deixaria esta empresa mesmo

que pudesse ganhar um pouco mais noutra (1) (2) (3) (4) (5) 20(b) Para mim, o meu emprego é como

umhobby (1)(2)(3)(4)(5) 22(c) A maior parte das vezes tenho

que meforçar a ir para o trabalho (1)(2)(3)(4)(5) 24(d) Quase todos os dias me sinto entusiasmado

como meu trabalho (1)(2)(3)(4)(5) 26(e) O meu trabalho é muito desinteressante (1)(2)(3)(4)(5) 28(f) Tenho autorização para executar

o meu trabalho da forma que meparecer melhor (1)(2)(3)(4)(5) 30

(g) Posso tomar decisões sobre a formade executar o meu trabalho (1)(2)(3)(4)(5) 32

(h) Na secção da empresa onde estou inserido,as pessoas podem executar o seu trabalhoda forma que mais lhes agradar (1) (2) (3) (4) (5) 34

(i) Se eu quiser fazer uma pequena alteraçãona minha forma de trabalhar, não precisodeconsultarosupervisor (1)(2)(3)(4)(5) 36

(j) Faço o meu trabalho praticamenteda mesma maneira todos os dias (1)(2)(3)( 4)(5) 38

(k) Há pouca variedade no meu trabalho (1) (2) (3) (4) (5) 40(1) O meu trabalho é repetitivo (1) (2) (3) (4) (5) 42(m) Há poucos aspectos do meu trabalho

que se alterem de dia para dia (1)(2)(3)(4)(5) 44


Estevepresente na reunião da empresa, este mês?--sim 1--não 2

Questionário ao Supervisor

45

46

::car-lhe-ía grato se pudesse responder às perguntas que se seguem sobre~a das pessoas cujo trabalho supervisiona:_;ome do Empregado.)

Por favor, descreva o nível de especialização que lhe pareceexigir o trabalho que essa pessoa desempenha.Qual das seguintes descrições seria mais adequada?(Assinale uma das alternativas)-- não especializado 1-- semi-especializado 2-- bastante especializado 3-- muito especializadoComo classificaria a sua produtividade? (Assinale uma dasalternativas)-- muito fraca 1--fraca 2--Média 3--Boa 4Muito boa 5Como classificaria a qualidade do trabalho dele(a)?(Assinaleuma das alternativas)-- muito fraca 1--fraca 2--Média 3--boa 4

muito boa 5Nos últimos doze meses, quantos dias ele(a)faltou?--dias

48

4

50

52

54-55

Capítulo 3ANALISAR DADOS COM O COMPUTADOR

Dominar melhor o SPSS 10 para Windows

-_gora que já sabe como se cria um ficheiro de comandos para o SPSS, pode=:05 apresentar-lhe outros procedimentos que lhe podem vir a ser muito.::eis Estes procedimentos permitir-lhe-ão fazer o seguinte: seleccionar casos~-pecíficos (por exemplo, os homens brancos com menos de 40 anos), para fa=er análises separadas; criar novas variáveis (por exemplo, a classificação-'..lffia escala de atitudes ou de personalidade) e novos ficheiros de dados?ara as guardar); criar descrições mais completas das variáveis; e

• Select Cases S

3.1 A caixa de diálogo Select Cases

47

48

1!>gpracial

1!>~1!>rendim

1!>idade

~anos

~envolv

1!>satis'

1!>satis2

<%> satis3

.~ satis4

·,to) autonom'

.:;jp autonom2A~

Caixa 3.2

ANÁLISE DE DADOS EM CIÊNCIAS SOCIAIS

A subcaixa de diálogo Selecl Cases: 11

acrescentar comentários que lhe permitam recordar aquilo que já fez. O SPSSpode também executar operações que não são descritas neste livro, como sejacombinar ficheiros de diversas maneiras. Se precisar de utilizar operaçõesque não sejam mencionadas neste livro, deverá consultar o menu Help (ajuda) ou o Guia do SPSS.

Seleccionar casos

Para seleccionar casos com determinadas características, usa-se o menu Datae a opção Select cases ... , o que abrirá uma caixa de diálogo Select Cases (seleccionar casos) tal como pode ser observado na caixa 3.1. Se quiser descobrir,por exemplo, a idade média dos homens da amostra que respondeu ao Questionário do Trabalho, deverá seleccionar If condition is satisfied (se a condição for satisfeita), seguido de If, o que abrirá a subcaixa de diálogo Select cases: If (seleccionar casos: se) apresentada na caixa 3.2. Na caixa em branco deverá introduzir as condições que deseja que os seus dados satisfaçam para serem seleccionados. De acordo com o nosso exemplo, vamos introduzir a condição sexo = 1, na medida em que, na base de dados, os homens foram codificados com o número 1. De seguida, seleccionamos Continue (continuar) deforma a fechar a subcaixa de diálogo Select cases: If, e OK para fechar a caixade diálogo Select Cases.

Para calcular a média de idades dos homens da amostra, vamos proceder à realização da sequência seguinte de instruções:

~ Analyze ~ Descriptive Statistics ~ Descriptives ... [abre a caixa dediálogo Descritptives apresentada na caixa 2.12]


Quadro 3.1 Idade média dos sujeitos do sexo masculino do Questionário de Trabalho


49

IDADE

Valid N

7 idade 7~ [botão] 7 Options [abre a subcaixa de diálogo Descriptive: Options apresentada na caixa 2.13]Std.deviation [para remover a selecção] 7 Minimum 7 Maximum7 Continue70K

o resultado deste procedimento é apresentado no quadro 3.1.A selecção dos casos mantém-se activa até ser dada uma instrução para

a terminar. Se se pretender levar a cabo análises estatísticas com a totalidadeda amostra ou, somente, com mulheres, deve alterar-se a selecção dos casos.Para realizar análises com a totalidade da amostra deve seleccionar-se All ca

ses (na caixa de diálogo Select Cases); se se desejar, apenas, utilizar sujeitosdo sexo feminino deve introduzir-se a condição sexo = 2 na subcaixa de diálogo Select cases: If.

Operadores relacionais

Um operador relacional como = (igual) compara o valor à sua esquerda (porexemplo, sexo) com o da sua direita (por exemplo, 1). Há seis operadores relacionais que podem ser representados pelos símbolos que se seguem:

= igual a (equal to)não igual a (not equal to)

< menor que (less than)<= menor ou igual a (less than or equal to)> maior que (greater than)> = maior ou igual a (greater than or equal to)

.-\escolha do operador mais indicado para cada caso dependerá do critério deselecção que se considerar. Para seleccionar sujeitos com menos de 40 anos,?oderíamos usar menor que «):

idade < 40


Claro que também se obteria o mesmo resultado se se usasse menor ou igual a« =) 39, uma vez que estamos a lidar com números inteiros:

idade < = 39

Para seleccionar sujeitos não brancos, poderíamos usar não igual (- =) a 1, jáque os brancos foram codificados com o número 1:

gpracial - = 1

Combinar operadores lógicos

Podemos combinar expressões lógicas com os operadores lógicos & (and) e I(or). Podemos, por exemplo, seleccionar os homens brancos com menos de 40anos, usando a seguinte expressão condicional:

gpracial = 1 & sexo = 1 & idade < 40

Para escolher apenas sujeitos indianos ou africanos, precisaríamos utilizar ooperador lógico I (or):

gpracial = 3 I gpracial = 4

Note-se que é necessário repetir toda a relação lógica. Não é possível abreviaro comando do seguinte modo:

gpracial = 3 14

Uma forma alternativa de fazer o mesmo é usar a função lógica any (qualquer) em que se seleccionam valores da variável gpracial iguais a 3 ou 4:

any (gpracial, 3, 4)

A variável e os valores pretendidos colocam-se entre parêntesis.Para seleccionar sujeitos com idades entre 30 e 40, inclusive, podemos

usar a expressão:

age> = 30 & age < = 40

Neste caso, temos que usar o operador lógico & (and). Se usássemos I (or) estaríamos de facto a seleccionar toda a amostra, dado que toda a gente temmais de 30 ou menos de 40 anos de idade.

..••.."ALISAR DADOS COM O COMPUTADOR 51

Uma outra forma de fazer esta escolha de sujeitos entre os 30 e os 40 anos':'e idade inclusive, consiste em utilizar a função lógica range (amplitude), em?e será seleccionado qualquer caso em que a variável idade apresente um

alor dentro desse intervalo de idades:

~ge(age,30,40)

Recodificar os valores das variáveis

Por vezes, é necessário mudar ou recodificar os valores de algumas variáveis._~sim, por exemplo, é recomendável que a-construção das questões que vãoservir para criar uma escala, um índice ou uma medida composta que varie"::eforma a que as pessoas que respondam sim a todas as perguntas ou, pelo-ontrário, não a todas, não tenham um valor extremo. Repare-se, por exem?lo, que construímos duas das quatro questões destinadas à avaliação da sa:isfação no trabalho no Questionário do Trabalho - pergunta 6c ("A maior?arte das vezes, tenho que me forçar a ir para o trabalho") e pergunta 6e ("0~eu trabalho é muito desinteressante") - na direcção oposta das outras duas- pergunta 6b ("Para mim, o meu emprego é como um hobby") e pergunta 6d"Quase todos os dias sinto-me entusiasmado com o meu trabalho"). A res

?osta a estas questões é dada numa escala de cinco pontos que vai desde 1"discorda totalmente") até 5 ("concorda totalmente"). Poderíamos inverter a

escala para os itens 6c e 6e, mas talvez os sujeitos percebessem o que nós pretendíamos. Assim, é mais simples inverter os códigos quando se analisam osdados. Se quisermos que a um resultado mais elevado corresponda umamaior satisfação no trabalho, deveremos recodificar as respostas destes doisitens, de modo a que o 1 seja o 5, o 2 seja o 4, o 4 seja o 2 e o 5 seja o 1. Para o

• Recode inlo D.f1erenl Vaflables Ei

,o ......v__ ;

satis2 u> rsatis2

JI ~ame: ••••• I. ; Change

. rsalls4 Jrl _

I LabeI:iIt =,~I'" NumericVariable·) OutpulVariable:

() gpracial

~sexo

~rendim

'IF>idade

,~ anos

~envolv

~salis1

~salis3

~autonom1

~autonom2

~aulonom3

~aulonom4

Caixa 3.3 A caixa de diálogo Recode into Different Variables


Caixa 3.4 A subcaixa de diálogo Recode inlo Differenl Variables: Old and New Values

fazermos, poderemos usar o comando Recode (recodificar) que se encontrano menu Transform (transformar). Podemos recodificar valores utilizando amesma (Into Same Variables ... ) ou uma variável diferente (Into DifferentVariables ... ).

Se quisermos comparar os valores originais de uma variável com os recodificados, ou se pretendermos guardar os valores originais, podemos utilizar a opção Into Different Variables ... , a qual abre a caixa de diálogo Recodeinto Different Variables (recodificar para uma variável diferente) apresentada na caixa 3.3. Por exemplo, se pretendermos recodificar as variáveis satis2 esatis4 noutras variáveis novas rsatis2 e rsatis4, transferimos satis2 para a caixa intitulada Numeric Variable ~ Output Variable:, escrevendo o nome danova variável (rsatis2) na caixa Name: e seleccionamos Change. Podemos repetir esta mesma operação para a variável satis4, recodificando-a para umanova variável rsatis4.

De seguida, seleccionamos Old and New Variables ... , o que abre a subcaixa de diálogo Recode into Different Variables: Old and New Values apresentada na caixa 3.4. Na caixa intitulada Value (na secção Old Value, onde o vde Value: se encontra sublinhado para o distinguir de Value: da secção NewValue, onde o I de Value se encontra sublinhado), escrevemos o primeiro valor a ser modificado (por exemplo, I), enquanto na caixa intitulada Value (nasecção N ew VaIue) escrevemos o novo valor (por exemplo, 5), seleccionando,no final, Add. Repetimos esta operação consecutivamente para os três restantes valores originais 2, 4 e 5. Para os valores que se mantêm idênticos (porexemplo,3), podemos escrever o valor original na caixa intitulada Value: e seleccionar Copy Old Value[s] e Add. Os valores para cada caso são registados

~-


• S ummarize Cases EJ i

53

(~ rotina1

<%>rotina2

<%>rotina3

<%>rolina4

<%>reuniao

(t;> especial

<%>produtiv

<%>qualid

<:~ absent

<%>,rsalis4

<%>satis

<:'t> ethnigpc

Show ,Çase numbers

~ariables:

<%>salis2

<%>rsatis2

<%>satis4

!irouping Variable(s):

Help

Caixa 3.5 A caixa de diálogo Summarize Cases

da esquerda para a direita e modificados somente uma vez. Neste sentido,quando 1é, inicialmente, recodificado para 5 (1~ 5) não é, subsequentemente, reconvertido para 1 (5 ~ 1).No caso de existirem valores omissos (missingvalues), como no presente exemplo, deve seleccionar-se System- orUser-missing (na secção Old Value) e System-missing (na secção NewValue).

Após estes procedimentos, seleccionamos Continue para fechar a subcaixa de diálogo Recode into Different Variables: Old and New Values e OKpara fechar a caixa de diálogo Recode into Different Variables. Podemos, então, verificar os valores recodificados nas colunas correspondentes (satis2,rsatis2, satis4 e rsatis4) do editor de dados (Data Editor).

Em alternativa, podemos verificar os valores recodificados de rsatis2 e rsatis4 seleccionando Summarize Cases, de forma a obter uma listagem dos valores de satis2, rsatis2, satis4 e rsatis4 para, por exemplo, osprimeiros 10 casos. O resultado deste procedimento é apresentado noquadro 3.2.

~ Analyze ~ Reports ~ Case Summaries ... [abre a caixa de diálogo

Summarize Cases apresent1da na caixa 3.5]


Quadro 3.2 O ou/pu/ do comando Case Summaries mostrando os valores recodificados de rsatis2 ersatis4

Case Summaries"

""TI"?1

33,00 42,002

O33,003

42,00 15,004

51,0042,005

42,00 15,006

51,0033,007

33,00 33,008

24,00 24,009

15,00 42,0010

24,00 33,00Tolal

N 9910 10

a. limiled lo firsll0 cases.

-+ seleccionar variáveis [por exemplo, satis2] -+~ [botão] -+ Limitcasesto first e escrever um número [por exemplo, 10]-+OK

Se não pretendermos guardar os valores originais, podemos seleccionar aopção Into Same Variables ... que abre a caixa de diálogo Recode Into SameVariables apresentada na caixa 3.6. Por exemplo, se quisermos recodificar asvariáveis satis2 e satis4 temos que as seleccionar e colocar na caixa intituladaVariables:,

De seguida, procedemos, como anteriormente, seleccionado Old andNew Values ... , o que abre a caixa de subdiálogo Recode Into Same Variables: Old and New Values apresentada na caixa 3.7. Na caixa intitulada Value: (na secção Old Value), escrevemos o primeiro valor a recodificar (porexemplo, 1), enquanto que na caixa Value (na secção New Value) escrevemoso novo valor (por exemplo, 5) e seleccionamos Add. Repetimos este procedimento consecutivamente para os outros três valores a recodificar (2,4 e 5). Podemos fazer o mesmo para o valor 3. Se existirem valores omissos (missing values), como é o caso deste exemplo, devemos seleccionar System- orUser-missing (na secção Old Value) e System-missing (na secção NewValue).

Em alternativa, podemos seleccionar All other values, escrever o valor3 na caixa intitulada Value: (na secção New Value) e seleccionar Add.

Após este procedimento, seleccionamos Continue para fechar a subcaixa de diálogo Recode into Same Variables: Old and New Values, e OK parafechar a caixa de diálogo Recode into Same Variable.

Para cada variável deverá existir, apenas, um valor novo, ao passo que


<%> gpracial

<$> sexo

<%> rendim

<%> idade

<%> anos

<t- envolv

'$> salis'

<%> satis3.-<%> aulonom'

lf...

.Qldand New Values ...

Caixa 3.6 A caixa de diálogo Recode into Same Variables

Aecode ;nlo Same Variables OId and New Values ~ I

O!sj-> New:

1 ..> 52 ..> 44 ..> 25 ..> 1MISSING ..> SYSMIS

.~.k~(::.~••~••••••••••••••••••••••••••••••••••••••••••J

Caixa 3.7 A subcaixa de diálogo Recode into Same Variables: Old and New Values

podem existir diversos valores originais. Por exemplo, se desejarmos construir uma escala de 3 pontos (concordo, discordo, indeciso), podemos faze-lorecodificando os valores 1 e 2para 1, 3para 2, e 4 e 5para 3. Na medida em quesó podemos introduzir um valor na caixa intitulada Value de cada vez, teremos que realizar esta operação sequencialmente.

Podemos, também, especificar um intervalo de valores originais a recodificar através da selecção da opção Range (que se distingue por possuir o n de Range sublinhado). De seguida, introduz-se o valor original inferior desse intervalona primeira caixa e o superior na segunda. Por exemplo, podemos recodificar ogrupo racial (gpracial) em dois grupos (brancos e não brancos), escrevendo 3 naprimeira caixa e 5 na segunda e recodificando 3 a 5 (3 through 5) em 2.


Se não desejarmos especificar qual o limite inferior do intervalo de valores, podemos faze-lo através do comando Range:. Se não desejarmos especificar o limite superior do intervalo, podemos seleccionar Range:. Por exemplo,podemos utilizar estas opções para categorizar a nossa amostra em sujeitosacima e abaixo dos 40 anos de idade, recodificando lowest through 39 para 1 e40 through highest para 2.

Se a nossa amostra possuísse idades não expressas em números inteiros,isto é, idades compreendidas entre os 39 e os 40 anos (por exemplo, 39,9), estas não seriam recodificadas pelo procedimento anterior. Para evitar este problema, podemos especificar limites superiores e inferiores coincidentes nocomando Range, ou seja, lowest through 40 recodificado para 1 e 40 throughhighest para 2. Neste exemplo, todos os sujeitos com idade inferior a 40 anosseriam recodificados para o valor 1. Como os valores são codificados consecutivamente e de uma vez só, o valor 40 anos não seria recodificado para 2.

Criar uma nova variável

Por vezes podemos pretender criar uma nova variável. Por exemplo, usámos quatro itens para avaliar aspectos ligeiramente diferentes de satisfação no trabalho e, em vez de tratarmos estes itens como medidas separadas, podemos achar preferível e até mais razoável combiná-los num únicoíndice, constituindo assim uma medida composta. Para o fazermos devemos usar o comando Compute no menu Transform, o que abre a caixa dediálogo Compute Variable apresentada na caixa 3.8. Podemos, assim, criar uma variável nova satis que corresponde à somas das variáveis satisl,rsatis2, satis3 e rsatis4. Deste modo, começamos por escrever o nome da

<~ rolinal

~rolina2

(~ rolina3

~rOlina4

<i> reuniao

.,~ especial

~produliv

<19 qualid

~absenl

~rsalis2

.1IIlllII

Caixa 3.8 A caixa de diálogo Compute Variable


Quadro 3.3 O output do comando Case Summaries mostrando os valores de satis1, rsatis2, satis3,rsatis4 e satis

Case SummarieS'

1

O3,00 42,009,002

O23,005,003

42,00 45,0015,004

21,0022,007,005

32,00 45,0014,006

21,0033,009,007

33,00 23,0011,008

24,00 44,0014,009

35,00 22,0012,0010

34,00 33,0013,00Total

N 8910108

a. Limited to firs! 10 cases.

nova variável (satis) na caixa intitulada Target Variable:. Depois, seleccionamos SUM (numexpr, numexpr ... ) na caixa Functions. Esta função será inscrita na caixa Numeric Expression:. Nesta última caixa, substituímos ?,? porsatis1, rsatis2, satis3, rsatis4 e seleccionamos OK. Se o nome dos itens derivasse sempre da palavra satis, bastaria substituir ?,? pelo primeiro item a somar (satis1), seguido do último (satis4).

Se olharmos para os valores de satis no editor de dados (Data Editor),verificamos que o valor do primeiro caso é 9,00 (3+4+2 = 9,00), 5,00 para o segundo (2+3 = 5,00) e 15,00 para o terceiro (4+2+4+5 = 15,00). Para listar os valores desta variável, podemos usar o comando Case Summaries ... O quadro3.3 apresenta os resultados deste procedimento para os primeiros 10 casos.

Dados omissos e cálculo de valores para formar medidas compostas

Como vimos, faltam o valor satis1 para o primeiro sujeito e o valor satis1 e satis2 para o segundo, Em investigação, é muito frequente que haja alguns dados omissos. Os sujeitos podem não responder a algumas questões, podemassinalar duas respostas diferentes à mesma pergunta, o experimentadorpode esquecer-se de registar um dado, etc. É importante determinar cuidadosamente de que forma iremos lidar com esses dados omissos. Se, para umavariável específica, faltarem os dados de muitos sujeitos, isso significa quetalvez haja algum problema - que deve ser ultrapassado - com a formacomo se decidiu avaliá-la. Por exemplo, pode haver uma questão que não seaplique à maior parte das pessoas e, se assim for, é preferível omiti-la. Se, paraum determinado indivíduo, faltam muitas respostas, talvez seja rnélhor


omitir os dados desse sujeito uma vez que pode haver algum problema com aforma como esses dados foram obtidos. Pode acontecer, por exemplo, que osujeito não estivesse a prestar atenção ao que estava a fazer.

Na medida em que os dados disponíveis para construir um índice de rotina no trabalho são omissos para alguns indivíduos, não será apropriado utilizar a função somatório das respostas para calcular este mesmo índice. Defacto, um sujeito que responda "concordo totalmente" (codificação 5) nosquatro itens de rotina no trabalho, terá uma pontuação total de 20, enquanto que um que concorde totalmente com todos os itens mas que, por alguma' razão, não tenha respondido a um deles, terá, apenas, uma pontuaçãode 15. Por outras palavras, quando existem valores omissos nos itens queconstituem um índice, necessitamos de tomá-los em consideração. Nestesentido, um índice mais apropriado para esta situação será calculado combase na média dos valores não omissos, isto é, cinco para o primeiro caso(20/4 = 5) e para o segundo (15/3 = 5) sujeitos. Outra vantagem de utilizara média de uma escala, como a da rotina no trabalho, é a de que o resultadomédio corresponde às respostas dos itens individualmente, ou seja, um resultado de 4,17 indica que um sujeito respondeu, de uma forma geral,"concordo" a estes itens.

Contudo, não será aconselhável calcular o resultado médio de um sujeito com um número significativamente grande de dados omissos. Podemosaplicar, nestes casos, uma regra prática que consiste em verificar se, para umsujeito, faltam 10 por cento ou mais dos dados referentes a um determinadoíndice. Se for esse o caso, então o próprio índice é definido como omisso paraesse sujeito. Se aplicássemos este princípio aos dois primeiros sujeitos do nosso exemplo, não deveríamos calcular o valor da satisfação no trabalho paraestes indivíduos. Pelo contrário, poderíamos calcular os valores de rotina notrabalho e de autonomia.

Para calcular o resultado médio utilizamos a função MEAN (numexpr,numexpr,,,.) que se encontra na caixa de diálogo Compute Variable (secçãoFunctions). Se quisermos especificar um número mínimo de valores nãoomissos para que a média seja calculada, inserimos um ponto final após a função MEAN seguido do número mínimo de valores. Utilizaremos os quatroitens da escala satis para ilustrar este procedimento. Com apenas quatro itensnão podemos utilizar um ponto de cut-of! de exclusão de valores omissos acima dos 10%. Utilizaremos, então, um critério mais leniente de 50%. Se mais de50% (isto é, dois ou mais) das respostas de um sujeito aos itens de satisfaçãono trabalho forem omissas, codificaremos a variável satis como omissa paraeste sujeito. Por outras palavras, o número mínimo de valores não omissospara que a média seja calculada é três. Como anteriormente, a nova variável acriar designa-se satis, mas a expressão numérica a inserir na caixa NumericExpression: é MEAN.3 (satisl, rsatis2, satis3, rsatis4). Se examinarmos osnovos valores de satis no editor de dados (Data Editor), podemos verificar


que, para o primeiro caso, ele é de 3,00 (9,00/3=3,00),. para o segundo caso(na medida em que só existem dois valores válidos) e 3,75 para o terceiro(15,00/4=3,75).

Para recodificarmos os resultados médios omissos da variável satis para ovalor zero, utilizamos o procedimento Recode into Same Variables, seleccionando System-missing na caixa intitulada Old Value e escrevendo zero na caixaintitulada Value: (na secção New Value) e, por fim, seleccionado Add.

Para converter os resultados médios de uma variável em resultados to

tais (que consideram o número de resultados válidos variando, portanto, entre 3 e 4), multiplicamos cada resultado médio pelo número máximo de itens,isto é, 4. Assim, utilizamos o procedimento Compute Variable, no qual anova variável toma, novamente, o nome de satis e a expressão numérica a introduzir é satis*4.

Na medida em que desejamos criar três variáveis novas (satisfação notrabalho, autonomia no trabalho e rotina no trabalho), teremos que repetir oprocedimento Compute Variable para os itens da escala de rotina no trabalhoe de autonomia no trabalho. Ainda que se saiba, de antemão, que não existemvalores omissos neste dois conjuntos de variáveis, podemos ter alguma cautela e assumir que, na realidade, podem existir alguns. Se quisermos determinar a presença ou ausência destes valores, podemos utilizar o procedimentoFrequences (ver capítulo 5).

As medidas compostas de satisfação no trabalho, autonomia no trabalho e rotina no trabalho, que usaremos nos capítulos seguintes, foram criadasatravés da soma dos 4 itens de cada escala, especificando como omisso o resultado total da escala baseado em mais de 10% de valores omissos nos itens

correspondentes. Na medida em que dois dos 70 casos do Questionário deTrabalho possuíam uma ou duas respostas omissas nos itens da escala de satisfação no trabalho, o número de casos para os quais foi possível calcular umresultado global foram 68. As variáveis que contemplam os resultados totaisdas escalas de satisfação no trabalho, autonomia no trabalho e rotina no trabalho intitulam-se satis, autonom e rotina respectivamente. Uma vez mais,para a variável satis, por exemplo, calculámos, em primeiro lugar, a médiados itens da escala através da expressão numérica MEAN.4 (satis1 to satis4),1convertendo-a, em seguida, para um resultado total através da expressão numérica satis*4.

Quando a nossa amostra possui um número elevado de variáveis asquais, por alguma razão, podemos prescindir, pode revelar-se mais conveniente criar um novo ficheiro que contemple, apenas, as variáveis que vamossujeitar a análise. Por exemplo, se quisermos analisar, somente, as variáveis

Na realidade, esta expressão numérica deverá ser MEAN.4 (satisl, rsatis2;-satis3,fsatis4). (N. do R.)


satis, rotina e autonom, e não os itens que as constituem, podemos criar umnovo ficheiro que contém, apenas, estas variáveis (juntamente com outrasque possamos necessitar). Para tal, apagamos os itens individuais seleccionando as variáveis satisl a rotina4 no editor de dados (Data Editor) e seleccionando Edit, seguido de eut. Podemos, então, gravar estes dados numnovo ficheiro, que designaremos por qtt.sav (Questionário (q) do Trabalho (t)/ dados totais (t)) e que utilizaremos em análises subsequentes. Os dados des

te ficheiro são apresentados n~ quadro 3.4.

Exercícios

1 Qual o comando do SPSS que serve para seleccionar, entre os sujeitosque responderam ao Questionário do Trabalho, homens e mulheres deorigem africana?

2 Escreva um comando do SPSS que sirva para seleccionar, entre os sujei-tos que responderam ao Questionário do Trabalho, mulheres asiáticasou das índias ocidentais que tenham 25 anos ou menos.

3 Para seleccionar sujeitos que não tenham respostas omissas em relaçãoà satisfação no trabalho no Questionário aplicado, qual o comando doSPSS que usaria?

4 Qual o procedimento do SPSS para recodificar a variável do Questioná-rio do Trabalho especial na mesma variável, mas de forma a que passeapenas a duas categorias (não especializado / semi-especializado versusbastante / muito especializado).

5 Qual o procedimento do SPSS para recodificar a variável rendim numanova variável gprendim, com três grupos: os que ganham menos que5,000 libras, os que ganham entre 5,000 libras e 10,000 libras e os que ganham mais de ElO,OOO, considerando os valores omissos como zero.

6 Usando o operador aritmético *,exprima a variável semanas em dias-por outras palavras, converta o número de semanas no número de diascorrespondente.

Quadro 3.4 Os dados transformados do Questionário de Trabalho

id

gpracialsexorendimidadeanosenvolvsatisautonomrotinareuniaoespecialprodutivqualidabsent

1

118.300 2914O10923O17

2

217.300 2652O715 13448

3

318.900 405415781434O

4

318.200 46152771023344

5

229.300 633641411181353O

6

118.000 54312961611341

7

118.300 292O119142352O

8

318.800 352514121123442

9

228.800 33431210922115

10

226.900 276413815 12244

11

117.100 2942761622238

12

21O19 21641313234

13

419.000 553531491914351

14

128.500 291298151122O

15

319.100 488314131124551

16

217.900 32731181022234

17

118.300 481431071712531

18

126.700 1812891612336

19

327.500 282415131023443

20

328.800 371311818 11413

21

11 4316112111324526

22

118.700 396310101521155

23

119.000 5351131114133513

24

228.000 3491751421339

25

328.500 431741391313522

26

117.000 21141314912553

27

118.100 5028310619 12248

28

126.200 319167172355O

29

116.800 311231110813546

30

228.200 5221214128244310

31

117.200 54123141015244299

32

326.200 28102671112449

33

228.300 5023414131223455

(continua)

(continuação)

34

228.000 5221513131013254

35

127.500 402111110912236

36

215.900 19127720 22323

37

218.800 38451614624448

38

219.000 61415169723543

39

127.800 37839101813448

40

216.700 3152671921125

41

227.500 432141312121142O

42

316.800 2331751713228

43

227.000 2751651721219

44

117.500 28731414612439

45

116.600 O1016816141310

46

316.700 181413101614343

47

1210.300 48233139824438

48

126.800 2910210711134411

49

127.300 4210211720 2144O

50

119.100 531241916824441

51

117.600 321237101212321

52

126.500 3121691821318

53

119.500 551951515131343O

54

327.400 26841514624332

55

128.600 53223161471355O

56

117.800 5131212131914118

57

117.700 48233881911326

58

126.900 482815720 21434

59

227.900 62401891821157

60

218.700 571321081314414

61

128.900 422051412923332

62

117.100 212188121422O

63

326.400 2683851014114

64

126.800 46O17820 22345

65

1210.500 592141510924514

66

427.100 308O1091712232

67

117.300 298312815214510

68

316.900 459210121322349

69

318.000 533031071622142

70

116.900 4722281116124411

Capítulo 4OS CONCEITOS E A SUA MEDIÇÃO

Os conceitos representam um aspecto fundamental na investigação social. Ashipóteses contêm conceitos que são, afinal, produtos das nossas reflexões sobre o mundo. Os conceitos exprimem elementos comuns do mundo aos quaisé atribuído um nome. Podemos verificar que algumas pessoas não gostam demembros de raças diferentes da sua, atribuindo-lhes, muitas vezes, características negativas. Outros indivíduos apoiam fortemente os outros grupos raciais, talvez vendo-os como elementos que podem enriquecer a cultura acrescentando-lhe novos aspectos. Ainda há outros que são apenas tolerantes, nãodefendendo um ponto de vista radical nem a favor nem contra os outros grupos raciais. Por outras palavras é fácil apercebermo-nos de que as pessoas podem assumir uma grande diversidade de posições face aos grupos raciais. Podemos considerar que, entre estas atitudes, existe algo em comum embora asatitudes em si possam ser antagónicas. O ponto de contacto entre essas orientações diversas é que qualquer delas reflecte uma posição em relação ao "preconceito racial". Quando atribuímos um nome às diferentes orientações queas pessoas podem tomar face aos membros de outras raças estamos a tratá-loscomo um conceito, isto é, como uma entidade que está para além das observações sobre a hostilidade e o apoio raciais que desencadearam a formulação deum nome para essas ob ervações. O conceito de preconceito racial envolve alguma abstracção que o fa transcender as reflexões que conduziram à sua formulação. Assim, o conceito e preconceito racial torna-se algo que os outrospodem utilizar para dar forma as suãS-prôprias reflexões sobre o mundo social. Deste modo, podem formular-se hipóteses que postulem conexões entreo preconceito racial e outros conceitos: por exemplo, pode supor-se que ele serelaciona com a classe social ou com o autoritarismo.

Uma vez formulado o conceito, ele próprio e os conceitos que se supõeestarem com ele relacionados, como a classe social ou o autoritarismo, precisam de ser definidos operacionalmente para que se possa conduzir uma investigação sistemática. Uma definição operacional especifica os procedimentos

63


(operações) que permitem que as diferenças entre indivíduos em relação a esses conceitos possam ser especificadas com precisão. Aquilo a que, de facto,nos estamos a referir é à medição - isto é, ao acto de fazer corresponder números a unidades de análise - sejam elas pessoas, organizações ou nações - aque um conceito se refere. A medição permite que seja possível especificar pequenas diferenças entre unidades. Podemos dizer que alguém que, de umaforma activa, faz afirmações contra membros de outras raças tem um preconceito racial enquanto alguém que defende activamente esses membros de outros grupos raciais tem um posicionamento oposto, mas é difícil especificar asdiferentes posições entre estes dois extremos que as pessoas podem assumir.A medição proporciona a possibilidade de especificar essas diferenças, permitindo determinar as diferenças sistemáticas entre pessoas.

Para providenciar definições operacionais dos conceitos são necessários indicadores que correspondam a esses conceitos. Pode acontecer que umúnico indicador seja suficiente para medir um conceito, mas em muitos casosnão o será. Assim, por exemplo, seria suficiente medir o "fervor religioso"através de um questionário em que se pedisse às pessoas que dissessem quala frequência com que vão à missa? Evidentemente que não, uma vez que ir àmissa é apenas uma das formas com que um indivíduo pode exprimir o seufervor religioso. Essa medida não contempla a devoção pessoal, o comportamento secular coerente com a sua religião, o facto de estar informado sobre asua própria religião ou o grau de adesão aos dogmas centrais dessa religião(Glock e Stark, 1965). Estas reflexões implicam que, em muitos casos, para semedir conceitos seja necessário utilizar vários indicadores; de outra forma,pode argumentar-se que os resultados da nossa investigação não são exactosporque apenas considerámos uma das facetas do conceito em análise.

Se vamos analisar mais do que um indicador do conceito, podemos precisar de testar hipóteses em relação a cada um desses indicadores. Imaginemos uma hipótese em que o conceito estudado é a "dimensão da organização". Podemos medir (i.e., definir operacionalmente) este conceito através donúmero de funcionários da empresa, do seu movimento comercial ou dosseus lucros líquidos. Embora estes três potenciais indicadores est .am, provavelmente, interligados não estabelecerão entre si uma relação per . a (Child,1973). Sendo assim, as hipóteses acerca da dimensão da organização mter que ser testadas usando cada um dos três indicadores. Do mesmo modo,se quisermos medir o "fervor religioso", para além de avaliarmos a frequência com que o sujeito vai à missa, podemos ter que usar indicadores que reflictam todas as facetas desse envolvimento com a religião. Assim, por exemplo, para avaliarmos até que ponto os sujeitos aderem às crenças associadas àsua religião, podemos perguntar aos indivíduos qual o seu grau de acordocom os aspectos centrais da sua fé.

Quando medem conceitos através de questionários, como no caso doenvolvimento com a religião, os investigadores frequentemente preferem

05 CONCEITOS E A SUA MEDIÇÃO 65

--~;das compostas, que se constroem a partir de uma multiplicidade deo Questionário do Trabalho a variável satis é um exemplo de medida

,;::csés de múltiplos itens. Obtém-se esta medida perguntando aos sujeitos::aI é a sua posição face a um certo número de indicadores que, todos juntos,

3c:-:-"empara avaliar o conceito. De um modo semelhante, existem quatro in-~.:adores, quer para rotina, quer para autonom. Poder-se-ia testar uma hipót::se com cada um dos indicadores. Contudo, se usarmos os dados do Ques::;:mário do Trabalho para examinar uma hipótese relacionada com a variávelsatis e a variável autonom - uma vez que cada uma delas tem quatro indica':'ores - precisaríamos de dezasseis testes diferentes. A maneira de analisar~-:as medidas constituídas por múltiplos itens é agregar a resposta de cada:::divíduo a cada questão e tratar a medida total como uma escala em relação=. qual cada unidade de análise tem um valor. No caso das variáveis satis, au:onom e rotina é usada uma escala de Likert, o que constitui uma abordagem~'1abitualquando se trata de criar medidas compostas com base em múltiplos':ens. Na escala de Likert, apresentam-se aos indivíduos um certo número de2...c'1nnaçÕesque parecem relacionar-se com um tema comum; em seguida, eles:""ldicamo seu grau de acordo ou desacordo numa escala de cinco ou de sete?Ontos. A resposta a cada uma das questões que compõem a escala (ou seja, a.:.adaitem) é quantificada, podendo ir, por exemplo, de 1 para Desacordo To:al até 5 para Acordo Total se a escala escolhida for de cinco pontos. Os resul:ados individuais são somados para formar um valor total para cada sujeito ..-\S escalas com múltiplos itens podem ser muito longas; as quatro questõesreferentes a satis foram retiradas de uma escala criada por Brayfield e Rothe1951) que compreende dezoito questões.

Estas escalas de itens múltiplos são populares por várias razões. Em primeiro lugar, é mais provável que se consiga captar a totalidade de um conceito abrangente como a satisfação no trabalho através de vários itens do que apartir de uma única pergunta. Em segundo lugar, estas escalas permitem delinear diferenças mais precisas entre sujeitos. A medida satis compreendequatro questões que podem tomar valores de 1a 5, de forma que os valores totais para cada inquirido podem variar entre 4 e 20. Se só se fizesse uma per

gunta a cada um, a variação seria entre 1e'5 - um intervaloJle~ariação possível muito mais restrito. Em terceiro lugar~--um--sujeífÔ não compreenderbem alguma questão e se essa pergunta for a única a que ele tem que responder, então ele será mal classificado; se se utilizarem várias perguntas, a faltade compreensão de uma delas pode ser compensada pelo facto das outras terem sido bem compreendidas.

É frequente falar das medidas como variáveis, para salientar o facto doconceito abordado poder assumir diferentes valores. Se não houver variaçãonuma medida temos uma constante. É bastante invulgar encontrar conceitoscujas medidas sejam constantes. Em geral, as ciências sociais interessam-sepelas variáveis e pela expressão e análise da variação que essas variáveis


manifestam. Quando se conduz uma análise univariada, pretende conhecer-sea forma como os indivíduos se distribuem em relação a uma só variável.Assim, por exemplo, podemos querer saber quantos casos podem ser encontrados em cada uma das categorias ou níveis da medida em análise, ou podemos querer saber qual é a resposta média. Na análise bivariada, o nosso interesse centra-se nas conexões entre duas variáveis ao mesmo tempo. Dessa forma, por exemplo, podemos pretender saber se as alterações na variável satisestão associadas às alterações de uma outra variável como a autonom, ou seos homens e as mulheres diferem em relação a essa variável. Em qualquer doscasos, o foco de interesse é a variação.

Tipos de variáveis

Um dos mais importantes factores da compreensão das operações estatísticasé a capacidade de avaliar se é possível aplicar determinados testes. Para estaavaliação, é importante a aptidão para reconhecer as diferentes formas que asvariáveis tomam, porque os diversos testes estatísticos só são aplicáveis a certos tipos de variáveis. Este ponto será retomado mais à frente, em capítulosposteriores.

A maioria dos autores de livros de estatística segue uma distinção criada por Stevens (1946) entre níveis de medida ou escalas nominais, ordinais ede intervalo / proporcionais. A primeira, a escala nominal (também designadacategorial), conduz à classificação do indivíduo em relação a um conceito. NoQuestionário do Trabalho, a variável gpracial, que classifica os inquiridosnuma de cinco categorias - branco, asiático, indiano, africano ou outro - éum exemplo de uma variável nominal. Os indivíduos podem ser colocado~numa categoria, mas a medida não permite mais do que isso; enquanto formade medida não há mesmo muito mais a dizer sobre esta escala. Por exemplonão podemos sequer utilizá-la para ordenar as categorias de alguma forma

Esta impossibilidade contrasta com as possibilidades oferecidas pela:'variáveis ordinais que permitem que os indivíduos sejam categorizados ma:'também permitem que essas categorias possam ser ordenadas em termos d"mais" ou "menos" face ao conceito abordado. No Questionário do Trabalhas variáveis especial, produtiv e qualid são ordinais. Se considerarmos a pr:meira das três, i.e., a variável especial, podemos verificar que as pessoas n~se limitam a ser categorizadas numa de quatro categorias - muito especial:zado, bastante especializado, semi-especializado, não especializado - já qé possível dizer que alguém que é classificado como bastante especializado 5

encontra num ponto mais elevado da escala do que alguém que foi considero:do semi-especializado. Não é possível fazer a mesma inferência no caso cvariável gpracial, uma vez que as categorias que essa variável compreen .:não podem ser colocadas em sequência, i.e., não podem ser ordenad~

OS CONCEITOS E A SUA MEDIÇÃO

Quadro 4.1 Tipo de variáveis

Tipos Descrição

Nominal Classificação de objectos (pessoas, firmas, nações, etc)em categorias descontínuas.

Ordinal As categorias associadas à varivel podem ser ordenadas.Os objectos podem ser ordenados do maior para o menor.

Intervalo (a) Nas 'verdadeiras' variáveis de intervalo, as categoriasassociadas à variável podem ser ordenadas, como no casodas variáveis ordinais, mas as distâncias entre categoriassão iguais.

intervalo (b) São variáveis que, em rigor, são ordinais mas que incluemum grande número de categorias como é o caso das medidasde múltiplos items em questionários. Assume-se que estasvariáveis têm propriedades similares às 'verdadeiras' variáveisde intervalo.

Jicotómicas São variáveis que têm apenas duas categorias.

"onte: Lazarsfeld (1958); Hall (1968); Snizek (1972).

67

Exemplo nos dadosdo Quest. doTrabalho

gpracial

Envolvespecialprodutivqualid

Rendimidadeanosabsent

Satisrotinaautonom

Sexoreuniao

A variável é ordinal ~.----

A variável é de intervalo/rácio ••----

9gura 4.1

Mais do que duas categorias?

A"riá"l'dlootóml". Não~ rAs distâncias entre

s'm~r'""'?

A 1. d .s categonas po em

~m~r?A variável é nominal • Não

Decisão da natureza de uma variável


Apesar de podermos ordenar as categorias que constituem a variável especial, continuamos a estar limitados em relação àquilo que podemos dizer sobre elas. Assim, por exemplo, não podemos dizer que a diferença entre sermuito especializado e bastante especializado é igual à que separa a categoriabastante especializado e semi-especializado. Tudo o que nos é possível dizeré que aqueles que forem considerados muito especializados têm uma especialização maior do que aqueles que foram classificados como bastante especializados e que estes, por sua vez, são mais especializados que os semi-especializados e assim por diante. Além disso, embora codifiquemos os semi-especializados com o algarismo 2 e os muito especializados com um 4, não podemos dizer que as pessoas classificadas como muito especializadas tenham odobro da especialização das semi-especializadas. Por outras palavras, deveter-se o cuidado de não atribuir uma qualidade aritmética - que o uso de números parece implicar - aos números usados para a codificação das categorias de uma escala ordinal.

Com as variáveis de intervalo/proporcionais, podemos dizer muito maisem relação às suas qualidades aritméticas. De facto, esta categoria compreende dois tipos de variáveis - as de intervalo e as proporcionais. Ambos os tipos se caracterizam por apresentarem iguais diferenças entre categorias por exemplo, alguém com 20 anos tem mais um ano do que alguém que tem19 e alguém que tem 50 anos é mais velho um ano do que quem tem 49. Emcada caso, a diferença entre as categorias é idêntica - um ano. Uma escala édesignada como escala de intervalo quando os intervalos entre as categoriassão iguais. As medidas proporcionais, além disso, têm um ponto fixo queconstitui o zero. Assim, as variáveis idade, absent e rendim têm pontos nuloslógicos. Esta característica significa que se pode dizer que alguém que tem 40anos tem o dobro da idade de quem tem 20 anos. Do mesmo modo, alguémque faltou seis vezes no ano ao trabalho faltou três vezes mais do que umapessoa que só deu duas faltas. Contudo, é habitual que os autores não estabeleçam a distinção entre escalas de intervalo e escalas proporcionais porque,nas ciências sociais, as verdadeiras variáveis de intervalo são, com frequência, também variáveis proporcionais (é o caso, por exemplo, do rendimento eda idade). Neste livro, o termo variável de intervalo será, por vezes, empreguepara considerar também as variáveis proporcionais.

As variáveis de intervalo/proporcionais correspondem, reconhecidamente, ao mais elevado nível de medida porque permitem muito mais operações do que os outros dois tipos de variáveis, existindo um leque mais vastode testes estatísticos que se lhes aplicam. É importante notar que quando umavariável de intervalo/proporcional, como a idade, é agrupada em categorias- como 20-29, 30-39, 40-49,50-59, etc. - torna-se uma variável ordinal. Defacto, não podemos dizer que a diferença entre alguém que esteja no grupo40-49 e alguém do grupo 50-59 seja a mesma do que a diferença entre alguémna categoria 20-29 e alguém na categoria 30-39, uma vez que não conhecemos

OS CONCEITOS E A SUA MEDIÇÃO 69

pontos em que as pessoas se localizam dentro desses grupos. Por outro.:.ado,estes agrupamentos de indivíduos são, por vezes, úteis para a apresen:ação e fácil assimilação da informação. Deve notar-se ainda que a posiçãodas variáveis dicotómicas face a estas três categorias de variáveis é algo ambígua. Nestas variáveis há, apenas, duas categorias, como, por exemplo, ho::!leme mulher para a variável sexo. Habitualmente, pensa-se numa variáveliicotómica como uma variável nominal, mas por vezes ela pode ser conside:-ada ordinal. Quando, por exemplo, existe uma ordem inerente a essas cate50rias parecem estar presentes as características inerentes a uma variável oriinal, como no caso das categorias "passar" e "falhar".

Rigorosamente falando, medidas como satis, autonom e rotina, que de::\'am de escalas de itens múltiplos, são variáveis ordinais. Assim, por exem?lo, não sabemos se a diferença entre um valor de 20 na escala satis e um valor'::e18é a mesma diferença que existe entre 10 e 8. Isto coloca um problema aos::n'estigadores, uma vez que a impossibilidade de tratar estas variáveis comoscndo de intervalo, implica que determinados métodos de análise como a:orrelação e a regressão (ver Capítulo 8), que são métodos conhecidos e:0rangentes, não possam ser utilizados para avaliar as suas relações por se:-emapenas aplicáveis a variáveis de intervalo. Por outro lado, muitas das me.::idas de itens múltiplos criadas pelos investigadores são tratadas por eles:0mo se fossem variáveis de intervalo, porque essas medidas permitem quex considere um vasto número de categorias. Quando uma variável compre:?:1deapenas um pequeno número de categorias ordenadas, como no caso deenvolv, produtiv, especial e qualid no Questionário do Trabalho, em que:ada uma compreende apenas quatro ou cinco categorias, seria pouco razoáo'el,aos olhos da maior parte dos analistas, tratá-las como se fossem variáveis:'e intervalo. Quando o número de categorias é consideravelmente maior,:omo no caso das variáveis satis, autonom e rotina, em que cada uma pode:;)rresponder a dezasseis categorias de 5 até 20, é mais aceitável tratá-las:;)mo variáveis de intervalo.

Parece haver um certo movimento na direcção deste procedimento mais~ral em relação às escalas de múltiplos itens, tratando-as como se possuísxm as características das variáveis de intervalo. No entanto, muitos puristas::msiderariam esta posição incorrecta. Além disso, não parece haver uma re~a precisa que permita ao analista decidir se a variável é ordinal ou é de in'::,:yalo. Contudo, ao longo deste livro, vamos ao encontro da prática corrente::':rataremos as medidas baseadas em múltiplos itens como é o caso de satis,

tonom e rotina como se fossem escalas de intervalo. Labovitz (1970) ainda:ti mais longe ao sugerir que quase todas as variáveis ordinais podem e de::m ser tratadas como variáveis de intervalo. Argumenta que o erro que

::':xieocorrer é mínimo, especialmente se se tiver em conta as vantagens con-:'::eráveis que o analista pode obter pelo facto de usar técnicas de análise:":>:110a correlação e regressão que são métodos poderosos e relativamente


simples de interpretar. No entanto, esta perspectiva é controversa (Labovitz,1971) e embora muitos investigadores pudessem aceitar tratar variáveiscomo satis como se fossem variáveis de intervalo, já poderiam hesitar no casodas variáveis envolv, especial, produtiv e qualid. O quadro 4.1 sintetiza ascaracterísticas principais dos tipos de escala discutidos nesta secção, usandoexemplos de variáveis do Questionário do Trabalho.

De forma a poder identificar se as variáveis são nominais, ordinais, dicotómicas ou de intervalo / proporcionais, podemos seguir os passos da figura 4.1. Vamos utilizar as variáveis do Questionário de Trabalho para ilustrarcomo é que este diagrama pode ser utilizado. Tome-se, por exemplo, a variável especial. Esta variável possui mais do que duas categorias; as distânciasentre as categorias não são iguais; as categorias podem ser ordenadas; destaforma, a variável é ordinal. Vejamos, agora, a variável rendim. Esta possuimais do que duas categorias; as distâncias entre as categorias são iguais; destaforma a variável é intervalar ou proporcional. O sexo é uma variável que nãopossui mais do que duas categorias; neste sentido ela é dicotómica. Finalmente, vamos analisar a variável gpracial. Esta variável possui mais do que duascategorias; as distâncias entre as categorias não são iguais; as categorias nãopodem ser ordenadas; desta forma, a variável é nominal.

Dimensões dos conceitos

Quando um conceito é muito abrangente, é preciso ter em conta que existe apossibilidade de ele compreender várias dimensões subjacentes que reflictam diferentes aspectos do conceito em causa. Muito frequentemente, é possível especificar essas dimensões a priori, de modo a que as potenciais dimensões sejam identificadas antes da formação de indicadores do conceito. É bastante recomendável que se pense na possibilidade de existirem essas dimensões subjacentes, uma vez que é uma forma de facilitar a reflexão sistemáticasobre a natureza do conceito que vai ser medido.

A abordagem de Lazarsfeld (1958), sobre a medição de conceitos, considerava a procura de dimensões subjacentes como um dos seus aspectos importantes. Afigura 4.2 ilustra os passos que considerou. Inicialmente, o investigador forma uma imagem a partir de um domínio teórico. Essa imagem reflecte um certo número de características comuns, como no exemplo prévioacerca da satisfação no trabalho que denota a tendência das pessoas a ter umleque de experiências específico face às suas funções. Da mesma forma, HaU(1968) desenvolveu a ideia de "profissionalismo" como resultado da sua noção de que pessoas com uma determinada profissão têm uma constelação deatitudes próprias face à natureza do seu trabalho. Em qualquer destes casosneste estádio de imaginação, podemos ver um conceito que se começa a delinear. No estádio seguinte, especificação do conceito, o conceito é elaborado de

I .'01.11 ••• 1" 101I11'nl.

Imaginação

Especificação doSelecção deFormação de• conceito (dimensões)

•indicadores •escalas ouíndices

Escala de

Associação•Estou presente, com •Escala Iprofissionalismo de Jf

profissional como •regularidade, nas reuniõesHall referênciaprofissionais•

Crença no

•Penso que a minha profissão, •Escala 11

serviço ao•mais do que qualquer outra, é

público •essencial para a sociedade

Conceito de

YCrença na

•Os meus colegas da mesma •Escala 111

profissonalismo•auto-regulação •profissão julgam de forma

~

•adequada a competência uns

dos outros

Sensação de

•As pessoas desta profissão Escala IVvocação •sentem um verdadeiro •profissional

•chamamento para a exercer

Autonomia

•No meu trabalho, tomo as •Escala V• minhas próprias decisões•em relação ao que vou

fazer

(cinco dimensões)

(dez indicadores pordimensão - um indicadorcomo exemplo de cada)

Figura 4.2 Conceitos, dimensões e medidas

Fontes: Lazarsfeld (1958); Hall (1968); Snizek (1972).


modo a que se verifique se inclui diferentes aspectos ou dimensões. A pagem por este estádio permite reconhecer a complexidade do conceito. ]propõe cinco dimensões do profissionalismo:

1) O uso da associação profissional como uma referência fundamental.significa que, para o profissional no contexto do seu trabalho, a asseção profissional e os colegas da mesma profissão são uma fonte pripaI de ideias e opiniões.

2) Acreditar que se está a servir o público. De acordo com este aspecto, afissão é vista como indispensável à sociedade.

3) Acreditar que existe uma auto-regulação. Esta noção implica que o trabode um profissional pode e deve ser julgado apenas por outros memlda profissão porque só eles têm a qualificação necessária para eravaliações adequadas.

4) A sensação de ter vocação para essa função. O profissional é alguém qtdedica ao seu trabalho e que, provavelmente, quereria ter essa profimesmo que as recompensas materiais fossem menores.

5) Autonomia. Esta dimensão final indica que o profissional tem que sepaz de tomar decisões e fazer julgamentos sem pressões quer dos c:tes, quer das organizações onde trabalha, quer ainda de pessoas dEtras profissões.

O estádio de especificação do conceito não só é útil para se reflectir e aprder a complexidade dos conceitos, mas também como forma de fazer a pentre a formulação geral do conceito e a sua medição, uma vez que o estalcimento de dimensões reduz o grau de abstracção dos conceitos.

O estádio seguinte é o da selecção de indicadores, em que o investigaprocura indicadores para cada uma das dimensões. No caso de Hall, feseleccionados dez indicadores para cada dimensão. Cada indicador foicretizado numa afirmação que os inquiridos teriam que classificar - ümuito correcta, correcta, pouco correcta ou muito pouco correcta - de aocom a forma como achavam que descrevia o seu comportamento e ossentimentos enquanto membros da sua profissão. Há também uma cate~neutra. A figura 4.2 apresenta as cinco dimensões do "profissionalismlpara cada dimensão, um dos seus dez indicadores. Por fim, Lazarsfeld afique os indicadores têm que ser integrados através da formação de índices ocalas. Este estádio pode concretizar-se de duas maneiras. Pode formar-seescala total que compreenda todos os indicadores de todas as dimensões (que é mais frequente, pode formar-se uma escala separada para cada dirsão. Assim, na investigação de Hall, os indicadores relacionados com cadmensão foram combinados para criar escalas individuais, de forma quesultado final acabou por ser um conjunto de cinco escalas separadas de 11

fissionalismo". Como Hall demonstra, as diferentes profissões exi


diferentes" perfis" em relação a essas dimensões - nalgumas, pode ter-se umresultado elevado nas dimensões 2, 3 e 5, moderado na 1e baixo na 4, enquanto noutras profissões podem aparecer outras combinações.

Para verificar se os indicadores se agrupam da forma proposta pela definição a priari das dimensões, utiliza-se com frequência a análise factarial, umatécnica que será examinada no capítulo 11. A análise factorial permite ao investigador verificar se, por exemplo, os dez indicadores criados para avaliar a"autonomia" estão, de facto, relacionados uns com os outros e não com os indicadores que foram escolhidos para medir outras dimensões. Pode descobrir-se que um indicador que é suposto medir a autonomia pareça estar associado com muitos dos indicadores de "crença no serviço ao público", enquanto um ou dois dos indicadores desta última dimensão apareçam relacionadoscom os que deveriam corresponder à dimensão" crença na auto-regulação", eassim por diante. De facto, quando se fez uma análise factorial em relação àescala de profissionalismo de Hall, verificou-se que a correspondência entreas cinco dimensões e os seus supostos indicadores era fraca (Snizek, 1972;Bryman, 1985). Contudo, o aspecto fundamental a reter sobre este assunto éque a especificação de dimensões para os conceitos é, frequentemente, umpasso importante para a formulação de uma definição operacional.

Em psicologia e em sociologia há algumas medidas que são construídascom pouca (se existe alguma) atenção à questão das dimensões dos conceitos.Assim, por exemplo, a medida da satisfação no trabalho constituída por dezoito itens e desenvolvida por Brayfield e Rothe (1951) - que já foi referida:'tãoespecifica dimensões, embora seja possível aplicar a análise factorial para'::eterminar as suas dimensões de facto. O objectivo fulcral desta secção é sa:':entar que a procura de dimensões pode dar um importante auxílio na com?reensão da natureza dos conceitos, e que quando elas são identificadas- 'Jriari podem constituir um passo significativo no caminho a percorrer des:'e a complexidade e abstracção do conceito até às formas como ele pode ser=:edido.

Validade e fidelidade das medidas

-.ceita-se, em geral, que quando um conceito foi definido operacionalmente,-:::1.dosido proposta uma forma de o medir, o instrumento usado para essa==dição deve ser fiel e válido.

Fidelidade

::delidade de uma medida refere-se à sua consistência. Esta noção, em ge- é utilizada para abarcar dois aspectos diferentes - a fidelidade externa e


interna. A fidelidade externa é a noção que se usa mais vulgarmente e refere-se ao grau de consistência de uma medida ao longo do tempo. Se tivermosuma balança de cozinha que registe pesos diferentes cada vez que se pesa omesmo saco de açúcar temos uma medida do peso que não tem fidelidade externa, já que o valor obtido flutua ao longo do tempo quando não deviam surgir diferenças de acordo com o momento em que o saco é pesado. Da mesmaforma, se aplicarmos um teste de personalidade a um grupo de pessoas, passarmos o mesmo teste às mesmas pessoas pouco tempo depois e houver umafraca correspondência entre os valores obtidos nos dois momentos de aplicação, provavelmente teremos que considerar que o teste não tem fidelidade externa porque as medidas que proporciona parecem flutuar. Quando avaliamos a fidelidade externa desta forma, ou seja, administrando o mesmo testeem duas ocasiões distintas ao mesmo grupo de sujeitos, estamos a avaliar afidelidade teste-reteste. Poderíamos prever que as pessoas que, na primeira aplicação, tivessem valores elevados os teriam, também, na segunda; por outraspalavras, esperamos que a posição relativa do resultado de cada pessoa semantenha relativamente constante. O problema de usar este procedimentoconsiste na impossibilidade de sabermos se os acontecimentos que medeiamas duas aplicações podem justificar, pelo menos em parte, a discrepância entre os dois conjuntos de resultados. Assim, por exemplo, se a satisfação no trabalho de um grupo de pessoas for avaliada agora e voltar a ser testada daí atrês meses pode verificar-se que, de um modo geral, os inquiridos tenhammanifestado níveis mais elevados de satisfação na segunda do que da primeira vez. Pode acontecer que, no período de intervalo entre as duas avaliaçõeseles tenham recebido um aumento ou que tenha havido uma alteração na organização do trabalho ou até que, no momento da primeira avaliação, tiveshavido algum motivo de descontentamento que entretanto teria sido resolvido. Além disso, se o teste e o reteste forem muito próximos no tempo, os sujeitos podem reproduzir as respostas que tinham dado antes havendo, assimuma consistência entre os dois testes que é, apenas, aparente. Contudo, a fidelidade teste-reteste é um dos principais meios de avaliar a fidelidade externa

A fidelidade interna é particularmente importante em relação às escal~de múltiplos itens. Levanta a questão de se saber se cada escala está a med1:uma única ideia e se os itens que constituem a escala têm consistência intelTh:.Existem vários procedimentos para avaliar a fidelidade interna e dois delepodem ser conduzidos a partir do SPSS. Em primeiro lugar, a avaliação da Í:delidade através do coeficiente de bi-partição (split-halj reliability) é feita dh-:dindo os itens de uma escala em dois grupos (ao acaso ou com base nos ite:-.pares ou ímpares) e examinando a relação entre os valores dos sujeitos e~cada uma das metades. Assim, a medida de satisfação no trabalho de Bra:.field e Rothe que contém dezoito itens seria dividida em dois grupos de ne seria calculada a relação entre os resultados dos sujeitos a cada uma .duas metades. Chega-se, assim, a um coeficiente que pode ser interpreta -


da mesma maneira que o coeficiente de correlação de Pearson (ver o Capítulo8), na medida em que varia de O a 1; quanto mais perto estiver de 1 - idealmente, sendo maior ou igual a 0.8 - maior fidelidade interna tem a escala.Em segundo lugar, o vulgarmente usado alfa de Cronbach (alpha) traduz, essencialmente, a média de todos os coeficientes de bi-partição possíveis. Maisuma vez, a regra básica é que se deve situar entre 0.8 e 1. Esta regra é, também,usada em relação à fidelidade teste-reteste. Quando um conceito e a sua medida compreendem várias dimensões, é habitual calcularem-se os coeficientes de fidelidade para cada uma das dimensões subjacentes em vez de calcular um só para a medida no seu todo. De facto, se uma análise factorial confirma que existe um certo número de dimensões, a fidelidade interna da escala,se for considerada na totalidade, terá provavelmente um valor baixo, já queos coeficientes de bi-partição serão certamente reduzidos.

Os valores alfa ou o coeficiente de bi-partição podem ser, facilmente,calculados com o SPSS. É necessário assegurarmo-nos de que todos os itensestão codificados na mesma direcção. Assim, no caso da variável satis é preciso verificar se os itens que estão na forma inversa (como o satis2 e o satis4) fo~amrecodificados (utilizando Recode) de modo a que o acordo com a frase iniique falta de satisfação no trabalho. Estes dois itens já foram recodificados?ara rsatis2 e rsatis4, e serão utilizados no exemplo seguinte. Para calcular o:este de fidelidade dos 4 itens que constituem o valor satis, teríamos que reali2ar este procedimento:

~ Analyze ~ Scale ~ Reliability Analysis ... [abre a caixa de diálogoReliability Analysis apresentada na caixa 4.1]~ Seleccionar satisl, rsatis2, satis3 e rsatis4 enquanto se pressiona a tecla ctrl [as quatro variáveis devem ficar selecciona das no écran] ~ ~ [botão] [coloca satisl, rsatis2, satis3 e rsatis4 na caixa Items:] ~ Model ~Alpha no menu drop-down.~OK

:.::desejarmos determinar a fidelidade através de um coeficiente de bi-parti~o (Spli-half), devemos seleccionar esta opção no menu Model, em vez de~..ipha.O resultado do cálculo do coeficiente alpha (quadro 4.2) sugere que a':.riável satis é internamente fiável, na medida em que o coeficiente determiado é de 0,76. Este valor está pouco abaixo do critério de 0,8, e pode ser consi

-~ado como garante da fidelidade desta variável. Se uma escala çlemonstrar-:.a fidelidade interna reduzida, a estratégia a adoptar para esta eventuali-- - .:iepode passar por retirar um ou mais itens que constituem esta escala e=2.....'lalisara sua fidelidade. Para tal, podemos seleccionar a opção ~ Sta

.(s..., na caixa de diálogo Reliability Analysis, o que abre a subcaixa- - iiálogo Reliability Analysis: Statistics apresentada na caixa 4.2. Depo

selecciona-se ~ Scale if item deleted. Os resultados mostram o nível de


: Reliability Analysis EJ

o@> especial

o@> produtiv

o@> qualid

o@> absent

'~satis

o@> ethnigpc

Items:

- o@> sa;is1

o@> satis3

o@> rsatis2•••

Caixa 4.1 A caixa de diálogo Reliability Analysis

Quadro 4.2 O ouput da análise de fidelidade da variável satis (Questionário do Trabalho)

R E L I A B I L I T Y A N A L Y S I S - S C A L E (A L P H A)Reliability CaefficientsN af Cases; 68.0 N af Items ; 4Alpha; .7618

fidelidade alpha à medida que se vão retirando itens. Como se pode verificar,todo este procedimento revela-se desnecessário para a variável satis.

Para além da fidelidade interna e externa, é importante mencionar outros dois aspectos ligados à fidelidade. Em primeiro lugar, quando o materialestá a ser codificado por temas deve testar-se a fidelidade do esquema de codificação. Isto pode ocorrer quando o investigador, com o intuito de encontrar temas gerais subjacentes às respostas, necessita de codificar as respostasdas pessoas às perguntas de uma entrevista que não chegaram a ser pré-codificadas, ou quando conduz uma análise de conteúdo de anúncios de jornaispara estudar a forma como os tópicos das notícias tendem a ser abordados.Em qualquer dos casos, deve utilizar-se mais do que um codificador e calcular-se afidelidade inter-juizes, para garantir que o esquema de codificação estáa ser interpretado da mesma forma pelas duas pessoas. Este procedimentopermite avaliar o grau de acordo dos codificadores face à forma como codificam os temas que derivam do material analisado. Em segundo lugar, tambémdeve ser calculada afidelidade inter-observaçães quando o investigador necessita de classificar comportamentos. Se, por exemplo, se está a observar o comportamento agressivo, deve apresentar-se uma estimativa da fidelidade inter-observações para assegurar que os critérios de agressividade estão a serinterpretados de um modo consistente. Para medir a fidelidade

os CONCEITOS E A SUA MEDIÇÃO 77

Beiabilily Analysis: Slalislics I&I

Continue

Etesl

_~ Friedman chi·s,guare

Cochran chi'square

Inter·lle

CorreJations

O. Covarianc~s

HOlellin,g's T-square

In!raclass correlalion coefficienl

escriplives for

!lem

.s.cale

~~i~O!.(.(í~i.n.:.ª.~i~.í~

-Slnmaries

Means

yariances

CQvariances

Co!relations

:.aixa 4.2 A subcaixa de diálogo Reliability Analysis: Statistics

_'1ter-observações e inter-codificadores, podem utilizar-se métodos de análi5<? bivariada (ver Capítulo 8). Pode encontrar-se uma discussão de alguns mé:odos concebidos especificamente para a avaliação destes dois tipos de fideliiade na obra de Cramer (1998).

Validade

_-\validade refere-se à avaliação do grau em que uma determinada medida:::1ede,de facto, o que se pretende medir. Como é que podemos saber que uma:::1edidade satisfação no trabalho mede mesmo a satisfação no trabalho e nãoJutro conceito qualquer? No mínimo, um investigador que crie uma nova:::1edida deve garantir que ela tenha validade facíal - ou seja, que aparente:::1entea medida reflicta o conteúdo do conceito em questão.

O investigador pode tentar calcular, ainda, a validade concorrente do con.:eito. Neste caso, o investigador utiliza um critério que seja reconhecido.:omo relevante para o conceito em causa e que diferencie as pessoas. Assim,?or exemplo, há pessoas que faltam mais frequentemente ao emprego do queJutras (não por doença mas por outras razões). Para estabelecer a validade.:oncorrente da nossa medida de satisfação no trabalho, podemos ver em que~au as pessoas que estão satisfeitas com o seu trabalho faltam menos ao


trabalho do que as que não estão satisfeitas. Se não se encontrar correspondência, por exemplo, se os que não estão satisfeitos faltarem com a mesma frequência que os que estão satisfeitos, podemos ser tentados a interrogarmo-nos sobre se a nossa medida estava realmente a avaliar a satisfação no trabalho. Outra forma de se avaliar a validade da nova medida é calcular a vali

dade preditiva, caso em que o investigador usa um critério relacionado com ofuturo e não com o presente como acontecia na validade concorrente. No casoda validade preditiva, o investigador examinaria a validade da satisfação notrabalho com base no critério de níveis futuros de absentismo.

Alguns autores defendem que o investigador também deve calcular avalidade de constructo de uma medida (Cronbach e Meehl, 1955). Aqui, o investigador é encorajado a deduzir hipóteses que decorram de uma teoria relevante para o conceito. A partir das suas noções sobre o impacto da tecnologiana experiência do trabalho (por exemplo, Blauner, 1964), o investigador podeantecipar que as pessoas que estão satisfeitas com os seus trabalhos são menos frequentemente aquelas que têm funções rotineiras; e que aquelas quenão estão satisfeitos são, com mais frequência, os que têm trabalhos rotineiros. De acordo com isso, podemos investigar essa dedução teórica examinando a relação entre satisfação no trabalho e rotina da função. Por outro lado, énecessário ter algum cuidado quando se interpreta a ausência de uma relaçãoentre a satisfação no trabalho e a rotina da função. Em primeiro lugar, a teoria,ou a dedução que é feita a partir dela, pode não ser correcta. Em segundo lugar, a medida criada para a rotina da função pode ser uma forma inválida deavaliar o conceito.

Todas as abordagens da investigação sobre a validade que foram discutidas até agora são procedimentos para avaliar aquilo que Campbell e Fiske(1959) designam como validade convergente. Em qualquer dos casos, o investigador preocupa-se em demonstrar que a medida se harmoniza com outra medida. Campbell e Fiske argumentam que este processo, em geral, não vai suficientemente longe, uma vez que o investigador deveria usar diferentes medidas do mesmo conceito para ver o grau em que existe convergência. Assim,por exemplo, além de usar uma medida baseada num questionário sobre a rotina da função, o investigador poderia utilizar observadores que classificassem as características das funções para distinguir entre os graus de rotina dasfunções existentes numa empresa (por exemplo, Jenkins et aI., 1975). A validade convergente poderia levar à demonstração de que existe uma convergência entre as duas medidas, embora seja difícil interpretar uma falta de convergência já que qualquer das duas medidas pode ser inadequada. Muitos exemplos de validação convergente, que surgiram depois do artigo de Campbell eFiske (1959), não envolveram, de facto, métodos diferentes mas utilizaram diferentes questionários (Bryman, 1989). Assim, por exemplo, podem usar-seduas medidas de rotina da função baseadas em questionários em lugar de seutilizarem dois métodos diferentes. Campbell e Fiske foram ainda mais longe


quando sugeriram que se deve ainda demonstrar que uma medida tem vali

iade discriminante. A investigação sobre a validade discriminante implica que:ambém se deve procurar baixos níveis de correspondência entre uma medidae outras medidas que se supõe corresponderem a outros conceitos. Embora avalidade discriminante seja uma importante faceta da validade de uma medida, é provavelmente mais importante que o estudante se centre nos diferentesaspectos, já discutidos, da validade convergente. Para investigar os vários ti?OS de validade convergente e de validade discriminante, podem utilizar-seas técnicas abordadas no Capítulo 8 que se centram nas relações entre paresde variáveis.

Exercícios

1 Qual das afirmações está correcta? Uma escala de Likert é:a) um teste de validade;b) um procedimento que dá origem a medidas de itens múltiplos;c) um teste de fidelidade;d) um método para identificar as dimensões dos conceitosPor que razão é útil considerar a hipótese de que um conceito compreende várias dimensões quando se pretende operacionalizá-Io?

3 Considere as seguintes questões utilizadas num questionário acerca dehábitos de consumo de bebidas alcoólicas. Decida se cada uma das va

riáveis é nominat ordinat intervalar / proporcional ou dicotómica:a) Alguma vez consumiu bebidas alcoólicas?

Sim__Não __ (siga para a pergunta 5)

b) Se respondeu sim na questão anterior, qual das seguintes bebidasalcoólicas consumiu mais frequentemente (escolha uma só categoria)?Cerveja __Bebidas Brancas __Vinho __Licores __Outras __

c) Com que frequência consome bebidas alcoólicas? Assinalea resposta que mais se aproxima do seu comportamento habitualDiariamente __A maior parte dos dias __Uma ou duas vezes por semana __Uma ou duas vezes por mês __Algumas vezes por ano __Uma ou duas vezes por ano __

d) Quantas unidades de álcool consumiu na passada semana?

80 ANÁLISE DE DADOS EM CIÊNCIAS 50

(Assumimos que o entrevistador pode ajudar os respond~a traduzir aquilo que consomem em unidades de álcool)Número de unidades __

4 No Questionário do Trabalho, a variável absent é nominal, O]

intervalo ou dicotómica?5 A fidelidade teste-reteste é um teste da fidelidade interna ou6 Que procedimento do SPSSse deveria usar para que o output

sente o alfa de Cronbach para autonom?7 O que fez para a pergunta 6 seria um teste da fidelidade ÍJ

externa?8 Um investigador cria uma nova medida de múltiplos itens pa

servadorismo político". Administra a medida a uma amostraduos e pergunta-lhes, também, como votaram nas últimas elrais, para validar a sua medida. O investigador relaciona asdos sujeitos com o seu voto. O que está ele a avaliar? a) a valicorrente da medida, b) a validade preditiva da medida ou c) é

discriminante da medida?

Capítulo 5RESUMIR OS DADOS

Quando os investigadores são confrontados com um conjunto de dados refe~entes a cada uma das múltiplas variáveis usadas, necessitam de reduzir a in:vrmação que recolheram. Se pudermos reduzir grandes quantidades de da.:10S, torna-se possível detectar padrões e tendências que, de outra forma, fica:-iamocultos. É bastante simples determinar o padrão de uma variável quanio temos, por exemplo, dados sobre dez casos. Contudo, se formos além dos--inte casos começa a tornar-se difícil discriminar esses padrões, a menos que- 5 dados sejam sintetizados de alguma forma. Além disso, quando queremos~presentar os dados que recolhemos a outras pessoas, temos que ter consciên=a de que seria extremamente difícil aos nossos leitores reter a informação re:e"ante. Este capítulo centra-se nos vários procedimentos que se podem utili::ar para resumir uma variável.

Distribuições de frequência

~aginemos que dispomos de dados relativos a cinquenta e seis sujeitos que:"'i.dicama que faculdade, de uma determinada Universidade, cada um deles"?-ertence(ver quadro 5.1). A Universidade tem apenas quatro faculdades:'::"lgenharia, Ciências Puras, Arte e Ciências Sociais. Apesar de cinquenta e~is ser um pequeno número de sujeitos, não é muito fácil ver como esses es

-..:.dantesse distribuem pelas diferentes faculdades. Um p~il~~iro passo que"?0de ser considerado quando se reduzem dados referentes a uma variável:".)minal como esta (uma vez que cada faculdade corresponde a uma catego:""2 discreta) é a construção de uma distribuição de frequências ou de uma tabela

--.=.'Tequências. Uma distribuição de frequências mostra-nos quantos casos ca:..:m em cada categoria. Por" frequência" entende-se simplesmente o número'::2 \'ezes que algo ocorre. É habitual precisarmos também de calcular percen:=.~ensque nos indicam qual a proporção de casos que correspondem a cada

81

82 ANÁLISE DE DADOS EM CIÊNCIAS -

Quadro 5.1

Faculdades a que pertencem cinquenta e seis alunos (Dados Fictícios)

Caso nO

FaculdadeCaso nOFa~u.~_

1

Arte29Eng2

CP30CS3

CS31CP4

Eng32CS5

Eng33Arte6

CS34CS7

Arte35Eng8

CP36CP9

Eng37Eng10

CS38CS11

CS39Arte12

CP40CS13

Eng41Eng14

Arte42CP15

Eng43CS16

CP44CP17

CS45Eng18

Eng46Arte19

CP47Eng20

Arte48CP21

Eng49Eng22

Eng50Arte23

CP51CS24

Arte52Eng25

Eng53Arte26

CP54Eng27

Arte55CS28

CP56CS

Nota: (Eng) Engenharia; (CP) Ciências Puras; (CS) Ciências Sociais.

uma das frequências, i.e, afrequência relativa. O quadro 5.2 mostra-nos':._número 11 é a frequência com que aparece a categoria Arte, o que sig:: que há onze alunos da amostra que estudam Arte e que esse número cponde a 20 por cento do número total de alunos.

O procedimento que permite criar uma distribuição de frequências :o SPSS será explicado posteriormente, mas entretanto deve ficar compre:;do que para construir uma tabela de frequências tem apenas que se cor,~número de casos que cabem dentro de cada categoria. Habitualmente, é .:também a percentagem que corresponde a cada categoria. Isto fornece-nc-;:formação sobre a frequência relativa da ocorrência de cada categoria nwr_=riável, o que nos dá uma boa indicação da preponderância relativa COIr.

uma categoria surge numa amostra. O quadro 5.2 mostra-nos a distribde frequências dos dados apresentados em 5.1. As percentagens foram Idondadas, por defeito ou por excesso, até ao número inteiro correspon .(usando a regra de que 0.5 ou mais corresponde ao número inteiro segui:que para valores abaixo de 0.5 o número é arredondado por defeito :

RESUMIR OS DADOS

Quadro 5.2 Tabela de frequência referente aos dados apresenados no quadro 5.1

nPercentagem

Engenharia

1832Ciências Puras

1323Arte

1120Ciências Sociais

1425-otal

56100

aJ

18

16

14

12

n 10

8

6

4

2

o Engenharia Ciências Puras Artes Ciências Sociais

83

Figura 5.1 Gráfico de barras referente à distribuição dos estudantes por faculdades

tornar mais fácil a leitura do quadro. A letra n é, muitas vezes, utilizada parareferir o número de casos de cada categoria (ou seja, a frequência). Uma formaalternativa de apresentar uma distribuição de frequências referente aos dados apresentados em 5.2 consistiria em omitir as frequências de cada categoria e apresentar, apenas, as percentagens relativas. Esta abordagem reduz aquantidade de informação que o utilizador tem de reter. Quando se faz essaopção, é necessário indicar o número total de casos (Le, n=56) por baixo da coluna das percentagens.

O quadro 5.2 pode ser facilmente adaptado a uma apresentação diagramática dos dados. Estes diagramas são, em geral, designados por gráficos debarras (bar chart ou bar diagrams) e são frequentemente escolhidos em detrimento dos quadros por serem de assimilação mais fácil. Um gráfico de barrasapresenta uma coluna referente ao número ou à percentagem de casos quecorresponde a cada categoria. A figura 5.1 representa um gráfico de barrasque ilustra os dados do quadro 5.1 e os valores que indicam referem-se ao número de casos. No eixo das abcissas (horizontal) está escrito o nome de cada


categoria. Não é preciso organizá-las por qualquer tipo de ordem (por exemplo, das maiores para as mais pequenas ou vice-versa). As barras não devemficar encostadas umas às outras, sendo preferível mantê-las nitidamente separadas. É necessário salientar que o gráfico de barras não fornece mais informação do que o quadro 5.2; de facto, até se perde alguma informação - aspercentagens. A vantagem principal deste tipo de representação é a facilidade com que pode ser interpretada, característica que pode ser particularmente útil quando a apresentação dos dados se dirige a indivíduos pouco familiarizados com material estatístico.

Quando é uma variável intervalar que se pretende apresentar numa tabela de frequências, os dados têm que ser agrupados. Deve calcular-se o número de casos que cabem em cada intervalo. Como exemplo, podemos analisar os dados respeitantes à variável rendim do Questionário do Trabalho.Dispomos de dados de sessenta e oito indivíduos (faltam os dados de dois),mas se não agruparmos os dados ficamos com trinta e três categorias de rendimentos, o que é excessivo para permitir construir uma tabela de frequências. Além disso, as frequências de cada categoria acabariam por ser demasiado pequenas. No quadro 5.3, apresenta-se a distribuição de frequências dosvalores que a variável rendim assume. Foram utilizadas seis categorias. Naconstrução destas categorias deve ter-se em conta um certo número de princípios. Em primeiro lugar, há autores que sugerem que o número de categoriasconsideradas se deve situar entre seis e vinte, uma vez que um número declasses demasiado grande ou demasiado pequeno pode distorcer a forma dadistribuição da variável em análise (ver, por exemplo, Bohrnstedt e Knoke,1982). Contudo, não é necessariamente verdade que o número de categoriasafecte a forma da distribuição. Além disso, quando os casos são poucos o número de categorias tem que ser inferior a seis, para que em cada categoria caiba um número razoável de sujeitos. Por outro lado, um grande número de categorias não tornará fácil a assimilação dos dados e, neste aspecto, a regraprática de Bohrnstedt e Knoke, ao considerar que as categorias podem servinte, é um pouco exagerada. Em segundo lugar, as categorias devem ser discretas. Nunca se deve agrupar os dados de modo a ter categorias como estas12.000 ou menos, 12.000-14.000, 14.000-16.000, e assim por diante. Em que categoria se incluiria o valor 12.000 ou 14.000 libras? Isto significa que as categorias devem ser discretas, como no quadro 5.3, de modo a que não haja qualquer dúvida em relação ao grupo a que corresponde cada caso. Repare-se queno quadro 5.3 se chama a atenção do leitor para o facto de haver dois caso~omissos. A presença de dois casos omissos levanta a questão de saber se ~percentagens devem ser calculadas tendo em conta os setenta sujeitos qUêresponderam ao Questionário do Trabalho, ou os sessenta e oito que forneceram os valores do seu rendimento. A maior parte dos autores prefere a últirn..:.hipótese, já que a inclusão de todos os casos como base para o cálculo das percentagens pode resultar em interpretações erróneas, especialmente quand -

RESUMIR OS DADOS 85

Quadro 5.3 Distribuição de frequências para os valores de rendim (dados do Questionário doTrabalho)

Libras

até 12,00012,000-13,99914,000-15,99916,000-17,99918,000-19,99920,000 e maisTotal

Nota: faltam dois casos.

30

20

10

C::loo O

n

1162022

72

68

Percentagem

1,523,529,432,410,3

2,9100,0

/

Figura 5.2

até \:12000 1:14000-\:15999 \:18000-1:19999

1:12000-\:13999 \:16000-\:17999 \:20000e mais

GPRENDIM

Histograma para os valores da variável rendim (dados do Questionário do Trabalho)

houver um grande número de casos omissos relativos a urna determinada--ariável.

A informação dada pelo quadro 5.3 pode, com vantagem, ser apresentada na forma diagramática através de um histograma (histogram). Um histogra:na é igual a um gráfico de barras excepto no facto de as barras estarem em.:ontacto urnas com as outras; essa forma de representação pretende eviden;:iar a natureza contínua das categorias da variável em questão. A figura 5.23.presenta um histograma para os dados relativos à variável rendim. As suas--antagens são as mesmas que foram referidas para o gráfico de barras.

Quando se analisa urna variável ordinal, raramente é necessário agru?ar os seus valores. No caso do Questionário do Trabalho e de urna variável:omo especial, que apenas pode assumir quatro categorias, não é preciso


agrupar os valores que ela toma. Pode, simplesmente, contar-se o númerccasos em cada uma das quatro categorias e calcular-se as percentagens corpondentes. É possível utilizar-se um histograma para apresentar os dacuma vez que as categorias da variável estão ordenadas.

Utilizar o SPSS para criar tabelas de frequências e histogramas

Para criar uma distribuição de frequências para a variável rendim do Q1

tionário do Trabalho, vamos necessitar de agrupar os dados. Caso contriÍobteremos uma frequência e uma percentagem para cada valor da variáobteremos, também, um gráfico onde cada barra corresponde a um valor (sa variável o que, numa amostra de grande dimensão, tornaria este gráilegível. Para agrupar os dados da variável rendim vamos utilizar o proomento Reeode. Assim, vamos criar uma nova variável designada rendill(isto é, grupos de rendimento). O objectivo desta recodificação é o de agruos sujeitos da nossa amostra em seis grupos de rendimento: até f 12,000, d12,000-13,999; das f 14,000-15,999; das f 16,000-17,999; das f 18,000-19,9520,000 e mais. O procedimento seguinte permite realizar esta recodificaç

7 Transform 7 Reeode 7 Into Different Variables ... [abre a caixédiálogo Reeode into Different Variables apresentada na caixa 5.1]7 rendim 7~ [botão] [transfere a variável rendim para a caixa NU!rie Variable70utput Variable:] 7 caixa abaixo de Output VariaName escrever gprendim 7 Change [tranfere gprendim para a CéNumericVariable70utputVariable:] 7 OldanNewValues ... [absubcaixa de diálogo Reeode into Different Variables: Old and Newlues apresentada na caixa 5.2]7 Na caixa à direita de Value [na secção Old Value] inserir O7 seleClnar Value na secção New Value e escrever 0.7 Seleccionar Range:west through e escrever 11999 na caixa a seguir a through 7 seleccioValue na secção New Value e escrever 1 7 Add [o novo valor aparecna caixa Old 7 New:] 7 seleccionar Range: e escrever 12000, bem co13999 na caixa a seguir a through 7 seleccionar Value na secção N

Value e escrever 27 Add 7 seleccionar Range: e escrever 14000, b

como 15999 na caixa a seguir a through 7 seleccionar Value na seoNew Value e escrever 37 Add 7 seleccionar Range: e escrever 16(bem como 17999 na caixa a seguir a through 7 seleccionar Value na!ção New Value e escrever 4 7 Add 7 Range: e escrever 18000, bcomo 19999 na caixa a seguir a through 7 seleccionar Value na secN ew VaIue e escrever 5 7 Add 7 seleccionar Range: through higheescrever 20000 na caixa 7 seleccionar Value na secção New Value ecrever 67 Add 7 Continue [fecha a subcaixa de diálogo Reeode i

RESUMIR OS DADOS

• Resode inlo DIHerenl Vallables EI

87

:t> gpraeial

~ se"o

i> idade

i> anos

.-i> envolv

~satis1

'~sa!is2

i> satis3

.:11) satis4

i> autonom1

i> autonom2

:'$) autonom3

Numeric:-!ariable·) OulpulVariable:

Caixa 5.1 A recodificação de rendim para rendimgp

•• nff~'I~:II!~IJ['i"TTIi

-OldValue

r Yalue:

r ~lem;riúSSing

r Syslem- or J,!ser·missing

r Ra.tJge:

Lr Range:

[i:l.~'l\f'tt~r(jYg·

lo Aall9!l:

120000 L tnrough highestr AliQlher "alues

:aixa 5.2 A subcaixa de diálogo Recode into Different Variables: Old and New Values

Different Variables: Old and New Values]~OKl

:)e seguida é necessário definir os rótulos de cada uma das seis categorias da""ariável rendimgp (ver capítulo 2 para uma descrição deste procedimento).

Para se obter o output apresentado no quadro 5.4, será, ainda, necessário definir o valor Ocomo valor omisso (rnissing value). Esta operação pode ser executada na janela VariableView, na coluna rnissing correspondente à variável rendirngp, na caixa de diálogo Missing Values seleccionar Discrete Missing Values e introduzir O na primeira caixa.(N. do R.)

88

Variable{s}:.-ANÁLISE DE DADOS EM CIÊNCIAS SOCIAIS

Caixa 5.3 A caixa de diálogo Frequencies

Quadro 5.4

Tabela de frequências para rendimgp (outputdo SPSS)

GPRENDIM

,

, ICumulative

PercentValidaté E12000 11,4 1,51,5

E12000-E13999

1622,9 23,525,0

E14000-E15999

2028,6 29,454,4

E16000-E17999

2231,4 32,486,8

E18000-E19999

710,0 10,397,1

E20000 e mais

22,9 2,9100,0

Total

6897,1 100,0

Missing

,00 22,9

Total

70100.0

A sequência seguinte dá origem à tabela de frequencias apresenta(quadro 5.4.

~ Analyze ~ Descriptive Statistics ~ Frequences ... [abre a cai:diálogo Frequences apresentada na caixa 5.3]~ grupos de rendimento [rendimgp] ~~ [botão] [transfere rendipara a caixa Variable[s]:]~OK

o quadro 5.4 mostra o número de sujeitos em cada categoria da variáveldimgp (Frequency) e três tipos de percentagens: a frequência associe,.."",....1"", •...•....•.J. •.....••...••,..,.~~...." -n..-." f'" .•..TY"I':lo ..40. l1TY"1'::l "Y'\OT't""CU.,T-::lCTDrn n11(:). t('\rn~ rnrnn h;l~P tnt1

llSl.:'VIIR OS DADOS 89

~==Slacked

SLnlI1lariesforgrbups of cases

SLnlI1lariesof se~arate yariablesValues of individual cases

~-'~a 5.4 A caixa de diálogo Bar Charts

:asas (Percent); a frequência associada com cada categoria na forma de uma?€rcentagem que toma como base todos os casos de cujos dados dispomosValid Percent); e a percentagem acumulada (Cumulative Percent).

Para obtermos um histograma da variável rendimgp, devemos realizar.) procedimento seguinte:

7 Graphs 7 Histogram ... [abre a caixa de diálogo Histogram]7 rendimgp 7~ [botão] [coloca rendimgp na caixa Variable:] 7 OK

o histograma resultante apresentará barras de rendimento tal como definidas pelos critérios por defeito do SPSS.

Para produzir um gráfico de barras para uma variável nominal comogpracial, podemos realizar o seguinte:

7 Graphs 7 Bar ... [abre a caixa de diálogo Bar Charts apresentada nacaixa 5.4]7 Simple 7 Summaries for groups of cases 7 Define [abre a subcaixade diálogo Define Simple Bar: Summaries for Groups of Cases apresentada na caixa 5.5]7 gpradal 7 ~ [botão] próximo da caixa Category Axis [coloca gpradal nesta caixa] 7 N of cases por baixo de Bar Represent [se esta opçãonão estiver seleccionada, caso contrário proceder sem seleccionar] 7OK

Uma forma alternativa de apresentar dados relativos a variáveis nominaisserá a de recorrer a gráficos de tipo" queijo" (Pie chart), que mostram o número de casos em cada categoria através de fatias de um círculo. Esta pode ser


. Oeline S.mple Bar Summalles fOI GlOupS 01 Cases - Ei

~ sexo

~rendim

(fP idade

~anos

~envolv

·.iP salis1

~salis2

~salis3

'iP salis4

~aulonom1

~aulonom2

,~ autonom3

~aulonom4

~rolina1

'?> rolina2"

Caixa 5.5

%of~e$

Curo. % 01 cases

A subcaixa de diálogo Define Simple Bar: Summaries for Groups of Cases

Africano

2,9%Indiano

20,0%

Asiatico

25.7%

Branco

51,4%

Figura 5.3 Diagrama de "queijo" para gpracial (dados do Questionário do Trabalho)

uma forma de apresentação de dados muito útil quando o objectivo é salientar o tamanho relativo de cada fatia em comparação com a totalidade daamostra. A figura 5.3 apresenta um gráfico de tipo queijo para a variávelgpracial, gerado pelo SPSS.Para obter este tipo de gráfico, devemos procederda seguinte forma:

7 Graphs 7 Pie ... [abre a caixa de diálogo Pie Charts apresentada nacaixa 5.6]

RESUMIR OS DADOS

Pie Challs lEi

91

Data in Chart Are~

(o' [s.,~~IT.i~if~,s.:!~·i:,iio.,~,p',s.':,õ.r..~.~~~~

riSummaries of separate yariables

r. Values of jndividual cases

,e

Caixa 5.6 A caixa de diálogo Pie Charls

• Define Pie' Summalies 101Groups 01 Cases Ei

..t> sexo

.t> rendim

,ir idade

<~ anos

~envolv

~satis1

~satis2

'*> sal;s3

~sal;s4

<@> autonom 1

<ir autonom2

<ít> autonom3

~autonom4

<@> rotina1

~rotina2..,

C. % of c,êSes

Cí eu!!). % of cases

Caixa 5.7 A subcaixa de diálogo Define Pie: Summaries for Groups of Cases

~ Summaries for groups of cases ~ Define [abre a subcaixa de diálogo Define Pie: Summaries for Groups of Cases apresentada na caixa5.7]~ gpradal ~ ~ [botão] próximo da caixa Define slices by [coloca gpradaI nesta caixa] ~ N of cases por baixo de Slices Represent: [se esta opção não estiver seleccionada, caso contrário proceder sem seleccionar]~OK

Este procedimento dá origem a um gráfico de tipo queijo, no qual cada fatiado círculo possui uma cor diferente. Se a impressora não estiver preparadapara imprimir a cores, será necessário proceder à sua edição para que cada


fatia possa ser distinguida de outra. O gráfico da figura 5.3 foi editado atde dois passos essenciais: a cor branca foi aplicada a todas as fatias e paidiferentes foram aplicados a cada uma delas. Os procedimentos segtpermitem realizar este tipo de edições:

~ Duplo dique em qualquer parte do gráfico. Isto abre a caixa lEditor. O gráfico aparecerá no Chart Editor a sombreadoPara encher cada fatia de cor branca:

~ seleccionar cada fatia do gráfico (pequenos pontos aparecerãomite da fatia)~ Format ~ Color ... [uma paleta de cores aparecerão] ~ Fill ~ ,~ Apply ~ outra fatia e aplicar às restantes, ainda que possa ser úuma fatia numa cor mais escura ~ CIos e

Para criar um padrão diferente em cada fatia:

~ seleccionar cada fatia do gráfico (pequenos pontos aparecerãomite da fatia)~ Format ~ Fill pattern ... [uma palete de padrões aparecerão paleccionar] ~ seleccionar padrões ~ Apply ~ outra fatia~ outro padrão [lembre-se que deve aplicar um padrão diferente a

fatia] ~ Apply [continua até que cada fatia branca tenha um padr,ferente] ~ Close

Note-se que os rótulos dos valores serão necessários para produzir as I,das apresentadas na figura 5.3. Podemos adicionar as percentagens da e

tra que cada fatia representa (tal como se pode observar na figura 5.3) (guinte forma: quando posicionados no Chart Editor, dicar em Chart e dem Options ... ; seleccionar Percents [a caixa ao lado de Text deve, tarrencontrar-se seleccionada]. Podemos, ainda, criar efeitos no gráficocomo destacar uma das fatias do círculo de modo a salientar a sua impccia. Para fazer isto, dique na fatia pretendida e:

~ Format ~ Explode Slice

De um modo geral, podemos efectuar alterações semelhantes em todasguras geradas pelo SPSS (por exemplo, gráficos de barras), fazendo, simmente, um duplo dique no gráfico em questão e escolhendo as alternedo Chart Editor. Desta forma, podemos alterar cores, introduzir pad

{'o • r _ ~••.•

RESUMIR OS DADOS

Medidas de tendência central

93

Uma das formas mais importantes de sintetizar a distribuição de valores deurna variável é estabelecer a sua tendência central- o vaIar típico da distribuição. Perguntamo-nos, por exemplo, onde tendem a concentrar - se os valores da distribuição? Para muitos leitores, isto pode significar que se procura a"média" de uma distribuição de vaiares. Contudo, quando os estatísticos falam de valores médios referem-se a várias medidas. Discutiremos aqui trêsmedidas dos valores médios (i.e., medidas de tendência central): a médiaaritmética, a mediana e a moda. Sephan J. Gould, um paleontólogo conhecidopelos seus escritos científicos, ilustra duas destas medidas da seguinte forma:

Um político do partido do poder pode dizer, com algum orgulho: "O rendimento médio dos nossos cidadãos é de $15,000 por ano". O líder da oposição poderetorquir: "Contudo, metade dos cidadãos ganha menos de $10,000 por ano".Ambos estão correctos, mas nenhum cita as estatísticas com objectividade. Oprimeiro utiliza a média, enquanto o segundo a mediana (Gould, 1991: 473).

~o fundo, este comentário não nos assegura relativamente à possível utilização indevida das estatísticas, mas ilustra bem as diferentes formas de apresentar um resultado médio.

A média aritmética (arithmetic mean)

A média aritmética é um método de calcular a média da distribuição que corresponde à noção comum de média. Consideremos a seguinte distribuição de"alares:

12 10 7 9 8 15 2 19 7 10 8 16

Determinar a média aritmética consiste em adicionar todos os valores (nestecaso, o resultado é 123) e dividir esse total pelo número de valores (no nossoexemplo, 12). Neste caso, a média aritmética é 10.25. É este tipo de cálculo queconduz a afirmações tão bizarras como: "o número médio de crianças é 2.37" .

. :0 entanto, a média aritmética que é, frequentemente, simbolizada por x é,de longe, a mais utilizada medida de tendência central. Muitos dos testes es:atísticos que serão abordados em capítulos posteriores deste livro relacio.,am-se directamente com a comparação das médias de diferentes amostrasau grupos de sujeitos (por exemplo, a análise de variância - ver capítulo 7). A:nédia aritmética é fácil de compreender e de interpretar, o que aumenta a sua3.tractividade. Asua maior limitação liga-se ao facto de ser vulnerável aos va:ores extremos, podendo ser enviesada por valores muito altos ou muito


baixos cujo efeito é, respectivamente, o de aumentar ou diminuir de forma enganosa a sua magnitude. Isto tende a acontecer particularmente quando sedispõe de relativamente poucos dados; quando se tem muitos dados é precisoque esteja presente um valor muito exagerado para distorcer o valor da média. Assim, por exemplo, se na distribuição de doze valores que já apresentámos substituirmos o 19por 59, a média seria 13.58em vez de 10.25, valor substancialmente diferente e que constitui uma fraca representação da amostra noseu todo.

De uma forma semelhante, no quadro 8.10 do capítulo 8, a variável "tamanho da empresa" contém um valor extremo (outlier; caso número 20), ouseja, uma empresa com 2700 empregados. Note-se que a empresa seguintepossui, somente, 640.Amédia desta variável é de 499, mas se excluírmos o valor extremo ela passa para 382,6. Como se depreende deste exemplo, um valorextremo pode ter um impacto substancial na média aritmética, especialmentequando o número de casos de uma amostra é pequeno.

A mediana (median)

A mediana é o ponto médio de uma distribuição de valores. Parte uma distribuição de valores em duas partes. Imaginemos que os valores de uma distribuição são ordenados de forma crescente - por exemplo, 2, 4, 7, 9, 10: nesteexemplo, a mediana é o valor central, isto é, 7. Quando o número de valores épar, a mediana é a média dos dois valores do meio. Assim, no primeiro grupode doze valores, para calcular a mediana poderíamos ordená-los deste modo:

2 7 7 8 8 ~ 10 12 15 16 19

Neste conjunto de valores, tomamos os dois valores sublinhados - o sexto e osétimo - somamo-los e dividimos o total por 2, i.e. (9+10)/2=9.5. Este valor éligeiramente inferior à média a'ritmética de 10.25, o que se deve provavelmente à presença de três valores elevados no extremo final-15, 16 e 19. Se, emvez do 19 tivéssemos o 59, a média seria 13.58 mas a mediana não seria afectada porque enfatiza o centro da distribuição e ignora os extremos. Por esta razão, muitos autores sugerem que, quando existe um valor desviante que distorce a média, se deve considerar a mediana por ser um indicador mais representativo da tendência central de um grupo de valores. Por outro lado, a mediana é de mais difícil compreensão do que a média e o seu cálculo não utilizatodos os valores da distribuição. Além disso, a vulnerabilidade da média à

distorção por existência de valores anómalos é menor quando se trabalhacom um grande número de casos.

RESUMIR OS DADOS

A moda (mode)

95

~te último indicador de tendência central é raramente utilizado na investi

;ação mas é frequentemente mencionado nos livros. A moda é, simplesmen:e, o valor que ocorre com maior frequência numa distribuição. No exemploie distribuição de doze valores que apresentámos há três modas - 7, 8 elO ..-\0 contrário da média, que só se pode utilizar com variáveis de intervalo, a::nada pode ser utilizada a qualquer nível de medição. A mediana pode ser:.:sada para variáveis ordinais e de intervalo mas não para variáveis nominais ..-\ssim, embora a moda pareça um indicador mais flexível é pouco utilizada?orque não usa todos os valores da distribuição e porque, no caso de existir::1ais do que uma moda na distribuição, não é fácil de interpretar.

Medir a dispersão

?ara além de se interessarem pelo valor típico ou representativo de uma dis:ribuição de valores, os investigadores também procuram conhecer a quantidade de variação que a distribuição evidencia. É isto que se designa por dis::ersão - a extensão da distribuição. A dispersão pode dar-nos informações:mportantes: por exemplo, podemos encontrar duas empresas em que o rendimento médio dos trabalhadores manuais seja semelhante. Contudo, numadelas os salários podem ser mais variados com valores consideravelmente su?eriores e inferiores aos da outra firma. Assim, embora a média de saláriosseja similar, uma das empresas apresenta muito maior dispersão do que a ou:ra. Pode ser útil acrescentar esta informação aos valores de medida de tendência central.

A mais óbvia medida de dispersão consiste em considerar o valor maisalto e o valor mais baixo da distribuição e subtrair o segundo do primeiro. Ao,esultado assim obtido chama-se amplitude da distribuição (range). Embora de:ácil compreensão, tem a desvantagem de ser susceptível à distorção por in]uência de valores extremos. Isto pode ser ilustrado com os dados fictíciosapresentados pelo quadro 5.5 que mostram as notas, numa escala de 100, obtidas por duas classes de vinte alunos num teste de matemática. Cada uma dasclasses é orientada por um professor diferente. As duas turmas têm médiassemelhantes mas os padrões das duas distribuições de valores são muito dife,entes. A turma do professor A tem uma distribuição de notas pouco diversi:'icada enquanto que a do professor B apresenta muito maior dispersão.::nquanto a nota mais baixa obtida na turma do professor A foi 57, a mais baixa na turma do professor B foi 45. De facto, no caso do professor Bhá oito no~asinferiores a 57. Contudo, enquanto a nota mais elevada dada pelo professor A é 74 na turma de B há três notas superiores a esta - uma atinge o valor93. Embora a última distribuição seja mais dispersa, o cálculo da amplitude


Quadro 5.5 Resultados de um teste de aptidão matemática aplicado aos alunos de dois professore,(Dados Fictícios)

Média aritmética

Desvio-padrãoMediana

Professor (A)

657066595762667158676168636571

696774726065.55

4.9166

Professor (B)

574946797254666563764595626850535865697263.212.3764

parece exagerar essa dispersão. Para o professor A esse intervalo é 74-57, i17. Para B, o intervalo é 95-45, i.e. 50. Este valor exagera a quantidade de dpersão uma vez que todos os valores excepto três se situam entre 72 e 45, o qimplica que para a maioria dos valores o intervalo de variação seja igual a 2:

Uma solução para este problema consiste em eliminar os valores extmos. A amplitude interquartis (inter-quartil range), por exemplo, é por ve:irecomendada neste sentido (ver figura 5.4). Isto implica organizar os vaIo]numa ordem crescente. O intervalo é dividido em quatro partes iguais,modo a que os primeiros 25% fiquem na primeira parte e os 25% maioresquem na última. Estas divisões servem para definir quartis. Consideremoprimeira distribuição que utilizámos para o cálculo da mediana:

2 7 7 8 8 9 10 10 12 15 16 1911

Primeiro quartil11

Terceiro quartil

O primeiro quartil (Q1), por vezes intitulado "quartil inferior" ficará entre I

e o 8. De acordo com o SPSS, o seu valor é de 7.25. O terceiro quartil (Q3), fvezes intitulado "quartil superior", será 14.25. Assim, a amplitude interquar

RESUMIR OS DADOS

Mediana

97

01 02 03

1 1

25% dasobservações

tValormínímo




tValor

máximo

Amplitude interquartis

Observações por ordem crescente

Figura 5.4 Amplitude interquartis

é a diferença entre o primeiro e o terceiro quartis, ou seja, 14.25-7.25 = 7. Comoa figura 5.4 indica, a mediana é o segundo quartil mas não é um componente:tecessário para o cálculo da amplitude interquartis. A principal vantagemdesta medida de dispersão é eliminar os valores extremos e a sua grande limi:ação é ignorar 50% dos valores da distribuição, o que significa uma grande?erda de informação. Um compromisso possível entre estes dois aspectos?ode ser atingido através da divisão da distribuição em dez partes (decis) edo cálculo da amplitude interdecis. De um modo similar ao que se fazia para aamplitude interquartis eliminam-se os valores mais altos e os mais baixos.:\reste caso, só se perde 20% da distribuição.

Sem dúvida que o mais utilizado método de avaliar a dispersão é o des:'io-padrão (standart deviation). Na essência, o desvio-padrão reflecte a quantidade média de desvio em relação à média. O seu cálculo é, de algum modo,mais complicado do que esta definição sugere. No capítulo 7, pode encontrar-se uma descrição mais pormenorizada do desvio-padrão. O desvio-padrão evidencia o grau em que os valores de uma distribuição se afastam damédia aritmética. O seu valor é, em geral, apresentado em conjunto com a média, uma vez que é difícil compreender o seu significado sem fazer alusão aesta segunda medida.

Podemos comparar as duas distribuições do quadro 5.5 Apesar das médias serem muito semelhantes o desvio-padrão na turma do professor B12.37) é muito maior do que o da turma do professor A (4.91). Deste modo, o

desvio-padrão permite a comparação directa dos graus de dispersão quandose consideram medidas e amostras comparáveis. Uma das suas vantagensadicionais consiste no facto do seu cálculo considerar todos os valores da dis

tribuição. Além disso, resume a quantidade de dispersão da distribuiçãonum único valor que, quando utilizado em conjunto com a média, é fácil de


interpretar. O desvio-padrão pode ser afectado pelos valores extremos mascomo o seu cálculo depende de todos os valores envolvidos, a distorção é menos pronunciada do que no caso da amplitude. Por outro lado, não devemosignorar a possibilidade de distorção por efeito dos valores extremos. No entanto, a menos que haja boas razões para não querer usar o desvio-padrão, asua utilização é recomendada sempre que se pretenda obter uma medida dedispersão. É uma medida referida, em geral, nos relatórios de investigação e éamplamente reconhecida como a principal medida de dispersão.

Anossa abordagem da dispersão destacou as variáveis de intervalo. Sócom esse tipo de variáveis se pode utilizar o desvio-padrão. A amplitude e aamplitude interquartis podem ser usadas com variáveis ordinais, emboraessa não seja uma prática vulgar. Também com as variáveis nominais é poucofrequente a utilização de testes de dispersão. Provavelmente, a melhor maneira de avaliar a dispersão das variáveis nominais e ordinais é usar gráficos debarras, histogramas e distribuições de frequências.

Medir a tendência central e a dispersão com o SPSS

Todas estas medidas podem ser geradas no SPSS.Tomando a variável rendima título de exemplo, vamos realizar a seguinte sequência de procedimentos:

~ Analyze ~ Descriptive Statistics ~ Explore ... [abre a caixa de diálogo Explore apresentada na caixa 5.8]~ rendim ~ ~ [botão] próximo da caixa Dependent List [coloca a variável rendim na caixa Dependent List:]~OK

• Explore E1

Eil~~:

facto! Lisl:

GOT=_ I_J

Caixa 5.8 A caixa de diálogo Explore

RESUMIR OS DADOS 99

uadro 5.6 O output do comando Explore para a variável rendim

Descriptives

~t"ti<ticc." ~"MRENDIM

Mean 15638,2353242,037695% Confidence

Lower Bound15155,1261Ioterv ai for Mean

Upper Bound16121,34445% Trimmed Mean

15582,3529Median

15600,0000Variance

3983590,869Std. Deviation

1995,8935Minimum

11800Maximum

21000Range

9200InterquartiJe Range

3500,0000Skewness

,370,291Kurtosis

- 294574

P10t

Leaf

8448

0244466668888

0022246668

0000246688

00002446666

00244666688

000226

O

6O

Stem &1112

1314

15

16

171819

20211000

1 case(s)

RENDIM Stem-and-Leaf

Frequency1. 003.00

13.00

10.00

10.00

11. 0011. 006.00

1. 001. 001. 00Stem width:

Each 1eaf:

o resultado deste procedimento é apresentado no quadro 5.6; através deleobtemos a média aritmética, a mediana, a amplitude, os valores mínimo e máximo, o desvio-padrão e a amplitude interquartílica da variável rendim.

Métodos de apresentação dos dados: diagramas troncos-e-folhase diagramas extremos-e-quartis

:::m1977, John Tukey publicou um importante livro, com o título ExploratoryJata Analysis, em que pretendia apresentar aos leitores uma série de técnicas~ue ele próprio tinha desenvolvido, enfatizando o cálculo aritmético simplese a apresentação diagramática dos dados. Apesar da abordagem por ele de:endida ser a antítese de muitas das técnicas convencionalmente utilizadas?elos analistas de dados, incluindo o conjunto de técnicas examinadas neste:.ivro, algumas das representações de Tukey podem ser acrescentadas, com


vantagem, aos procedimentos ortodoxos. Para a presente discussão, são bastante relevantes duas representações dia gramáticas dos dados - o diagramatroncos-e-folhas (stem and leaj) e o diagrama extremos-e-quartis (box and whiskersou boxplot).

Método troncos-e-folhas de classificação dos dados

Este tipo de representação é um modo muito simples de apresentar dados referentes a uma variável de intervalo, utilizando uma forma semelhante a um

histograma mas sem se sofrer a perda de informação que este último tipo degráfico implica. Pode ser facilmente construído à mão, embora isso seja maisdifícil quando se trabalha com grandes quantidades de dados De forma ailustrar a construção de um diagrama de troncos-e-folhas, vamos utilizar osdados de um indicador de desempenho de uma autoridade local. Duranteum certo período de tempo, o governo britânico encarregou uma Comissãode Auditoria com a tarefa de recolher dados relativos ao desempenho de autoridades locais, de modo a poder comparar o seu desempenho. Um dos critérios para medir este desempenho era a percentagem de necessidades satisfeitas aos munícipes num período de seis meses. Este critério demonstrou umagrande variabilidade entre as diversas autarquias, tal como foi salientado, naaltura, por um jornalista do The Times:

Se uma criança em Sunderland necessitasse de educação especial, não teria qu~

quer probabilidade de ver esta necessidade satisfeita nos seis meses mais próximos. Contudo, se esta mesma criança mudasse de residência para Durnham, cerca de uma ou duas milhas de distância, teria 80% de probabilidade desta necessidade ser satisfeita num curto espaço de tempo (Murray, 1995: 32).

Se estes dados medem eficiência ou não é um problema de validade das medidas utilizadas nesta auditoria (ver capítulo 4), mas não existe margem p~dúvida de que há uma grande variação relativamente à percentagem de necessidades satisfeitas no espaço de seis meses. Como podemos observar r.quadro 5.7, esta percentagem varia entre O e 95%

A figura 5.5 mostra o diagrama de troncos-e-folhas relativo a esta va.ruvel, que passamos a designar por necess. O gráfico possui duas componenessenciais: em primeiro lugar, os números à esquerda da linha vertical cons::tuem o tronco e servem de pontos de partida para a apresentação de cada --lar da distribuição. Cada um dos dígitos que formam o tronco representa u;""dades de 10 pontos. Assim, o primeiro dígito do tronco é Oe refere-se a pon·abaixo das dezenas; 1 a dezenas; 2 a duas dezenas; 3 a três dezenas e assim scessivamente. Ao lado direito do tronco está afolha, cada uma das quais reF -

senta um item dos dados que está ligado ao tronco. Desta forma, o Oà dire

RESUMIR OS DADOS 101

o 5.7 Percentagem de necessidades satisfeitas pelas autarquias num período de seis mesesem Inglaterra e Escócia. 1993-1994

londrinos I Condados inglesesAutoridades metropolitanasCondados escoceses

Avon

11Great Manchester Clwyd30Bedfordshire

25Bolton 9Dyfed 6748

Berkshire 16Bury 16Gwent 17....= ......h

14Buckinghamshire 69Manchester 35Gwynedd 88

-::"=,

36Cambridgeshire 7Oldham 50Mid Glamorgan 48,- '1- .5.=ulham

6Cheshire 25Rochdale Opowys 80

~'''l

44Cleveland 32Salford 10South Glamorgan 45! Chelsea

8Cornwall 3Stockport 16West Glamorgan 4

"i.-o;:h4Cumbria 35Tameside 16

s-am

12Derbyshire 17Traflord 11

ark10Devon 55Wigan 21- :' -lamlets 37Dorset 33Merseyside

-;::SNorth

4Durham 72Knowsley 8::-inster

63East Susses 8Liverpool 95

=--3fes de Londres

Essex29St Helens 21

-g & Dagenham

22Gloucestershire 45Selton 37.:.z-=:

40Hampshire 12Wirral 13

_':.o :;J

37Hereford & Worcs 3South Yorkshire

- ,

23Hertlordshire 61Barnsley 15

::-:c- ey24Humberside 14Doncaster 1

: jQn27I sle of Wight 60Rotherham 10

~ '-

3Kent 15Sheflield 4~:d

2Lancashire 14Tyne & Wear

-"'-'1ley10Leicestershire .Gateshead 4

-a-:;w

1Lincolnshire 36Newcastle upon Tyne30

-2· 2ing

ONorfolk 1North Tyneside 48-

-gdon 7Northamptonshire 48South Tyneside 5-:-'_-slow

20Northumberland 79Sunderland O

- ;s:on upon Thames

27North Yorkshire 34West Midfands

~-::m16Nottinghamshire 10Birmingham 5

l? ~m3Oxfordshire 22Coventry 20

=:::::ridge34Shropshire 15Dudley 41

=- c-:nond upon Thames

27Somerset 50Sandwell 1~_-:n

6Staflordshire 20Solihull 31=- -"'am Forest

24Suflolk 27Walsall 3

Surrey

55Wolverhampton 3

Warwickshire26West Yorkshire

West Sussex14Bradford 25

Wiltshire30Calderdale 2

Kirklees38

Leeds

17

Wakefield15

I

::a: n informação omissa ou duvidosa. =:-:e: adaptado do The Times. 30 de Março 1995. p. 32.

~o valor Orefere-se ao valor mais baixo da distribuição, ou seja, O.Podemoserificar que três autoridades locais não satisfizeram quaisquer necessidades

~os munícipes durante o período de seis meses, enquanto quatro apenas sa--sfizeram 1% de necessidades. Quando chegamos à linha que começa por um

102 ANÁLISE DE DADOS EM CIÊNCIAS soe

P10t

Leaf000111122333333444445566778889

00000112234444555566666777

001122344555677779

0001234455667778

014558888

00

55013

79

2(>=79 )

NECESS Stem-and-LeafFrequency Stem &20.00 O10.00 O14.00 112.00 110.00 29.00 28.00 38.00 33.00 46.00 42.00 52.00 53.00 62.00 61. 00 74.00 ExtremesStem width: 10.00Each leaf: 1 case(s)

Figura 5.5 Diagrama de troncos-e-folhas para a variável necess

ponto percentual, podemos observar que apenas cinco autoridades ~ram 10% das necessidades em seis meses. Todos os números à direita

devem ficar alinhados na vertical. Não é necessário que os seus valorordenados de O a 9, mas fazê-lo torna a leitura mais fácil. Note-se qUEbuição é achatada no fundo. A apresentação deste diagrama foi contrforma a que os incrementos nos valores da variável fossem de 10 1.:

percentuais. Podemos pedir, também, que os valores extremos (out]jam apresentados separadamente. Os investigadores experientes ende dados exploratória utilizam um critério específico para a idendestes valores extremos: os que se posicionam próximo do valor mídistribuição podem ser identificados através da fórmula seguinte:

primeiro quartil- (1,5 x amplitude interquartílica)

Os valores extremos próximos do valor máximo da distribuiçãocam-se através da fórmula:

terceiro quartil- (1,5 x amplitude interquartílica)

O primeiro quartil da variável necess é de 8.0 e o terceiro quartil é 36.(

tuindo estes valores nas equações anteriores obtêm-se resultados q

tram que os valores extremos devem encontrar-se posicionados al-36.0 e acima de 78.0. Utilizando este critério, identificamos, na filquatro valores extremos (Extremes). Para obter um diagré


::-onco-e-folhas seguimos o mesmo procedimento do utilizado para produzir~ medidas de tendência central e de dispersão (ver caixa 5.5):

~ Analyze ~ Descriptive Statistics ~ Explore ... [abre a caixa de diálogo Explore apresentada na caixa 5.8]~ necess ~~ [botão] próximo de Dependent List: [tranfere a variávelnecess para a caixa Dependent List:]~ Plots na caixa próximo de Display ~ OK

J output resultante é apresentado na figura 5.5. Os valores da coluna mais à::-squerda representam a frequência de cada ocorrência. Podemos, também,='9servar que existem dados omissos para duas autoridades locais.

Este método proporciona-nos uma apresentação semelhante ao histo~ama, na medida em que nos dá uma ideia da forma da distribuição (se, por::xemplo, os valores se centram num extremo), o grau de dispersão que apreõ-entame a existência ou não de valores extremados. Contudo, ao contrário do_--.lstograma,mantém toda a informação de modo a que os dados possam ser.:n-ectamente analisados para se verificar quais os valores predominantes.

Diagrama extremos-e-quartis

-.:,.figura 5.6 mostra-nos a estrutura de um diagrama de extremos-e-quartis. O-2ctângulo representa os 50% centrais das observações. Assim, o seu extremo_Lferior,em termos da medida a que se refere, é o primeiro quartil e o seu ex::-emo superior é o terceiro quartil. Por outras palavras, este diagrama com:,:-eende a amplitude interquartílica. A linha assinalada é a mediana. As li:-.hastracejadas dirigem-se para baixo até ao valor mínimo da distribuição e:-ara cima até ao valor máximo, excluindo valores extremos (outliers) que são_-:dicados separadamente. Este tipo de apresentação tem um certo número deu311tagens. Tal como foi discutido anteriormente, este método dá-nos infor::-:açãosobre a forma e a dispersão da distribuição - por exemplo, o rectân;..Jloestá mais próximo de um extremo ou do meio? Se se desse o primeiro~,,-so,isso indicar-nos-ía que os valores tendiam a concentrar-se num pólo. A:-:-imeira situação mostraria que os valores tendem a concentrar-se no limite_-:feriorda distribuição, como é o caso da mediana. Isto proporciona-nos indi:3.çõesadicionais sobre a forma da distribuição, já que nos mostra se a media:-3. está mais perto de algum dos extremos da caixa. Por outro lado, este méto.:.) não conserva toda a informação como no caso da representação tron~')5-e-folhas. Afigura 5.7 apresenta um diagrama extremos-e-quartis dos da':os do quadro 5.6. Os quatro valores extremos encontram-se assinalados. Aõ:.ladetecção foi feita recorrendo-se ao critério discutido anteriormente. Atra-25deste diagrama, torna-se claro que apenas 20% (ou menos) de metade das

104 ANÁLISE DE DADOS EM CIÊNCIAS

Valormínimo

50% deobservações(centro), i.e.,arrplitudeinterquartis

1

3' Ouartil

Mediana

l' Ouartil

Figura 5.6 Diagrama de extremos-e-quartis

12

10

114

NECESS

C64

0112)

~'4

) ))

,

)

I

o

4

6

2

8

-2N=

Figura 5.7 Diagrama extremos-e-quartis da variável necess (outputdo SPSS)


?!"ocedimento referido na página 103, o SPSS vai gerar um diagrama de tron:~-folhas e um de extremos-e-quartis.

Qualquer destas técnicas de análise exploratória dos dados pode ser re:omendada como um passo útil no sentido de conhecer os dados quando co:::1eçamosa estudá-los. Deverão elas ser utilizadas como alternativa aos histo~amas e a outras abordagens mais comuns? De facto, elas têm a desvanta~em de serem pouco conhecidas. Das duas, o diagrama de troncos-e-folhas é,:alvez, o mais fácil de assimilar, uma vez que o diagrama extremos-e-quartis:equer a compreensão da noção de quartil e de mediana. Qualquer um deles,~ for usado para um público pouco familiarizado com estas técnicas, pode::iar algumas dificuldades; se, pelo contrário, o público os dominar, estes mé:odos de apresentação dos dados têm muito a seu favor.

A forma de uma distribuição

-á fizémos referência em várias ocasiões à forma da distribuição. Assim, porexemplo, os valores de uma distribuição podem tender para um dos extremos)u concentrar-se no centro. Nesta secção, vamos especificar melhor os aspec:05 ligados à forma da distribuição e introduzir conhecimentos fundamentais::>araa compreensão de alguns métodos de análise de dados que serão aboriados em capítulos posteriores.

Os estatísticos descreveram uma série de curvas de distribuição. A mais:.mportante é sem dúvida, a distribuição normal. A distribuição normal tem a:orma de um sino. Pode tomar uma variedade de aspectos diferentes, depenjendo do grau de dispersão dos dados. Na figura 5.8 temos exemplificadasiuas curvas características da distribuição normal. O termo "normal" pode~'lduzir em erro, porque na realidade é muito raro encontrarem-se distribui;ões perfeitamente normais. Contudo, os valores da variável podem aproxi:nar-se da distribuição normal e, quando isso acontece, tendemos a pensar:ceIes como se tivessem, de facto, as propriedades da distribuição normal.~.luitas das técnicas estatísticas mais comuns usadas nas ciências sociais pre5umem que as variáveis analisadas têm uma distribuição próxima da normal\-er a discussão de testes paramétricos e não paramétricos no capítulo 7).

A distribuição normal resulta de todos os casos que abarca debaixo da5ua curva. Cinquenta por cento dos casos ficarão de um lado da média=.ritmética; os outros cinquenta por cento ficarão do outro lado (ver figura~.9).Amediana será igual à média: é por isso que a curva tem o seu pico no va.::lI da média. Esta distribuição implica que a maior parte dos valores se situ-:emperto da média. Contudo, o prolongamento para cada um dos lados, a um:tivel cada vez mais baixo, indica que, à medida que nos afastamos da média,-:encontramos cada vez menos casos. Nas caudas da distribuição só aparecerá..Jt1aproporção mínima de valores. A altura das pessoas é uma variável que


A B

Figura 5.8 Duas distribuições normais

50%dos

casos

Figura 5.9 Média e distribuição normal

pode ilustrar perfeitamente este tipo de curva. A altura média de uma mulheradulta no Reino Unido é 160.9 em. Se a altura das mulheres seguir uma distribuição normal, a maior parte delas terá uma altura próxima da média. Muitcpoucas serão muito altas ou muito baixas. Sabemos que a altura das mulherestem estas propriedades; agora, se essa variável tem uma distribuição norma:perfeita, é já um assunto diferente.

A distribuição normal tem algumas propriedades interessantes identificadas em Estatística. Estas propriedades são ilustradas na figura 5.10. Numadistribuição normal perfeita:

1) 68.26 por cento dos casos estarão entre a média e um desvio-padrão;2) 95.44 por cento dos casos estarão entre a média e dois desvios-padrão;3) 99.7 por cento dos casos estarão entre a média e três desvios-padrão.


~:~g~:I ~:8~oSOS

~~:~~:I~~7~oSOS

:---~.~~~l-~~-~~S-34.13% 34.13%

·3dp

·2dp

.,dp

+,dp

+2dp

+3dp

Número de desvios-padrão a partir da média

-igura 5.10 Propriedades da distribuição normal

Estas propriedades da distribuição normal são extremamente importantesquando o investigador pretende fazer inferências sobre a população a partirde uma amostra. Esta questão é o ponto central em análise no capítulo 6.

É importante ter em conta que há variáveis que não seguem o formatoda curva da distribuição normal. Por vezes, podem até afastar-se bastantedessa disposição. Essa tendência é muito clara quando os valores de uma disrribuição são assimétricos ou enviesados, isto é, quando tendem a concentrar-senum extremo. Quando isso acontece, a média e a mediana deixam de coincidir. Estas ideias são ilustradas pela figura 5.11. O diagrama da esquerda mostra uma curva que é positivamente assimétrica na medida em que os valores tendem a concentrar-se à esquerda e existe uma" cauda" longa no lado direito. Avariável necess ilustra uma distribuição positivamente as simétrica, tal comoo diagrama extremos-e-quartis da figura 5.7 sugere (a média é 24,75 e a mediana é 20,00). No diagrama da direita, a curva é negativamente enviesada ounegativamente assimétrica. Outro tipo de disposição é a de uma distribuiçãocom mais do que um pico.

Apesar de se reconhecer que algumas variáveis, em ciências sociais, nãotêm as características da curva normal elas são, apesar disso, muitas vezestratadas como se as tivessem; é, no entanto, necessário algum cuidado quando existe uma discrepância marcada em relação à curva normal, como acontece nos dois casos da figura 5.10. Assim, por exemplo, muitos autores


y

Mediana Médiax

y

Média Mediana x

Distribuição positivamenteassimétrica

Distribuição negativamenteassimétrica

Figura 5.11 Distribuições positiva e negativamente enviesada

argumentariam que não seria correcto aplicar testes estatísticos que pressupõem que os dados seguem uma distribuição normal quando as variáveis se:

distribuem de forma pronunciadamente enviesada. Muito frequentementepode examinar-se se as curvas se afastam da curva característica da distribuição normal através da análise de uma distribuição de frequências ou de urrhistograma.

O SPSS permite-nos avaliar o enviesamento (Skewness), através do procedimento seguinte (a variável rendim vai ser utilizada a título de ilustração):

~ Analyze ~ Descriptive Statistics ~ Frequencies ... [abre a caixa dediálogo Fequences apresentada na caixa 5.3]

Frequencies: Slalislics I&'J

Continueentral TeriOencl

_.•VaJues are group roidpoíntsDPercentae Values

t1)Quartiles

01Cyt points forllQJl equal groups

Caixa 5.9 A subcaixa de diálogo Frequencies: Statistics


~ rendim ~ ~ [botão] ~ Statistics [abre a subcaixa de diálogo Frequences: Statistics apresentada na caixa 5.9]~ Skewness na caixa Distribution ~ Continue [fecha a subcaixa dediálogo Statistics]~OK

3e não houver assimetria, ou seja, se a variável for normalmente distribuída,5-€ráregistado um valor de zero ou próximo de zero. Se o valor for negativo osd.ados são negativamente assimétricos; se for positivo são positivamente assi:nétricos. Por outro lado, este teste não é fácil de interpretar e é importante.:onfrontar a possibilidade de uma assimetria excessiva a partir da observa;ão directa dos dados. Isto pode ser feito através de uma distribuição de fre-iuências ou através de uma representação diagramática, como um histogra:na ou um diagrama troncos-e-folhas.

Exercícios

Qual o procedimento do SPSS necessário para criar uma distribuição defrequências para os dados do Questionário do Trabalho referentes aprodutiv, acompanhada dos valores percentuais e da mediana?Faça correr, novamente, o procedimento que utilizou na pergunta 1.Qual a percentagem de sujeitos que fica na categoria "fraca"?Que problema pensa que poderia ocorrer se utilizasse a média comomedida de tendência central e a amplitude como medida de dispersãoda variável "dimensão da firma" no quadro 8.11?Qual das seguintes representações não deve ser usada para uma variável de intervalo: a) um diagrama extremos-e-quartis; b) um diagramatroncos-e-folhas; c) um gráfico de barras ou d) um histograma?Qual o procedimento do SPSS necessário para calcular a amplitude interquartis da variável rendim do Questionário do Trabalho?Qual é a amplitude interquartis de satis?Em que medida o desvio-padrão é uma medida de dispersão melhor doque a amplitude interquartis?Considerando, de novo, a variável satis, qual o leque provável de valores de satis que se situa entre a média e dois desvios-padrão? Qual a percentagem de casos que provavelmente cairía dentro desse intervalo devalores?

análise de dados_5 capítulos

Documents