atlas brasil 2013 dimensÃo educaÇÃo e outras … · melhor explicadas na tabela 1. ressalta-se...

104
PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Faculdade de Economia, Administração, Contabilidade e Atuariais. ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS VARIÁVEIS Disciplina: Métodos Quantitativos Professor: Dr. Arnoldo Jose de Hoyos Amalia Costa Farias 1º Semestre 2014

Upload: trannga

Post on 14-Dec-2018

220 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO

Faculdade de Economia, Administração, Contabilidade e Atuariais.

ATLAS BRASIL 2013

DIMENSÃO EDUCAÇÃO E OUTRAS VARIÁVEIS

Disciplina: Métodos Quantitativos

Professor: Dr. Arnoldo Jose de Hoyos

Amalia Costa Farias

1º Semestre 2014

Page 2: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

2

1. INTRODUÇÃO

O presente trabalho tem por objetivo efetuar uma análise exploratória na dimensão

Desenvolvimento Humano dos dados apresentados na plataforma Atlas Brasil. Para tanto, o

relatório utilizado para análise da dimensão Desenvolvimento Humano no Atlas Brasil 2013,

que é apresenta o Índice de Desenvolvimento Humano Municipal – IDHM - de 5.565

municípios brasileiros, além de mais de 180 indicadores de população, educação, habitação,

saúde, trabalho, renda e vulnerabilidade, com dados extraídos dos Censos Demográficos de

1991, 2000 e 2010.1

Para iniciar o entendimento dos dados que tem como foco o relatório Atlas Brasil 2013

(dados 2010), incluindo a definição das variáveis, suas classificações em variáveis categóricas

ou quantitativas, os significados e unidades de medida, além da apresentação da tabela de

dados. Na seqüência, analisamos cada uma das variáveis separadamente quanto a sua forma

de distribuição, os valores atípicos, medidas de centro e dispersão. Para tal contamos com o

auxílio de gráficos (pie chart, barras, histogramas, gráficos de ramos, box-plot, dot-plot e

curvas de densidade) e de medidas numéricas (média, mediana, quartis, desvio-padrão,

variância, intervalo de confiança e teste de normalidade de Anderson-Darling). No final,

buscamos comparar as análises efetuadas para cada variável. O software estatístico utilizado é

o MINITAB 16.

2. ENTENDENDO OS DADOS

2.1 – OS INDIVÍDUOS.

Os indivíduos deste trabalho são os municípios brasileiros, que serão analisados pelos

seus indicadores relativo à dimensão Desenvolvimento Humano presentes no relatório Atlas

Brasil 2013, dados referentes ao ano de 2010. Este sujeito da análise é composto por um total

de 5565 municípios brasileiros e os dados analisados de cada município são as variáveis que

serão descritas na próxima seção.

Quanto à dimensão Desenvolvimento Humano, esta está relacionada ao processo de

ampliação das liberdades das pessoas, no que tange as suas capacidades e as oportunidades a

seu dispor, para que elas possam escolher a vida que desejam ter. O processo de expansão

destas liberdades inclui as dinâmicas sociais, econômicas, políticas e ambientais necessárias

para garantir uma variedade de oportunidades, bem como o ambiente propício para cada um

exercer na plenitude o seu potencial.

Deste modo, o Desenvolvimento Humano deve estar centrado nas pessoas e na

ampliação do seu bem-estar. Nesta abordagem, a renda e a riqueza não são fins em si mesmas,

mas meios para que as pessoas possam viver a vida que desejam. Assim, o crescimento

econômico de uma sociedade não se traduz automaticamente em qualidade de vida e, muitas

vezes, o que se observa é o reforço das desigualdades.

1 Cf. http://www.atlasbrasil.org.br/2013/

Page 3: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

3

Portanto, é preciso que o crescimento econômico seja transformado em conquistas

concretas para as pessoas, por meio de ações que proporcionem uma realidade que apresente

crianças mais saudáveis, educação universal e de qualidade, ampliação da participação

política dos cidadãos, preservação ambiental, equilíbrio da renda e das oportunidades entre

toda a população, maior liberdade de expressão, entre outras. Além disso, ao colocar as

pessoas no centro da análise, a abordagem de desenvolvimento humano redefine a maneira

com que pensamos e lidamos com o desenvolvimento de forma nacional e local, ou seja, no

âmbito dos municípios.

2.2 As Variáveis

São 13 as variáveis desta pesquisa, incluindo a Unidade da Federação (UF). As mesmas são

melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes

ao ano de 2010.

VARIÁVEL SIGNIFICADO TIPO UNIDADE DE

MEDIDA T_NESTUDA_NTRAB_MMEIO_np Razão entre pessoas de 15 a 24 anos que

não estudam nem trabalham e são

vulneráveis à pobreza e a população total

nesta faixa etária multiplicado por 100

Variável

Quantitativa

Percentual

T_FUNDIN_TODOS_MMEIO_np Percentual de pessoas que vivem em

domicílios vulneráveis a pobreza (renda per

capta inferior a ½ salário mínimo que não

possuem o fundamental completo.

Variável

Quantitativa

Percentual

MORT1(n-1) Número crianças que deverão sobreviver ao

primeiro ano de vida em cada 1000

nascidas vivas

Variável

Quantitativa

Índice

T_DENS(n) % da população em domicílios com

densidade > 2

Variável

Quantitativa

Percentual

IDHMn Índice de Desenvolvimento Humano

Municipal. Média geométrica dos índices

das dimensões Renda, Educação,

Longevidade, com pesos iguais.

Variável

Quantitativa

Índice

IDHM_En Índice sintético da dimensão Educação que

é um dos componentes do IDHM. É obtido

através da média geométrica do su

Variável

Quantitativa subindice da freqüência de

crianças e jovens à escola, com peso de 2/3,

e o subindice de escolaridade da população

adulta com peso 2/3.

Variável

Quantitativa

Índice

AFALB 15A17n Razão entre a população 14 a 17 que são

alfabetizadas que saber escrever

multiplicado por 100

Variável

Quantitativa

Percentual

T_FLBAS Razão entre o número de pessoas na faixa

etária de 6 a 17 anos frequentando o ensino

básico (fundamental ou médio - regular ou

seriado) e a população total dessa mesma

faixa etária multiplicado por 100. As

pessoas de 6 a 17 anos frequentando a pré-

escola foram consideradas como se

estivessem no 1º ano do ensino

fundamental. As pessoas de 6 a 17 anos

frequentando a 4ª série do ensino médio

foram consideradas como já tendo

concluído esse nível de ensino.

Variável

Quantitativa

Percentual

Page 4: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

4

RENOCUPn Rendimento médios dos ocupados. Variável

Quantitativa

Percentual

PRENTRABn Percentual de renda a proveniente de

rendimento do trabalho

Variável

Quantitativa

Percentual

T_ATIVn Razão entre pessoas de 10 anos ou mais de

idade que eram economicamente ativas, ou

seja, que estavam ocupadas ou desocupadas

na semana de referencia do Censo e o total

de pessoas entre a faixa etária multiplicado

por 100. Considera-se desocupada pessoa

que não estando ocupada na semana de

referência, havia procurado trabalho no mês

anterior a essa pesquisa.

Variável

Categórica

Percentual

T_DES2529np Percentual da população economicamente

ativa (PEA) nessa faixa etária que estava

desocupada , ou seja, que não estava

ocupada na anterior a data de Censo mas

havia procurado trabalho ao longo do mês

na anterior da data da pesquisa.

Variável

Quantitativa

Percentual

UF Código utilizado pelo IBGE para

identificação do Estado

Variável

Categórica

N/A

Fonte: Atlas Brasil, 2013.

2.3 A Tabela de Dados

DDescriptive Statistics: T_NESTUDA_NT; T_FUNDIN_TOD; T_FUNDIN_TOD; ... Variable N N* Mean SE Mean Minimum Q1 Median

T_NESTUDA_NTRAB_MMEIO_np 5564 0 0,73254 0,00212 0,00000 0,60905 0,75258

T_FUNDIN_TODOS_MMEIO_np 5564 0 0,72383 0,00230 0,00000 0,59277 0,75027

T_FUNDIN_TODOS_MMEIO_np 5564 0 0,72383 0,00230 0,00000 0,59277 0,75027

MORT1(n-1) 5564 0 0,71919 0,00250 0,00000 0,60037 0,78034

T_DENS(n) 5564 0 0,27818 0,00198 0,00000 0,16775 0,25474

IDHMn 5564 0 0,54308 0,00217 0,00000 0,40766 0,55631

AFALB 15A17n 5564 0 0,07936 0,00103 0,00000 0,02863 0,05100

T_FLBAS 5564 0 0,80070 0,00105 0,00000 0,76350 0,80948

RENOCUPn 5564 0 0,21158 0,00150 0,00000 0,11579 0,20561

PRENTRABn 5564 0 0,60539 0,00213 0,00000 0,49583 0,63626

T_ATIVn 5564 0 0,48060 0,00177 0,00000 0,38614 0,48397

T_DES2529np 5564 0 0,82568 0,00153 0,00000 0,76663 0,84216

Variable Q3 Maximum

T_NESTUDA_NTRAB_MMEIO_np 0,86787 1,00000

T_FUNDIN_TODOS_MMEIO_np 0,87271 1,00000

T_FUNDIN_TODOS_MMEIO_np 0,87271 1,00000

MORT1(n-1) 0,86139 1,00000

T_DENS(n) 0,36288 1,00000

IDHMn 0,67568 1,00000

AFALB 15A17n 0,11095 1,00000

T_FLBAS 0,85007 1,00000

RENOCUPn 0,28660 1,00000

PRENTRABn 0,72508 1,00000

T_ATIVn 0,56524 1,00000

T_DES2529np 0,90755 1,00000

Page 5: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

5

3. ANÁLISE DAS VARIÁVEIS

3.1 Variáveis Categóricas

Este tipo de variável indica que o foco de concentração deve ser a análise de gráficos do tipo

pie chart e/ou barras.

3.1.1 Variável: “Município”

A amostra totaliza 5565 municípios, que pode ser verificada na distribuição no território

nacional de acordo com a região no gráfico 1.

Gráfico 1 - distribuição dos municípios nas Regiões Brasileiras.

Fonte: elaborado pelo autor, 2014 (Atlas Brasil, 2014)

De acordo com gráfico 1 pode-se observar que as maiores concentrações de municípios

brasileiros estão nas regiões do Nordeste com 32,20% e Sudeste com 30% somando juntas

mais de 50% dos municípios pesquisados (62,20%).

O Gráfico 2 demonstra a distribuição dos municípios pelas Unidades Federativas do Brasil.

N

CO

S

SE

NE

Categoria

NE

1794; 32,2%

SE

1668; 30,0%

S

1188; 21,3%

CO

466; 8,4%

N

449; 8,1%

Gráfico de Setores de Região

Page 6: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

6

Gráfico 2 – Representação dos municípios nas Unidades da Federação

Fonte: elaborado pelo autor, 2014 (Atlas Brasil, 2014)

Fonte: Atlas Brasil, 2014.

RN

CE

PE

MA

PB

PI

GO

SC

PR

BA

AM

RS

SP

MG

Outros

SE

ES

MS

RJ

AL

TO

MT

PA

CategoriaOther

1,9%

MG

15,3%

SP

11,6%

RS

8,9%

BA

7,5%PR

7,2%

SC

5,3%

GO

4,4%

PI

4,0%

PB

4,0%

MA

3,9%

PE

3,3%

CE

3,3%

RN

3,0%

PA

2,6%

MT

2,5%

TO

2,5%

AL

1,8%

RJ

1,7%

MS

1,4%

ES

1,4%

SE

1,3%AM

1,1%

Gráfico de Setores de UFN

Page 7: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

7

Fonte: Atlas Brasil, 2014

Conforme a tabela acima houve uma evolução do IDHM no período de 1991 a 2010

nas seguintes proporções:

- A população adulta com ensino fundamental concluído passou de 30,1% para 54,9%.

- Crianças nas faixas de 5 a 6 anos frequentando a escola passaram de 37,3% para

91,1%.

- Jovens de 11 a 13 a anos nos anos finais do fundamental passou de 36,8% para

84,9%.

- Jovens de 15 a 17 anos com fundamental completo passou de 20% a 57,2%. Apesar

da alta, 40% dos jovens nesta faixa ainda não tem o fundamental completo.

- Jovens de 18 a 20 anos com ensino médio completo passou de 13% para 41%, o que

significa que a maioria destes jovens ainda não possui o ensino médio completo

3.2 Variáveis Quantitativas

Conforme as informações do Atlas Brasil, entre 2000 e 2010 65% dos municípios

cresceram acima da média nacional. Em 2010 23% dos municípios tem o IDHM Educação

acima do subíndice equivalente do Brasil (0,637), com destaques para regiões Sul e Sudeste

Page 8: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

8

que tem mais de 50% dos municípios com IDHM Educação nas faixas Médio e Alto

Desenvolvimento Humano. O Centro-Oeste do Brasil possui mais de 90% dos seus

municípios com IDHM Educação nas faixas Médio e Baixo Desenvolvimento Humano.

De acordo com estudo realizados pelo Atlas Brasil, o índice mais alto de IDHM

Educação, 0,825 ficou com a cidade de Águas de São Pedro (SP), o municípios conta com

100% da população entre 5 e 6 anos de idade frequentando a escola, 96,67% entre 11 e 13

anos nas fases finais do ensino fundamental, 74,17% entre 15 a 17 anos com fundamental

completo, 74,64% de entre 18 a 20 anos com ensino médio completo e 75,07% com 18 anos

ou mais com ensino fundamental completo.

Além do destaque positivo para o Sudeste, o resultado apontou resultados negativos

para as regiões do norte nordeste no qual podemos destacar a cidade de Melgaço (PA) com o

índice mais baixo, 0,207. Nesta cidade foi verificado que 58,68% da população entre 5 e 6

frequentam a escola, 35,83% na faixa etária de 11 a 13 anos estão nas series finais do ensino

fundamental, apenas 6,89% entre 15 e 17 anos possui o fundamental completo e apenas

5,63% de jovens entre 18 e 20 anos concluíram o ensino médio. O índice de jovens chegando

a fase adulta com 18 ou mais que concluíram o ensino fundamental chega ao índice de

12,34%

A análise deste tipo de variável permite a utilização de uma maior gama de ferramentas de

análise como histogramas, curvas de densidade e box-plot, além de informações numéricas

como média, desvio-padrão, mediana, intervalo de confiança e teste de normalidade de

Anderson-Darling.

3.2.1 Variável: T_NESTUDA_NTRAB_MMEIO_np

Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de

confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,

variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de

Anderson-Darling (A-Squared e P-Value), para a variável abaixo.

0,980,840,700,560,420,280,140,00

Median

Mean

0,7600,7550,7500,7450,7400,7350,730

1st Q uartile 0,60905

Median 0,75258

3rd Q uartile 0,86787

Maximum 1,00000

0,72837 0,73670

0,74045 0,75920

0,15551 0,16139

A -Squared 61,29

P-V alue < 0,005

Mean 0,73254

StDev 0,15839

V ariance 0,02509

Skewness -0,387856

Kurtosis -0,679669

N 5564

Minimum 0,00000

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for T_NESTUDA_NTRAB_MMEIO_np

Algumas observações que podemos fazer:

Page 9: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

9

Forma: O Histograma nos permite analisar uma distribuição concentrada na faixa entre

73 a 76 anos de idade. O Box-Plot demonstra a concentração na faixa acima citada, o

posicionamento da mediana está a direita do referido intervalo.

Valores Atípicos: não se apresentaram nesta análise.

Centro e Dispersão: A mediana nos indica que aproximadamente metade dos

municípios tem ESPVIDA menor do que 73,470 anos e a outra metade maior que este

valor. A ESPVIDA média dos municípios é de 73,089 anos, tendo um desvio-padrão

de 2,681 anos, não sendo um valor expressivo. A ESPVIDA mínima é de 65,3 anos e

a máxima de 78,64, demonstrando uma amplitude menor que 10 anos. Com 95% de

confiança, podemos afirmar que a média encontra-se entre os valores 73,019 anos e

73,159 anos.

3.2.2 Variável: T_FUNDIN_TODOS_MMEIO_np

Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de

confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,

variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de

Anderson-Darling (A-Squared e P-Value), para a variável abaixo.

0,980,840,700,560,420,280,140,00

Median

Mean

0,760,750,740,730,72

1st Q uartile 0,59277

Median 0,75027

3rd Q uartile 0,87271

Maximum 1,00000

0,71933 0,72834

0,74278 0,75762

0,16826 0,17463

A -Squared 78,16

P-V alue < 0,005

Mean 0,72383

StDev 0,17138

V ariance 0,02937

Skewness -0,518668

Kurtosis -0,562850

N 5564

Minimum 0,00000

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for T_FUNDIN_TODOS_MMEIO_np

Algumas observações que podemos fazer:

Forma: O Histograma nos permite analisar uma distribuição concentrada na faixa entre

73 a 76 anos de idade. O Box-Plot demonstra a concentração na faixa acima citada, o

posicionamento da mediana está a direita do referido intervalo.

Valores Atípicos: não se apresentaram nesta análise.

Centro e Dispersão: A mediana nos indica que aproximadamente metade dos

municípios tem ESPVIDA menor do que 73,470 anos e a outra metade maior que este

valor. A ESPVIDA média dos municípios é de 73,089 anos, tendo um desvio-padrão

Page 10: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

10

de 2,681 anos, não sendo um valor expressivo. A ESPVIDA mínima é de 65,3 anos e

a máxima de 78,64, demonstrando uma amplitude menor que 10 anos. Com 95% de

confiança, podemos afirmar que a média encontra-se entre os valores 73,019 anos e

73,159 anos.

3.2.3 Variável: MORT1(n-1)

Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de

confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,

variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de

Anderson-Darling (A-Squared e P-Value), para a variável abaixo.

0,980,840,700,560,420,280,140,00

Median

Mean

0,7950,7800,7650,7500,7350,720

1st Q uartile 0,60037

Median 0,78034

3rd Q uartile 0,86139

Maximum 1,00000

0,71429 0,72408

0,77296 0,78570

0,18290 0,18982

A -Squared 158,73

P-V alue < 0,005

Mean 0,71919

StDev 0,18629

V ariance 0,03471

Skewness -1,00602

Kurtosis 0,43190

N 5564

Minimum 0,00000

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for MORT1(n-1)

Algumas observações que podemos fazer:

Forma: O Histograma nos permite analisar uma distribuição concentrada na faixa entre

73 a 76 anos de idade. O Box-Plot demonstra a concentração na faixa acima citada, o

posicionamento da mediana está a direita do referido intervalo.

Valores Atípicos: não se apresentaram nesta análise.

Centro e Dispersão: A mediana nos indica que aproximadamente metade dos

municípios tem ESPVIDA menor do que 73,470 anos e a outra metade maior que este

valor. A ESPVIDA média dos municípios é de 73,089 anos, tendo um desvio-padrão

de 2,681 anos, não sendo um valor expressivo. A ESPVIDA mínima é de 65,3 anos e

a máxima de 78,64, demonstrando uma amplitude menor que 10 anos. Com 95% de

confiança, podemos afirmar que a média encontra-se entre os valores 73,019 anos e

73,159 anos.

3.2.4 Variável: T_DENS(n)

Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de

confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,

Page 11: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

11

variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de

Anderson-Darling (A-Squared e P-Value), para a variável abaixo.

0,980,840,700,560,420,280,140,00

Median

Mean

0,2800,2750,2700,2650,2600,2550,250

1st Q uartile 0,16775

Median 0,25474

3rd Q uartile 0,36288

Maximum 1,00000

0,27430 0,28206

0,25042 0,26032

0,14505 0,15054

A -Squared 60,82

P-V alue < 0,005

Mean 0,27818

StDev 0,14774

V ariance 0,02183

Skewness 1,04488

Kurtosis 1,63321

N 5564

Minimum 0,00000

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for T_DENS(n)

Algumas observações que podemos fazer:

Forma: O Histograma nos permite analisar uma distribuição concentrada na faixa entre

73 a 76 anos de idade. O Box-Plot demonstra a concentração na faixa acima citada, o

posicionamento da mediana está a direita do referido intervalo.

Valores Atípicos: não se apresentaram nesta análise.

Centro e Dispersão: A mediana nos indica que aproximadamente metade dos

municípios tem ESPVIDA menor do que 73,470 anos e a outra metade maior que este

valor. A ESPVIDA média dos municípios é de 73,089 anos, tendo um desvio-padrão

de 2,681 anos, não sendo um valor expressivo. A ESPVIDA mínima é de 65,3 anos e

a máxima de 78,64, demonstrando uma amplitude menor que 10 anos. Com 95% de

confiança, podemos afirmar que a média encontra-se entre os valores 73,019 anos e

73,159 anos.

3.2.5 Variável: IDHMn

Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de

confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,

variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de

Anderson-Darling (A-Squared e P-Value), para a variável abaixo.

Page 12: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

12

0,980,840,700,560,420,280,140,00

Median

Mean

0,5650,5600,5550,5500,5450,540

1st Q uartile 0,40766

Median 0,55631

3rd Q uartile 0,67568

Maximum 1,00000

0,53882 0,54734

0,54955 0,56532

0,15914 0,16516

A -Squared 40,64

P-V alue < 0,005

Mean 0,54308

StDev 0,16209

V ariance 0,02627

Skewness -0,156737

Kurtosis -0,846019

N 5564

Minimum 0,00000

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for IDHMn

Algumas observações que podemos fazer:

Forma: O Histograma nos permite analisar uma distribuição concentrada na faixa entre

73 a 76 anos de idade. O Box-Plot demonstra a concentração na faixa acima citada, o

posicionamento da mediana está a direita do referido intervalo.

Valores Atípicos: não se apresentaram nesta análise.

Centro e Dispersão: A mediana nos indica que aproximadamente metade dos

municípios tem ESPVIDA menor do que 73,470 anos e a outra metade maior que este

valor. A ESPVIDA média dos municípios é de 73,089 anos, tendo um desvio-padrão

de 2,681 anos, não sendo um valor expressivo. A ESPVIDA mínima é de 65,3 anos e

a máxima de 78,64, demonstrando uma amplitude menor que 10 anos. Com 95% de

confiança, podemos afirmar que a média encontra-se entre os valores 73,019 anos e

73,159 anos.

3.2.6 Variável: IDHM_En

Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de

confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,

variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de

Anderson-Darling (A-Squared e P-Value), para a variável abaixo.

Page 13: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

13

0,980,840,700,560,420,280,140,00

Median

Mean

0,57750,57500,57250,57000,56750,5650

1st Q uartile 0,45793

Median 0,57120

3rd Q uartile 0,68608

Maximum 1,00000

0,56571 0,57365

0,56634 0,57605

0,14822 0,15384

A -Squared 9,34

P-V alue < 0,005

Mean 0,56968

StDev 0,15098

V ariance 0,02279

Skewness -0,098854

Kurtosis -0,515646

N 5564

Minimum 0,00000

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for IDHM_En

Algumas observações que podemos fazer:

Forma: O Histograma nos permite analisar uma distribuição concentrada na faixa entre

73 a 76 anos de idade. O Box-Plot demonstra a concentração na faixa acima citada, o

posicionamento da mediana está a direita do referido intervalo.

Valores Atípicos: não se apresentaram nesta análise.

Centro e Dispersão: A mediana nos indica que aproximadamente metade dos

municípios tem ESPVIDA menor do que 73,470 anos e a outra metade maior que este

valor. A ESPVIDA média dos municípios é de 73,089 anos, tendo um desvio-padrão

de 2,681 anos, não sendo um valor expressivo. A ESPVIDA mínima é de 65,3 anos e

a máxima de 78,64, demonstrando uma amplitude menor que 10 anos. Com 95% de

confiança, podemos afirmar que a média encontra-se entre os valores 73,019 anos e

73,159 anos.

3.2.7 Variável:

Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de

confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,

variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de

Anderson-Darling (A-Squared e P-Value), para a variável abaixo.

Page 14: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

14

0,980,840,700,560,420,280,140,00

Median

Mean

0,0800,0750,0700,0650,0600,0550,050

1st Q uartile 0,02863

Median 0,05100

3rd Q uartile 0,11095

Maximum 1,00000

0,07734 0,08138

0,04921 0,05279

0,07557 0,07843

A -Squared 298,31

P-V alue < 0,005

Mean 0,07936

StDev 0,07697

V ariance 0,00592

Skewness 2,6772

Kurtosis 15,1646

N 5564

Minimum 0,00000

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for AFALB 15A17n

Algumas observações que podemos fazer:

Forma: O Histograma nos permite analisar uma distribuição concentrada na faixa entre

73 a 76 anos de idade. O Box-Plot demonstra a concentração na faixa acima citada, o

posicionamento da mediana está a direita do referido intervalo.

Valores Atípicos: não se apresentaram nesta análise.

Centro e Dispersão: A mediana nos indica que aproximadamente metade dos

municípios tem ESPVIDA menor do que 73,470 anos e a outra metade maior que este

valor. A ESPVIDA média dos municípios é de 73,089 anos, tendo um desvio-padrão

de 2,681 anos, não sendo um valor expressivo. A ESPVIDA mínima é de 65,3 anos e

a máxima de 78,64, demonstrando uma amplitude menor que 10 anos. Com 95% de

confiança, podemos afirmar que a média encontra-se entre os valores 73,019 anos e

73,159 anos.

3.2.8 Variável: T_FLBAS

Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de

confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,

variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de

Anderson-Darling (A-Squared e P-Value), para a variável abaixo.

Page 15: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

15

0,980,840,700,560,420,280,140,00

Median

Mean

0,81250,81000,80750,80500,80250,8000

1st Q uartile 0,76350

Median 0,80948

3rd Q uartile 0,85007

Maximum 1,00000

0,79863 0,80276

0,80715 0,81181

0,07708 0,08000

A -Squared 64,14

P-V alue < 0,005

Mean 0,80070

StDev 0,07851

V ariance 0,00616

Skewness -1,73106

Kurtosis 8,81262

N 5564

Minimum 0,00000

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for T_FLBAS

Algumas observações que podemos fazer:

Forma: O Histograma nos permite analisar uma distribuição concentrada na faixa entre

73 a 76 anos de idade. O Box-Plot demonstra a concentração na faixa acima citada, o

posicionamento da mediana está a direita do referido intervalo.

Valores Atípicos: não se apresentaram nesta análise.

Centro e Dispersão: A mediana nos indica que aproximadamente metade dos

municípios tem ESPVIDA menor do que 73,470 anos e a outra metade maior que este

valor. A ESPVIDA média dos municípios é de 73,089 anos, tendo um desvio-padrão

de 2,681 anos, não sendo um valor expressivo. A ESPVIDA mínima é de 65,3 anos e

a máxima de 78,64, demonstrando uma amplitude menor que 10 anos. Com 95% de

confiança, podemos afirmar que a média encontra-se entre os valores 73,019 anos e

73,159 anos.

3.2.9 Variável: RENOCUPn

Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de

confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,

variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de

Anderson-Darling (A-Squared e P-Value), para a variável.

Page 16: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

16

0,980,840,700,560,420,280,140,00

Median

Mean

0,21500,21250,21000,20750,20500,20250,2000

1st Q uartile 0,11579

Median 0,20561

3rd Q uartile 0,28660

Maximum 1,00000

0,20863 0,21452

0,20019 0,21051

0,11005 0,11422

A -Squared 35,54

P-V alue < 0,005

Mean 0,21158

StDev 0,11209

V ariance 0,01257

Skewness 0,70531

Kurtosis 1,17887

N 5564

Minimum 0,00000

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for RENOCUPn

Algumas observações que podemos fazer:

Forma: O Histograma nos apresenta uma distribuição concentrada na faixa entre

R$175 e R$900. O Box-Plot demonstra a concentração na faixa acima citada, o

posicionamento da mediana confirma o posicionamento.

Valores Atípicos: Há um número de valores atípicos onde podemos ressaltar os dois

municípios com maior renda, são eles os municípios de São Caetano do Sul com renda

de R$ 2043,74, e Niterói com renda de R$ 2000.29.

Centro e Dispersão: A mediana nos indica que aproximadamente metade dos

municípios tem renda menor do que R$467,65. A renda média dos municípios é de

R$ 493,61, tendo um desvio-padrão de R$243,27. A RDPC mínima é de R$ 96,25 e a

máxima de R$ 2043,74. Com 95% de confiança, podemos afirmar que a média

encontra-se entre os valores R$487,21 e R$500.

3.2.10 Variável: PRENTRABn

Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de

confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,

variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de

Anderson-Darling (A-Squared e P-Value), para a variável abaixo.

Page 17: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

17

0,980,840,700,560,420,280,140,00

Median

Mean

0,640,630,620,610,60

1st Q uartile 0,49583

Median 0,63626

3rd Q uartile 0,72508

Maximum 1,00000

0,60121 0,60958

0,63065 0,64114

0,15632 0,16224

A -Squared 56,59

P-V alue < 0,005

Mean 0,60539

StDev 0,15923

V ariance 0,02535

Skewness -0,540203

Kurtosis -0,306711

N 5564

Minimum 0,00000

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for PRENTRABn

Algumas observações que podemos fazer:

Forma: O Histograma nos apresenta uma distribuição concentrada na faixa entre

R$175 e R$900. O Box-Plot demonstra a concentração na faixa acima citada, o

posicionamento da mediana confirma o posicionamento.

Valores Atípicos: Há um número de valores atípicos onde podemos ressaltar os dois

municípios com maior renda, são eles os municípios de São Caetano do Sul com renda

de R$ 2043,74, e Niterói com renda de R$ 2000.29.

Centro e Dispersão: A mediana nos indica que aproximadamente metade dos

municípios tem renda menor do que R$467,65. A renda média dos municípios é de

R$ 493,61, tendo um desvio-padrão de R$243,27. A RDPC mínima é de R$ 96,25 e a

máxima de R$ 2043,74. Com 95% de confiança, podemos afirmar que a média

encontra-se entre os valores R$487,21 e R$500.

3.2.11 Variável: T_ATIVn

Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de

confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,

variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de

Anderson-Darling (A-Squared e P-Value), para a variável abaixo.

Page 18: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

18

0,980,840,700,560,420,280,140,00

Median

Mean

0,4880,4860,4840,4820,4800,4780,476

1st Q uartile 0,38614

Median 0,48397

3rd Q uartile 0,56524

Maximum 1,00000

0,47713 0,48407

0,47968 0,48855

0,12958 0,13448

A -Squared 5,42

P-V alue < 0,005

Mean 0,48060

StDev 0,13198

V ariance 0,01742

Skewness 0,142122

Kurtosis 0,207604

N 5564

Minimum 0,00000

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for T_ATIVn

Algumas observações que podemos fazer:

Forma: O Histograma nos apresenta uma distribuição concentrada na faixa entre

R$175 e R$900. O Box-Plot demonstra a concentração na faixa acima citada, o

posicionamento da mediana confirma o posicionamento.

Valores Atípicos: Há um número de valores atípicos onde podemos ressaltar os dois

municípios com maior renda, são eles os municípios de São Caetano do Sul com renda

de R$ 2043,74, e Niterói com renda de R$ 2000.29.

Centro e Dispersão: A mediana nos indica que aproximadamente metade dos

municípios tem renda menor do que R$467,65. A renda média dos municípios é de

R$ 493,61, tendo um desvio-padrão de R$243,27. A RDPC mínima é de R$ 96,25 e a

máxima de R$ 2043,74. Com 95% de confiança, podemos afirmar que a média

encontra-se entre os valores R$487,21 e R$500.

3.2.12 Variável: T_DES2529np

Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de

confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,

variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de

Anderson-Darling (A-Squared e P-Value), para a variável abaixo.

Page 19: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

19

0,980,840,700,560,420,280,140,00

Median

Mean

0,8450,8400,8350,8300,8250,820

1st Q uartile 0,76663

Median 0,84216

3rd Q uartile 0,90755

Maximum 1,00000

0,82268 0,82867

0,83923 0,84523

0,11173 0,11596

A -Squared 64,58

P-V alue < 0,005

Mean 0,82568

StDev 0,11380

V ariance 0,01295

Skewness -1,19667

Kurtosis 2,78096

N 5564

Minimum 0,00000

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for T_DES2529np

Algumas observações que podemos fazer:

Forma: O Histograma nos apresenta uma distribuição concentrada na faixa entre

R$175 e R$900. O Box-Plot demonstra a concentração na faixa acima citada, o

posicionamento da mediana confirma o posicionamento.

Valores Atípicos: Há um número de valores atípicos onde podemos ressaltar os dois

municípios com maior renda, são eles os municípios de São Caetano do Sul com renda

de R$ 2043,74, e Niterói com renda de R$ 2000.29.

Centro e Dispersão: A mediana nos indica que aproximadamente metade dos

municípios tem renda menor do que R$467,65. A renda média dos municípios é de

R$ 493,61, tendo um desvio-padrão de R$243,27. A RDPC mínima é de R$ 96,25 e a

máxima de R$ 2043,74. Com 95% de confiança, podemos afirmar que a média

encontra-se entre os valores R$487,21 e R$500.

4. ANÁLISE COMPARATIVA DA ANÁLISE DESCRITIVA

Apresentamos uma tabela comparando Histograma, Box Plot, curva de densidade, média,

desvio padrão, mediana e P-Value do teste de nornalidade de Anderson- Darling das variáveis

quantitativas analisadas.

Tabela 2. Analise Comparativa das Variáveis (Dimensões Desenvolvimento Humano)

VARIÁVEL GRÁFICO MÉDIA DESVIO_PADRÃO MEDIANA P-VALUE

Page 20: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

20

T_NESTUDA_N

TRAB_MMEIO

_np 0,980,840,700,560,420,280,140,00

Median

Mean

0,7600,7550,7500,7450,7400,7350,730

1st Q uartile 0,60905

Median 0,75258

3rd Q uartile 0,86787

Maximum 1,00000

0,72837 0,73670

0,74045 0,75920

0,15551 0,16139

A -Squared 61,29

P-V alue < 0,005

Mean 0,73254

StDev 0,15839

V ariance 0,02509

Skewness -0,387856

Kurtosis -0,679669

N 5564

Minimum 0,00000

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for T_NESTUDA_NTRAB_MMEIO_np

0,73254 0,15838 0,75258 0,005

T_FUNDIN_TO

DOS_MMEIO_

np

0,980,840,700,560,420,280,140,00

Median

Mean

0,760,750,740,730,72

1st Q uartile 0,59277

Median 0,75027

3rd Q uartile 0,87271

Maximum 1,00000

0,71933 0,72834

0,74278 0,75762

0,16826 0,17463

A -Squared 78,16

P-V alue < 0,005

Mean 0,72383

StDev 0,17138

V ariance 0,02937

Skewness -0,518668

Kurtosis -0,562850

N 5564

Minimum 0,00000

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for T_FUNDIN_TODOS_MMEIO_np

0,72383 0,17138 0,75027 0,005

MORT1(n-1) 0,980,840,700,560,420,280,140,00

Median

Mean

0,0800,0750,0700,0650,0600,0550,050

1st Q uartile 0,02863

Median 0,05100

3rd Q uartile 0,11095

Maximum 1,00000

0,07734 0,08138

0,04921 0,05279

0,07557 0,07843

A -Squared 298,31

P-V alue < 0,005

Mean 0,07936

StDev 0,07697

V ariance 0,00592

Skewness 2,6772

Kurtosis 15,1646

N 5564

Minimum 0,00000

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for AFALB 15A17n

0,71919 0,18629 0,78034 0,005

T_DENS(n) 0,980,840,700,560,420,280,140,00

Median

Mean

0,2800,2750,2700,2650,2600,2550,250

1st Q uartile 0,16775

Median 0,25474

3rd Q uartile 0,36288

Maximum 1,00000

0,27430 0,28206

0,25042 0,26032

0,14505 0,15054

A -Squared 60,82

P-V alue < 0,005

Mean 0,27818

StDev 0,14774

V ariance 0,02183

Skewness 1,04488

Kurtosis 1,63321

N 5564

Minimum 0,00000

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for T_DENS(n)

0,27818 0,14774 0,25474 0,005

IDHMn 0,980,840,700,560,420,280,140,00

Median

Mean

0,5650,5600,5550,5500,5450,540

1st Q uartile 0,40766

Median 0,55631

3rd Q uartile 0,67568

Maximum 1,00000

0,53882 0,54734

0,54955 0,56532

0,15914 0,16516

A -Squared 40,64

P-V alue < 0,005

Mean 0,54308

StDev 0,16209

V ariance 0,02627

Skewness -0,156737

Kurtosis -0,846019

N 5564

Minimum 0,00000

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for IDHMn

0,54308 0,16209 0,55631 0,005

Page 21: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

21

IDHM_En 0,980,840,700,560,420,280,140,00

Median

Mean

0,57750,57500,57250,57000,56750,5650

1st Q uartile 0,45793

Median 0,57120

3rd Q uartile 0,68608

Maximum 1,00000

0,56571 0,57365

0,56634 0,57605

0,14822 0,15384

A -Squared 9,34

P-V alue < 0,005

Mean 0,56968

StDev 0,15098

V ariance 0,02279

Skewness -0,098854

Kurtosis -0,515646

N 5564

Minimum 0,00000

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for IDHM_En

0,56968 0,15098 0,57120 0,005

AFALB 15A17n 0,980,840,700,560,420,280,140,00

Median

Mean

0,0800,0750,0700,0650,0600,0550,050

1st Q uartile 0,02863

Median 0,05100

3rd Q uartile 0,11095

Maximum 1,00000

0,07734 0,08138

0,04921 0,05279

0,07557 0,07843

A -Squared 298,31

P-V alue < 0,005

Mean 0,07936

StDev 0,07697

V ariance 0,00592

Skewness 2,6772

Kurtosis 15,1646

N 5564

Minimum 0,00000

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for AFALB 15A17n

0,07936 0,07697 0,005

T_FLBAS 0,980,840,700,560,420,280,140,00

Median

Mean

0,0800,0750,0700,0650,0600,0550,050

1st Q uartile 0,02863

Median 0,05100

3rd Q uartile 0,11095

Maximum 1,00000

0,07734 0,08138

0,04921 0,05279

0,07557 0,07843

A -Squared 298,31

P-V alue < 0,005

Mean 0,07936

StDev 0,07697

V ariance 0,00592

Skewness 2,6772

Kurtosis 15,1646

N 5564

Minimum 0,00000

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for AFALB 15A17n

0,80070 0,07851 0,80948 0,005

RENOCUPn 0,980,840,700,560,420,280,140,00

Median

Mean

0,21500,21250,21000,20750,20500,20250,2000

1st Q uartile 0,11579

Median 0,20561

3rd Q uartile 0,28660

Maximum 1,00000

0,20863 0,21452

0,20019 0,21051

0,11005 0,11422

A -Squared 35,54

P-V alue < 0,005

Mean 0,21158

StDev 0,11209

V ariance 0,01257

Skewness 0,70531

Kurtosis 1,17887

N 5564

Minimum 0,00000

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for RENOCUPn

0,21158 0,11209 0,20561 0,005

PRENTRABn 0,980,840,700,560,420,280,140,00

Median

Mean

0,640,630,620,610,60

1st Q uartile 0,49583

Median 0,63626

3rd Q uartile 0,72508

Maximum 1,00000

0,60121 0,60958

0,63065 0,64114

0,15632 0,16224

A -Squared 56,59

P-V alue < 0,005

Mean 0,60539

StDev 0,15923

V ariance 0,02535

Skewness -0,540203

Kurtosis -0,306711

N 5564

Minimum 0,00000

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for PRENTRABn

0,60539 0,15923 0,63626 0,005

Page 22: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

22

T_ATIVn 0,980,840,700,560,420,280,140,00

Median

Mean

0,4880,4860,4840,4820,4800,4780,476

1st Q uartile 0,38614

Median 0,48397

3rd Q uartile 0,56524

Maximum 1,00000

0,47713 0,48407

0,47968 0,48855

0,12958 0,13448

A -Squared 5,42

P-V alue < 0,005

Mean 0,48060

StDev 0,13198

V ariance 0,01742

Skewness 0,142122

Kurtosis 0,207604

N 5564

Minimum 0,00000

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for T_ATIVn

0,48060 0,13198 0,48397 0,005

T_DES2529np 0,980,840,700,560,420,280,140,00

Median

Mean

0,8450,8400,8350,8300,8250,820

1st Q uartile 0,76663

Median 0,84216

3rd Q uartile 0,90755

Maximum 1,00000

0,82268 0,82867

0,83923 0,84523

0,11173 0,11596

A -Squared 64,58

P-V alue < 0,005

Mean 0,82568

StDev 0,11380

V ariance 0,01295

Skewness -1,19667

Kurtosis 2,78096

N 5564

Minimum 0,00000

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for T_DES2529np

0,82568 0,11380 0,84216 0,005

A tabela 2 nos mostra uma visão geral das dimensões e variáveis já apresentadas e analisadas

individualmente nos tópicos anteriores. As variáveis que representam aspectos relacionados a

educação demonstram melhores resultados nos primeiros anos de vida, ou seja,

T_FUND11A13. A EXPVIDA tem uma distribuição mais simétrica, assim como as variáveis

IDHM e IDHM_L.

Vale ressaltar que a simetria ou não das distribuições não necessariamente tem relação com a

qualidade ou validade dos dados trabalhados. Distribuições assimétricas podem, por exemplo,

nos indicar onde devemos focar ou concentrar esforços para a obtenção de resultados

esperados de forma mais eficiente.

5. CORRELAÇOES DAS VARIÁVEIS DA DIMENSÃO DESENVOLVIMENTO

HUMANO

Os dados abaixo representam a correlação entre as variáveis selecionadas e já trabalhadas

anteriormente.

Correlations: T_NESTUDA_NT; T_FUNDIN_TOD; MORT1(n-1); T_DENS(n);

IDHMn; ...

T_NESTUDA_NTRAB_ T_FUNDIN_TODOS_M MORT1(n-1)

T_FUNDIN_TODOS_M 0,835

0,000

MORT1(n-1) 0,741 0,796

0,000 0,000

T_DENS(n) -0,670 -0,662 -0,594

0,000 0,000 0,000

IDHMn 0,837 0,962 0,829

0,000 0,000 0,000

IDHM_En 0,722 0,921 0,684

0,000 0,000 0,000

Page 23: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

23

AFALB 15A17n -0,670 -0,755 -0,668

0,000 0,000 0,000

T_FLBAS 0,071 0,061 -0,074

0,000 0,000 0,000

RENOCUPn 0,721 0,792 0,705

0,000 0,000 0,000

PRENTRABn 0,618 0,620 0,593

0,000 0,000 0,000

PRENTRABn 0,618 0,620 0,593

0,000 0,000 0,000

T_ATIVn 0,877 0,742 0,663

0,000 0,000 0,000

T_DES2529np 0,526 0,340 0,373

0,000 0,000 0,000

T_DENS(n) IDHMn IDHM_En

IDHMn -0,646

0,000

IDHM_En -0,555 0,951

0,000 0,000

AFALB 15A17n 0,645 -0,723 -0,666

0,000 0,000 0,000

T_FLBAS -0,161 0,068 0,159

0,000 0,000 0,000

RENOCUPn -0,430 0,869 0,765

0,000 0,000 0,000

PRENTRABn -0,245 0,638 0,531

0,000 0,000 0,000

PRENTRABn -0,245 0,638 0,531

0,000 0,000 0,000

T_ATIVn -0,676 0,732 0,612

0,000 0,000 0,000

T_DES2529np -0,395 0,334 0,234

0,000 0,000 0,000

AFALB 15A17n T_FLBAS RENOCUPn

T_FLBAS -0,179

0,000

RENOCUPn -0,550 -0,101

0,000 0,000

PRENTRABn -0,460 -0,221 0,753

0,000 0,000 0,000

PRENTRABn -0,460 -0,221 0,753

0,000 0,000 0,000

T_ATIVn -0,606 0,063 0,576

0,000 0,000 0,000

T_DES2529np -0,312 -0,022 0,247

0,000 0,101 0,000

PRENTRABn PRENTRABn T_ATIVn

PRENTRABn 1,000

*

T_ATIVn 0,553 0,553

Page 24: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

24

0,000 0,000

T_DES2529np 0,270 0,270 0,512

0,000 0,000 0,000

Cell Contents: Pearson correlation

P-Value

Com base nas informações constantes na matriz de correlação pode-se perceber que as

variáveis descritas na tabela 3 apresentam uma forte relação, vale destacar que elas

apresentam casualidade, ou seja, um sentido direto entre elas.

TABELA 3 – CORRELAÇÃO ENTRE AS VARIÁVEIS

6. DENDROGRAMA

Um Dendrograma (dendr(o) = árvore) é um tipo específico de diagrama ou representação

icônica que organiza determinados fatores e variáveis. Isto quer dizer que sua representação

apresenta um diagrama de similaridade.

A interpretação de um Dendrograma de similaridade entre amostras fundamenta-se na

intuição: duas amostras próximas devem ter também valores semelhantes para as variáveis

medidas. Ou seja, elas devem ser próximas matematicamente no espaço multidimensional.

Portanto, quanto maior a proximidade entre as medidas relativas às amostras, maior a

similaridade entre elas. O dendrograma hierarquiza esta similaridade de modo que podemos

ter uma visão bidimensional da similaridade ou dissimilaridade de todo o conjunto de

amostras utilizado no estudo.

Segue abaixo o Dendrograma das variáveis analisadas:

Análise de Agrupamentos de Variáveis: ESPVIDA; T_FREQ5A6; T_FUND11A13;

T_FUND15A17; ...

Distância do Coeficiente de Correlação, Ligação Completa

Passos de Amalgamação

Número de

obs. no

Número de Nível de Nível de Agrupados Novo novo

Passo agrupados similaridade distância reunidos agrupado agrupado

1 11 99,9990 0,000021 1 11 1 2

2 10 98,0832 0,038336 7 12 7 2

3 9 97,5438 0,049125 9 10 9 2

4 8 96,3577 0,072845 4 8 4 2

5 7 92,8408 0,143184 5 9 5 3

6 6 91,6586 0,166829 4 6 4 3

7 5 89,2088 0,215824 1 7 1 4

8 4 82,5541 0,348918 3 4 3 4

9 3 81,6181 0,367638 1 5 1 7

10 2 72,3070 0,553861 1 3 1 11

11 1 50,8072 0,983856 1 2 1 12

Page 25: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

25

7. GRÁFICOS DE DISPERSÃO

Nos gráficos abaixo são apresentadas as relações entre as variáveis relacionadas na tabela 3.

0,900,850,800,750,70

80,0

77,5

75,0

72,5

70,0

67,5

65,0

IDHM_L

ES

PV

IDA

Gráfico de dispersão de ESPVIDA versus IDHM_L

Page 26: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

26

0,90,80,70,60,50,40,30,2

0,9

0,8

0,7

0,6

0,5

0,4

IDHM_E

IDH

M

Gráfico de dispersão de IDHM versus IDHM_E

1,00,90,80,70,60,50,40,30,2

100

80

60

40

20

0

-20

I_FREQ_PROP

T_M

ED

18

A2

0

Gráfico de dispersão de T_MED18A20 versus I_FREQ_PROP

0,90,80,70,60,50,40,30,2

1,0

0,9

0,8

0,7

0,6

0,5

0,4

0,3

0,2

IDHM_E

I_FR

EQ

_PR

OP

Gráfico de dispersão de I_FREQ_PROP versus IDHM_E

Page 27: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

27

Inicialmente os gráficos de dispersão devem ser analisados quanto a seu padrão geral e seus

desvios relativos ao padrão. A descrição do padrão geral pode ser feita pela verificação de sua

forma, direção e intensidade.

0,90,80,70,60,50,4

2000

1500

1000

500

0

IDHM_R

RD

PC

Gráfico de dispersão de RDPC versus IDHM_R

0,90,80,70,60,50,4

0,9

0,8

0,7

0,6

0,5

0,4

IDHM_R

IDH

M

Gráfico de dispersão de IDHM versus IDHM_R

1,00,90,80,70,60,50,40,30,2

100

80

60

40

20

0

I_FREQ_PROP

T_F

UN

D1

5A

17

Gráfico de dispersão de T_FUND15A17 versus I_FREQ_PROP

Page 28: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

28

Direção: Da análise das correlações acima percebemos que quase todas possuem associações

positivas, ou seja, o crescimento de uma variável é acompanhado do crescimento da outra. O

que nos parece é que não há nenhuma associação negativa, ao menos de evidência visual.

Intensidade: Os gráficos acima apresenta uma relação linear, mas os gráficos que relacionam

ESPVIDA x IDHM_L e RDPC x IDHM_R possuem uma relação mais forte que as demais.

Forma: Os gráficos apresentam conglomerados que sugerem relações lineares, no entanto

vale salientar a relação dos gráficos ESPVIDA x IDHM_L e RDPC x IDHM_R que

apresentam um agrupamento mais intenso.

Valores Atípicos: Os gráficos indicam a existência de valores atípicos, ou seja, municípios

que estão localizados longe dos demais. Com exceção dos gráficos ESPVIDA x IDHM_L e

RDPC x IDHM_R.

8. ANÁLISE DE REGRESSÃO DAS VARIÁVEIS COM SIMILARIDADE

A correlação mede a direção e a intensidade da relação linear (linha reta) entre duas variáveis

quantitativas. Se um diagrama de dispersão mostra uma relação linear, é interessante

resumirmos esse padrão geral traçando uma reta no diagrama de dispersão. Uma reta de

regressão resume a relação entre duas variáveis, mas somente em um contexto específico:

quando uma das variáveis ajuda a explicarmos ou predizermos a outra, ou seja, a regressão

descreve uma relação entre uma variável explanatória e uma variável resposta. Vale destacar

que em nossas análises não foram classificadas as variáveis como sendo de caráter

explanatória (variável independente) ou de resposta (variável dependente)

.

A regressão linear assume sempre a forma de uma equação linear:

Y = a + bx, sendo:

Y= Variável dependente;

a = uma constante, o intercepto;

b = a inclinação na reta;

x = variável independente ou explicativa.

O “b”, ou seja, a declividade é dada pela multiplicação do índice de correlação pela divisão

dos desvios-padrão entre as variáveis x e y. E “a” é dada pela média de “Y” menos a

multiplicação de “b” pela média de “x”. Assim, percebe-se muito claramente que a regressão

depende da correlação entre as variáveis, além de medidas de centro de cada uma das

variáveis.

Serão apresentadas as análises de Regressão bem como seus respectivos gráficos:

Análise de Regressão: ESPVIDA versus IDHM_L

A equação de regressão é

ESPVIDA = 25,00 + 60,00 IDHM_L

Page 29: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

29

S = 0,0171972 R2 = 100,0% R2(aj.) = 100,0%

Análise de Variância

Fonte GL SQ QM F P

Regressão 1 39982,5 39982,5 1,35193E+08 0,000

Erro 5563 1,6 0,0

Total 5564 39984,2

Análise de Regressão: IDHM versus IDHM_E

A equação de regressão é

IDHM = 0,2490 + 0,7335 IDHM_E

S = 0,0222905 R2 = 90,4% R2(aj.) = 90,4%

Análise de Variância

Fonte GL SQ QM F P

Regressão 1 26,0775 26,0775 52483,97 0,000

Erro 5563 2,7641 0,0005

Total 5564 28,8416

0,900,850,800,750,70

80,0

77,5

75,0

72,5

70,0

67,5

65,0

S 0,0171972

R2 100,0%

R2(aj) 100,0%

IDHM_L

ES

PV

IDA

Gráfico de Linha AjustadaESPVIDA = 25,00 + 60,00 IDHM_L

Page 30: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

30

Análise de Regressão: I_FREQ_PROP versus IDHM_E

A equação de regressão é

I_FREQ_PROP = 0,1423 + 0,9408 IDHM_E

S = 0,0391197 R2 = 83,4% R2(aj.) = 83,4%

Análise de Variância

Fonte GL SQ QM F P

Regressão 1 42,8984 42,8984 28031,74 0,000

Erro 5563 8,5133 0,0015

Total 5564 51,4118

0,90,80,70,60,50,40,30,2

0,9

0,8

0,7

0,6

0,5

0,4

S 0,0222905

R2 90,4%

R2(aj) 90,4%

IDHM_E

IDH

M

Gráfico de Linha AjustadaIDHM = 0,2490 + 0,7335 IDHM_E

0,90,80,70,60,50,40,30,2

1,0

0,9

0,8

0,7

0,6

0,5

0,4

0,3

0,2

S 0,0391197

R2 83,4%

R2(aj) 83,4%

IDHM_E

I_FR

EQ

_PR

OP

Gráfico de Linha AjustadaI_FREQ_PROP = 0,1423 + 0,9408 IDHM_E

Page 31: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

31

Análise de Regressão: RDPC versus IDHM_R

A equação de regressão é

RDPC = - 1371 + 2900 IDHM_R

S = 66,7180 R2 = 92,5% R2(aj.) = 92,5%

Análise de Variância

Fonte GL SQ QM F P

Regressão 1 304514788 304514788 68410,37 0,000

Erro 5563 24762557 4451

Total 5564 329277345

Análise de Regressão: IDHM versus IDHM_R

A equação de regressão é

IDHM = 0,1150 + 0,8465 IDHM_R

S = 0,0228476 R2 = 89,9% R2(aj.) = 89,9%

Análise de Variância

Fonte GL SQ QM F P

Regressão 1 25,9376 25,9376 49687,61 0,000

Erro 5563 2,9040 0,0005

Total 5564 28,8416

0,90,80,70,60,50,4

2000

1500

1000

500

0

S 66,7180

R2 92,5%

R2(aj) 92,5%

IDHM_R

RD

PC

Gráfico de Linha AjustadaRDPC = - 1371 + 2900 IDHM_R

Page 32: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

32

Análise de Regressão: T_FUND15A17 versus I_FREQ_PROP

A equação de regressão é

T_FUND15A17 = - 45,20 + 149,6 I_FREQ_PROP

S = 5,80994 R2 = 86,0% R2(aj.) = 86,0%

Análise de Variância

Fonte GL SQ QM F P

Regressão 1 1149843 1149843 34063,97 0,000

Erro 5563 187781 34

Total 5564 1337624

0,90,80,70,60,50,4

0,9

0,8

0,7

0,6

0,5

0,4

S 0,0228476

R2 89,9%

R2(aj) 89,9%

IDHM_R

IDH

M

Gráfico de Linha AjustadaIDHM = 0,1150 + 0,8465 IDHM_R

1,00,90,80,70,60,50,40,30,2

100

80

60

40

20

0

S 5,80994

R2 86,0%

R2(aj) 86,0%

I_FREQ_PROP

T_F

UN

D1

5A

17

Gráfico de Linha AjustadaT_FUND15A17 = - 45,20 + 149,6 I_FREQ_PROP

Page 33: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

33

Análise de Regressão: T_MED18A20 versus I_FREQ_PROP

A equação de regressão é

T_MED18A20 = - 56,86 + 139,1 I_FREQ_PROP

S = 5,80448 R2 = 84,1% R2(aj.) = 84,1%

Análise de Variância

Fonte GL SQ QM F P

Regressão 1 994506 994506 29517,61 0,000

Erro 5563 187428 34

Total 5564 1181934

Comentários das análises

Considerando as análises de regressão acima pode-se perceber que existe uma relação com

grau razoável de explicação entre as varáveis apresentadas. Em alguns casos esta relação se

apresenta muito forte, como é o caso da ESPVIDA x IDHM_L, isto pode ser justificado pela

característica destas variáveis que carregam em sua composição a esperança de vida ao

nascer.

Além disso, vale a pena destacar que as relações que apresentam variáveis como educação

(IDHM_E; I_FREQ_PROP...), IDHM e Renda (IDHM_R e RDPC) possuem um alto grau de

relação próximos ou acima de 90 % para as análises realizadas. No caso da educação pode-se

dizer que quanto mais alta a idade das pessoas menor é o grau de relação.

1,00,90,80,70,60,50,40,30,2

100

80

60

40

20

0

-20

S 5,80448

R2 84,1%

R2(aj) 84,1%

I_FREQ_PROP

T_M

ED

18

A2

0

Gráfico de Linha AjustadaT_MED18A20 = - 56,86 + 139,1 I_FREQ_PROP

Page 34: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

34

9. REGRESSÃO MULTIVARIADA

General Regression Analysis: IDHMn versus ESPVIDAn; IDHM_En; RDPCn; ... Regression Equation

IDHMn = -0,0478698 + 0,131806 ESPVIDAn + 0,562425 IDHM_En - 0,0446316 RDPCn -

0,00622638 T_FUND18Mn + 0,414966 IDHM_Rn

Coefficients

Term Coef SE Coef T P

Constant -0,047870 0,0002742 -174,610 0,000

ESPVIDAn 0,131806 0,0004084 322,708 0,000

IDHM_En 0,562425 0,0007625 737,639 0,000

RDPCn -0,044632 0,0013473 -33,128 0,000

T_FUND18Mn -0,006226 0,0006555 -9,499 0,000

IDHM_Rn 0,414966 0,0011833 350,689 0,000

Summary of Model

S = 0,00334542 R-Sq = 99,96% R-Sq(adj) = 99,96%

PRESS = 0,0625337 R-Sq(pred) = 99,96%

Analysis of Variance

Source DF Seq SS Adj SS Adj MS F P

Regression 5 146,241 146,241 29,2482 2613347 0

ESPVIDAn 1 106,226 1,166 1,1655 104140 0

IDHM_En 1 35,707 6,090 6,0896 544112 0

RDPCn 1 2,904 0,012 0,0123 1097 0

T_FUND18Mn 1 0,027 0,001 0,0010 90 0

IDHM_Rn 1 1,376 1,376 1,3764 122983 0

Error 5559 0,062 0,062 0,0000

Total 5564 146,303

Page 35: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

35

Stepwise Regression: IDHMn versus ESPVIDAn; IDHM_En; ... Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15

Response is IDHMn on 5 predictors, with N = 5565

Step 1 2 3 4 5

Constant -0,03856 -0,03178 -0,04016 -0,04757 -0,04787

IDHM_En 1,02102 0,56796 0,55660 0,55713 0,56243

T-Value 229,09 240,10 959,52 1063,43 737,64

P-Value 0,000 0,000 0,000 0,000 0,000

IDHM_Rn 0,50813 0,38032 0,41623 0,41497

T-Value 233,68 554,67 351,22 350,69

P-Value 0,000 0,000 0,000 0,000

ESPVIDAn 0,13370 0,13197 0,13181

T-Value 295,53 320,84 322,71

P-Value 0,000 0,000 0,000

RDPCn -0,0472 -0,0446

T-Value -35,54 -33,13

P-Value 0,000 0,000

T_FUND18Mn -0,00623

T-Value -9,50

P-Value 0,000

S 0,0502 0,0153 0,00374 0,00337 0,00335

R-Sq 90,42 99,11 99,95 99,96 99,96

R-Sq(adj) 90,41 99,11 99,95 99,96 99,96

Mallows Cp 1247238,0 110254,4 1375,7 94,2 6,0

3.1 – Variável IDHM por Região

SESNENCO

0,9

0,8

0,7

0,6

0,5

0,4

Região

IDH

M

Boxplot of IDHM

Page 36: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

36

A Região Sul possui o maior IDHM do país, o que indica que esta é a Região mais desenvolvida do Brasil,

segundo a pesquisa. A região Sudeste encontra-se próxima a Região Sul, e ocupa o segundo lugar. Vale também

destacar que a região Centro Oeste está muito próxima.

A Região que apresenta o IDHM médio mais baixo do País é a Nordeste, seguida da Norte. Pelo tamanho da

caixa do BloxPlot podemos visualizar a amplitude da variância. Podemos afirmar que os dados da Região Norte

possuem maior variabilidade que os dados das demais regiões. As Regiões que possuem menor variabilidade dos

dados são Centro-Oeste, Norte e Sul.

One-way ANOVA: IDHM versus Região Source DF SS MS F P

Região 4 16,24279 4,06070 1795,58 0,000

Error 5559 12,57163 0,00226

Total 5563 28,81442

S = 0,04756 R-Sq = 56,37% R-Sq(adj) = 56,34%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev --+---------+---------+---------+-------

CO 465 0,68918 0,03680 (*)

N 449 0,60795 0,06016 (-*)

NE 1794 0,59068 0,04327 (*

S 1188 0,71411 0,04159 (*)

SE 1668 0,69898 0,05428 (*

--+---------+---------+---------+-------

0,595 0,630 0,665 0,700

Pooled StDev = 0,04756

O grau de variação entre as Regiões é muito alto (1795,58), e o P-value nos indica que a informação é confiável

e não existe chance deste valor ser diferente.

3.2 – Variável ESPVIDA por Região

0

0,2

0,4

0,6

0,8CO

N

NES

SE

Mean

Mean 0

0,02

0,04

0,06

0,08CO

N

NES

SE

StDev

StDev

Page 37: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

37

SESNENCO

80,0

77,5

75,0

72,5

70,0

67,5

65,0

Região

ES

PV

IDA

Boxplot of ESPVIDA

O ESPVIDA é maior para a Região Sul, que fica muito próximo da Região Sudeste, que aponta o Sul com a

melhor ESPVIDA. O menor índice de ESPVIDA está para a Região Nordeste.

One-way ANOVA: ESPVIDA versus Região Source DF SS MS F P

Região 4 24990,54 6247,63 2319,16 0,000

Error 5559 14975,49 2,69

Total 5563 39966,03

S = 1,641 R-Sq = 62,53% R-Sq(adj) = 62,50%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev --+---------+---------+---------+-------

CO 465 74,334 1,100 (*)

N 449 71,818 1,724 (*)

NE 1794 70,255 1,809 *)

S 1188 75,116 1,570 (*

SE 1668 74,686 1,604 (*

--+---------+---------+---------+-------

70,5 72,0 73,5 75,0

Pooled StDev = 1,641

O grau de variação entre as Regiões é alto para ESPVIDA (2319,16), sendo inclusive maior que o de IDHM,

mas o p-value nos indica que a informação é confiável e não existe chance deste valor ser diferente.

Page 38: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

38

3.3 – Variável T_FREQ5A6 por Região

SESNENCO

100

90

80

70

60

50

40

Região

T_

FREQ

5A

6

Boxplot of T_FREQ5A6

No indicador de T_FREQ5A6, podemos verificar que a Região Nordeste possui o maior índice, que é seguida da

Região Sudeste e Sul, e o menor índice é o da Região Norte. Vale a pena destacar que para esta variável a maior

parte das regiões estão próximos de 100%, sendo que a região norte, que apresenta o menor índice está com

média de 81,94%.

One-way ANOVA: T_FREQ5A6 versus Região

666870727476

CO

N

NES

SE

Mean

Mean 0

0,5

1

1,5

2CO

N

NES

SE

StDev

StDev

Page 39: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

39

Source DF SS MS F P

Região 4 65714,7 16428,7 297,68 0,000

Error 5559 306791,2 55,2

Total 5563 372505,9

S = 7,429 R-Sq = 17,64% R-Sq(adj) = 17,58%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev --------+---------+---------+---------+-

CO 465 88,851 8,000 (-*-)

N 449 81,941 11,283 (-*-)

NE 1794 94,258 5,003 (*)

S 1188 90,118 9,144 (*-)

SE 1668 93,338 6,749 (*)

--------+---------+---------+---------+-

84,0 87,5 91,0 94,5

Pooled StDev = 7,429

O grau de variação entre as Regiões é baixo para T_FREQ5A6 (297,68), sendo inclusive bem menor que o de

IDHM (1795,58) e ESPVIDA (2319,16). O p-value nos indica que a informação é confiável e não existe chance

deste valor ser diferente.

3.4 – Variável T_FUND11A13 por Região

75

80

85

90

95CO

N

NES

SE

Mean

Mean 0

5

10

15CO

N

NES

SE

StDev

StDev

Page 40: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

40

SESNENCO

100

90

80

70

60

50

40

30

Região

T_

FUN

D1

1A

13

Boxplot of T_FUND11A13

Pode-se observar que o índice T_FUND11A13 é maior na Regiões Sul, Sudeste e Centro Oeste. O menor índice

é o da Região Norte. Vale a pena destacar que para esta variável a maior parte das regiões estão próximos de

90%, sendo que a região norte, que apresenta o menor índice está com média de 76,3618%.

One-way ANOVA: T_FUND11A13 versus Região Source DF SS MS F P

Região 4 150502,0 37625,5 743,32 0,000

Error 5559 281385,3 50,6

Total 5563 431887,3

S = 7,115 R-Sq = 34,85% R-Sq(adj) = 34,80%

Individual 95% CIs For Mean Based on Pooled StDev

Level N Mean StDev -+---------+---------+---------+--------

CO 465 86,337 6,928 (-*)

N 449 76,362 12,826 (-*-)

NE 1794 79,413 7,646 (*

S 1188 91,148 4,840 (*)

SE 1668 88,039 5,628 (*)

-+---------+---------+---------+--------

76,0 80,0 84,0 88,0

Pooled StDev = 7,115

Existe uma variação maior na distribuição dos dados nos municípios da região Norte. Já as regiões Sul, Sudeste e

Centro Oeste possuem as menores variações dos dados. O grau de variação entre as Regiões é alto (743,32) e o

p-value nos indica que a informação é confiável e não existe chance deste valor ser diferente.

Page 41: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

41

3.5 – Variável por T_FUND15A17 Região

SESNENCO

100

80

60

40

20

0

Região

T_

FUN

D1

5A

17

Boxplot of T_FUND15A17

Pode-se observar que o percentual de T_FUND15A17 é maior nas Regiões Sul, Sudeste e Centro Oeste. Já as

regiões Norte e Nordeste estão com seus valores próximos a 40 %. Vale a pena destacar que para esta variável as

regiões com melhor desempenho estão próximas de 60%.

One-way ANOVA: T_FUND15A17 versus Região Source DF SS MS F P

Região 4 653328 163332 1327,12 0,000

Error 5559 684162 123

65707580859095

CO

N

NES

SE

Mean

Mean 0

5

10

15CO

N

NES

SE

StDev

StDev

Page 42: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

42

Total 5563 1337490

S = 11,09 R-Sq = 48,85% R-Sq(adj) = 48,81%

Individual 95% CIs For Mean Based on Pooled StDev

Level N Mean StDev -+---------+---------+---------+--------

CO 465 58,81 10,22 (*)

N 449 42,23 13,22 (*-)

NE 1794 41,63 10,50 *)

S 1188 66,00 9,94 (*)

SE 1668 63,09 12,06 (*)

-+---------+---------+---------+--------

42,0 49,0 56,0 63,0

Pooled StDev = 11,09

O grau de variação entre as Regiões é alto (1327,12) e o p-value nos indica que a informação é confiável e não

existe chance deste valor ser diferente.

3.6 – Variável T_FUND18M por Região

0

20

40

60

80CO

N

NES

SE

Mean

Mean 0

5

10

15CO

N

NES

SE

StDev

StDev

Page 43: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

43

SESNENCO

80

70

60

50

40

30

20

10

Região

T_

FUN

D1

8M

Boxplot of T_FUND18M

Pode-se observar que o índice T_FUND18M é maior nas Regiões Sul, Sudeste e Centro Oeste. O menor índice é

o da Região Nordeste. Vale a pena destacar que para esta variável todas as regiões apresentam uma média abaixo

dos 50%, além disso, os municípios que apresentam resultados melhores são considerados nesta análise como

atípicos.

A maior variabilidade de dados se encontra na Região Sudeste, e a Região que apresenta menor variabilidade é a

Nordeste.

One-way ANOVA: T_FUND18M versus Região Source DF SS MS F P

Região 4 142910,0 35727,5 413,92 0,000

Error 5559 479822,0 86,3

Total 5563 622732,1

S = 9,291 R-Sq = 22,95% R-Sq(adj) = 22,89%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev --------+---------+---------+---------+-

CO 465 43,136 7,253 (-*--)

N 449 37,752 9,375 (--*-)

NE 1794 32,694 8,162 (*-)

S 1188 43,297 9,172 (-*)

SE 1668 44,100 10,864 (*)

--------+---------+---------+---------+-

35,0 38,5 42,0 45,5

Pooled StDev = 9,291

O grau de variação entre as Regiões é alto (413,92) e o p-value = 0 nos indica que a informação é confiável e não

existe chance deste valor ser diferente.

Page 44: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

44

3.7 – Variável T_MED18A20 por Região

SESNENCO

90

80

70

60

50

40

30

20

10

0

Região

T_

MED

18

A2

0

Boxplot of T_MED18A20

Pode-se observar que o índice T_MED18A20 é maior nas Regiões Sul, Sudeste e Centro Oeste. Os índices mais

baixos estão nas regiões Norte e Nordeste. Vale a pena destacar que para as regiões que apresentam os melhores

resultados para esta variável a média está próxima de 50%, além disso, os municípios que apresentam resultados

melhores são considerados nesta análise como atípicos.

One-way ANOVA: T_MED18A20 versus Região Source DF SS MS F P

Região 4 503294 125824 1031,13 0,000

Error 5559 678338 122

01020304050

CO

N

NES

SE

Mean

Mean 0

5

10

15CO

N

NES

SE

StDev

StDev

Page 45: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

45

Total 5563 1181632

S = 11,05 R-Sq = 42,59% R-Sq(adj) = 42,55%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev -------+---------+---------+---------+--

CO 465 38,65 10,18 (*-)

N 449 24,02 10,81 (*-)

NE 1794 24,96 8,78 (*

S 1188 46,54 11,88 *)

SE 1668 43,14 12,77 (*

-------+---------+---------+---------+--

28,0 35,0 42,0 49,0

Pooled StDev = 11,05

O grau de variação entre as Regiões é alto (1031,13) e o p-value igual a zero nos indica que a informação é

confiável e não existe chance deste valor ser diferente.

3.8 – Variável RDPC por Região

01020304050

CO

N

NES

SE

Mean

Mean 0

5

10

15CO

N

NES

SE

StDev

StDev

Page 46: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

46

SESNENCO

2000

1500

1000

500

0

Região

RD

PC

Boxplot of RDPC

Pode-se observar que o valor de RDPC é maior nas Regiões Sul e Sudeste. Os índices mais baixos estão nas

regiões Norte e Nordeste. Vale a pena destacar que para as regiões que apresentam os melhores resultados para

esta variável a média está próxima de R$500. Além disso, os municípios que apresentam resultados melhores são

considerados nesta análise como atípicos, inclusive estes valores são muito distantes da média.

A maior variabilidade de dados se encontra na Região Sul e Sudeste.

One-way ANOVA: RDPC versus Região Source DF SS MS F P

Região 4 166364376 41591094 1432,31 0,000

Error 5559 161420628 29038

Total 5563 327785004

S = 170,4 R-Sq = 50,75% R-Sq(adj) = 50,72%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev --------+---------+---------+---------+-

CO 465 584,2 153,4 (-*)

N 449 345,1 141,1 (-*)

NE 1794 276,9 97,7 (*)

S 1188 704,2 200,0 (*

SE 1668 590,6 214,9 *)

--------+---------+---------+---------+-

360 480 600 720

Pooled StDev = 170,4

O grau de variação entre as Regiões é alto (1432,31) e o p-value igual zero nos indica que a informação é

confiável e não existe chance deste valor ser diferente.

Page 47: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

47

3.9 – Variável I_FREQ_PROP por Região

SESNENCO

1,0

0,9

0,8

0,7

0,6

0,5

0,4

0,3

0,2

Região

I_FR

EQ

_P

RO

P

Boxplot of I_FREQ_PROP

Pode-se observar que o índice de I_FREQ_PROP é maior nas Regiões Sul e Sudeste. Já as regiões Norte e

Nordeste apresentam os piores resultados.

One-way ANOVA: I_FREQ_PROP versus Região Source DF SS MS F P

Região 4 22,92438 5,73109 1118,63 0,000

Error 5559 28,48058 0,00512

Total 5563 51,40495

S = 0,07158 R-Sq = 44,60% R-Sq(adj) = 44,56%

Level N Mean StDev

CO 465 0,68165 0,06632

N 449 0,56141 0,09797

NE 1794 0,60066 0,06268

S 1188 0,73452 0,06932

SE 1668 0,71904 0,07505

0

200

400

600

800CO

N

NES

SE

Mean

Mean 050

100150200250

CO

N

NES

SE

StDev

StDev

Page 48: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

48

Individual 95% CIs For Mean Based on Pooled StDev

Level ---------+---------+---------+---------+

CO (*-)

N (*-)

NE (*)

S (*)

SE (*

---------+---------+---------+---------+

0,600 0,650 0,700 0,750

Pooled StDev = 0,07158

O grau de variação entre as Regiões é alto (1118,63) e o p-value nos indica que a informação é confiável e não

existe chance deste valor ser diferente.

3.10 – Variável IDHM_E por Região.

SESNENCO

0,9

0,8

0,7

0,6

0,5

0,4

0,3

0,2

Região

IDH

M_

E

Boxplot of IDHM_E

0

0,2

0,4

0,6

0,8CO

N

NES

SE

Mean

Mean 00,020,040,060,080,1

CO

N

NES

SE

StDev

StDev

Page 49: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

49

Pode-se observar que o índice de IDHM_E é maior nas Regiões Sul e Sudeste. Já as regiões Norte e Nordeste

estão com seus valores próximos a 40 %. Vale a pena destacar que para esta variável as regiões com melhor

desempenho estão próximas de 60%.

One-way ANOVA: IDHM_E versus Região Source DF SS MS F P

Região 4 18,83643 4,70911 884,60 0,000

Error 5559 29,59293 0,00532

Total 5563 48,42936

S = 0,07296 R-Sq = 38,89% R-Sq(adj) = 38,85%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev --+---------+---------+---------+-------

CO 465 0,58380 0,05977 (-*-)

N 449 0,49043 0,09066 (-*-)

NE 1794 0,48842 0,06579 (*)

S 1188 0,61302 0,06520 (*)

SE 1668 0,60819 0,08287 (*)

--+---------+---------+---------+-------

0,490 0,525 0,560 0,595

Pooled StDev = 0,07296

O grau de variação entre as Regiões é alto (884,60) e o p-value nos indica que a informação é confiável e não

existe chance deste valor ser diferente.

3.11 – Variável IDHM_L por Região

0

0,2

0,4

0,6

0,8CO

N

NES

SE

Mean

Mean 00,020,040,060,080,1

CO

N

NES

SE

StDev

StDev

Page 50: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

50

SESNENCO

0,90

0,85

0,80

0,75

0,70

Região

IDH

M_

L

Boxplot of IDHM_L

Pode-se observar que o percentual de IDHM_L é maior nas Regiões Sul, Sudeste e Centro Oeste. Já as regiões

Norte e Nordeste estão com seus valores próximos a 40 %. Vale a pena destacar que para esta variável todas as

regiões apresentam valores próximos de um índice de 0,80.

One-way ANOVA: IDHM_L versus Região Source DF SS MS F P

Região 4 6,94138 1,73535 2318,18 0,000

Error 5559 4,16137 0,00075

Total 5563 11,10275

S = 0,02736 R-Sq = 62,52% R-Sq(adj) = 62,49%

Level N Mean StDev

CO 465 0,82234 0,01833

N 449 0,78038 0,02871

NE 1794 0,75433 0,03016

S 1188 0,83533 0,02616

SE 1668 0,82819 0,02674

Individual 95% CIs For Mean Based on Pooled StDev

Level ---------+---------+---------+---------+

CO (*)

N (*)

NE (*

S *)

SE *)

---------+---------+---------+---------+

0,775 0,800 0,825 0,850

Pooled StDev = 0,02736

O grau de variação entre as Regiões é alto (2318,18) e o p-value nos indica que a informação é confiável e não

existe chance deste valor ser diferente.

Page 51: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

51

3.12 – Variável IDHM_R por Região

SESNENCO

0,9

0,8

0,7

0,6

0,5

0,4

Região

IDH

M_

R

Boxplot of IDHM_R

Pode-se observar que o percentual de IDHM_R é maior nas Regiões Sul, Sudeste e Centro Oeste. Já as regiões

Norte e Nordeste apresentam índices baixos para esta variável, com destaque para o Nordeste.

One-way ANOVA: IDHM_R versus Região Source DF SS MS F P

Região 4 21,93443 5,48361 2143,97 0,000

Error 5559 14,21819 0,00256

Total 5563 36,15262

S = 0,05057 R-Sq = 60,67% R-Sq(adj) = 60,64%

Level N Mean StDev

CO 465 0,68411 0,04209

N 449 0,59282 0,06194

0,7

0,75

0,8

0,85CO

N

NES

SE

Mean

Mean 0

0,01

0,02

0,03

0,04CO

N

NES

SE

StDev

StDev

Page 52: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

52

NE 1794 0,56226 0,04611

S 1188 0,71344 0,04419

SE 1668 0,68116 0,05769

Individual 95% CIs For Mean Based on Pooled StDev

Level +---------+---------+---------+---------

CO (*)

N (*)

NE (*

S *)

SE *)

+---------+---------+---------+---------

0,560 0,600 0,640 0,680

Pooled StDev = 0,05057

O grau de variação entre as Regiões é alto (2143,97) e o p-value nos indica que a informação é confiável e não

existe chance deste valor ser diferente.

4 – CONSIDERAÇÕES FINAIS

Este trabalho teve por objetivo comparar as médias dos indicadores das variáveis da dimensão

Desenvolvimento Humano com base nos dados apresentados no relatório Atlas Brasil 2013.

Estas comparações indicam que os municípios do Brasil apresentam disparidades quanto as variáveis desta

dimensão. Ressalta-se que isto ocorre principalmente com relação as regiões norte e nordeste das demais.

Podemos observar em todos os gráficos que existem dois Brasis, ou seja, os dados das Regiões Sudeste e Sul, e

quase sempre acompanhadas pela região Centro Oeste, são muito próximos e apresentam resultados melhores. Já

os dados das Regiões Norte e Nordeste são próximos também, porém apresentam os piores resultados.

00,20,40,60,8

CO

N

NES

SE

Mean

Mean 0

0,020,040,06

0,08CO

N

NES

SE

StDev

StDev

Page 53: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

53

SESNENCO

0,9

0,8

0,7

0,6

0,5

0,4

Região

IDH

MBoxplot of IDHM

SESNENCO

80,0

77,5

75,0

72,5

70,0

67,5

65,0

Região

ES

PV

IDA

Boxplot of ESPVIDA

SESNENCO

100

90

80

70

60

50

40

Região

T_

FREQ

5A

6

Boxplot of T_FREQ5A6

SESNENCO

100

90

80

70

60

50

40

30

Região

T_

FUN

D1

1A

13

Boxplot of T_FUND11A13

SESNENCO

100

80

60

40

20

0

Região

T_

FUN

D1

5A

17

Boxplot of T_FUND15A17

SESNENCO

80

70

60

50

40

30

20

10

Região

T_

FUN

D1

8M

Boxplot of T_FUND18M

SESNENCO

90

80

70

60

50

40

30

20

10

0

Região

T_

MED

18

A2

0

Boxplot of T_MED18A20

SESNENCO

2000

1500

1000

500

0

Região

RD

PC

Boxplot of RDPC

SESNENCO

1,0

0,9

0,8

0,7

0,6

0,5

0,4

0,3

0,2

Região

I_FR

EQ

_P

RO

P

Boxplot of I_FREQ_PROP

SESNENCO

0,9

0,8

0,7

0,6

0,5

0,4

0,3

0,2

Região

IDH

M_

E

Boxplot of IDHM_E

SESNENCO

0,90

0,85

0,80

0,75

0,70

Região

IDH

M_

L

Boxplot of IDHM_L

SESNENCO

0,9

0,8

0,7

0,6

0,5

0,4

Região

IDH

M_

RBoxplot of IDHM_R

Comparando os Índices nota-se que na Educação até os 13 anos são apresentados resultados médios acima de

50%, inclusive próximos a 80%. Para a variável renda é relevante destacar que os valores ficam próximos a

R$500, sendo que os municípios que apresentam valores considerados altos são diagnosticados como atípicos.

Para entendermos o quanto cada região vem se desenvolvendo em termos de Educação, Renda ou Expectativa de

Vida seria necessário comparar os dados de 1991, 2001 com os de 2010.

Para uma melhor compreensão da variabilidade nas análises comparativas segue gráfico de radar para as varáveis

analisadas na dimensão desenvolvimento humano.

Page 54: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

54

Tabela – Valor de F

VARIÁVEL Valor de F

ESPVIDA 2319,16

IDHM_L 2318,18

IDHM_R 2143,97

IDHM 1795,58

RDPC 1432,31

T_FUND15A17 1327,12

I_FREQ_PROP 1118,63

T_MED18A20 1031,13

IDHM_E 884,6

T_FUND11A13 743,32

T_FUND18M 413,92

I_FREQ5A6 297,68

3.1 – PESQUISA POR AMOSTRAGEM

A pesquisa por amostragem foi feita em três amostras, uma de 25, 100 e 400 indivíduos, ou municípios. Para

cada amostra foram efetuadas análises do tipo exploratória de dados, as correlações e os dendrogramas. As

variáveis utilizadas nesta pesquisa são ESPVIDA, IDHM e IDHM_R. A amostragem aleatória foi feita através

do Minitab16, utilizando a função:

0

500

1000

1500

2000

2500ESPVIDA

IDHM_L

IDHM_R

IDHM

RDPC

T_FUND15A17

I_FREQ_PROP

T_MED18A20

IDHM_E

T_FUND11A13

T_FUND18M

I_FREQ5A6

Teste F

F

Page 55: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

55

3.1.1 – VARIÁVEL ESPVIDA

Gráfico 1 – ESPVIDA para amostra com 25 linhas

787674727068

Median

Mean

75,575,074,574,073,573,0

1st Q uartile 71,800

Median 74,530

3rd Q uartile 75,705

Maximum 78,520

72,808 75,038

73,268 75,180

2,109 3,758

A -Squared 0,38

P-V alue 0,386

Mean 73,923

StDev 2,701

V ariance 7,296

Skewness -0,417608

Kurtosis -0,311185

N 25

Minimum 68,180

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for ESPVIDA25

Este é o resultado da análise exploratória dos dados de ESPVIDA, para uma população de 25 indivíduos ou

municípios.

A curva possui uma calda maior para a esquerda, o que demonstra que os dados possuem maior variabilidade

para este lado em relação à média. Podemos verificar que a média dos dados é de 73,923 e o desvio padrão

2,701. Existe 95% de confiança de que a média está entre o intervalo de 72,808 e 75,038.

Calc >> Random Data >> Sample form columns

Page 56: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

56

Gráfico 2 – ESPVIDA para amostra com 100 linhas

787674727068

Median

Mean

74,073,873,673,473,273,072,8

1st Q uartile 71,670

Median 73,465

3rd Q uartile 75,177

Maximum 77,500

72,785 73,730

73,037 74,033

2,091 2,767

A -Squared 0,73

P-V alue 0,054

Mean 73,257

StDev 2,382

V ariance 5,674

Skewness -0,398522

Kurtosis -0,529770

N 100

Minimum 66,850

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for ESPVIDA100

Este é o resultado da análise exploratória dos dados de ESPVIDA, para uma população de 100 indivíduos ou

municípios.

A curva possui uma calda maior para a esquerda, o que demonstra que os dados possuem maior variabilidade

para este lado em relação à média. Podemos verificar que a média dos dados é de 73,257 e o desvio padrão

2,382. Existe 95% de confiança de que a média está entre o intervalo de 72,785 e 73,730.

Gráfico 3 – ESPVIDA para amostra com 400 linhas

78767472706866

Median

Mean

73,873,673,473,273,0

1st Q uartile 71,472

Median 73,415

3rd Q uartile 75,065

Maximum 78,400

72,934 73,427

73,039 73,761

2,347 2,696

A -Squared 1,43

P-V alue < 0,005

Mean 73,180

StDev 2,509

V ariance 6,296

Skewness -0,424822

Kurtosis -0,125208

N 400

Minimum 65,840

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for ESPVIDA400

Este é o resultado da análise exploratória dos dados de ESPVIDA, para uma população de 400 indivíduos ou

municípios.

A curva possui uma calda maior para a esquerda, o que demonstra que os dados possuem maior variabilidade

para este lado em relação à média. Podemos verificar que a média dos dados é de 73,180 e o desvio padrão

2,509. Existe 95% de confiança de que a média está entre o intervalo de 72,934 e 73,427.

Page 57: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

57

Gráfico 4 – ESPVIDA para população com 5664 linhas

78767472706866

Median

Mean

73,673,573,473,373,273,173,0

1st Q uartile 71,150

Median 73,470

3rd Q uartile 75,160

Maximum 78,640

73,018 73,159

73,380 73,550

2,631 2,731

A -Squared 34,97

P-V alue < 0,005

Mean 73,088

StDev 2,680

V ariance 7,184

Skewness -0,409423

Kurtosis -0,486571

N 5564

Minimum 65,300

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for ESPVIDA

Podemos observar no gráfico 4, resultado da análise exploratória dos dados de ESPVIDA, para toda a população

de 5564 municípios.

A curva possui uma calda maior para a esquerda mesmo utilizando toda a população, o que demonstra que os

dados possuem maior variabilidade para este lado em relação à média. Podemos verificar que a média dos dados

é de 73,088 e o desvio padrão 2,680. Existe 95% de confiança de que a média está entre o intervalo de 73,018 e

73,159.

Gráfico 5 – Boxplot de ESPVIDA para amostras de 25, 100, 400 e população

ESPVIDAESPVIDA400ESPVIDA100ESPVIDA25

80,0

77,5

75,0

72,5

70,0

67,5

65,0

Da

ta

Boxplot of ESPVIDA25; ESPVIDA100; ESPVIDA400; ESPVIDA

O Boxplot confirma a semelhança e diferenças dos resultados das três amostras comparadas com a população

total. Existe uma variabilidade dos dados em todas as análises para esta variável.

One-way ANOVA: ESPVIDA25; ESPVIDA100; ESPVIDA400; ESPVIDA

Page 58: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

58

Source DF SS MS F P

Factor 3 22,74 7,58 1,07 0,362

Error 6085 43214,99 7,10

Total 6088 43237,74

S = 2,665 R-Sq = 0,05% R-Sq(adj) = 0,00%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev --------+---------+---------+---------+-

ESPVIDA25 25 73,923 2,701 (----------------*----------------)

ESPVIDA100 100 73,257 2,382 (--------*--------)

ESPVIDA400 400 73,180 2,509 (----*---)

ESPVIDA 5564 73,088 2,680 (*)

--------+---------+---------+---------+-

73,20 73,80 74,40 75,00

Pooled StDev = 2,665

Boxplot of ESPVIDA25; ESPVIDA100; ESPVIDA400; ESPVIDA

A análise de variância entre as amostras e a população nos indica que a variação é muito pequena (F=0,27) e o P-

Value grande, ou seja que existe alguma chance de outros resultados.

VARIÁVEL HISTOGRAMA MEDIANA MÉDIA D.PADRÃO P_VALUE

ESPVIDA

25 787674727068

Median

Mean

75,575,074,574,073,573,0

1st Q uartile 71,800

Median 74,530

3rd Q uartile 75,705

Maximum 78,520

72,808 75,038

73,268 75,180

2,109 3,758

A -Squared 0,38

P-V alue 0,386

Mean 73,923

StDev 2,701

V ariance 7,296

Skewness -0,417608

Kurtosis -0,311185

N 25

Minimum 68,180

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for ESPVIDA25

74,530 73,923 2,701 0,386

ESPVIDA

100 787674727068

Median

Mean

74,073,873,673,473,273,072,8

1st Q uartile 71,670

Median 73,465

3rd Q uartile 75,177

Maximum 77,500

72,785 73,730

73,037 74,033

2,091 2,767

A -Squared 0,73

P-V alue 0,054

Mean 73,257

StDev 2,382

V ariance 5,674

Skewness -0,398522

Kurtosis -0,529770

N 100

Minimum 66,850

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for ESPVIDA100

73,465 73,257 2,382 0,054

ESPVIDA

400 78767472706866

Median

Mean

73,873,673,473,273,0

1st Q uartile 71,472

Median 73,415

3rd Q uartile 75,065

Maximum 78,400

72,934 73,427

73,039 73,761

2,347 2,696

A -Squared 1,43

P-V alue < 0,005

Mean 73,180

StDev 2,509

V ariance 6,296

Skewness -0,424822

Kurtosis -0,125208

N 400

Minimum 65,840

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for ESPVIDA400

73,415 73,180 2,509 0,005

Page 59: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

59

ESPVIDA 78767472706866

Median

Mean

73,673,573,473,373,273,173,0

1st Q uartile 71,150

Median 73,470

3rd Q uartile 75,160

Maximum 78,640

73,018 73,159

73,380 73,550

2,631 2,731

A -Squared 34,97

P-V alue < 0,005

Mean 73,088

StDev 2,680

V ariance 7,184

Skewness -0,409423

Kurtosis -0,486571

N 5564

Minimum 65,300

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for ESPVIDA

73,470 73,088 2,680 0,005

A tabela acima resume os resultados da análise exploratória dos dados das amostragens e da população da

variável ESPVIDA. Os valores de P-values são idênticos para a amostra de 400 indivíduos e a população, ou

seja, não existe chance dos resultados acima apresentarem valores diferentes. A mediana obteve uma diferença

grande entre as amostras com o número menor de indivíduos como já era esperado. Esta diferença também pôde

ser percebida com relação a média das amostras e a média da população, no entanto, nos valores de média a

diferença foi menor para as amostras baixas do que nos valores apresentados na mediana.

Portanto, pode-se dizer que na amostra de 400 indivíduos os valores são mais eficientes de se trabalhar, e

possuem uma boa precisão em relação aos resultados da população.

3.1.2 – VARIÁVEL IDHM

Gráfico 1 – IDHM para amostra com 25 linhas

0,800,750,700,650,600,550,50

Median

Mean

0,700,680,660,640,62

1st Q uartile 0,59250

Median 0,67100

3rd Q uartile 0,71450

Maximum 0,81500

0,62490 0,68694

0,61498 0,70421

0,05867 0,10453

A -Squared 0,19

P-V alue 0,894

Mean 0,65592

StDev 0,07514

V ariance 0,00565

Skewness -0,030353

Kurtosis -0,513537

N 25

Minimum 0,51700

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for IDHM25

Este é o resultado da análise exploratória dos dados de IDHM, para uma população de 25 indivíduos ou

municípios.

A curva apresenta uma normalidade em sua distribuição, o que demonstra que os dados possuem homogeneidade

de variabilidade para os dois lados em relação à média. Podemos verificar que a média dos dados é de 0,65592 e

o desvio padrão 0,07514. Existe 95% de confiança de que a média está entre o intervalo de 0,62490 e 0,68694.

Gráfico 2 – IDHM para amostra com 100 linhas

Page 60: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

60

0,8250,7500,6750,6000,5250,450

Median

Mean

0,690,680,670,660,650,64

1st Q uartile 0,60825

Median 0,67350

3rd Q uartile 0,71825

Maximum 0,81900

0,64789 0,67611

0,64523 0,68626

0,06244 0,08261

A -Squared 0,49

P-V alue 0,212

Mean 0,66200

StDev 0,07111

V ariance 0,00506

Skewness -0,311540

Kurtosis -0,293497

N 100

Minimum 0,45000

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for IDHM100

Este é o resultado da análise exploratória dos dados de IDHM, para uma população de 100 indivíduos ou

municípios.

A curva possui uma calda maior para a esquerda, o que demonstra que os dados possuem maior variabilidade

para este lado em relação à média. Podemos verificar que a média dos dados é de 0,66200 e o desvio padrão

0,7111. Existe 95% de confiança de que a média está entre o intervalo de 0,64789 e 0,67611.

Gráfico 3 – IDHM para amostra com 400 linhas

0,780,720,660,600,540,48

Median

Mean

0,6750,6700,6650,6600,6550,6500,645

1st Q uartile 0,59500

Median 0,66000

3rd Q uartile 0,71575

Maximum 0,81700

0,64837 0,66291

0,64500 0,67300

0,06919 0,07950

A -Squared 2,73

P-V alue < 0,005

Mean 0,65564

StDev 0,07399

V ariance 0,00547

Skewness -0,131165

Kurtosis -0,888873

N 400

Minimum 0,47100

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for IDHM400

Este é o resultado da análise exploratória dos dados de IDHM, para uma população de 400 indivíduos ou

municípios.

A curva apresenta uma normalidade em sua distribuição, o que demonstra que os dados possuem homogeneidade

de variabilidade para os dois lados em relação à média. Podemos verificar que a média dos dados é de 0,65594 e

o desvio padrão 0,07399. Existe 95% de confiança de que a média está entre o intervalo de 0,64837 e 0,66291.

Gráfico 4 – IDHM para população com 5664 linhas

Page 61: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

61

0,840,770,700,630,560,490,42

Median

Mean

0,6700,6680,6660,6640,6620,6600,658

1st Q uartile 0,59900

Median 0,66500

3rd Q uartile 0,71800

Maximum 0,86200

0,65724 0,66102

0,66200 0,66900

0,07066 0,07333

A -Squared 40,64

P-V alue < 0,005

Mean 0,65913

StDev 0,07197

V ariance 0,00518

Skewness -0,156737

Kurtosis -0,846019

N 5564

Minimum 0,41800

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for IDHM

Podemos observar no gráfico 4, resultado da análise exploratória dos dados de IDHM, para toda a população de

5564 municípios.

A curva possui uma calda maior para a esquerda mesmo utilizando toda a população, o que demonstra que os

dados possuem maior variabilidade para este lado em relação à média. Podemos verificar que a média dos dados

é de 0,65913 e o desvio padrão 0.07197. Existe 95% de confiança de que a média está entre o intervalo de

0,65724 e 0,66102.

Page 62: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

62

Gráfico 5 – Boxplot de IDHM para amostras de 25, 100, 400 e população

IDHM400IDHM100IDHM25IDHM

0,9

0,8

0,7

0,6

0,5

0,4

Da

ta

Boxplot of IDHM; IDHM25; IDHM100; IDHM400

O Boxplot confirma a semelhança e diferenças dos resultados das três amostras comparadas com a população

total. Existe uma variabilidade dos dados em todas as análises para esta variável.

One-way ANOVA: IDHM; IDHM25; IDHM100; IDHM400 Source DF SS MS F P

Factor 3 0,00572 0,00191 0,37 0,777

Error 6085 31,63463 0,00520

Total 6088 31,64035

S = 0,07210 R-Sq = 0,02% R-Sq(adj) = 0,00%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev --+---------+---------+---------+-------

IDHM 5564 0,65913 0,07197 (*-)

IDHM25 25 0,65592 0,07514 (------------------*------------------)

IDHM100 100 0,66200 0,07111 (--------*---------)

IDHM400 400 0,65564 0,07399 (----*----)

--+---------+---------+---------+-------

0,630 0,645 0,660 0,675

Pooled StDev = 0,07210

Boxplot of IDHM; IDHM25; IDHM100; IDHM400

A análise de variância entre as amostras e a população nos indica que a variação é muito pequena (F=0,37) e o P-

Value grande, ou seja, que existe alguma chance de outros resultados interferirem nestes resultados.

Page 63: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

63

VARIÁVEL HISTOGRAMA MEDIANA MÉDIA D.PADRÃO P_VALUE

IDHM 25 0,800,750,700,650,600,550,50

Median

Mean

0,700,680,660,640,62

1st Q uartile 0,59250

Median 0,67100

3rd Q uartile 0,71450

Maximum 0,81500

0,62490 0,68694

0,61498 0,70421

0,05867 0,10453

A -Squared 0,19

P-V alue 0,894

Mean 0,65592

StDev 0,07514

V ariance 0,00565

Skewness -0,030353

Kurtosis -0,513537

N 25

Minimum 0,51700

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for IDHM25

0,67100 0,65592 0,07514 0,894

IDHM 100 0,8250,7500,6750,6000,5250,450

Median

Mean

0,690,680,670,660,650,64

1st Q uartile 0,60825

Median 0,67350

3rd Q uartile 0,71825

Maximum 0,81900

0,64789 0,67611

0,64523 0,68626

0,06244 0,08261

A -Squared 0,49

P-V alue 0,212

Mean 0,66200

StDev 0,07111

V ariance 0,00506

Skewness -0,311540

Kurtosis -0,293497

N 100

Minimum 0,45000

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for IDHM100

0,67350 0,66200 0.07111 0,212

IDHM 400 0,780,720,660,600,540,48

Median

Mean

0,6750,6700,6650,6600,6550,6500,645

1st Q uartile 0,59500

Median 0,66000

3rd Q uartile 0,71575

Maximum 0,81700

0,64837 0,66291

0,64500 0,67300

0,06919 0,07950

A -Squared 2,73

P-V alue < 0,005

Mean 0,65564

StDev 0,07399

V ariance 0,00547

Skewness -0,131165

Kurtosis -0,888873

N 400

Minimum 0,47100

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for IDHM400

0,66000 0,65564 0,07399 0,005

IDHM 0,840,770,700,630,560,490,42

Median

Mean

0,6700,6680,6660,6640,6620,6600,658

1st Q uartile 0,59900

Median 0,66500

3rd Q uartile 0,71800

Maximum 0,86200

0,65724 0,66102

0,66200 0,66900

0,07066 0,07333

A -Squared 40,64

P-V alue < 0,005

Mean 0,65913

StDev 0,07197

V ariance 0,00518

Skewness -0,156737

Kurtosis -0,846019

N 5564

Minimum 0,41800

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for IDHM

0,66500 0,65913 0,07197 0,005

A tabela acima resume os resultados da análise exploratória dos dados das amostragens e da população da

variável IDHM. Os valores de P-values são idênticos para a amostra de 400 indivíduos e a população, ou seja,

não existe chance dos resultados acima apresentarem valores diferentes. A mediana obteve uma diferença

semelhante entre as amostras com uma aproximação gradual dos valores da população conforme aumentava-se o

número de indivíduos. Esta diferença também pôde ser percebida com relação a média das amostras e a média da

população, no entanto, nos valores de média.

Portanto, pode-se dizer que na amostra de 400 indivíduos os valores são mais eficientes de se trabalhar, e

possuem uma boa precisão em relação aos resultados da população.

3.1.2 – VARIÁVEL IDHM_R

Gráfico 1 – IDHM_R para amostra com 25 linhas

Page 64: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

64

0,720,640,560,48

Median

Mean

0,680,660,640,620,60

1st Q uartile 0,57500

Median 0,65700

3rd Q uartile 0,68800

Maximum 0,75300

0,60782 0,66866

0,59899 0,68480

0,05754 0,10251

A -Squared 0,63

P-V alue 0,087

Mean 0,63824

StDev 0,07369

V ariance 0,00543

Skewness -0,631094

Kurtosis -0,439798

N 25

Minimum 0,46900

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for IDHM_R25

Este é o resultado da análise exploratória dos dados de IDHM_R, para uma população de 25 indivíduos ou

municípios.

A curva possui uma calda maior para a esquerda, o que demonstra que os dados possuem maior variabilidade

para este lado em relação à média. Podemos verificar que a média dos dados é de 0,63824 e o desvio padrão

0,07369. Existe 95% de confiança de que a média está entre o intervalo de 0,6782 e 0,66866.

Gráfico 2 – IDHM_R para amostra com 100 linhas

0,750,700,650,600,550,500,45

Median

Mean

0,660,650,640,630,620,610,60

1st Q uartile 0,55750

Median 0,63050

3rd Q uartile 0,68900

Maximum 0,78400

0,61248 0,64264

0,60048 0,65880

0,06674 0,08830

A -Squared 1,21

P-V alue < 0,005

Mean 0,62756

StDev 0,07601

V ariance 0,00578

Skewness -0,03756

Kurtosis -1,01391

N 100

Minimum 0,46200

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for IDHM_R100

Este é o resultado da análise exploratória dos dados de IDHM_R, para uma população de 100 indivíduos ou

municípios.

A curva possui uma calda maior para a esquerda, o que demonstra que os dados possuem maior variabilidade

para este lado em relação à média. Podemos verificar que a média dos dados é de 0,62756 e o desvio padrão

0,63050. Existe 95% de confiança de que a média está entre o intervalo de 0,61248 e 0,64264.

Page 65: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

65

Gráfico 3 – IDHM_R para amostra com 400 linhas

0,8250,7500,6750,6000,525

Median

Mean

0,6750,6700,6650,6600,6550,6500,645

1st Q uartile 0,57600

Median 0,66400

3rd Q uartile 0,71800

Maximum 0,84800

0,64318 0,65908

0,65091 0,67400

0,07566 0,08694

A -Squared 4,94

P-V alue < 0,005

Mean 0,65113

StDev 0,08091

V ariance 0,00655

Skewness -0,12704

Kurtosis -1,02226

N 400

Minimum 0,46500

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for IDHM_R400

Este é o resultado da análise exploratória dos dados de IDHM_R, para uma população de 400 indivíduos ou

municípios.

A curva possui uma calda maior para a esquerda, o que demonstra que os dados possuem maior variabilidade

para este lado em relação à média. Podemos verificar que a média dos dados é de 0,65113 e o desvio padrão

0,08091. Existe 95% de confiança de que a média está entre o intervalo de 0,64318 e 0,65908.

Gráfico 4 – IDHM_R para população com 5664 linhas

0,840,770,700,630,560,490,42

Median

Mean

0,6560,6520,6480,6440,640

1st Q uartile 0,57200

Median 0,65400

3rd Q uartile 0,70700

Maximum 0,89100

0,64071 0,64495

0,65000 0,65700

0,07914 0,08214

A -Squared 55,30

P-V alue < 0,005

Mean 0,64283

StDev 0,08061

V ariance 0,00650

Skewness -0,103406

Kurtosis -0,878094

N 5564

Minimum 0,40000

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for IDHM_R

Podemos observar no gráfico 4, resultado da análise exploratória dos dados de IDHM_R, para toda a população

de 5564 municípios.

A curva possui uma calda maior para a esquerda mesmo utilizando toda a população, o que demonstra que os

dados possuem maior variabilidade para este lado em relação à média. Podemos verificar que a média dos dados

é de 0,64283 e o desvio padrão 0,08061. Existe 95% de confiança de que a média está entre o intervalo de

0,64071 e 0,64495.

Page 66: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

66

Gráfico 5 – Boxplot de IDHM_R para amostras de 25, 100, 400 e população

IDHM_RIDHM_R400IDHM_R100IDHM_R25

0,9

0,8

0,7

0,6

0,5

0,4

Da

ta

Boxplot of IDHM_R25; IDHM_R100; IDHM_R400; IDHM_R

O Boxplot confirma a semelhança e diferenças dos resultados das três amostras comparadas com a população

total. Existe uma variabilidade dos dados em todas as análises para esta variável.

One-way ANOVA: IDHM_R25; IDHM_R100; IDHM_R400; IDHM_R Source DF SS MS F P

Factor 3 0,05093 0,01698 2,62 0,049

Error 6085 39,46667 0,00649

Total 6088 39,51760

S = 0,08054 R-Sq = 0,13% R-Sq(adj) = 0,08%

Level N Mean StDev

IDHM_R25 25 0,63824 0,07369

IDHM_R100 100 0,62756 0,07601

IDHM_R400 400 0,65113 0,08091

IDHM_R 5564 0,64283 0,08061

Individual 95% CIs For Mean Based on Pooled StDev

Level -+---------+---------+---------+--------

IDHM_R25 (-------------------*-------------------)

IDHM_R100 (---------*---------)

IDHM_R400 (----*----)

IDHM_R (-*)

-+---------+---------+---------+--------

0,608 0,624 0,640 0,656

Pooled StDev = 0,08054

Boxplot of IDHM_R25; IDHM_R100; IDHM_R400; IDHM_R

A análise de variância entre as amostras e a população nos indica que a variação é muito pequena (F=2,62) e o P-

Value alto, ou seja que existe alguma chance de outros resultados influenciarem no resultado desta análise.

Page 67: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

67

VARIÁVEL HISTOGRAMA MEDIANA MÉDIA D.PADRÃO P_VALUE

IDHM_R 25 0,720,640,560,48

Median

Mean

0,680,660,640,620,60

1st Q uartile 0,57500

Median 0,65700

3rd Q uartile 0,68800

Maximum 0,75300

0,60782 0,66866

0,59899 0,68480

0,05754 0,10251

A -Squared 0,63

P-V alue 0,087

Mean 0,63824

StDev 0,07369

V ariance 0,00543

Skewness -0,631094

Kurtosis -0,439798

N 25

Minimum 0,46900

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for IDHM_R25

0,65700 0,63824 0,07369 0,087

IDHM_R

100 0,750,700,650,600,550,500,45

Median

Mean

0,660,650,640,630,620,610,60

1st Q uartile 0,55750

Median 0,63050

3rd Q uartile 0,68900

Maximum 0,78400

0,61248 0,64264

0,60048 0,65880

0,06674 0,08830

A -Squared 1,21

P-V alue < 0,005

Mean 0,62756

StDev 0,07601

V ariance 0,00578

Skewness -0,03756

Kurtosis -1,01391

N 100

Minimum 0,46200

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for IDHM_R100

0,63050 0,62756 0,07601 0,005

IDHM_R

400 0,8250,7500,6750,6000,525

Median

Mean

0,6750,6700,6650,6600,6550,6500,645

1st Q uartile 0,57600

Median 0,66400

3rd Q uartile 0,71800

Maximum 0,84800

0,64318 0,65908

0,65091 0,67400

0,07566 0,08694

A -Squared 4,94

P-V alue < 0,005

Mean 0,65113

StDev 0,08091

V ariance 0,00655

Skewness -0,12704

Kurtosis -1,02226

N 400

Minimum 0,46500

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for IDHM_R400

0,664 0,65113 0,08091 0,005

IDHM_R 0,840,770,700,630,560,490,42

Median

Mean

0,6560,6520,6480,6440,640

1st Q uartile 0,57200

Median 0,65400

3rd Q uartile 0,70700

Maximum 0,89100

0,64071 0,64495

0,65000 0,65700

0,07914 0,08214

A -Squared 55,30

P-V alue < 0,005

Mean 0,64283

StDev 0,08061

V ariance 0,00650

Skewness -0,103406

Kurtosis -0,878094

N 5564

Minimum 0,40000

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for IDHM_R

0,65400 0,64283 0,08061 0,005

A tabela acima resume os resultados da análise exploratória dos dados das amostragens e da população da

variável IDHM_R. Os valores de P-values são idênticos para a amostra de 100, 400 indivíduos e a população, ou

seja, não existe chance dos resultados acima apresentarem valores diferentes. Vale destacar que a análise com 25

indivíduos apresentou resultados semelhantes aos da população, mas com um P-value de 0,087. A mediana

obteve uma variação gradual entre as amostras. Esta diferença também pôde ser percebida com relação a média

das amostras com relação a população.

Portanto, pode-se dizer que na amostra de 400 indivíduos os valores são mais eficientes de se trabalhar, e

possuem uma boa precisão em relação aos resultados da população.

3.2 VARIÁVEIS QUANTITATIVAS

A análise deste tipo de variável permite a utilização de uma maior gama de ferramentas de

análise como histogramas, curvas de densidade, gráfico de ramos, box-plot e dot-plot, além de

informações numéricas como média, desvio-padrão, mediana, quartis, 5 números, intervalo de

confiança e teste de normalidade de Anderson-Darling.

Page 68: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

68

3.2.1 A Tabela de Dados2

Estatísticas Descritivas: ESPVIDA; IDHM_L; IDHM_R; IDHM; RDPC;

T_FUND15A17; I_FREQ_PROP; ...

Variable N N* Mean SE Mean StDev Minimum Q1 Median Q3 Maximum

ESPVIDAn 5565 0 0,58388 0,00269 0,20095 0 0,43853 0,61244 0,73913 1

T_FREQ5A6n 5565 0 0,85728 0,00188 0,13989 0 0,80595 0,89964 0,95239 1

T_FUND11A13n 5565 0 0,76809 0,00181 0,13476 0 0,69716 0,79474 0,86158 1

T_FUND15A17n 5565 0 0,53229 0,00231 0,17243 0 0,40063 0,5397 0,66643 1

T_FUND18Mn 5565 0 0,40638 0,00209 0,15571 0 0,28669 0,38838 0,50596 1

T_MED18A20n 5565 0 0,3969 0,00227 0,16924 0 0,268 0,38586 0,51573 1

RDPCn 5565 0 0,20403 0,00167 0,12491 0 0,09491 0,19071 0,28467 1

I_FREQ_PROPn 5565 0 0,57686 0,00186 0,13851 0 0,48271 0,57925 0,68228 1

IDHMn 5565 0 0,54315 0,00217 0,16216 0 0,40766 0,55631 0,67568 1

IDHM_En 5565 0 0,56973 0,00202 0,15102 0 0,45793 0,5712 0,68608 1

IDHM_Ln 5565 0 0,58362 0,0027 0,20127 0 0,43694 0,61261 0,73874 1

IDHM_Rn 5565 0 0,49465 0,0022 0,16428 0 0,35031 0,51731 0,62525 1

3.3 CORRELAÇÃO LINEAR

Segue abaixo a matriz de correlação incluindo o teste de significância p-value. Para a

correlação foi utilizado o índice de Pearson. Vale ressaltar que o índice de correlação entre as

variáveis não requer que exista uma relação de causa-efeito entre ambas.

CORRELAÇÃO DAS VARIÁVEIS DA DIMENSÃO DESENVOLVIMENTO

HUMANO

Os dados abaixo representam a correlação entre as variáveis selecionadas e já trabalhadas

anteriormente.

Correlations: ESPVIDAn; T_FUND11A13n; T_FUND15A17n; T_FUND18Mn; ... ESPVIDAn T_FUND11A13n T_FUND15A17n T_FUND18Mn

T_FUND11A13n 0,517

0,000

T_FUND15A17n 0,666 0,726

0,000 0,000

T_FUND18Mn 0,632 0,446 0,601

0,000 0,000 0,000

T_MED18A20n 0,660 0,651 0,833 0,656

0,000 0,000 0,000 0,000

2 Para as análises foram normalizados todos os dados, sendo que o valor que se aplica é: “quanto mais próximo

de 1 melhor”.

Page 69: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

69

RDPCn 0,784 0,525 0,671 0,757

0,000 0,000 0,000 0,000

I_FREQ_PROPn 0,641 0,812 0,927 0,633

0,000 0,000 0,000 0,000

IDHMn 0,852 0,682 0,832 0,857

0,000 0,000 0,000 0,000

IDHM_En 0,704 0,705 0,855 0,892

0,000 0,000 0,000 0,000

IDHM_Ln 1,000 0,517 0,666 0,632

0,000 0,000 0,000 0,000

IDHM_Rn 0,834 0,586 0,721 0,757

0,000 0,000 0,000 0,000

T_FREQ5A6n 0,016 0,206 0,197 0,187

0,229 0,000 0,000 0,000

T_MED18A20n RDPCn I_FREQ_PROPn IDHMn

RDPCn 0,717

0,000

I_FREQ_PROPn 0,917 0,686

0,000 0,000

IDHMn 0,851 0,908 0,862

0,000 0,000 0,000

IDHM_En 0,877 0,791 0,913 0,951

0,000 0,000 0,000 0,000

IDHM_Ln 0,660 0,784 0,641 0,852

0,000 0,000 0,000 0,000

IDHM_Rn 0,748 0,962 0,729 0,948

0,000 0,000 0,000 0,000

T_FREQ5A6n 0,250 0,108 0,434 0,224

0,000 0,000 0,000 0,000

IDHM_En IDHM_Ln IDHM_Rn

IDHM_Ln 0,704

0,000

IDHM_Rn 0,820 0,834

0,000 0,000

T_FREQ5A6n 0,351 0,016 0,095

0,000 0,228 0,000

Cell Contents: Pearson correlation

P-Value

A correlação é sempre um número entre zero e um e mede a intensidade de relações lineares.

A correlação entre as variáveis analisadas é positiva na maior parte dos dados, mas de fraca

intensidade. Contudo, com base nas informações constantes na matriz de correlação pode-se

Page 70: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

70

perceber que as variáveis descritas na Tabela 3 apresentam forte relação, vale destacar que

isto não significa que elas apresentam causalidade, ou seja, um sentido direto entre elas.

TABELA 3 – CORRELAÇÃO DAS VARIÁVEIS

Variável Variável Grau de Correlação

ESPVIDA IDHM_L 1,000

IDHM IDHM_E 0,951

I_FREQ_PROP IDHM_E 0,913

RDPC IDHM_R 0,962

IDHM IDHM_R 0,948

T_FUND15A17 I_FREQ_PROP 0,927

T_MED18A20 I_FREQ_PROP 0,917

Fonte: elaborado pelo autor, 2014.

3.4 DENDROGRAMA

Um Dendrograma (dendr(o) = árvore) é um tipo específico de diagrama ou representação

icônica que organiza determinados fatores e variáveis. Isto quer dizer que sua representação

apresenta um diagrama de similaridade.

A interpretação de um Dendrograma de similaridade entre amostras fundamenta-se na

intuição: duas amostras próximas devem ter também valores semelhantes para as variáveis

medidas. Ou seja, elas devem ser próximas matematicamente no espaço multidimensional.

Portanto, quanto maior a proximidade entre as medidas relativas às amostras, maior a

similaridade entre elas. O dendrograma hierarquiza esta similaridade de modo que podemos

ter uma visão bidimensional da similaridade ou dissimilaridade de todo o conjunto de

amostras utilizado no estudo.

Análise de Agrupamentos de Variáveis: ESPVIDA; T_FREQ5A6; T_FUND11A13; T_FUND15A17; ...

Cluster Analysis of Variables: ESPVIDAn; T_FREQ5A6n; T_FUND11A13n; ... Correlation Coefficient Distance, Single Linkage

Amalgamation Steps

Number

of obs.

Number of Similarity Distance Clusters New in new

Step clusters level level joined cluster cluster

1 11 99,9990 0,000021 1 11 1 2

2 10 98,0832 0,038336 7 12 7 2

3 9 97,5438 0,049125 9 10 9 2

4 8 97,4161 0,051679 7 9 7 4

5 7 96,3577 0,072845 4 8 4 2

6 6 95,8645 0,082709 4 6 4 3

7 5 95,6730 0,086540 4 7 4 7

8 4 94,5961 0,108077 4 5 4 8

Page 71: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

71

9 3 92,6074 0,147851 1 4 1 10

10 2 90,6174 0,187653 1 3 1 11

11 1 71,6889 0,566221 1 2 1 12

Segue abaixo o Dendrograma das variáveis analisadas:

T_FR

EQ5A

6n

T_FU

ND11

A13n

T_FU

ND18

Mn

IDHM

_En

IDHM

n

IDHM

_Rn

RDPC

n

T_MED

18A2

0n

I_FR

EQ_P

ROPn

T_FU

ND15

A17n

IDHM

_Ln

ESPV

IDAn

71,69

81,13

90,56

100,00

Variables

Sim

ilari

ty

DendrogramSingle Linkage; Correlation Coefficient Distance

Gráfico - Dendrograma das variáveis da Dimensão Desenvolvimento Humano

Podemos concluir pelo Dendrograma que existem dois grupos de variáveis semelhantes,

sendo o primeiro grupo composto pelo ESPVIDA, IDHM_L, I_FUND_PROP,

T_MED18A20, RDPC, IDMH_R, IDHM, IDHM_E, T_FUND18M, T_FUND11A13. O

segundo grupo é por uma única variável que é T_FREQ5A6.

STAT >> MULTIVARIATE >> CLUSTER VARIABLE (number of cluster = 2)

Page 72: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

72

T_FR

EQ5A

6n

T_FU

ND11

A13n

T_FU

ND18

Mn

IDHM

_En

IDHM

n

IDHM

_Rn

RDPC

n

T_MED

18A2

0n

I_FR

EQ_P

ROPn

T_FU

ND15

A17n

IDHM

_Ln

ESPV

IDAn

71,69

81,13

90,56

100,00

Variables

Sim

ilari

ty

DendrogramSingle Linkage; Correlation Coefficient Distance

Figura 3 – Dendograma dos agrupamentos das variáveis por similaridade

3.2.3. PRINCIPAIS COMPONENTES

>> STAT >> MULTIVARIATE >> Principal Components

0,40,30,20,10,0

0,4

0,2

0,0

-0,2

-0,4

-0,6

-0,8

First Component

Se

co

nd

Co

mp

on

en

t

IDHM_Rn

IDHM_En

IDHMn

I_FREQ_PROPn

RDPCn

T_MED18A20n

T_FUND18Mn

T_FUND11A13n

T_FREQ5A6n

ESPVIDAn

Loading Plot of ESPVIDAn; ...; IDHM_Rn

Figura 4 – Gráfico Loadin Plot da Dimensão Desenvolvimento Humano

Page 73: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

73

Podemos observar 2 grupos de dados sendo o primeiro composto pelas seguintes variáveis:

ESPVIDA, IDHM_L, I_FUND_PROP, T_MED18A20, RDPC, IDMH_R, IDHM, IDHM_E,

T_FUND18M, T_FUND11A13. Já o segundo é por uma única variável que é T_FREQ5A6.

10987654321

8

7

6

5

4

3

2

1

0

Component Number

Eig

en

va

lue

Scree Plot of ESPVIDAn; ...; IDHM_Rn

Figura 5 – Scree Plot das variáveis da Dimensão Desenvolvimento Humano

Existe um peso muito grande da primeira variável e as demais estão bem distantes. As

variáveis 2 e 3 possuem peso maior que 1, e as demais não dá para aproveitar pois estão

abaixo de 1.

Principal Component Analysis: ESPVIDAn; T_FREQ5A6n; T_FUND11A13n; T_FUND18Mn; T Eigenanalysis of the Correlation Matrix

Eigenvalue 7,1698 1,1871 0,6705 0,3909 0,2928 0,2236 0,0367 0,0276

Proportion 0,717 0,119 0,067 0,039 0,029 0,022 0,004 0,003

Cumulative 0,717 0,836 0,903 0,942 0,971 0,993 0,997 1,000

Eigenvalue 0,0009 0,0002

Proportion 0,000 0,000

Cumulative 1,000 1,000

Variable PC1 PC2

ESPVIDAn 0,307 0,301

T_FREQ5A6n 0,102 -0,791

T_FUND11A13n 0,275 -0,200

T_FUND18Mn 0,311 0,099

T_MED18A20n 0,332 -0,110

RDPCn 0,333 0,242

I_FREQ_PROPn 0,339 -0,292

IDHMn 0,371 0,076

IDHM_En 0,360 -0,119

IDHM_Rn 0,345 0,239

Page 74: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

74

Os gráficos abaixo apresentam uma visão dos agrupamentos das colunas em 2 variáveis PC1

PC2, e está agrupado por região e por Estado. Como os dados dos municípios são muito

grandes (5565), dificulta um pouco a visualização. As colunas PC1 e PC2 são armazenadas

como resultado do comando:

Page 75: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

75

6543210-1-2-3

10

5

0

-5

-10

C37

C3

6

MA

MG

MS

MT

PA

PB

PE

PI

PR

RJ

A C

RN

RO

RR

RS

SC

SE

SP

TO

A L

A M

A P

BA

C E

DF

ES

GO

UFN

Scatterplot of C36 vs C37

Figura 6 – Visão das variáveis C36 e C37 por Estado.

6543210-1-2-3

10

5

0

-5

-10

C37

C3

6

CO

N

NE

S

SE

Região

Scatterplot of C36 vs C37

Figura 7 – Visão das variáveis C36 e C37, por Região.

3.2.4. CONSIDERAÇÕES FINAIS

Page 76: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

76

Pelo resultado das análises da correlação linear, dendrograma e principais componentes, os

dados podem ser reduzidos para duas variáveis, o que torna o trabalho com os números mais

fácil e prático de serem manuseados.

3.2 VARIÁVEIS QUANTITATIVAS

A análise deste tipo de variável permite a utilização de uma maior gama de ferramentas de

análise como histogramas, curvas de densidade, gráfico de ramos, box-plot e dot-plot, além de

informações numéricas como média, desvio-padrão, mediana, quartis, 5 números, intervalo de

confiança e teste de normalidade de Anderson-Darling.

3.2.1. DENDOGRAMA DOS DADOS AGRUPADOS PELO RESULTADO DAS

MÉDIAS ESPVIDAn3 x IDHMn x IDHM_Rn POR ESTADO (-DF)

O Dendograma permite uma análise do grau de similaridade dos dados para uma determinada

variável. Em seguida geramos o Dendograma de Educação por Estado

STAT >> MULTIVARIATE >> CLUSTER OBSERVATION

SPSCRSMGRJPRM

TMS

GOESRRROTOAPMAPIALRNCEPBSEPEBAAMPAAC

0,00

33,33

66,67

100,00

Observations

Sim

ilari

ty

Dendograma média de estado ESPVIDAn x IDHMn x IDHM_Rn

Gráfico2. Dendograma da variáveis ESPVIDA x IDHM x IDHM_R por estados do Brasil (classificação não

supervisionada)

3 Este “n” explica que os dados foram normalizados, ou seja, os dados foram transformados em índices que estão

entre 0-1, sendo que para sua análise deve ser usada a perspectiva de que quanto mais próximo de 1 melhor

Page 77: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

77

Na figura 2 acima podem-se verificar quatro grandes grupos de variáveis, agrupadas pela

similaridade dos dados. Os estados que possuem maior similaridade são Pernambuco e

Sergipe no grupo vermelho e Espírito Santo e Goiás no grupo azul. O nível de similaridade

dos dados destes estados está acima de 95 %, conforme indicado na escala apresentada no

eixo Y do gráfico.

No mapa acima pode ser percebido a divisão por cores dos estados de acordo com seu

agrupamento por similaridade. Nesta representação vale destacar há certa coerência com as

particularidades de cada estado, com o exemplo do agrupamento dos estados na cor verde se

justifica por aparentemente apresentarem baixa capacidade de infraestrutura entre outras

particularidades.

Page 78: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

78

3.2.2. DENDOGRAMA DOS DADOS AGRUPADOS PELO RESULTADO DOS

DESVIOS PADRÃO ENTRE ESPVIDAn4 x IDHMn x IDHM_Rn POR ESTADO (-DF)

O Dendograma permite uma análise do grau de similaridade dos dados para uma determinada

variável. Em seguida geramos o Dendograma de desvio padrão por Estado

STAT >> MULTIVARIATE >> CLUSTER OBSERVATION

RRGORJMTESROPRRSM

SSPCEAPTOPEMG

MA

AMSERNSCPIBAPBALPAAC

0,00

33,33

66,67

100,00

Observations

Sim

ilari

ty

Dendograma desvio padrão de estado ESPVIDAn x IDHMn x IDHM_Rn

Gráfico 3. Dendograma “Desigualômetro” da variáveis ESPVIDAn x IDHMn x IDHM_Rn por Estado

No gráfico 3 acima, podemos verificar quatro agrupamentos de dados, que são compostos

pelos Estados do Brasil. Então, o dendograma é construído por dois grandes agrupamentos

além dos três estados ficaram isolados por não terem seus dados em similaridade com os

outros estados, sendo que um deles é composto por Acre e Pará em um agrupamento e o

Estado de Roraima ficando isolado.

Na classificação não supervisionada não se tem informações prévias sobre estes grupos. Não

se tem informações sobre os porquês ou os critérios de agrupamento utilizados neste

agrupamento.

Podemos observar que alguns estados possuem um alto nível de similaridade, o que significa

que a desigualdade é baixa. O menor nível de desigualdade se encontra nos estados mais

próximos do eixo X, por exemplo, Espírito Santo e Mato Grosso no grupo azul, além dos

4 Este “n” explica que os dados foram normalizados, ou seja, os dados foram transformados em índices que estão

entre 0-1, sendo que para sua análise deve ser usada a perspectiva de que quanto mais próximo de 1 melhor

Page 79: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

79

estados de Piauí e Santa Catarina no grupo verde, que tem um nível de similaridade acima de

96%.

O mapa acima representa a divisão por cores dos estados levando em conta o desvio padrão

relacionado às variáveis ESPVIDAn x IDHMn x IDHM_Rn.

Para a leitura dos gráficos se faz necessário entender que quando o nível de desigualdade se

apresenta baixo, isto não representa uma situação boa, pois esta inferência é errônea. Portanto,

salienta-se que os agrupamentos são feitos por similaridade. Assim, a baixa desigualdade não

significa que as coisas vão bem ou mal, mas sim que existe um padrão nos municípios do

estado em termos das variáveis selecionadas, uma maior similaridade entre estes municípios.

3.2.2. ANÁLISE DAS VARIÂNCIAS DAS VARIÁVEIS POR ESTADO

A análise das variâncias permite a verificação e visualização das médias e desvios padrões da

variável a ser analisada. O gráfico BOXPLOT ilustra os agrupamentos, o seu tamanho varia

de acordo com a quantidade de dados de cada grupo, e também é possível visualizar as

ocorrências de outliers dentro de um grupo de dados.

Page 80: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

80

3.2.2.1 Análise das variâncias da variável IDHMn por estado

Podemos visualizar no gráfico 4, uma grande variabilidade sobre as médias de IDHM por

estado. O estado que apresenta maior variabilidade dos dados é Acre. Ceara apresenta uma

baixa variabilidade dos dados de IDMHn, embora tenha muitos outliers que são os dados

muito distantes das médias.

TOSPSESCRSRRRORNRJPRPIPEPBPAMT

MS

MG

MA

GOESCEBAAP

AMALAC

1,0

0,8

0,6

0,4

0,2

0,0

UFN

IDH

Mn

Boxplot of IDHMn

Figura 4. Gráfico BOXPLOT de IDHM por estado

O resultado deste comando não fica armazenado na base de dados, é necessário copiar da área

session para a área worksheet, para cada variável gerada. Com isso temos os dados dos 5565

municípios do Brasil, resumidos pela média e pelo desvio padrão. A partir destes dados

resumidos, fica mais fácil trabalhar os dados, uma vez que estando resumido se torna mais

simples a sua manipulação e análise.

Comando para gerar os dados agrupados STAT>> ANOVA >> ONEWAY

Abaixo podemos visualizar os dados descritivos gerados pelo comando, para a variável

IDHMn.

One-way ANOVA: IDHMn versus UFN Source DF SS MS F P

UFN 25 97,2750 3,8910 440,75 0,000

Error 5538 48,8902 0,0088

Total 5563 146,1652

S = 0,09396 R-Sq = 66,55% R-Sq(adj) = 66,40%

Page 81: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

81

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev ----+---------+---------+---------+-----

AC 22 0,37858 0,13241 (---*--)

AL 102 0,32770 0,08917 (*-)

AM 62 0,33134 0,12128 (-*-)

AP 16 0,50633 0,09620 (---*---)

BA 417 0,39618 0,09290 (*)

CE 184 0,44737 0,07133 (*)

ES 78 0,61755 0,08581 (*-)

GO 246 0,62384 0,07537 (*)

MA 217 0,35627 0,10398 (*)

MG 853 0,56279 0,11179 (*

MS 78 0,58943 0,09271 (-*-)

MT 141 0,59975 0,08619 (*)

PA 143 0,36835 0,12608 (-*)

PB 223 0,38211 0,08519 (*)

PE 185 0,40146 0,10701 (*-)

PI 224 0,34471 0,09032 (*)

PR 399 0,63955 0,08686 *)

RJ 92 0,65521 0,08281 (-*)

RN 167 0,43435 0,08529 (*)

RO 52 0,50910 0,09068 (-*--)

RR 15 0,43288 0,16592 (---*---)

RS 496 0,66561 0,09285 *)

SC 293 0,70642 0,09046 (*)

SE 75 0,40300 0,08407 (-*)

SP 645 0,72416 0,07315 *)

TO 139 0,49984 0,10278 (-*)

----+---------+---------+---------+-----

0,36 0,48 0,60 0,72

Pooled StDev = 0,09396

3.2.2.2 Análise das variâncias da variável ESPVIDAn por estado

Podemos visualizar no gráfico 5, uma grande variabilidade sobre as médias de ESPVIDAn

por estado. O estado que apresenta maior variabilidade dos dados é Acre. Ceara apresenta

uma baixa variabilidade dos dados de ESPVIDAn, embora tenha muitos outliers que são os

dados muito distantes das médias.

Page 82: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

82

TOSPSESCRSRRRORNRJPRPIPEPBPAMT

MS

MG

MA

GOESCEBAAP

AMALAC

1,0

0,8

0,6

0,4

0,2

0,0

UFN

ES

PV

IDA

nBoxplot of ESPVIDAn

Figura 5. Gráfico BOXPLOT de ESPVIDAn por estado

Podemos visualizar no gráfico 5, uma grande variabilidade sobre as médias de ESPVIDAn

por estado. Destaca-se que diversos estados apresentam um grau semelhante de variabilidade

como Alagoas, Tocantins, Sergipe, entre outros. Por outro lado, destaca-se os estados de

Goiás e Roraima que apresentam uma baixa variabilidade dos dados de ESPVIDAn.

O resultado deste comando não fica armazenado na base de dados, é necessário copiar da área

session para a área worksheet, para cada variável gerada. Com isso temos os dados dos 5565

municípios do Brasil, resumidos pela média e pelo desvio padrão. A partir destes dados

resumidos, fica mais fácil trabalhar os dados, uma vez que estando resumido se torna mais

simples a sua manipulação e análise.

Comando para gerar os dados agrupados STAT>> ANOVA >> ONEWAY

Abaixo podemos visualizar os dados descritivos gerados pelo comando, para a variável

ESPVIDAn.

One-way ANOVA: ESPVIDAn versus UFN Source DF SS MS F P

UFN 25 147,7345 5,9094 425,85 0,000

Error 5538 76,8498 0,0139

Total 5563 224,5843

S = 0,1178 R-Sq = 65,78% R-Sq(adj) = 65,63%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev -+---------+---------+---------+--------

Page 83: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

83

AC 22 0,4267 0,1243 (--*---)

AL 102 0,3049 0,1457 (*-)

AM 62 0,4216 0,1196 (-*-)

AP 16 0,5044 0,0891 (---*--)

BA 417 0,3951 0,1356 *)

CE 184 0,4029 0,0993 (*)

ES 78 0,6924 0,0784 (-*-)

GO 246 0,6914 0,0705 (*)

MA 217 0,3097 0,1264 (*)

MG 853 0,6840 0,1342 (*

MS 78 0,6733 0,1079 (-*-)

MT 141 0,6547 0,0810 (-*)

PA 143 0,4621 0,0955 (*)

PB 223 0,3777 0,1378 (*)

PE 185 0,3774 0,1576 (*)

PI 224 0,3500 0,1261 (*)

PR 399 0,6690 0,0943 (*

RJ 92 0,6491 0,0816 (*-)

RN 167 0,4093 0,1192 (*)

RO 52 0,5266 0,1099 (-*-)

RR 15 0,5685 0,0690 (---*---)

RS 496 0,7587 0,1003 (*

SC 293 0,7880 0,1319 (*

SE 75 0,3782 0,1274 (-*-)

SP 645 0,7387 0,0987 *)

TO 139 0,5308 0,1547 (*-)

-+---------+---------+---------+--------

0,30 0,45 0,60 0,75

Pooled StDev = 0,1178

Podemos observar que alguns estados possuem baixa variabilidade dos dados em relação à

média, como Paraiba, Pernambuco e Goiás. Já outros apresentam um desvio padrão com

maior variabilidade como Roraima e Amapá.

3.2.2.3 Análise das variâncias da variável IDHM_Rn por estado

Page 84: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

84

TOSPSESCRSRRRORNRJPRPIPEPBPAMT

MS

MG

MA

GOESCEBAAP

AMALAC

1,0

0,8

0,6

0,4

0,2

0,0

UFN

IDH

M_

Rn

Boxplot of IDHM_Rn

Figura 6. Gráfico BOXPLOT de IDHM_Rn por estado

Podemos visualizar no gráfico 6, uma grande variabilidade sobre as médias de IDHM_Rn por

estado. O estado que apresenta maior variabilidade dos dados é Roraima, sendo que o Ceara,

Rio Grande do Norte, Sergipe, entre outros possuem baixa variabilidade dos dados de

IDHM_Rn.

O resultado deste comando não fica armazenado na base de dados, é necessário copiar da área

session para a área worksheet, para cada variável gerada. Com isso temos os dados dos 5565

municípios do Brasil, resumidos pela média e pelo desvio padrão. A partir destes dados

resumidos, fica mais fácil trabalhar os dados, uma vez que estando resumido se torna mais

simples a sua manipulação e análise.

Comando para gerar os dados agrupados STAT>> ANOVA >> ONEWAY

Abaixo podemos visualizar os dados descritivos gerados pelo comando, para a variável

IDHMn.

One-way ANOVA: IDHM_Rn versus UFN

Source DF SS MS F P

UFN 25 102,5672 4,1027 479,41 0,000

Error 5538 47,3933 0,0086

Total 5563 149,9605

S = 0,09251 R-Sq = 68,40% R-Sq(adj) = 68,25%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev ---------+---------+---------+---------+

AC 22 0,37771 0,11764 (--*---)

Page 85: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

85

AL 102 0,30216 0,08115 (*-)

AM 62 0,29555 0,10410 (-*-)

AP 16 0,44577 0,10836 (---*---)

BA 417 0,35589 0,09107 (*

CE 184 0,32443 0,07624 (*)

ES 78 0,57154 0,08769 (-*)

GO 246 0,57849 0,08338 (*)

MA 217 0,26815 0,10735 (*)

MG 853 0,51317 0,11292 (*

MS 78 0,58624 0,08443 (-*-)

MT 141 0,57464 0,09063 (*)

PA 143 0,35103 0,11832 (*-)

PB 223 0,33479 0,07809 (*)

PE 185 0,35515 0,09589 (-*)

PI 224 0,29901 0,08516 (*)

PR 399 0,59460 0,07792 (*

RJ 92 0,62030 0,08529 (-*)

RN 167 0,36740 0,08304 (-*)

RO 52 0,52581 0,07378 (-*-)

RR 15 0,36225 0,15795 (---*---)

RS 496 0,65604 0,08930 (*

SC 293 0,66810 0,08423 (*)

SE 75 0,36079 0,08216 (-*-)

SP 645 0,64458 0,08202 (*

TO 139 0,42871 0,10028 (-*)

---------+---------+---------+---------+

0,36 0,48 0,60 0,72

Pooled StDev = 0,09251

Podemos observar que alguns estados possuem alta variabilidade dos dados em relação à

média, como Acre, Amapá e Roraima. Já outros tem o desvio padrão com menor variabilidade

como Goiás, Santa Catarina e Ceara.

3.2.5. CONSIDERAÇÕES FINAIS

As análise comparativas dos dados nos permitem um resumo dos dados através de cálculos

específicos como médias e desvios padrões, tornando a análise dos dados mais fácil e simples.

Os gráficos de Boxplot e Dendograma são excelentes figuras visuais para podermos analisar e

interpretar os diferentes comportamentos dos dados. No dendograma podemos analisar as

similaridades dos dados e no Boxplot podemos ver as relações entre as médias e as variâncias

dos agrupamentos analisados. Trata-se de ferramentas úteis para análise de grandes volumes

de dados.

3.2 VARIÁVEIS QUANTITATIVAS

A análise deste tipo de variável permite a utilização de uma maior gama de ferramentas de

análise como histogramas, curvas de densidade, gráfico de ramos, box-plot e dot-plot, além de

informações numéricas como média, desvio-padrão, mediana, quartis, 5 números, intervalo de

confiança e teste de normalidade de Anderson-Darling. Também podemos fazer classificações

supervisionadas das variáveis quantitativas, através da análise discriminante.

3.2.1. ANÁLISE DISCRIMINANTE LINEAR POR REGIÃO

Page 86: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

86

A análise discriminante é uma técnica da estatística multivariada utilizada para discriminar e

classificar objetos, e estuda a separação de objetos de uma população em duas ou mais

classes. Neste caso queremos discriminar os valores das variáveis IDHMn5, IDHM_Rn e

ESPVIDAn dos municípios6 do Brasil, e utilizaremos inicialmente a variável categórica

Região. Para geração de análise discriminante utilizaremos o comando do Minitab:

STAT >> MULTIVARIATE >> DISCRIMINANT ANALISYS

Discriminant Analysis: Região versus ESPVIDAn; IDHMn; IDHM_Rn Linear Method for Response: Região

Predictors: ESPVIDAn; IDHMn; IDHM_Rn

Group CO N NE S SE

Count 465 449 1794 1188 1668

Summary of classification

True Group

Put into Group CO N NE S SE

CO 149 47 35 224 243

N 38 217 432 50 223

NE 2 125 1255 2 55

S 139 15 13 653 454

SE 137 45 59 259 693

Total N 465 449 1794 1188 1668

N correct 149 217 1255 653 693

Proportion 0,320 0,483 0,700 0,550 0,415

N = 5564 N Correct = 2967 Proportion Correct = 0,533

Squared Distance Between Groups

CO N NE S SE

CO 0,0000 3,6130 7,9941 0,3673 0,3226

N 3,6130 0,0000 1,3618 6,2756 4,1179

NE 7,9941 1,3618 0,0000 11,6629 8,2410

S 0,3673 6,2756 11,6629 0,0000 0,6902

SE 0,3226 4,1179 8,2410 0,6902 0,0000

Linear Discriminant Function for Groups

CO N NE S SE

Constant -19,774 -9,782 -6,975 -23,662 -20,753

ESPVIDAn 25,071 19,245 9,337 26,926 26,327

IDHMn 13,714 13,055 27,423 12,880 23,887

IDHM_Rn 24,528 11,655 -0,554 29,640 13,734

Figura 2. Resultado do comando STAT >> MULTIVARIATE >> DISCRIMINANT ANALISYS

5 A letra “n” no final das variáveis representa que as mesmas foram normalizadas. 6 Para está análise excluiu-se o DF – Distrito Federal.

Page 87: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

87

Com base nas informações apresentadas na figura 2 pode ser notado que a região que acertou

mais é Nordeste (0,700) e a que errou mais foi a região Centro Oeste (0,320). As informações

ainda exibem o cruzamento de dados entre as regiões, por exemplo, a região Nordeste possui

1794 municípios e apenas 1255 correspondem a região. O nome desta matriz é confusion

matrix ou matriz de confusão. Podemos concluir que o agrupamento por região não é uma boa

escolha segundo esta avaliação.

3.2.2. ANÁLISE DISCRIMINANTE LINEAR POR “2 BRASIS”

Esta segunda análise está interessada em verificar os possíveis agrupamentos dos dados

utilizando a variável 2 Brasis, calculada a partir do exercício anterior, e demonstra os

agrupamentos do Brasil segundo sua proximidade de dados de educação. Para esta análise

foram agrupadas as regiões de Sul, Sudeste e Centro-Oeste como COSSE, e as regiões de

Norte e Nordeste como NNE.

Discriminant Analysis: Reclassificação versus ESPVIDAn; IDHMn; IDHM_Rn Linear Method for Response: Reclassificação das Regiões

Predictors: ESPVIDAn; IDHMn; IDHM_Rn

Group COSSE NNE

Count 3321 2243

Summary of classification

True Group

Put into Group COSSE NNE

COSSE 3026 242

NNE 295 2001

Total N 3321 2243

N correct 3026 2001

Proportion 0,911 0,892

N = 5564 N Correct = 5027 Proportion Correct = 0,903

Squared Distance Between Groups

COSSE NNE

COSSE 0,00000 7,41307

NNE 7,41307 0,00000

Linear Discriminant Function for Groups

COSSE NNE

Constant -20,237 -7,107

ESPVIDAn 23,084 9,743

IDHMn 25,254 27,548

IDHM_Rn 13,132 -1,640

Page 88: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

88

Existem duas possibilidades de realizar a análise discriminante que são a linear e a quadrática.

Dependendo da variável deve-se dar mais peso e mais atenção a um método em detrimento do

outro. Neste caso a linear já nos apresenta informações satisfatórias. Podemos observar que

alguns estados e municípios da região COSSE tem características das região NNE, visto pelo

número 537 municípios foram encontrados na intersecção entre COSSE e NNE.

3.2.3. ANÁLISE DISCRIMINANTE QUADRÁTICA POR “3 BRASIS”

Uma boa classificação deve resultar em pequenos erros, isto é, deve haver pouca

probabilidade de classificação inadequada, e para que isso ocorra a regra de classificação deve

considerar as probabilidades a priori e os custos de classificação errada. Outro fator que uma

regra de classificação deve considerar é se as variâncias das populações são iguais ou não.

Quando a regra de classificação assume que as variâncias das populações são iguais, as

funções discriminantes são ditas lineares e quando não são funções discriminantes

quadráticas. Vamos agora verificar a função quadrática para os 2 Brasis apresentado na

análise anterior.

Discriminant Analysis: Reclassificação versus ESPVIDAn; IDHMn; IDHM_Rn Quadratic Method for Response: Reclassificação das Regiões

Predictors: ESPVIDAn; IDHMn; IDHM_Rn

Group COSSE NNE

Count 3321 2243

Summary of classification

True Group

Put into Group COSSE NNE

COSSE 3025 241

NNE 296 2002

Total N 3321 2243

N correct 3025 2002

Proportion 0,911 0,893

N = 5564 N Correct = 5027 Proportion Correct = 0,903

From Generalized Squared Distance to Group

Group COSSE NNE

COSSE -15,43 -7,65

NNE -7,44 -14,73

No modelo quadrático a proporção não foi alterada permanecendo em 0.903. Seguindo o

princípio da simplicidade, vamos escolher o método linear, pois este é o mais simples.

Page 89: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

89

Em Ciência, a parcimônia é a preferência pela explicação mais simples para uma observação.

Esta geralmente é considerada a melhor maneira de julgar as hipóteses. Parcimônia também é

um conceito utilizado na sistemática moderna que estabelece que ao construir e selecionar

árvores filogenéticas, ou seja, os dados, o melhor critério é baseado em seus princípios:

normalmente é correto o relacionamento mais simples encontrado entre dois indivíduos,

aquele que apresente o menor número de passos intermediários ou mudanças evolucionárias.

Portanto, não há diferença entre o método linear e o quadrático, o que não justifica a

utilização do método quadrático.

3.2.4. ANÁLISE DISCRIMINANTE LINEAR PARA DADOS AGRUPADOS

Na figura 2 acima podem-se verificar quatro grandes grupos de variáveis, agrupadas pela

similaridade dos dados. Os estados que possuem maior similaridade são Pernambuco e

Sergipe no grupo vermelho e Espírito Santo e Goiás no grupo azul. O nível de similaridade

dos dados destes estados está acima de 95 %, conforme indicado na escala apresentada no

eixo Y do gráfico.

SPSCRSMGRJPRM

TMS

GOESRRROTOAPMAPIALRNCEPBSEPEBAAMPAAC

0,00

33,33

66,67

100,00

Observations

Sim

ilari

ty

Dendograma média de estado ESPVIDAn x IDHMn x IDHM_Rn

Gráfico2. Dendograma da variáveis ESPVIDA x IDHM x IDHM_R por estados do Brasil (classificação não

supervisionada)

Page 90: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

90

No mapa acima pode ser percebido a divisão por cores dos Estados de acordo com seu

agrupamento por similaridade. Nesta representação vale destacar há certa coerência com as

particularidades de cada estado, com o exemplo do agrupamento dos estados na cor verde se

justifica por aparentemente apresentarem baixa capacidade de infraestrutura entre outras

particularidades.

Neste exemplo abaixo vamos através do dendograma pesquisar o grau de similaridade das

médias das variáveis IDHMn, IDHM_Rn e ESPVIDAn nos agrupamentos. Com base na

análise discriminante poderemos verificar a proporção correta dos agrupamentos.

Discriminant Analysis: Agrupamentos versus Media ESPVID; Media IDHM_R; ... Linear Method for Response: Agrupamentos do Estado

Predictors: Media ESPVIDA EST; Media IDHM_Rest; Media IDHM est

Group G1 G2 G3 G4

Count 12 4 7 3

Page 91: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

91

Summary of classification

True Group

Put into Group G1 G2 G3 G4

G1 12 0 0 0

G2 0 4 0 0

G3 0 0 7 0

G4 0 0 0 3

Total N 12 4 7 3

N correct 12 4 7 3

Proportion 1,000 1,000 1,000 1,000

N = 26 N Correct = 26 Proportion Correct = 1,000

Squared Distance Between Groups

G1 G2 G3 G4

G1 0,000 23,795 99,405 175,650

G2 23,795 0,000 26,239 70,698

G3 99,405 26,239 0,000 10,919

G4 175,650 70,698 10,919 0,000

Linear Discriminant Function for Groups

G1 G2 G3 G4

Constant -104,80 -186,10 -296,92 -382,84

Media ESPVIDA EST 268,04 372,72 467,54 528,56

Media IDHM_Rest 5,81 18,52 50,02 55,92

Media IDHM est 274,51 339,90 408,31 467,03

Neste caso a proporção correta é de 100%, ou seja, os agrupamentos gerados anteriormente

pelo agrupamento em 4 Brasis gerou a mesma proporção do método linear utilizado na análise

discriminante.

4. REGRESSÃO LOGÍSTICA ORDINAL PARA AS VARIÁVEIS: IDHMn, IDHM_Rn

E ESPVIDAn.

Inicialmente foram classificadas pela análise ANOVA as regiões para as variáveis: IDHMn,

IDHM_Rn e ESPVIDAn.

One-way ANOVA: IDHMn versus Região Source DF SS MS F P

Região 4 82,3938 20,5985 1795,58 0,000

Error 5559 63,7714 0,0115

Total 5563 146,1652

S = 0,1071 R-Sq = 56,37% R-Sq(adj) = 56,34%

Page 92: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

92

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev --+---------+---------+---------+-------

CO 465 0,6108 0,0829 (*-)

N 449 0,4278 0,1355 (*-)

NE 1794 0,3889 0,0975 (*

S 1188 0,6669 0,0937 *)

SE 1668 0,6328 0,1223 (*)

--+---------+---------+---------+-------

0,400 0,480 0,560 0,640

Pooled StDev = 0,1071

One-way ANOVA: IDHM_Rn versus Região Source DF SS MS F P

Região 4 90,9836 22,7459 2143,97 0,000

Error 5559 58,9768 0,0106

Total 5563 149,9605

S = 0,1030 R-Sq = 60,67% R-Sq(adj) = 60,64%

Individual 95% CIs For Mean Based on Pooled StDev

Level N Mean StDev ---------+---------+---------+---------+

CO 465 0,5786 0,0857 (*)

N 449 0,3927 0,1261 (*)

NE 1794 0,3305 0,0939 *)

S 1188 0,6384 0,0900 (*)

SE 1668 0,5726 0,1175 (*

---------+---------+---------+---------+

0,400 0,480 0,560 0,640

Pooled StDev = 0,1030

One-way ANOVA: ESPVIDAn versus Região Source DF SS MS F P

Região 4 140,4313 35,1078 2319,16 0,000

Error 5559 84,1530 0,0151

Total 5563 224,5843

S = 0,1230 R-Sq = 62,53% R-Sq(adj) = 62,50%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev ---+---------+---------+---------+------

CO 465 0,6772 0,0825 (*)

N 449 0,4886 0,1292 (*)

NE 1794 0,3714 0,1356 *)

S 1188 0,7358 0,1177 (*

SE 1668 0,7036 0,1202 *)

---+---------+---------+---------+------

0,40 0,50 0,60 0,70

Pooled StDev = 0,1230

Page 93: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

93

Após esta análise chegou-se a classificação das regiões de acordo com as médias: NE (1); N

(2); CO (3); SE (4). Neste momento é realizado a Regressão Logística Ordinal.

Ordinal Logistic Regression: REGIÕES CODIFICA versus IDHM_Rn; IDHMn; ...

Link Function: Logit

Response Information

Variable Value Count

REGIÕES CODIFICADAS 1 1794

2 449

3 465

4 1668

5 1188

Total 5564

Logistic Regression Table

95% CI

Predictor Coef SE Coef Z P Odds Ratio Lower Upper

Const(1) 5,33758 0,124185 42,98 0,000

Const(2) 6,21802 0,132713 46,85 0,000

Const(3) 6,97998 0,140354 49,73 0,000

Const(4) 9,21375 0,161950 56,89 0,000

IDHM_Rn -10,9720 0,569948 -19,25 0,000 0,00 0,00 0,00

IDHMn 5,80239 0,580026 10,00 0,000 331,09 106,22 1031,96

ESPVIDAn -7,65374 0,303498 -25,22 0,000 0,00 0,00 0,00

Log-Likelihood = -5768,113

Test that all slopes are zero: G = 4781,031, DF = 3, P-Value = 0,000

Goodness-of-Fit Tests

Method Chi-Square DF P

Pearson 18090,0 22241 1,000

Deviance 11536,2 22241 1,000

Measures of Association:

(Between the Response Variable and Predicted Probabilities)

Pairs Number Percent Summary Measures

Concordant 9834742 85,0 Somers' D 0,70

Discordant 1713649 14,8 Goodman-Kruskal Gamma 0,70

Ties 15742 0,1 Kendall's Tau-a 0,52

Total 11564133 100,0

Destaca-se que esta análise é confiável, pois o valor de P foi de “0”. O modelo apresentou

nível de concordância de 85% (acerto).

Foi aplicada também a análise de Regressão Logística Ordinal para os dados agrupados em

região, no entanto, este não se mostrou confiável por causa do número de dados analisados

serem muito baixos.

Ordinal Logistic Regression: grupos versus Media ESPVID; Media IDHM_R; ...

Page 94: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

94

* WARNING * Algorithm has not converged after 20 iterations.

* WARNING * Convergence has not been reached for the parameter estimates

criterion.

* WARNING * The results may not be reliable.

* WARNING * Try increasing the maximum number of iterations.

Link Function: Logit

Response Information

Variable Value Count

grupos 1 12

2 4

3 7

4 3

Total 26

Logistic Regression Table

Odds 95% CI

Predictor Coef SE Coef Z P Ratio Lower Upper

Const(1) 234,299 22694,1 0,01 0,992

Const(2) 287,421 20887,5 0,01 0,989

Const(3) 351,062 27929,3 0,01 0,990

Media ESPVIDA EST -276,986 60066,7 -0,00 0,996 0,00 0,00 *

Media IDHM_Rest -110,437 73535,1 -0,00 0,999 0,00 0,00 *

Media IDHM est -127,477 55619,0 -0,00 0,998 0,00 0,00 *

Log-Likelihood = -0,000

Test that all slopes are zero: G = 64,858, DF = 3, P-Value = 0,000

Goodness-of-Fit Tests

Method Chi-Square DF P

Pearson 0,0000003 72 1,000

Deviance 0,0000006 72 1,000

Measures of Association:

(Between the Response Variable and Predicted Probabilities)

Pairs Number Percent Summary Measures

Concordant 229 100,0 Somers' D 1,00

Discordant 0 0,0 Goodman-Kruskal Gamma 1,00

Ties 0 0,0 Kendall's Tau-a 0,70

Total 229 100,0

5. CONSIDERAÇÕES FINAIS

A tarefa da análise discriminante é encontrar a melhor função discriminante linear ou

quadrática de um conjunto de variáveis que reproduza, tanto quanto possível, um

agrupamento a priori de casos considerados.

Page 95: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

95

Um procedimento em passos é utilizado nesse programa, e em cada passo a variável mais

poderosa é introduzida na função discriminante. A função critério para selecionar a próxima

variável depende do número de grupos especificados (o número de grupos varia de 2 a 20).

Quando o número de variáveis é maior do que dois, então o critério de seleção de variáveis é

o traço do produto da matriz de covariância para as variáveis envolvidas e a matriz de

covariância interclasse em um passo particular.

Os cálculos podem ser realizados em toda a população ou em amostra de dados ou mesmo em

dados previamente agrupados.

Em nossas análises com as variáveis IDHMn, IDHM_Rn e ESPVIDAn, utilizamos a análise

discriminante linear e conseguimos um resultado de 0,903 de proporção correta. Isto

demonstra coerência na divisão em dois grupos. Além disso, é relevante ressaltar a

similaridade destes grupos (municípios) com base nestas variáveis, levando em conta

inclusive sua situação geográfica.

Na outra análise realizada com base no agrupamento apresentado no dendograma, onde pode

ser percebido 4 “Brasis”, a proporcionalidade ficou em 100%.

4. REGRESSÃO LOGÍSTICA ORDINAL PARA AS VARIÁVEIS: IDHMn, IDHM_Rn

E ESPVIDAn.

Inicialmente foram classificadas pela análise ANOVA as regiões para as variáveis: IDHMn,

IDHM_Rn e ESPVIDAn.

One-way ANOVA: IDHMn versus Região Source DF SS MS F P

Região 4 82,3938 20,5985 1795,58 0,000

Error 5559 63,7714 0,0115

Total 5563 146,1652

S = 0,1071 R-Sq = 56,37% R-Sq(adj) = 56,34%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev --+---------+---------+---------+-------

CO 465 0,6108 0,0829 (*-)

N 449 0,4278 0,1355 (*-)

NE 1794 0,3889 0,0975 (*

S 1188 0,6669 0,0937 *)

SE 1668 0,6328 0,1223 (*)

--+---------+---------+---------+-------

0,400 0,480 0,560 0,640

Pooled StDev = 0,1071

One-way ANOVA: IDHM_Rn versus Região

Page 96: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

96

Source DF SS MS F P

Região 4 90,9836 22,7459 2143,97 0,000

Error 5559 58,9768 0,0106

Total 5563 149,9605

S = 0,1030 R-Sq = 60,67% R-Sq(adj) = 60,64%

Individual 95% CIs For Mean Based on Pooled StDev

Level N Mean StDev ---------+---------+---------+---------+

CO 465 0,5786 0,0857 (*)

N 449 0,3927 0,1261 (*)

NE 1794 0,3305 0,0939 *)

S 1188 0,6384 0,0900 (*)

SE 1668 0,5726 0,1175 (*

---------+---------+---------+---------+

0,400 0,480 0,560 0,640

Pooled StDev = 0,1030

One-way ANOVA: ESPVIDAn versus Região Source DF SS MS F P

Região 4 140,4313 35,1078 2319,16 0,000

Error 5559 84,1530 0,0151

Total 5563 224,5843

S = 0,1230 R-Sq = 62,53% R-Sq(adj) = 62,50%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev ---+---------+---------+---------+------

CO 465 0,6772 0,0825 (*)

N 449 0,4886 0,1292 (*)

NE 1794 0,3714 0,1356 *)

S 1188 0,7358 0,1177 (*

SE 1668 0,7036 0,1202 *)

---+---------+---------+---------+------

0,40 0,50 0,60 0,70

Pooled StDev = 0,1230

Após esta análise chegou-se a classificação das regiões de acordo com as médias: NE (1); N

(2); CO (3); SE (4). Neste momento é realizado a Regressão Logística Ordinal.

Ordinal Logistic Regression: REGIÕES CODIFICA versus IDHM_Rn; IDHMn; ...

Link Function: Logit

Response Information

Variable Value Count

REGIÕES CODIFICADAS 1 1794

2 449

3 465

4 1668

5 1188

Page 97: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

97

Total 5564

Logistic Regression Table

95% CI

Predictor Coef SE Coef Z P Odds Ratio Lower Upper

Const(1) 5,33758 0,124185 42,98 0,000

Const(2) 6,21802 0,132713 46,85 0,000

Const(3) 6,97998 0,140354 49,73 0,000

Const(4) 9,21375 0,161950 56,89 0,000

IDHM_Rn -10,9720 0,569948 -19,25 0,000 0,00 0,00 0,00

IDHMn 5,80239 0,580026 10,00 0,000 331,09 106,22 1031,96

ESPVIDAn -7,65374 0,303498 -25,22 0,000 0,00 0,00 0,00

Log-Likelihood = -5768,113

Test that all slopes are zero: G = 4781,031, DF = 3, P-Value = 0,000

Goodness-of-Fit Tests

Method Chi-Square DF P

Pearson 18090,0 22241 1,000

Deviance 11536,2 22241 1,000

Measures of Association:

(Between the Response Variable and Predicted Probabilities)

Pairs Number Percent Summary Measures

Concordant 9834742 85,0 Somers' D 0,70

Discordant 1713649 14,8 Goodman-Kruskal Gamma 0,70

Ties 15742 0,1 Kendall's Tau-a 0,52

Total 11564133 100,0

Destaca-se que esta análise é confiável, pois o valor de P foi de “0”. O modelo apresentou

nível de concordância de 85% (acerto).

Foi aplicada também a análise de Regressão Logística Ordinal para os dados agrupados em

região, no entanto, este não se mostrou confiável por causa do número de dados analisados

serem muito baixos.

Ordinal Logistic Regression: grupos versus Media ESPVID; Media IDHM_R; ... * WARNING * Algorithm has not converged after 20 iterations.

* WARNING * Convergence has not been reached for the parameter estimates

criterion.

* WARNING * The results may not be reliable.

* WARNING * Try increasing the maximum number of iterations.

Link Function: Logit

Response Information

Variable Value Count

grupos 1 12

2 4

3 7

4 3

Page 98: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

98

Total 26

Logistic Regression Table

Odds 95% CI

Predictor Coef SE Coef Z P Ratio Lower Upper

Const(1) 234,299 22694,1 0,01 0,992

Const(2) 287,421 20887,5 0,01 0,989

Const(3) 351,062 27929,3 0,01 0,990

Media ESPVIDA EST -276,986 60066,7 -0,00 0,996 0,00 0,00 *

Media IDHM_Rest -110,437 73535,1 -0,00 0,999 0,00 0,00 *

Media IDHM est -127,477 55619,0 -0,00 0,998 0,00 0,00 *

Log-Likelihood = -0,000

Test that all slopes are zero: G = 64,858, DF = 3, P-Value = 0,000

Goodness-of-Fit Tests

Method Chi-Square DF P

Pearson 0,0000003 72 1,000

Deviance 0,0000006 72 1,000

Measures of Association:

(Between the Response Variable and Predicted Probabilities)

Pairs Number Percent Summary Measures

Concordant 229 100,0 Somers' D 1,00

Discordant 0 0,0 Goodman-Kruskal Gamma 1,00

Ties 0 0,0 Kendall's Tau-a 0,70

Total 229 100,0

Classification Tree

Warnings

Gain summary Tables are not displayed because profits are undefined.

Target category gains tables are not displayed because target categories are undefined.

Model Summary

Specifications Growing Method CHAID

Dependent Variable Região

Independent Variables ESPVIDAn, IDHMn, IDHM_Rn

Validation None

Maximum Tree Depth 3

Page 99: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

99

Minimum Cases in Parent

Node

100

Minimum Cases in Child

Node

50

Results Independent Variables

Included

ESPVIDAn, IDHM_Rn, IDHMn

Number of Nodes 57

Number of Terminal Nodes 44

Depth 3

Page 100: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

100

Page 101: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

101

Risk

Estimate Std. Error

,412 ,007

Growing Method: CHAID

Dependent Variable: Região

Classification

Observed Predicted

CO N NE S SE Percent Correct

CO 26 0 17 85 337 5,6%

N 2 0 278 20 149 ,0%

NE 1 0 1586 30 177 88,4%

S 14 0 28 424 722 35,7%

SE 9 0 165 259 1235 74,0%

Overall Percentage ,9% ,0% 37,3% 14,7% 47,1% 58,8%

Growing Method: CHAID

Dependent Variable: Região

5. CONSIDERAÇÕES FINAIS

A tarefa da análise discriminante é encontrar a melhor função discriminante linear ou

quadrática de um conjunto de variáveis que reproduza, tanto quanto possível, um

agrupamento a priori de casos considerados.

Um procedimento em passos é utilizado nesse programa, e em cada passo a variável mais

poderosa é introduzida na função discriminante. A função critério para selecionar a próxima

variável depende do número de grupos especificados (o número de grupos varia de 2 a 20).

Quando o número de variáveis é maior do que dois, então o critério de seleção de variáveis é

o traço do produto da matriz de covariância para as variáveis envolvidas e a matriz de

covariância interclasse em um passo particular.

Os cálculos podem ser realizados em toda a população ou em amostra de dados ou mesmo em

dados previamente agrupados.

Em nossas análises com as variáveis IDHMn, IDHM_Rn e ESPVIDAn, utilizamos a análise

discriminante linear e conseguimos um resultado de 0,903 de proporção correta. Isto

demonstra coerência na divisão em dois grupos. Além disso, é relevante ressaltar a

Page 102: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

102

similaridade destes grupos (municípios) com base nestas variáveis, levando em conta

inclusive sua situação geográfica.

Na outra análise realizada com base no agrupamento apresentado no dendograma, onde pode

ser percebido 4 “Brasis”, a proporcionalidade ficou em 100%.

3.2.1. ANÁLISE DE CORRESPONDÊNCIA DAS VARIÁVEIS

Nesta análise serão trabalhados os estados e as médias de educação por estado. Na análise de

correspondência será gerado um mapa contendo quais estados estão mais próximos e quais

variáveis tem a ver entre si. O comando para gerar o gráfico é:

STAT >> MULTIVARIATE >> SIMPLE CORRESPONDENCE ANALISYS

0,100,050,00-0,05-0,10

0,10

0,05

0,00

-0,05

-0,10

Component 1

Co

mp

on

en

t 2

idr

id

es

TO

SPSE

SC

RS

RR

RO

RN

RJ

PR

PI

PEPB

PA

MT

MS

MG

MA

GOES

CE

BAAP

AM

AL

AC

Symmetric Plot

Nesta análise trabalhamos com as variáveis IDHMn, ESPVIDAn e IDHM_Rn, representadas

pelos quadrados azuis. Os círculos vermelhos são as médias das variáveis por estado, e podem

ser identificados pela sigla.

Simple Correspondence Analysis: Media ESPVID; Media IDHM_R; Media IDHM e Relative Inertias

es id idr Total

AC 0,000 0,006 0,008 0,015

AL 0,025 0,008 0,006 0,039

AM 0,055 0,019 0,012 0,086

AP 0,005 0,000 0,006 0,011

BA 0,006 0,001 0,003 0,009

CE 0,007 0,033 0,067 0,107

Page 103: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

103

ES 0,005 0,000 0,003 0,009

GO 0,003 0,000 0,002 0,005

MA 0,017 0,011 0,055 0,083

MG 0,044 0,012 0,013 0,069

MS 0,002 0,007 0,015 0,024

MT 0,000 0,004 0,003 0,007

PA 0,035 0,003 0,020 0,058

PB 0,005 0,000 0,005 0,010

PE 0,019 0,002 0,011 0,031

PI 0,001 0,001 0,003 0,005

PR 0,002 0,002 0,000 0,004

RJ 0,022 0,015 0,001 0,038

RN 0,013 0,000 0,018 0,031

RO 0,018 0,045 0,004 0,067

RR 0,127 0,070 0,013 0,210

RS 0,003 0,005 0,015 0,023

SC 0,002 0,001 0,005 0,008

SE 0,022 0,003 0,009 0,034

SP 0,003 0,000 0,004 0,007

TO 0,001 0,007 0,002 0,010

Total 0,440 0,256 0,304 1,000

Analysis of Contingency Table

Axis Inertia Proportion Cumulative Histogram

1 0,0019 0,6905 0,6905 ******************************

2 0,0008 0,3095 1,0000 *************

Total 0,0027

Row Contributions

Component 1 Component 2

ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr

1 AC 1,000 0,031 0,015 -0,010 0,075 0,002 -0,035 0,925 0,045

2 AL 1,000 0,024 0,039 0,065 0,965 0,055 -0,012 0,035 0,004

3 AM 1,000 0,027 0,086 -0,091 0,960 0,119 0,019 0,040 0,011

4 AP 1,000 0,038 0,011 0,026 0,837 0,013 0,011 0,163 0,006

5 BA 1,000 0,030 0,009 0,029 0,991 0,013 0,003 0,009 0,000

6 CE 1,000 0,031 0,107 0,041 0,179 0,028 0,089 0,821 0,284

7 ES 1,000 0,049 0,009 -0,022 0,975 0,012 -0,003 0,025 0,001

8 GO 1,000 0,049 0,005 -0,016 0,907 0,007 -0,005 0,093 0,001

9 MA 1,000 0,024 0,083 0,064 0,435 0,052 0,072 0,565 0,151

10 MG 1,000 0,046 0,069 -0,064 0,988 0,099 0,007 0,012 0,003

11 MS 1,000 0,048 0,024 -0,017 0,212 0,007 -0,033 0,788 0,062

12 MT 1,000 0,048 0,007 -0,002 0,015 0,000 -0,020 0,985 0,022

13 PA 1,000 0,031 0,058 -0,071 0,985 0,082 -0,009 0,015 0,003

14 PB 1,000 0,028 0,010 0,028 0,827 0,012 0,013 0,173 0,006

15 PE 1,000 0,030 0,031 0,053 0,985 0,044 0,007 0,015 0,001

16 PI 1,000 0,026 0,005 0,014 0,361 0,003 0,019 0,639 0,011

17 PR 1,000 0,050 0,004 0,012 0,623 0,004 -0,009 0,377 0,005

18 RJ 1,000 0,050 0,038 0,041 0,800 0,044 -0,020 0,200 0,025

19 RN 1,000 0,032 0,031 0,045 0,749 0,033 0,026 0,251 0,025

20 RO 1,000 0,041 0,067 0,037 0,300 0,029 -0,056 0,700 0,152

21 RR 1,000 0,036 0,210 -0,119 0,876 0,266 0,045 0,124 0,084

22 RS 1,000 0,054 0,023 -0,018 0,271 0,009 -0,029 0,729 0,054

23 SC 1,000 0,056 0,008 -0,015 0,580 0,007 -0,013 0,420 0,011

24 SE 1,000 0,030 0,034 0,056 1,000 0,050 0,001 0,000 0,000

25 SP 1,000 0,055 0,007 0,016 0,812 0,008 0,008 0,188 0,004

26 TO 1,000 0,038 0,010 -0,009 0,123 0,002 0,025 0,877 0,029

Page 104: ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS … · melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes ... nascidas vivas Quantitativa

104

Column Contributions

Component 1 Component 2

ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr

1 es 1,000 0,358 0,440 -0,058 0,994 0,634 0,004 0,006 0,008

2 id 1,000 0,306 0,256 0,026 0,291 0,108 -0,040 0,709 0,586

3 idr 1,000 0,336 0,304 0,038 0,587 0,258 0,032 0,413 0,406

4. CONSIDERAÇÕES FINAIS

A análise de correspondência pode ser considerada como um caso especial da análise de

componentes principais (TRABALHO num. 7), porém dirigida a dados categóricos

organizados em tabelas de contingência e não a dados contínuos. O problema é análogo a

encontrar o maior componente principal de um conjunto de I observações e J variáveis, com

modificações devido à ponderação das observações e à métrica ponderada.

Trata-se de um modelo de regressão para variáveis dependentes ou de resposta binomialmente

distribuídas. É útil para modelar a probabilidade de um evento ocorrer como função de outros

fatores.