boletim de anÁlises estatÍstico basta 2017 vol. 2 · do idh como medida do grau de...

156
PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programas de Pós Graduação em Economia e Administração da PUC-SP BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2 IDHEs ÍNDICE DE DESENVOLVIMENTO HUMANO ESTADUAL ATLAS BRASIL DISCIPLINA: MÉTODOS QUALITATIVOS E QUANTITATIVOS DA PESQUISA EMPÍRICA PROF. ARNOLDO JOSÉ DE HOYOS GUEVARA Odair Gomes Salles 1º SEMESTRE São Paulo – SP 2017 A Importância e Impacto da Esperança de Vida, Renda e Vulnerabilidade no País.

Upload: phamkhanh

Post on 13-Feb-2019

216 views

Category:

Documents


0 download

TRANSCRIPT

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO

Programas de Pós Graduação em

Economia e

Administração da

PUC-SP

BOLETIM DE ANÁLISES ESTATÍSTICO

BASTA 2017 Vol. 2

IDHEs ÍNDICE DE DESENVOLVIMENTO HUMANO ESTADUAL

ATLAS BRASIL

DISCIPLINA: MÉTODOS QUALITATIVOS E QUANTITATIVOS DA PESQUISA EMPÍRICA PROF. ARNOLDO JOSÉ DE HOYOS GUEVARA

Odair Gomes Salles

1º SEMESTRE

São Paulo – SP

2017

A Importância e Impacto da Esperança de Vida, Renda e Vulnerabilidade no País.

2

SUMÁRIO

INTRODUÇÃO ............................................................................................................ ...............4

CAPÍTULO I. DESENVOLVIMENTO HUMANO: IDHM, VARIÁVEIS E DADOS...............5

1.1 Conceito de Desenvolvimento Humano ..................................................................... ............5

1.2 Índice de Desenvolvimento Humano ......................................................................................5

1.3 Índice de Desenvolvimento Humano Municipal Brasileiro ....................................................6

CAPÍTULO II. ENTENDENDO OS DADOS .............................................................................7

2.1 Os Indivíduos .........................................................................................................................7

2.2 As Variáveis ...........................................................................................................................7

2.3 População ...............................................................................................................................8

2.4 As Variáveis em termos do significado ................................................................................ 10

2.5 O tipo de variável e sua unidade de medida.......................................................................... 14

CAPÍTULO III. ANÁLISE EXPLORATÓRIA DAS VARIÁVEIS .......................................... 15

3.1 As Variáveis dos IDHs: ........................................................................................................ 18

3.2 Variável Expectativa de Vida (ESPVIDA)............................................................................ 19

3.3 Variável Mortalidade Infantil (MORT1)............................................................................... 20

3.4 Taxa de analfabetismo - 25 anos ou mais (T_ANALF25M)................................................. 21

3.5 Variável % de 25 anos ou mais com fundamental completo (T_FUND25M)...................... 21

3.6 Variável Renda per capita (RDPC) ........................................................................................23

3.7 Variável Renda per capita média dos extremamente pobres (RIND).................................... 24

3.8 Variável Grau de formalização dos ocupados – 18 anos ou mais (P_FORMAL) .................25

3.9 Variável Rendimento médio dos ocupados – 18 anos ou mais (RENOCUP) .......................26

3.10 Variável % da População em domicílios com banheiro e água encanada

(T_BANAGUA) .............................................................................................................. ...........27

3.11 Variável % da População em domicílios com densidade>2 (T_DENS) .............................28

3.12 Variável % de 15 a 24 anos que não estudam, não trabalham e são vulneráveis à

pobreza (T_NESTUDA_NTRAB_MMEIO) .............................................................................29

3.13 Variável % de pessoas em domicílios vulneráveis à pobreza e em que ninguém tem

fun-damental completo (T_FUNDIN_TODOS_MMEIO) ........................................................30

3.14 Variável % de mães chefes de família sem fundamental completo e com filhos

menores de 15 anos (T_MULCHEFEFI014) ..............................................................................31

3.15 Variável PEA – 18 anos ou mais (PEA18M) ......................................................................32

CAPÍTULO IV. ANÁLISE COMPARATIVA DA ANÁLISE DESCRITIVA ......................... 33

CAPÍTULO V. CORRELAÇÃO DAS VARIÁVEIS ................................................................ 36

CAPÍTULO VI. GRÁFICOS DE DISPERSÃO ........................................................................ 40

CAPÍTULO VII. DENDROGRAMA ........................................................................................ 41

CAPÍTULO VIII. ANÁLISE DE TENDÊNCIAS ..................................................................... 42

8.1 Os Indivíduos ....................................................................................................................... 42

3

8.2 As Variáveis ......................................................................................................................... 42

8.3 A fonte e o tamanho da série de dados ................................................................................. 43

CAPÍTULO IX. ANÁLISE DAS VARIÁVEIS BANCO DE DADOS IBGE ........................ ...44

9.1 Variável: Taxa de analfabetismo de pessoas de 10 anos ou mais (%) ...................................43

9.1.1 Análise de tendência da variável .........................................................................................43

9.1.2 As previsões ........................................................................................................................44

9.2 Variável: Escolaridade de 15 anos ou mais – População ocupada ........................................46

9.2.1. Escolaridade de 15 anos ou mais – População ocupada.....................................................46

9.2.2 As previsões ........................................................................................................................47

9.3 Variável: Investimento ...........................................................................................................48

9.3.1 Investimento .......................................................................................................................48

9.3.2 As previsões........................................................................................................................ 49

CAPÍTULO X. ANÁLISE DE REGRESSÃO LINEAR MULTIVARIADA ............................ 52

10.1 Relações entre variáveis ..................................................................................................... 52

10.2 Apresentação de relações entre variáveis ........................................................................... 52

10.3 Regressão ........................................................................................................................... 53

CAPÍTULO XI. COMPARAÇÃO E TESTES DE HIPÓTESES ............................................... 58

CAPÍTULO XII. PESQUISA POR AMOSTRAGEM ............................................................... 66

CAPÍTULO XIII. ANÁLISE DOS COMPONENTES PRINCIPAIS ........................................ 74

CAPÍTULO XIV. COMPARAÇÃO DE MÉDIAS E ANÁLISE DE CLUSTER ...................... 84

14.1 Um Novo Mapa Do Brasil .................................................................................................. 92

CAPÍTULO XV. ANÁLISE DISCRIMINANTE ...................................................................... 92

CAPÍTULO XVI. OS DIFERENTES BRASIS........................................................................ 103

CAPÍTULO XVII. REGRESSÃO LOGÍSTICA ...................................................................... 113

CAPÍTULO XVIII. ANÁLISE DE CORRESPONDÊNCIA ................................................... 126

18.1 Preparação Dos Dados .......................................................................................................126

18.2 A Análise De Correspondência Por Estados Para As 7 Variáveis..................................... 127

18.3 Análise De Correspondência Por Região Para As 7 Variáveis.......................................... 129

18.4 Análise De Correspondência Por Novos Agrupamentos (3 Clusters) Para As 7

Variáveis ....................................................................................................................................134

18.5 Análise De Correspondência Por Estado Para As 3 Variáveis Analisadas No Trabalho

AnteriorDe Regressão Logística ...............................................................................................140

18.6 Comentários sobre a Análise de Correspondência............................................................. 142

APÍTULO XIX. RANKING POR ESTADOS..........................................................................148

CAPÍTULO XX. RANKING POR ESTADOS............................................... ......................... 148

20.1 Análise dos Principais Componentes ............................................... .................................146

20.2 Análise dos Principais Componentes................................................................................. 148

CONSIDERAÇÕES FINAIS ................................................................................................... 154

REFERÊNCIAS.................................................................................................................. .......156

4

INTRODUÇÃO

O Atlas do Desenvolvimento Humano no Brasil democratiza a informação no âmbito mu-

nicipal e metropolitano. Seu objetivo é instrumentalizar a sociedade. Fortalece as capacidades lo-

cais, o aprimoramento da gestão pública e o empoderamento dos cidadãos. É constituído pelo Atlas

do Desenvolvimento Humano nos Municípios e o Atlas do Desenvolvimento Humano nas Regiões

Metropolitanas. Local de consulta ao Índice de Desenvolvimento Humano Municipal (IDHM) de

5.565 municípios brasileiros, 27 Unidades da Federação (UF), 20 Regiões Metropolitanas (RM) e

suas respectivas Unidades de Desenvolvimento Humano (UDH). Além disso, fornece mais de 20

indicadores de demografia, educação, renda, trabalho, habitação e vulnerabilidade. Os dados dos

Censos Demográficos, dos anos de 1991, 2000 e 2010 (ATLAS BRASIL, 2017).

O Atlas consolida um diálogo informado e embasado sobre o desenvolvimento a partir de

uma referencia utilizada internacionalmente, o Índice do Desenvolvimento Humano (IDH). De-

senvolvimento Humano é o processo de ampliação das liberdades das pessoas, com relação às suas

capacidades e as suas oportunidades a seu dispor, para que elas possam escolher a vida que dese-

jam ter. Tanto o conceito como sua medida o IDH, foram apresentados em 1990 no Programa das

Nações Unidades para o Desenvolvimento (PNUD). Idealizado pelo o economista paquistanês

MahbubulHaq e colaboração do economista Amartya Sen (ATLAS BRASIL, 2017).

O Atlas permite transparência aos processos de desenvolvimento em importantes temas

sociais. Possibilita o acompanhamento dos caminhos trilhados nos últimos 20 anos e análises para

traçar o futuro. A audiência principal está organizada em cinco categorias: (1) gestores estaduais

e municipais, uma forma de identificar regiões que necessitam de intervenções, políticas e ações

especificas; (2) atores municipais, apoio ao diagnóstico aos principais desafios municipais; (3)

pesquisadores, nosso caso, estudo das políticas públicas, identificação de programas bem-sucedi-

dos e mapeamento de desafios e oportunidades; (4) sociedade civil e setor privado, orienta a alo-

cação de recursos e definição de público-alvo para as ações de desenvolvimento; e (5) cidadãos,

estimulo a participação social.

O presente trabalho tem por objetivo apresentar a análise dos Municípios Brasileiros, to-

mando como fonte de dados o Atlas de Desenvolvimento Humano no Brasil relativo aos índices

do ano de 2010 publicados em 2013. Inicia com uma análise exploratória de dados (AED), das

variáveis que compõem om IDHM em sete dimensões. O software estatístico utilizado é o MI-

NITAB (2016)

5

CAPÍTULO I. DESENVOLVIMENTO HUMANO: IDHM, VARIÁVEIS E DADOS

1.1 Conceito de Desenvolvimento Humano

O processo de expansão das liberdades inclui as dinâmicas sociais, econômicas, políticas e

ambientais. Dinâmicas necessárias para garantir oportunidades as pessoas. Além do ambiente pro-

pício para que cada uma exerça seu potencial. O desenvolvimento humano deve ser centrado nas

pessoas e na ampliação do seu bem-estar. Entendido como a ampliação do escopo das escolhas e

da capacidade e da liberdade de escolher. Nesta abordagem, a renda e a riqueza não são meios para

que as pessoas possam viver a vida que desejam (ATLAS BRASIL, 2017).

O crescimento econômico de uma sociedade não se traduz automaticamente em qualidade

de vida. Porém, observa-se em muitas vezes, as desigualdades. Este crescimento necessita ser

transformado em conquistas concretas para as pessoas: crianças mais saudáveis, educação univer-

sal e de qualidade, ampliação da participação política dos cidadãos, preservação ambiental, equi-

líbrio da renda e das oportunidades entre todas as pessoas, maior liberdade de expressão, entre

outras. Dessa forma as pessoas estão no centro da análise do bem-estar. Redefinindo a maneira

como pensamos sobre e lidamos com o desenvolvimento (ATLAS BRASIL, 2017).

A popularização da abordagem de desenvolvimento humano se deu com a criação e adoção

do IDH como medida do grau de desenvolvimento humano de um país, em alternativa ao Produto

Interno Bruto (PIB), hegemônico, à época, como medida de desenvolvimento (ATLAS BRASIL,

2017).

1.2 Índice de Desenvolvimento Humano

O IDH reúne três dos requisitos mais importantes para a expansão das liberdades das pes-

soas: a oportunidade de se levar uma vida longa e saudável (longevidade), de ter acesso ao conhe-

cimento (educação), e de poder desfrutar de um padrão de vida digno (renda), conforme Figura1.

6

Figura 1 – Desenvolvimento Humano: 3 Dimensões

Fonte: Atlas Brasil (2017)

O IDH obteve grande repercussão mundial devido principalmente à sua simplicidade, fácil

compreensão e pela forma mais holística e abrangente de mensurar o desenvolvimento. Transfor-

mando em um único número a complexidade de três importantes dimensões. A dimensão da lon-

gevidade, diz respeito a ampliação das oportunidades que as pessoas têm de evitar a morte prema-

tura, garantias de ambiente saudável, acesso à saúde de qualidade, para que possam atingir o pa-

drão mais elevado possível de saúde física e mental.A dimensão da educação, diz respeito ao

acesso ao conhecimento, é um determinante crítico para o bem-estar e é essencial para o exercício

das liberdades individuais, da autonomia e da autoestima. E a dimensão da renda, diz respeito ao

padrão de vida. Renda é essencial para acessarmos necessidades básicas como água, comida e

abrigo. A renda é um meio para uma série de fins, possibilita nossa opção por alternativas dispo-

níveis e sua ausência pode limitar as oportunidades de vida (ATLAS BRASIL, 2017).

Em 2012, o PNUD Brasil, o Ipea e a Fundação João Pinheiro assumiram o desafio de adap-

tar a metodologia do IDH Global para calcular o IDH Municipal (IDHM). Posterior ao IDHM dos

municípios brasileiros, as três instituições assumiram o novo desafio de calcular o IDHM a nível

intramunicipal das regiões metropolitanas do país (ATLAS BRASIL, 2017).

1.3 Índice de Desenvolvimento Humano Municipal Brasileiro

O IDHM brasileiro considera as mesmas três dimensões do IDH Global, mas, adequa a

metodologia global ao contexto brasileiro e à disponibilidade de indicadores nacionais. O IDHM

(três componentes: IDHM Longevidade; IDHM Educação; e IDHM Renda), conta um pouco da

7

história dos municípios, estados e regiões metropolitanas em três importantes dimensões do de-

senvolvimento humano durante duas décadas da história brasileira. O IDHM é um número que

varia entre 0 e 1. Quanto mais próximo de 1, maior o desenvolvimento humano de uma unidade

federativa, município, região metropolitana ou UDH (ATLAS BRASIL, 2017).

CAPÍTULO II. ENTENDENDO OS DADOS

Os dados são referentes ao ano de 2010. As variáveis são indicadores agregados que com-

põem o IDH_M e seus componentes IDH_E, IDH_L e IDH_R. Neste sentido, Desenvolvimento

Humano é definido como um conjunto de indicadores que tratam de Educação, Longevidade li-

gada à Saúde e Renda das populações nos municípios. As dimensões educação, longevidade e

econômica são capturadas pelas variáveis que serão discutidas na sequência deste trabalho.

2.1 Os Indivíduos

Os indivíduos desta análise são os 5565 municípios brasileiros que constam na base de

dados do Atlas de Desenvolvimento Humano no Brasil quanto a seus indicadores de Educação,

Longevidade e Renda e, os 232 indicadores disponíveis no portal Atlas Brasil, dados de 2010,

abertos em 08 categorias. Na análise por estados temos 27 estados da federação e, as oito categorias

são compostas por.

Demografia

Educação

Renda Trabalho

Habitação

Vulnerabilidade

População

IDHM

2.2 As Variáveis

A análise exploratória de dados emprega certa variedade de técnicas gráficas e quantitati-

vas. Consiste em organizar, resumir e apresentar os dados de uma determinada amostra. Antiga-

mente era apenas conhecida como estatística descritiva até que John Wilder Tukey (1915 – 2000)

publicou o livro Exploratory Data Analisysem 1977, popularizando o termo. A AED utiliza-se de

tabelas, gráficos e medidas descritivas como ferramentas, utilizadas na etapa inicial da análise para

obter informações que indicam possíveis modelos. Numa fase final estes modelos são utilizados

na inferência estatística.

As variáveis são as características estudas de um determinado fenômeno e, podem ter tipos

diferentes: qualitativas (não numéricas ou categóricas) e quantitativas (numéricas). As variáveis

8

quantitativas podem ser discretas, assumem apenas valores inteiros (ex.: número de irmãos, nú-

mero de filhos, etc.); ou contínuas, assumem qualquer valor no intervalo dos números reais (ex.:

peso, altura, etc.). As variáveis qualitativas podem ser nominais, quando as categorias não possuem

uma ordem natural (ex.: nomes, cores, sexo, etc.); ou ordinais, quando as categorias podem ser

ordenadas (ex.: tamanho – pequeno, médio, grande; grau de instrução – básico, médio, graduação,

entre outros).

Nosso estudo selecionou de forma aleatória 21 variáveis, incluindo a região, unidade da

federação e o nome dos municípios. Na sequência do trabalho descrevemos e explicamos cada

variável; ressalvando-se que os dados desta pesquisa se referem ao ano de 2010.

Dos 232 indicadores que compõem a base de dados disponibilizada no Atlas Brasil, por

metodologia previamente definida, foram escolhidas 02 variáveis de cada uma das 07 classifica-

ções que somadas aos 04 indicadores dos IDHM, incluindo unidade da federação, região e o nome

dos municípios, perfazem o total de 21 variáveis entre categóricas e quantitativas a serem aborda-

das, exploradas e analisadas neste estudo. ; na tabela 1 a seguir temos as dimensões versus indica-

dores e siglas correspondentes segundo definição do Atlas Brasil.

Na busca por esses indicadores procurou-se, mesmo que de forma empírica, uma provável

associação que possa nos levar a conhecer melhor a composição dos dados e, consequentemente,

ter mais subsídios em ações que possam ser adotadas.

2.3 População

População é o conjunto formado pelo total de indivíduos que representam pelo menos uma

característica comum, qual interessa inferir (analisar). Sendo o objetivo da generalização estatís-

tica, comunicar algo em relação as diversas características da população estudada. No nosso caso,

os indivíduos são os 5.565 municípios brasileiros contidos no Censo Demográfico do IBGE –

2010. O critério de seleção foi utilizar o banco de dados do Atlas de Desenvolvimento Humano no

Brasil que disponibiliza o IDHM e 232 indicadores de demografia, educação, renda, trabalho, ha-

bitação e vulnerabilidade. Os dados analisados de cada município são as variáveis tratadas no pró-

ximo tópico.

Tabela 1. Dimensões

DIMEN-

SÃO

TEMA INDICADORES SIGLA

IDHM

IDHM IDHM IDHM

IDHM Educa-

ção

IDHM Renda IDHM_R

9

IDHM Renda IDHM Longevidade IDHM_L

IDHM Longevi-

dade

IDHM Educação IDHM_ E

DEMO-

GRAFIA

Esperança de vida ao nas-

cer ESPVIDA

Mortalidade infantil MORT1

EDUCA-

ÇÃO

Analfabetismo Taxa de analfabetismo –

25 anos ou mais T_ANALF25M

Escolaridade % de 25 anos ou mais com

fundamental completo T_FUND25M

RENDA

Nível/Composi-

ção

Renda per capita RDPC

Pobreza Renda per capita média

dos extremamente pobres RIND

TRABA-

LHO

Posição na Ocu-

pação

Grau de formalização dos

ocupados - 18 anos ou mais P_FORMAL

Rendimento Rendimento médio dos

ocupados - 18 anos ou mais RENOCUP

HABITA-

ÇÃO

% da população em domi-

cílios com banheiro e água

encanada

T_BANAGUA

% da população em domi-

cílios com densidade > 2 T_DENS

VULNE-

RABILI-

DADE

Educação, Tra-

balho e Renda

% de 15 a 24 anos que não

estudam, não trabalham e

são vulneráveis à pobreza

T_NES-

TUDA_NTRAB_MMEIO

% de pessoas em domicí-

lios vulneráveis à pobreza

e em que ninguém tem

fundamental completo

T_FUNDIN_TO-

DOS_MMEIO

POPULA-

ÇÃO

População de

referência dos

indicadores

% de mães chefes de famí-

lia sem fundamental com-

pleto e com filhos menores

de 15 anos

T_MULCHEFEFIF014

PEA – 18 anos ou mais PEA18M

Fonte: Atlas do Desenvolvimento Humano do Brasil (Minitab 2016)

10

2.4 As Variáveis em termos do significado

Após definir as dimensões a serem exploradas, buscou-se selecionar 2 a 3 variáveis ligadas

às dimensões e, com base na sigla de cada uma, elaborou-se uma nova tabela apresentando os

nomes e suas definições segundo os critérios do Atlas/IBGE.

Tabela 2. As variáveis e suas definições

SIGLA NOME LONGO DEFINIÇÃO

IDHM

Índice de Desenvol-

vimento Humano

Municipal

Índice de Desenvolvimento Humano

Municipal. Média geométrica dos ín-

dices das dimensões Renda, Educação

e Longevidade, com pesos iguais.

IDHM_R

Índice de Desenvol-

vimento Humano

Municipal - Di-

mensão Renda

Índice da dimensão Renda que é um

dos 3 componentes do IDHM. É ob-

tido a partir do indicador Renda per

capita, através da fórmula: [ln (valor

observado do indicador) - ln (valor

mínimo)] / [ln (valor máximo) - ln (va-

lor mínimo)], onde os valores mínimos

e máximos são R$ 8,00 e R$ 4.033,00

(a preços de agosto de 2010).

IDHM_L

Índice de Desenvol-

vimento Humano

Municipal - Di-

mensão Longevi-

dade

Índice da dimensão Longevidade que

é um dos 3 componentes do IDHM. É

obtido a partir do indicador Espe-

rança de vida ao nascer, através da

fórmula: [(valor observado do indica-

dor) - (valor mínimo)] / [(valor má-

ximo) - (valor mínimo)], onde os valo-

res mínimos e máximos são 25 e 85

anos, respectivamente.

IDHM_ E

Índice de Desenvol-

vimento Humano

Municipal - Di-

mensão Educação

Índice sintético da dimensão Educação

que é um dos 3 componentes do

IDHM. É obtido através da média ge-

ométrica do subíndice de frequência

de crianças e jovens à escola, com peso

11

de 2/3, e do subíndice de escolaridade

da população adulta, com peso de 1/3.

ESPVIDA Esperança de vida

ao nascer

Número médio de anos que as pessoas

deverão viver a partir do nascimento,

se permanecerem constantes ao longo

da vida o nível e o padrão de mortali-

dade por idade prevalecentes no ano

do Censo.

MORT1 Mortalidade até

um ano de idade

Número de crianças que não deverão

sobreviver ao primeiro ano de vida em

cada 1000 crianças nascidas vivas.

T_ANALF25M

Taxa de analfabe-

tismo da população

de 25 anos ou mais

de idade

Razão entre a população de 25 anos

ou mais de idade que não sabe ler nem

escrever um bilhete simples e o total

de pessoas nesta faixa etária multipli-

cado por 100.

T_FUND25M

Percentual da po-

pulação de 25 anos

ou mais com fun-

damental completo

Razão entre a população de 25 anos

ou mais de idade que concluiu o en-

sino fundamental, em quaisquer de

suas modalidades (regular seriado,

não seriado, EJA ou supletivo) e o to-

tal de pessoas nesta faixa etária multi-

plicado por 100.

RDPC Renda per capita

média

Razão entre o somatório da renda de

todos os indivíduos residentes em do-

micílios particulares permanentes e o

número total desses indivíduos. Valo-

res em reais de 01/agosto de 2010.

RIND

Renda domiciliar

per capita média

dos extremamente

pobres

Média da renda domiciliar per capita

das pessoas com renda domiciliar per

capita igual ou inferior a R$ 70,00

mensais, a preços de agosto de 2010. O

universo de indivíduos é limitado

àqueles que vivem em domicílios par-

ticulares permanentes.

12

P_FORMAL

Grau de formaliza-

ção do trabalho

das pessoas ocupa-

das

Razão entre o número de pessoas de

18 anos ou mais formalmente ocupa-

das e o número total de pessoas ocupa-

das nessa faixa etária multiplicado por

100. Foram considerados como for-

malmente ocupados os empregados

com carteira de trabalho assinada, os

militares do exército, da marinha, da

aeronáutica, da polícia militar ou do

corpo de bombeiros, os empregados

pelo regime jurídico dos funcionários

públicos, assim como os empregadores

e trabalhadores por conta própria que

eram contribuintes de instituto de pre-

vidência oficial.

RENOCUP Rendimento médio

dos ocupados

Média dos rendimentos de todos os

trabalhos das pessoas ocupadas de 18

anos ou mais de idade. Valores em re-

ais de agosto de 2010.

T_BANAGUA

Percentual da po-

pulação que vive

em domicílios com

banheiro e água

encanada

Razão entre a população que vive em

domicílios particulares permanentes

com água encanada em pelo menos

um de seus cômodos e com banheiro

exclusivo e a população total residente

em domicílios particulares permanen-

tes multiplicado por 100. A água pode

ser proveniente de rede geral, de poço,

de nascente ou de reservatório abaste-

cido por água das chuvas ou carro-

pipa. Banheiro exclusivo é definido

como cômodo que dispõe de chuveiro

ou banheira e aparelho sanitário.

T_DENS

Percentual da po-

pulação que vive

em domicílios com

Razão entre a população que vive em

domicílios particulares permanentes

13

densidade superior

a 2 pessoas por

dormitório

com densidade superior a 2 e a popu-

lação total residente em domicílios

particulares permanentes multipli-

cado por 100. A densidade do domicí-

lio é dada pela razão entre o total de

moradores do domicílio e o número

total de cômodos usados como dormi-

tório.

T_NES-

TUDA_NTRAB_MMEIO

% de pessoas de 15

a 24 anos que não

estudam nem tra-

balham e são vul-

neráveis à pobreza.

Razão entre as pessoas de 15 a 24 anos

que não estudam nem trabalham e são

vulneráveis à pobreza e a população

total nesta faixa etária multiplicado

por 100. Define-se como vulneráveis à

pobreza as pessoas que moram em do-

micílios com renda per capita inferior

a 1/2 salário mínimo de agosto de

2010. São considerados apenas os do-

micílios particulares permanentes.

T_FUNDIN_TO-

DOS_MMEIO

% de pessoas em

domicílios vulnerá-

veis à pobreza e em

que ninguém tem

fundamental com-

pleto.

Percentual de pessoas que vivem em

domicílios vulneráveis à pobreza (com

renda per capita inferior a 1/2 salário

mínimo de agosto de 2010) e em que

ninguém tem o ensino fundamental

completo. São considerados apenas os

domicílios particulares permanentes.

T_MULCHEFEFIF014

Percentual de mães

chefes de família,

sem fundamental

completo e com

pelo menos um fi-

lho menor de 15

anos de idade

Razão entre o número de mulheres

que são responsáveis pelo domicílio,

não têm o ensino fundamental com-

pleto e têm pelo menos 1 filho de idade

inferior a 15 anos morando no domicí-

lio e o número total de mulheres che-

fes de família multiplicado por 100.

São considerados apenas os domicílios

particulares permanentes.

14

PEA18M

População econo-

micamente ativa de

18 anos ou mais de

idade

População economicamente ativa.

Corresponde ao número de pessoas

nessa faixa etária que, na semana de

referência do Censo, encontravam-se

ocupadas no mercado de trabalho ou

que, encontrando-se desocupadas, ti-

nham procurado trabalho no mês an-

terior à data da pesquisa.

Fonte: Atlas do Desenvolvimento Humano do Brasil (Minitab 2016)

2.5 O tipo de variável e sua unidade de medida

Selecionadas as variáveis, caracterizou-se o tipo e a unidade de medida para cada uma de-

las.

Tabela 3. O tipo de variáveis e sua unidade de medida

N VARIÁVEL SIGNIFICADO TIPO

UNIDADE

DE ME-

DIDA

1 REGIÃO Nome da Região do Brasil Texto NA

2 UF Unidade da Federação Texto NA

3 MUNICÍPIO Nome do Município Texto NA

4 IDHM IDH Município Quanti-

tativa Índice

5 IDHM_R IDHM Renda Quanti-

tativa Índice

6 IDHM_L IDHM Longevidade Quanti-

tativa Índice

7 IDHM_ E IDHM Educação Quanti-

tativa Índice

8 ESPVIDA Esperança de vida ao nascer Quanti-

tativa

Valor

Absoluto

9 MORT1 Mortalidade infantil Quanti-

tativa

Valor

Absoluto

10 T_ANALF25M Taxa de analfabetismo - 25

anos ou mais

Quanti-

tativa Percentual

15

11 T_FUND25M % de 25 anos ou mais com

fundamental completo

Quanti-

tativa Percentual

12 RDPC Renda per capita Quanti-

tativa

Valor

Absoluto

13 RIND Renda per capita média dos

extremamente pobres

Quanti-

tativa Índice

14 P_FORMAL Grau de formalização dos ocu-

pados - 18 anos ou mais

Quanti-

tativa Índice

15 RENOCUP Rendimento médio dos ocupa-

dos - 18 anos ou mais

Quanti-

tativa

Valor

Absoluto

16 T_BANAGUA

% da população em domicílios

com banheiro e água enca-

nada

Quanti-

tativa Percentual

17 T_DENS % da população em domicílios

com densidade > 2

Quanti-

tativa Percentual

18 T_NES-

TUDA_NTRAB_MMEIO

% de 15 a 24 anos que não es-

tudam, não trabalham e são

vulneráveis à pobreza

Quanti-

tativa Percentual

19 T_FUNDIN_TO-

DOS_MMEIO

% de pessoas em domicílios

vulneráveis à pobreza e em

que ninguém tem fundamental

completo

Quanti-

tativa Percentual

20 T_MULCHEFEFIF014

% de mães chefes de família

sem fundamental completo e

com filhos menores de 15 anos

Quanti-

tativa Percentual

21 PEA18M PEA – 18 anos ou mais Quanti-

tativa

Valor

Absoluto

Fonte: Atlas do Desenvolvimento Humano do Brasil (Minitab 16)

CAPÍTULO III. ANÁLISE EXPLORATÓRIA DAS VARIÁVEIS

Variáveis Qualitativas ou categórica

Este tipo de variável indica que o foco de concentração deve ser a análise de gráficos do

tipo pie chart e/ou barras.

Variável: “Município”

16

A amostra totaliza 5.565 municípios, que pode ser verificada na distribuição no território

nacional de acordo com a Unidade Federal no Gráfico 1

Gráfico 1 – Distribuição de Municípios por Região

Fonte: Elaborado pelo autor (Atlas Brail, 2016)

De acordo com o Gráfico 1, observa-se que as maiores concentrações de municípios brasi-

leiros estão nas regiões Nordeste (32%) e na região Sudeste (30%). Juntas somam mais de 60%

dos municípios pesquisados, totalizando 62%.

O Gráfico 2, apresenta a distribuição dos municípios brasileiros pelas Unidades da Federa-

ção do Brasil.

17

Gráfico 2 – Distribuição dos Municípios por Unidade da Federação

Fonte: Elaborado pelo Autor (Atlas Brasil, 2016)

Podemos observar no Gráfico 2, a Unidade Federativa mais populosa em números de mu-

nicípios é Minas Gerais (15%), seguida por São Paulo (12%) e Rio Grande do Sul (9%). As menos

populosas em número de municípios são Acre, Amazonas, Amapá, entre outras.

A Figura 2 apresenta o IDHM dos municípios brasileiros em 1999, 2000 e 2010. Com base

nesta representação topográfica, observa-se que os índices mais altos de IDHM, estão concentra-

dos na região centro-sul do Brasil. Nota-se também que a região Norte e Nordeste apresentava em

1999 índices muitos abaixo, nos 2000 e 2010 observa-se a significativa evolução dos índices nas

regiões.

18

Figura 2 - Mapa 1: IDHM do Brasil (1991, 2000, 2010)

Fonte: Atlas Brasil (2016)

Variáveis Quantitativas

A análise deste tipo de variável permite a utilização de uma maior gama de ferramentas de

análise como histogramas, curvas de densidade, gráfico de ramos, box-plot e dot-plot, além de

informações numéricas como média, desvio-padrão, mediana, quartis, 5 números, intervalo de

confiança e teste de normalidade de Anderson-Darling

3.1 As Variáveis dos IDHs:

IDHM – Índice de Desenvolvimento Humano Municipal (IDHM)

IDHM – Índice de Desenvolvimento Humano Dimensão Renda (IDHM_R)

IDHM – Índice de Desenvolvimento Humano Dimensão Longevidade (IDHM_L)

IDHM – Índice de Desenvolvimento Humano Dimensão Educação (IDHM_E)

19

Fonte: Elaborado pelo autor (Minitab 16)

Observações dos resultados do histograma:

• Forma: O Histograma O Histograma do IDH Municipal e IDH Renda apresentam uma

distribuição em 2 blocos de concentração na faixa entre os índices 0,5720 a 0,7180. O Box-

Plot demonstra a concentração na faixa citada, o posicionamento da mediana confirma essa

assertiva.

O Histograma do IDH Longevidade e IDH Educação apresenta uma distribuição concentrada;

sendo que, no IDH Longevidade a distribuição é mais à direita como se pode observar no Box-

Plot. Quanto ao IDH Educação das 4 variáveis é o que apresenta a distribuição mais normal de

todos em termos de concentração,.

• Valores Atípicos: Não se identifica valores atípicos; porém, o 9º município com pior IDH

M não aparece entre os 10 piores municípios no IDH R, IDH L e IDH E. (município de

Cachoeira do Piriá no estado do Pará), o que chama a atenção para uma pesquisa mais

pormenorizada.

• Centro e Dispersão: A mediana A mediana do IDH M mostra que há uma distribuição mais

a direita e seu valor é 0,66500 enquanto que o IDH M médio é 0,6591, tendo um desvio-

padrão de 0,0720. Com 95% de confiança podemos afirmar que a média encontra-se entre

os índices de 0,65727 a 0,66105.

A mediana do IDH L mostra que há uma distribuição mais à esquerda e seu valor é 0,80800

enquanto que o IDH L médio é 0,80156, tendo um desvio-padrão de 0,04468. Com 95% de confi-

ança podemos afirmar que a média encontra-se entre os índices de 0,80039 a 0,802874.

20

A mediana do IDH R e IDH E mostra que há uma distribuição equilibrada entre os lados e

seus valores é respectivamente: 0,65400 e 0,56000; enquanto que o IDH R e IDH E médio respec-

tivamente é igual a 0,64287 e 0,55909. O desvio-padrão do IDH R e IDH E é respectivamente:

0,8066 e 0,09333.

Com 95% de confiança podemos afirmar que a média do IDH R encontra-se entre os índices

0,64075 a 0,64499 e, para o IDH E encontra-se entre os índices 0,55664 a 0,56155.

3.2 Variável Expectativa de Vida (ESPVIDA)

Observações dos resultados do histograma:

• Forma: O Através do histograma podemos verificar que se trata de uma distribuição simé-

trica. O teste de normalidade de Anderson- Darling demonstra normalidade na distribuição.

• Valores Atípicos: Não se identifica valores atípicos

• Centro e Dispersão: Podemos notar que a mediana indica que metades dos municípios es-

tudados possuem expectativa de vida menor que 73,47 anos e a outra metade da amostra

maior que 73,47. A média dos municípios é de 73,09 com desvio padrão de 2,681, o que

não é considerado um valor significativo para desvio padrão.

78767472706866

Median

Mean

73,673,573,473,373,273,173,0

1st Q uartile 71,150

Median 73,470

3rd Q uartile 75,160

Maximum 78,640

73,019 73,159

73,380 73,550

2,632 2,731

A -Squared 34,95

P-V alue < 0,005

Mean 73,089

StDev 2,681

V ariance 7,186

Skewness -0,409315

Kurtosis -0,486787

N 5565

Minimum 65,300

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for ESPVIDA

21

3.3 Variável Mortalidade Infantil (MORT1)

Observações dos resultados do histograma:

• Forma: O Histograma nos permite analisar uma distribuição assimétrica de Mortalidade

infantil na faixa entre 13,8 a 16,9 para cada mil crianças nascidas vivas. O Box-Plot con-

firma a concentração na faixa citada com posicionamento da mediana à esquerda do refe-

rido intervalo.

• Valores Atípicos: O município com maior índice de mortalidade infantil é Roteiro no es-

tado de Alagoas, com índice de 46,8 para cada mil crianças nascidas vivas.

• Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios

tem mortalidade infantil menor do que 16,9 e a outra metade maior que este valor. A mor-

talidade infantil média dos municípios é de 19,25, tendo um desvio-padrão de 7, 137 sendo

um valor expressivo considerando o número de crianças que não sobrevivem. Com 95%

de confiança, podemos afirmar que a média encontra-se entre os valores 19, 099 a 19, 435.

423630241812

Median

Mean

19,519,018,518,017,517,0

1st Q uartile 13,800

Median 16,900

3rd Q uartile 23,800

Maximum 46,800

19,059 19,435

16,700 17,173

7,006 7,272

A -Squared 158,86

P-V alue < 0,005

Mean 19,247

StDev 7,137

V ariance 50,932

Skewness 1,00629

Kurtosis 0,43243

N 5565

Minimum 8,490

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for MORT1

22

3.4 Taxa de analfabetismo - 25 anos ou mais (T_ANALF25M)

Observações dos resultados do histograma:

• Forma: O Histograma nos permite analisar uma distribuição assimétrica com 2 concentra-

ções sendo uma mais a esquerda e a taxa de analfabetismo de 25 anos ou mais, situa-se na

faixa entre 9,98% a 31,34%. O Box-Plot demonstra a concentração espaçada na faixa ci-

tada, o posicionamento da mediana está à esquerda do referido intervalo.

• Valores Atípicos: O município de Feliz no Rio Grande do Sul praticamente quase toda a

população nesta faixa de 25 anos ou mais, encontra-se alfabetizada com 98,9%.

• Centro e Dispersão: A mediana nos indica que metade dos municípios a taxa de analfabe-

tismo é maior do que 16,5%; portanto a outra metade é menor do que este valor. A taxa de

analfabetismo média dos municípios é de 20,5% da população; tendo um desvio-padrão de

12,8%. Com 95% de confiança, podemos afirmar que a média encontra-se entre os valores

20,2% a 20,9%.

56484032241680

Median

Mean

212019181716

1st Q uartile 9,980

Median 16,460

3rd Q uartile 31,335

Maximum 57,180

20,186 20,857

16,089 16,931

12,533 13,008

A -Squared 148,86

P-V alue < 0,005

Mean 20,522

StDev 12,766

V ariance 162,971

Skewness 0,588895

Kurtosis -0,830859

N 5565

Minimum 1,100

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for T_ANALF25M

23

3.5 Variável % de 25 anos ou mais com fundamental completo (T_FUND25M)

Observações dos resultados do histograma:

• Forma: O Histograma nos permite analisar uma distribuição simétrica com concentração

um pouco a esquerda e o percentual de municípios cuja população de 25 anos ou mais com

fundamental completo, situa-se na faixa entre 25,3% a 40,6%. O Box-Plot demonstra a

concentração espaçada na faixa citada e, o posicionamento da mediana está a esquerda do

referido intervalo.

• Valores Atípicos: Não apresenta valores atípicos. O município de São Francisco de Assis

do Piauí no estado do Piauí apresenta percentual da população na faixa de 25 anos ou mais,

encontra-se com apenas 9,4% com ensino fundamental completo.

• Centro e Dispersão: A mediana nos indica que metade dos municípios a taxa da população

com 25 anos ou mais e com fundamental completo é maior do que 32,3%; portanto a outra

metade é menor do que este valor. A taxa da população com idade igual ou maior que 25

anos e com fundamental completo média dos municípios é de 33,8%; tendo um desvio-

padrão de 11,1%. Com 95% de confiança, podemos afirmar que a média encontra-se entre

os valores 33,5% a 34,0%.

70605040302010

Median

Mean

34,033,533,032,532,0

1st Q uartile 25,340

Median 32,330

3rd Q uartile 40,610

Maximum 78,040

33,462 34,045

31,910 32,730

10,878 11,290

A -Squared 35,77

P-V alue < 0,005

Mean 33,753

StDev 11,080

V ariance 122,775

Skewness 0,618707

Kurtosis 0,133454

N 5565

Minimum 9,410

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for T_FUND25M

24

3.6 Variável Renda per capita (RDPC)

Observações dos resultados do histograma:

• Forma: O Histograma nos permite analisar uma distribuição assimétrica com concentração

a esquerda e o percentual de municípios em termos de renda per capita, situa-se na faixa

entre R$281,09 a R$650,64. O Box-Plot demonstra a concentração na faixa citada e, o

posicionamento da mediana está à direita do referido intervalo.

• Valores Atípicos: Entre o município de melhor renda per capita que é São Caetano do Sul

no estado de São Paulo com R$2043,74 e o município de menor renda per capita que é

Marajá do Sena no estado do Maranhão com renda de R$96,25, observa-se a distância e

disparidade que há em termos de distribuição de renda.

• Centro e Dispersão: A mediana nos indica que metade dos municípios a renda per capita é

maior do que R$467,65; portanto a outra metade é menor do que este valor. A renda per

capita média nos municípios é de R$493,61, tendo um desvio-padrão de R$243,27 sendo

um valor expressivo em termos de diferença. Com 95% de confiança, podemos afirmar que

a média encontra-se entre os valores R$487,21 a R$500,00.

180015001200900600300

Median

Mean

500490480470460450

1st Q uartile 281,09

Median 467,65

3rd Q uartile 650,64

Maximum 2043,74

487,21 500,00

456,26 478,34

238,83 247,88

A -Squared 80,55

P-V alue < 0,005

Mean 493,61

StDev 243,27

V ariance 59179,97

Skewness 0,95965

Kurtosis 1,65248

N 5565

Minimum 96,25

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for RDPC

25

3.7 Variável Renda per capita média dos extremamente pobres (RIND)

Observações dos resultados do histograma:

• Forma: O Histograma nos permite analisar uma distribuição simétrica e em termos de renda

per capita da população extremamente pobre, situa-se na faixa entre R$27,44 a R$37,51.

O Box-Plot demonstra a concentração na faixa citada e, o posicionamento da mediana está

à direita do referido intervalo.

• Valores Atípicos: Há 98 municípios cuja renda per capita da população extremamente po-

bre é ZERO, localizados nos estados de Goiás, Minas Gerais, Paraná, Pernambuco, Rio

Grande do Sul, Santa Catarina e São Paulo.

• Centro e Dispersão: A mediana nos indica que metade dos municípios a renda per capita

da população extremamente pobre é maior do que R$32,51; portanto a outra metade é me-

nor do que este valor. A renda per capita média nos municípios é de R$32,04, tendo um

desvio-padrão de R$9,60. Com 95% de confiança, podemos afirmar que a média encontra-

se entre os valores R$31,78 a R$32,29.

706050403020100

Median

Mean

32,832,632,432,232,031,8

1st Q uartile 27,435

Median 32,510

3rd Q uartile 37,090

Maximum 70,000

31,783 32,288

32,280 32,730

9,428 9,785

A -Squared 60,66

P-V alue < 0,005

Mean 32,036

StDev 9,603

V ariance 92,215

Skewness -0,28293

Kurtosis 2,37275

N 5565

Minimum 0,000

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for RIND

26

3.8 Variável Grau de formalização dos ocupados – 18 anos ou mais (P_FORMAL)

Observações dos resultados do histograma:

• Forma: O Histograma nos permite analisar uma distribuição assimétrica e em termos do

grau de formalização dos ocupados e, situa-se na faixa entre 26,32% a 59,77%. O Box-Plot

demonstra a concentração na faixa citada e, o posicionamento da mediana confirma esse

dado.

• Valores Atípicos: Há uma elevada disparidade entre o município com o menor grau de

formalização que é Juruá no estado do Amazonas com 2,97% somente contra, o município

de Saudades no estado de Santa Catarina com 89,11%.

• Centro e Dispersão: A mediana nos indica que metade dos municípios o grau de formali-

zação é maior que 42,85% da população e metade é menor do que este valor. O grau de

formalização média nos municípios é de 43,51%, tendo um desvio-padrão de 19,27%

sendo significativo. Com 95% de confiança, podemos afirmar que o grau de formalização

médio nos municípios brasileiros encontra-se entre os valores de 43,00% a 44,01%.

84726048362412

Median

Mean

44,043,543,042,542,0

1st Q uartile 26,320

Median 42,850

3rd Q uartile 59,770

Maximum 89,110

42,999 44,012

41,846 43,980

18,923 19,640

A -Squared 65,23

P-V alue < 0,005

Mean 43,506

StDev 19,275

V ariance 371,525

Skewness 0,11438

Kurtosis -1,15796

N 5565

Minimum 2,970

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for P_FORMAL

27

3.9 Variável Rendimento médio dos ocupados – 18 anos ou mais (RENOCUP)

Observações dos resultados do histograma:

• Forma: O Histograma nos permite analisar uma distribuição assimétrica com concentração

à esquerda e em termos do rendimento médio dos ocupados de 18 anos ou mais, situa-se

na faixa entre R$488,59 a R$1008,08. O Box-Plot demonstra a concentração na faixa citada

e, o posicionamento da mediana confirma esse dado.

• Valores Atípicos: Há uma elevada disparidade entre o município com o menor rendimento

médio dos ocupados de 18 anos ou mais que é Fernando Falcão no estado do Maranhão

com R$135,42 somente; contra, o município com maior rendimento que é Santana de Par-

naíba no estado de São Paulo com R$3177,26.

• Centro e Dispersão: A mediana nos indica que metade dos municípios o rendimento médio

dos ocupados com 18 ou mais anos é maior que R$761,72 e metade é menor do que este

valor. O rendimento médio dos ocupados com 18 anos ou mais médio nos municípios é de

R$780,11, tendo um desvio-padrão de R$341,68 sendo significativo. Com 95% de confi-

ança, podemos afirmar que o grau de formalização médio nos municípios brasileiros en-

contra-se entre os valores de R$771,13 a R$789,09.

31502700225018001350900450

Median

Mean

790780770760750740

1st Q uartile 488,59

Median 761,72

3rd Q uartile 1008,08

Maximum 3177,26

771,13 789,09

745,23 776,58

335,45 348,15

A -Squared 35,59

P-V alue < 0,005

Mean 780,11

StDev 341,68

V ariance 116747,92

Skewness 0,72362

Kurtosis 1,27435

N 5565

Minimum 136,42

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for RENOCUP

28

3.10 Variável % da População em domicílios com banheiro e água encanada (T_BANA-

GUA)

Observações dos resultados do histograma:

• Forma: O Histograma nos permite analisar uma distribuição assimétrica com concentração

à direita e em termos do percentual da população residente em domicílios com banheiro e

água encanada, situa-se na faixa entre 67,77% a 98,00%. O Box-Plot demonstra a concen-

tração na faixa citada e, o posicionamento da mediana confirma esse dado.

• Valores Atípicos: O município de Santa Cecília no estado da Paraíba tem somente 3,26%

dos domicílios com banheiro e água encanada; ao passo que 73 municípios brasileiros têm

100% dos domicílios totalmente atendidos concentrando-se em sua maioria nos estados de

Minas Gerais e São Paulo.

• Centro e Dispersão: A mediana nos indica que metade dos municípios os domicílios com

banheiro e água encanada é de 91,25% e metade é menor do que este valor. A média de

municípios com domicílios com banheiro e água encanada é de 80,87%, tendo um desvio-

padrão de 21,7% sendo significativo. Com 95% de confiança, podemos afirmar que a mé-

dia de municípios com domicílios com banheiro e água encanada encontra-se entre 80,3%

a 81,4%.

98847056422814

Median

Mean

92908886848280

1st Q uartile 67,770

Median 91,250

3rd Q uartile 98,000

Maximum 100,000

80,301 81,442

90,449 91,930

21,316 22,124

A -Squared 358,72

P-V alue < 0,005

Mean 80,872

StDev 21,712

V ariance 471,431

Skewness -1,21327

Kurtosis 0,55699

N 5565

Minimum 3,260

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for T_BANAGUA

29

3.11 Variável % da População em domicílios com densidade>2 (T_DENS)

Observações dos resultados do histograma:

• Forma: O Histograma nos permite analisar uma distribuição assimétrica com concentração

à esquerda e em termos do percentual da população residente em domicílios com densidade

>2, situa-se na faixa entre 15,41% a 32,58%. O Box-Plot demonstra a concentração na

faixa citada e, o posicionamento da mediana a esquerda confirma esse dado.

• Valores Atípicos: O município de Três Arroios no estado do Rio Grande do Sul tem menos

de 1%; ou seja, 0,65% dos domicílios com densidade >2; ao passo que o município de

Uiramutã no estado de Roraima tem 88,64% dos domicílios com densidade >2.

• Centro e Dispersão: A mediana nos indica que metade dos municípios com densidade >2

é de 23,07% e metade é menor do que este valor. A média de municípios com domicílios

com densidade >2 é de 25,13%, tendo um desvio-padrão de 13,0% sendo significativo.

Com 95% de confiança, podemos afirmar que a média de municípios com domicílios com

densidade >2 encontra-se entre 24,79% a 25,47%.

847260483624120

Median

Mean

25,525,024,524,023,523,0

1st Q uartile 15,410

Median 23,070

3rd Q uartile 32,580

Maximum 88,640

24,785 25,468

22,689 23,551

12,761 13,245

A -Squared 60,82

P-V alue < 0,005

Mean 25,127

StDev 12,999

V ariance 168,961

Skewness 1,04504

Kurtosis 1,63411

N 5565

Minimum 0,650

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for T_DENS

30

3.12 Variável % de 15 a 24 anos que não estudam, não trabalham e são vulneráveis à po-

breza (T_NESTUDA_NTRAB_MMEIO)

Observações dos resultados do histograma:

• Forma: O Histograma nos permite analisar uma distribuição assimétrica com duas concen-

trações à esquerda e em termos do percentual da população de 15 a 24 anos que não estu-

dam, não trabalham e são vulneráveis à pobreza, situa-se na faixa entre 7,30% a 21,60%.

O Box-Plot demonstra a concentração na faixa citada e, o posicionamento da mediana a

esquerda confirma esse dado.

• Valores Atípicos: O município de Amajari no estado de Roraima tem 55,25% da população

na faixa de 15 a 24 anos que não estudam nem trabalham.

• Centro e Dispersão: A mediana nos indica que mais da metade dos municípios cuja popu-

lação de 15 a 24 anos que não estudam, não trabalham e são vulneráveis à pobreza é de

13,67% e um pouco menos da metade é menor do que este valor. A média de municípios

com percentual da população de 15 a 24 anos que não estudam, não trabalham e são vul-

neráveis à pobreza é de 14,78%, tendo um desvio-padrão de 8,57% sendo significativo.

Com 95% de confiança, podemos afirmar que a média de municípios com percentual da

população de 15 a 24 anos que não estudam, não trabalham e são vulneráveis à pobreza

encontra-se entre 14,55% a 15,01%.

56484032241680

Median

Mean

15,014,514,013,5

1st Q uartile 7,295

Median 13,670

3rd Q uartile 21,600

Maximum 55,250

14,546 15,006

13,299 14,340

8,592 8,917

A -Squared 61,38

P-V alue < 0,005

Mean 14,776

StDev 8,751

V ariance 76,588

Skewness 0,388117

Kurtosis -0,679693

N 5565

Minimum 0,000

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for T_NESTUDA_NTRAB_MMEIO

31

3.13 Variável % de pessoas em domicílios vulneráveis à pobreza e em que ninguém tem

fundamental completo (T_FUNDIN_TODOS_MMEIO)

Observações dos resultados do histograma:

• Forma: O Histograma nos permite analisar uma distribuição assimétrica com concentração

à esquerda e em termos do percentual de pessoas em domicílios vulneráveis à pobreza e

em que ninguém tem fundamental completo, situa-se na faixa entre 9,66% a 30,44%. O

Box-Plot demonstra a concentração na faixa citada e, o posicionamento da mediana a es-

querda confirma esse dado.

• Valores Atípicos: O município de Melgaço no estado do Pará tem 74,45% de pessoas em

domicílios vulneráveis à pobreza e em que ninguém tem fundamental completo.

• Centro e Dispersão: A mediana nos indica que metade dos municípios em que as pessoas

residentes em domicílios vulneráveis à pobreza e em que ninguém tem fundamental com-

pleto é de 18,75% e metade é menor do que este valor. A média de municípios com per-

centual de pessoas em domicílios vulneráveis à pobreza e em que ninguém tem fundamen-

tal completo é 20,71%, tendo um desvio-padrão de 12,72% sendo significativo. Com 95%

de confiança, podemos afirmar que a média de municípios com percentual de pessoas em

domicílios vulneráveis à pobreza e em que ninguém tem fundamental completo encontra-

se entre 20,38% a 21,04%.

706050403020100

Median

Mean

21,020,520,019,519,018,518,0

1st Q uartile 9,655

Median 18,750

3rd Q uartile 30,435

Maximum 74,450

20,376 21,044

18,200 19,301

12,492 12,965

A -Squared 78,24

P-V alue < 0,005

Mean 20,710

StDev 12,724

V ariance 161,900

Skewness 0,518829

Kurtosis -0,562870

N 5565

Minimum 0,210

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for T_FUNDIN_TODOS_MMEIO

32

3.14 Variável % de mães chefes de família sem fundamental completo e com filhos menores

de 15 anos (T_MULCHEFEFI014)

Observações dos resultados do histograma:

• Forma: O Histograma nos permite analisar uma distribuição assimétrica com concentração

à esquerda e em termos do percentual de mães chefes de família sem fundamental completo

e com filhos menores de 15 anos, situa-se na faixa entre 12,32% a 25,87%. O Box-Plot

demonstra a concentração na faixa citada e, o posicionamento da mediana a esquerda con-

firma esse dado.

• Valores Atípicos: O município de Cacimbas no estado da Paraíba o percentual de mães

chefes de família sem fundamental completo é de 77,59%.

• Centro e Dispersão: A mediana nos indica que metade dos municípios com percentual de

mães chefes de família sem fundamental completo e com filhos menores de 15 anos é de

18,09% e metade é menor do que este valor. A média de municípios com percentual de

mães chefes de família sem fundamental completo e com filhos menores de 15 anos é de

19,96%, tendo um desvio-padrão de 10,32% sendo significativo. Com 95% de confiança,

podemos afirmar que a média de municípios com percentual de mães chefes de família sem

fundamental completo e com filhos menores de 15 anos encontra-se entre 19,68% a

20,23%.

7260483624120

Median

Mean

20,520,019,519,018,518,0

1st Q uartile 12,320

Median 18,090

3rd Q uartile 25,865

Maximum 77,590

19,684 20,227

17,799 18,430

10,133 10,517

A -Squared 68,62

P-V alue < 0,005

Mean 19,956

StDev 10,321

V ariance 106,532

Skewness 0,99289

Kurtosis 1,37190

N 5565

Minimum 0,000

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for T_MULCHEFEFIF014

33

3.15 Variável PEA – 18 anos ou mais (PEA18M)

Observações dos resultados do histograma:

• Forma: O Histograma nos permite analisar uma distribuição assimétrica com concentração

à esquerda e em termos da população economicamente ativa de 18 anos ou mais, situa-se

na faixa entre 2386 a 10617 pessoas. O Box-Plot demonstra a concentração na faixa citada

e, o posicionamento da mediana a esquerda confirma esse dado.

• Valores Atípicos: O município de São Félix do Tocantins no estado do Tocantins tem 307

pessoas economicamente ativas na faixa de 18 anos ou mais.

• Centro e Dispersão: A mediana nos indica que a população economicamente ativa de 18

anos ou mais é 4933. A média da população economicamente ativa de 18 anos ou mais é

16863 pessoas; tendo um desvio-padrão de 107060 sendo significativo em termos de uso

dos dados como referência. Com 95% de confiança, podemos afirmar que a média da po-

pulação economicamente ativa de 18 anos ou mais se encontra entre 14049 a 19676.

CAPÍTULO IV. ANÁLISE COMPARATIVA DA ANÁLISE DESCRITIVA

Abaixo apresentamos uma tabela comparando Histograma, Box-Plot, Curva de Densidade

média, desvio-padrão, mediana e P-Value do teste de normalidade de Anderson-Darling, das vari-

áveis quantitativas analisadas.

540000045000003600000270000018000009000000

Median

Mean

200001750015000125001000075005000

1st Q uartile 2386

Median 4933

3rd Q uartile 10617

Maximum 6026212

14049 19676

4711 5140

105107 109087

A -Squared 1636,82

P-V alue < 0,005

Mean 16863

StDev 107060

V ariance 11461855390

Skewness 38,51

Kurtosis 1940,31

N 5565

Minimum 307

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for PEA

34

Tabela 4. Analise Comparativa das Variáveis (Dimensões Desenvolvimento Humano)

VARIÁVEL GRÁFICO MÉ-

DIA

DES-

VIO PA-

DRÃO

MEDI-

ANA

P-

VA-

LUE

IDHM

0,65916 0,07200 0,66500 0,005

IDHM_R

0,64287 0,08066 0,65400 0,005

IDHM_L

0,80156 0,04468 0,80800 0,005

IDHM_E

0,55909 0,09333 0,56000 0,005

ESPVIDA

73,089 2,681 73,470 0,005

MORT1

19,247 7,137 16,900 0,005

T_ANALF25M

20,522 12,766 16,460 0,005

35

T_FUND25M

33,753 11,080 32,330 0,005

RDPC

493,61 243,27 467,65 0,005

RIND

32,036 9,603 32,510 0,005

P_FORMAL

43,506 19,275 42,850 0,005

RENOCUP

780,11 341,68 761,72 0,005

T_BANAGUA

80,872 21,712 91,250 0,005

T_DENS

25,127 12,999 23,070 0,005

T_NES-

TUDA_NTRAB_MMEIO

14,776 8,751 13,670 0,005

36

T_FUNDIN_TO-

DOS_MMEIO

20,710 12,724 18,750 0,005

T_MULFHEFI014

19,956 10,321 18,090 0,005

PEA18M

16863 107060 4933 0,005

CAPÍTULO V. CORRELAÇÃO DAS VARIÁVEIS

Os dados a seguir representam a correlação entre as variáveis selecionadas e já trabalhadas

nas análises que antecederam. Destacaram-se aquelas que apresentaram correlação superior a 0,9

(assinaladas na tabela abaixo)

Correlations: IDHM; IDHM_E; IDHM_L; IDHM_R; ESPVIDA; MORT1;

T_ANALF25M; ...

IDHM IDHM_E IDHM_L

IDHM_E 0,951

0,000

IDHM_L 0,852 0,704

0,000 0,000

IDHM_R 0,948 0,820 0,834

0,000 0,000 0,000

ESPVIDA 0,852 0,704 1,000

0,000 0,000 0,000

MORT1 -0,829 -0,684 -0,967

0,000 0,000 0,000

T_ANALF25M -0,889 -0,790 -0,831

0,000 0,000 0,000

T_FUND25M 0,837 0,858 0,628

0,000 0,000 0,000

RDPC 0,908 0,791 0,784

0,000 0,000 0,000

37

RIND 0,072 0,098 -0,000

0,000 0,000 0,977

P_FORMAL 0,824 0,761 0,709

0,000 0,000 0,000

RENOCUP 0,869 0,764 0,741

0,000 0,000 0,000

T_BANAGUA 0,806 0,715 0,726

0,000 0,000 0,000

T_DENS -0,645 -0,555 -0,589

0,000 0,000 0,000

T_NESTUDA_NTRAB_ -0,837 -0,722 -0,753

0,000 0,000 0,000

T_FUNDIN_TODOS_M -0,961 -0,921 -0,802

0,000 0,000 0,000

T_MULCHEFEFIF014 -0,646 -0,602 -0,566

0,000 0,000 0,000

PEA 0,148 0,145 0,091

0,000 0,000 0,000

IDHM_R ESPVIDA MORT1

ESPVIDA 0,834

0,000

MORT1 -0,814 -0,967

0,000 0,000

T_ANALF25M -0,886 -0,831 0,833

0,000 0,000 0,000

T_FUND25M 0,755 0,628 -0,593

0,000 0,000 0,000

RDPC 0,962 0,784 -0,744

0,000 0,000 0,000

RIND 0,051 -0,000 0,005

0,000 0,981 0,736

P_FORMAL 0,810 0,709 -0,678

0,000 0,000 0,000

RENOCUP 0,915 0,741 -0,704

0,000 0,000 0,000

38

T_BANAGUA 0,807 0,726 -0,739

0,000 0,000 0,000

T_DENS -0,663 -0,589 0,594

0,000 0,000 0,000

T_NESTUDA_NTRAB_ -0,877 -0,753 0,741

0,000 0,000 0,000

T_FUNDIN_TODOS_M -0,906 -0,802 0,796

0,000 0,000 0,000

T_MULCHEFEFIF014 -0,620 -0,565 0,576

0,000 0,000 0,000

PEA 0,157 0,091 -0,073

0,000 0,000 0,000

T_ANALF25M T_FUND25M RDPC

T_FUND25M -0,743

0,000

RDPC -0,821 0,755

0,000 0,000

RIND -0,012 0,089 0,040

0,379 0,000 0,003

P_FORMAL -0,771 0,754 0,767

0,000 0,000 0,000

RENOCUP -0,795 0,816 0,929

0,000 0,000 0,000

T_BANAGUA -0,759 0,563 0,700

0,000 0,000 0,000

T_DENS 0,554 -0,270 -0,592

0,000 0,000 0,000

T_NESTUDA_NTRAB_ 0,808 -0,587 -0,826

0,000 0,000 0,000

T_FUNDIN_TODOS_M 0,885 -0,780 -0,843

0,000 0,000 0,000

T_MULCHEFEFIF014 0,574 -0,432 -0,571

0,000 0,000 0,000

PEA -0,112 0,247 0,220

0,000 0,000 0,000

39

RIND P_FORMAL RENOCUP

P_FORMAL 0,045

0,001

RENOCUP 0,020 0,801

0,142 0,000

T_BANAGUA 0,109 0,722 0,656

0,000 0,000 0,000

T_DENS -0,064 -0,470 -0,429

0,000 0,000 0,000

T_NESTUDA_NTRAB_ -0,061 -0,697 -0,720

0,000 0,000 0,000

T_FUNDIN_TODOS_M -0,069 -0,802 -0,791

0,000 0,000 0,000

T_MULCHEFEFIF014 -0,032 -0,469 -0,488

0,017 0,000 0,000

PEA 0,045 0,126 0,233

0,001 0,000 0,000

T_BANAGUA T_DENS T_NESTUDA_NTRAB_

T_DENS -0,750

0,000

T_NESTUDA_NTRAB_ -0,722 0,670

0,000 0,000

T_FUNDIN_TODOS_M -0,810 0,662 0,835

0,000 0,000 0,000

T_MULCHEFEFIF014 -0,617 0,634 0,579

0,000 0,000 0,000

PEA 0,058 0,021 -0,080

0,000 0,112 0,000

T_FUNDIN_TODOS_M T_MULCHEFEFIF014

T_MULCHEFEFIF014 0,661

0,000

PEA -0,105 -0,047

0,000 0,000

Cell Contents: Pearson correlation

P-Value

Fonte: Elaborado pelo autor (Minitab 16)

40

Com base nas informações constantes na matriz de correlação pode-se perceber que as va-

riáveis descritas na Tabela 5 apresentam forte relação, vale destacar que isto não significa que elas

apresentam causalidade, ou seja, um sentido direto entre elas. Ressalta-se ainda que para esta aná-

lise foram selecionadas aquelas com correlação maior que 0,9

Tabela 5. Correlação entre as variáveis

Variável Variável Grau de Correlação

RIND ESPVIDA 0,981

RIND IDHM_L 0,977

RDPC IDHM_R 0,962

IDHM_E IDHM 0,951

IDHM_R IDHM 0,948

RENOCUP RDPC 0,929

RENOCUP IDHM_R 0,915

RDPC IDHM 0,908

T_FUNDIN_TODOS_MMEIO IDHM_R -0,906

T_FUNDIN_TODOS_MMEIO IDHM_E -0,921

T_FUNDIN_TODOS_MMEIO IDHM -0,961

MORT1 IDHM_L -0,967

MORT1 ESPVIDA -0,967 Fonte: Elaborado pelo autor (Minitab 16)

CAPÍTULO VI. GRÁFICOS DE DISPERSÃO

Nos gráficos a seguir são apresentadas as relações entre as variáveis relacionadas na tabela 5.

0,80,60,4

2000

1000

0

0,80,60,4

0,9

0,6

0,3

0,80,60,4

0,8

0,6

0,4

200010000

3000

1500

0

0,80,60,4

3000

1500

0

0,80,60,4

2000

1000

0

50250

80

40

0

0,80,60,4

50

25

0

0,80,60,4

80

40

0

0,90,60,3

80

40

0

0,80,60,4

80

40

0

0,90,80,7

50

30

10

757065

50

30

10

RDPC*IDHM_R IDHM_E*IDHM IDHM_R*IDHM RENOCUP*RDPC

RENOCUP*IDHM_R RDPC*IDHM T_FUNDIN_TODOS_MMEIO*T_ANALF25M T_ANALF25M*IDHM_R

T_FUNDIN_TODOS_MMEIO*IDHM_R T_FUNDIN_TODOS_MMEIO*IDHM_E T_FUNDIN_TODOS_MMEIO*IDHM MORT1*IDHM_L

MORT1*ESPVIDA

Scatterplot of RDPC vs IDHM_R; IDHM_E vs IDHM; IDHM_R vs IDHM; RENOCUP

41

Gráficos de dispersão devem ser inicialmente analisados quanto a seu padrão geral e seus

desvios relativos ao padrão. A descrição do padrão geral pode ser feita pela verificação de sua

forma, direção e intensidade.

• Direção: Analisando as correlações acima percebemos que em todos os gráficos apresen-

tam-se associações positivas, ou seja, diretamente proporcional onde o crescimento de uma

variável é acompanhado do crescimento da outra, simultaneamente.

• Intensidade: Os gráficos acima indicam a existência de relações lineares nas sete compa-

rações apresentadas

• Forma: Todos os gráficos apresentam conglomerados que sugerem relações lineares.

• Valores Atípicos: Todos os gráficos indicam a existência de valores atípicos; ou seja, mu-

nicípios com índices distanciado dos demais.

CAPÍTULO VII. DENDROGRAMA

Um Dendrograma (dendr(o) = árvore) é um tipo específico de diagrama ou representação

icônica que organiza determinados fatores e variáveis. Isto quer dizer que sua representação apre-

senta um diagrama de similaridade.

A interpretação de um Dendrograma de similaridade entre amostras fundamenta-se na in-

tuição: duas amostras próximas devem ter também valores semelhantes para as variáveis medidas.

Ou seja, elas devem ser próximas matematicamente no espaço multidimensional.

Portanto, quanto maior a proximidade entre as medidas relativas às amostras, maior a simi-

laridade entre elas. O dendrograma hierarquiza esta similaridade de modo que podemos ter uma

visão bidimensional da similaridade ou dissimilaridade de todo o conjunto de amostras utilizado

no estudo.

Segue abaixo o Dendrograma das variáveis analisadas

Cluster Analysis of Variables: IDHM; IDHM_E; IDHM_L; IDHM_R; ESPVIDA; ...

Correlation Coefficient Distance, Single Linkage

Amalgamation Steps

Number

of obs.

Number of Similarity Distance Clusters New in new

Step clusters level level joined cluster cluster

1 17 99,9990 0,000021 3 5 3 2

2 16 98,0832 0,038336 4 9 4 2

3 15 97,5438 0,049125 1 2 1 2

4 14 97,4161 0,051679 1 4 1 4

5 13 96,4598 0,070805 1 12 1 5

6 12 94,2608 0,114783 7 16 7 2

7 11 92,9204 0,141592 1 8 1 6

8 10 92,6074 0,147851 1 3 1 8

42

9 9 91,7368 0,165263 7 15 7 3

10 8 91,6386 0,167228 6 7 6 4

11 7 91,1884 0,176232 1 11 1 9

12 6 90,3288 0,193424 1 13 1 10

13 5 83,4929 0,330143 6 14 6 5

14 4 83,0570 0,338860 6 17 6 6

15 3 62,3282 0,753435 1 18 1 11

16 2 55,4295 0,891411 1 10 1 12

17 1 51,0653 0,978694 1 6 1 18

T_MUL

CHEF

EFIF01

4

T_DE

NS

T_NE

STUD

A_NT

RAB_

MMEIO

T_FU

NDIN

_TOD

OS_M

MEIO

T_AN

ALF2

5M

MORT

1RI

NDPEA

T_BA

NAGU

A

P_FO

RMAL

ESPV

IDA

IDHM

_L

T_FU

ND25

M

RENO

CUP

RDPC

IDHM

_R

IDHM

_E

IDHM

51,07

67,38

83,69

100,00

Variables

Sim

ilari

ty

DendrogramSingle Linkage; Correlation Coefficient Distance

CAPÍTULO VIII. ANÁLISE DE TENDÊNCIAS

Neste capítulo procurou-se utilizar de outras fontes como estímulo à pesquisa em bases de

dados e propiciar uma análise de tendências; para isto, utilizaram-se como fonte, os dados dispo-

níveis no site do Instituto Brasileiro de Geografia e Estatística (IBGE).

8.1 Os Indivíduos

Os dados são séries históricas referentes ao Brasil, portanto, trata-se de séries temporais.

As séries vão de 2001 a 2011 para as 3 variáveis selecionadas: “Taxa de analfabetismo de pessoas

de 10 anos ou mais”, “Escolaridade de 15 anos ou mais da população ocupada” e, “Taxa de inves-

timento”.

8.2 As Variáveis

São 4 as variáveis desta pesquisa, incluindo o ano a que se referem os dados. As mesmas

são melhor explicadas na Tabela 6.

43

Tabela 6. As variáveis obtidas no site do IBGE

Variável Significado Tipo Unidade de

Medida

Ano É o ano a que se refere o dado de cada

variável

Variável Ca-

tegórica

Formato:

AAAA

Taxa de analfabe-

tismo de pessoas de

10 anos ou mais de

idade

É a percentagem de pessoas analfabe-

tas de um grupo etário em relação ao

total de pessoas do mesmo grupo etá-

rio

Variável

Quantitativa

Percentual

(%)

Escolaridade de 15

anos ou mais – Po-

pulação ocupada

Escolaridade em média de anos de es-

tudo. Classificação estabelecida em

função da série e do grau mais ele-

vado concluído das pessoas de 15 anos

e mais em relação às pessoas economi-

camente ativas (PEA)

Variável

Quantitativa

Percentual

(%)

Taxa de Investi-

mento

É o resultado da relação entre o valor

corrente da formação bruta de capital

fixo e o valor corrente do produto in-

terno bruto. É uma medida da capaci-

dade produtiva da economia

Variável

Quantitativa

Percentual

(%)

Fonte: Elaborado pelo autor (IBGE)

8.3 A fonte e o tamanho da série de dados

• Fonte:

Os dados desta pesquisa foram obtidos do site do Instituto Brasileiro de Geografia e Esta-

tística (IBGE); sendo que no ano de 2010 para a Taxa de analfabetismo de pessoas de 10

anos ou mais de idade e Escolaridade de 15 anos ou mais da População Ocupada foi obtido

através da média entre os anos 2009 e 2011.

As três séries de dados podem ser consideradas satisfatórias para a realização desta pes-

quisa, uma vez que todas possuem dados de 11 anos ou mais, sem interrupções.

44

Tabela 7. Dados do IBGE

Ano Taxa de analfabetismo de pes-

soas de 10 anos ou mais (%)

Escolaridade de 15 anos ou

mais - População ocupada (%)

Taxa de Inves-

timento (%)

2001 11,4 7,11 18,4

2002 10,9 7,41 18

2003 10,6 7,74 16,7

2004 10,4 7,84 17,4

2005 10,05 8,04 17,2

2006 9,41 8,67 17,3

2007 9,09 9,25 18,1

2008 9,2 9,8 19,5

2009 8,9 10,64 19,2

2010 8,4 11,15 20,6

2011 7,9 11,66 20,6

Fonte: Elaborado pelo autor (IBGE)

Os dados assinalados em vermelho foram atualizados pelo autor. Os demais têm origem

nas pesquisas no site do IBGE.

CAPÍTULO IX. ANÁLISE DAS VARIÁVEIS BANCO DE DADOS IBGE

Conforme mencionado acima, cada variável será analisada utilizando gráficos para de-

monstrar o comportamento histórico da série, linhas de tendência, funções, erros das funções, além

de extrapolações estatísticas.

9.1 Variável: Taxa de analfabetismo de pessoas de 10 anos ou mais (%)

9.1.1 Análise de tendência da variável

Para análise do comportamento histórico da variável Taxa de Analfabetismo de pessoas de

10 anos ou mais utilizaremos, inicialmente, gráficos que permitem uma verificação visual.

Nesta seção analisaremos a tendência da série de dados, buscando encontrar a função (li-

near, quadrática, exponencial ou s-curve) que melhor a represente. Para medir a eficiência da fun-

ção ou da curva de tendência, analisaremos os erros: MAPE (Mean Average Percentual Error),

MAD (Mean Absolute Deaviation) e MSD (Mean Standard Deviation).

Segue abaixo gráficos incluindo a função, a linha de tendência que representa cada função

e os erros mencionados acima.

45

20212019201720152013201120092007200520032001

12

11

10

9

8

7

6

5

4

Index

Ta

xa

de

an

alf

ab

eti

sm

o d

e p

esso

a

MAPE 1,40616

MAD 0,13134

MSD 0,02315

Accuracy Measures

Actual

Fits

Forecasts

Variable

Trend Analysis Plot for Taxa de analfabetismo de pessoaLinear Trend Model

Yt = 11,621 - 0,326909*t

20212019201720152013201120092007200520032001

12

11

10

9

8

7

6

5

4

Index

Ta

xa

de

an

alf

ab

eti

sm

o d

e p

esso

a

MAPE 1,40616

MAD 0,13134

MSD 0,02315

Accuracy Measures

Actual

Fits

Forecasts

Variable

Trend Analysis Plot for Taxa de analfabetismo de pessoaLinear Trend Model

Yt = 11,621 - 0,326909*t

20212019201720152013201120092007200520032001

12

11

10

9

8

7

6

5

Index

Ta

xa

de

an

alf

ab

eti

sm

o d

e p

esso

a

MAPE 1,42867

MAD 0,13207

MSD 0,02357

Accuracy Measures

Actual

Fits

Forecasts

Variable

Trend Analysis Plot for Taxa de analfabetismo de pessoaGrowth Curve Model

Yt = 11,7789 * (0,96652**t)

20212019201720152013201120092007200520032001

12

11

10

9

8

7

6

Index

Ta

xa

de

an

alf

ab

eti

sm

o d

e p

esso

a

Intercept 1,89452

Asymptote 3,29004

Asym. Rate 0,98089

Curve Parameters

MAPE 2,14281

MAD 0,21018

MSD 0,06048

Accuracy Measures

Actual

Fits

Forecasts

Variable

Trend Analysis Plot for Taxa de analfabetismo de pessoaS-Curve Trend Model

Yt = (10**2) / (30,3948 - 22,3890*(0,980886**t))

Para podermos visualizar qual a melhor função para representar a série de dados acima,

podemos analisar a tabela abaixo, que compara os três tipos de erros para cada uma das quatro

funções:

Linear Quadrática Exponencial S-Curve

MAPE 1,41 1,42 1,43 2,14

MAD 0,13 0,13 0,13 0,21

MSD 0,02 0,02 0,02 0,06

Percebemos claramente que a função linear é a que melhor se adapta à nossa série de dados

“Taxa de analfabetismo de pessoas de 10 anos ou mais”; pois, possui o menor valor para erro

percentual absoluto médio (MAPE). Assim, esta será a função utilizada para as projeções dos pró-

ximos 10 anos (2012-2021).

9.1.2 As previsões

Utilizando a equação da função linear apresentada no gráfico acima, temos os seguintes

valores previstos para os próximos 10 anos em relação a Taxa de analfabetismo de pessoas de 10

anos ou mais no Brasil.

Trend Analysis for Taxa de analfabetismo de pessoa

Data Taxa de analfabetismo de pessoa

Length 11

46

NMissing 0

Fitted Trend Equation

Yt = 11,621 - 0,326909*t

Accuracy Measures

MAPE 1,40616

MAD 0,13134

MSD 0,02315

Forecasts

Period Forecast

2012 7,69764

2013 7,37073

2014 7,04382

2015 6,71691

2016 6,39000

2017 6,06309

2018 5,73618

2019 5,40927

2020 5,08236

2021 4,75545

Os valores acima podem ser melhor ilustrados de forma gráfica, conforme abaixo:

20212019201720152013201120092007200520032001

12

11

10

9

8

7

6

5

4

Index

Ta

xa

de

an

alf

ab

eti

sm

o d

e p

esso

a

MAPE 1,40616

MAD 0,13134

MSD 0,02315

Accuracy Measures

Actual

Fits

Forecasts

Variable

Trend Analysis Plot for Taxa de analfabetismo de pessoaLinear Trend Model

Yt = 11,621 - 0,326909*t

47

Vale ressaltar que se trata de uma previsão efetuada somente com base nos valores his-

tóricos da própria variável. Certamente esta metodologia apresenta deficiências ao assumir que o

comportamento passado se repetirá. Alterações na grade educacional brasileira com impactos na

educação básica e fundamental devido nova políticas educacionais poderão promover uma melho-

ria na previsão de taxas de analfabetismo. Assim, talvez a utilização de regressões múltiplas po-

deriam ser mais eficientes neste trabalho de previsão.

9.2 Variável: Escolaridade de 15 anos ou mais – População ocupada

9.2.1. Escolaridade de 15 anos ou mais – População ocupada

Para análise do comportamento histórico da variável Escolaridade de 15 anos ou mais –

População ocupada utilizará, inicialmente, gráficos que permitem uma verificação visual.

Nesta seção analisaremos a tendência da série de dados, buscando encontrar a função (li-

near, quadrática, exponencial ou s-curve) que melhor a represente. Para medir a eficiência da fun-

ção ou da curva de tendência, analisaremos os erros: MAPE (Mean Average Percentual Error),

MAD (Mean Absolute Deaviation) e MSD (Mean Standard Deviation).

Segue abaixo gráficos incluindo a função, a linha de tendência que representa cada função

e os erros mencionados acima.

20212019201720152013201120092007200520032001

16

14

12

10

8

6

Index

Esco

larid

ad

e d

e 1

5 a

no

s o

u m

ais

MAPE 3,24840

MAD 0,28017

MSD 0,09059

Accuracy Measures

Actual

Fits

Forecasts

Variable

Trend Analysis Plot for Escolaridade de 15 anos ou maisLinear Trend Model

Yt = 6,217 + 0,469*t

20212019201720152013201120092007200520032001

25

20

15

10

5

Index

Esco

larid

ad

e d

e 1

5 a

no

s o

u m

ais

MAPE 1,14917

MAD 0,10345

MSD 0,01686

Accuracy Measures

Actual

Fits

Forecasts

Variable

Trend Analysis Plot for Escolaridade de 15 anos ou maisQuadratic Trend Model

Yt = 7,016 + 0,0996*t + 0,03075*t**2

20212019201720152013201120092007200520032001

25

20

15

10

5

Index

Esco

larid

ad

e d

e 1

5 a

no

s o

u m

ais

MAPE 1,14917

MAD 0,10345

MSD 0,01686

Accuracy Measures

Actual

Fits

Forecasts

Variable

Trend Analysis Plot for Escolaridade de 15 anos ou maisQuadratic Trend Model

Yt = 7,016 + 0,0996*t + 0,03075*t**2

20212019201720152013201120092007200520032001

50

40

30

20

10

Index

Esco

lari

da

de

de

15

an

os o

u m

ais

Intercept 0,19745

Asymptote 0,38342

Asym. Rate 1,00249

Curve Parameters

MAPE 1,71401

MAD 0,14763

MSD 0,03369

Accuracy Measures

Actual

Fits

Forecasts

Variable

Trend Analysis Plot for Escolaridade de 15 anos ou maisS-Curve Trend Model

Yt = (10**2) / (260,813 - 245,656*(1,00249**t))

48

Para podermos visualizar qual a melhor função para representar a série de dados acima,

podemos analisar a tabela abaixo, que compara os três tipos de erros para cada uma das quatro

funções:

Linear Quadrática Exponencial S-Curve

MAPE 3,25 1,15 2,24 1,71

MAD 0,28 0,10 0,19 0,15

MSD 0,09 0,02 0,05 0,03

Percebemos claramente que a função quadrática é a que melhor se adapta à nossa série de

dados “Taxa de escolaridade de pessoas de 15 anos ou mais da população ocupada”; pois, possui

o menor valor para erro percentual absoluto médio (MAPE) . Assim, esta será a função utilizada

para as projeções dos próximos 10 anos (2012-2021).

9.2.2 As previsões

Utilizando a equação da função quadrática apresentada no gráfico acima, temos os se-

guintes valores previstos para os próximos 10 anos em relação a Taxa de escolaridade de pessoas

de 15 anos ou mais da população ocupada no Brasil.

Trend Analysis Plot for Escolaridade de 15 anos ou mais

Trend Analysis for Escolaridade de 15 anos ou mais

Data Escolaridade de 15 anos ou mais

Length 11

NMissing 0

Fitted Trend Equation

Yt = 7,016 + 0,0996*t + 0,03075*t**2

Accuracy Measures

MAPE 1,14917

MAD 0,10345

MSD 0,01686

Forecasts

Period Forecast

2012 12,6388

2013 13,5071

49

2014 14,4368

2015 15,4281

2016 16,4808

2017 17,5950

2018 18,7707

2019 20,0079

2020 21,3066

2021 22,6667

Os valores acima podem ser melhor ilustrados de forma gráfica, conforme abaixo:

Vale ressaltar que se trata de uma previsão efetuada somente com base nos valores históri-

cos da própria variável. Certamente esta metodologia apresenta deficiências ao assumir que o com-

portamento passado se repetirá.

Alterações na grade educacional brasileira com impactos na educação básica e fundamental

devido nova políticas educacionais poderão promover uma melhoria na previsão de taxas de anal-

fabetismo; porém problemas decorrentes de emprego e renda atualmente em níveis desfavoráveis

irão exigir maiores investimentos em educação. Assim, talvez a utilização de regressões múltiplas

poderiam ser mais eficientes neste trabalho de previsão.

9.3 Variável: Investimento

9.3.1 Investimento

Para análise do comportamento histórico da variável Investimento utilizará, inicialmente,

gráficos que permitem uma verificação visual.

Nesta seção analisaremos a tendência da série de dados, buscando encontrar a função (li-

near, quadrática, exponencial ou s-curve) que melhor a represente. Para medir a eficiência da fun-

ção ou da curva de tendência, analisaremos os erros: MAPE (Mean Average Percentual Error),

MAD (Mean Absolute Deaviation) e MSD (Mean Standard Deviation).

20212019201720152013201120092007200520032001

25

20

15

10

5

Index

Esco

lari

da

de

de

15

an

os o

u m

ais

MAPE 1,14917

MAD 0,10345

MSD 0,01686

Accuracy Measures

Actual

Fits

Forecasts

Variable

Trend Analysis Plot for Escolaridade de 15 anos ou maisQuadratic Trend Model

Yt = 7,016 + 0,0996*t + 0,03075*t**2

50

Segue abaixo gráficos incluindo a função, a linha de tendência que representa cada função e os

erros mencionados acima.

20212019201720152013201120092007200520032001

23

22

21

20

19

18

17

16

Index

Ta

xa

de

In

ve

sti

me

nto

MAPE 4,20078

MAD 0,76529

MSD 0,70711

Accuracy Measures

Actual

Fits

Forecasts

Variable

Trend Analysis Plot for Taxa de InvestimentoLinear Trend Model

Yt = 16,600 + 0,309*t

20212019201720152013201120092007200520032001

40

35

30

25

20

Index

Ta

xa

de

In

ve

sti

me

nto

MAPE 1,98518

MAD 0,36898

MSD 0,20849

Accuracy Measures

Actual

Fits

Forecasts

Variable

Trend Analysis Plot for Taxa de InvestimentoQuadratic Trend Model

Yt = 18,679 - 0,650*t + 0,0800*t**2

20212019201720152013201120092007200520032001

24

23

22

21

20

19

18

17

16

Index

Ta

xa

de

In

ve

sti

me

nto

MAPE 4,11102

MAD 0,75006

MSD 0,67787

Accuracy Measures

Actual

Fits

Forecasts

Variable

Trend Analysis Plot for Taxa de InvestimentoGrowth Curve Model

Yt = 16,6871 * (1,01651**t)

20212019201720152013201120092007200520032001

100

90

80

70

60

50

40

30

20

10

Index

Ta

xa

de

In

ve

sti

me

nto

Intercept 13,2086

Asymptote 14,5237

Asym. Rate 1,1077

Curve Parameters

MAPE 3,22812

MAD 0,59687

MSD 0,71059

Accuracy Measures

Actual

Fits

Forecasts

Variable

Trend Analysis Plot for Taxa de InvestimentoS-Curve Trend Model

Yt = (10**2) / (6,88532 - 0,685509*(1,10769**t))

Para podermos visualizar qual a melhor função para representar a série de dados acima,

podemos analisar a tabela abaixo, que compara os três tipos de erros para cada uma das quatro

funções:

Linear Quadrática Exponencial S-Curve

MAPE 4,20 1,99 4,11 3,23

MAD 0,77 0,37 0,75 0,60

MSD 0,71 0,21 0,68 0,71

Percebemos claramente que a função quadrática é a que melhor se adapta à nossa série de

dados “Taxa de Investimento”; pois, possui o menor valor para erro percentual absoluto médio

(MAPE) . Assim, esta será a função utilizada para as projeções dos próximos 10 anos (2012-2021).

9.3.2 As previsões

Utilizando a equação da função quadrática apresentada no gráfico acima, temos os seguin-

tes valores previstos para os próximos 10 anos em relação a Taxa de Investimento no Brasil.

Trend Analysis Plot for Taxa de Investimento

51

Trend Analysis for Taxa de Investimento

Data Taxa de Investimento

Length 11

NMissing 0

Fitted Trend Equation

Yt = 18,679 - 0,650*t + 0,0800*t**2

Accuracy Measures

MAPE 1,98518

MAD 0,36898

MSD 0,20849

Forecasts

Period Forecast

2012 22,3879

2013 23,7364

2014 25,2448

2015 26,9131

2016 28,7413

2017 30,7294

2018 32,8774

2019 35,1853

2020 37,6531

2021 40,2809

Os valores acima podem ser melhor ilustrados de forma gráfica, conforme abaixo:

20212019201720152013201120092007200520032001

40

35

30

25

20

Index

Ta

xa

de

In

ve

sti

me

nto

MAPE 1,98518

MAD 0,36898

MSD 0,20849

Accuracy Measures

Actual

Fits

Forecasts

Variable

Trend Analysis Plot for Taxa de InvestimentoQuadratic Trend Model

Yt = 18,679 - 0,650*t + 0,0800*t**2

52

Vale ressaltar que se trata de uma previsão efetuada somente com base nos valores históri-

cos da própria variável. Certamente esta metodologia apresenta deficiências ao assumir que o com-

portamento passado se repetirá. Alterações de natureza política e principalmente na condução da

política econômica brasileira podendo gerar cortes de investimentos poderão promover resultados

no médio prazo que venham a resultar em menores orçamentos em investimentos. Assim, talvez a

utilização de regressões múltiplas pudesse ser mais eficiente neste trabalho de previsão.

CAPÍTULO X. ANÁLISE DE REGRESSÃO LINEAR MULTIVARIADA

10.1 Relações entre variáveis

Ao se estudar a relação entre duas ou mais variáveis, devemos mensurá-las nos mesmos

indivíduos. Destaque-se a importância ao fato que a relação entre duas variáveis pode ser forte-

mente influenciada por outras variáveis ocultas em um determinado contexto. A associação entre

duas variáveis é encontrada quando, os valores de uma variável mensurada sobre os mesmos indi-

víduos, tendem a ocorrer com maior frequência juntamente com alguns valores de outra variável

e não simplesmente quaisquer outros valores.

Ao estudarmos a relação entre variáveis é importante ter clareza quanto ao objetivo. Este

pode ser entendido como apenas explorar a natureza da relação, ou também, demonstrar que uma

das variáveis pode explicar variações na outra. Isso nos remete a prever a possibilidade da exis-

tência de dois tipos de variáveis: (1) variável explanatória; (2) variável-resposta. A primeira ex-

plica as variáveis - resposta ou causa modificações nela, enquanto que a segunda, mede um resul-

tado de um estudo. Embora muitas pesquisas demonstrem que variações em uma ou mais variáveis

explanatórias causam variações em uma variável-resposta, nem todas as relações explanatórias -

respostas envolvem causa direta.

Costumeiramente as variáveis explanatórias são chamadas de variáveis independentes, e as

variáveis - respostas são chamadas de variáveis dependentes. Logo, entende-se que as variáveis -

respostas dependem das variáveis explanatórias. Uma consideração importante, é que, na estatís-

tica as palavras independentes e dependentes possuem outros significados não relacionados com a

distinção entre explanatória e resposta. Assim, julga-se necessário, certo cuidado com o emprego

das palavras.

10.2 Apresentação de relações entre variáveis

Hoje, com o aparecimento exponencial de tecnologias aplicadas a diversos fins, é comum

encontrar novas formas de apresentação de dados e informações. Talvez, não exista o melhor ca-

minho, mas um caminho melhor para demonstrar a relação entre variáveis quantitativas, o gráfico

53

diagrama de dispersão. Este mostra a relação entre duas variáveis quantitativas medidas sobre

os mesmos indivíduos.

No eixo horizontal aparecem os valores de uma das variáveis; logo, no eixo vertical estão

dispostos os valores da outra variável. O individuo é identificado

no gráfico definido pelos valores de ambas variáveis. No eixo horizontal (eixo x) usa-se sempre

variável explanatória, enquanto que no eixo vertical (eixo y) usa-se a variável-resposta. Caso não

haja distinção entre as variáveis elas podem ocupar quaisquer eixos.

Como em qualquer gráfico de dados, examinamos o diagrama de dispersão procurando o

padrão geral e os desvios. Podemos descrever o padrão geral enquanto sua forma, direção e inten-

sidade. Um outlier é um tipo importante de desvio, ou seja, um valor individual que se situa fora

do padrão geral. A associação entre as variáveis pode ser positiva ou negativa. Na primeira, os

valores acima de média de uma delas tendem a acompanhar valores acima da média da outra e

mesmo para os valores abaixo da média. Na segunda, os valores acima da média de uma delas

acompanham os valores abaixo da média da outra, e vice-versa.

A intensidade de uma relação em um diagrama de dispersão é determinada pela proximi-

dade dos pontos a uma forma definida. A intensidade é forte quando os pontos mostram uma dis-

persão modesta em relação ao padrão, neste caso temos uma relação linear moderadamente forte.

Ao contrario teríamos uma relação fraca.

10.3 Regressão

Para encontrar as relações entre variáveis, assumiu-se como variável - resposta o

“IDHM_E”, para as variáveis explanatórias utilizaram-se as demais variáveis deste estudo exceto

as seguintes variáveis “IDHM”, “IDHM_R”, e “IDHM_L”, para não permitir nenhum viés ao es-

tudo. Na Tabela 8 pode se observar a equação encontrada e nota-se que não houve exclusão de

nenhuma variável.

Tabela 8 – Analise de Regressão para variável-resposta “IDHM_E”

Regression Analysis: IDHM_E versus ESPVIDA; MORT1; ...

The regression equation is

IDHM_E = 0,489 + 0,000670 ESPVIDA + 0,000719 MORT1 + 0,00105 T_ANALF25M

+ 0,00399 T_FUND25M + 0,000018 RDPC + 0,000057 RIND - 0,000088 P_FORMAL

- 0,000028 RENOCUP - 0,000094 T_BANAGUA - 0,000663 T_DENS

+ 0,000497 T_NESTUDA_NTRAB_MMEIO - 0,00546 T_FUNDIN_TODOS_MMEIO

- 0,000203 T_MULCHEFEFIF014 - 0,000000 PEA

Predictor Coef SE Coef T P

Constant 0,48900 0,04661 10,49 0,000

ESPVIDA 0,0006696 0,0005907 1,13 0,257

54

MORT1 0,0007189 0,0002203 3,26 0,001

T_ANALF25M 0,00104957 0,00007567 13,87 0,000

T_FUND25M 0,00398749 0,00007608 52,41 0,000

RDPC 0,00001784 0,00000586 3,05 0,002

RIND 0,00005716 0,00003924 1,46 0,145

P_FORMAL -0,00008779 0,00003850 -2,28 0,023

RENOCUP -0,00002751 0,00000377 -7,29 0,000

T_BANAGUA -0,00009434 0,00003690 -2,56 0,011

T_DENS -0,00066312 0,00005723 -11,59 0,000

T_NESTUDA_NTRAB_MMEIO 0,00049673 0,00009360 5,31 0,000

T_FUNDIN_TODOS_MMEIO -0,00545630 0,00009455 -57,71 0,000

T_MULCHEFEFIF014 -0,00020335 0,00005098 -3,99 0,000

PEA -0,00000001 0,00000000 -2,57 0,010

S = 0,0272726 R-Sq = 91,5% R-Sq(adj) = 91,5%

Analysis of Variance

Source DF SS MS F P

Regression 14 44,3348 3,1668 4257,60 0,000

Residual Error 5550 4,1280 0,0007

Total 5564 48,4628

Source DF Seq SS

ESPVIDA 1 24,0459

MORT1 1 0,0072

T_ANALF25M 1 6,7443

T_FUND25M 1 7,7060

RDPC 1 0,3783

RIND 1 0,0779

P_FORMAL 1 0,0969

RENOCUP 1 0,9007

T_BANAGUA 1 0,7650

T_DENS 1 0,8428

T_NESTUDA_NTRAB_MMEIO 1 0,0684

T_FUNDIN_TODOS_MMEIO 1 2,6848

T_MULCHEFEFIF014 1 0,0118

PEA 1 0,0049 Fonte: Minitab (2016)

Em busca da melhor equação para definir as variáveis que mais explicam a variável

“IDHM_E”, realizou a análise de regressão passo a passo. A Tabela 9 demonstra os resultados. As

variáveis relevantes para explicar a variável-resposta são: “T_FUNDIN_TODOS_MMEIO”,

“T_FUND25M”, “T_ANALF25M”, “T_DENS”, “RENOCUP”.

Tabela 9 – Análise de Regressão Passo a Passo para a variável-resposta “IDHM_E”

Stepwise Regression: IDHM_E versus ESPVIDA; MORT1; ...

55

Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15

Response is IDHM_E on 14 predictors, with N = 5565

Step 1 2 3 4 5

Constant 0,6990 0,5552 0,5404 0,5262 0,5392

T_FUNDIN_TODOS_MMEIO -0,00676 -0,00472 -0,00594 -0,00525 -0,00529

T-Value -176,75 -94,33 -85,31 -60,62 -61,78

P-Value 0,000 0,000 0,000 0,000 0,000

T_FUND25M 0,00301 0,00325 0,00368 0,00409

T-Value 52,39 58,48 57,41 56,79

P-Value 0,000 0,000 0,000 0,000

T_ANALF25M 0,00156 0,00156 0,00134

T-Value 24,06 24,47 20,37

P-Value 0,000 0,000 0,000

T_DENS -0,00058 -0,00063

T-Value -12,94 -14,16

P-Value 0,000 0,000

RENOCUP -0,00003

T-Value -11,88

P-Value 0,000

MORT1

T-Value

P-Value

S 0,0363 0,0297 0,0283 0,0279 0,0275

R-Sq 84,88 89,88 90,83 91,10 91,32

R-Sq(adj) 84,88 89,88 90,83 91,09 91,31

Mallows Cp 4287,7 1035,6 415,9 243,3 101,8 Fonte: Minitab (2016)

Considerando que a análise de regressão passo a passo nos permitiu verificar as que as va-

riáveis relevantes para explicar a variável-resposta “IDHM_E” explicam 84,9% da variável. As-

sim na Tabela 10, os resultados da analise de regressão apenas com as variáveis explanatórias

mais relevante para explicar a variável-resposta.

Tabela 10 – Análise de Regressão para Variável - Resposta “IDHM_E” vs. Variáveis Explanató-

rias

Regression Analysis: IDHM_E versus T_FUNDIN_TODOS_MMEIO; T_FUND25M; ...

56

The regression equation is

IDHM_E = 0,539 - 0,00529 T_FUNDIN_TODOS_MMEIO + 0,00409 T_FUND25M

+ 0,00134 T_ANALF25M - 0,000634 T_DENS - 0,000026 RENOCUP

Predictor Coef SE Coef T P

Constant 0,539189 0,003112 173,28 0,000

T_FUNDIN_TODOS_MMEIO -0,00529107 0,00008564 -61,78 0,000

T_FUND25M 0,00408616 0,00007195 56,79 0,000

T_ANALF25M 0,00134139 0,00006586 20,37 0,000

T_DENS -0,00063362 0,00004473 -14,16 0,000

RENOCUP -0,00002570 0,00000216 -11,88 0,000

S = 0,0275065 R-Sq = 91,3% R-Sq(adj) = 91,3%

Analysis of Variance

Source DF SS MS F P

Regression 5 44,2568 8,8514 11698,74 0,000

Residual Error 5559 4,2060 0,0008

Total 5564 48,4628

Source DF Seq SS

T_FUNDIN_TODOS_MMEIO 1 41,1375

T_FUND25M 1 2,4204

T_ANALF25M 1 0,4624

T_DENS 1 0,1299

RENOCUP 1 0,1067 Fonte: Minitab (2016)

Nota-se que no resultado identificamos associações positivas e negativas. Para análise das

condições de inferência, observa-se na Figura 2 Neste caso as equações encontradas têm:

1. Os p-values menores do que 0,10 indicam que uma há significativa evidencia da existência

de uma relação.

2. A Figura 2 demonstra gráficos que permitem verificar se uma série de condições está sendo

atendidas.

Alguns apontamentos sobre os gráficos:

• O gráfico Normal PlotVs Residual nos demonstra uma distribuição praticamente

linear, o que é compatível com uma distribuição normal.

• O Histograma também parece demonstrar uma distribuição aproximadamente si-

métrica e normal.

• A forma de distribuição ao longo da reta parece ser igual ao longo da reta de re-

gressão, com exceção de alguns outliers no começo (0,2) e no final (1,0).

57

Nota-se que no resultado identificamos associações positivas e negativas. Para análise das

condições inferência, observa-se a Figura 3. Neste caso a equação encontrada temos:

3. Os p-values menores do que 0,10 indicam que uma há significativa evidencia da existência

de uma relação.

4. A Figura 22 demonstra os gráficos que permitem verificar se uma série de condições está

sendo atendidas.

Alguns apontamentos sobre os gráficos:

• O gráfico Normal PlotVs Residual nos demonstra uma distribuição praticamente

linear, o que é compatível com uma distribuição normal.

• O Histograma também parece demonstrar uma distribuição aproximadamente si-

métrica e normal.

• A forma de distribuição ao longo da reta parece ser igual ao longo da reta de re-

gressão, com exceção de alguns outliers no começo (0,2) e no final (0,8).

0,100,050,00-0,05-0,10

99,99

99

90

50

10

1

0,01

Residual

Pe

rce

nt

0,80,60,40,2

0,10

0,05

0,00

-0,05

-0,10

Fitted Value

Re

sid

ua

l

0,090,060,030,00-0,03-0,06-0,09

400

300

200

100

0

Residual

Fre

qu

en

cy

5500

5000

4500

4000

3500

3000

2500

2000

1500

100050

01

0,10

0,05

0,00

-0,05

-0,10

Observation Order

Re

sid

ua

l

Normal Probability Plot Versus Fits

Histogram Versus Order

Residual Plots for IDHM_E

Figura 3 – Análise das Condições de Inferência

Fonte: Elaborado pelo autor ( Minitab 16)

Para encontrar a melhor equação tanto para a explicação quanto para relação, foi realizada

uma serie de procedimentos. A melhor equação foi encontrada na Tabela 10, que utilizou a equa-

ção da Tabela 8. Com isso realizou-se outro procedimento de regressão linear para obter a seguinte

equação confirmando o R-Quadrado:

58

IDHM_E = 0,539 - 0,00529 T_FUNDIN_TODOS_MMEIO + 0,00409 T_FUND25M +

0,00134 T_ANALF25M - 0,000634 T_DENS - 0,000026 RENOCUP

Este procedimento de regressão tem poder explicativo de 84% e análise das condições de

inferência sugerem que podemos utilizar esta equação para a predição do “IDHM_E”. O alto valor

do R-Quadrado com o tipo de dados, que são relacionados à renda, alfabetização, analfabetismo e

rendimento médio.

80400 80400 50250

1,0

0,8

0,6

0,4

0,2

100500

1,0

0,8

0,6

0,4

0,2

300015000

T_FUNDIN_TODOS_MMEIO

IDH

M_

E

T_FUND25M T_ANALF25M

T_DENS RENOCUP

Scatterplot of IDHM_E vs T_FUNDIN_TOD; T_FUND25M; T_ANALF25M; ...

Com base nesta seleção inicial, para cada uma das variáveis realizou-se a normatização e/ou po-

sitivação quando fosse necessário.

CAPÍTULO XI. COMPARAÇÃO E TESTES DE HIPÓTESES

Para realizarmos a comparação e os testes de hipóteses escolhemos as variáveis de interesse

em um experimento (aquelas medidas ou observadas). São também chamadas de variáveis de res-

posta, ou RESPONSE; a saber: “T_FUND25M”, “T_ANALF25M”, “T_FUNDIN_TO-

DOS_MMEIO”, “T_DENS”, “RENOCUP”.

As outras variáveis no experimento que afetam a resposta e podem ser definidas ou medidas

pelo experimentado. São também chamadas variáveis explanatórias. Na alimentação do Minitab,

para este tipo de análise, são denominadas FACTOR.

A saber:

One-way ANOVA: T_FUND25M versus REGIÃO

Source DF SS MS F P

59

REGIÃO 4 151864,3 37966,1 398,25 0,000

Error 5559 529951,8 95,3

Total 5563 681816,1

S = 9,764 R-Sq = 22,27% R-Sq(adj) = 22,22%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev ------+---------+---------+---------+---

CO 465 37,725 7,473 (--*-)

N 449 32,463 9,286 (--*-)

NE 1794 26,485 8,519 (-*)

S 1188 37,244 9,775 (*-)

SE 1668 38,303 11,536 (*-)

------+---------+---------+---------+---

28,0 31,5 35,0 38,5

Pooled StDev = 9,764

SESNENCO

80

70

60

50

40

30

20

10

0

REGIÃO

T_

FUN

D2

5M

Boxplot of T_FUND25M

Indicadores Expoente (+) SUDESTE, n=1668 Expoente (-) NORDESTE, n=1794

Q1 29,3625 20,9575

Mediana 37,825 25,08

Q3 45,8875 29,8625

Média 38,303 26,485

Desvio padrão 11,536 8,519

One-way ANOVA: T_ANALF25M versus REGIÃO

60

Source DF SS MS F P

REGIÃO 4 606142,6 151535,6 2804,56 0,000

Error 5559 300363,2 54,0

Total 5563 906505,8

S = 7,351 R-Sq = 66,87% R-Sq(adj) = 66,84%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev -------+---------+---------+---------+--

CO 465 15,404 5,065 (*)

N 449 22,384 8,429 (*)

NE 1794 34,970 8,541 (*

S 1188 9,761 4,867 (*)

SE 1668 13,581 7,655 *)

-------+---------+---------+---------+--

14,0 21,0 28,0 35,0

Pooled StDev = 7,351

SESNENCO

60

50

40

30

20

10

0

REGIÃO

T_

AN

ALF2

5M

Boxplot of T_ANALF25M

Indicadores Expoente (+) SUL, n=1188 Expoente (-) NORDESTE,

n=1794

Q1 5,7425 29,835

Mediana 9,005 35,515

Q3 13,0275 40,6525

Média 9,761 34,970

Desvio padrão 4,867 8,541

61

One-way ANOVA: T_FUNDIN_TODOS_MMEIO versus REGIÃO

Source DF SS MS F P

REGIÃO 4 502391,4 125597,9 1753,51 0,000

Error 5559 398171,7 71,6

Total 5563 900563,1

S = 8,463 R-Sq = 55,79% R-Sq(adj) = 55,75%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev ---+---------+---------+---------+------

CO 465 15,223 6,759 (*-)

N 449 29,968 11,737 (*)

NE 1794 32,680 8,718 *)

S 1188 10,837 6,520 (*)

SE 1668 13,914 8,781 *)

---+---------+---------+---------+------

12,0 18,0 24,0 30,0

Pooled StDev = 8,463

SESNENCO

80

70

60

50

40

30

20

10

0

REGIÃO

T_

FUN

DIN

_TO

DO

S_

MM

EIO

Boxplot of T_FUNDIN_TODOS_MMEIO

Indicadores Expoente (+) SUL, n=1188 Expoente (-) NORDESTE,

n=1794

Q1 5,8 26,7975

Mediana 9,61 32,725

Q3 14,7275 38,48

Média 10,837 32,680

Desvio padrão 6,520 8,718

One-way ANOVA: T_DENS versus REGIÃO

62

Source DF SS MS F P

REGIÃO 4 489644,3 122411,1 1510,67 0,000

Error 5559 450452,4 81,0

Total 5563 940096,7

S = 9,002 R-Sq = 52,08% R-Sq(adj) = 52,05%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev -------+---------+---------+---------+--

CO 465 20,779 8,877 (*)

N 449 45,136 17,489 (*)

NE 1794 33,068 8,606 *

S 1188 13,833 6,387 (*

SE 1668 20,456 7,575 *)

-------+---------+---------+---------+--

20 30 40 50

Pooled StDev = 9,002

SESNENCO

90

80

70

60

50

40

30

20

10

0

REGIÃO

T_

DEN

S

Boxplot of T_DENS

Indicadores Expoente (+) SUL, n=1188 Expoente (-) NORTE, n=449

Q1 9,06 30,935

Mediana 13,015 43,69

Q3 17,6775 58,265

Média 13,833 45,136

Desvio padrão 6,387 17,489

63

One-way ANOVA: RENOCUP versus REGIÃO

Source DF SS MS F P

REGIÃO 4 276629690 69157422 1039,86 0,000

Error 5559 369709458 66506

Total 5563 646339148

S = 257,9 R-Sq = 42,80% R-Sq(adj) = 42,76%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev ---------+---------+---------+---------+

CO 465 1015,2 241,6 (-*)

N 449 708,1 250,0 (*-)

NE 1794 473,7 192,1 (*

S 1188 980,1 257,3 (*)

SE 1668 920,0 319,2 *)

---------+---------+---------+---------+

600 750 900 1050

Pooled StDev = 257,9

SESNENCO

3500

3000

2500

2000

1500

1000

500

0

REGIÃO

REN

OC

UP

Boxplot of RENOCUP

Indicadores Expoente (+) CENTRO OESTE, n=465 Expoente (-) NORDESTE,

n=1794

Q1 848,43 351,48

Mediana 989,9 431,33

Q3 1144,63 551,08

Média 1015,2 473,7

64

Desvio padrão 241,6 192,1

One-way ANOVA: IDHM_E versus REGIÃO

Source DF SS MS F P

REGIÃO 4 18,83643 4,70911 884,60 0,000

Error 5559 29,59293 0,00532

Total 5563 48,42936

S = 0,07296 R-Sq = 38,89% R-Sq(adj) = 38,85%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev --+---------+---------+---------+-------

CO 465 0,58380 0,05977 (-*-)

N 449 0,49043 0,09066 (-*-)

NE 1794 0,48842 0,06579 (*)

S 1188 0,61302 0,06520 (*)

SE 1668 0,60819 0,08287 (*)

--+---------+---------+---------+-------

0,490 0,525 0,560 0,595

Pooled StDev = 0,07296

SESNENCO

0,9

0,8

0,7

0,6

0,5

0,4

0,3

0,2

REGIÃO

IDH

M_

E

Boxplot of IDHM_E

65

Indicadores Expoente (+) SUL, n=1188 Expoente (-) NORDESTE,

n=1794

Q1 0,571 0,443

Mediana 0,618 0,4825

Q3 0,66 0,528

Média 0,61302 0,48842

Desvio padrão 0,06520 0,06579

One-way ANOVA: IDHM_E versus UF

Source DF SS MS F P

UF 25 26,79528 1,07181 274,37 0,000

Error 5538 21,63408 0,00391

Total 5563 48,42936

S = 0,06250 R-Sq = 55,33% R-Sq(adj) = 55,13%

Individual 95% CIs For Mean Based on Pooled StDev

Level N Mean StDev +---------+---------+---------+---------

11 52 0,51642 0,06275 (--*-)

12 22 0,45223 0,08732 (---*--)

13 62 0,43694 0,08381 (-*--)

14 15 0,49920 0,10924 (---*----)

15 143 0,44866 0,08641 (*-)

16 16 0,54994 0,06697 (----*---)

17 139 0,54578 0,06707 (-*)

21 217 0,48862 0,06824 (*)

22 224 0,45669 0,06149 (*)

23 184 0,55212 0,04894 (*)

24 167 0,51647 0,05561 (-*)

25 223 0,47741 0,05607 (*)

26 185 0,49056 0,06797 (*) 27 102 0,44275 0,05408 (*-)

28 75 0,48973 0,05817 (-*-)

29 417 0,48189 0,06011 (*)

31 853 0,55683 0,06944 (*

32 78 0,59136 0,05795 (-*-)

33 92 0,62090 0,05634 (-*-)

35 645 0,67634 0,04839 (*

41 399 0,61105 0,06286 (*)

42 293 0,63652 0,05967 (*)

43 496 0,60071 0,06660 (*)

50 78 0,55741 0,06030 (-*-)

51 141 0,57699 0,06308 (*-)

52 246 0,59607 0,05430 (*)

66

+---------+---------+---------+---------

0,420 0,490 0,560 0,630

Pooled StDev = 0,06250

TOSPSESCRSRRRORNRJPRPIPEPBPAMT

MS

MG

MA

GOESCEBAAP

AMALAC

0,9

0,8

0,7

0,6

0,5

0,4

0,3

0,2

ESTADO

IDH

M_

EBoxplot of IDHM_E

Observando o boxplot do IDHM_E (Educação) e traçando uma linha aleatória, pratica-

mente dividindo o eixo vertical em duas partes, encontramos na parte superior (estados com me-

lhores índices educacionais) praticamente os estados das regiões SUL, SUDESTE e CENTRO

OESTE, e na parte inferior (estados com piores índices de educação), os da região NORTE e

NORDESTE.

Essa análise valida as hipóteses de relação existentes entre os responses escolhidos

T_FUND25M, T_ANALF25M, T_FUNDIN_TODOS_MMEIO, T_DENS, T_RENOCUP com

IDHM_E e os factors explorados, as regiões brasileiras.

CAPÍTULO XII. PESQUISA POR AMOSTRAGEM

A pesquisa por amostragem foi feita em três amostras, uma de 25 municípios, outra composta

por 100 municípios e uma terceira com 400 municípios. Para cada amostra foram efetuadas:

• Amostra Aleatória: foi feita através da funcionalidade “Calc, Random Data, Sample From

Columns” do Minitab16; estratificando-se em 3 seleções: 25, 100 e 400 municípios. Obti-

dos os resultados “colou-se” em uma coluna vazia no Minitab e também copiando os dados

apresentados para o trabalho.

• Anova: foi feita para cada uma das seleções sorteadas, através da funcionalidade “Stat,

Anova, One-Way (Unstacked)”. Inserindo a variável original e as 3 novas amostras a fim

de elaborar o Graphs Boxplots.

67

One-way ANOVA: IDHM_E; IDHE25; IDHE100; IDHE400

Source DF SS MS F P

Factor 3 0,00875 0,00292 0,34 0,797

Error 6085 52,39217 0,00861

Total 6088 52,40092

S = 0,09279 R-Sq = 0,02% R-Sq(adj) = 0,00%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev ---+---------+---------+---------+------

IDHM_E 5564 0,55906 0,09330 (-*)

IDHE25 25 0,57132 0,07381 (------------------*-----------------)

IDHE100 100 0,55237 0,09518 (--------*--------)

IDHE400 400 0,55780 0,08577 (----*---)

---+---------+---------+---------+------

0,540 0,560 0,580 0,600

Pooled StDev = 0,09279

Boxplot of IDHM_E; IDHE25; IDHE100; IDHE400

68

IDHE400IDHE100IDHE25IDHM_E

0,9

0,8

0,7

0,6

0,5

0,4

0,3

0,2

Da

ta

Boxplot of IDHM_E; IDHE25; IDHE100; IDHE400

A amostra de 400 municípios apresentou praticamente os mesmos valores na média e des-

vio padrão. Portanto, pode-se concluir que a amostra aleatória de 400 municípios representa muito

próximo da população do IDH_E original com 5564 municípios (considerando-se excluído o Dis-

trito Federal pois só tem 1 município). O Box-Plot confirma a hipótese nula de diferença de médias

para amostra aleatória de 400 indivíduos. O P-Value próximo de 1 que confirma a análise anterior:

a amostra aleatória é altamente representativa.

One-way ANOVA: T_FUND25M; FUND25M25; FUND25M100; FUND25M400

Source DF SS MS F P

Factor 3 441 147 1,19 0,313

Error 6085 752647 124

Total 6088 753088

S = 11,12 R-Sq = 0,06% R-Sq(adj) = 0,01%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev ---+---------+---------+---------+------

T_FUND25M 5564 33,75 11,07 *)

FUND25M25 25 30,52 7,99 (--------------*-------------)

FUND25M100 100 34,05 11,18 (------*-------)

FUND25M400 400 34,42 11,94 (---*--)

---+---------+---------+---------+------

27,0 30,0 33,0 36,0

Pooled StDev = 11,12

69

Boxplot of T_FUND25M; FUND25M25; FUND25M100; FUND25M40

FUND25M400FUND25M100FUND25M25T_FUND25M

80

70

60

50

40

30

20

10

0

Da

taBoxplot of T_FUND25M; FUND25M25; FUND25M100; FUND25M400

A amostra de 100 municípios apresentou praticamente os mesmos valores na média e des-

vio padrão. Portanto, pode-se concluir que a amostra aleatória de 100 municípios representa muito

próximo da população original com 5564 municípios (considerando-se excluído o Distrito Federal,

pois só tem 1 município). O Box-Plot confirma a hipótese nula de diferença de médias para amos-

tra aleatória de 100 indivíduos. O P-Value próximo de 1 que confirma a análise anterior: a amostra

aleatória é altamente representativa.

One-way ANOVA: T_ANALF25M; ANALF25M25; ANALF25M100;

ANALF25M400

Source DF SS MS F P

Factor 3 686 229 1,40 0,241

Error 6085 993744 163

Total 6088 994429

S = 12,78 R-Sq = 0,07% R-Sq(adj) = 0,02%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev ---+---------+---------+---------+------

T_ANALF25M 5564 20,52 12,77 (*-)

ANALF25M25 25 16,15 10,56 (----------------*----------------)

ANALF25M100 100 19,84 13,40 (-------*-------)

ANALF25M400 400 21,16 12,94 (----*---)

---+---------+---------+---------+------

12,0 15,0 18,0 21,0

70

Pooled StDev = 12,78

Boxplot of T_ANALF25M; ANALF25M25; ANALF25M100; ANALF25M40

ANALF25M400ANALF25M100ANALF25M25T_ANALF25M

60

50

40

30

20

10

0

Da

ta

Boxplot of T_ANALF25M; ANALF25M25; ANALF25M100; ANALF25M400

A amostra de 400 municípios apresentou praticamente os mesmos valores na média e des-

vio padrão. Portanto, pode-se concluir que a amostra aleatória de 400 municípios representa muito

próximo da população original com 5564 municípios (considerando-se excluído o Distrito Federal

pois só tem 1 município). O Box-Plot confirma a hipótese nula de diferença de médias para amos-

tra aleatória de 400 indivíduos. O P-Value próximo de 1 que confirma a análise anterior: a amostra

aleatória é altamente representativa.

One-way ANOVA: T_FUNDIN_TODOS_M; FUNDINTODOS25; FUNDINTO-

DOS100; FUNDINTODOS400

Source DF SS MS F P

Factor 3 192 64 0,40 0,755

Error 6085 981482 161

Total 6088 981674

S = 12,70 R-Sq = 0,02% R-Sq(adj) = 0,00%

Level N Mean StDev

T_FUNDIN_TODOS_MMEIO 5564 20,71 12,72

FUNDINTODOS25 25 21,20 13,59

FUNDINTODOS100 100 20,29 11,91

FUNDINTODOS400 400 20,04 12,51

71

Individual 95% CIs For Mean Based on

Pooled StDev

Level -----+---------+---------+---------+----

T_FUNDIN_TODOS_MMEIO (*)

FUNDINTODOS25 (-------------------*-------------------)

FUNDINTODOS100 (---------*---------)

FUNDINTODOS400 (----*----)

-----+---------+---------+---------+----

17,5 20,0 22,5 25,0

Pooled StDev = 12,70

Boxplot of T_FUNDIN_TODOS_MMEIO; FUNDINTODOS25; FUNDINTODOS100;

FUNDINTODOS400

FUNDINTODOS400FUNDINTODOS100FUNDINTODOS25T_FUNDIN_TODOS_MMEIO

80

70

60

50

40

30

20

10

0

Da

ta

t of T_FUNDIN_TODOS_MMEIO; FUNDINTODOS25; FUNDINTODOS100; FUNDINTOD

A amostra de 400 municípios apresentou praticamente os mesmos valores na média e des-

vio padrão. Portanto, pode-se concluir que a amostra aleatória de 400 municípios representa muito

próximo da população original com 5564 municípios (considerando-se excluído o Distrito Federal

pois só tem 1 município). O Box-Plot confirma a hipótese nula de diferença de médias para amos-

tra aleatória de 400 indivíduos. O P-Value próximo de 1 que confirma a análise anterior: a amostra

aleatória é altamente representativa.

One-way ANOVA: T_DENS; TDENS25; TDENS100; TDENS400

Source DF SS MS F P

Factor 3 584 195 1,15 0,328

Error 6085 1031936 170

72

Total 6088 1032519

S = 13,02 R-Sq = 0,06% R-Sq(adj) = 0,01%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev -----+---------+---------+---------+----

T_DENS 5564 25,13 13,00 (*)

TDENS25 25 20,70 15,40 (-------------*--------------)

TDENS100 100 26,09 13,80 (-------*------)

TDENS400 400 25,09 12,99 (---*--)

-----+---------+---------+---------+----

17,5 21,0 24,5 28,0

Pooled StDev = 13,02

Boxplot of T_DENS; TDENS25; TDENS100; TDENS400

TDENS400TDENS100TDENS25T_DENS

90

80

70

60

50

40

30

20

10

0

Da

ta

Boxplot of T_DENS; TDENS25; TDENS100; TDENS400

A amostra de 400 municípios apresentou praticamente os mesmos valores na média e des-

vio padrão. Portanto, pode-se concluir que a amostra aleatória de 400 municípios representa muito

próximo da população original com 5564 municípios (considerando-se excluído o Distrito Federal,

pois só tem 1 município). O Box-Plot confirma a hipótese nula de diferença de médias para amos-

tra aleatória de 400 indivíduos. O P-Value próximo de 1 que confirma a análise anterior: a amostra

aleatória é altamente representativa.

One-way ANOVA: RENOCUP; RENCUP25; RENCUP100; RENCUP400

Source DF SS MS F P

73

Factor 3 240671 80224 0,68 0,563

Error 6085 716093532 117682

Total 6088 716334203

S = 343,0 R-Sq = 0,03% R-Sq(adj) = 0,00%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev ----+---------+---------+---------+-----

RENOCUP 5564 779,8 340,9 (*-)

RENCUP25 25 736,1 334,1 (------------------*------------------)

RENCUP100 100 808,8 364,5 (---------*--------)

RENCUP400 400 797,2 367,6 (----*----)

----+---------+---------+---------+-----

630 700 770 840

Pooled StDev = 343,

Boxplot of RENOCUP; RENCUP25; RENCUP100; RENCUP400

RENCUP400RENCUP100RENCUP25RENOCUP

3500

3000

2500

2000

1500

1000

500

0

Da

ta

Boxplot of RENOCUP; RENCUP25; RENCUP100; RENCUP400

A amostra de 400 municípios não apresentou os mesmos valores na média e desvio padrão.

Portanto, pode-se concluir que a amostra aleatória de 400 municípios nos mostra que deveríamos

aumentar a amostragem aleatória a fim de identificar melhor aquela que representasse mais proxi-

midade com a variável original dos 5564 municípios (considerando-se excluído o Distrito Federal,

pois só tem 1 município). O Box-Plot confirma que a amostra não é tão representativa em termos

de média, mediana e desvio padrão.

74

CAPÍTULO XIII. ANÁLISE DOS COMPONENTES PRINCIPAIS

13.1 Correlações e Dendrograma

A seguir são apresentadas as matrizes de correlações e o dendrograma entre as variáveis

separadas por região, após normatização e positivação das mesmas.

Tabela 14 – Relação entre as variáveis selecionadas para o estudo

Correlations: ESPVIDAn; MORT1np; T_ANALF25Mnp; T_FUND25Mnp; RDPCn; ...

ESPVIDAn MORT1np T_ANALF25Mnp

MORT1np 0,967

0,000

T_ANALF25Mnp 0,831 0,833

0,000 0,000

T_FUND25Mnp -0,628 -0,593 -0,743

0,000 0,000 0,000

RDPCn 0,784 0,744 0,821

0,000 0,000 0,000

P_FORMALn 0,709 0,678 0,771

0,000 0,000 0,000

RENOCUPn 0,741 0,704 0,795

0,000 0,000 0,000

T_BANAGUAn 0,726 0,739 0,759

0,000 0,000 0,000

T_DENSnp 0,589 0,594 0,554

0,000 0,000 0,000

T_NESTUDA_NTRAB_ 0,753 0,741 0,808

0,000 0,000 0,000

T_FUNDIN_TODOS_M 0,802 0,796 0,885

0,000 0,000 0,000

T_MULCHEFEFIF014 0,565 0,576 0,574

0,000 0,000 0,000

PEAn 0,091 0,073 0,112

0,000 0,000 0,000

T_FUND25Mnp RDPCn P_FORMALn

RDPCn -0,755

0,000

P_FORMALn -0,754 0,767

0,000 0,000

75

RENOCUPn -0,816 0,929 0,801

0,000 0,000 0,000

T_BANAGUAn -0,563 0,700 0,722

0,000 0,000 0,000

T_DENSnp -0,270 0,592 0,470

0,000 0,000 0,000

T_NESTUDA_NTRAB_ -0,587 0,826 0,697

0,000 0,000 0,000

T_FUNDIN_TODOS_M -0,780 0,843 0,802

0,000 0,000 0,000

T_MULCHEFEFIF014 -0,432 0,571 0,469

0,000 0,000 0,000

PEAn -0,247 0,220 0,126

0,000 0,000 0,000

RENOCUPn T_BANAGUAn T_DENSnp

T_BANAGUAn 0,656

0,000

T_DENSnp 0,429 0,750

0,000 0,000

T_NESTUDA_NTRAB_ 0,720 0,722 0,670

0,000 0,000 0,000

T_FUNDIN_TODOS_M 0,791 0,810 0,662

0,000 0,000 0,000

T_MULCHEFEFIF014 0,488 0,617 0,634

0,000 0,000 0,000

PEAn 0,233 0,058 -0,021

0,000 0,000 0,112

T_NESTUDA_NTRAB_ T_FUNDIN_TODOS_M T_MULCHEFEFIF014

T_FUNDIN_TODOS_M 0,835

0,000

T_MULCHEFEFIF014 0,579 0,661

0,000 0,000

PEAn 0,080 0,105 0,047

0,000 0,000 0,000

76

Cell Contents: Pearson correlation

P-Value

O p-value de todas as correlações são significativos ao nível de 5%, o que indica que pode-

mos considerar os índices de correlação. Percebemos também que todas as correlações são relati-

vamente fortes, acima de 0,80. A maior correlações é entre as variáveis MORT1np e ESPVIDAn;,

agora, após positivação de MORT1 considera-se VIDA.

Tabela 15 - Correlação entre as variáveis

Variável (y) Variável (x) Grau de Correla-

ção

MORT1np ESPVIDAn 0,967

RENOCUPn RDPCn 0,929

T_FUNDIN_TODOS_MMEIOnp T_ANALF25Mnp 0,885

T_FUNDIN_TODOS_MMEIOnp RDPCn 0,843

T_FUNDIN_TODOS_MMEIOnp T_NESTUDA_NTRAB_MMEIOnp 0,835

T_ANALF25Mnp MORT1np 0,833

T_ANALF25Mnp ESPVIDAn 0,831

T_NESTUDA_NTRAB_MMEIOnp RDPCn 0,826

RDPCn T_ANALF25Mnp 0,821

T_FUNDIN_TODOS_MMEIOnp T_BANAGUAn 0,810

T_NESTUDA_NTRAB_MMEIOnp T_ANALF25Mnp 0,808

T_FUNDIN_TODOS_MMEIOnp ESPVIDAn 0,802

T_FUNDIN_TODOS_MMEIOnp P_FORMALn 0,802

RENOCUPn P_FORMALn 0,801

RENOCUPn T_FUND25Mnp -0,816

Fonte: Elaborado pelo autor

Vejamos abaixo o dendrograma que nada mais é do que as mesmas correlações acima,

porém em forma gráfica, nos indicando mais claramente quais as variáveis que poderiam ser uni-

das. O gráfico corrobora os comentários efetuados acima.

77

T_FU

ND25

Mnp

RIND

nPE

An

T_MUL

CHEF

EFIF01

4_np

T_DE

NSnp

P_FO

RMAL

n

T_BA

NAGU

An

T_NE

STUD

A_NT

RAB_

MMEIOnp

RENO

CUPn

RDPC

n

T_FU

NDIN_T

ODO

S_MMEIOnp

T_AN

ALF2

5Mnp

MOR

T1np

ESPV

IDAn

45,54

63,69

81,85

100,00

Variables

Sim

ilari

ty

DendrogramSingle Linkage; Correlation Coefficient Distance

Figura 7 – Dendrograma das Variáveis Selecionadas normatizadas e positivadas

Observa-se no Dendrograma que as variáveis com maior correlação são ESPVIDAn com

MORT1np e RDPCnp com RENOCUPn. As demais variáveis relacionam-se entre si confirmando

as análises anteriores.

13.2. Análise de Cluster das variáveis

Tabela 16 – Análise de Cluster das variáveis

Cluster Analysis of Variables: ESPVIDAn; MORT1np; T_ANALF25Mnp; ...

Correlation Coefficient Distance, Single Linkage

Amalgamation Steps

Number

of obs.

Number of Similarity Distance Clusters New in new

Step clusters level level joined cluster cluster

1 13 98,3543 0,03291 1 2 1 2

2 12 96,4598 0,07080 5 8 5 2

3 11 94,2608 0,11478 3 12 3 2 4 10 92,1453 0,15709 3 5 3 4

5 9 91,7368 0,16526 3 11 3 5

6 8 91,6386 0,16723 1 3 1 7

7 7 90,5147 0,18971 1 9 1 8

8 6 90,1076 0,19785 1 7 1 9

9 5 87,4796 0,25041 1 10 1 10

10 4 83,0570 0,33886 1 13 1 11

11 3 61,6572 0,76686 1 14 1 12

12 2 55,4295 0,89141 1 6 1 13

78

13 1 45,5368 1,08926 1 4 1 14

Final Partition

Cluster 1

ESPVIDAn MORT1np T_ANALF25Mnp RDPCn P_FORMALn RENOCUPn T_BA-

NAGUAn

T_DENSnp T_NESTUDA_NTRAB_MMEIOnp T_FUNDIN_TODOS_MMEIOnp

T_MULCHEFEFIF014_np PEAn

Cluster 2

T_FUND25Mnp

Cluster 3

RINDn

A tabela acima nos indica que há grande similaridade de todas as observações, apenas há

certo distanciamento no nível de similaridade 87,5 e 45,5. Se repararmos teremos 1 cluster com

muitas observações (12 variáveis) e os demais com apenas 1 observação.

Em geral, um cluster é mais compacto com um valor reduzido de sum of squares. Neste

caso o cluster tem um valor alto de sum of squares, o que significa que este cluster não é compacto,

tende a ser mais disperso.

13.3 Regressão e Stepwise

Para encontrar as relações entre variáveis, assumiu-se como variável - resposta ESPVIDAn,

para as variáveis explanatórias utilizaram-se as demais variáveis deste estudo exceto as seguintes

variáveis “IDHM”, “IDHM_R”, “IDHM_E” e “IDHM_L, para não permitir nenhum viés ao es-

tudo. Na Tabela 7 pode se observar a equação encontrada e nota-se que não houve exclusão de

nenhuma variável.

Tabela 17 – Análise de Regressão para as variáveis

General Regression Analysis: ESPVIDAn versus MORT1; T_ANALF25M; ...

Regression Equation

ESPVIDAn = 0,98042 - 0,0245129 MORT1 + 0,000221944 T_ANALF25M + 0,000199227

T_FUNDIN_TODOS_MMEIO + 0,000121451 RDPC + 8,09199e-006 RENOCUP +

2,16306e-005 T_NESTUDA_NTRAB_MMEIO

Coefficients

Term Coef SE Coef T P

Constant 0,980420 0,0052167 187,938 0,000

MORT1 -0,024513 0,0001661 -147,564 0,000

T_ANALF25M 0,000222 0,0001265 1,754 0,079

79

T_FUNDIN_TODOS_MMEIO 0,000199 0,0001252 1,592 0,112

RDPC 0,000121 0,0000091 13,419 0,000

RENOCUP 0,000008 0,0000054 1,509 0,131

T_NESTUDA_NTRAB_MMEIO 0,000022 0,0001550 0,140 0,889

Summary of Model

S = 0,0472141 R-Sq = 94,49% R-Sq(adj) = 94,48%

PRESS = 12,4209 R-Sq(pred) = 94,47%

Analysis of Variance

Source DF Seq SS Adj SS Adj MS F P

Regression 6 212,297 212,297 35,3828 15872,6 0,000000

MORT1 1 210,139 48,541 48,5406 21775,2 0,000000

T_ANALF25M 1 0,465 0,007 0,0069 3,1 0,079428

T_FUNDIN_TODOS_MMEIO 1 0,210 0,006 0,0056 2,5 0,111541

RDPC 1 1,477 0,401 0,4014 180,1 0,000000

RENOCUP 1 0,006 0,005 0,0051 2,3 0,131287

T_NESTUDA_NTRAB_MMEIO 1 0,000 0,000 0,0000 0,0 0,889002

Error 5558 12,390 12,390 0,0022

Total 5564 224,686

Em busca da melhor equação para definir as variáveis que mais explicam a variável “ES-

PVIDAn”, realizou a análise de regressão passo a passo. A Tabela 8 demonstra os resultados. As

variáveis relevantes para explicar a variável-resposta são: “MORT1np”, “RDPCn”, “P_FOR-

MALn”, “T_BANAGUAn”, “T_ANALF25Mnp” e “RENOCUPn”.

Tabela 18 – Regressão passo a passo das variáveis

Stepwise Regression: ESPVIDAn versus MORT1np; T_ANALF25Mnp; ...

Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15

Response is ESPVIDAn on 13 predictors, with N = 5565

Step 1 2 3 4 5 6

Constant -0,1664 -0,1302 -0,1319 -0,1226 -0,1224 -0,1207

MORT1np 1,0432 0,9265 0,9163 0,9356 0,9481 0,9478

T-Value 283,48 182,16 175,32 164,81 147,66 147,68

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

RDPCn 0,2341 0,1969 0,2063 0,2206 0,2516

T-Value 30,86 22,06 23,07 23,06 16,87

P-Value 0,000 0,000 0,000 0,000 0,000

80

P_FORMALn 0,0353 0,0488 0,0538 0,0592

T-Value 7,78 10,20 10,92 11,15

P-Value 0,000 0,000 0,000 0,000

T_BANAGUAn -0,0392 -0,0359 -0,0379

T-Value -8,41 -7,59 -7,92

P-Value 0,000 0,000 0,000

T_ANALF25Mnp -0,0262 -0,0251

T-Value -4,16 -3,98

P-Value 0,000 0,000

RENOCUPn -0,045

T-Value -2,71

P-Value 0,007

S 0,0511 0,0473 0,0470 0,0467 0,0466 0,0466

R-Sq 93,53 94,47 94,53 94,60 94,62 94,62

R-Sq(adj) 93,52 94,47 94,53 94,60 94,61 94,62

Mallows Cp 1179,9 196,6 136,7 67,3 51,8 46,4

Step 7 8 9 10 11

Constant -0,11253 -0,09287 -0,07663 -0,07247 -0,06818

MORT1np 0,9497 0,9524 0,9545 0,9540 0,9536

T-Value 147,27 146,33 146,05 146,09 146,05

P-Value 0,000 0,000 0,000 0,000 0,000

RDPCn 0,261 0,265 0,282 0,256 0,261

T-Value 17,10 17,30 17,47 14,53 14,71

P-Value 0,000 0,000 0,000 0,000 0,000

P_FORMALn 0,0582 0,0543 0,0576 0,0581 0,0574

T-Value 10,94 9,90 10,34 10,45 10,31

P-Value 0,000 0,000 0,000 0,000 0,000

T_BANAGUAn -0,0340 -0,0322 -0,0267 -0,0372 -0,0368

T-Value -6,83 -6,42 -5,07 -6,20 -6,13

P-Value 0,000 0,000 0,000 0,000 0,000

T_ANALF25Mnp -0,0242 -0,0296 -0,0218 -0,0183 -0,0190

T-Value -3,83 -4,49 -3,13 -2,60 -2,70

P-Value 0,000 0,000 0,002 0,009 0,007

RENOCUPn -0,051 -0,070 -0,086 -0,066 -0,066

T-Value -3,07 -3,92 -4,64 -3,41 -3,43

P-Value 0,002 0,000 0,000 0,001 0,001

T_MULCHEFEFIF014_np -0,0180 -0,0191 -0,0133 -0,0188 -0,0187

T-Value -2,85 -3,02 -2,02 -2,79 -2,78

P-Value 0,004 0,003 0,043 0,005 0,005

81

T_FUND25Mnp -0,0211 -0,0313 -0,0427 -0,0458

T-Value -2,89 -3,95 -5,02 -5,31

P-Value 0,004 0,000 0,000 0,000

T_FUNDIN_TODOS_MMEIOnp -0,037 -0,048 -0,050

T-Value -3,31 -4,15 -4,35

P-Value 0,001 0,000 0,000

T_DENSnp 0,0312 0,0303

T-Value 3,66 3,55

P-Value 0,000 0,000

PEAn -0,085

T-Value -2,27

P-Value 0,023

S 0,0466 0,0466 0,0465 0,0465 0,0464

R-Sq 94,63 94,64 94,65 94,66 94,67

R-Sq(adj) 94,63 94,63 94,64 94,65 94,66

Mallows Cp 40,2 33,9 24,9 13,5 10,3

Para reduzir o numero de variáveis realizamos o procedimento de análise de componentes

principais, ou seja, a análise nos permite perceber as relações entre as variáveis e a possibilidade

de agrupamento mediante sua similaridade. O procedimento realizado para análise das correlações

e dendograma já nos permitiu eliminar algumas variáveis e nos deu uma ideia dos possíveis agru-

pamentos. A Figura 4 apresenta as variáveis que compõe o primeiro e segundo componente.

0,40,30,20,10,0-0,1-0,2-0,3

0,75

0,50

0,25

0,00

-0,25

-0,50

First Component

Se

co

nd

Co

mp

on

en

t

PEAn

T_MULCHEFEFIF014_np

T_FUNDIN_TODOS_MMEIOnp

T_NESTUDA_NTRAB_MMEIOnp

T_DENSnp

T_BANAGUAn

RENOCUPn

P_FORMALn

RINDn

RDPCn

T_FUND25Mnp

T_ANALF25Mnp

MORT1npESPVIDAn

Loading Plot of ESPVIDAn; ...; PEAn

Figura 8 – Primeiro e Segundo Componentes

Fonte: Elaborado pelo autor (Minitab 16)

82

Abaixo a Tabela 19 e a Figura 9 apresentam respectivamente os resultados da análise dos

componentes principais e o gráfico eigenvalue.

Tabela 19 – Análise dos Componentes Principais

Principal Component Analysis: ESPVIDAn; MORT1np; T_ANALF25Mnp;

T_FUND25Mnp; RDP

Eigenanalysis of the Correlation Matrix

Eigenvalue 8,7597 1,2687 1,0278 0,8062 0,5097 0,4305 0,3440 0,2411

Proportion 0,626 0,091 0,073 0,058 0,036 0,031 0,025 0,017

Cumulative 0,626 0,716 0,790 0,847 0,884 0,914 0,939 0,956

Eigenvalue 0,2017 0,1568 0,1153 0,0710 0,0404 0,0270

Proportion 0,014 0,011 0,008 0,005 0,003 0,002

Cumulative 0,971 0,982 0,990 0,995 0,998 1,000

Variable PC1 PC2 PC3 PC4

ESPVIDAn 0,302 -0,060 -0,099 -0,037

MORT1np 0,297 -0,101 -0,097 -0,016

T_ANALF25Mnp 0,312 0,031 -0,072 -0,108

T_FUND25Mnp -0,265 -0,375 0,003 0,260

RDPCn 0,311 0,138 -0,026 -0,007

RINDn 0,020 0,055 0,959 -0,203

P_FORMALn 0,287 0,144 -0,029 -0,221

RENOCUPn 0,296 0,269 -0,074 -0,143

T_BANAGUAn 0,289 -0,193 0,116 0,095

T_DENSnp 0,234 -0,445 0,135 0,378

T_NESTUDA_NTRAB_MMEIOnp 0,296 -0,096 0,023 0,026

T_FUNDIN_TODOS_MMEIOnp 0,320 -0,021 0,023 -0,041

T_MULCHEFEFIF014_np 0,233 -0,274 0,072 0,355

PEAn 0,052 0,640 0,105 0,726

Loading Plot of ESPVIDAn; ...; PEAn

83

1413121110987654321

9

8

7

6

5

4

3

2

1

0

Component Number

Eig

en

va

lue

Scree Plot of ESPVIDAn; ...; PEAn

Figura 9 - Eigenvalue

Fonte: Elaborado pelo autor (Minitab 16)

Os resultados nos permitem observar que se agruparmos 11 variáveis em apenas uma (PC1)

teremos uma proporção de 62,6%, com duas (PC1 + PC2) chegamos a 71,3%, com três (PC1 +

PC2 + PC3) temos 79%, e com quatro (PC1 + PC2 + PC3 + PC4) chegamos 84,7%, seguindo com

o procedimento até chegar a 100%. Este resultado é significativo, pois, ao invés de trabalharmos

com 15 variáveis, podemos então reduzir para as três novas variáveis criadas “PC1”; “PC2”;

“PC3”, que explica quase 80% das variáveis. Na Figura 6 podemos observar a dispersão dos dados

em um gráfico em três dimensões das três novas variáveis criadas.

84

40

20

-5

0

5

-5

10

0 0

5

PC1

PC2

PC3

CO

N

NE

S

SE

REGIÃO

3D Scatterplot of PC1 vs PC2 vs PC3

Figura 10 – Gráfico de dispersão 3 novas variáveis

Fonte: Elaborado pelo autor (Minitab 16)

De acordo com todas as análises acima, percebemos claramente o agrupamento das variá-

veis antes mesmo de aplicarmos o teste de componentes principais. Observamos que através dos

componentes principais o PC1 explica grande parte do comportamento das variáveis, sendo a re-

presentatividade de 63%, porém teremos representatividade de 94% apenas no sétimo componente

PC8. O gráfico de looding e o screen plot nos ajuda a enxergar com mais clareza esta afirmação.

CAPÍTULO XIV. COMPARAÇÃO DE MÉDIAS E ANÁLISE DE CLUSTER

Em sequência realizou-se a comparação de médias e a analise de cluster, buscando identi-

ficar após normalização e/ou positivação das 7 variáveis objetos de estudo como se comportou em

termos de clusterização por estados.

Antes de fazermos a nova análise em termos de estatística descritiva, realizou-se a norma-

lização e/ou positivação das variáveis tomando-se por base sempre o melhor resultado.

14.1 Uma Nova Análise Comparativa Das Variáveis Normalizadas E Positivadas

A seguir se apresenta na Tabela 20, a comparação do Histograma, Curva de Densidade,

Média, Desvio-Padrão, Mediana e P-Value do teste de normalidade de Anderson-Darling, das va-

riáveis quantitativas analisadas.

Tabela 20 - Análise Comparativa das Variáveis normalizadas e positivadas

VARIÁVEL GRÁFICO MÉ-

DIA

DES-

VIO

PA-

DRÃO

MEDI-

ANA

P-

VA-

LUE

85

ESPVIDAn 0,720,600,480,36

Median

Mean

0,650,600,550,500,450,40

1st Q uartile 0,39087

Median 0,51550

3rd Q uartile 0,67597

Maximum 0,78800

0,46675 0,59057

0,40706 0,65971

0,12021 0,21158

A -Squared 0,86

P-V alue 0,023

Mean 0,52866

StDev 0,15328

V ariance 0,02349

Skewness 0,17511

Kurtosis -1,46370

N 26

Minimum 0,30490

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for MeanESPVIDAn

0,5286

6

0,1532

8

0,5155

0

0,02

3

MORT1np 0,880,800,720,640,560,480,40

Median

Mean

0,800,750,700,650,60

1st Q uartile 0,54012

Median 0,69655

3rd Q uartile 0,82005

Maximum 0,89750

0,61206 0,73604

0,57219 0,78429

0,12037 0,21186

A -Squared 0,47

P-V alue 0,226

Mean 0,67405

StDev 0,15348

V ariance 0,02356

Skewness -0,19463

Kurtosis -1,11162

N 26

Minimum 0,38900

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for MeanMORT1np

0,6740

5

0,1534

8

0,6965

5

0,22

6

T_ANALF25Mnp 0,90,80,70,60,50,40,3

Median

Mean

0,750,700,650,600,550,500,45

1st Q uartile 0,41580

Median 0,61895

3rd Q uartile 0,75528

Maximum 0,87530

0,52849 0,68276

0,45124 0,74408

0,14978 0,26363

A -Squared 0,76

P-V alue 0,043

Mean 0,60562

StDev 0,19098

V ariance 0,03647

Skewness -0,16959

Kurtosis -1,40790

N 26

Minimum 0,27560

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for MeanT_ANALF25Mnp

0,6056

2

0,1909

8

0,6189

5

0,04

3

T_FUNDIN_TO-

DOS_MMEIOnp 0,90,80,70,60,5

Median

Mean

0,750,700,650,600,55

1st Q uartile 0,55107

Median 0,65850

3rd Q uartile 0,79520

Maximum 0,90480

0,61405 0,72625

0,56599 0,76528

0,10893 0,19173

A -Squared 0,59

P-V alue 0,113

Mean 0,67015

StDev 0,13889

V ariance 0,01929

Skewness 0,17206

Kurtosis -1,33526

N 26

Minimum 0,44500

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for MeanT_FUNDIN_TODOS_MMEIOnp

0,6701

5

0,1388

9

0,6585

0

0,00

5

RDPCn 0,320,240,160,08

Median

Mean

0,2500,2250,2000,1750,1500,1250,100

1st Q uartile 0,10117

Median 0,13061

3rd Q uartile 0,25163

Maximum 0,34440

0,13678 0,20987

0,10506 0,24699

0,07096 0,12491

A -Squared 1,33

P-V alue < 0,005

Mean 0,17333

StDev 0,09049

V ariance 0,00819

Skewness 0,56265

Kurtosis -1,19277

N 26

Minimum 0,06963

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for MeanRDPCn

0,1733

3

0,0904

9

0,1306

1

0,00

5

RENOCUPn 0,300,250,200,150,10

Median

Mean

0,270,240,210,180,15

1st Q uartile 0,12474

Median 0,20274

3rd Q uartile 0,27124

Maximum 0,31992

0,16935 0,23290

0,13110 0,26300

0,06170 0,10859

A -Squared 0,82

P-V alue 0,029

Mean 0,20112

StDev 0,07867

V ariance 0,00619

Skewness 0,04240

Kurtosis -1,56023

N 26

Minimum 0,09078

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for MeanRENOCUPn

0,2011

2

0,0786

7

0,2027

4

0,02

9

T_NES-

TUDA_NTRAB_MMEIOn

p

0,90,80,70,6

Median

Mean

0,800,750,700,650,60

1st Q uartile 0,57635

Median 0,62255

3rd Q uartile 0,79933

Maximum 0,91020

0,63197 0,73317

0,58877 0,78108

0,09824 0,17292

A -Squared 1,34

P-V alue < 0,005

Mean 0,68257

StDev 0,12527

V ariance 0,01569

Skewness 0,43748

Kurtosis -1,41357

N 26

Minimum 0,53360

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for MeanT_NESTUDA_NTRAB_MMEIOnp

0,6825

7

0,1252

7

0,6225

5

0,00

5

Fonte: Elaborado pelo autor (Minitab 2016)

Tabela 21. Estatística descritiva após normalização e/ou positivação

Descriptive Statistics: ESPVIDAn; MORT1np; T_ANALF25Mnp;

T_FUND25Mnp; ...

Variable N N* Mean SE Mean StDev Minimum

ESPVIDAn 5565 0 0,58388 0,00269 0,20095 0,00000

MORT1np 5565 0 0,71921 0,00250 0,18629 0,00000

T_ANALF25Mnp 5565 0 0,65368 0,00305 0,22764 0,00000

T_FUND25Mnp 5565 0 0,64530 0,00216 0,16145 0,00000

RDPCn 5565 0 0,20403 0,00167 0,12491 0,00000

RINDn 5565 0 0,45765 0,00184 0,13718 0,00000

P_FORMALn 5565 0 0,47058 0,00300 0,22376 0,00000

86

RENOCUPn 5565 0 0,21168 0,00151 0,11236 0,00000

T_BANAGUAn 5565 0 0,80227 0,00301 0,22444 0,00000

T_DENSnp 5565 0 0,72183 0,00198 0,14773 0,00000

T_NESTUDA_NTRAB_MMEIOnp 5565 0 0,73257 0,00212 0,15840 0,00000

T_FUNDIN_TODOS_MMEIOnp 5565 0 0,72387 0,00230 0,17139 0,00000

T_MULCHEFEFIF014_np 5565 0 0,74281 0,00178 0,13303 0,00000

PEAn 5565 0 0,00275 0,000238 0,01777 0,000000

Variable Q1 Median Q3 Maximum

ESPVIDAn 0,43853 0,61244 0,73913 1,00000

MORT1np 0,60037 0,78048 0,86139 1,00000

T_ANALF25Mnp 0,46086 0,72611 0,84165 1,00000

T_FUND25Mnp 0,54539 0,66604 0,76789 1,00000

RDPCn 0,09491 0,19071 0,28467 1,00000

RINDn 0,39193 0,46443 0,52986 1,00000

P_FORMALn 0,27107 0,46297 0,65939 1,00000

RENOCUPn 0,11581 0,20563 0,28665 1,00000

T_BANAGUAn 0,66684 0,90955 0,97933 1,00000

T_DENSnp 0,63712 0,74520 0,83225 1,00000

T_NESTUDA_NTRAB_MMEIOnp 0,60905 0,75258 0,86796 1,00000

T_FUNDIN_TODOS_MMEIOnp 0,59287 0,75027 0,87278 1,00000

T_MULCHEFEFIF014_np 0,66665 0,76685 0,84122 1,00000

PEAn 0,000345 0,000768 0,00171 1,00000

T_FU

ND25

Mnp

RIND

nPE

An

T_MUL

CHEF

EFIF01

4_np

T_DE

NSnp

P_FO

RMAL

n

T_BA

NAGU

An

T_NE

STUD

A_NT

RAB_

MMEIOnp

RENO

CUPn

RDPC

n

T_FU

NDIN_T

ODO

S_MMEIOnp

T_AN

ALF2

5Mnp

MOR

T1np

ESPV

IDAn

45,54

63,69

81,85

100,00

Variables

Sim

ilari

ty

DendrogramSingle Linkage; Correlation Coefficient Distance

Figura 11 – Dendrograma das Variáveis Selecionadas normatizadas e positivadas

87

Cluster Analysis of Observations: MeanESPVIDAn; MeanMORT1np;

MeanT_ANALF2; ...

Euclidean Distance, Single Linkage

Amalgamation Steps

Number

of obs.

Number of Similarity Distance Clusters New in new

Step clusters level level joined cluster cluster

1 26 95,5224 0,083642 8 9 8 2

2 25 94,0944 0,110317 15 16 15 2

3 24 94,0073 0,111943 5 15 5 3

4 23 93,1556 0,127852 23 24 23 2

5 22 92,7451 0,135522 8 11 8 3

6 21 92,6850 0,136645 5 6 5 4

7 20 92,5382 0,139386 5 17 5 5

8 19 92,3143 0,143568 12 13 12 2

9 18 92,1329 0,146957 8 18 8 4

10 17 91,8246 0,152717 5 20 5 6

11 16 91,4638 0,159456 5 25 5 7

12 15 90,6980 0,173761 8 23 8 6

13 14 90,4615 0,178178 19 26 19 2

14 13 90,3098 0,181013 8 12 8 8

15 12 89,4875 0,196374 8 19 8 10

16 11 87,0603 0,241713 1 14 1 2

17 10 86,8507 0,245629 2 5 2 8

18 9 86,8009 0,246559 1 3 1 3

19 8 86,5643 0,250978 8 21 8 11

20 7 85,6004 0,268985 8 27 8 12

21 6 85,5536 0,269859 1 22 1 4

22 5 85,1113 0,278121 2 10 2 9

23 4 84,1989 0,295164 2 8 2 21

24 3 83,6238 0,305907 1 2 1 25

25 2 82,7208 0,322774 1 4 1 26

26 1 54,4900 0,850126 1 7 1 27

Final Partition

Number of clusters: 1

Average Maximum

Within distance distance

Number of cluster sum from from

observations of squares centroid centroid

Cluster1 27 8,12645 0,507503 1,28570

88

Cluster Analysis of Observations: MeanESPVIDAn; MeanMORT1np;

MeanT_ANALF2; ...

Euclidean Distance, Single Linkage

Amalgamation Steps

Number

of obs.

Number of Similarity Distance Clusters New in new

Step clusters level level joined cluster cluster

1 26 95,5224 0,083642 8 9 8 2

2 25 94,0944 0,110317 15 16 15 2

3 24 94,0073 0,111943 5 15 5 3

4 23 93,1556 0,127852 23 24 23 2

5 22 92,7451 0,135522 8 11 8 3

6 21 92,6850 0,136645 5 6 5 4

7 20 92,5382 0,139386 5 17 5 5

8 19 92,3143 0,143568 12 13 12 2

9 18 92,1329 0,146957 8 18 8 4

10 17 91,8246 0,152717 5 20 5 6

11 16 91,4638 0,159456 5 25 5 7

12 15 90,6980 0,173761 8 23 8 6

13 14 90,4615 0,178178 19 26 19 2

14 13 90,3098 0,181013 8 12 8 8

15 12 89,4875 0,196374 8 19 8 10

16 11 87,0603 0,241713 1 14 1 2

17 10 86,8507 0,245629 2 5 2 8

18 9 86,8009 0,246559 1 3 1 3

19 8 86,5643 0,250978 8 21 8 11

20 7 85,6004 0,268985 8 27 8 12

21 6 85,5536 0,269859 1 22 1 4

22 5 85,1113 0,278121 2 10 2 9

23 4 84,1989 0,295164 2 8 2 21

24 3 83,6238 0,305907 1 2 1 25

25 2 82,7208 0,322774 1 4 1 26

26 1 54,4900 0,850126 1 7 1 27

Final Partition

Number of clusters: 7

MeanRDPCn 0,06963 0,11713 0,197694

MeanRINDn 0,42010 0,31280 0,442274

MeanP_FORMALn 0,22180 0,29100 0,428267

MeanRENOCUPn 0,10370 0,20789 0,223459

MeanT_BANAGUAn 0,36790 0,49540 0,720078

MeanT_DENSnp 0,49729 0,31169 0,640324

89

MeanT_NESTUDA_NTRAB_MMEIOnp 0,54720 0,53730 0,690885

MeanT_FUNDIN_TODOS_MMEIOnp 0,52720 0,56620 0,679974

MeanT_MULCHEFEFIF014np 0,57800 0,64220 0,703233

MeanPEAn 0,00193 0,00213 0,011421

Distances Between Cluster Centroids

Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 Cluster6 Cluster7

Cluster1 0,00000 0,47380 0,40817 1,70106 0,95380 0,34343 0,28803

Cluster2 0,47380 0,00000 0,66214 1,67189 0,82034 0,36890 0,57811

Cluster3 0,40817 0,66214 0,00000 1,42576 0,78478 0,66544 0,32277

Cluster4 1,70106 1,67189 1,42576 0,00000 1,03392 1,86800 1,55242

Cluster5 0,95380 0,82034 0,78478 1,03392 0,00000 1,09247 0,82120

Cluster6 0,34343 0,36890 0,66544 1,86800 1,09247 0,00000 0,58981

Cluster7 0,28803 0,57811 0,32277 1,55242 0,82120 0,58981 0,00000

Cluster Analysis of Observations: MeanESPVIDAn; MeanMORT1np;

MeanT_ANALF2; ...

Manhattan Distance, Centroid Linkage

Amalgamation Steps

Number

of obs.

Number of Similarity Distance Clusters New in new

Step clusters level level joined cluster cluster

1 26 96,2146 0,24423 8 9 8 2

2 25 95,3781 0,29820 15 16 15 2

3 24 95,6171 0,28278 5 15 5 3

4 23 95,0739 0,31783 8 18 8 3

5 22 95,0133 0,32174 23 24 23 2

6 21 94,7786 0,33688 5 6 5 4

7 20 94,7737 0,33720 5 20 5 5

8 19 94,2363 0,37187 5 25 5 6

9 18 93,9096 0,39295 12 13 12 2

10 17 93,7893 0,40071 8 12 8 5

11 16 93,9792 0,38846 8 11 8 6

12 15 91,5619 0,54443 5 17 5 7

13 14 91,4926 0,54889 19 26 19 2

14 13 91,6487 0,53882 19 23 19 4

15 12 92,7772 0,46601 8 19 8 10

16 11 89,7340 0,66236 1 14 1 2

17 10 91,8577 0,52534 1 3 1 3

18 9 89,0362 0,70738 2 5 2 8

19 8 88,4053 0,74808 1 22 1 4

20 7 87,9699 0,77618 2 10 2 9

21 6 87,7120 0,79282 1 2 1 13

22 5 87,1101 0,83165 21 27 21 2

23 4 84,5766 0,99511 1 21 1 15

24 3 81,2363 1,21062 1 4 1 16

25 2 70,3132 1,91538 1 8 1 26

90

26 1 46,5400 3,44921 1 7 1 27

Final Partition

Number of clusters: 7

Average Maximum

Within distance distance

Number of cluster sum from from

observations of squares centroid centroid

Cluster1 4 0,126185 0,174672 0,216025

Cluster2 9 0,314924 0,170439 0,327913

Cluster3 1 0,000000 0,000000 0,000000

Cluster4 1 0,000000 0,000000 0,000000

Cluster5 10 0,325879 0,174298 0,229105

Cluster6 1 0,000000 0,000000 0,000000

Cluster7 1 0,000000 0,000000 0,000000

Cluster Centroids

Variable Cluster1 Cluster2 Cluster3 Cluster4 Cluster5

MeanESPVIDAn 0,469725 0,367244 0,50440 0,90330 0,699930

MeanMORT1np 0,642975 0,505422 0,71730 0,85590 0,829420

MeanT_ANALF25Mnp 0,568050 0,385022 0,71010 0,94280 0,794710

MeanT_FUND25Mnp 0,675025 0,748500 0,50390 0,11930 0,570880

MeanRDPCn 0,105003 0,092327 0,15410 0,83125 0,275395

MeanRINDn 0,352625 0,477222 0,42670 0,53640 0,449870

MeanP_FORMALn 0,265800 0,294900 0,38680 0,79700 0,585320

MeanRENOCUPn 0,178290 0,112634 0,26133 0,80414 0,279694

MeanT_BANAGUAn 0,398625 0,615233 0,46780 0,95880 0,938010

MeanT_DENSnp 0,348243 0,622698 0,32171 0,74054 0,785206

MeanT_NESTUDA_NTRAB_MMEIOnp 0,576525 0,578056 0,61000 0,90710

0,824340

MeanT_FUNDIN_TODOS_MMEIOnp 0,527150 0,558611 0,69860 0,93550

0,821430

MeanT_MULCHEFEFIF014np 0,604225 0,649144 0,48670 0,81050 0,795710

MeanPEAn 0,002985 0,002063 0,00303 0,23367 0,003802

Grand

Variable Cluster6 Cluster7 centroid

MeanESPVIDAn 0,52660 0,53080 0,542537

MeanMORT1np 0,70390 0,68920 0,680785

MeanT_ANALF25Mnp 0,74830 0,60330 0,618111

MeanT_FUND25Mnp 0,68260 0,62700 0,632526

MeanRDPCn 0,20410 0,14339 0,197694

MeanRINDn 0,35950 0,41460 0,442274

MeanP_FORMALn 0,42780 0,38110 0,428267

MeanRENOCUPn 0,24579 0,19831 0,223459

MeanT_BANAGUAn 0,78920 0,71460 0,720078

MeanT_DENSnp 0,74051 0,63668 0,640324

MeanT_NESTUDA_NTRAB_MMEIOnp 0,75400 0,63080 0,690885

91

MeanT_FUNDIN_TODOS_MMEIOnp 0,70470 0,67010 0,679974

MeanT_MULCHEFEFIF014np 0,76900 0,70480 0,703233

MeanPEAn 0,00243 0,00070 0,011421

Distances Between Cluster Centroids

Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 Cluster6 Cluster7

Cluster1 0,00000 0,46305 0,36802 1,66047 0,983563 0,69048 0,49494

Cluster2 0,46305 0,00000 0,65228 1,69083 0,918352 0,61127 0,41547

Cluster3 0,36802 0,65228 0,00000 1,42576 0,842548 0,64974 0,49117

Cluster4 1,66047 1,69083 1,42576 0,00000 0,989736 1,24639 1,36022

Cluster5 0,98356 0,91835 0,84255 0,98974 0,000000 0,37825 0,54374

Cluster6 0,69048 0,61127 0,64974 1,24639 0,378255 0,00000 0,26898

Cluster7 0,49494 0,41547 0,49117 1,36022 0,543744 0,26898 0,00000

Dendrograma por estados

DFSCRSSPRJMGMT

MSPRGOESAPTOROMAPISERNCEPEPBBAALRRAMPAAC

46,54

64,36

82,18

100,00

Observations

Sim

ilari

ty

Média por estados

Podemos observar no gráfico que corresponde ao dendrograma usando o método centroide

distância Manhattan temos no Brasil 7 agrupamentos dos estados com mesma similaridade de mé-

dia das variáveis selecionadas. Os grupos cujos estados são mais similares entre si está no grupo

5 e, os estados com maior similaridade são ES e GO, composto pelos demais estados que são: PR,

MS, MT, MG, RJ, SP, RS, SC.

92

14.2 Um Novo Mapa Do Brasil

Dada a similaridade dos dados entre alguns estados foi possível realizar o agrupamento das

vinte e sete unidades federativas do Brasil em 7 grandes grupos.

Através da formação destes clusters foi possível a sintetização dos dados de 5.565 municí-

pios em estados e grupos mostrando a grande diferença de realidade nos diferentes estados e regi-

ões do Brasil conforme demonstramos através do mapa acima. Esta análise apenas corroborou a

ideia de termos “mais de um Brasil” já antes mencionadas nos tópicos anteriores.

CAPÍTULO XV. ANÁLISE DISCRIMINANTE

15.1 Análise discriminante método Euclidiano Completo agrupamento com 7 clusters

Tabela 22 – Análise discriminante pelo método euclidiano completo

Discriminant Analysis: euclidianaC7 versus MeanESPVIDAn; MeanMORT1np;

...

Linear Method for Response: euclidianaC7

Predictors: MeanESPVIDAn; MeanMORT1np; MeanT_ANALF25Mnp;

MeanT_FUNDIN_TODOS_MMEIOnp; MeanRDPCn; MeanRENOCUPn;

MeanT_NESTUDA_NTRAB_MMEIOnp

93

Group 1 2 3 4 5 6 7

Count 8 2 2 3 4 4 3

Summary of classification

True Group

Put into Group 1 2 3 4 5 6 7

1 8 0 0 0 0 0 0

2 0 2 0 0 0 0 0

3 0 0 2 0 0 0 0

4 0 0 0 3 0 0 0

5 0 0 0 0 4 0 0

6 0 0 0 0 0 4 0

7 0 0 0 0 0 0 3

Total N 8 2 2 3 4 4 3

N correct 8 2 2 3 4 4 3

Proportion 1,000 1,000 1,000 1,000 1,000 1,000 1,000

N = 26 N Correct = 26 Proportion Correct = 1,000

Squared Distance Between Groups

1 2 3 4 5 6 7

1 0,000 37,278 42,718 55,843 222,741 123,259 356,457

2 37,278 0,000 93,589 148,456 419,991 262,639 579,052

3 42,718 93,589 0,000 24,014 218,910 107,966 358,080

4 55,843 148,456 24,014 0,000 131,036 56,148 248,920

5 222,741 419,991 218,910 131,036 0,000 27,659 24,803

6 123,259 262,639 107,966 56,148 27,659 0,000 82,756

7 356,457 579,052 358,080 248,920 24,803 82,756 0,000

Linear Discriminant Function for Groups

1 2 3 4 5

Constant -630,4 -472,1 -688,1 -778,2 -1136,8

MeanESPVIDAn -236,5 -122,2 -160,8 -203,2 -329,6 MeanMORT1np 1011,5 734,1 1011,1 1154,0 1454,9

MeanT_ANALF25Mnp -186,5 -146,9 -13,0 -83,2 -185,9

MeanT_FUNDIN_TODOS_MMEIOnp 206,6 202,8 152,0 200,2 196,6

MeanRDPCn -1270,5 -1363,3 -1577,5 -1427,7 -845,2

MeanRENOCUPn 447,2 457,1 464,0 522,4 351,0

MeanT_NESTUDA_NTRAB_MMEIOnp 1415,3 1284,1 1408,5 1411,6 1696,8

6 7

Constant -972,0 -1245,3

MeanESPVIDAn -188,3 -309,7

MeanMORT1np 1213,9 1480,6

MeanT_ANALF25Mnp -117,0 -180,4

MeanT_FUNDIN_TODOS_MMEIOnp 200,6 181,7

94

MeanRDPCn -1148,3 -467,2

MeanRENOCUPn 415,2 207,0

MeanT_NESTUDA_NTRAB_MMEIOnp 1615,9 1707,5

15.2 Dendrograma de clusterização Euclidiano completo com 7 clusters

ROMT

MS

MGSPSCRSRJPRGOESRRTOAPPAAMM

AALPIPEPBRNCESEBAAC

0,00

33,33

66,67

100,00

Observations

Sim

ilari

ty

Média por estados

A similaridade entre os estados na distribuição com os 7 clusters está em torno de 85%;

sendo a maior similaridade entre os estados da Bahia e Sergipe

15.3 Análise discriminante método Euclidiano Completo agrupamento com 3 clusters

A partir da análise anterior com 7 clusters o objetivo foi realizar a clusterização em 3 agru-

pamentos, tomando-se como referência a distância entre os mesmos e procurando preservar os que

já tinham maior número de observações.

Com base no exposto, o próximo passo foi determinar como deveria ficar a nova composi-

ção uma vez que tínhamos a seguinte configuração anterior:

Summary of classification

True Group

Put into Group 1 2 3 4 5 6 7

1 8 0 0 0 0 0 0

2 0 2 0 0 0 0 0

3 0 0 2 0 0 0 0

4 0 0 0 3 0 0 0

5 0 0 0 0 4 0 0

95

6 0 0 0 0 0 4 0

7 0 0 0 0 0 0 3

Total N 8 2 2 3 4 4 3

N correct 8 2 2 3 4 4 3

Proportion 1,000 1,000 1,000 1,000 1,000 1,000 1,000

N = 26 N Correct = 26 Proportion Correct = 1,000

Squared Distance Between Groups

1 2 3 4 5 6 7

1 0,000 37,278 42,718 55,843 222,741 123,259 356,457

2 37,278 0,000 93,589 148,456 419,991 262,639 579,052

3 42,718 93,589 0,000 24,014 218,910 107,966 358,080

4 55,843 148,456 24,014 0,000 131,036 56,148 248,920

5 222,741 419,991 218,910 131,036 0,000 27,659 24,803

6 123,259 262,639 107,966 56,148 27,659 0,000 82,756

7 356,457 579,052 358,080 248,920 24,803 82,756 0,000

Desta forma, observando-se as distâncias entre os clusters, realizou-se o seguinte reagrupa-

mento:

Cluster 1 manteve-se

Cluster 2 tem maior proximidade com cluster 1

Cluster 3 e 4 tem maior proximidade entre si

Cluster 5, 6 e 7 tem maior proximidade entre si

Após essa análise de reagrupamento entre os clusters novamente foi realizada a análise

discriminante utilizando-se do método euclidiano completo; porém, agora com os 3 novos clusters

formados com base nas distâncias entre eles.

A tabela 23 apresenta a nova distribuição com o percentual de acerto entre os novos clusters

definidos; cujo resultado aponta para um grau de acerto da ordem de 100%.

Tabela 23 – Análise discriminante pelo método euclidiano completo com 3 clusters

Discriminant Analysis: euclidianaC3 versus MeanESPVIDAn; MeanMORT1np;

...

Linear Method for Response: euclidianaC3

Predictors: MeanESPVIDAn; MeanMORT1np; MeanT_ANALF25Mnp;

MeanT_FUNDIN_TODOS_MMEIOnp; MeanRDPCn; MeanRENOCUPn;

MeanT_NESTUDA_NTRAB_MMEIOnp

Group 1 4 5

96

Count 10 5 11

Summary of classification

True Group

Put into Group 1 4 5

1 10 0 0

4 0 5 0

5 0 0 11

Total N 10 5 11

N correct 10 5 11

Proportion 1,000 1,000 1,000

N = 26 N Correct = 26 Proportion Correct = 1,000

Squared Distance Between Groups

1 4 5

1 0,0000 45,9122 66,1727

4 45,9122 0,0000 34,6876

5 66,1727 34,6876 0,0000

Linear Discriminant Function for Groups

1 4 5

Constant -363,4 -417,8 -522,6

MeanESPVIDAn 269,6 353,9 410,5

MeanMORT1np -60,0 -51,0 -105,8

MeanT_ANALF25Mnp -9,6 158,4 120,5

MeanT_FUNDIN_TODOS_MMEIOnp 222,0 180,8 210,2

MeanRDPCn -2018,1 -2246,0 -2332,9

MeanRENOCUPn 566,5 603,3 649,8

MeanT_NESTUDA_NTRAB_MMEIOnp 1138,4 1085,6 1262,8

15.4 Dendrograma de clusterização Euclidiana completo com 3 clusters após agrupamento

Uma vez reorganizados os clusters, agora agrupados em 3 conglomerados, novo dendro-

grama é apresentado a seguir de como ficou a nova composição.

97

ROMT

MS

MGSPSCRSRJPRGOESRRTOAPPAAMM

AALPIPEPBRNCESEBAAC

0,00

33,33

66,67

100,00

Observations

Sim

ilari

ty

Média por estados

A similaridade entre os estados na distribuição com os 3 clusters está em torno de 85%;

sendo as maiores similaridades entre os estados da Bahia com Sergipe, Ceará com Rio Grande

do Norte, Espírito Santo com Goiás e, Rio Grande do Sul com Santa Catarina.

15.5 Análise discriminante método Manhattan Completo agrupamento com 7 clusters

Tabela 24 – Análise discriminante pelo método manhattan completo

Cluster Analysis of Observations: MeanESPVIDAn; MeanMORT1np;

MeanT_ANALF2; ...

Manhattan Distance, Complete Linkage

Amalgamation Steps

Number

of obs.

Number of Similarity Distance Clusters New in new

Step clusters level level joined cluster cluster

1 25 96,5711 0,09802 15 24 15 2

2 24 96,1947 0,10878 7 8 7 2 3 23 95,6108 0,12547 6 19 6 2

4 22 95,2946 0,13451 22 23 22 2

5 21 95,1848 0,13765 11 12 11 2

6 20 95,1676 0,13814 5 15 5 3

7 19 94,2154 0,16536 14 16 14 2

8 18 92,1519 0,22435 3 13 3 2

9 17 92,1176 0,22533 22 25 22 3

10 16 91,9577 0,22990 7 17 7 3

11 15 91,3567 0,24708 2 9 2 2

98

12 14 90,0537 0,28433 4 26 4 2

13 13 89,4215 0,30240 1 5 1 4

14 12 89,2036 0,30863 10 11 10 3

15 11 87,6802 0,35218 7 18 7 4

16 10 84,9918 0,42903 10 20 10 4

17 9 84,9138 0,43126 1 6 1 6

18 8 83,6912 0,46621 1 14 1 8

19 7 82,4784 0,50088 3 21 3 3

20 6 76,8131 0,66283 7 22 7 7

21 5 74,7114 0,72291 1 2 1 10

22 4 73,7606 0,75009 3 4 3 5

23 3 61,0248 1,11416 7 10 7 11

24 2 47,0755 1,51292 1 3 1 15

25 1 0,0000 2,85864 1 7 1 26

Final Partition

Number of clusters: 7

Average Maximum

Within distance distance

Number of cluster sum from from

observations of squares centroid centroid

Cluster1 8 0,0596342 0,079129 0,126415

Cluster2 2 0,0101466 0,071227 0,071227

Cluster3 3 0,0328437 0,100751 0,137183

Cluster4 2 0,0091120 0,067498 0,067498

Cluster5 4 0,0177370 0,063480 0,094509

Cluster6 4 0,0364575 0,092338 0,130127

Cluster7 3 0,0069788 0,047581 0,058720

Cluster Centroids

Variable Cluster1 Cluster2 Cluster3 Cluster4 Cluster5

MeanESPVIDAn 0,389663 0,30730 0,484067 0,517600 0,675475

MeanMORT1np 0,540650 0,39455 0,668800 0,703250 0,841125

MeanT_ANALF25Mnp 0,407612 0,33255 0,603800 0,656700 0,778825

MeanT_FUNDIN_TODOS_MMEIOnp 0,569000 0,48610 0,537300 0,684350 0,817325

MeanRDPCn 0,099945 0,07460 0,100730 0,148745 0,263153

MeanRENOCUPn 0,123459 0,10947 0,173420 0,229820 0,271833

MeanT_NESTUDA_NTRAB_MMEIOnp 0,590888 0,54040 0,566900 0,620400

0,815350

Grand

Variable Cluster6 Cluster7 centroid

MeanESPVIDAn 0,634650 0,761800 0,528662

MeanMORT1np 0,749650 0,878333 0,674050

MeanT_ANALF25Mnp 0,744725 0,867067 0,605623

MeanT_FUNDIN_TODOS_MMEIOnp 0,749450 0,883967 0,670146

MeanRDPCn 0,227965 0,331193 0,173327

99

MeanRENOCUPn 0,264950 0,298533 0,201125

MeanT_NESTUDA_NTRAB_MMEIOnp 0,768600 0,887200 0,682569

Distances Between Cluster Centroids

Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 Cluster6 Cluster7

Cluster1 0,000000 0,20982 0,260578 0,364310 0,685910 0,563824 0,85717

Cluster2 0,209816 0,00000 0,433742 0,557028 0,883948 0,756482 1,05189

Cluster3 0,260578 0,43374 0,000000 0,187302 0,522661 0,399160 0,69418

Cluster4 0,364310 0,55703 0,187302 0,000000 0,359709 0,239402 0,53252

Cluster5 0,685910 0,88395 0,522661 0,359709 0,000000 0,138835 0,17768

Cluster6 0,563824 0,75648 0,399160 0,239402 0,138835 0,000000 0,30272

Cluster7 0,857174 1,05189 0,694180 0,532522 0,177677 0,302719 0,00000

15.6 Dendrograma de clusterização Manhattan completo com 7 clusters após agrupamento

ROMT

MS

MGSPSCRSRJPRGOESTOAPRRPAAMM

AALPIPBRNCESEPEBAAC

0,00

33,33

66,67

100,00

Observations

Sim

ilari

ty

Média por estados

A similaridade entre os estados na distribuição com os 7 clusters está em torno de 85%;

sendo as maiores similaridades entre os estados de Pernambuco com Sergipe; e, Espírito Santo

com Goiás.

100

15.7 Análise discriminante método Manhattan Completo agrupamento com 3 clusters

A partir da análise anterior com 7 clusters o objetivo foi realizar a clusterização em 3 agru-

pamentos, tomando-se como referência a distância entre os mesmos e procurando preservar os que

já tinham maior número de observações.

Com base no exposto, o próximo passo foi determinar como deveria ficar a nova composi-

ção uma vez que tínhamos a seguinte configuração anterior; conforme recorte a seguir:

Final Partition

Number of clusters: 7

Average Maximum

Within distance distance

Number of cluster sum from from

observations of squares centroid centroid

Cluster1 8 0,0596342 0,079129 0,126415

Cluster2 2 0,0101466 0,071227 0,071227

Cluster3 3 0,0328437 0,100751 0,137183

Cluster4 2 0,0091120 0,067498 0,067498

Cluster5 4 0,0177370 0,063480 0,094509

Cluster6 4 0,0364575 0,092338 0,130127

Cluster7 3 0,0069788 0,047581 0,058720

Distances Between Cluster Centroids

Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 Cluster6 Cluster7

Cluster1 0,000000 0,20982 0,260578 0,364310 0,685910 0,563824 0,85717

Cluster2 0,209816 0,00000 0,433742 0,557028 0,883948 0,756482 1,05189

Cluster3 0,260578 0,43374 0,000000 0,187302 0,522661 0,399160 0,69418

Cluster4 0,364310 0,55703 0,187302 0,000000 0,359709 0,239402 0,53252

Cluster5 0,685910 0,88395 0,522661 0,359709 0,000000 0,138835 0,17768

Cluster6 0,563824 0,75648 0,399160 0,239402 0,138835 0,000000 0,30272

Cluster7 0,857174 1,05189 0,694180 0,532522 0,177677 0,302719 0,00000

Desta forma, observando-se as distâncias entre os clusters, realizou-se o seguinte reagrupa-

mento:

Cluster 1 manteve-se

Cluster 2 tem maior proximidade com cluster 1

Cluster 3 e 4 tem maior proximidade entre si

Cluster 5, 6 e 7 tem maior proximidade entre si

Após essa análise de reagrupamento entre os clusters novamente foi realizada a análise

discriminante utilizando-se do método manhattan completo; porém, agora com os 3 novos clusters

formados com base nas distâncias entre eles.

A tabela 25 apresenta a nova distribuição com o percentual de acerto entre os novos clusters

definidos; cujo resultado aponta para um grau de acerto da ordem de 100%.

101

Tabela 25 – Análise discriminante pelo método manhattan completo com 3 clusters

Discriminant Analysis: manhattancom versus MeanESPVIDAn;

MeanMORT1np; ...

Linear Method for Response: manhattancompleta3

Predictors: MeanESPVIDAn; MeanMORT1np; MeanT_ANALF25Mnp;

MeanT_FUNDIN_TODOS_MMEIOnp; MeanRDPCn; MeanRENOCUPn;

MeanT_NESTUDA_NTRAB_MMEIOnp

Group 1 4 5

Count 10 5 11

Summary of classification

True Group

Put into Group 1 4 5

1 10 0 0

4 0 5 0

5 0 0 11

Total N 10 5 11

N correct 10 5 11

Proportion 1,000 1,000 1,000

N = 26 N Correct = 26 Proportion Correct = 1,000

Squared Distance Between Groups

1 4 5

1 0,0000 45,9122 66,1727

4 45,9122 0,0000 34,6876

5 66,1727 34,6876 0,0000

Linear Discriminant Function for Groups

1 4 5 Constant -363,4 -417,8 -522,6

MeanESPVIDAn 269,6 353,9 410,5

MeanMORT1np -60,0 -51,0 -105,8

MeanT_ANALF25Mnp -9,6 158,4 120,5

MeanT_FUNDIN_TODOS_MMEIOnp 222,0 180,8 210,2

MeanRDPCn -2018,1 -2246,0 -2332,9

MeanRENOCUPn 566,5 603,3 649,8

MeanT_NESTUDA_NTRAB_MMEIOnp 1138,4 1085,6 1262,8

102

15.8 Dendrograma de clusterização Manhattan completo com 3 clusters após agrupa-

mento

ROMT

MS

MGSPSCRSRJPRGOESTOAPRRPAAMM

AALPIPBRNCESEPEBAAC

0,00

33,33

66,67

100,00

Observations

Sim

ilari

ty

Média por estados

A similaridade entre os estados na distribuição com os 3 clusters está em torno de 85%;

sendo as maiores similaridades entre os estados de Pernambuco com Sergipe e, Espírito Santo

com Goiás. Observa-se que o estado de Roraima aparece com os estados predominantemente das

regiões Sul e Sudeste; a fim de tentar identificar quais seriam as características e possíveis simi-

laridades das variáveis, elaborou-se a tabela 26.

Tabela 26 – Variáveis com os dados por estados

ES-

TADO

Mu-

nicí-

pios

ES-

PVI-

DAn

MORT1np T_ANALF25Mnp RDPCn RE-

NOCUPn

T_NES-

TUDA_NTRAB_MMEIOnp

T_FUNDIN_TO-

DOS_MMEIOnp

ES 78 0,6924 0,8367 0,7418 0,2463 0,24342 0,7971 0,781

GO 246 0,6914 0,8577 0,735 0,2498 0,27576 0,806 0,8162

PR 399 0,669 0,8556 0,7881 0,2639 0,26611 0,8487 0,8304

RJ 92 0,6491 0,8145 0,8504 0,2926 0,30204 0,8096 0,8417

RS 496 0,7587 0,8975 0,8753 0,332 0,26973 0,8858 0,8606

SC 293 0,788 0,893 0,8735 0,3444 0,30595 0,9102 0,8865

SP 645 0,7387 0,8445 0,8524 0,3172 0,31992 0,8656 0,9048

MG 853 0,684 0,7941 0,7161 0,2025 0,20717 0,755 0,7481

MS 78 0,6733 0,7216 0,7612 0,257 0,302 0,7773 0,7568

MT 141 0,6547 0,779 0,7533 0,2483 0,30484 0,7881 0,7882

RO 52 0,5266 0,7039 0,7483 0,2041 0,24579 0,754 0,7047

TO-

TAL 3373

103

CAPÍTULO XVI. OS DIFERENTES BRASIS

Podemos observar no gráfico 3, que corresponde ao dendrograma usando o método cen-

troide distância manhattan temos no Brasil 7 agrupamentos dos estados com mesma similaridade

de média das variáveis selecionadas. Os grupos cujos estados são mais similares entre si está no

grupo 5 e, os estados com maior similaridade é ES e GO, composto pelos demais estados que são:

PR, MS, MT, MG, RJ, SP, RS, SC.

16.1 Os 2 Brasis comparando-se com 7 clusters e agrupando-os em 3 conglomerados – mé-

todo euclidiano completo

16.2 Os 2 Brasis comparando-se com 7 clusters e agrupando-os em 3 conglomerados - mé-

todo manhattan completo

104

16.3 Os Brasis agrupados com 3 conglomerados

Dada a similaridade dos dados entre alguns estados foi possível realizar o agrupamento das

vinte e seis unidades federativas do Brasil em 3 grandes grupos; excluindo-se por conveniência o

Distrito Federal em função de representar um outlier; pois, só tem um município (Brasília).

Através da formação destes clusters foi possível a sintetização dos dados de 5.564 municí-

pios em estados e grupos mostrando a grande diferença de realidade nos diferentes estados e regi-

ões do Brasil conforme demonstramos através do mapa acima. Esta análise apenas corroborou a

ideia de termos “mais de um Brasil” já antes mencionadas em trabalhos anteriores.

Destaca-se a existência de 3 Brasis quase que separado ao meio; onde temos 2 clusters

compostos pelo Norte e Nordeste; exceção feita ao estado de Roraima já observado no dendro-

grama neste trabalho e complementado com a tabela 9.

Na sequência fica “um degrau” para subsidiar as próximas análises, elaborando-se a análise

Anova e gráficos Boxplots das variáveis objetos do estudo; bem como, um quadro comparativo

entre as regiões baseando-se nas variáveis já normalizadas e/ou positivadas (lado direito nas tabe-

las) versus resultados anteriores (lado esquerdo nas tabelas).

Variável: Esperança de vida ao nascer (ESPVIDA)

One-way ANOVA: ESPVIDA versus

REGIÃO N 5564

Source DF SS MS F

P

One-way ANOVA: ESPVIDAn versus

REGIÃO N 5564

Source DF SS MS F

P

105

REGIÃO N 5564 4 24990,54 6247,63

2319,16 0,000

Error 5559 14975,49 2,69

Total 5563 39966,03

S = 1,641 R-Sq = 62,53% R-Sq(adj) =

62,50%

Individual 95% CIs

For Mean Based on

Pooled StDev

Level N Mean StDev --+--------

-+---------+---------+-------

CENTRO OESTE 465 74,334 1,100

(*)

NORDESTE 1794 70,255 1,809 *)

NORTE 449 71,818 1,724

(*)

SUDESTE 1668 74,686 1,604

(*

SUL 1188 75,116 1,570

(*

--+---------+---------

+---------+-------

70,5 72,0 73,5

75,0

Pooled StDev = 1,641

REGIÃO N 5564 4 140,4313 35,1078

2319,16 0,000

Error 5559 84,1530 0,0151

Total 5563 224,5843

S = 0,1230 R-Sq = 62,53% R-Sq(adj) =

62,50%

Individual 95% CIs

For Mean Based on

Pooled StDev

Level N Mean StDev ---+-------

--+---------+---------+------

CENTRO OESTE 465 0,6772 0,0825

(*)

NORDESTE 1794 0,3714 0,1356 *)

NORTE 449 0,4886 0,1292

(*)

SUDESTE 1668 0,7036 0,1202

*)

SUL 1188 0,7358 0,1177

(*

---+---------+--------

-+---------+------

0,40 0,50

0,60 0,70

Pooled StDev = 0,1230

SULSUDESTENORTENORDESTECENTRO OESTE

80,0

77,5

75,0

72,5

70,0

67,5

65,0

REGIÃO N 5564

ES

PV

IDA

Boxplot of ESPVIDA

SULSUDESTENORTENORDESTECENTRO OESTE

1,0

0,8

0,6

0,4

0,2

0,0

REGIÃO N 5564

ES

PV

IDA

n

Boxplot of ESPVIDAn

Indicadores Expoente (+) SUL, n=1188 Expoente (-) NORDESTE,

n=1794

Q1 0,6539 0,2811

Mediana 0,7384 0,3857

Q3 0,8147 0,4640

Média 0,7358 0,3714

Desvio padrão 0,1177 0,1356

106

Variável: Mortalidade infantil até 1º ano (MORT1)

One-way ANOVA: MORT1 versus

REGIÃO N 5564

Source DF SS MS F

P

REGIÃO N 5564 4 190952,7 47738,2

2871,93 0,000

Error 5559 92403,7 16,6

Total 5563 283356,4

S = 4,077 R-Sq = 67,39% R-Sq(adj) =

67,37%

Individual 95% CIs

For Mean Based on

Pooled StDev

Level N Mean StDev --------+---

------+---------+---------+-

CENTRO OESTE 465 15,731 2,705

(*)

NORDESTE 1794 27,188 5,856

(*

NORTE 449 21,578 4,713

(*)

SUDESTE 1668 15,512 2,700 (*

SUL 1188 12,999 2,138 *)

--------+---------+----

-----+---------+-

16,0 20,0

24,0 28,0

Pooled StDev = 4,077

One-way ANOVA: MORT1np versus

REGIÃO N 5564

Source DF SS MS F

P

REGIÃO N 5564 4 130,1073 32,5268

2871,93 0,000

Error 5559 62,9600 0,0113

Total 5563 193,0673

S = 0,1064 R-Sq = 67,39% R-Sq(adj) =

67,37%

Individual 95% CIs

For Mean Based on

Pooled StDev

Level N Mean StDev ---------+-

--------+---------+---------+

CENTRO OESTE 465 0,8110 0,0706

(*)

NORDESTE 1794 0,5119 0,1529 *)

NORTE 449 0,6584 0,1230

(*)

SUDESTE 1668 0,8167 0,0705

(*

SUL 1188 0,8823 0,0558

*)

---------+---------+--

-------+---------+

0,60 0,70

0,80 0,90

Pooled StDev = 0,1064

SULSUDESTENORTENORDESTECENTRO OESTE

50

40

30

20

10

REGIÃO N 5564

MO

RT1

Boxplot of MORT1

SULSUDESTENORTENORDESTECENTRO OESTE

1,0

0,8

0,6

0,4

0,2

0,0

REGIÃO N 5564

MO

RT1

np

Boxplot of MORT1np

Indicadores Expoente (+) SUL, n=1188 Expoente (-) NORDESTE,

n=1794

Q1 0,8457 0,4196

Mediana 0,8875 0,5351

Q3 0,9214 0,6212

107

Média 0,8823 0,5119

Desvio padrão 0,0558 0,1529

Variável: Taxa de analfabetismo pessoas com 25 anos ou mais (T_ANALF25M).

One-way ANOVA: T_ANALF25M ver-

sus REGIÃO N 5564

Source DF SS MS F

P

REGIÃO N 5564 4 606142,6

151535,6 2804,56 0,000

Error 5559 300363,2 54,0

Total 5563 906505,8

S = 7,351 R-Sq = 66,87% R-Sq(adj) =

66,84%

Individual 95% CIs

For Mean Based on

Pooled StDev

Level N Mean StDev -------+----

-----+---------+---------+--

CENTRO OESTE 465 15,404 5,065

(*)

NORDESTE 1794 34,970 8,541

(*

NORTE 449 22,384 8,429

(*)

SUDESTE 1668 13,581 7,655 *)

SUL 1188 9,761 4,867 (*)

-------+---------+-----

----+---------+--

14,0 21,0

28,0 35,0

Pooled StDev = 7,351

One-way ANOVA: T_ANALF25Mnp

versus REGIÃO N 5564

Source DF SS MS F

P

REGIÃO N 5564 4 192,7342 48,1835

2804,56 0,000

Error 5559 95,5060 0,0172

Total 5563 288,2402

S = 0,1311 R-Sq = 66,87% R-Sq(adj) =

66,84%

Individual 95% CIs

For Mean Based on

Pooled StDev

Level N Mean StDev --------+--

-------+---------+---------+-

CENTRO OESTE 465 0,7449 0,0903

(*)

NORDESTE 1794 0,3960 0,1523 (*)

NORTE 449 0,6205 0,1503

(*)

SUDESTE 1668 0,7774 0,1365

(*

SUL 1188 0,8456 0,0868

*)

--------+---------+---

------+---------+-

0,48 0,60

0,72 0,84

Pooled StDev = 0,1311

SULSUDESTENORTENORDESTECENTRO OESTE

60

50

40

30

20

10

0

REGIÃO N 5564

T_

AN

ALF2

5M

Boxplot of T_ANALF25M

SULSUDESTENORTENORDESTECENTRO OESTE

1,0

0,8

0,6

0,4

0,2

0,0

REGIÃO N 5564

T_

AN

ALF2

5M

np

Boxplot of T_ANALF25Mnp

108

Indicadores Expoente (+) SUL, n=1188 Expoente (-) NORDESTE,

n=1794

Q1 0,7873 0,2947

Mediana 0,8590 0,3863

Q3 0,9172 0,4876

Média 0,8456 0,3960

Desvio padrão 0,0868 0,1523

Variável: Percentual de pessoas em domicílios vulneráveis à pobreza e em que nin-

guém tem fundamental completo (T_FUNDIN_TODOS_MMEIO)

One-way ANOVA: T_FUNDIN_TO-

DOS_MMEIO versus REGIÃO N 5564

Source DF SS MS F

P

REGIÃO N 5564 4 502391,4

125597,9 1753,51 0,000

Error 5559 398171,7 71,6

Total 5563 900563,1

S = 8,463 R-Sq = 55,79% R-Sq(adj) =

55,75%

Individual 95% CIs

For Mean Based on

Pooled StDev

Level N Mean StDev ---+-------

--+---------+---------+------

CENTRO OESTE 465 15,223 6,759

(*-)

NORDESTE 1794 32,680 8,718

*)

NORTE 449 29,968 11,737

(*)

SUDESTE 1668 13,914 8,781

*)

SUL 1188 10,837 6,520 (*)

---+---------+---------+---------+------

12,0 18,0

24,0 30,0

Pooled StDev = 8,463

One-way ANOVA: T_FUNDIN_TO-

DOS_MMEIOnp versus REGIÃO N

5564

Source DF SS MS F

P

REGIÃO N 5564 4 91,1520 22,7880

1753,51 0,000

Error 5559 72,2428 0,0130

Total 5563 163,3948

S = 0,1140 R-Sq = 55,79% R-Sq(adj) =

55,75%

Level N Mean StDev

CENTRO OESTE 465 0,7978 0,0910

NORDESTE 1794 0,5626 0,1174

NORTE 449 0,5992 0,1581

SUDESTE 1668 0,8154 0,1183

SUL 1188 0,8569 0,0878

Individual 95% CIs For Mean

Based on Pooled StDev

Level +---------+---------+---------+--

-------

CENTRO OESTE (-*)

NORDESTE *) NORTE (*)

SUDESTE (*)

SUL (*)

+---------+---------+---------+-----

----

0,560 0,640 0,720 0,800

Pooled StDev = 0,1140

109

SULSUDESTENORTENORDESTECENTRO OESTE

80

70

60

50

40

30

20

10

0

REGIÃO N 5564

T_

FUN

DIN

_TO

DO

S_

MM

EIO

Boxplot of T_FUNDIN_TODOS_MMEIO

SULSUDESTENORTENORDESTECENTRO OESTE

1,0

0,8

0,6

0,4

0,2

0,0

REGIÃO N 5564

T_

FUN

DIN

_TO

DO

S_

MM

EIO

np

Boxplot of T_FUNDIN_TODOS_MMEIOnp

Indicadores Expoente (+) SUL, n=1188 Expoente (-) NORDESTE,

n=1794

Q1 0,8045 0,4845

Mediana 0,8734 0,5620

Q3 0,9247 0,6419

Média 0,8569 0,5626

Desvio padrão 0,0878 0,1174

Variável: Renda Per Capita (RDPC)

One-way ANOVA: RDPC versus

REGIÃO N 5564

Source DF SS MS F

P

REGIÃO N 5564 4 166364376

41591094 1432,31 0,000

Error 5559 161420628 29038

Total 5563 327785004

S = 170,4 R-Sq = 50,75% R-Sq(adj) =

50,72%

Individual 95% CIs

For Mean Based on

Pooled StDev

Level N Mean StDev --------+----

-----+---------+---------+-

CENTRO OESTE 465 584,2 153,4

(-*)

NORDESTE 1794 276,9 97,7 (*)

NORTE 449 345,1 141,1 (-*)

SUDESTE 1668 590,6 214,9

*)

SUL 1188 704,2 200,0

(*

--------+---------+-----

----+---------+-

360 480

600 720

Pooled StDev = 170,4

One-way ANOVA: RDPCn versus

REGIÃO N 5564

Source DF SS MS F

P

REGIÃO N 5564 4 43,86416

10,96604 1432,31 0,000

Error 5559 42,56068 0,00766

Total 5563 86,42484

S = 0,08750 R-Sq = 50,75% R-Sq(adj)

= 50,72%

Individual 95%

CIs For Mean Based on

Pooled StDev

Level N Mean StDev -----+----

-----+---------+---------+----

CENTRO OESTE 465 0,25056 0,07875

(-*)

NORDESTE 1794 0,09277 0,05019

*)

NORTE 449 0,12778 0,07244

(*-)

SUDESTE 1668 0,25385 0,11035

*)

SUL 1188 0,31219 0,10269

(*)

-----+---------+-----

----+---------+----

0,120 0,180

0,240 0,300

110

Pooled StDev = 0,08750

SULSUDESTENORTENORDESTECENTRO OESTE

2000

1500

1000

500

0

REGIÃO N 5564

RD

PC

Boxplot of RDPC

SULSUDESTENORTENORDESTECENTRO OESTE

1,0

0,8

0,6

0,4

0,2

0,0

REGIÃO N 5564

RD

PC

n

Boxplot of RDPCn

Indicadores Expoente (+) SUL, n=1188 Expoente (-) NORDESTE,

n=1794

Q1 0,2385 0,0646

Mediana 0,2972 0,0838

Q3 0,3733 0,1057

Média 0,3122 0,0928

Desvio padrão 0,1027 0,0502

Variável: Rendimento médio dos ocupados com 18 anos ou mais (RENOCUP)

One-way ANOVA: RENOCUP versus

REGIÃO N 5564

Source DF SS MS F

P

REGIÃO N 5564 4 276629690

69157422 1039,86 0,000

Error 5559 369709458 66506

Total 5563 646339148

S = 257,9 R-Sq = 42,80% R-Sq(adj) =

42,76%

Individual 95% CIs

For Mean Based on

Pooled StDev

Level N Mean StDev ---------+--

-------+---------+---------+ CENTRO OESTE 465 1015,2 241,6

(-*)

NORDESTE 1794 473,7 192,1 (*

NORTE 449 708,1 250,0

(*-)

SUDESTE 1668 920,0 319,2

*)

One-way ANOVA: RENOCUPn versus

REGIÃO N 5564

Source DF SS MS F

P

REGIÃO N 5564 4 29,91656 7,47914

1039,86 0,000

Error 5559 39,98282 0,00719

Total 5563 69,89938

S = 0,08481 R-Sq = 42,80% R-Sq(adj)

= 42,76%

Level N Mean StDev

CENTRO OESTE 465 0,28898 0,07945

NORDESTE 1794 0,11091 0,06318

NORTE 449 0,18801 0,08223 SUDESTE 1668 0,25770 0,10497

SUL 1188 0,27744 0,08463

Individual 95% CIs For Mean

Based on Pooled StDev

Level ---------+---------+---------+-----

----+

111

SUL 1188 980,1 257,3

(*)

---------+---------+---

------+---------+

600 750

900 1050

Pooled StDev = 257,9

CENTRO OESTE

(-*)

NORDESTE (*)

NORTE (-*)

SUDESTE (*

SUL *)

---------+---------+---------+--------

-+

0,150 0,200 0,250

0,300

Pooled StDev = 0,08481

SULSUDESTENORTENORDESTECENTRO OESTE

3500

3000

2500

2000

1500

1000

500

0

REGIÃO N 5564

REN

OC

UP

Boxplot of RENOCUP

SULSUDESTENORTENORDESTECENTRO OESTE

1,0

0,8

0,6

0,4

0,2

0,0

REGIÃO N 5564

REN

OC

UP

n

Boxplot of RENOCUPn

Indicadores Expoente (+) CENTRO OESTE,

n=465

Expoente (-) NORDESTE,

n=1794

Q1 0,2341 0,0707

Mediana 0,2807 0,0970

Q3 0,3316 0,1364

Média 0,2889 0,1109

Desvio padrão 0,0795 0,0632

Variável: Percentual de pessoas de 15 a 24 anos que não estuda, não trabalham e são

vulneráveis à pobreza (T_NESTDUA_NTRAB_MMEIO)

One-way ANOVA: T_NES-

TUDA_NTRAB_MMEIO versus RE-

GIÃO N 5564

Source DF SS MS F

P

REGIÃO N 5564 4 250910,9 62727,7

1991,10 0,000

Error 5559 175131,3 31,5

Total 5563 426042,2

S = 5,613 R-Sq = 58,89% R-Sq(adj) =

58,86%

Individual 95% CIs

For Mean Based on

One-way ANOVA: T_NES-

TUDA_NTRAB_MMEIOnp versus RE-

GIÃO N 5564

Source DF SS MS F

P

REGIÃO N 5564 4 82,1968 20,5492

1991,10 0,000

Error 5559 57,3719 0,0103

Total 5563 139,5687

S = 0,1016 R-Sq = 58,89% R-Sq(adj) =

58,86%

Individual 95% CIs

For Mean Based on

112

Pooled StDev

Level N Mean StDev -------+----

-----+---------+---------+--

CENTRO OESTE 465 11,283 5,202

(*)

NORDESTE 1794 23,134 5,615

*)

NORTE 449 20,874 6,596

(*)

SUDESTE 1668 10,900 6,107

(*

SUL 1188 6,665 4,532 *)

-------+---------+-----

----+---------+--

10,0 15,0

20,0 25,0

Pooled StDev = 5,613

Pooled StDev

Level N Mean StDev --------+--

-------+---------+---------+-

CENTRO OESTE 465 0,7958 0,0941

(*-)

NORDESTE 1794 0,5813 0,1016 (*

NORTE 449 0,6222 0,1194 (*)

SUDESTE 1668 0,8027 0,1105

*)

SUL 1188 0,8794 0,0820

(*)

--------+---------+---

------+---------+-

0,640 0,720

0,800 0,880

Pooled StDev = 0,1016

SULSUDESTENORTENORDESTECENTRO OESTE

60

50

40

30

20

10

0

REGIÃO N 5564

T_

NES

TU

DA

_N

TR

AB

_M

MEIO

Boxplot of T_NESTUDA_NTRAB_MMEIO

SULSUDESTENORTENORDESTECENTRO OESTE

1,0

0,8

0,6

0,4

0,2

0,0

REGIÃO N 5564

T_

NES

TU

DA

_N

TR

AB

_M

MEIO

np

Boxplot of T_NESTUDA_NTRAB_MMEIOnp

Indicadores Expoente (+) SUDESTE,

n=1668

Expoente (-) NORDESTE,

n=1794

Q1 0,8281 0,5152

Mediana 0,8948 0,5885

Q3 0,9450 0,6505

Média 0,8794 0,5813

Desvio padrão 0,0820 0,1016

Ao executar a análise Anova com as variáveis normalizadas e/ou positivadas, observa-se

que segue a mesma distribuição da análise anterior; ou seja, temos predominantemente em todas

as variáveis selecionadas para este estudo, a região SUL apresentando as melhores médias e a re-

gião Nordeste as menores médias.

113

CAPÍTULO XVII. REGRESSÃO LOGÍSTICA

A base de análises e informações feita em Análise Discriminante com a elaboração do den-

drogrma com 3 clusters, estruturado em função da maior similaridade pelo método Manhattan

completo, será utilizada com as mesmas variáveis para criação das novas colunas.

A fim de retratar os dados anteriores, repete-se a seguir as informações já trabalhadas.

17.1 Análise discriminante método Manhattan Completo agrupamento com 3 clusters

1ª ETAPA: Stat / Multivariate / Cluster Observations

Selecionou-se todas as 7 variáveis para a análise, registrando para rodar com 3 clusters e

storage numa coluna vazia; que no nosso estudo foi na coluna C71.

Tabela 27 – Clusters pelo método Manhattan completo para 3 clusters

Cluster Analysis of Observations: MeanESPVIDAn; MeanMORT1np;

MeanT_ANALF2; ...

Manhattan Distance, Complete Linkage

Amalgamation Steps

Number

of obs.

Number of Similarity Distance Clusters New in new

Step clusters level level joined cluster cluster

1 25 96,5711 0,09802 15 24 15 2

2 24 96,1947 0,10878 7 8 7 2

3 23 95,6108 0,12547 6 19 6 2

4 22 95,2946 0,13451 22 23 22 2

5 21 95,1848 0,13765 11 12 11 2

6 20 95,1676 0,13814 5 15 5 3

7 19 94,2154 0,16536 14 16 14 2

8 18 92,1519 0,22435 3 13 3 2

9 17 92,1176 0,22533 22 25 22 3

10 16 91,9577 0,22990 7 17 7 3

11 15 91,3567 0,24708 2 9 2 2

12 14 90,0537 0,28433 4 26 4 2

13 13 89,4215 0,30240 1 5 1 4

14 12 89,2036 0,30863 10 11 10 3

15 11 87,6802 0,35218 7 18 7 4

16 10 84,9918 0,42903 10 20 10 4

17 9 84,9138 0,43126 1 6 1 6

18 8 83,6912 0,46621 1 14 1 8

19 7 82,4784 0,50088 3 21 3 3

20 6 76,8131 0,66283 7 22 7 7

21 5 74,7114 0,72291 1 2 1 10

22 4 73,7606 0,75009 3 4 3 5

23 3 61,0248 1,11416 7 10 7 11

24 2 47,0755 1,51292 1 3 1 15

25 1 0,0000 2,85864 1 7 1 26

114

Final Partition

Number of clusters: 3

Average Maximum

Within distance distance

Number of cluster sum from from

observations of squares centroid centroid

Cluster1 10 0,140217 0,107216 0,217649

Cluster2 5 0,084054 0,126656 0,159401

Cluster3 11 0,223619 0,129572 0,245216

Cluster Centroids

Grand

Variable Cluster1 Cluster2 Cluster3 centroid

MeanESPVIDAn 0,373190 0,497480 0,684173 0,528662

MeanMORT1np 0,511430 0,682580 0,818009 0,674050

MeanT_ANALF25Mnp 0,392600 0,624960 0,790491 0,605623

MeanT_FUNDIN_TODOS_MMEIOnp 0,552420 0,596120 0,810818 0,670146

MeanRDPCn 0,094876 0,119936 0,268914 0,173327

MeanRENOCUPn 0,120661 0,195980 0,276612 0,201125

MeanT_NESTUDA_NTRAB_MMEIOnp 0,580790 0,588300 0,817945 0,682569

Distances Between Cluster Centroids

Cluster1 Cluster2 Cluster3

Cluster1 0,000000 0,327106 0,725700

Cluster2 0,327106 0,000000 0,456206

Cluster3 0,725700 0,456206 0,000000 Fonte: Elaborado pelo autor (Minitab 2016)

115

Dendrograma

ROMT

MS

MGSPSCRSRJPRGOESTOA

PRRPAAMMAALPIPBRNCESEPEBAA

C

2,86

1,91

0,95

0,00

Observations

Dis

tan

ce

Média por estados

2ª ETAPA: Stat / Multivariate / Discriminant Analysis

Com o objetivo de verificar se os agrupamentos tiveram 100% de acerto

Tabela 28 – Análise discriminante pelo método manhattan completo

Discriminant Analysis: 3 novos agru versus MeanESPVIDAn; MeanMORT1np;

...

Linear Method for Response: 3 novos agrupamentos

Predictors: MeanESPVIDAn; MeanMORT1np; MeanT_ANALF25Mnp;

MeanT_FUNDIN_TODOS_MMEIOnp; MeanRDPCn; MeanRENOCUPn;

MeanT_NESTUDA_NTRAB_MMEIOnp

Group 1 2 3

Count 10 5 11

Summary of classification

True Group Put into Group 1 2 3

1 10 0 0

2 0 5 0

3 0 0 11

Total N 10 5 11

N correct 10 5 11

Proportion 1,000 1,000 1,000

N = 26 N Correct = 26 Proportion Correct = 1,000

116

Squared Distance Between Groups

1 2 3

1 0,0000 45,9122 66,1727

2 45,9122 0,0000 34,6876

3 66,1727 34,6876 0,0000

Linear Discriminant Function for Groups

1 2 3

Constant -363,4 -417,8 -522,6

MeanESPVIDAn 269,6 353,9 410,5

MeanMORT1np -60,0 -51,0 -105,8

MeanT_ANALF25Mnp -9,6 158,4 120,5

MeanT_FUNDIN_TODOS_MMEIOnp 222,0 180,8 210,2

MeanRDPCn -2018,1 -2246,0 -2332,9

MeanRENOCUPn 566,5 603,3 649,8

MeanT_NESTUDA_NTRAB_MMEIOnp 1138,4 1085,6 1262,8 Fonte: Elaborado pelo autor (Minitab 2016)

3ª ETAPA: Stat / Anova / One-Way

Fazer a Anova de uma por uma das Variáveis tendo como response a variável analisada e

o fator corresponde à coluna com os 3 novos agrupamentos

Variável: Expectativa de vida (dados normalizados) – ESPVIDAn

One-way ANOVA: MeanESPVIDAn versus 3 novos agrupamentos

Source DF SS MS F P

3 novos agrupamentos 2 0,51260 0,25630 78,87 0,000

Error 23 0,07474 0,00325

Total 25 0,58734

S = 0,05701 R-Sq = 87,27% R-Sq(adj) = 86,17%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev ------+---------+---------+---------+---

1 10 0,37319 0,04059 (--*---)

2 5 0,49748 0,05747 (-----*----)

3 11 0,68417 0,06834 (--*---)

------+---------+---------+---------+---

0,40 0,50 0,60 0,70

Pooled StDev = 0,05701

117

Variável: Mortalidade Infantil até 1 ano (dados normalizados e positivados - MORT1np

One-way ANOVA: MeanMORT1np versus 3 novos agrupamentos

Source DF SS MS F P

3 novos agrupamentos 2 0,49278 0,24639 58,96 0,000

Error 23 0,09611 0,00418

Total 25 0,58890

S = 0,06464 R-Sq = 83,68% R-Sq(adj) = 82,26%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev ---+---------+---------+---------+------

1 10 0,51143 0,06764 (---*---)

2 5 0,68258 0,06027 (-----*-----)

3 11 0,81801 0,06356 (---*---)

---+---------+---------+---------+------

0,50 0,60 0,70 0,80

Pooled StDev = 0,06464

Variável: Taxa de Analfabetismo de pessoas com 25 anos ou mais (dados normalizados

e positivados) - T_ANALF25Mnp

One-way ANOVA: MeanT_ANALF25Mnp versus 3 novos agrupamentos

Source DF SS MS F P

3 novos agrupamentos 2 0,83160 0,41580 119,21 0,000

Error 23 0,08022 0,00349

Total 25 0,91182

S = 0,05906 R-Sq = 91,20% R-Sq(adj) = 90,44%

Individual 95% CIs For Mean Based on Pooled StDev

Level N Mean StDev -+---------+---------+---------+-------- 1 10 0,39260 0,06069 (---*--)

2 5 0,62496 0,05136 (---*----)

3 11 0,79049 0,06043 (--*--)

-+---------+---------+---------+--------

0,36 0,48 0,60 0,72

Pooled StDev = 0,05906

118

Variável: Percentual de pessoas em domicílios vulneráveis à pobreza e em que ninguém

tem fundamental completo (dados normalizados e positivados) - T_FUNDIN_TO-

DOS_MMEIOnp

One-way ANOVA: MeanT_FUNDIN_TODOS_MMEIOnp versus 3 novos agru-

pamentos

Source DF SS MS F P

3 novos agrupamentos 2 0,38367 0,19183 44,75 0,000

Error 23 0,09861 0,00429

Total 25 0,48227

S = 0,06548 R-Sq = 79,55% R-Sq(adj) = 77,78%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev ---------+---------+---------+---------+

1 10 0,55242 0,06003 (---*----)

2 5 0,59612 0,08404 (-----*-----)

3 11 0,81082 0,06158 (---*---)

---------+---------+---------+---------+

0,60 0,70 0,80 0,90

Pooled StDev = 0,06548

Variável: Renda Per Capita (dados normalizados) - RDPCn

One-way ANOVA: MeanRDPCn versus 3 novos agrupamentos

Source DF SS MS F P

3 novos agrupamentos 2 0,17630 0,08815 71,43 0,000

Error 23 0,02839 0,00123

Total 25 0,20469

S = 0,03513 R-Sq = 86,13% R-Sq(adj) = 84,93%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev --------+---------+---------+---------+-

1 10 0,09488 0,01556 (---*---)

2 5 0,11994 0,02983 (----*----)

3 11 0,26891 0,04759 (---*--)

--------+---------+---------+---------+-

0,120 0,180 0,240 0,300

Pooled StDev = 0,03513

Variável: Rendimento médio dos ocupados com 18 anos ou mais (dados normalizados)

- RENOCUPn

119

One-way ANOVA: MeanRENOCUPn versus 3 novos agrupamentos

Source DF SS MS F P

3 novos agrupamentos 2 0,12756 0,06378 54,02 0,000

Error 23 0,02716 0,00118

Total 25 0,15471

S = 0,03436 R-Sq = 82,45% R-Sq(adj) = 80,92%

Individual 95% CIs For Mean Based on Pooled StDev

Level N Mean StDev +---------+---------+---------+---------

1 10 0,12066 0,02913 (---*----)

2 5 0,19598 0,04377 (-----*------)

3 11 0,27661 0,03443 (---*----)

+---------+---------+---------+---------

0,100 0,150 0,200 0,250

Pooled StDev = 0,03436

Variável: Percentual de pessoas de 15 a 24 anos que não estudam, não trabalham e são

vulneráveis à pobreza (dados normalizados e positivados) - T_NES-

TUDA_NTRAB_MMEIOnp

One-way ANOVA: MeanT_NESTUDA_NTRAB_MMEIOnp versus 3 novos agru-

pamentos

Source DF SS MS F P

3 novos agrupamentos 2 0,34962 0,17481 94,23 0,000

Error 23 0,04267 0,00186

Total 25 0,39229

S = 0,04307 R-Sq = 89,12% R-Sq(adj) = 88,18%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev -+---------+---------+---------+--------

1 10 0,58079 0,03129 (---*--)

2 5 0,58830 0,03964 (----*----)

3 11 0,81795 0,05251 (--*---)

-+---------+---------+---------+--------

0,560 0,640 0,720 0,800

Pooled StDev = 0,04307

4ª ETAPA: Construir a tabela com os resultados obtidos das Anovas

120

Tabela ANOVA das variáveis, tomando como base o valor “F” de cada uma, entendo

que quanto maior esse valor, maior a representatividade da variável na amostra estudada, bem

como suas médias e intervalos de confiança

Tabela 29 – Comparação entre os 3 novos grupos versus as variáveis e seus intervalos de

confiança

Fonte: Elaborado pelo autor

Observa-se que, pelo valor de F, as variáveis com maior representativi-dade no estudo

são, respectivamente, “T_ANALF25Mnp”, “T_NESTUDA_NTRAB_MMEIOnp”, “ESPVI-

DAn” e “RDPCn’.

Porém, observa-se uma sobreposição dos intervalos de confiança entre as variáveis

“RDPCn”, “T_FUNDIN_TODOS_MMEIOnp” e “T_NESTUDA_NTRAB_MMEIOnp”.

5ª ETAPA: Stat / Regression / Ordinal Logistic Regression

Utilizou-se dessa ordenação em função de identificar a ordem lógica dos clusters em termos

da maior importância

A response será a coluna com os 3 novos agrupamentos; que neste trabalho, foi a coluna

C71 versus todas as variáveis no campo model. A regressão logística tem como objetivo calcular

a probabilidade de uma variável pertencer a um grupo.

Ordinal Logistic Regression: 3 novos agru versus MeanESPVIDAn;

MeanMORT1np; ...

* WARNING * Algorithm has not converged after 20 iterations.

* WARNING * Convergence has not been reached for the parameter estimates

criterion.

* WARNING * The results may not be reliable.

* WARNING * Try increasing the maximum number of iterations.

Link Function: Logit

Response Information

121

Variable Value Count

3 novos agrupamentos 1 10

2 5

3 11

Total 26

Logistic Regression Table

Predictor Coef SE Coef Z P Odds Ratio

Const(1) 288,850 157907 0,00 0,999

Const(2) 344,677 163063 0,00 0,998

MeanESPVIDAn -91,0187 133753 -0,00 0,999 0,00

MeanMORT1np -32,6172 172041 -0,00 1,000 0,00

MeanT_ANALF25Mnp -306,214 64541,3 -0,00 0,996 0,00

MeanRDPCn 331,055 814822 0,00 1,000 5,96055E+143

MeanRENOCUPn 17,0818 298694 0,00 1,000 26213405,10

MeanT_NESTUDA_NTRAB_MMEIOnp -273,952 273199 -0,00 0,999 0,00

MeanT_FUNDIN_TODOS_MMEIOnp 102,589 111368 0,00 0,999

3,58107E+44

95% CI

Predictor Lower Upper

Const(1)

Const(2)

MeanESPVIDAn 0,00 *

MeanMORT1np 0,00 *

MeanT_ANALF25Mnp 0,00 *

MeanRDPCn 0,00 *

MeanRENOCUPn 0,00 *

MeanT_NESTUDA_NTRAB_MMEIOnp 0,00 *

MeanT_FUNDIN_TODOS_MMEIOnp 0,00 *

Log-Likelihood = -0,000

Test that all slopes are zero: G = 54,521, DF = 7, P-Value = 0,000

Goodness-of-Fit Tests

Method Chi-Square DF P

Pearson 0,0000002 43 1,000

Deviance 0,0000003 43 1,000

Measures of Association:

(Between the Response Variable and Predicted Probabilities)

Pairs Number Percent Summary Measures

Concordant 215 100,0 Somers' D 1,00

Discordant 0 0,0 Goodman-Kruskal Gamma 1,00

Ties 0 0,0 Kendall's Tau-a 0,66

Total 215 100,0

122

Fonte: Elaborado pelo autor (Minitab 2016)

Comentários: Apesar de a concordância ser de 100%, o que viabilizaria o estudo, todos os

“P” das variáveis estão entre 99 e 100%, o que descaracteriza o estudo.

6ª ETAPA: Stat / Regression / Ordinal Logistic Regression

Nesta etapa, selecionou-se as 3 variáveis correlacionando os 3 maiores valores de F e o

intervalo de confiança (sempre olhando os f e os intervalos de confiança) e excluindo-se as variá-

veis sobrepostas

2ª Análise: As 3 variáveis que ficaram foram: ESPVIDAn, T_ANALF25Mnp e RENOCUPn

Ordinal Logistic Regression: 3 novos agru versus MeanESPVIDAn;

MeanT_ANALF2; ..

* WARNING * Algorithm has not converged after 20 iterations.

* WARNING * Convergence has not been reached for the parameter estimates

criterion.

* WARNING * The results may not be reliable.

* WARNING * Try increasing the maximum number of iterations.

Link Function: Logit

Response Information

Variable Value Count

3 novos agrupamentos 1 10

2 5

3 11

Total 26

Logistic Regression Table

95% CI

Predictor Coef SE Coef Z P Odds Ratio Lower Upper

Const(1) 287,829 22615,4 0,01 0,990

Const(2) 352,275 24894,3 0,01 0,989

MeanESPVIDAn -233,243 42515,3 -0,01 0,996 0,00 0,00 *

MeanT_ANALF25Mnp -497,358 47394,8 -0,01 0,992 0,00 0,00 *

MeanRENOCUPn 515,799 59449,9 0,01 0,993 1,01996E+224 0,00 *

Log-Likelihood = -0,000

Test that all slopes are zero: G = 54,521, DF = 3, P-Value = 0,000

Goodness-of-Fit Tests

123

Method Chi-Square DF P

Pearson 0,0000003 47 1,000

Deviance 0,0000006 47 1,000

Measures of Association:

(Between the Response Variable and Predicted Probabilities)

Pairs Number Percent Summary Measures

Concordant 215 100,0 Somers' D 1,00

Discordant 0 0,0 Goodman-Kruskal Gamma 1,00

Ties 0 0,0 Kendall's Tau-a 0,66

Total 215 100,0

Nesta nova análise, o percentual de concordância continuou de 100%, considerado como

aceitável, houve melhora nos indicadores “P”, mas ainda apresenta problemas.

Nas 3 variáveis os percentuais ficaram em 98% a 99%, lembrando que os valores aceitáveis

restringem-se ao limite de 10%. Desta forma, iremos restringir a 2 variáveis

7ª ETAPA: Stat / Regression / Ordinal Logistic Regression

Nesta etapa, selecionou-se as 2 variáveis correlacionando os maiores valores de F e o in-

tervalo de confiança (sempre olhando os f e os intervalos de confiança)

3ª Análise: As 2 variáveis que ficaram foram: ESPVIDAn e T_ANALF25Mp

Ordinal Logistic Regression: 3 novos agru versus MeanESPVIDAn; MeanT_ANALF2

* WARNING * Algorithm has not converged after 20 iterations.

* WARNING * Convergence has not been reached for the parameter estimates

criterion.

* WARNING * The results may not be reliable.

* WARNING * Try increasing the maximum number of iterations.

Link Function: Logit

Response Information

Variable Value Count

3 novos agrupamentos 1 10

2 5

3 11

Total 26

Logistic Regression Table

Odds 95% CI

124

Predictor Coef SE Coef Z P Ratio Lower Upper

Const(1) 438,785 22494,3 0,02 0,984

Const(2) 578,043 26940,0 0,02 0,983

MeanESPVIDAn -169,670 71630,4 -0,00 0,998 0,00 0,00 *

MeanT_ANALF25Mnp -672,756 53876,4 -0,01 0,990 0,00 0,00 *

Log-Likelihood = -0,000

Test that all slopes are zero: G = 54,521, DF = 2, P-Value = 0,000

Goodness-of-Fit Tests

Method Chi-Square DF P

Pearson 0,0000008 48 1,000

Deviance 0,0000016 48 1,000

Measures of Association:

(Between the Response Variable and Predicted Probabilities)

Pairs Number Percent Summary Measures

Concordant 215 100,0 Somers' D 1,00

Discordant 0 0,0 Goodman-Kruskal Gamma 1,00

Ties 0 0,0 Kendall's Tau-a 0,66

Total 215 100,0

8ª ETAPA: Stat / Regression / Ordinal Logistic Regression

Nesta etapa, realizou-se a análise individual das 2 variáveis a fim de identificar qual a mais

representativa em termos de regressão logística.

4ª Análise: As 2 variáveis da análise individual são: ESPVIDAn e T_ANALF25Mp

Ordinal Logistic Regression: 3 novos

agrupamentos versus MeanESPVIDAn

Link Function: Logit

Response Information

Variable Value Count

3 novos agrupamentos 1 10

2 5

3 11

Total 26

Logistic Regression Table

Odds

95% CI

Ordinal Logistic Regression: 3 novos

agrupame versus

MeanT_ANALF25Mnp

* WARNING * Algorithm has not con-

verged after 20 iterations.

* WARNING * Convergence has not been

reached for the parameter estimates

criterion.

* WARNING * The results may not be re-

liable.

* WARNING * Try increasing the maxi-

mum number of iterations.

Link Function: Logit

Response Information

Variable Value Count

3 novos agrupamentos 1 10

125

Predictor Coef SE Coef Z P

Ratio Lower Upper

Const(1) 23,7440 10,4337 2,28

0,023

Const(2) 30,4049 13,5323 2,25

0,025

MeanESPVIDAn -54,4193 24,6912 -

2,20 0,028 0,00 0,00 0,00

Log-Likelihood = -5,661

Test that all slopes are zero: G = 43,198,

DF = 1, P-Value = 0,000

Goodness-of-Fit Tests

Method Chi-Square DF P

Pearson 11,4896 49 1,000

Deviance 11,3229 49 1,000

Measures of Association:

(Between the Response Variable and Pre-

dicted Probabilities)

Pairs Number Percent Summary

Measures

Concordant 212 98,6 Somers' D

0,97

Discordant 3 1,4 Goodman-Krus-

kal Gamma 0,97

Ties 0 0,0 Kendall's Tau-a

0,64

Total 215 100,0

2 5

3 11

Total 26

Logistic Regression Table

Odds

95% CI

Predictor Coef SE Coef Z P

Ratio Lower Upper

Const(1) 2281,28 34477,8 0,07

0,947

Const(2) 2860,09 41862,1 0,07

0,946

MeanT_ANALF25Mnp -4010,66

58683,2 -0,07 0,946 0,00 0,00 *

Log-Likelihood = -0,000

Test that all slopes are zero: G = 54,521,

DF = 1, P-Value = 0,000

Goodness-of-Fit Tests

Method Chi-Square DF P

Pearson 0,0000119 49 1,000

Deviance 0,0000239 49 1,000

Measures of Association:

(Between the Response Variable and Pre-

dicted Probabilities)

Pairs Number Percent Summary

Measures

Concordant 215 100,0 Somers' D

1,00

Discordant 0 0,0 Goodman-Krus-

kal Gamma 1,00 Ties 0 0,0 Kendall's Tau-a

0,66

Total 215 100,0

Como a Regressão logística ordinal tem a finalidade de modelar a relação entre preditoras

e respostas, para estas variáveis escolhidas nesta base de dados; entende-se que a variável que

melhor atende às características probabilísticas desta análise é a “ESPVIDAn”, esperança de vida

com uma concordância de 98,6% e um valor de “P” na ordem de 0,028.

126

CAPÍTULO XVIII. ANÁLISE DE CORRESPONDÊNCIA

A análise de correspondência simples decompõe uma tabela de contingência de forma si-

milar à análise de componentes principais em relação a dados contínuos multivariáveis. A análise

de correspondência simples faz uma autoanálise dos dados, decompõe a variabilidade em dimen-

sões subjacentes e associa variabilidade a linhas e/ou colunas.

http://support.minitab.com/pt-br/minitab/17/topic-library/modeling-statistics/multivariate/ba-

sics/multivariate-analyses-in-minitab/#correspondence-analysis, acesso em 28/05/2017

O primeiro passo para esta análise foi resgatar a base de dados utilizada no trabalho anterior

(sem os dados de Brasília), ou seja, REGRESSÃO LOGÍSTICA, e as variáveis naquele estudo

consideradas e suas médias por Estado, a seguir, reforçando que já foram normalizadas e positiva-

das.

18.1 Preparação Dos Dados

1ªs ATIVIDADES

Preparar as 2 colunas; ou seja, Estado registrar em minúsculo os nomes e, numa coluna que

esteja vazia, registrar em minúsculo, na direção vertical com um nome curto as 7 variáveis seleci-

onadas nos trabalhos anteriores

N VARIÁVEL SIGNIFICADO ANALI-

SAR

UNIDADE

DE ME-

DIDA

1 REGIÃO Nome da Região do Brasil NÃO NA

2 UF Unidade da Federação NÃO NA

3 ESPVIDAn Esperança de vida ao nas-

cer

Quantita-

tiva

Valor Ab-

soluto

4 MORT1np Mortalidade infantil Quantita-

tiva

Valor Ab-

soluto

5 T_ANALF25Mnp Taxa de analfabetismo - 25

anos ou mais

Quantita-

tiva Percentual

6 T_FUNDIN_TO-

DOS_MMEIOnp

% de pessoas em domicílios

vulneráveis à pobreza e em

que ninguém tem funda-

mental completo

Quantita-

tiva Percentual

7 RDPCn Renda per capita Quantita-

tiva

Valor Ab-

soluto

127

8 RENOCUPn Rendimento médio dos ocu-

pados - 18 anos ou mais

Quantita-

tiva

Valor Ab-

soluto

9

T_NES-

TUDA_NTRAB_MMEIOn

p

% de 15 a 24 anos que não

estudam, não trabalham e

são vulneráveis à pobreza

Quantita-

tiva Percentual

18.2 A Análise De Correspondência Por Estados Para As 7 Variáveis

STAT / MULTIVARIATE / SIMPLE CORRESPONDENCE / CAMPO CATEGORICAL VARI-

ABLES: REGISTRAR A COLUNA ONDE ESTÃO OS ESTADOS (em minúsculo; neste traba-

lho ficou na coluna C46-T) / COLUMNS OF A CONTINGENCY: REGISTRAR AS 7 VARIÁ-

VEIS SELECIONADAS NOS TRABALHOS ANTERIORES E QUE SÃO OBJETO DE ES-

TUDO / ROW NAMES: REGISTRAR A COLUNA ONDE ESTÃO OS ESTADOS / COLUMN

NAMES: REGISTRAR A COLUNA ONDE ESTÃO OS ESTADOS (em minúsculo; neste traba-

lho ficou na coluna C46-T) / NUMBER OF COMPONENTS: 2 (equivale graficamente aos eixos

X e Y) / GRAPHS: MARCAR SIMMETRIC PLOT SHOWING ROWS AND COLUMNS / OK

Simple Correspondence Analysis: MeanESPVIDAn; MeanMORT1np;

MeanT_ANALF2; MeanRD

Analysis of Contingency Table

Axis Inertia Proportion Cumulative Histogram

1 0,0074 0,6144 0,6144 ******************************

2 0,0023 0,1945 0,8089 *********

3 0,0010 0,0853 0,8942 ****

4 0,0006 0,0480 0,9422 **

5 0,0005 0,0451 0,9873 **

6 0,0002 0,0127 1,0000

Total 0,0121

Row Contributions

Component 1 Component 2

ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr

1 ac 0,082 0,031 0,019 -0,019 0,052 0,002 -0,015 0,030 0,003

2 al 0,835 0,023 0,063 -0,145 0,648 0,066 0,078 0,188 0,060

3 am 0,900 0,032 0,048 -0,038 0,077 0,006 -0,122 0,823 0,202

4 ap 0,588 0,040 0,041 0,047 0,182 0,012 -0,071 0,406 0,085

5 ba 0,881 0,031 0,030 -0,103 0,881 0,044 -0,000 0,000 0,000

6 ce 0,777 0,030 0,077 -0,155 0,777 0,097 -0,003 0,000 0,000

7 es 0,532 0,047 0,011 0,039 0,520 0,010 0,006 0,012 0,001

8 go 0,614 0,048 0,012 0,041 0,581 0,011 0,010 0,034 0,002

9 ma 0,751 0,026 0,063 -0,147 0,724 0,074 0,028 0,027 0,009

10 mg 0,147 0,045 0,013 0,013 0,046 0,001 -0,019 0,101 0,007

11 ms 0,852 0,046 0,041 0,091 0,781 0,052 0,028 0,071 0,015

12 mt 0,816 0,047 0,024 0,069 0,773 0,031 0,016 0,043 0,005

128

13 pa 0,720 0,034 0,034 -0,015 0,019 0,001 -0,092 0,701 0,123

14 pb 0,947 0,028 0,062 -0,155 0,913 0,091 0,030 0,034 0,011

15 pe 0,983 0,029 0,031 -0,110 0,947 0,048 0,021 0,036 0,006

16 pi 0,966 0,026 0,078 -0,182 0,926 0,118 0,038 0,041 0,016

17 pr 0,861 0,049 0,009 0,040 0,725 0,011 0,018 0,136 0,006

18 rj 0,868 0,050 0,041 0,090 0,810 0,054 0,024 0,058 0,012

19 rn 0,816 0,031 0,037 -0,108 0,811 0,048 0,008 0,005 0,001

20 ro 0,315 0,042 0,020 0,042 0,310 0,010 -0,005 0,005 0,000

21 rr 0,811 0,037 0,068 0,028 0,034 0,004 -0,132 0,777 0,272

22 rs 0,781 0,053 0,044 0,080 0,652 0,046 0,036 0,129 0,029

23 sc 0,943 0,054 0,050 0,090 0,733 0,059 0,048 0,210 0,054

24 se 0,926 0,030 0,036 -0,111 0,869 0,051 0,028 0,057 0,010

25 sp 0,967 0,053 0,042 0,086 0,767 0,053 0,044 0,200 0,044

26 to 0,746 0,038 0,007 -0,010 0,041 0,000 -0,041 0,705 0,027

Column Contributions

Component 1 Component 2

ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr

1 vida 0,247 0,150 0,046 0,029 0,230 0,017 -0,008 0,017 0,004

2 mort 0,716 0,191 0,073 -0,029 0,182 0,022 -0,049 0,534 0,199

3 anf 0,781 0,171 0,143 0,073 0,523 0,122 -0,051 0,259 0,191

4 fun 0,971 0,049 0,289 0,222 0,694 0,327 0,140 0,277 0,412

5 rdp 0,725 0,057 0,148 0,150 0,723 0,174 -0,008 0,002 0,002

6 ren 0,849 0,193 0,183 -0,090 0,710 0,211 0,040 0,139 0,131

7 nest 0,763 0,190 0,118 -0,071 0,661 0,127 0,028 0,102 0,062

0,20,10,0-0,1-0,2

0,2

0,1

0,0

-0,1

-0,2

Component 1

Co

mp

on

en

t 2

nestren

rdp

fun

anfmort

vida

to

spse

scrs

rr

rorn

rjpr

pipe

pb

pa

mtms

mg

magoes

ce ba

ap

am

al

ac

Symmetric Plot

Fonte: Elaborado pelo autor (Minitab 2016)

A análise gráfica possibilita identificar as variáveis que melhor são representativas para os

estados e; assim sendo, temos:

129

a) Variável T_FUNDIN_TODOS_MMEIO (fund) com o maior distanciamento em to-

dos os estados e, os que menos se distanciam são os 3 estados do sul

b) Variável RDPC (rdpc) Mato Grosso com maior proximidade

c) Variável T_ANALF25M (anaf) explica com maior representatividade o estado do

Amapá

d) Variável ESPVIDA (vida) com maior proximidade dos estados de São Paulo e Minas

Gerais

e) Variável MORT1 (mort) com maior proximidade para o estado do Tocantins

f) Variável RENOCUP (reno) com maior proximidade para os estados do Maranhão, Per-

nambuco e Sergipe

g) Variável T_NESTUDA_NTRAB_MMEIO (nest) com maior proximidade dos estados

de Pernambuco e Sergipe.

18.3 Análise De Correspondência Por Região Para As 7 Variáveis

Para esta análise foi necessário criar as médias das sete variáveis por Região, a seguir:

One-way ANOVA: MeanESPVIDAn versus REGIÃO M

Source DF SS MS F P

REGIÃO M 4 0,54443 0,13611 66,61 0,000

Error 21 0,04291 0,00204

Total 25 0,58734

S = 0,04520 R-Sq = 92,69% R-Sq(adj) = 91,30%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev --+---------+---------+---------+-------

CO 3 0,67313 0,01835 (---*----)

N 7 0,49153 0,05601 (--*--)

NE 9 0,36724 0,03815 (--*-)

S 3 0,73857 0,06200 (----*---)

SU 4 0,69105 0,03689 (---*---)

--+---------+---------+---------+-------

0,36 0,48 0,60 0,72

Pooled StDev = 0,04520

One-way ANOVA: MeanMORT1np versus REGIÃO M

Source DF SS MS F P

REGIÃO M 4 0,51163 0,12791 34,76 0,000

Error 21 0,07727 0,00368

Total 25 0,58890

S = 0,06066 R-Sq = 86,88% R-Sq(adj) = 84,38%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev ---------+---------+---------+---------+

130

CO 3 0,78610 0,06833 (---*----)

N 7 0,66890 0,06755 (---*--)

NE 9 0,50542 0,06886 (--*-)

S 3 0,88203 0,02300 (----*----)

SU 4 0,82245 0,02278 (---*---)

---------+---------+---------+---------+

0,60 0,75 0,90 1,05

Pooled StDev = 0,06066

One-way ANOVA: MeanT_ANALF25Mnp versus REGIÃO M

Source DF SS MS F P

REGIÃO M 4 0,81070 0,20268 42,09 0,000

Error 21 0,10111 0,00481

Total 25 0,91182

S = 0,06939 R-Sq = 88,91% R-Sq(adj) = 86,80%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev --------+---------+---------+---------+-

CO 3 0,74983 0,01344 (-----*-----)

N 7 0,61913 0,09352 (--*---)

NE 9 0,38502 0,05914 (---*--)

S 3 0,84563 0,04983 (----*-----)

SU 4 0,79018 0,07148 (----*---)

--------+---------+---------+---------+-

0,45 0,60 0,75 0,90

Pooled StDev = 0,06939

One-way ANOVA: MeanRDPCn versus REGIÃO M

Source DF SS MS F P

REGIÃO M 4 0,18187 0,04547 41,85 0,000

Error 21 0,02282 0,00109

Total 25 0,20469

S = 0,03296 R-Sq = 88,85% R-Sq(adj) = 86,73%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev -+---------+---------+---------+--------

CO 3 0,25170 0,00464 (---*----)

N 7 0,13166 0,04018 (--*---)

NE 9 0,09233 0,01411 (--*-)

S 3 0,31344 0,04334 (----*----)

SU 4 0,26463 0,05079 (---*---)

-+---------+---------+---------+--------

131

0,080 0,160 0,240 0,320

Pooled StDev = 0,03296

One-way ANOVA: MeanRENOCUPn versus REGIÃO M

Source DF SS MS F P

REGIÃO M 4 0,13339 0,03335 32,84 0,000

Error 21 0,02132 0,00102

Total 25 0,15471

S = 0,03187 R-Sq = 86,22% R-Sq(adj) = 83,59%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev -------+---------+---------+---------+--

CO 3 0,29420 0,01603 (----*----)

N 7 0,20266 0,04050 (---*---)

NE 9 0,11263 0,01516 (--*--)

S 3 0,28060 0,02203 (----*-----)

SU 4 0,26814 0,05215 (---*----)

-------+---------+---------+---------+--

0,140 0,210 0,280 0,350

Pooled StDev = 0,03187

One-way ANOVA: MeanT_NESTUDA_NTRAB_MMEIOnp versus REGIÃO M

Source DF SS MS F P

REGIÃO M 4 0,34631 0,08658 39,54 0,000

Error 21 0,04598 0,00219

Total 25 0,39229

S = 0,04679 R-Sq = 88,28% R-Sq(adj) = 86,05%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev -----+---------+---------+---------+----

CO 3 0,79047 0,01450 (-----*-----)

N 7 0,61441 0,06983 (--*---)

NE 9 0,57806 0,03189 (--*--)

S 3 0,88157 0,03097 (----*-----)

SU 4 0,80683 0,04562 (----*----)

-----+---------+---------+---------+----

0,60 0,70 0,80 0,90

Pooled StDev = 0,04679

132

One-way ANOVA: MeanT_FUNDIN_TODOS_MMEIOnp versus REGIÃO M

Source DF SS MS F P

REGIÃO M 4 0,38568 0,09642 20,96 0,000

Error 21 0,09659 0,00460

Total 25 0,48227

S = 0,06782 R-Sq = 79,97% R-Sq(adj) = 76,16%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev -------+---------+---------+---------+--

CO 3 0,78707 0,02972 (------*-----)

N 7 0,59743 0,09121 (----*---)

NE 9 0,55861 0,06019 (---*--)

S 3 0,85917 0,02808 (------*-----)

SU 4 0,81890 0,06916 (-----*-----)

-------+---------+---------+---------+--

0,60 0,72 0,84 0,96

Pooled StDev = 0,06782

Novas médias por região

regiões vida mort anf rdp ren nest fun

CO 0,67313 0,78610 0,74983 0,25170 0,29420 0,79047 0,78707

N 0,49153 0,66890 0,61913 0,13166 0,20266 0,61441 0,59743

NE 0,36724 0,50542 0,38502 0,09233 0,11263 0,57806 0,55861

S 0,73857 0,88203 0,84563 0,31344 0,28060 0,88157 0,85917

SU 0,69105 0,82245 0,79018 0,26463 0,26814 0,80683 0,81890

Após elaborar a tabela com as novas médias por região, rodou-se a análise de correspon-

dência por Região, seguindo a sequência conforme descrito:

STAT / MULTIVARIATE / SIMPLE CORRESPONDENCE / CAMPO CATEGORICAL VARI-

ABLES: REGISTRAR A COLUNA ONDE ESTÃO AS REGIÕES (em minúsculo; neste trabalho

ficou na coluna C75-T) / COLUMNS OF A CONTINGENCY: REGISTRAR AS 7 VARIÁVEIS

SELECIONADAS NOS TRABALHOS ANTERIORES E QUE SÃO OBJETO DE ESTUDO (co-

luna C72-T) / ROW NAMES: REGISTRAR A COLUNA ONDE ESTÃO AS REGIÕES / CO-

LUMN NAMES: REGISTRAR A COLUNA ONDE ESTÃO AS REGIÕES (em minúsculo; neste

trabalho ficou na coluna C75-T) /NUMBER OF COMPONENTS: 2 (equivale graficamente aos

eixos X e Y) / GRAPHS: MARCAR SIMMETRIC PLOT SHOWING ROWS AND COLUMNS

/ OK

133

Observar que as novas regiões são resultantes das anovas realizadas para obter as médias para

cada uma das variáveis e, portanto; devemos utilizar a nova coluna que se formou com “região

nova”.

Simple Correspondence Analysis: expvidaregia; mort1regiao; analf25Mregi;

rpdreg

Analysis of Contingency Table

Axis Inertia Proportion Cumulative Histogram

1 0,0044 0,7487 0,7487 ******************************

2 0,0012 0,2053 0,9541 ********

3 0,0002 0,0417 0,9958 *

4 0,0000 0,0042 1,0000

Total 0,0059

Row Contributions

Component 1 Component 2

ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr

1 CO 0,642 0,222 0,078 0,037 0,641 0,067 0,001 0,000 0,000

2 N 0,989 0,170 0,174 -0,026 0,113 0,026 -0,073 0,877 0,745

3 NE 1,000 0,133 0,589 -0,159 0,963 0,757 0,031 0,037 0,107

4 S 0,898 0,246 0,119 0,043 0,659 0,104 0,026 0,239 0,138

5 SU 0,906 0,229 0,040 0,030 0,855 0,045 0,007 0,051 0,010

Column Contributions

Component 1 Component 2

ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr

1 vida 0,956 0,152 0,026 0,031 0,934 0,032 0,005 0,022 0,003

2 mort 0,904 0,188 0,047 -0,025 0,441 0,027 -0,026 0,463 0,105

3 anf 0,938 0,174 0,114 0,046 0,536 0,082 -0,040 0,402 0,223

4 fun 0,994 0,054 0,381 0,179 0,766 0,390 0,098 0,229 0,425

5 rdp 0,821 0,059 0,145 0,100 0,693 0,134 -0,043 0,128 0,091

6 ren 0,990 0,188 0,163 -0,068 0,898 0,196 0,022 0,091 0,073

7 nest 0,972 0,186 0,123 -0,057 0,838 0,138 0,023 0,134 0,081

134

0,20,10,0-0,1-0,2

0,2

0,1

0,0

-0,1

-0,2

Component 1

Co

mp

on

en

t 2

nestren

rdp

fun

anfmort

vidaSU

SNE

N

CO

Symmetric Plot

A análise gráfica possibilita identificar as variáveis que melhor são representativas para os

estados e; assim sendo, temos:

a) Variáveis RENOCUP (reno) e T_NESTUDA_NTRAB_MMEIO (nest) com maior

proximidade na região Nordeste

b) Variável MORT1 (mort) com maior proximidade para a região Norte

c) Variáveis T_ANALF25M (anaf) e RDPC (rdp) com maior proximidade com as regiões

Sudeste e Centro Oeste

d) Variável ESPVIDA (vida) com maior proximidade das regiões Centro Oeste, Sudeste

e Sul.

e) Variável T_FUNDIN_TODOS_MMEIO (fund) também em termos de regiões se apre-

senta com um grande distanciamento de todas as regiões, ficando somente no mesmo

quadrante que contém as regiões Centro Oeste, Sudeste e Sul.

18.4 Análise De Correspondência Por Novos Agrupamentos (3 Clusters) Para As 7 Variáveis

Para esta análise foi necessário criar as médias das sete variáveis por Nova Região criada

(quando da divisão pelos 03 clusters nos trabalhos anteriores). Resgatando as análises anteriores,

as novas regiões estão assim subdivididas:

Região 01: Acre, Bahia, Pernambuco, Sergipe, Ceará, Rio Grande do Norte, Paraíba, Piauí, Ala-

goas e Maranhão.

Região 02: Amazonas, Pará, Roraima, Amapá e Tocantins.

Região 03 : Espírito Santo, Goiás, Paraná, Rio de Janeiro, Rio Grande do Sul, Santa Catarina, São

Paulo, Minas Gerais, Mato Grosso do Sul, Mato Grosso e Rondônia.

135

A exemplo do que foi elaborado para as regiões; também, para esta análise foi necessário

criar as médias das sete variáveis por 3 Novos Clusters formados, agora denominados Regiões 1,

2 e 3. O procedimento consistiu em novamente realizar a Anova tomando-se como base os grupos

anteriormente formados para os 26 estados e as médias que já haviam sido calculadas para os

estados versus as 7 variáveis; calculando-se desta forma novas médias e nova nomenclatura dos

grupos (respeitando-se a formação dos 3 clusters); a seguir temos os valores da Anova por variável:

One-way ANOVA: MeanESPVIDAn versus 3 novos grupos

Source DF SS MS F P

3 novos grupos 2 0,51260 0,25630 78,87 0,000

Error 23 0,07474 0,00325

Total 25 0,58734

S = 0,05701 R-Sq = 87,27% R-Sq(adj) = 86,17%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev ------+---------+---------+---------+---

REGIAO1 10 0,37319 0,04059 (--*---)

REGIAO2 5 0,49748 0,05747 (-----*----)

REGIAO3 11 0,68417 0,06834 (--*---)

------+---------+---------+---------+---

0,40 0,50 0,60 0,70

136

Pooled StDev = 0,05701

One-way ANOVA: MeanMORT1np versus 3 novos grupos

Source DF SS MS F P

3 novos grupos 2 0,49278 0,24639 58,96 0,000

Error 23 0,09611 0,00418

Total 25 0,58890

S = 0,06464 R-Sq = 83,68% R-Sq(adj) = 82,26%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev ---+---------+---------+---------+------

REGIAO1 10 0,51143 0,06764 (---*---)

REGIAO2 5 0,68258 0,06027 (-----*-----)

REGIAO3 11 0,81801 0,06356 (---*---)

---+---------+---------+---------+------

0,50 0,60 0,70 0,80

Pooled StDev = 0,06464

One-way ANOVA: MeanT_ANALF25Mnp versus 3 novos grupos

Source DF SS MS F P

3 novos grupos 2 0,83160 0,41580 119,21 0,000

Error 23 0,08022 0,00349

Total 25 0,91182

S = 0,05906 R-Sq = 91,20% R-Sq(adj) = 90,44%

Individual 95% CIs For Mean Based on Pooled StDev

Level N Mean StDev -+---------+---------+---------+--------

REGIAO1 10 0,39260 0,06069 (---*--)

REGIAO2 5 0,62496 0,05136 (---*----)

REGIAO3 11 0,79049 0,06043 (--*--)

-+---------+---------+---------+--------

0,36 0,48 0,60 0,72

Pooled StDev = 0,05906

One-way ANOVA: MeanRDPCn versus 3 novos grupos

Source DF SS MS F P

3 novos grupos 2 0,17630 0,08815 71,43 0,000

Error 23 0,02839 0,00123

Total 25 0,20469

S = 0,03513 R-Sq = 86,13% R-Sq(adj) = 84,93%

137

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev --------+---------+---------+---------+-

REGIAO1 10 0,09488 0,01556 (---*---)

REGIAO2 5 0,11994 0,02983 (----*----)

REGIAO3 11 0,26891 0,04759 (---*--)

--------+---------+---------+---------+-

0,120 0,180 0,240 0,300

Pooled StDev = 0,03513

One-way ANOVA: MeanRENOCUPn versus 3 novos grupos

Source DF SS MS F P

3 novos grupos 2 0,12756 0,06378 54,02 0,000

Error 23 0,02716 0,00118

Total 25 0,15471

S = 0,03436 R-Sq = 82,45% R-Sq(adj) = 80,92%

Individual 95% CIs For Mean Based on Pooled StDev

Level N Mean StDev +---------+---------+---------+---------

REGIAO1 10 0,12066 0,02913 (---*----)

REGIAO2 5 0,19598 0,04377 (-----*------)

REGIAO3 11 0,27661 0,03443 (---*----)

+---------+---------+---------+---------

0,100 0,150 0,200 0,250

Pooled StDev = 0,03436

One-way ANOVA: MeanT_NESTUDA_NTRAB_MMEIOnp versus 3 novos gru-

pos

Source DF SS MS F P

3 novos grupos 2 0,34962 0,17481 94,23 0,000

Error 23 0,04267 0,00186

Total 25 0,39229

S = 0,04307 R-Sq = 89,12% R-Sq(adj) = 88,18%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev -+---------+---------+---------+--------

REGIAO1 10 0,58079 0,03129 (---*--)

REGIAO2 5 0,58830 0,03964 (----*----)

REGIAO3 11 0,81795 0,05251 (--*---)

-+---------+---------+---------+--------

0,560 0,640 0,720 0,800

138

Pooled StDev = 0,04307

One-way ANOVA: MeanT_FUNDIN_TODOS_MMEIOnp versus 3 novos grupos

Source DF SS MS F P

3 novos grupos 2 0,38367 0,19183 44,75 0,000

Error 23 0,09861 0,00429

Total 25 0,48227

S = 0,06548 R-Sq = 79,55% R-Sq(adj) = 77,78%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev ---------+---------+---------+---------+

REGIAO1 10 0,55242 0,06003 (---*----)

REGIAO2 5 0,59612 0,08404 (-----*-----)

REGIAO3 11 0,81082 0,06158 (---*---)

---------+---------+---------+---------+

0,60 0,70 0,80 0,90

Pooled StDev = 0,06548

Novas médias por Grupos

Região vida mort anf rdp ren nest fun

Região1 0,37319 0,51143 0,39260 0,09488 0,12066 0,58079 0,55242

Região2 0,49748 0,68258 0,62496 0,11994 0,19598 0,58830 0,59612

Região3 0,68417 0,81801 0,79049 0,26891 0,27661 0,81795 0,81082

STAT / MULTIVARIATE / SIMPLE CORRESPONDENCE / CAMPO CATEGORICAL VARI-

ABLES: REGISTRAR A COLUNA ONDE ESTÃO OS NOVOS AGRUPAMENTOS (em mi-

núsculo; neste trabalho ficou na coluna C84-T) / COLUMNS OF A CONTINGENCY: REGIS-

TRAR AS 7 VARIÁVEIS SELECIONADAS NOS TRABALHOS ANTERIORES E QUE SÃO

OBJETO DE ESTUDO já calculadas com as Anovas / ROW NAMES: REGISTRAR A COLUNA

ONDE ESTÃO OS NOVOS AGRUPAMENTOS (coluna C84-T) / COLUMN NAMES: REGIS-

TRAR A COLUNA ONDE ESTÃO OS NOVOS AGRUPAMENTOS (em minúsculo; neste tra-

balho ficou na coluna C72-T) / NUMBER OF COMPONENTS: 2 (equivale graficamente aos ei-

xos X e Y) / GRAPHS: MARCAR SIMMETRIC PLOT SHOWING ROWS AND COLUMNS /

OK

139

Simple Correspondence Analysis: expivdagrupo; mort1grupos; analf25Mgrup;

rdpgru

Analysis of Contingency Table

Axis Inertia Proportion Cumulative Histogram

1 0,0056 0,6743 0,6743 ******************************

2 0,0027 0,3257 1,0000 **************

Total 0,0082

Row Contributions

Component 1 Component 2

ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr

1 GRUPO1 1,000 0,253 0,477 -0,121 0,948 0,671 -0,028 0,052 0,076

2 GRUPO2 1,000 0,318 0,224 0,009 0,014 0,005 0,076 0,986 0,677

3 GRUPO3 1,000 0,430 0,299 0,065 0,732 0,324 -0,039 0,268 0,246

Column Contributions

Component 1 Component 2

ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr

1 vida 1,000 0,150 0,016 0,030 0,995 0,024 0,002 0,005 0,000

2 mort 1,000 0,193 0,063 -0,020 0,151 0,014 0,048 0,849 0,164

3 anf 1,000 0,174 0,159 0,068 0,609 0,144 0,054 0,391 0,191

4 fun 1,000 0,047 0,368 0,193 0,573 0,313 -0,167 0,427 0,483

5 rdp 1,000 0,057 0,091 0,114 0,977 0,132 0,017 0,023 0,006

6 ren 1,000 0,191 0,197 -0,083 0,811 0,237 -0,040 0,189 0,115

7 nest 1,000 0,188 0,105 -0,063 0,873 0,136 -0,024 0,127 0,041

0,20,10,0-0,1-0,2

0,2

0,1

0,0

-0,1

-0,2

Component 1

Co

mp

on

en

t 2

nestren

rdp

fun

anfmort

vida

REGIÃO3

REGIÃO2

REGIÃO1

Symmetric Plot

140

Observando-se a disposição no gráfico, percebe-se que as regiões com maiores correspon-

dências, são:

a) Região1 as variáveis T_NESTUDA_NTRAB_MMEIO (nest) e RENOCUP (ren) são as

que mais proximidade têm

b) Região2 as variáveis MORT1(mort), T_ANALF25M(anf) são as com maior proximidade

e

c) Região3 a variável EXPVIDA(vida) é a que tem maior proximidade

d) A variável T_FUNDIN_TODOS_MMEIO(fun) também na análise de correspondência por

Região (Novos Clusters) continua distante das regiões formadas.

18.5 Análise De Correspondência Por Estado Para As 3 Variáveis Analisadas No Trabalho

Anterior De Regressão Logística

Para esta análise utilizou-se das variáveis: ESPVIDA, MORT1 e RENOCUP resultante da

análise feita anteriormente para escolha das mais representativas dentre as 7 variáveis objeto de

estudo

Novamente buscou-se as médias por estados para as 3 variáveis, realizando-se as Anovas

para cada uma delas; uma vez calculadas as novas médias, foi possível realizar a análise de cor-

respondências conforme segue o passo a passo abaixo;

STAT / MULTIVARIATE / SIMPLE CORRESPONDENCE

CAMPO CATEGORICAL: ESTADOS (em minúsculo; neste trabalho ficou na coluna C80-T)

COLUMNS OF A CONTINGENCY: AS 3 VARIÁVEIS SELECIONADAS NOS TRABALHOS

ANTERIORES E QUE SÃO OBJETO DE ESTUDO (ESPVIDA, MORT1 e RENOCUP)

ROW NAMES: REGISTRAR A COLUNA ONDE ESTÃO OS ESTADOS (coluna C80-T)

COLUMN NAMES: A NOVA COLUNA ONDE ESTÃO OS NOMES DAS 3 VARIÁVEIS (em

minúsculo; neste trabalho ficou na coluna C84-T) / NUMBER OF COMPONENTS: 2 (equivale

graficamente aos eixos X e Y) / GRAPHS: MARCAR SIMMETRIC PLOT SHOWING ROWS

AND COLUMNS / OK

Simple Correspondence Analysis: expvid; morte1; renocupa

Analysis of Contingency Table

Axis Inertia Proportion Cumulative Histogram

1 0,0051 0,8419 0,8419 ******************************

2 0,0010 0,1581 1,0000 *****

Total 0,0061

141

Row Contributions

Component 1 Component 2

ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr

1 ac 1,000 0,032 0,018 0,046 0,617 0,013 0,036 0,383 0,044

2 al 1,000 0,022 0,000 -0,002 0,948 0,000 -0,001 0,052 0,000

3 am 1,000 0,033 0,037 -0,070 0,718 0,031 0,044 0,282 0,066

4 ap 1,000 0,041 0,074 0,071 0,449 0,040 0,078 0,551 0,259

5 ba 1,000 0,029 0,044 -0,096 1,000 0,052 0,001 0,000 0,000

6 ce 1,000 0,030 0,115 -0,154 1,000 0,137 0,001 0,000 0,000

7 es 1,000 0,049 0,007 -0,007 0,053 0,000 -0,029 0,947 0,043

8 go 1,000 0,050 0,005 0,025 0,980 0,006 -0,004 0,020 0,001

9 ma 1,000 0,022 0,008 -0,044 0,948 0,009 -0,010 0,052 0,003

10 mg 1,000 0,046 0,040 -0,038 0,276 0,013 -0,062 0,724 0,185

11 ms 1,000 0,046 0,120 0,120 0,915 0,131 -0,037 0,085 0,065

12 mt 1,000 0,048 0,073 0,096 0,998 0,086 0,004 0,002 0,001

13 pa 1,000 0,034 0,012 -0,045 0,931 0,014 0,012 0,069 0,005

14 pb 1,000 0,027 0,085 -0,137 0,996 0,101 -0,008 0,004 0,002

15 pe 1,000 0,028 0,027 -0,073 0,907 0,029 0,023 0,093 0,016

16 pi 1,000 0,025 0,076 -0,135 0,995 0,089 -0,009 0,005 0,002

17 pr 1,000 0,049 0,002 0,014 0,805 0,002 0,007 0,195 0,002

18 rj 1,000 0,048 0,050 0,077 0,925 0,055 0,022 0,075 0,024

19 rn 1,000 0,031 0,042 -0,090 0,972 0,048 0,015 0,028 0,007

20 ro 1,000 0,040 0,032 0,054 0,611 0,023 0,043 0,389 0,079

21 rr 1,000 0,042 0,007 -0,029 0,843 0,007 0,013 0,157 0,007

22 rs 1,000 0,053 0,011 0,004 0,012 0,000 -0,036 0,988 0,070

23 sc 1,000 0,054 0,034 0,048 0,597 0,024 -0,039 0,403 0,087

24 se 1,000 0,028 0,015 -0,054 0,890 0,016 0,019 0,110 0,010

25 sp 1,000 0,052 0,063 0,084 0,944 0,071 -0,020 0,056 0,022

26 to 1,000 0,039 0,001 -0,012 0,889 0,001 0,004 0,111 0,001

Column Contributions

Component 1 Component 2

ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr

1 vida 1,000 0,377 0,099 0,004 0,010 0,001 -0,040 0,990 0,622

2 mort 1,000 0,480 0,254 -0,052 0,833 0,252 0,023 0,167 0,268

3 ren 1,000 0,143 0,646 0,164 0,973 0,747 0,027 0,027 0,110

142

0,20,10,0-0,1-0,2

0,2

0,1

0,0

-0,1

-0,2

Component 1

Co

mp

on

en

t 2

renmort

v ida

to

sp

se

scrs

rr

ro

rn rjpr

pi

pe

pb

pamt

ms

mg

mago

es

ce ba

ap

am

al

ac

Symmetric Plot

Podemos observar através da representação gráfica, que:

a) Variável RENOCUP (ren) tem menor relevância nos estados, ficando com maior proximi-

dade dos estados do Mato Grosso e Rio de Janeiro.

b) Variável ESPVIDA (vida) tem maior proximidade com os estados do Rio Grande do Sul e

Espírito Santo, ficando distante de Amapá.

c) Variável MORT1 (mort) tem proximidade com os estados do Pará, Maranhão, Roraima,

Amazonas, Pernambuco e Tocantins. Ficando totalmente distante de Mato Grosso do Sul.

18.6 Comentários sobre a Análise de Correspondência

Esta análise praticamente corrobora as análises anteriores, mostrando os Brasis dentro do

mesmo Brasil e pertencentes ao sistema Federativo; pois, a análise de correspondência simples

decompôs uma tabela até chegarmos às 3 variáveis que melhor explicam (dentre as que foram

selecionadas pelo pesquisador) as condições nos estados brasileiros. Os resultados reafirmam o

que já havia sido diagnosticado em exercício anterior; ou seja, uma grande disparidade em termos

sociais quando comparamos as regiões Sul e Norte se pudermos traçar uma linha divisória entre

os 2 Brasis que predominam, ficando a região acima dessa linha divisória com indicadores mais

preocupantes do ponto de vista econômico-social. Se pensarmos que se trata de uma nação com as

dimensões e características do Brasil e um regime de União Federativo, muito há que se fazer para

minorar essas diferenças entre sul e o norte.

143

CAPÍTULO XIX. ÁRVORE DE CLASSIFICAÇÃO

Para elaboração desta análise foi utilizado o software estatístico SPSS que possibilita indi-

car qual a variável que melhor separa os grupos e classifica as variáveis por ordem de importância

na separação dos grupos. A seguir é demonstrado o teste desse modelo.

Analysis Case Processing Summary

Unweighted Cases N Percent

Valid 26 100,0

Exclu-

ded

Missing or out-of-

range group codes

0 ,0

At least one missing

discriminating variable

0 ,0

Both missing or out-of-

range group codes and

at least one missing

discriminating variable

0 ,0

Total 0 ,0

Total 26 100,0

144

Group Statistics

Grupos de estados Valid N (listwise)

Unweighte

d

Weighte

d

1,00 MeanMORT1np 8 8,000

Me-

anT_ANALF25Mnp

8 8,000

MeanRDPCn 8 8,000

MeanRENOCUPn 8 8,000

MeanT_NES-

TUDA_NTRAB_MM

EIOnp

8 8,000

MeanT_FUNDIN_TO-

DOS_MMEIOnp

8 8,000

2,00 MeanMORT1np 8 8,000

Me-

anT_ANALF25Mnp

8 8,000

MeanRDPCn 8 8,000

MeanRENOCUPn 8 8,000

MeanT_NES-

TUDA_NTRAB_MM

EIOnp

8 8,000

MeanT_FUNDIN_TO-

DOS_MMEIOnp

8 8,000

3,00 MeanMORT1np 10 10,000

Me-

anT_ANALF25Mnp

10 10,000

MeanRDPCn 10 10,000

MeanRENOCUPn 10 10,000

MeanT_NES-

TUDA_NTRAB_MM

EIOnp

10 10,000

MeanT_FUNDIN_TO-

DOS_MMEIOnp

10 10,000

Total MeanMORT1np 26 26,000

Me-

anT_ANALF25Mnp

26 26,000

MeanRDPCn 26 26,000

MeanRENOCUPn 26 26,000

MeanT_NES-

TUDA_NTRAB_MM

EIOnp

26 26,000

MeanT_FUNDIN_TO-

DOS_MMEIOnp

26 26,000

145

Eigenvalues

Func-

tion

Eigenva-

lue

% of Vari-

ance

Cumulative

%

Canonical

Correlation

d

i

m

e

n

s

i

o

n

0

1 1,023a 62,8 62,8 ,711

2 ,607a 37,2 100,0 ,615

a. First 2 canonical discriminant functions were used in the analy-

sis.

Standardized Canonical Discriminant

Function Coefficients

Function

1 2

MeanMORT1np -,097 ,953

Me-

anT_ANALF25Mnp

,425 -,377

MeanRDPCn -,163 -,624

MeanRENOCUPn ,029 ,807

MeanT_NES-

TUDA_NTRAB_MM

EIOnp

,532 ,381

MeanT_FUNDIN_TO-

DOS_MMEIOnp

,840 -,262

146

Structure Matrix

Function

1 2

MeanT_FUNDIN_TO-

DOS_MMEIOnp

,705* -,087

Me-

anT_ANALF25Mnp

,589* ,098

MeanT_NES-

TUDA_NTRAB_MM

EIOnp

,422* ,110

MeanRDPCn ,406* -,081

MeanMORT1np ,138 ,561*

MeanRENOCUPn ,456 ,480*

Pooled within-groups correlations between

discriminating variables and standardized

canonical discriminant functions

Variables ordered by absolute size of corre-

lation within function.

*. Largest absolute correlation between each

variable and any discriminant function

Functions at Group Centroids

Grupos de esta-

dos

Function

1 2

dimen-

sion0

1,00 -1,269 ,502

2,00 -,020 -1,099

3,00 1,031 ,477

Unstandardized canonical discriminant

functions evaluated at group means

147

148

Classification

Observed Predicted

1,00 2,00 3,00

Percent Cor-

rect

1,00 7 0 1 87,5%

2,00 0 5 3 62,5%

3,00 0 0 10 100,0%

Overall Percen-

tage

26,9% 19,2% 53,8% 84,6%

Growing Method: CHAID

Dependent Variable: Grupos de estados

Foi possível observar que tanto pelo software Minitab 16 (através da Regressão Logística

Nominal), quanto pela ferramenta SPSS (Árvore de Classificação e Regressão), a variável que

apresenta maior importância na separação dos estados é T_FUNDIN_TODOS_MMEIO.

CAPÍTULO XX. RANKING POR ESTADOS

Recordando o procedimento para normalização e/ou positivação das variáveis seleciona-

das; neste capítulo praticamente de finalização do estudo, descrevemos os passos que foram reali-

zados.

Fórmulas utilizadas

Passos no Minitab: CALC / CALCULADORA

Para normalização

Construir equação selecionando na caixa de opções funções a opção MINIMO e MAXIMO.

A equação: (c9-MIN(c9))/(MAX(c9)-MIN(c9))

Para positivação

Para os dados que representam valores

A Equação: 1-((c8-MIN(c8))/(MAX(c8)-MIN(c8)))

20.1 Análise dos Principais Componentes

Dando sequência em relação às variáveis objetos do trabalho, realizou-se nova análise dos

principais componentes para determinar o número de componentes que serão trabalhados:

A sequência de operações foi: STAT/Multivariate/Principal Components/Variables (as 7

selecionadas)/ Number of componentes = 5 / Sorage: as 5 colunas vazias onde serão registrados

os PC1 a PC5

149

Tabela 30. Principais componentes

Principal Component Analysis: MeanESPVIDAn; MeanMORT1np;

MeanT_ANALF2; MeanRDPC

Eigenanalysis of the Correlation Matrix

Eigenvalue 6,4851 0,2322 0,1376 0,0677 0,0497 0,0167 0,0111

Proportion 0,926 0,033 0,020 0,010 0,007 0,002 0,002

Cumulative 0,926 0,960 0,979 0,989 0,996 0,998 1,000

Variable PC1 PC2 PC3 PC4 PC5

MeanESPVIDAn 0,385 -0,124 0,308 0,299 0,459

MeanMORT1np 0,376 -0,385 0,557 0,060 0,066

MeanT_ANALF25Mnp 0,379 -0,391 -0,132 0,089 -0,761

MeanRDPCn 0,384 0,344 -0,189 0,112 0,171

MeanRENOCUPn 0,371 -0,359 -0,683 -0,230 0,358

MeanT_NESTUDA_NTRAB_MMEIOnp 0,374 0,559 -0,119 0,453 -0,198

MeanT_FUNDIN_TODOS_MMEIOnp 0,377 0,352 0,247 -0,793 -0,100 Fonte: Elaborado pelo autor (Minitab 2016).

O ideal é utilizar os componentes com Eigenvalue maior que 1. Com esta base, obtivemos

somente um componente (PC1) e, no caso a variável com maior representatividade foi “Mea-

nESPVIDAn”.

20.2 Análise dos Principais Componentes

O passo seguinte foi rodar a regressão Stepwise com os dados das 7 variáveis que compu-

seram o PC1, gerando uma nova coluna no Minitab e, desta forma possibilitou conhecer as variá-

veis que mais influenciam os componentes (R-Sq)

A sequência de operações foi: STAT/Regression/Stepwise/Response = PC1/Predictors (as

7 variáveis)

150

Tabela 31. Regressão das 7 variáveis

Stepwise Regression: PC1 versus MeanESPVIDAn; MeanMORT1np; ...

Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15

Response is PC1 on 7 predictors, with N = 26

Step 1 2 3 4 5 6

Constant -8,607 -6,922 -7,104 -8,210 -8,319 -9,559

MeanESPVIDAn 16,28 8,56 5,03 4,52 4,53 4,67

T-Value 24,08 6,64 5,54 6,89 8,55 11,63

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

MeanRDPCn 13,8 11,9 8,5 7,1 2,8

T-Value 6,33 9,22 7,23 6,99 2,13

P-Value 0,000 0,000 0,000 0,000 0,047

MeanT_ANALF25Mnp 3,93 3,85 3,00 2,75

T-Value 6,83 9,41 7,27 8,65

P-Value 0,000 0,000 0,000 0,000

MeanT_FUNDIN_TODOS_MMEIOnp 3,01 3,35 3,38

T-Value 4,73 6,40 8,55

P-Value 0,000 0,000 0,000

MeanRENOCUPn 3,11 4,33

T-Value 3,49 5,86

P-Value 0,002 0,000

MeanT_NESTUDA_NTRAB_MMEIOnp 2,64

T-Value 4,01

P-Value 0,001

S 0,518 0,320 0,185 0,132 0,106 0,0804

R-Sq 96,03 98,55 99,54 99,78 99,86 99,92

R-Sq(adj) 95,86 98,42 99,47 99,73 99,83 99,90 Fonte: Elaborado pelo autor (Minitab 2016).

Ao rodar novamente a análise dos principais componentes com as 7 variáveis e agora com

apenas um componente; visto que, identificou-se que a proporção já representava 96,03% e com

somente uma variável (MeanESPVIDAn) para compor a fórmula que irá indicar a nova coluna dos

componentes por Estados; obteve-se os resultados apresentados na tabela a seguir:

A sequência de operações foi: STAT/Multivariate/Principal Components/Variables (as 7

selecionadas)/ Number of componentes = 1

151

ESTA-

DOS PC1

ac -1,78415

al -3,77314

am -1,92969

ap 0,315559

ba -2,07167

ce -2,27306

es 2,231413

go 2,556544

ma -3,3412

mg 1,483005

ms 2,137355

mt 2,309331

pa -1,29062

pb -2,70558

pe -2,32833

pi -3,09925

pr 2,780591

rj 2,95888

rn -1,97672

ro 0,99936

rr -0,59793

rs 3,780273

sc 4,205869

se -2,11803

sp 3,78832

to -0,25713

Uma vez realizada a análise dos principais componentes foi possível conhecer os dados que

iriam compor a fórmula com estes novos dados; considerando-se que a proporção é de 92,6% e a

variável com maior influência (MeanESPVIDAn) *também teve um alto impacto, onde R-Sq ficou

em 96,03%, foi possível determinar a expressão conforme descrito a seguir:

A sequência de operações foi: CALC/Calculator/Store result (definir coluna vazia)/Expres-

sion: 0,926 (proportion obtido em principais componentes) *(0,9603 que corresponde ao R-Sq de

MeanESPVIDAn*MeanESPVIDAn)

A tabela a seguir apresenta os Componentes versus Estados

152

ESTA-

DOS Comp.BR

ac 0,379438

al 0,271129

am 0,374903

ap 0,448532

ba 0,351338

ce 0,358274

es 0,615708

go 0,614819

ma 0,275397

mg 0,608239

ms 0,598724

mt 0,582184

pa 0,410917

pb 0,335865

pe 0,335598

pi 0,311233

pr 0,5949

rj 0,577204

rn 0,363965

ro 0,468273

rr 0,505532

rs 0,674665

sc 0,700719

se 0,33631

sp 0,65688

to 0,472007

O próximo passo foi criar uma nova coluna para normalização das variáveis tomando-se

como base a coluna Componentes BR e, aplicando a fórmula: 100* (xx-MIN(xx))/(MAX(xx)-

MIN(xx)), onde xx é a nova coluna criada no passo anterior.

A sequência de operações foi: CALC/Calculator/Store result (definir coluna vazia)/Expres-

sion: 100* (xx-MIN(xx))/(MAX(xx)-MIN(xx)), onde xx é a nova coluna criada no passo anterior

153

ESTA-

DOS

Normaliza-

ção

ac 25,21

al 0,00

am 24,16

ap 41,30

ba 18,67

ce 20,29

es 80,21

go 80,00

ma 0,99

mg 78,47

ms 76,26

mt 72,41

pa 32,54

pb 15,07

pe 15,01

pi 9,34

pr 75,37

rj 71,25

rn 21,61

ro 45,89

rr 54,56

rs 93,94

sc 100,00

se 15,17

sp 89,80

to 46,76

O próximo passo é a ordenação do ranking, utilizando a nova coluna normalizada com a

variável categórica ESTADO, do maior para o menor.

A sequência de operações foi: DATA/Sort/Sort Column: colunas onde estão os dados dos

Estados e os valores normalizados/By Column: Onde estão os valores normalizados e marcar des-

cending/Columns of current worksheet: 2 novas colunas onde serão ranqueados os estados versus

resultados.

154

Esta-

dos.BR Ranking

sc 100,00

rs 93,94

sp 89,80

es 80,21

go 80,00

mg 78,47

ms 76,26

pr 75,37

mt 72,41

rj 71,25

rr 54,56

to 46,76

ro 45,89

ap 41,30

pa 32,54

ac 25,21

am 24,16

rn 21,61

ce 20,29

ba 18,67

se 15,17

pb 15,07

pe 15,01

pi 9,34

ma 0,99

al 0,00

CONSIDERAÇÕES FINAIS

Mesmo trabalhando com um componente principal, sendo a variável com maior influência

nesta análise MeanESPVIDAn, Esperança de Vida ao nascer, o resultado deste estudo apresenta

muita similaridade com todas as análises anteriores, ou seja, os Estados do Sul, Sudeste e Centro-

Oeste apresentam os melhores indicadores e os Estados do Norte e Nordeste os piores indicadores.

Podemos constatar com os dados expostos nestas análises, o que já de certa forma havíamos

identificado nos levantamentos anteriores; ou seja, a disparidade social entre os dois Brasis, o

composto pelos Estados na parte de “cima” do mapa e os estados que compõem a parte de “baixo”

do mapa.

Desta forma podemos atestar que os problemas municipais brasileiros não são meramente

regionais e sim a discrepância em termos de políticas nacionais; uma vez que, o sistema brasileiro

é Federativo e portanto, deveria conduzir ao atendimento de toda a população do Brasil.

Nesta análise específica os três Estados com melhores indicadores foram; lembrando sem-

pre que excluímos por conveniência o Distrito Federal:

155

Santa Catarina (Sul) – 1º

Rio Grande do Sul (Sul) – 2º

São Paulo (Sudeste) - 3º

Já os três Estados com os piores indicadores foram:

Piauí (Norte) - 24º

Maranhão (Norte) – 25º

Alagoas (Nordeste) – 26º

156

REFERÊNCIAS

ANDERSON, David R.; SWEENEY, Dennis J.; WILLIAMS, Thomas A. Estatística aplicada

à administração e economia. 2. ed. São Paulo: Thomson Learning, 2007.

ATLAS DO DESENVOLVIMENTO HUMANO NO BRASIL. Disponível em: <http://www.atlas

brasil.org.br/2013/>. Acessado em: 17 mar. 2017.

IBGE, Instituto Brasileiro de Geografia e Estatística. Séries Históricas e Estatísticas. Dispo

nível em: <http://seriesestatisticas.ibge.gov.br/apresentacao.aspx>. Acessado em: 30 mar.

2017.

LAS CASAS A., DE HOYOS A. Pesquisa de Marketing. São Paulo, Ed. Atlas, 2010.