analise de agrupamentos uem
Post on 25-Jul-2015
131 Views
Preview:
TRANSCRIPT
UNIVERSIDADE EDUARDO MONDLANE
FACULDADE DE CIÊNCIAS
DEPARTAMENTO DE MATEMÁTICA E INFORMÁTICA
Trabalho de Licenciatura em Estatística
CONTRIBUIÇÃO DA ANÁLISE DE AGRUPAMENTOS NA IDENTIFICAÇÃO DE
SEGMENTOS DE DISTRITOS POTENCIAIS PRODUTORES DE CEREAIS EM
MOÇAMBIQUE
Autor:
Frederico Machado Almeida
Maputo, Abril de 2014
UNIVERSIDADE EDUARDO MONDLANE
FACULDADE DE CIÊNCIAS
DEPARTAMENTO DE MATEMÁTICA E INFORMÁTICA
Trabalho de Licenciatura em Estatística
CONTRIBUIÇÃO DA ANÁLISE DE AGRUPAMENTOS NA IDENTIFICAÇÃO DE
SEGMENTOS DE DISTRITOS POTENCIAIS PRODUTORES DE CEREAIS EM
MOÇAMBIQUE
Autor: Supervisor:
Frederico Machado Almeida Dr. Osvaldo Francisco Loquiha
Maputo, Abril de 2014
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
iii Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
Em memória de:
Zeferino António Sócrates e
Anatol António Sócrates
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
iv Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
“A coisa mais bela que o homem pode
experimentar é o mistério. É essa emoção
que está na raiz de toda ciência e toda a
arte”.
Albert Einsten, físico Alemão (1879-1955)
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
v Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
AGRADECIMENTOS
Esta foi uma das partes mais difíceis deste trabalho, pois, não é fácil enumerar ou listar em
poucas linhas, todos quanto directa ou indirectamente contribuíram para a formação do homem
que hoje sou e, consciente que o anónimo também tem o seu lugar reservado no fundo do meu
coração.
Deste modo, agradeço em primeiro lugar à Deus que sempre me guiou e estendeu suas mãos nos
momentos difíceis, me dando força, coragem e saúde para vencer os obstáculos.
Ao meu supervisor, o Dr. Osvaldo Loquiha, expresso toda a minha gratidão pela confiança
irrestrita, pelo seu apoio e incentivos que foram fundamentais para a construção de um ambiente
que permitiu o desenvolvimento deste trabalho.
Ao Eng. agrónomo Aurélio Mathe, vai o meu agradecimento pela compreensão, paciência e, pela
ajuda tanto na obtenção da base de dados como pelas referências bibliográficas por ele
recomendadas.
Expresso também, todo o meu agradecimento aos meus pais Machado Almeida e Matilde
Marcelino, pela minha formação moral e educacional, e que por vezes privaram-se materialmente
em prol da minha formação.
A toda a minha família no geral e, em especial aos meus irmãos, Ereneu M. Almeida, Sónia A.
Sócrates, aos meus sobrinhos Fausio, Zeferino António Jr. e José Machado Jr.
Ao meu irmão José Machado Almeida vai um agradecimento especial por tudo o que fez em prol
da minha formação, pelos conselhos que me tornaram na pessoa que hoje sou, pelo apoio
financeiro e moral, em fim, por ter acreditado no meu potencial.
A todos os docentes do Departamento de Matemática e Informática, em especial ao MSc.
Alberto Mulenga a Drª. Ida Alvarinho, a Drª. Rafica, ao Prof. Dr. Manuel Alves, ao dr. Jonas
Nassabe e ao dr. Rachid Muleia vai um agradecimento especial pelos conhecimentos transmitido.
Aos meus colegas do curso e do departamento, em especial ao Mabjaia, Lucasse, Cristóvão
Tinga, Cumbe, Aly e, aos drs. Mauro Langa, Alberto Chauque, Zacarias Mutombene e Américo
Tamele, um agradecimento pelo crescimento que obtivemos em conjunto.
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
vi Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
DECLARAÇÃO DE HONRA
Declaro que este trabalho é resultado da minha própria investigação, que não foi submetido para outro
grau que não seja o indicado-Licenciatura em Estatística, da Universidade Eduardo Mondlane.
Maputo, aos 01 de Abril de 2014
O estudante
_____________________________________
(Frederico Machado Almeida)
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
vii Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
RESUMO
A agricultura constitui uma importante fonte de rendimento e de auto-sustento para maior parte
da população africana no geral e a moçambicana em particular. Em Moçambique, o sector
agrário tem beneficiado de recursos do estado bastante reduzidos, embora a maior parte da
população se dedique a agricultura. Com o objectivo de encontrar segmentos de distritos com
semelhantes níveis na produção de cereais, foram usados os métodos de análise de
Agrupamentos, que com base nas medidas de similaridade ou dissimilaridade permite segmentar
sujeitos ou casos em grupos homogéneos relativamente a uma ou mais características em
comum. A população do presente trabalho é o total dos 128 distritos existentes em Moçambique
no período em análise, destes, foram seleccionados 94 distritos abrangidos pelo Trabalho de
Inquéritos Agrícolas. Com base no coeficiente de correlação cofenética, conclui-se que o critério
de ligação completa apresentou bons resultados em relação ao método de Ward. Uma aplicação
da MANOVA mostrou que as duas variáveis respostas usadas são potências em diferenciar os
vectores de média entre dos grupos, sendo, a variável estimativa do orçamento total a mais
poderosa em diferenciar os grupos segundo os intervalos simultâneos de Bonferroni. Uma análise
conjunta das potencialidades dos distritos mostrou que no geral, distritos com altas precipitações
e/ou altas temperaturas, tendem a ser por vezes potenciais produtores de arroz, feijão nhemba e
feijão manteiga.
Palavras-chaves: Agricultura, Análise de Agrupamentos, ligação completa, distância euclidiana e
Manova.
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
viii Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
LISTA DE ABREVIATURAS
AA Análise de Agrupamentos
ANOVA Análise Univariada de Variância
COF Coeficiente de Correlação Cofénetica
DUAT Direito de Uso e Aproveitamento de Terra
EM Estatística Multivariada
FAO Food and Agriculture Organization
INAM Instituto Nacional de Meteorologia
INE Instituto Nacional de Estatística
MANOVA Análise Multivariada de Variância
MINAG Ministério de Agricultura
PDA Programa de Desenvolvimento da Agricultura
PIB Produto Interno Bruto
ERV Estratégia Revolução Verde
SPSS Statistic Package for the Social Sciences
SQPC Soma dos Quadrados e Produtos Cruzado
Tª Min Temperatura Mínima
Tª Max Temperatura Máxima
TIA Trabalhos de Inquéritos Agrícolas
UPA´s Unidades de Amostragens Primarias
ÍNDICE PÁGINAS
CAPÍTLO I: INTRODUÇÃO .............................................................................................. 1
1.1 OBJECTIVOS ................................................................................................................... 3
1.1.1 Objectivo geral ........................................................................................................... 3
1.1.2 Objectivos Específicos ............................................................................................... 3
CAPÍTULO II: REVISÃO DA LITERATURA ................................................................. 4
2.1 A politica agrária em Moçambique ................................................................................... 4
2.2 Algumas considerações e conceitos importantes .............................................................. 6
CAPÍTULO III: MATERIAL E MÉTODOS ..................................................................... 9
3.1 Material .............................................................................................................................. 9
3.2 Métodos ........................................................................... Error! Bookmark not defined.
3.2.1 Técnicas Estatísticas ................................................. Error! Bookmark not defined.
3.2.2 Análise de Agrupamentos ......................................... Error! Bookmark not defined.
3.2.3 Etapas para a realização da AA ................................ Error! Bookmark not defined.
3.2.4 Medidas de Semelhanças e Distância ....................... Error! Bookmark not defined.
3.2.4.1 Medidas de Similaridade para Variáveis QuantitativasError! Bookmark not
defined.
3.2.4.2 Medidas de Semelhança para variáveis qualitativasError! Bookmark not defined.
3.2.4.3 Coeficientes Combinados ................................................................................ 14
3.2.5 Métodos de Agrupamentos ....................................... Error! Bookmark not defined.
3.2.5.1 Métodos hierárquicos ...................................... Error! Bookmark not defined.
3.2.5.2 Métodos não-hierárquicos ............................................................................... 18
3.3 Critérios para a determinação do número de grpos à reter .............................................. 19
3.4 Formação dos Agrupamentos .......................................... Error! Bookmark not defined.
3.5 Suposições em Análise de Agrupamentos ....................... Error! Bookmark not defined.
3.6 Métodos de validação dos agrupamentos ........................ Error! Bookmark not defined.
3.6.1 Coeficiente de Correlação Cofenética ..................... Error! Bookmark not defined.
3.6.2 Testes de Singnificancia entre os agrupamentos (MANOVA) ................................ 24
3.6.2.1 Suposições em Manova ................................................................................... 27
3.6.2.2 Comparações Múltiplas ................................................................................... 29
CAPÍTULO IV: RESULTADOS E DISCUSSÃO ............ Error! Bookmark not defined.
4.1 Caracterização da amostra ............................................... Error! Bookmark not defined.
4.2 Verificação das suposições em Análise de AgrupamentosError! Bookmark not defined.
4.3 Determinação do número de grupos à reter ..................... Error! Bookmark not defined.
4.4 Análise Hierárquica ......................................................... Error! Bookmark not defined.
4.4.1 Aplicação do método de Ward .................................. Error! Bookmark not defined.
4.4.2 Aplicação do método de ligação completa ................ Error! Bookmark not defined.
4.5 Interpretação dos Agrupamentos ..................................................................................... 37
4.6 Validação dos Agrupamentos .......................................................................................... 39
CAPÍTULO V: CONCLUSÕES E RECOMENDAÇÕES .............................................. 45
5.1 Conclusões ....................................................................................................................... 45
5.2 Recomendações ............................................................................................................... 46
5.3 Referências Bibliográficas .............................................................................................. 47
ANEXOS
ÍNDICE DE TABELAS PÁGINAS
Tabela 3.1 Descrição das variáveis usadas no estudo ............................................................. 9
Tabela 3.2 Tabela de contingência ........................................ Error! Bookmark not defined.
Tabela 3.3 Critérios de ligação entre as observações ............................................................ 17
Tabela 3.4 Quadro da Manova para a comparação dos vectores de médiaError! Bookmark not
defined.
Tabela 3.5 Distribuições aproximadas dos testes multivariados ........................................... 27
Tabela 4.1 Estatísticas descritivas das variáveis Climáticas ................................................. 31
Tabela 4.2 Estatísticas descritivas dos Cereais ...................... Error! Bookmark not defined.
Tabela 4.3 Análise da Influencia dos outliers nas estatísticas descritivasError! Bookmark not
defined.
Tabela 4.4 Ilustração dos valores do R2 ................................ Error! Bookmark not defined.
Tabela 4.5 Comparação do tamanho dos agrupamentos ....................................................... 38
Tabela 4.6 Identificação da melhor estrutura dos agrupamentos .......................................... 39
Tabela 4.7 Testes de Normalidade Univariada ...................................................................... 39
Tabela 4.8 Teste de Levene para igualdade de variâncias Univariadas ................................ 40
Tabela 4.9 Teste M de Box para igualdade de matrizes de variâncias-covariancias............. 40
Tabela 4.10 Teste de esfericidade de Bartltett ....................................................................... 40
Tabela 4.11 Testes Multivariados ......................................................................................... 41
Tabela 4.12 Média das variáveis nos agrupamentos formado Error! Bookmark not defined.
Tabela 4.13 Matriz das distâncias entre os centoide dos agrupamentosError! Bookmark not
defined.
INDÍCE DE FIGURAS E GRÁFICOS
Gráfico 3.1 Relação entre os métodos aglomerativos e divisivosError! Bookmark not defined.
Figura 4.1 Representação Espacial dos Agrupamentos ......................................................... 44
CAPÍTULO I: INTRODUÇÃO
Em África, a agricultura desempenha um papel preponderante na economia, tanto como fonte de
emprego da população e, como fonte de receitas através de exportação de produtos agrários para
maior parte dos países africanos.
Moçambique não está alheia a essa realidade, a pobreza é um fenómeno generalizado com mais
predominância nas zonas rurais, onde mais da metade da população vive na pobreza1. O baixo
nível de desenvolvimento da agricultura é uma das principais causas da pobreza e, os
rendimentos familiares são geralmente baixos e distribuídos de forma desigual (MINAG, 2010).
Problemas como a fome e a pobreza afectam o desenvolvimento do país, como resultado da
baixa produtividade agrícola a qual é motivada pela debilidade dos solos e a fraca utilização de
tecnologias modernas, incluindo as sementes melhoradas, fertilizantes e a mecanização.
O sector de agricultura é de extrema importância para o desenvolvimento do país, pois, além de
contribuir significativamente no Produto Interno Bruto, constitui uma fonte de emprego para
cerca de 90% da força laboral feminina e 70% da força laboral masculina e, possui um grande
potencial para tirar muitas pessoas da pobreza (INE, 2011).
Consciente na importância da agricultura, em 1998, o Governo em colaboração com os principais
parceiros desenhou o Programa de Desenvolvimento da Agricultura, com o objectivo de
melhorar a coordenação das intervenções públicas na agricultura e orientar de forma adequada o
investimento em diversas áreas do sector.
No contexto do Programa de Desenvolvimento Agrário, o Conselho de Ministros aprovou em
2007 a Estratégia Revolução Verde2, com principal objectivo de promover o aumento da
produção e produtividade especialmente nos pequenos produtores, para uma maior oferta de
alimentos de forma competitiva e sustentável (MINAG,2010).
A implementação do programa de desenvolvimento da agricultura e a estratégia revolução verde
exigiu a utilização de novas tecnologias, o que requer a alocação de recursos financeiros
adicionais e muita formação técnica dos agricultores.
1 Define-se como sendo o estado em que o nível de consumo ou da renda das pessoas é inferior a um valor mínimo de
subsistência determinado para cada local e/ou a nível global, que geralmente é inferior em relação a média.
2 Define-se como sendo a incorporação de avanços científicos no melhoramento de plantas com pacotes tecnológicos que tem
permitido a realização do potencial dos cultivos (FAO, 1996).
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
3 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
A escolha deste tema justifica-se pela própria relevância da agricultara em Moçambique,
portanto, com o objectivo de encontrar semelhantes características entre os distritos, utilizar-se-á
as técnicas de AA, que através dos critérios de similaridade ou dissimilaridade e algoritmos
matemáticos, permite reunir objectos em grupos a partir de uma série de variáveis seleccionadas
à priori. Assim, pode-se colocar a seguinte questão de investigação:
Pode a análise de agrupamentos contribuir de forma significativa na identificação de segmentos
de distritos potenciais produtores de cereais em Moçambique?
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
4 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
1.1 OBJECTIVOS
1.1.1 OBJECTIVO GERAL
Aplicar a análise de agrupamentos para encontrar segmentos de distritos potenciais produtores de
cereais em Moçambique.
1.1.2 OBJECTIVOS ESPECÍFICOS
Descrever as características dos cereais usados no processo de agrupamento dos distritos;
Encontrar o melhor critério de agrupamento dos distritos tendo em conta as características
das variáveis de agrupamento;
Aplicar os testes da MANOVA para validar os agrupamentos formados,
Classificar os grupos formados e identificar o grupo de distritos com elevado potencial na
produção de um dado cereal;
Identificar geograficamente a região com maior potencialidade na produção de cereais.
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
5 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
CAPÍTULO II: REVISÃO DA LITERATURA
O combate a pobreza absoluta assente num crescimento económico sustentável e abrangente,
constitui a principal finalidade do Governo Moçambicano na actualidade, esta tarefa está a ser
implementada tanto nas áreas urbanas como nas áreas rurais de Moçambique.
A experiência histórica de Moçambique demonstra que a batalha pelo desenvolvimento humano
só será sustentável e viável se, a longo prazo, a generalidade do território e da população forem
integrados de forma eficiente e equitativa no processo de crescimento e do desenvolvimento
económico do país.
Conforme Sitoe (2010), a maior parte do território Moçambicano é predominantemente rural.
Não obstante, o processo de urbanização acelerado nas décadas passadas, a maior parte da
população Moçambicana continua a nascer, residir e depender das áreas rurais.
Consciente da experiência histórica e dos enormes desafios que o país terá de enfrentar no futuro,
o Governo tem vindo a repensar e equacionar uma estratégia de desenvolvimento
especificamente para as áreas rurais. Esta estratégia ou visão estratégica invocada pelo Governo
não é por acaso, nem simples retórica, mais sim tem-se em vista uma diferença substancial na
planificação por um lado e, a estratégia ou pensamento estratégico, por outro lado.
2.1 A POLÍTICA AGRÁRIA EM MOÇAMBIQUE
Em Moçambique o sector agrário tem beneficiado de recursos do Estado bastante reduzidos,
embora a maior parte da população se dedique a agricultura. Paralelamente a este aspecto, a
componente de recursos humanos qualificados, o fraco acesso à tecnologia são alguns dos
constrangimentos que afectam com certa severidade o sector agrário. Assim, para a erradicação
da pobreza e o combate a fome por meio do aumento da produtividade agrícola requer uma
política deliberada, orientada para maiores investimentos3 públicos e privados no sector agrário.
A análise dos sistemas agrícolas de um determinado lugar parte do pressuposto de que analisar e
especificar um objecto, é também estudar a sua dinâmica da evolução através do tempo, e as
3 Refere-se aos investimentos em infra-estruturas de rega, mecanização agrícola e o acesso a créditos bancários.
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
6 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
relações que esse sistema mantém com o resto do mundo nos seus diferentes estágios de
evolução.
Com o objectivo de estimular a produtividade induzindo o crescimento e a equidade nos
pequenos agricultores, o Governo implementou em 2007 a Estratégia Revolução Verde. Cujo a
ideia mais vulgarizada desta Revolução está relacionada com à transformação tecnológica da
agricultura principalmente na Ásia entre 1950-1960 com a introdução e utilização de variedades
altamente produtivas de arroz e trigo, fertilizantes inorgânicos, pesticidas e irrigação (Sitoe,
2010).
Em Moçambique, apesar da Revolução Verde contribuir significativamente no aumento dos
níveis de produtividades, ela tem sido criticada por vários investigadores desta área.
Conforme Uaiene e Arndt (2007) a Revolução Verde que se advoca centra-se na provisão de
sementes melhoradas, uso de fertilizantes e pesticidas, irrigação e mecanização agrícola. A mera
provisão destes importantes insumos não garante, contudo, o seu uso eficiente para que se possa
atingir a máxima produção possível. Uma melhor gestão, informação e utilização dos recursos
são igualmente importantes e devem ser enfatizados.
Langa (2010), citado por Lopes e Magalhães (2010), afirma que na agricultura moderna, a
produtividade é assegurada pelo recurso a insumos agrícolas e a investigação científica.
Na Revolução Verde de Moçambique, apenas 5% dos produtores das 3.3 milhões de explorações
agrícolas existentes no país usa sementes melhoradas e fertilizantes.
Sendo que a maior parte dos agricultores continuam a fazer a agricultura com enxada de cabo
curto e com preces para poder ajudar na colheita. A extensão agrária é uma das componentes
mais importantes para promover a produtividade agrária no país e tem uma desoladora
abrangência de menos de 5% dos produtores, o que quer dizer que a maioria dos agricultores
nunca viu um extensionista na sua machamba.
O mesmo autor citado anteriormente acrescentou que apenas a Estratégia RV não é suficiente
para resolver os problemas que o sector agrário enfrenta, pois, existem outros factores que
influenciam nos níveis de produtividade, entre os quais se destacam:
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
7 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
a) A rotação de culturas que consiste em fazer uma alternância nas culturas de forma a
evitar o empobrecimento do solo em substâncias minerais e orgânicas.
b) A adubação verde é o segundo factor que tem como objectivo melhorar a fertilidade do
solo e aumentar a sua capacidade produtiva.
c) O uso de fertilizantes que servem para acelerar o crescimento das plantas e aumentar o
rendimento das culturas. Os fertilizantes podem ser orgânicos ou químicos4.
d) A irrigação é uma técnica utilizada na agricultura e tem por objectivo o fornecimento de
água às plantas em quantidade suficiente.
e) O capital ou a renda é um factor muito importante para a produção agrícola, pois, o sector
agrário é dependente de equipamentos mais modernos, e para isso, é necessários que se
façam grandes investimentos. Principalmente no que diz respeito o acesso ao crédito
bancário por parte dos pequenos agricultores.
f) Acesso à terra, segundo a Constituição da República (2007), a terra e os recursos naturais
situados no solo e no subsolo, nas águas territoriais e na plataforma continental são
propriedade do estado e portanto não devem ser vendidos.
Quando se diz que a terra é propriedade do Estado significa que os particulares apenas podem ter
Direito de Uso e Aproveitamento da Terra (DUAT).
2.2 ALGUMAS CONSIDERAÇÕES E CONCEITOS IMPORTANTES
Nesta secção são apresentados alguns conceitos imprescindíveis para a realização deste trabalho.
2.2.1 Potencialidade Agrícola
A potencialidade agrícola é definida como sendo a capacidade que uma região tem na produção
de um determinado bem de consumo (produto).
4 Os fertilizantes orgânicos provêm de produtos animais ou vegetais, enquanto os fertilizantes químicos são produtos
obtidos através de processos industriais e que contem os nutrientes essenciais às plantas.
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
8 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
Conforme MINAG (2010), esta potencialidade pode ser definida pelos níveis de precipitação,
temperatura e o tipo de solo que cada distrito apresenta. Contudo, maior parte dos distritos das
zonas Norte e Centro do país possuem um bom potencial agrícola, por apresentar várias bacias
hidrográficas com um regime de escoamento mais permanente que os da zona Sul, que são
caracterizados por solos arenosos e por um regime de precipitação irregular, condições não
favoráveis para a agricultura, assim, a presença de barragens e sistemas de regadio nestas zonas
potenciam a agricultura regada.
2.2.2 Agricultura
Segundo a FAO (1996), o conceito de agricultura, é vista como sendo toda a actividade feita pelo
homem com relação a terra de uma forma metódica e sistemática, tendo como principal objectivo
a produção de alimentos.
2.2.3 Conceito de distrito
Normalmente o termo distrito é usado para indicar uma certa subdivisão territorial dentro de um
país e/ou província. Esta divisão pode ter natureza puramente administrativa, ordem política,
judicial, entre outras.
Neste trabalho dar-se-á menção ao termo distrito aplicado a divisões rurais, ou seja, distritos que
se localizam principalmente nas zonas rurais e outras áreas similares.
As técnicas de AA têm sido amplamente usada em diversas áreas de investigação. Um exemplo
de aplicação desta técnica foi apresentado por Vicini (2005), onde propõem uma abordagem
alternativa para o agrupamento de algumas regiões estaduais do Brasil com semelhantes
características nos níveis de produção de grão no sector agro-industrial no período de 1990 à
2002. Neste estudo, a autora concluiu que as diferenças encontradas entre a classificação
convencional e a obtida era significativa, apesar de existirem grupos com alguns estados mal
classificados, ou seja, no mesmo grupo encontrar-se dois estados, sendo um, potencial produtor
de um dado grão, e o outro não.
Oliveira e Padovani (2008) aplicaram a AA com objectivo de caracterizar o perfil produtivo e
climatológico no Sudeste do Estado de Mato Grosso segundo microrregiões semelhantes a partir
das suas características observadas nas medidas de produtividade e climática. Neste estudo, os
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
9 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
autores concluíram que as regiões com baixas temperaturas são as potenciais produtoras de milho
e feijão, enquanto, nas regiões com altas temperaturas correspondem a menor produtividade de
arroz. Concluíram ainda que as regiões com maiores índices pluviométricos tendem a apresentar
baixas produtividades de arroz e banana.
No país, estudos de natureza ainda não foram conduzidos na sua generalidade, mas, o Governo
classificou os distritos como potenciais produtores de cereais usando apenas a informação
referente ao tipo de solo, níveis de precipitação e a temperatura registada em cada um dos
distritos (MINAG, 2010).
Portanto, este tipo de classificação não garante a definição de grupos consistentes, visto que os
mesmos foram agrupados de forma aleatória. Sendo que, com a aplicação da AA neste trabalho,
poder-se-á garantir com uma certa margem que os grupos formados apresentam uma alta
homogeneidade dentro e alta heterogeneidade entre os grupos.
CAPÍTULO III: MATERIAL E MÉTODOS
3.1 MATERIAL
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
10 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
Os dados para a realização deste trabalho foram fornecidos pelo Ministério de Agricultura em
uma base de dados secundária contendo observações de 94 distritos e um total de 11 tipos de
cereais colectados entre 2006 à 2009. Dos quais apenas 5 farão parte da variável estatística de
agrupamento por serem os mais cultivados um pouco por todo país.
Os indicadores climáticos como a média da temperatura mínima anual, a média da temperatura
máxima anual e o nível de precipitação média anual para cada distrito foram fornecidos pelo
INAM em uma base de dados secundária, contendo observações dos 94 distritos usados no
estudo.
A população do presente trabalho é o total dos 128 distritos existentes em Moçambique5. No que
diz respeito a amostra, serão considerados os 94 distritos abrangidos pelo Trabalho de Inquéritos
Agrícolas (TIA), este inquérito foi realizado em 658 Unidades Primárias de Amostragem
seleccionadas (UPA’s).
Tabela 3.1 Descrição das variáveis usadas no estudo
Variáveis Descrição da variável Unidade de Medida
Precipitação Precipitação Média registada Mm
Temperatura Mínima Média da Tª Mínima registada ˚ C
Temperatura Máxima Média da Tª Máxima registada ˚ C
Milho Quantidade total de Milho produzido Mil toneladas
Arroz Quantidade total de Arroz produzido Mil toneladas
Feijão Nhemba Quantidade total de F. Nhemba produzido Mil toneladas
Feijão Manteiga Quantidade total de F. Manteiga produzido Mil toneladas
Feijão Bóer Quantidade total de F. Bóer produzido Mil toneladas
Orçamento Estimativa do Orçamento Total Mil Meticais
Área de cultiva Estimativa do Total de Área cultivada Mil Hectares
Os dados foram processados nos seguintes Softwares estatísticos:
SPSS versão 17.0;
5 No período considerado em Moçambique havia cerca de 128 distritos.
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
11 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
MINITAB versão 14.0;
R, Versão 2.8.1 e
ARCGIS, Versão 10.1
E, foi usado 5% como nível de significância durante o processamento e análise dos resultados
obtidos.
3.2 MÉTODOS
3.2.1 Técnicas Estatísticas
As técnicas estatísticas podem ser classificadas em técnicas de dependência e interdependência.
A principal diferença entre elas reside no facto das técnicas de dependência serem aplicáveis para
avaliar as relações entre uma ou mais variáveis. Enquanto as técnicas de interdependência são
úteis nos casos em que as variáveis ou observações estiverem relacionadas de modo não
capturadas pelas relações de dependência. Ou seja, as técnicas de interdependência ajudam a
avaliar a estrutura dos dados (Hair, et al. 2005).
Fazem parte das técnicas de interdependência: a análise factorial, análise de agrupamentos e o
escalonamento multidimensional.
3.2.2 ANÁLISE DE AGRUPAMENTOS
A AA é conforme Hair, et al. (2005), Maroco (2007) e Reis (2001) uma técnica exploratória de
análise multivariada que permite agrupar sujeitos ou variáveis em grupos homogéneos
relativamente a uma ou mais características comuns. Cada observação pertencente a um
determinado grupo é similar a todas as outras pertencentes a esse grupo, e diferente das
observações pertencentes aos outros grupos. Ou seja, a ideia chave é que os grupos tenham
significado e sejam interpretáveis.
Para uma mesma amostra, a análise de agrupamentos pode portanto conduzir a vários conjuntos
(de grupos) sendo que, alguns deles poderão ser solução. Algumas limitações deste tipo de
análise devem-se ao facto de:
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
12 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
Não detectar o número óptimo de grupos existentes (por natureza) na amostra;
Não identificar a melhor solução;
Nem sempre criar grupos facilmente identificáveis e de igual dimensão;
Não tomar em consideração as relações existentes entre as variáveis.
Uma noção fundamental em AA é a de semelhanças e/ ou de dissemelhanças entre os objectos a
agrupar, pois pretende-se que os elementos de um mesmo grupo sejam o mais semelhante
possível (homogeneidade intra-grupos) e que os elementos de dois grupos distintos sejam o mais
dissemelhante possível (heterogeneidade inter-grupos).
3.2.3 Etapas para a realização de AA
Para a aplicação da técnica multivariada de AA é necessário:
Definir os objectivos da AA, obtenção dos dados e tratamento dos mesmos;
Escolher a técnica de Agrupamentos e da medida de distância a ser usada;
Formar os grupos a partir das definições efectuadas;
Validar, avaliar e interpretar os resultados obtidos.
3.2.4 Medidas de Semelhanças e Distância
Segundo Reis (2001) e Hãrdle e Simar (2007), a análise teórica das relações de semelhança tem
sido denominada pelos modelos geométricos. Estes modelos representam as observações como
ponto em qualquer espaço de coordenadas de forma que as dissemelhanças observadas entre
objectos correspondam a distâncias métricas entre os respectivos pontos.
Hair, et al. (2005) defende que a similaridade é uma medida de correspondência ou semelhança
entre objectos a serem agrupados. E podem se destacar as medidas de correlação, associação e as
medidas de distância.
Estas medidas de classificação exigem que os índices de semelhança ou dissemelhança respeitem
as propriedades das métricas que são:
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
13 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
Simetria: VUVUVU dd ,),(),( ,0
Desigualdade triangular: We V U,),(),(),( VWWUWU ddd .
Diferenciabilidade de não idênticos: VUVUd ,0),( .
Indiferenciabilidade de idênticos: '' ,0),( UUUU
d
.
3.2.4.1 Medidas de Similaridade e Dissimilaridade para Variáveis Quantitativas
Para iniciar com o processo de agrupamento dos objectos, é necessário definir uma medida de
similaridade ou dissimilaridade e, com base nessa medida os objectos similares são agrupados e
os demais são colocados em grupos separados.
As medidas de distância têm um papel central nos algoritmos de agrupamento. Através delas são
definidos critérios para avaliar se dois pontos estão próximos e, se podem ou fazer parte de um
mesmo grupo, caso contrário os dois pontos estarão em grupos diferentes.
Para medir esta dissemelhança, várias medidas de distância foram propostas para agrupar os
objectos de uma matriz de dados (tabela 1 anexo IV).
A distância City-Block substitui a soma dos quadrados das diferenças pela soma das diferenças
absolutas em cada par de indivíduos ao longo da variável estatística de agrupamentos. Esta
distância é apropriada nos casos em que as variáveis que compõem a variável estatística de
agrupamentos não estão correlacionadas, caso contrário os agrupamentos são considerados
inválidos Hair, et al, (2005).
A distância de Mahalonobis para além de ser uma generalização da distância Euclideana, ela
contém por si só um procedimento de padronização sobre os dados e soma a variância-
covariância acumulada dentro dos grupos ajustando assim as inter-correlações entre as variáveis.
Para certos valores do factor de ponderação S, a distância Euclideana ponderada assume as
seguintes características:
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
14 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
S=1nxn, a ponderação é a matriz identidade, portanto, obter-se-á a Euclideana distância
usual;
122
2
2
1 ).....,,.........,.( psssdiagS , Obter-se-á a distância de variáveis padronizadas;
1S , Onde 1 é a inversa da matriz de covariância, tem-se então a distância de
Mahalanobis.
3.2.4.2 Medidas de Semelhança para variáveis qualitativas
As medidas de similaridade por associação são geralmente usadas para comparar objectos cujas
características são medidas em termos não métricos (medida nominal ou ordinal).
Estas medidas representam a similaridades pela percentagem de concordâncias nos respondentes
ao longo da variável estatística de agrupamento, sendo, pelas simultâneas presenças ou ausências
de determinadas características nos objectos, nos quais, objectos similares têm mais característica
em comum do que indivíduos não similares Hair, et al. (2005).
Considerando os seguintes objectos i e j caracterizados por p-variáveis binárias poder-se-á
construir a seguinte tabela de contingência:
Tabela 3.2 Tabela de contingência
1 0 Totais
1 a 1 a 2 a 1 +a 2
0 a 3 a 4 a 3 +a 4
Totais a 1 +a 3 a2+a4 p=a 1 +a 2 +a 3 +a 4
Objecto j
Objecto i
Onde:
a1- Representa o número de presenças simultâneas de características (1-1) entre os objectos i e j
no total de p-variáveis.
a2- Representa o número de ausências de características no objecto i e presença de características
no objecto j (0-1).
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
15 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
a3- Representa o número de presença de características no objecto i e ausência de características
no objecto j (1-0).
a4- Representa o número de ausências simultâneas de características (0-0) entre os objectos i e j.
Com base na tabela de contingência definida anteriormente, Hãrdle e Simar (2007), definiram a
seguinte medida de semelhança:
)( 3241
41
aaaa
aaS ij
, com 10 ijS (1)
Onde: e são factores de ponderação. Assim, para diferentes valores de e ter-se-á os
coeficientes de similaridade da tabela 2 (Anexo IV).
3.2.4.3 Coeficientes Combinado
Os coeficientes de aglomerações combinadas são úteis, quando se tem um conjunto misto de
variáveis, ou seja, variáveis de naturezas diferentes.
Quando isso acontece, é necessário definir uma matriz de similaridade e/ou dissimilaridade, que
será a combinação linear de duais ou mais matrizes, dependendo da natureza de cada variável
existente. Para casos em que houver variáveis de natureza qualitativa e quantitativa, as matrizes
combinadas serão calculadas pela seguinte fórmula (Barroso e Artes, 2003):
qqoonnnxn SNSNSNS *** e qqoonnnxn DNDNDND *** (2)
Onde:
Nn: Representa o número de variáveis nominais existente
No: Representa o número de variáveis ordinais existente
Nq: Representa o número de variáveis quantitativas existente, por sua vez,
Sn e Dn: Representam as matrizes de similaridade e dissimilaridade geradas com base nas
variáveis nominais;
So e Do: Representam as matrizes de similaridade e dissimilaridade geradas com base nas
variáveis ordinais;
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
16 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
Sq e Dq: Representam as matrizes de similaridade e dissimilaridade geradas com base nas
variáveis quantitativas.
3.2.5 MÉTODOS DE AGRUPAMENTOS
O método de agrupamentos depende da natureza dos dados e do objectivo inicial, uma vez que a
AA é uma técnica descritiva e exploratória, ao contrário dos testes estatísticos que tem um
objectivo inferencial e confirmatório, é necessário na AA testar nos mesmos dados vários
algoritmos. Dadas as diferentes soluções obtidas cabe ao investigador reter a melhor solução com
base na interpretação dos resultados e do conhecimento a prior do caso em estudo.
Existem dois métodos de agrupamentos, os métodos hierárquicos e os métodos por partição
(métodos não-hierárquicos6).
3.2.5.1 Métodos hierárquicos
Os métodos hierárquicos envolvem a construção de hierarquia em uma estrutura do tipo árvore.
Ou seja, são métodos baseados em uma série de sucessivas junções (métodos aglomerativos) ou
uma série de sucessivas divisões (métodos divisivos).
Nos métodos hierárquicos aglomerativos, cada elemento inicia-se representando um grupo, e a
cada passo, um grupo ou elemento é ligado ao outro de acordo com a sua similaridade, até o
último passo onde é formado um grupo único com todos os elementos.
Os métodos hierárquicos divisivos começam com um só grupo constituído por todas as
observações existentes. Em passos sucessivos, os objectos mais diferentes entre si são separados
e transformados em agrupamentos menores. Esse processo continua até que cada objecto seja um
agrupamento por si mesmo.
Fazem parte das limitações deste método, o facto de não serem tratáveis para analisar amostras
muito grandes, ser fortemente influenciado pelas observações atípicas e, apresentar estrutura de
agrupamentos inadequadas quando se incluir variáveis irrelevantes.
6 Abordagem mais aprofundada para os métodos não-hierárquicos pode ser encontrada em Reis (2001), Maroco (2007) e Hair, et
al (2005)
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
17 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
Gráfico 1: Relação entre os métodos aglomerativos e divisivos
Fonte: Adaptado pelo autor
Os resultados dos agrupamentos tanto de métodos divisivos como dos aglomerativos podem ser
visualizados a partir de um digrama de dispersão (nos casos em que se tem apenas duas variáveis
na variável estatística de agrupamento).
Nos casos em que se tem mais de duas variáveis é comum o uso do dendograma, que é um
gráfico bidimensional que ilustra as agregações ou divisões feitas em níveis sucessivos. O eixo
horizontal representa a distância usada para unir os grupos e, o eixo vertical representa as
observações agregadas. A leitura do dendograma nos métodos aglomerativos é feita da esquerda
para a direita, enquanto nos métodos divisivos a leitura é feita de forma contrária.
Nos métodos aglomerativos, os grupos são aglomerados de acordo com as semelhanças ou
diferenças entre eles, assim, far-se-á menção a 6 critérios por serem os mais comummente
usados.
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
18 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
Tabela 3.3 Critérios de ligação entre as observações
Critério de Ligação Expressão Matemática
Critério do vizinho mais próximo kjkikij ddd ;min)(
Critério do vizinho mais afastado kjkikij ddd ;max)(
Critério de ligação mediana 42
)(
UVVWUW
WUV
dddd
Critério da média entre os grupos
)(
1 1)(
)(*
1 UV WN
q
N
l
ql
WUV
WUV dNN
d
Critério dos centroides 2)(
)(
****
VU
UVVU
VU
VWVUWU
WUVNN
dNN
NN
dNdNd
Critério de Ward
k
l
n
j
jij
j
XXMinSQE1 1
2__
)(
Fonte: Adaptado pelo autor com base em Hair, et al. (2005) e Albuquerque (2005)
O critério de ligação simples é baseado em distância mínima. Ele encontra os dois objectos
separados pela menor distância e coloca-os no mesmo agrupamento.
Inversamente ao critério de ligação simples, no critério de ligação completa os objectos são
agregados com base na distância máxima ou menor similaridade. Essa técnica tem sido
comummente usada pelo facto de eliminar o problema de encadeamento identificado na ligação
simples (Hair, et al., 2005).
No critério de ligação média os objectos são agrupados com base na distância média de todos os
objectos pertencente a um agrupamento ao demais em um outro. Esta técnica tem a vantagem de
não depender de valores extremos como ocorre com ligação simples e completa.
Conforme Reis (2001) e Hair, et al. (2005) abordagens de ligação média tendem a combinar
agrupamentos com pequena variação interna, elas também tendem a produzir agregados com
aproximadamente a mesma variância.
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
19 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
O critério dos centroides foi proposto com o objectivo de caracterizar os dados como pontos no
espaço de Mahalanobis. Neste critério, a distância entre dois grupos é definida como a distância
entre os seus centroides7. Uma das desvantagens na utilização deste método é que se os primeiros
dois grupos formados forem muito diferentes em termo de dimensão, o centroide do novo grupo
estará mais próximo daquele que tiver maior número de objectos e, as características do grupo
menor tenderam a se perder (Albuquerque, 2005).
O critério de Ward baseia-se na perda de informação resultante do agrupamento dos indivíduos e,
é medida através da soma dos quadrados dos desvios das observações individuais relativamente
às médias dos grupos em que são classificadas.
No início do processo de agrupamento, cada individuo constitui um grupo cuja sua soma dos
quadrados do erro é nula, em seguida são agrupados os dois indivíduos que provocam um
aumento mínimo no valor da soma dos quadrados dos erros, passando a existir (n-1) grupos,
assim por diante (Reis, 2001).
3.2.5.2 Métodos não-hierárquicos
Os métodos não-hierárquicos destinam-se a agrupar objectos ou indivíduos (mas não variáveis)
em um conjunto de grupos cujo número é definido a prior pelo analista. Estes métodos
apresentam como principal vantagem, relativamente aos métodos hierárquicos, a facilidade com
que são aplicados a matrizes de dados muito grandes, uma vez que não é preciso calcular e
armazenar uma nova matriz de dissemelhança em cada passo do algoritmo (Maroco, 2007).
Existem vários métodos não-hierárquicos, que diferem-se no modo como se desenrola a primeira
agregação dos objectos nos grupos, e no modo como as novas distâncias entre os centroides dos
grupos e os sujeitos são calculadas. De entre vários métodos, os mais usados são:
1. Critério k-médias: que consiste em transferir um objecto para um dado grupo cujo centroide se
encontra a uma menor distância.
Para tal, é necessário que se conheçam os centoides de cada grupo ou terão de ser calculados a
partir dos dados originais.
7 Medias ou valores médios dos objectos contidos no agrupamento sobre cada variável usada no processo de agrupamento ou no
processo de validação.
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
20 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
2. Critério de referência sequencial: Este critério começa pela selecção de uma semente de
agrupamento8 e inclui todos os objectos dentro de uma distância pré-especificada. Quando todos
os objectos dentro de uma distância são incluídos, uma nova semente de agrupamento é
seleccionada e todos os objectos dentro da distância pré-especificada são incluídos. Este processo
continua até que todos os objectos sejam agrupados.
3. Critério de referência paralela: O critério de referências paralelas escolhe diversas sementes de
agrupamento simultaneamente no começo e designa objectos dentro da distância de referência
até a semente mais próxima. À medida que o processo se desenvolve, a distância de referência
pode ser ajustada para incluir menos ou mais objectos nos agrupamentos. Ainda assim, em
algumas variantes desse método, os objectos permanecem não agrupados se estiverem fora da
distância de referência pré-especificada a partir de qualquer semente de agrupamentos (Hair, et.
al, 2005).
3.3 CRITÉRIOS PARA A DETERMINAÇÃO DO NÚMERO DE GRUPOS A RETER
Em AA, ainda não existe um procedimento padrão para a determinação do número de grupos a
formar. Maroco (2007) sugere dois critérios que podem ajudar a identificar o número de grupos
que justifique a estrutura dos dados. O critério de distância entre os agrupamentos e o critério
do R2.
a) Critério de distância entre os agrupamentos
Neste critério, se a distância entre dois ou mais agrupamentos for a mínima possível, eles devem
ser unidos. Caso contrário, estes agrupamentos devem manter-se separados e, esta distância é
obtida com base na coluna de coeficientes de aglomeração obtida no output de AA.
b) Critérios do R2 e da Variabilidade Ganha (G)
O R2 mede o quão diferentes são os agrupamentos a cada passo do algoritmo. Ele mede a
percentagem da variabilidade total que é retida em cada um dos agrupamentos. No caso em que
8 Centroides dos agrupamentos definidos a prior. Este centoide deixa de ser uma semente em estágios futuros quando um objecto
é agrupado a ele.
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
21 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
houver apenas um único grupo, é óbvio que a variabilidade é nula e, caso existam tantos grupos
quantos objectos, a variabilidade entre os grupos é igual a variabilidade total.
Por sua vez, o critério da variabilidade ganha, mede a variabilidade ganha ao passar de k grupos
para (k+1)
O R2 e o G podem ser calculados pelas seguintes fórmulas:
p
i
k
j
ni
l
ijl
p
i
k
j
ijiij
XX
XXn
SQT
SQBR
1 1 1
2__
1 1
2____
2
)(
)(
(3)
)1(
)1()(
kSQW
kSQWkSQWG (4)
Onde:
SQB: É a Soma dos Quadrados entre os agrupamentos,
SQW (k): É a soma dos Quadrados do Erro, quando há k grupos
SQW (k+1): É a soma dos Quadrados do Erro, quando há k+1 grupos
SQT: É a Soma dos Quadrados dos Totais.
3.4 FORMAÇÃO DOS AGRUPAMENTOS
Para a formação dos agrupamentos, foram aplicados os procedimentos hierárquicos, com os
métodos aglomerativos. Pois, para além de serem rápidos e não dependerem das habilidades do
pesquisador, eles são apropriados quando temos amostras inferiores a 250 objectos como
sugerido por Hair, et. al (2005) e Prearo (2008).
Foi usada a distância Euclideana como medida de dissimilaridade entre os objectos, pois:
A variável estatística de agrupamentos é composta por um conjunto de variáveis métricas.
Tem sido uma das medidas de dissimilaridade mais utilizadas, sendo que muitas outras são
variantes desta.
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
22 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
Como critério de ligação entre os objectos, foram usados os critérios de ligação completa e, o
critério de Ward, com a retenção de 3 a 5 agrupamentos, sendo este, o número de grupos que
justifica a estrutura dos dados disponíveis. No fim foi calculado o ),( FCCOF para a escolher da
melhor estrutura de agrupamentos.
A razão que justifica o uso do critério de ligação completa é aquela ressaltada por Hair, et. al,
(2005) segundo a qual este critério elimina o problema de encadeamento9 ou correntes
prolongadas identificado na ligação individual. Em decorrência disso, as chances de encontrar
grupos mais equilibrados e menos dissimilares aumentam.
O critério de Ward tem a vantagem de basear-se na perda mínima de informação e, gerar grupos
com alta homogeneidade tanto para as distâncias Euclidianas quanto para outras distâncias como
sugerido por Prearo (2008).
3.5 SUPOSIÇÕES EM ANÁLISE DE AGRUPAMENTOS
Como foi mencionado anteriormente, a AA é uma técnica exploratória pois não tem bases para a
inferência estatística portanto, a representatividade da amostra e a multicolinearidade são as
questões mais críticas nestas técnicas. Para tal, ao aplicar a AA é sempre bom estar confiante de
que as variáveis que compõem a variável estatística de agrupamentos não estão fortemente
correlacionadas uma da outra e, estar ciente que a amostra é representativa da população. Pois,
em alguns casos as observações atípicas podem realmente ser apenas uma subamostra de grupos
divergente que, quando descartadas, introduzem um viés na estimação da estrutura (Hair et. al,
2005).
A padronização de variáveis é aplicável quando estas apresentam diferentes escalas de medidas.
Em geral, variáveis com maior dispersão têm maior impacto sobre as medidas de distâncias. Mas
o processo de padronização não pode ser tomado como uma solução ideal para todos os casos,
porque muitas vezes este processo anula a influência natural de uma dada variável no processo
de agrupamentos, estabelecendo assim um mesmo peso para todas as variáveis.
9 Encadeamento é um termo que descreve a situação onde há um primeiro grupo de um ou mais elementos que passa a incorporar
em cada interacção um grupo unitário. Assim, é formada uma longa cadeia onde torna-se difícil definir um nível de corte para
classificar os elementos em grupos.
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
23 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
Outro ponto que merece uma grande atenção está relacionado com a presença de observações
atípicas, pois, apesar de ser uma técnica exploratória, a AA é muito sensível a observações
atípicas. Isto porque, pode se tratar de valores absurdos que não são representativos da população
geral ou, uma subamostra de grupos reais na população que provoca uma sub-representação da
população na amostra. De um modo geral, as observações atípicas destorcem a verdadeira
estrutura dos agrupamentos tornando-os não representativos da verdadeira estrutura da
população.
3.6 MÉTODOS DE VALIDAÇÃO DOS AGRUPAMENTOS ENCONTRADOS
A validação inclui tentativas de garantir que a solução de agrupamentos seja representativa da
população geral, e assim seja generalizável para outros objectos e, estável com o passar do tempo
(Hair, et. al, 2005).
A validação dos agrupamentos formados pode ser feita usando diversos métodos, entre os quais
destacam-se:
Partição da amostra em análise;
Selecção de variáveis não usadas na análise (validação preditiva);
Gráficos de perfil dos agrupamentos;
Gráficos de radar;
Coeficiente de correlação cofenética,
Aplicação da MANOVA.
3.6.1 Coeficiente de Correlação Cofenética
O coeficiente de correlação cofenética foi usado como medida para a escolha da melhor partição
de entre as obtidas com base nos dois critérios de aglomeração usado.
Este coeficiente pode ser calculado através dos valores de duas matrizes, a matriz de distâncias
originais (matriz fenética F) e a matriz reconstituída com base no dendograma (matriz cofenética
C).
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
24 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
Segundo Vicini (2005), este coeficiente permite medir o grau de associação linear entre essas
duas matrizes. Ele equivale ao coeficiente de correlação de Pearson e, foi proposto como uma
medida de concordância entre os agrupamentos obtidos e a matriz de distância original.
A matriz cofenética é construída substituindo os valores da matriz de distância (reduzida) pelos
valores correspondentes a distância que ocorreu na junção real entre dois objectos, utilizando por
isso os mesmos valores que permitiram a construção do dendograma.
Assim, o coeficiente de correlação cofenética entre as matrizes F (matriz de distância reduzida) e
C (a matriz relativa a F), é dado por:
1
1 1
2__1
1 1
2_
1
1 1
____
)()(
))((
),(n
j
n
ji
ji
n
j
n
ji
ji
n
j
n
ji
jiji
ffcc
ffcc
FCCOF , Com _____
,1 ni e_____
1,1 nj (5)
Onde __
c e __
f são as médias aritméticas, definidas por:
1
1 1
__
)1(
2 n
j
n
ji
ijcnn
c e
1
1 1
__
)1(
2 n
j
n
ji
ijfnn
f
Sendo: n o número de elementos que compõem a matriz C, cada ic corresponde a uma
observação da matriz Cofenética e, cada fi corresponde a uma observação da matriz fenética.
Geralmente um valor de 7.0),( FCCOF , indica que a matriz cofenética gerada a partir do
dendograma representou uma boa simplificação da matriz de distância ou fenética e, portanto, a
AA efectuada forneceu grupos puramente homogéneos.
3.6.2 Testes de Significância entre os Agrupamentos (MANOVA)
Uma vez formado os agrupamentos, é preciso verificar o quão heterogéneo são esses grupos em
relação a uma ou mais características não usada no processo de agrupamento.
Para testar a existência ou não de diferenças estatisticamente significativas entre os grupos,
recorrer-se-á aos testes estatísticos multivariados da MANOVA, que é uma extensão da análise
de variância simples (ANOVA).
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
25 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
A principal diferença entre as duas técnicas, reside no facto da ANOVA avaliar as diferenças
para uma única variável critério yi, enquanto na MANOVA, se procede a comparação de
vectores de médias para diversas variáveis critério simultaneamente.
O modelo da MANOVA a um factor e p-variáveis dependentes é dado por :
ijrjrrijrY ,
_____
,1 jni ,
_____
,1 gj , pr .,.........3,2,1 (6)
Com a seguinte suposição: ),0(~
pijr N e restrição:
01
j
g
j
jn
Com este modelo, pretende-se testar a significância dos vectores de média dos k grupos
existentes, com nas seguintes hipóteses:
kH .......: 210
jia jijiH que tal, com ),(:
Seja W a matriz da SQPC intra-grupos, e B a matriz da SQPC inter-grupos a matriz da SSCP do
total, será dada por: T=B+W, onde as matrizes B e W, podem ser obtidas com base nas seguintes
fórmulas (Rincher, 2002):
Tk
i
T
ii
T
i
k
i
i YYk
YYn
YYYYnB ....
1
..
__
...
1
__
,,. *1
*1
(6.1)
T
iij
iij
T
ijij
T
iij
k
i
nk
j
iij YYn
YYYYYYW
.
__
.
1 1
__
, *1
* (6.2)
Tabela 3.4 Quadro da Manova para a comparação dos vectores de média dos k grupos
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
26 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
Fonte de Variação Graus de liberdade Matriz da SQPC
Grupos
Total Corrigido
Erro
1 gvH
T
k
i
T
ii YYk
YYn
B ....
1
.. *1
*1
gnvvg
k
kWk 1
T
iij
iij
T
ijij YYn
YYW
.*1
*
11
g
k
knWBT
Definida as matrizes, passa-se a descrever resumidamente alguns destes testes cujas deduções
matemáticas podem ser encontradas em Reis (2001) e Rencher (2002).
a) Teste Lamba de Wilks
Teste Lambda de Wilks, resulta do quociente entre os determinantes da matriz da soma dos
quadrados e produtos cruzados dentro dos grupos e do total, também pode ser obtido a partir dos
valores próprios da matriz da W-1
T, αi, isto é:
S
i
i
WB
W
1
1
1
O determinante de W é uma medida de variabilidade dentro dos grupos, enquanto o determinante
de T, fornece a medida de variabilidade total. Assim, quanto maior for a semelhança entre os
determinantes, menor serão as diferenças entre os grupos B, e mais próximo de 1 estará a
estatística . Pelo contrário, se a diferença entre os grupos forem elevadas quando comparadas
com a variabilidade dentro dos grupos, o valor de tenderá a aproximar-se de zero.
b) Traço de Hotelling-Lowley
Este teste resulta do quociente entre os determinantes das matrizes da soma dos quadrados e
produtos cruzados entre os grupos B e dentro dos grupos W, ou através dos valores próprios da
matriz W-1
B, αi, isto é:
S
i
iW
BT
1
, Assim, quanto maior for o valor de T, maior será a diferença entre os grupos.
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
27 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
c) Traço de Pilai
O traço de Pilai resulta no quociente entre os determinantes das matrizes da soma dos quadrados
e produtos cruzados entre os grupos e do total, ou através dos valores próprios da matriz T-1
B, αi,
isto é:
S
i i
i
WB
BV
1 1
, Maiores valores de V indicam a existência de diferenças
estatisticamente significativas entre os grupos.
d) Maior raiz característica de Roy
Este teste baseia-se no primeiro valor próprio da matriz T-1
B, αi, isto é:
Max
Max
1, Sendo αmax o maior valor próprio da matriz T
-1B. Maiores valores de indicam
existência de diferenças entre os grupos.
Tabela 3.5 Distribuições aproximadas dos testes multivariados10
Teste Fórmula Distribuição amostral aproximada
Wilks
S
i
i
WB
W
1
1
1
1121));1((1
1
1*
)1(
1121
kprtkp
t
t
Fkp
kprt
Hotelling-Lowlay
S
i
iW
BT
1
))1(2();12(
0
2*
)12(
)1(2
SNSMSFT
SMS
SN
Pilai
S
i i
i
WB
BV
1 1
10
Maiores detalhes das distribuições aproximadas dos testes multivariados e as respectivas deduções podem ser encontrados em
Reis (2001) e Rencher, (2002).
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
28 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
))12();12(
0
*)12
12
SNSSMSF
VS
V
SM
SN
Roy
Max
Max
1 1,
0
max*1
dvdH
HF
d
dv
Sendo: )(2
11 kpnr ;
5
422
22
H
H
vp
vpt ;
2
1
pvM
H e
2
1
pvN E
p = representa o número de variáveis;
n = o número de indivíduos;
k = o número de grupos e
s = min (p, vH), representa o número de autovalores não nulo de cada uma das matrizes que
geram os autovalores
VH = Graus de liberdade da matriz hipótese B (VH=k-1)
VE = Graus de liberdade da matriz do erro W (VE=n-k)
d = max(p, vH).
3.6.2.1 Suposições em Manova
Diferentemente das técnicas de AA, para a que os procedimentos dos testes multivariados da
MANOVA sejam validos, três suposições devem ser atendidas, a saber:
a) Independência das observações
Quando a distribuição do vector aleatório Y é normal p-variada, é possível construir testes de
hipóteses para a avaliação da matriz das correlações. O teste usualmente usado para testar a
independência das p-variáveis respostas é o teste de Bartlett (Sartório, 2008).
Assim, supondo a existência de uma amostra aleatória de tamanho n, do vector alectório Y,
podem ser construída as seguintes hipóteses:
IRH :0
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
29 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
IRH a :
Onde: I representa a matriz identidade das p-variáveis e, R representa a matriz das correlações
teóricas das p-variáveis.
A Ho, equivale dizer que as p-variáveis são independentes, ou que a matriz das covariâncias S de
Y, é diagonal. Sob a imposição da Ho, a estatística de teste é definida por:
)1(2
12
1
~)ln(1126
1
pp
p
i
i XpnX , para n>30 (6.3)
b) Igualdade de matrizes de variância e covariâncias
A suposição das matrizes de variância e covariância nos grupos serem igual, é de maior
importância na MANOVA. O teste estatístico clássico para verificar esta suposição, foi proposto
por Box, como uma generalização do teste univariado de Bartlett para a verificação de igualdade
de variâncias.
As hipóteses a testar são:
gH ...............: 210
jia jijiH ),,(:
O teste M de Box é dados por: k
g
k
k SvSgnM lnln)(1
(6.4)
Com gn
WS
, 1 kk nv , são os graus de liberdade associados ao grupo e, kS é o
determinante da matriz de variância e covariancia do k-gésimo grupo.
A aproximação à X2 é indicada quando o número de dimensões dos grupos é superior a 20 e, um
número de variáveis e grupos inferior a 6, esta aproximação é dada por:
)1)(1(~2
12 gppXMC , Onde
g
k k gnvgp
ppC
1
211
)1)(1(6
1321 (6.5)
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
30 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
A aproximação à F é indicada para todas as outras situações e, esta aproximação é dada por
(Sartório, 2008):
),(
0
1
~
1
ovvFv
v
vaM
(6.6)
Onde 2
)1)(2(
gppv ,
12
2
0
2
aa
vv
, Ca 11 e,
21
22
11
)1(6
)2)(1(
gnvg
ppa
g
k k
c) Normalidade das p-variáveis
A normalidade multivariada considera que o efeito conjunto de duas ou mais variáveis é
distribuído normalmente. Hair, et.al (2005), acrescenta que a violação da suposição de
normalidade, cria problemas na aplicação do teste M de Box, para a homogeneidade das matrizes
de variância e co-variâncias. A não existência de testes directos para a normalidade multivariada,
obriga o uso dos testes univariados para a normalidade, como os testes de Kolmogorov-Smirnov
e de Shapiro-Wilks.
3.6.2.2 Comparações Múltiplas
De igual forma como acontece na ANOVA, a rejeição da hipótese nula H0 não indica quais
grupos ou tratamentos são diferentes entre si. Esta rejeição pode ocorrer devido a existência de
diferenças entre grupos em uma dada variável, mas também, pode ser devido a existência de
diferenças entre os grupos ligados a certa combinação linear de variáveis. De entre os diversos
métodos de comparação múltipla existentes, utilizou-se os intervalos simultâneos de Bonferroni.
Quando a H0 é rejeitada, aqueles vectores que levam a rejeição desta hipótese são de interesse e,
pode-se identificar quais os pares de vectores de médias são diferentes entre si. A aproximação
de Bonferroni pode ser usada para construir intervalos de confiança simultâneos para as
diferenças de médias nos grupos lk .
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
31 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
Sejam
g
k
knn1
e, kj o j-ésimo componente (da variável j), e k a média associada ao grupo k,
como k é estimado por ____
yy k , tem-se que ____^
yy kk e
____^^
ljkjlkj yy que é a
diferença entre duais medias independentes. Logo, para o modelo MANOVA descrito em (6), a
(1-α)% de confiança, Bonferroni definiu o seguinte IC para a diferença de médias:
lk
jj
gpggn
ljkjnngn
wtyy
11
)1(
____
, ______
,1 pj , ____
,1 jkl e jjw é o (j, j)-ésimo elemento
da matriz W.
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
32 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
CAPÍTULO IV: RESULTADOS E DISCUSSÃO
4.1 CARACTERIZAÇÃO DA AMOSTRA EM ESTUDO
4.1.1 CARACTERIZAÇÃO DAS VARIÁVEIS CLIMÁTICAS
Tabela 4.1 Estatísticas descritivas das variáveis Climáticas
Variáveis
Mín
imo
Máx
imo
Des
vio
Pad
rão
Med
ia a
par
ada
a 5%
Méd
ia
Err
o P
adrã
o d
a M
édia
Coeficientes
Ass
im/E
. P
adrã
o
Curt
ose
/E. P
adrã
o
Ass
imet
ria
Curt
ose
Precipitação 101.8 168.3 13.66 145.2 144.5 1.41 -0,72 0.58 -2,9 1.18
Tª Mínima 10.31 22.45 2.92 15.8 15.84 0.3 0.18 -0,6 0.72 -1,2
Tª Máxima 20.98 33.98 2.88 26.58 26.62 0.3 0.02 -0,7 0.08 -1,4
4.1.1.1 Precipitação
Da tabela 4.1, observa-se que:
O valor médio (da Precipitação Média Anual) registado nos 94 distritos durante o período em
análise foi aproximadamente igual a 144,5mm e, esta associada a um erro padrão de 1,41mm, no
mesmo período em análise, a precipitação média anual variou entre 101,8mm e 168,3mm.
Excluindo 5% dos valores extremos desta variável obtêm-se a média aparada que é igual a
145,2mm. O quociente entre o coeficiente de assimetria pelo seu erro11
padrão a um nível de 5%
de significância leva a concluir que a variável Precipitação Média Anual é assimétrica negativa,
ou enviesada a esquerda, visto que este valor esta fora do intervalo simétrico de 96,1 desvios.
A mesma conclusão pode ser tirada observando o comportamento da curva de Gauss no
11
Os erros padrão dos coeficientes de assimetria e curtose são iguais a 0,249 e 0,493, respectivamente.
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
33 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
histograma das variáveis climáticas da figura1 ou pelo gráfico1 de caule e folhas (anexo I),
quanto ao achatamento da curva de distribuição normal, a variável é.mesocurtica.
O gráfico de caule e folhas (grafico1, do anexo I) identificou duas observações atípicas que são
as observações 58 e 59 (figura3 do anexo I), ou seja, no período em análise as precipitações
médias anuais registadas nos distritos de Alto Molôcue e Chinde são considerados valores
atípicos.
4.1.1.2 Temperaturas Mínima e Máxima
Quanto as Temperaturas, observou-se que:
Os valores médios registados nos 94 distritos foram iguais a 15,84 ºC e 26,62 ºC ambos
associados a um erro padrão de 0,30 ºC. As variabilidades médias anuais registadas para as duas
temperaturas foram de 8,29 ºC2 e 8,53 ºC
2 no mesmo período em análise, as temperaturas
registaram uma variações na ordem dos 10,31 ºC à 22,45 ºC para a Temperatura Mínima e 20,98º
C à 33,09 ºC, respectivamente.
Excluindo 5% dos valores extremos em ambas as variáveis obtêm-se as seguintes médias
aparadas 15.80 ºC e 26.58 ºC, ambas estão abaixo das médias calculadas com base no total das
observações. As duas variáveis são simétricas e, mesocurticas quanto à curtose. Tanto os
gráfico2 e 3 de caule e folhas como os boxplots apresentado no histograma da figura1 (em anexo
I) nenhum deles detectou a presença de valores atípicos para estas variáveis.
Os percentis da tabela1 no (anexo I) mostram que 25% dos distritos registaram uma precipitação
de 120mm e, 156mm é a precipitação registada por 75% dos distritos. De igual modo, 21,73 ºC é
a Temperatura Máxima registada por cerca de 25% dos distritos e, 28.58 ºC foi a Temperatura
Máxima registada por cerca de 75% dos distritos.
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
34 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
4.1.2 CARACTERIZAÇÃO DOS CEREAIS
Tabela 4.2 Estatísticas descritivas dos Cereais
Variáveis M
ínim
o
Máx
imo
Des
vio
Pad
rão
Med
ia a
par
ada
a 5%
Méd
ia
Err
o P
adrã
o d
a M
édia
Coeficientes
Ass
im/E
. P
adrã
o
Curt
ose
/E. P
adrã
o
Ass
imet
ria
Curt
ose
Milho 1.19 2.92 0.23 2.05 2.07 0.03 0.94 4.15 3.78 8.42
Arroz 0.39 2.09 0.4 1.01 1.02 0.04 0.42 -0,6 1.69 -1,22
Feijão Nhemba 0.09 1.48 0.32 0.5 0.53 0.03 1.07 0.67 4.31 1.36
Feijão Manteiga 0.06 1.83 0.38 0.58 0.61 0.04 0.91 0.18 3.65 0,37
Feijão Bóer 0.13 2.22 0.41 0.82 0.84 0.05 0.47 0.3 1.89 0,61
4.1.2.1 Análise Descritiva dos Cereais
De acordo com os resultados da tabela 4.2, observa-se que:
No geral a média aparada a 5% registou um ligeiro decréscimo em todos os cereais, comparando
com a média obtida com base nas 94 observações e, a quantidade total de Feijão Bóer mostrou-se
ser a mais dispersa comparando com os restantes cereais. Quanto a assimetria e curtose,
constatou-se que cereais como o Feijão Nhemba e Manteiga são ambas assimétricas positiva e,
mesocurtica respectivamente. Por sua vez, a quantidade total de Milho produzida é assimétrica
positiva e leptocurtica quanto ao curtose ao nível de significância considerado nestas análises.
Da tabela2 no (anexo I), observa-se que 25% dos distritos produziram até 1,83 mil toneladas de
Milho, 0.306 mil toneladas de Feijão Nhemba, 0.138 mil toneladas de Feijão Bóer, 0.74 mil
toneladas de Feijão Manteiga e 0.472 mil toneladas de Arroz, respectivamente. De igual modo,
observa-se que 75% dos distritos produziram cerca de 2.15 mil toneladas de Milho, 0.684 mil
toneladas de Feijão Nhemba, 0.898 mil toneladas de Feijão Bóer, 1.087 mil toneladas de Feijão
Manteiga e, 1.313 mil toneladas de Arroz, respectivamente.
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
35 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
4.1.3 IMPACTO DOS VALORES ATÍPICOS NAS ESTATÍSTICAS DESCRITIVAS
Tabela 4.3 Análise da Influencia dos valores atípicos nas estatísticas descritivas
Variáveis
Estatísticas (Com Outliers) Estatística (Sem Outliers)
Média Desvio-
Padrão
Média
aparada a 5% Média
Desvio-
Padrão
Média
aparada a 5%
Precipitação 144.52 13.665 145.23 145.436 12.295 145.76
Milho 2.067 0.234 2.051 2.024 0.129 2.021
Feijão Nhemba 0.526 0.318 0.504 0.489 0.269 0.473
Feijão Manteiga 0.836 0.411 0.819 0.822 0.387 0.821
Feijão Bóer 0.608 0.381 0.584 0.595 0.369 0.575
Arroz 0.84 0.41 0.82 0.84 0.41 0.82
Tª. Mínima 15.84 2.92 15.8 15.84 2.92 15.8
Tª. Máxima 26.62 2.88 26.58 26.62 2.88 26.58
Com base nos resultados da tabela 4.3, observa-se que:
De uma forma geral, o impacto dos valores atípicos nas estatísticas descritivas foi moderado,
sendo que a média aparada a 5% variou de forma não significativa, como é óbvio para o seu
cálculo são excluídos 5% das observações superiores e inferiores. Sendo que alguns destes são
potenciais valores atípicos.
4.2 VERIFICAÇÃO DAS SUPOSIÇÕES EM AA
Como foi descrito nos itens anteriores, em AA duas questões são críticas para a condução desta
técnica, que são a representatividade da amostra e a multicolinearidade. Portanto, a amostra para
a realização deste trabalho é considerada representativa da população extraída, visto que o
conjunto de distritos seleccionados produz cada um dos cereais.
Quanto a questão de multicolinearidade, procura-se verificar a existência ou não de variáveis
altamente correlacionadas, analisando a matriz de coeficientes de correlação de Pearson entre as
variáveis.
Neste contexto, pode-se observar no gráfico8 do anexo I, que os níveis de correlações são em
geral baixos ou aceitáveis, com excepção das correlações apresentada pelas variáveis
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
36 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
(Temperatura Mínima, Temperatura Máxima); (Feijão Manteiga, Feijão Bóer) e, (Feijão Bóer,
Milho) que apesar de estarem correlacionadas de forma moderada e significativa, nenhuma delas
será excluída no estudo.
4.3 DETERMINAÇÃO DO NÚMERO DE GRUPOS À RETER
Para a determinação do número de grupos a reter, foram usados os critérios do R_quadrado,e o
da variabilidade entre os agrupamentos (fórmula (3) e (4)), onde as somas dos quadrados dos
totais e, dos tratamentos, estão apresentados na tabela 3 (Anexo I)
Tabela 4.4 Ilustração dos valores do R2
Número de Grupos 1 2 3 4 5 6 7 8 9
R_Quadrado 0 0,598 0,717 0,794 0,859 0,877 0,899 0,906 0,916
Ganho da Variabilidade 0,598 0,119 0,077 0,065 0,018 0,022 0,007 1E-04 ------
Uma solução aceitável do número de grupos que justifica a estrutura dos dados reside entre 3 a 5
grupos, pois, o ganho das variabilidades retidas é relativamente pequena quando comparada com
a evolução verificada entre 1 a 3, sendo o ponto referente a definição de 4 grupos onde a
variabilidade reduziu significativamente segundo o gráfico 10 (Anexo I), sugerindo portanto a
definição de uma estrutura com 4 agrupamentos.
4.4 ANÁLISE HIERÁRQUICA
4.4.1 APLICAÇÃO DO MÉTODO DE WARD
Uma vez que os métodos aglomerativos iniciam com tantos grupos quanto objectos, os mais
similares são agrupados nas primeiras interacções, enquanto os mais dissimilares são agrupados
nas últimas interacções. Em cada uma destas interacções é calculado o coeficiente de
aglomeração que reflecte a distância entre os casos a serem agrupados, ou seja, quanto mais
dissimilares forem os casos a agrupar, maior será o valor do coeficiente de aglomeração, sendo
que para casos similares este coeficiente tende a zero.
Nesse contexto, com base nos resultados da tabela1 do anexo II, observa-se que o primeiro
agrupamento a ser definido é composto pelos distritos de Machanga (44) e Mavago (75), pelo
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
37 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
facto de estes apresentarem um menor valor do coeficiente de aglomeração (0,648). De seguida,
o distrito de Cheringoma (41) junta-se aos distritos de Machanga e Mavago na 12ª interação e,
Homoine (80) na 15ª interação, assim sucessivamente.
Uma análise crítica do coeficiente de aglomeração mostrou que, por exemplo da interacção 88
para 89 (o que corresponde a aglomeração de 6 para 5 grupos), aumentou em 458.193 unidades
(passando de 2244.048 para 2702.241).
Da interacção 89 para 90 (o que corresponde a aglomeração de 5 para 4 grupos), o coeficiente
aumentou em 958.21 unidades (passando de 2702.241para 3660.451).
Da interacção 90 para 91 (o que corresponde a aglomeração de 4 para 3 grupos), o coeficiente
aumentou em 1319.512 unidades (passando de 3660.451 para 4979.963).
Da interacção 91 para 92 (o que corresponde a aglomeração de 3 para 2 grupos), o coeficiente
aumentou em 2650.344 unidades (passando de 4979.963para 7630.307). E finalmente, da
interacção 92 para 93 (o que corresponde a aglomeração de 2 para 1 grupo), o coeficiente
aumentou em 11357.294 unidades (passando de 7630.307 para 18987,511).
A AA forneceu o dendograma apresentado na figura1 do anexo II, onde constatou-se a definição
de 3 agrupamentos distintos para um nível de corte de aproximadamente igual a 4,5 unidades de
medida.
A tabela2 do anexo II mostra a distribuição dos distritos em cada um dos 3 agrupamentos, onde
pode-se observar que o tamanho de cada agrupamento em função do número de agrupamentos
por definir.
4.4.2 APLICAÇÃO DO MÉTODO DE LIGAÇÃO COMPLETA
Uma análise geral da tabela1 anexo III, mostrou que não há variações significativas no processo
de agregação dos objectos comparando com os do método de Ward. A única diferença esta
relacionada com as interacções segundo os quais os objectos foram agregados aos respectivos
grupos.
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
38 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
A tabela1 do anexo III mostra que o primeiro agrupamento a ser definido é composto pelos
distritos de Machanga (44) e Mavago (75), pelo facto de estes apresentarem um menor valor do
coeficiente de aglomeração. De seguida, o distrito de Cheringoma (41) junta-se aos distritos de
Machanga e Mavago na 12ª interacção e, Homoine (80) na 15ª interacção, assim sucessivamente.
Nas primeiras 88 interacções, o coeficiente de aglomeração registou pequenas variações.
Da 89ª para a 90ª interacção (o que corresponde a aglomeração de 5 para 4 grupos) o coeficiente
aumentou em 298.097 unidades (passando de 618.899 para 322.802).
Da interacção 90 para 91 (o que corresponde a aglomeração de 4 para 3 grupos), o coeficiente
aumentou em 118.41 unidades (passando de 618.899 para 737.309).
Da interacção 91 para 92 (o que corresponde a aglomeração de 3 para 2 grupos), o coeficiente
aumentou em 1157.603 unidades (passando de 737.309 para 1894.912).
Da interacção 92 para 93 (o que corresponde a aglomeração de 2 para 1 grupos), o coeficiente
aumentou em 2554.264 unidades (passando de 1894.912 para 4449.176).
4.5 Interpretação dos agrupamentos
Os resultados da aplicação de AA usando os critérios de ligação completa e, o critério de Ward
para a definição de 3, 4 e 5 agrupamentos estão ilustradas na tabela 3 (anexo III). Onde, o
método de Ward mostrou tendências em formar grupos estáveis em relação a variação do
tamanho dos agrupamentos, ou seja, agrupamentos com uma dimensão aproximadamente igual,
tal como foi reiterado pela literatura segundo a qual o método de Ward tende a produzir grupos
com aproximadamente o mesmo número de elementos.
Contrariamente aos agrupamentos definidos com base no método de Ward, o critério de ligação
completa, mostrou uma elevada variabilidade em relação a dimensão dos agrupamentos,
principalmente na estrutura com três agrupamentos. Este método identificou os distritos de Alto-
Molócue, Chinde e Namacurra como potenciais valores atípicos por ter agregado nas últimas
interacções nas 3 estruturas de agrupamentos.
O dendograma apresentado na figura1 do anexo III foi obtido com base no método de ligação
completa, onde foram identificados 4 agrupamentos distintos para um nível de corte de
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
39 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
aproximadamente igual a 4,5 unidades de medida, no qual um dos agrupamentos é composto por
apenas 3 distritos e, um outro agrupamento com um maior número de distritos.
Da tabela 4.5, observa-se que aplicando o método de Ward, maior parte dos distritos que
apresentam uma similaridade na variável estatística de agrupamentos pertencem ao 1º grupo o
que corresponde a 31% do total de distritos em estudo.
Por sua vez, com a aplicação do método de ligação completa maior percentagem dos distritos
com similaridade na variável estatística de agrupamentos fazem parte do 2º agrupamento com
cerca de 53% do total dos distritos em análise e, o 4º grupo passou de 20 distritos (método de
Ward) para 3 distritos (com base no método de ligação completa).
Tabela 4.5 Comparação do tamanho dos agrupamentos
Grupos Método de Ward Método de Ligação Completa
Nº de Casos % de Casos Nº de Casos % de Casos
1 29 31 28 30
2 25 27 50 53
3 20 21 13 14
4 20 21 3 3
Total 94 100 94 100
Identificação da melhor estrutura dos agrupamentos
Por definição, um valor de 7.0),( FCCOF , indica que a matriz cofenética gerada a partir do
dendograma representou uma boa simplificação da matriz de distância ou fenética e, portanto, a
AA efectuada forneceu grupos puramente homogéneos.
Tabela 4.6 Identificação da melhor estrutura dos agrupamentos
Critério de Ligação Número de Grupos COF (F, C)
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
40 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
Ward 4 0.788
Ligação Completa 4 0.859
Com base no valor do ),( FCCOF apresentado na tabela 4.6, conclui-se que os dois métodos
usados na definição dos agrupamentos forneceram grupos homogéneos, visto que ambos
apresentaram um valor do ),( FCCOF superior a 0.7, mas a matriz cofenetica gerada com base no
dendograma d o método de ligação completa mostrou uma melhor simplificação da matriz
fenética. Portanto, passar-se-á a considerar os agrupamentos obtido com base no método de
ligação completa.
4.6 VALIDAÇÃO DOS AGRUPAMENTOS
Antes de aplicar os testes multivariados, foram avaliadas em primeiro lugar as três suposições
descritas anteriormente.
Tabela 4.7 Testes de Normalidade Univariada
Variáveis Grupos
Kolmogorov-Smirnova Shapiro-Wilk
Estatística gl Sig. Estatística Gl Sig.
Estimativa do total de
área cultivada
1 0,157 28 0,073 0,958 28 0,318
2 0,086 50 0,20 0,963 50 0,113
3 0,171 13 0,20 0,976 13 0,95
4 0,321 3 . 0,883 3 0,332
Estimativa do
Orçamento Total
1 0,141 28 0,161 0,945 28 0,147
2 0,097 50 0,20 0,976 50 0,395
3 0,153 13 0,20 0,925 13 0,291
4 0,254 3 . 0,963 3 0,632
a Significância corregida por Lilliefors
A primeira suposição avaliada foi a de normalidade nas variáveis respostas e, com base no teste
de Kolmogorov-Smirnov apresentado na tabela 4.7 conclui-se que as duas variáveis dependentes
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
41 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
estão normalmente distribuídas nos 4 grupos, visto que em todos os casos a probabilidade
associada a esta estatística é superior a 0,05.
Tabela 4.8 Teste de igualdade de variâncias Tabela 4.9 Teste M de Box
O teste de Levene para a igualdade de variâncias (tabela 4.8), mostrou que as duas variáveis
respostas apresentam variâncias idênticas nos 4 grupos. De igual modo, o teste M de Box (tabela
4.9), mostrou que analisando as duas variáveis de forma conjunta, as matrizes de variância e
covariância nos quatro grupos são idêntica, pois, o valor_p é maior que 0,05. Como as duas
variáveis resposta estão normalmente distribuídas, conclui-se que os resultados deste teste são
confiáveis.
Tabela 4.10 Teste de esfericidade de Bartltetta
Razão de Verosimilhança ,000
Estatística de Bartlett 183,970
Graus de liberdade 2
Intercorrelação entre as duas variáveis respostas 0.499
Significância ,000
a Modelo: Intercepto + Grupos
A última suposição a ser verificada, esta relacionada com a independência entre as variáveis
resposta. O teste de Bartlett está associado a um valor_p inferior a 0,05 o que leva a rejeição da
hipótese de independência entre as duas variáveis respostas.
Uma avaliação do coeficiente de correlação de Pearson mostrou que as duas variáveis estão
correlacionadas de forma moderada, portanto, tendo em conta o nível de correlação das variáveis
e, levando em consideração o facto de o valor_p estar muito próximo de 0,05 vai-se prosseguir
com a MANOVA.
Box's M 10,102
F ,921
gl1 9
gl2 318,931
Sig. ,507
Variáveis F gl1 gl2 Sig.
Estimativa do total de área
cultivada
,508 3 90 ,678
Estimativa do Orçamento Total ,925 3 90 ,432
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
42 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
Analisadas as suposições inerentes a aplicação MANOVA, vai-se prosseguir com a avaliação de
significância dos vectores de média dos 4 grupos.
Uma avaliação dos resultados da tabela 4.11, leva a rejeição da hipótese nula (à de igualdade dos
vectores de medias nos 4 grupos) nas duas variáveis respostas, ou seja, existem pelo menos dois
grupos com vectores de médias diferentes, estas conclusões também podem ser tiradas com base
no quadro da MANOVA da tabela 3 (anexo III).
Tabela 4.11 Testes Multivariados b
Efeitos Valor F gl
grupo
gl do
erro Sig.
Poder do
Teste
Inte
rcep
to
Traço de Pillai 0,84 237,25a 2 89 0.00 1.0
Lambda de Wilk 0,16 237,25a 2 89 0.00 1.0
Traço de Hotelling 5,33 237,25a 2 89 0.00 1.0
Maior raiz característica de Roy 5,33 237,25a 2 89 0.00 1.0
Gru
pos
Traço de Pillai 0,27 4,6 6 180 0.00 0,986
Lambda de Wilk 0,74 4,92a 6 178 0.00 0,991
Traço de Hotelling 0,36 5,24 6 176 0.00 0,994
Maior raiz característica de Roy 0,35 10,51 3 90 0.00 0,998
a Estatística exacta
b Modelo: Intercepto+Grupos
Após detectar a existência de diferenças significativas entre os vectores de média, é altura de
identificar o par (ou pares) de grupos que apresentam diferenças nos vectores de média com base
nos intervalos simultâneos de Bonferroni.
Assim, como há 4 grupos e 2 variáveis respostas então obter-se-á 62
4
pares de médias. Com
base nos resultados da tabela 4 (anexo III), observa-se que a variável Estimativa de total da área
cultivada tem pouco puder em diferenciar os vectores de média, visto que nesta variável, tem-se
apenas dois grupos com vectores de média diferente (grupo 2 e grupo 3), contrariamente a isso, a
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
43 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
variável estimativa do orçamento total, é altamente poderoso em diferenciar os vectores de
média, com excepção dos pares (4-3) e (1-3).
Tabela 4.12 Média das variáveis nos 4 agrupamentos formado
Variáveis Grupos
Grande Centroide Grupo 1 Grupo 2 Grupo 3 Grupo 4
Precipitação 138,789 154,827 126,033 106,417 144,523
Temperatura Mínima 15,156 16,053 15,910 18,400 15,841
Temperatura Máxima 26,554 26,729 26,382 26,310 26,615
Milho 2,082 2,055 2,078 2,064 2,067
Arroz 1,012 1,009 1,107 0,909 1,021
Feijão Nhemba ,521 0,531 0,594 0,204 0,526
Feijão Bóer ,533 0,661 0,549 0,678 0,608
Feijão Manteiga ,866 0,768 1,006 0,965 0,836
A descrição a seguir compara os perfis de cada grupo com os demais criados. Para facilitar a sua
compreensão é recomendado a observação dos gráficos2 e 2A em anexo ou com base na tabela
4.12, que contêm as médias das variáveis que compõem a variável estatística de agrupamentos,
onde constatou-se que:
O grupo1 é composto pelos distritos que apresentam em média, baixo potencial na produção do
feijão bóer, valores intermediários de precipitação e temperaturas máximas, um potencial
intermediário na produção do arroz e, alto potencial na produção de milho.
O grupo2 é composto pelos distritos que apresentam em média, baixo potencial na produção do
milho e feijão manteiga, um potencial intermediário na produção de arroz, feijão nhemba e feijão
bóer, valores intermediários de temperaturas mínimas e, altos valores de precipitação e
temperaturas máximas.
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
44 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
O grupo3 é caracterizado pelos distritos que apresentam em média, baixo potencial na produção
do feijão bóer, valores intermediários de precipitação, temperaturas mínimas e máximas,
produção do milho e, alto potencial na produção de arroz, feijão nhemba e, feijão manteiga.
Finalmente observa-se que o 4º agrupamento é caracterizado pelos distritos que apresentam em
média baixo potencial na produção de arroz, feijão nhemba, baixos valores de precipitação e
temperaturas máximas, um potencial intermediários na produção de milho e feijão manteiga,
altos valores de temperaturas mínimas e, alto potencial na produção do feijão bóer.
Tabela 4.13 Matriz das distâncias entre os centroide dos agrupamentos
Grupos Grupo 1 Grupo 2 Grupo 3 Grupo 4
Grupo 1 0 16,065 12,781 32,538
Grupo 2 16,065 0 28,798 48,471
Grupo 3 12,781 28,798 0 19,779
Grupo 4 32,538 48,471 19,779 0
Da matriz de distância entre os centroide dos agrupamentos (tabela 4.13), constatou-se que os
agrupamentos 4 e 2 estão muito distantes um do outro, ou seja, são os mais heterogéneos e, os
agrupamentos 1 e 3 estão muito mais próximos um do outro, sendo os menos heterogéneos.
A representação geométrica dos agrupamentos (mapa da figura 4.1), mostra claramente que
maior parte dos distritos que fazem parte do primeiro e segundo grupo são maioritariamente da
região norte do país. E, foi identificada como sendo a região com elevadas precipitações e alta
potencialidade na produção de cereais, o que faz com que esta região seja altamente
representativa em relação as estruturas de agrupamentos obtidos.
A zona centro, foi classificada como sendo a segunda região mais representativa na estrutura dos
agrupamentos, pelo facto de apresentar um número considerável de distritos como potências
produtores de cereais, e com um nível moderado do índice pluviométrico. Por fim, a zona sul foi
classificada como sendo a região com baixa potencialidade na produção de cereais e, baixos
índices pluviométricos de entre as três regiões.
Figura 4.1 Representação Geométrica dos Agrupamentos
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
45 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
46 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
CAPÍTLO V: CONCLUSÕES E RECOMENDAÇÕES
5.1 CONCLUSÕES
Com base nas análises feitas sobre os dados, conclui-se que a matriz das correlações, não
identificou a existência de grandes correlações entre as variáveis, com excepção das variáveis
temperatura mínima que esta correlacionada de forma moderada com a variável temperatura
máxima. Os critérios alternativos param a definição do número de grupos mostraram que uma
solução de 4 grupos justifica a estrutura dos dados.
A AA efectuada na retenção de uma estrutura de 4 agrupamentos mostrou que o método de Ward
tende a formar agrupamentos com tamanhos aproximadamente igual. Já, o método de ligação
completa forneceu agrupamentos com grandes variações quanto ao tamanho dos mesmos.
A aplicação dos testes da MANOVA sobre a estrutura dos agrupamentos mostraram que existem
pelo menos dois grupos com vectores de médias diferentes nas duas variáveis respostas usadas e,
a identificação destes grupos foi feita com base nos intervalos simultâneos de Bonferroni.
Uma análise feita com base nos valores médios das variáveis em cada um dos agrupamentos,
mostrou que:
Em geral distritos com baixas temperaturas e/ou baixas precipitações tendem a ser potenciais
produtores do feijão bóer.
Distritos com valores moderados de precipitação e temperaturas tendem a ser potenciais
produtores de feijão nhemba, feijão manteiga e arroz.
Distritos com altas precipitações e/ou altas temperaturas, tendem a ser por vezes potenciais
produtores de arroz, feijão nhemba e feijão manteiga.
De forma geral, constatou-se que a zona norte do país apresenta uma elevada potencialidade na
produção de cereais, apesar desta região apresentar algumas características naturais e económicas
que dificultam a realização do potencial, como por exemplo a falta de infra-estrutura de estradas
adequadas, o fraco acesso a tecnologias modernas por parte dos agricultores, leva a concluir mais
uma vez, que maiores investimentos em agro-processamento e infra-estruturas localizam-se na
zona sul do país, apesar da região da apresentar uma baixa potencialidade agrícola.
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
47 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
Por fim, constatou-se que a estrutura dos agrupamentos encontrada é significativamente diferente
com a definida pelo Governo no âmbito da estratégia RV12
tanto no critério de definição do
número de agrupamentos como no tamanho dos agrupamentos, apesar de houver alguns casos
classificação que contrariam aquilo que é o conhecimento a prior em relação a sua potencialidade
na produção de um dado cereal, ou seja, distritos que são potenciais produtores de um dado
cereal mas, foram alocados em grupos de distritos com baixa potencialidade na produção deste
cereal, como por exemplo os distritos de Sanga, Mogovala, Balama, entre outros.
5.2 RECOMENDAÇÕES
Em primeiro lugar considera-se que esses resultados podem orientar as investigações futuras no
sector agrário, na tentativa de explorar e dar mais aprofundamento ao tema por forma a
implementar as conclusões encontradas na melhoria dos sistemas agrários em Moçambique.
Sugere-se ao Governo como aos potenciais investidores, a implementação de uma análise de
segmentação dos distritos usando as técnicas de análise de agrupamentos para que se possa
garantir com uma certa margem de erro que os agrupamentos encontrados são significativos e,
não destorcem a verdadeira estrutura. Bem como a análise das condições climáticas como uma
alavanca para que possa ter uma ideia em relação ao tipo de cereal a produzir e, a análise das
relações existentes entre o tipo de solo, as temperaturas e, os níveis de precipitações que muita
das vezes tem sido irregular no país.
Será igualmente crucial a exploração do potencial agrícola das zonas centro e norte, combinando
os investimentos na produção de culturas a investimentos em agro-processamento, construção de
sistemas de rega, elaboração de políticas que possam facilitar o acesso a crédito bancário por
parte dos pequenos agricultores, entre outras áreas que possam adicionar valor à produção
agrícola.
12
A estrutura definida pelo Governo no âmbito da estratégia RV pode ser encontrada em MINAG (2010)
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
48 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
5.3 REFERÊNCIAS BIBLIOGRÁFICAS
Albuquerque, M. A. (2005). Estabilidade em análise de agrupamentos, dissertação de mestrado
em biometria, Universidade Federal de Pernambuco, Brasil.
Barroso, L. P e Artes, R (2003). Análise Multivariada de Dados, Artigo científico, Universidade
de São Paulo, Brasil.
Constituição da República (2007). Princípios e direitos fundamentais, Maputo, Moçambique.
Hair, et al. (2005). Análise Multivariada de dados, 5a edição.
Hãrdle, W e Simar, L. (2007). Applied multivariate statistical analysis, second edition, Berlin.
INE (2011). Estatísticas sectoriais e agricultura em Moçambique.
FAO (1996). Food and Agriculture Organization of the United Nations. Report of the eighth
session of committee on Word Food Security, Rome.
Lopes e Magalhães (2010). Estudo sobre impacto da política agrária em Moçambique, artigo
científico.
Maroco, J. (2007). Análise estatística com utilização do SPSS, Edições Sílabo Lda, Lisboa.
MINAG (2010). Plano estratégico para o Desenvolvimento do sector Agrário, Moçambique.
Oliveira, J. R, T e Padovani, C. R. (2010). Utilização da análise de agrupamentos na
caracterização do perfil agrícola e climatológico da região do sudeste do Estado de Mato Grosso,
Brasil.
Prearo, L. C. (2008). O uso de técnicas estatísticas multivariadas em dissertações e teses sobre o
comportamento do consumidor (Um estudo exploratório), São Paulo, Brasil.
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
49 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
Reis, E. (2001). Estatística Multivariada Aplicada, 2a edição, editora Sílabo, Lisboa.
Rencher, A. C. (2002). Methods of Multivariate Analysis, second edition, Canada.
Sitoe, T.A. (2005). Agricultura Familiar em Moçambique estratégias de Desenvolvimento
sutentavel, Maputo.
Sartório, S. D. (2008), Aplicações de técnicas de análise multivariadas em experimentos agro-
pecuário usando o software R, Piracicaba, Brasil.
Uaiene e Arndt (2007). Eficiência técnica dos agregados familiares rurais em Moçambique,
artigo científico.
Vicini, L. (2005). Análise multivariada da teoria à prática, Santa Mária, RS, Brasil.
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
50 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
ANEXO I
CARACTERIZAÇÃO DAS VARIÁVEIS
1. CARACTERIZAÇÃO DAS VARIÁVEIS CLIMÀTICAS
Figra1 Histogramas das variáveis Climáticas
22201816141210
Median
Mean
17.016.516.015.515.0
A nderson-Darling Normality Test
V ariance 8.532
Skewness 0.179647
Kurtosis -0.601084
N 94
Minimum 10.310
A -Squared
1st Q uartile 13.463
Median 15.550
3rd Q uartile 17.850
Maximum 22.450
95% C onfidence Interv al for Mean
15.243
0.35
16.439
95% C onfidence Interv al for Median
14.950 16.770
95% C onfidence Interv al for StDev
2.555 3.411
P-V alue 0.466
Mean 15.841
StDev 2.921
95% Confidence Intervals
Média da Tª Minima
323028262422
Median
Mean
27.627.226.826.426.0
A nderson-Darling Normality Test
V ariance 8.281
Skewness 0.015487
Kurtosis -0.598381
N 94
Minimum 20.980
A -Squared
1st Q uartile 24.515
Median 26.660
3rd Q uartile 28.580
Maximum 33.090
95% C onfidence Interv al for Mean
26.026
0.31
27.205
95% C onfidence Interv al for Median
25.990 27.690
95% C onfidence Interv al for StDev
2.517 3.360
P-V alue 0.555
Mean 26.615
StDev 2.878
95% Confidence Intervals
Média da Tª Maxima
165150135120105
Median
Mean
150148146144142
A nderson-Darling Normality Test
V ariance 186.73
Skewness -0.715878
Kurtosis 0.507535
N 94
Minimum 101.75
A -Squared
1st Q uartile 136.94
Median 146.25
3rd Q uartile 156.00
Maximum 168.25
95% C onfidence Interv al for Mean
141.72
0.84
147.32
95% C onfidence Interv al for Median
141.50 150.10
95% C onfidence Interv al for StDev
11.95 15.96
P-V alue 0.029
Mean 144.52
StDev 13.66
95% Confidence Intervals
Precipitação
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
51 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
Grafico1 Caule e folha da variável Precipitação Média Anual
Gráfico 2 Caule e folha da variável Média da Temperatura Mínima Anual
Frequências Caule & Folhas
5.00 10 . 34778
2.00 11 . 17
12.00 12 . 124555556668
9.00 13 . 123445789
10.00 14 . 0224556799
13.00 15 . 0112334455699
9.00 16 . 144577899
13.00 17 . 0233334566899
6.00 18 . 002578
8.00 19 . 12467999
3.00 20 . 038
1.00 21 . 2
3.00 22 . 034
Stem width: 1.00
Each leaf: 1 case(s)
Frequência Caule & Folhas
2.00 Extremes (=<103)
1.00 11 . 4
.00 11 .
5.00 12 . 00344
5.00 12 . 66778
8.00 13 . 00011444
11.00 13 . 66788899999
12.00 14 . 000011112334
12.00 14 . 555677777889
11.00 15 . 00001112344
13.00 15 . 5556666678899
12.00 16 . 000000011114
2.00 16 . 88
Stem width: 10.00
Each leaf: 1 case(s)
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
52 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
Gráfico 3 Caule e folha da variável Média da Temperatura Máxima Anual
Frequência Caule & Folhas
1.00 20 . 9
6.00 21 . 355789
4.00 22 . 1167
10.00 23 . 0224667999
8.00 24 . 04555679
9.00 25 . 145555699
12.00 26 . 001144566689
10.00 27 . 0122446789
16.00 28 . 0112223344568889
8.00 29 . 13445788
4.00 30 . 2257
3.00 31 . 378
2.00 32 . 28
1.00 33 . 0
Stem width: 1.00
Each leaf: 1 case(s)
Tabela 1 Percentis das variáveis climáticas
5 10 25 50 75 90 95
Médias Ponderadas Precipitação Média 120 126.5 136.9 146.3 156 160.6 161.2
Temperatura Mínima 10.85 12.39 13.46 15.55 17.85 19.94 20.95
Temperatura Máxima 21.73 22.41 24.52 26.66 28.58 30.23 31.75
Precipitação 137 146.3 156
Temperatura Mínima 13.48 15.55 17.82
Temperatura Máxima 24.53 26.66 28.57
Percentis
Tukey's Hinges
(Defininição1)
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
53 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
1. CARACTERIZAÇÃO DOS CEREAIS
Figura 2 Histogramas dos cereais
2.01.61.20.80.4
Median
Mean
0.950.900.850.800.75
A nderson-Darling Normality Test
V ariance 0.16895
Skewness 0.471319
Kurtosis 0.294320
N 94
Minimum 0.12900
A -Squared
1st Q uartile 0.47025
Median 0.86650
3rd Q uartile 1.08750
Maximum 2.21700
95% C onfidence Interv al for Mean
0.75199
0.67
0.92037
95% C onfidence Interv al for Median
0.75198 0.95901
95% C onfidence Interv al for StDev
0.35950 0.47994
P-V alue 0.076
Mean 0.83618
StDev 0.41103
95% Confidence Intervals
Feijão Boer
1.81.51.20.90.60.30.0
Median
Mean
0.700.650.600.550.500.450.40
A nderson-Darling Normality Test
V ariance 0.14487
Skewness 0.912258
Kurtosis 0.177256
N 94
Minimum 0.05500
A -Squared
1st Q uartile 0.31075
Median 0.50200
3rd Q uartile 0.89750
Maximum 1.82600
95% C onfidence Interv al for Mean
0.53001
2.67
0.68592
95% C onfidence Interv al for Median
0.40300 0.58003
95% C onfidence Interv al for StDev
0.33290 0.44442
P-V alue < 0.005
Mean 0.60797
StDev 0.38061
95% Confidence Intervals
Feijão Manteiga
1.51.20.90.60.3
Median
Mean
0.600.550.500.450.40
A nderson-Darling Normality Test
V ariance 0.10092
Skewness 1.06778
Kurtosis 0.66510
N 94
Minimum 0.09400
A -Squared
1st Q uartile 0.30625
Median 0.45550
3rd Q uartile 0.68450
Maximum 1.48300
95% C onfidence Interv al for Mean
0.46107
2.51
0.59121
95% C onfidence Interv al for Median
0.37200 0.53502
95% C onfidence Interv al for StDev
0.27786 0.37094
P-V alue < 0.005
Mean 0.52614
StDev 0.31768
95% Confidence Intervals
Feijão Nhemba
2.72.42.11.81.51.2
Median
Mean
2.122.102.082.062.042.022.00
A nderson-Darling Normality Test
V ariance 0.0549
Skewness 0.94237
Kurtosis 4.15158
N 94
Minimum 1.1900
A -Squared
1st Q uartile 1.9380
Median 2.0020
3rd Q uartile 2.1475
Maximum 2.9180
95% C onfidence Interv al for Mean
2.0186
5.21
2.1146
95% C onfidence Interv al for Median
1.9880 2.0430
95% C onfidence Interv al for StDev
0.2049 0.2735
P-V alue < 0.005
Mean 2.0666
StDev 0.2343
95% Confidence Intervals
Milho
2.11.81.51.20.90.6
Median
Mean
1.151.101.051.000.950.900.85
A nderson-Darling Normality Test
V ariance 0.1569
Skewness 0.418719
Kurtosis -0.595887
N 94
Minimum 0.3873
A -Squared
1st Q uartile 0.6749
Median 0.9810
3rd Q uartile 1.3133
Maximum 2.0934
95% C onfidence Interv al for Mean
0.9397
0.86
1.1019
95% C onfidence Interv al for Median
0.8634 1.1141
95% C onfidence Interv al for StDev
0.3464 0.4625
P-V alue 0.026
Mean 1.0208
StDev 0.3961
95% Confidence Intervals
Arroz
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
54 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
Gráfico 4 Caule e folha da variável Milho
Frequência Caule & Folhas
1.00 Extremes (=<1.19)
2.00 17 . 89
2.00 18 . 03
12.00 18 . 788889999999
8.00 19 . 00233334
22.00 19 . 5566688888888889999999
10.00 20 . 0002222334
10.00 20 . 5555566678
4.00 21 . 0014
6.00 21 . 568899
4.00 22 . 1112
1.00 22 . 7
2.00 23 . 03
.00 23 .
2.00 24 . 12
8.00 Extremes (>=2.47)
Stem width: .100
Each leaf: 1 case(s)
Gráfico 5 Caule e folha da variável Feijão Nhemba
Frequência Caule & Folhas
10.00 0 . 0111111111
34.00 0 . 2222222222223333333333333333333333
22.00 0 . 4444444444555555555555
10.00 0 . 6666677777
10.00 0 . 8888899999
1.00 1 . 0
3.00 1 . 222
4.00 Extremes (>=1.3)
Stem width: 1.000
Each leaf: 1 case(s)
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
55 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
Gráfico 6 Caule e folha da variável Feijão Bóer
Frequência Caule & Folhas
7.00 0 . 0011111
30.00 0 . 222222222222223333333333333333
20.00 0 . 44444444455555555555
10.00 0 . 6666667777
10.00 0 . 8888999999
8.00 1 . 00000001
5.00 1 . 22233
3.00 1 . 444
1.00 Extremes (>=1.8)
Stem width: 1.000
Each leaf: 1 case(s)
Gráfico 7 Caule e folha da variável Feijão Manteiga
Frequência Caule & Folhas
3.00 0 . 111
15.00 0 . 222223333333333
12.00 0 . 444444455555
12.00 0 . 666677777777
20.00 0 . 88888888999999999999
18.00 1 . 000000000001111111
6.00 1 . 222333
5.00 1 . 44555
1.00 1 . 6
1.00 1 . 8
Stem width: 1.000
Each leaf: 1 case(s)
Gráfico 8 Caule e folha da variável Arroz
Frequência Caule & Folhas
6.00 0 . 334444
42.00 0 . 555555555666666666667777777778888889999999
33.00 1 . 000000001111122222222233333334444
12.00 1 . 555555667788
1.00 2 . 0
Stem width: 1.0000
Each leaf: 1 case(s)
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
56 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
Tabela 2 Percentis dos cereais
5 10 25 50 75 90 95
Médias Ponderadas Milho 1.829 1.89 1.938 2.002 2.148 2.42 2.597
Feijão Nhemba 0.138 0.175 0.306 0.456 0.684 0.975 1.246
Feijão Bóer 0.174 0.209 0.311 0.502 0.898 1.156 1.398
Feijão Manteiga 0.247 0.307 0.47 0.866 1.087 1.377 1.539
Arroz 0.472 0.527 0.675 0.981 1.313 1.547 1.75
Milho 1.937 2.002 2.145
Feijão Nhemba 0.307 0.456 0.679
Feijão Bóer 0.312 0.502 0.891
Feijão Manteiga 0.475 0.866 1.085
Arroz 0.677 0.981 1.304
Tukey's Hinges
(Definição1)
Percentis
Figura 3 Identificação de outliers com base nos boxplots
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
57 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
Gráfico 9 Matriz das correlações entre as variáveis
Precip
10 16 22
0. 095
0. 074
1.5 2.5
0. 052
0. 053
0.2 1.0
0. 042
0. 035
0.5 2.0
60
120
0.17
.
10
18
MeTªMin 0.69***
0. 03
0.25
*0.13
0. 066
0. 11
MdTªMax 0. 032
0.18
.0.20
*0.23
*
22
30
0. 087
1.5
Milho 0.12
0. 089
0. 11
0.35
***
Arroz 0. 11
0. 086
0.5
2.0
0. 055
0.2
1.2
F_Nhem 0.15
0.12
F_Mant0.0
1.5
0.34***
60 120
0.5
2.0
22 28 0.5 1.5 0.0 1.5
F_Boer
Matriz Scatterplot e correlações:Projecto
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
58 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
Tabela 3 Tabela ANOVA para o cálculo do R2 para 9 grupos
SQ Gl QM F Sig.
Entre Grupos 16440.4 8 2055.05 188.785 0
Dentro dos Grupos 925.283 85 10.886
Total 17365.7 93
Entre Grupos 474.892 8 59.361 15.84 0
Dentro dos Grupos 318.548 85 3.748
Total 793.439 93
Entre Grupos 464.613 8 58.077 16.158 0
Dentro dos Grupos 305.519 85 3.594
Total 770.132 93
Entre Grupos 0.168 8 0.021 0.363 0.937
Dentro dos Grupos 4.933 85 0.058
Total 5.101 93
Entre Grupos 1.529 8 0.191 1.244 0.284
Dentro dos Grupos 13.062 85 0.154
Total 14.591 93
Entre Grupos 1.477 8 0.185 1.984 0.058
Dentro dos Grupos 7.911 85 0.093
Total 9.388 93
Entre Grupos 1.234 8 0.154 1.071 0.391
Dentro dos Grupos 12.234 85 0.144
Total 13.468 93
Entre Grupos 1.18 8 0.148 0.863 0.551
Dentro dos Grupos 14.529 85 0.171
Total 15.71 93
Arroz
Feijão Nhemba
Feijão Bóer
Feijão Manteiga
ANOVA
Precipitação
Temperatura Mínima
Temperatura Máxima
Milho
Gráfico 10 Ilustração do comportamento da variação do R2 e G
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
59 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
ANEXO II
APLICAÇÃO DO MÉTODO DE WARD
Tabela 1 Quadro de Aglomeração usando o método de Ward
Interacção Grupos Combinados
Coeficientes
Estágio da primeira
aparição dos grupos Próximo
Estágio Grupo 1 Grupo 2 Grupo 1 Grupo 2
1 44 75 .648 0 0 12
2 74 85 1.385 0 0 58
3 28 62 2.154 0 0 51
4 22 65 2.969 0 0 38
5 87 91 3.891 0 0 30
6 61 78 4.929 0 0 37
7 26 77 6.020 0 0 17
8 2 20 7.278 0 0 38
9 30 37 8.536 0 0 35
10 33 34 9.843 0 0 75
11 7 49 11.187 0 0 65
12 41 44 12.994 0 1 15
13 6 56 14.868 0 0 67
14 72 81 16.772 0 0 57
15 41 80 18.706 12 0 43
16 60 63 20.718 0 0 49
17 26 55 22.757 7 0 70
18 39 68 24.859 0 0 64
19 13 50 26.978 0 0 59
20 16 79 29.103 0 0 44
21 21 92 31.280 0 0 39
22 19 42 33.592 0 0 46
23 25 32 36.000 0 0 63
24 45 52 38.414 0 0 33
25 40 76 40.849 0 0 30
26 1 36 43.608 0 0 71
27 11 23 46.560 0 0 55
28 4 35 49.535 0 0 69
29 38 89 52.526 0 0 43
30 40 87 55.560 25 5 47
31 9 51 58.782 0 0 62
32 5 64 62.006 0 0 46
33 45 93 65.251 24 0 48
34 58 59 68.530 0 0 90
35 30 90 72.000 9 0 58
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
60 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
36 47 83 75.749 0 0 63
37 61 66 79.660 6 0 51
38 2 22 83.616 8 4 56
39 8 21 87.641 0 21 76
40 29 86 92.156 0 0 73
41 69 82 96.882 0 0 68
42 27 73 102.046 0 0 61
43 38 41 107.644 29 15 65
44 16 94 113.490 20 0 56
45 18 71 119.765 0 0 57
46 5 19 126.463 32 22 69
47 17 40 133.885 0 30 61
48 14 45 141.532 0 33 62
49 60 88 149.508 16 0 53
50 3 10 157.791 0 0 60
51 28 61 167.244 3 37 64
52 12 24 177.020 0 0 74
53 43 60 186.980 0 49 75
54 48 84 197.116 0 0 72
55 11 57 207.258 27 0 74
56 2 16 218.596 38 44 70
57 18 72 229.939 45 14 72
58 30 74 241.925 35 2 66
59 13 53 254.201 19 0 85
60 3 46 267.064 50 0 84
61 17 27 280.694 47 42 81
62 9 14 295.280 31 48 73
63 25 47 312.244 23 36 71
64 28 39 330.947 51 18 79
65 7 38 349.777 11 43 77
66 30 31 368.625 58 0 80
67 6 54 388.378 13 0 82
68 69 70 409.700 41 0 78
69 4 5 434.907 28 46 76
70 2 26 461.757 56 17 82
71 1 25 490.161 26 63 79
72 18 48 521.746 57 54 86
73 9 29 553.732 62 40 85
74 11 12 586.123 55 52 78
75 33 43 629.563 10 53 87
76 4 8 673.101 69 39 80
77 7 15 724.294 65 0 81
78 11 69 786.022 74 68 83
79 1 28 851.720 71 64 88
80 4 30 933.456 76 66 86
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
61 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
81 7 17 1.017.159 77 61 84
82 2 6 1.133.279 70 67 88
83 11 67 1.267.816 78 0 87
84 3 7 1.402.693 60 81 91
85 9 13 1.557.491 73 59 89
86 4 18 1.731.931 80 72 89
87 11 33 1.944.230 83 75 90
88 1 2 2.244.048 79 82 92
89 4 9 2.702.241 86 85 91
90 11 58 3.660.451 87 34 92
91 3 4 4.979.963 84 89 93
92 1 11 7.630.307 88 90 93
93 1 3 18.987.511 92 91 0
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
62 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
Figura 1 Dendograma (Método de Ward)
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
63 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
ANEXO III
APLICAÇÃO DO MÉTODO DE LIGAÇÃO COMPLETA
Tabela 1 Quadro de Aglomeração usando o método de ligação completa
Interacção
Grupos Combinados
Coeficientes
Estágio da primeira aparição
dos grupos Próxi
mo
Estági
o Grupo
1 Grupo 2 Grupo 1 Grupo 2
1 44 75 1.297 0 0 12
2 74 85 1.474 0 0 47
3 28 62 1.538 0 0 51
4 22 65 1.629 0 0 37
5 87 91 1.844 0 0 33
6 61 78 2.076 0 0 35
7 26 77 2.182 0 0 17
8 2 20 2.516 0 0 37
9 30 37 2.517 0 0 30
10 33 34 2.614 0 0 68
11 7 49 2.687 0 0 61
12 41 44 3.589 0 1 15
13 6 56 3.748 0 0 71
14 72 81 3.807 0 0 58
15 41 80 3.972 12 0 44
16 60 63 4.024 0 0 46
17 26 55 4.160 7 0 65
18 39 68 4.204 0 0 54
19 13 50 4.239 0 0 62
20 16 79 4.250 0 0 42
21 21 92 4.354 0 0 40
22 19 42 4.624 0 0 49
23 25 32 4.815 0 0 69
24 45 52 4.830 0 0 36
25 40 76 4.869 0 0 33
26 1 36 5.519 0 0 81
27 11 23 5.904 0 0 53
28 4 35 5.950 0 0 58
29 38 89 5.982 0 0 44
30 30 90 6.432 9 0 47
31 9 51 6.445 0 0 60
32 5 64 6.447 0 0 49
33 40 87 6.512 25 5 52
34 58 59 6.558 0 0 87
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
64 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
35 61 66 6.743 6 0 54
36 45 93 7.057 24 0 48
37 2 22 7.147 8 4 57
38 47 83 7.498 0 0 63
39 29 86 9.030 0 0 70
40 8 21 9.289 0 21 67
41 69 82 9.451 0 0 68
42 16 94 10.020 20 0 57
43 27 73 10.328 0 0 64
44 38 41 10.827 29 15 61
45 18 71 12.551 0 0 72
46 60 88 13.351 16 0 74
47 30 74 14.497 30 2 73
48 14 45 14.794 0 36 60
49 5 19 15.141 32 22 67
50 3 10 16.568 0 0 66
51 28 31 16.862 3 0 69
52 17 40 17.754 0 33 64
53 11 57 18.278 27 0 79
54 39 61 19.186 18 35 63
55 12 24 19.553 0 0 76
56 48 84 20.272 0 0 75
57 2 16 20.298 37 42 65
58 4 72 20.794 28 14 72
59 43 54 21.673 0 0 71
60 9 14 23.513 31 48 70
61 7 38 24.045 11 44 78
62 13 53 25.853 19 0 83
63 39 47 27.279 54 38 77
64 17 27 27.386 52 43 80
65 2 26 27.911 57 17 84
66 3 46 28.901 50 0 85
67 5 8 34.341 49 40 73
68 33 69 37.443 10 41 74
69 25 28 38.980 23 51 77
70 9 29 42.805 60 39 83
71 6 43 43.022 13 59 84
72 4 18 47.452 58 45 75
73 5 30 48.845 67 47 82
74 33 60 55.702 68 46 86
75 4 48 58.556 72 56 82
76 12 70 62.622 55 0 79
77 25 39 76.638 69 63 81
78 7 15 77.254 61 0 80
79 11 12 89.604 53 76 86
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
65 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
80 7 17 99.302 78 64 85
81 1 25 101.513 26 77 89
82 4 5 134.689 75 73 88
83 9 13 154.210 70 62 88
84 2 6 157.384 65 71 89
85 3 7 168.060 66 80 90
86 11 33 202.022 79 74 91
87 58 67 240.387 34 0 92
88 4 9 283.171 82 83 90
89 1 2 322.802 81 84 91
90 3 4 618.899 85 88 93
91 1 11 737.309 89 86 92
92 1 58 1.894.912 91 87 93
93 1 3 4.449.176 92 90 0
Tabela 2 Membro dos agrupamentos (Método de ligação completa)
Casos 5 Grupos 4 Grupos 3 Grupos
1:Angoche 1 1 1
2:Lalaua 1 1 1
3:Malema 2 2 2
4:Mecubúri 3 2 2
5:Memba 3 2 2
6:Mogincua 1 1 1
7:Mogovola 2 2 2
8:Murrupula 3 2 2
9:Mossuril 3 2 2
10:Muecate 2 2 2
11:Nacarôa 4 3 1
12:Ribaué 4 3 1
13:Ancuabe 3 2 2
14:Balama 3 2 2
15:Chiúre 2 2 2
16:Macomia 1 1 1
17:Moeda 2 2 2
18:Meluco 3 2 2
19:Montepuez 3 2 2
20:Muidumbe 1 1 1
21:Namuno 3 2 2
22:Nangade 1 1 1
23:Palma 4 3 1
24:Quissanga 4 3 1
25:Cuamba 1 1 1
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
66 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
26:Lago 1 1 1
27:Majune 2 2 2
28:Mandimba 1 1 1
29:Marrupa 3 2 2
30:Maúa 3 2 2
31:Mavago 1 1 1
32:Mecanhelas 1 1 1
33:Mecula 4 3 1
34:Metarica 4 3 1
35:Muembe 3 2 2
36:N'gauma 1 1 1
37:Nipepe 3 2 2
38:Sanga 2 2 2
39:Búzi 1 1 1
40:Chemba 2 2 2
41:Cheringoma 2 2 2
42:Chibabava 3 2 2
43:Marringue 1 1 1
44:Machanga 2 2 2
45:Marromeu 3 2 2
46:Muanza 2 2 2
47:Nhamatanda 1 1 1
48:Angónia 3 2 2
49:Cahora-Bassa 2 2 2
50:Changara 3 2 2
51:Chifunde 3 2 2
52:Macanga 3 2 2
53:Marávia 3 2 2
54:Moatize 1 1 1
55:Mutarara 1 1 1
56:Tsangano 1 1 1
57:Zumbo 4 3 1
58:Alto Molócue 5 4 3
59:Chinde 5 4 3
60:Gilé 4 3 1
61:Gurué 1 1 1
62:Ile 1 1 1
63:Maganja da Costa 4 3 1
64:Milange 3 2 2
65:Mocuba 1 1 1
66:Morrumbala 1 1 1
67:Namacurra 5 4 3
68:Namarroi 1 1 1
69:Nicoadala 4 3 1
70:Bárue 4 3 1
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
67 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
71:Gondola 3 2 2
72:Guro 3 2 2
73:Machaze 2 2 2
74:Manica 3 2 2
75:Mossurize 2 2 2
76:Sussundenga 2 2 2
77:Tambara 1 1 1
78:Funhalouro 1 1 1
79:Govuro 1 1 1
80:Homoíne 2 2 2
81:Inharrime 3 2 2
82:Inhassoro 4 3 1
83:Jangamo 1 1 1
84:Massinga 3 2 2
85:Panda 3 2 2
86:Chibuto 3 2 2
87:Chicualacuala 2 2 2
88: Chókwe 4 3 1
89:Guijá 2 2 2
90:Mabalane 3 2 2
91:Manjacaze 2 2 2
92:Magude 3 2 2
93:Manhiça 3 2 2
94:Matutuíne 1 1 1
Tabela 3 Análise da variabilidade nos tamanhos dos agrupamentos
Nº de Grupos Grupos Métodos
Ward Ligação Completa
3 Grupos
1 29 41
2 45 50
3 20 3
4 Grupos
1 29 28
2 25 50
3 20 13
4 20 3
5 Grupos
1 29 28
2 25 19
3 20 31
4 18 13
5 2 3
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
68 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
Gráfico 1 Dendograma (Método de ligação completa)
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
69 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
Gráfico 2 Valores médios das variáveis segundo os diferentes grupos criados
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
70 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
Gráfico 2A Valores médios das variáveis segundo os diferentes grupos criados
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
71 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
Tabela 3 Quadro da MANOVA
Fonte de
Variação Variaveis Dependentes SQ com o Erro tipo III gl Quadrado Médio F Sig.
Noncent.
Parameter
Poder
do Teste
Estimativa do total de area
cultivada 1.132.639.744,19 3 377.546.581,40 2,78 0,05 8,34 0,65
Estimativa do Orçamento
Total 245,51 3 81,84 10,26 0,00 30,79 1,00
Estimativa do total de area
cultivada 38.410.406.150,04 1 38.410.406.150,04 282,79 0,00 282,79 1,00
Estimativa do Orçamento
Total 3.683,46 1 3.683,46 461,89 0,00 461,89 1,00
Estimativa do total de area
cultivada 1.132.639.744,19 3 377.546.581,40 2,78 0,05 8,34 0,65
Estimativa do Orçamento
Total 245,51 3 81,84 10,26 0,00 30,79 1,00
Estimativa do total de area
cultivada 12.224.500.458,43 90 135.827.782,87
Estimativa do Orçamento
Total 717,72 90 7,97
Estimativa do total de area
cultivada 101.585.848.548,28 94
Estimativa do Orçamento
Total 8.122,11 94
Estimativa do total de area
cultivada 13.357.140.202,62 93
Estimativa do Orçamento
Total 963,24 93
Modelo
Corrigido
Intercepto
Grupos
Erro
Total
Total
Corrigido
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
72 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
Tabela 4 Intervalos de comparações simultaneas de Bonferroni
Limite inferior Limite superior
2 5006,5639000 2750,91764741 ,072 -458,6141537 10471,7419537
3 -3845,7940385 3911,42981984 ,328 -11616,5320793 3924,9440024
4 -4440,1291667 7080,03671383 ,532 -18505,8578533 9625,5995199
1 -5006,5639000 2750,91764741 ,072 -10471,7419537 458,6141537
3 -8852,3579385 3628,33937877 ,017 -16060,6874073 -1644,0284696
4 -9446,6930667 6927,66073659 ,176 -23209,7002787 4316,3141453
1 3845,7940385 3911,42981984 ,328 -3924,9440024 11616,5320793
2 8852,3579385 3628,33937877 ,017 1644,0284696 16060,6874073
4 -594,3351282 7464,86561258 ,937 -15424,5935905 14235,9233341
1 4440,1291667 7080,03671383 ,532 -9625,5995199 18505,8578533
2 9446,6930667 6927,66073659 ,176 -4316,3141453 23209,7002787
3 594,3351282 7464,86561258 ,937 -14235,9233341 15424,5935905
2 2082,30013201 666,562432900 ,002 758,05751677 3406,54274724
3 -1653,34742285 947,760896908 ,084 -3536,23986742 229,54502171
4 -3937,63915706 1715,531725000 ,024 -7345,84235889 -529,43595523
1 -2082,30013201 666,562432900 ,002 -3406,54274724 -758,05751677
3 -3735,64755486 879,166530477 ,000 -5482,26531800 -1989,02979172
4 -6019,93928907 1678,610190033 ,001 -9354,79141737 -2685,08716076
1 1653,34742285 947,760896908 ,084 -229,54502171 3536,23986742
2 3735,64755486 879,166530477 ,000 1989,02979172 5482,26531800
4 -2284,29173421 1808,777877695 ,210 -5877,74469361 1309,16122520
1 3937,63915706 1715,531725000 ,024 529,43595523 7345,84235889
2 6019,93928907 1678,610190033 ,001 2685,08716076 9354,79141737
3 2284,29173421 1808,777877695 ,210 -1309,16122520 5877,74469361
(J)
Grupos
Estim
ativa d
o O
rçam
ento
Tota
l
1
2
3
4
Estim
ativa d
o tota
l de a
rea c
ultiv
ada 1
2
3
4
Variáveis
Dependentes
Diferença de
Médias (I-J)Erro Padrão Sig.
Intervalo de confiança a 95% (I)
Grupos
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
73 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
ANEXO IV
Medidas de Semelhanças e Dissemelhanças
Tabela 1 Medidas de Semelhança e Distância
Coeficiente
Distância de Mahalanobis
Medida de semelhança de Coseno
Distância de Canberra
Distância de Minkowski
Distância Absoluta (r=1 )
Coeficiente de Correlação
Distância de Chebishev
Distância Euclideana Ponderada
Expressão Matemática
Distância Euclideana (r=2 )
Quadrado da Distância Euclideana
rp
v
r
jvivij XXD
/1
1
p
v
jvivij XXD1
p
v
jvivij XXD1
2)(
p
v
jvivij XXD1
22 )(
)()( 1
jvivjvivij XXXXD
jvivv
ij XXD max
p
v
jjv
p
v
iiv
p
v
jjviiv
ij
XXXX
XXXX
r
1
2__
1
2__
1
____
)(*)(
))((
)()( jijiij XXSXXD
p
v
jv
p
v
iv
p
v
jviv
XX
XX
jiCoSIN
1
2
1
2
1
*
*
),(
p
v jviv
jviv
ijXX
XXD
1 )(
Fonte: Adaptado pelo autor com base em Maroco (2007) e Reis (2001)
Contribuição da Análise de Agrupamentos na Identificação de Segmentos de
Distritos Potenciais Produtores de Cereais em Moçambique 2014
74 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM
Tabela 2 Alguns coeficientes de semelhança para variáveis binárias
1 2
0 1
1 1
Russel e Rao
Gower e Legendre
- -
- -
0 0.5
- -
Rogers e Tanimoto
Concordância Simples
Dice
Kulczynski
Shokal e Sneath
Jaccard
Representa a razão entre os casos de presenças simultâneas e os casos de
não-simultâniedade
Atribui pesos iguais para as presenças (1-1) e ausências simultâneas (0-0).
Atribui pesos duplos para presenças (1-1) e ausências simultâneas (0-0).
Considera irrelevante as ausências simultâneas e atribui peso duplo as
presenças simultâneas (1-1).
Descrição
Considera as presenças e ausências simultâneas no numerador, e atribui peso
duplo para casos de não-simultaneidade (1-0) e (0-1).
Exclui as ausências simultâneas no numerador.
Atribui pesos iguais para a presença (1-1) e ausências simultâneas (0-0).
Considera irrelevantes as ausências simultâneas (0-0).
Nome Fórmula
321
1
aaa
a
4321
41
)(*2 aaaa
aa
p
aa 41
p
a1
321
1
2
2
aaa
a
3241
41
)(2
)(2
aaaa
aa
)(2
13241
41
aaaa
aa
321
1
2
2
aaa
a
Fonte: Adaptado por Hãrdle e Simar (2007)
top related