mineração de dados classificando o solo quanto ao teor de Água presente nestes

17
Mineração de Dados: classificando o solo quanto ao teor de água presente nestes. Adriel dos Santos Araújo Sistemas de Informação – Universidade Federal de Mato Grosso (UFMT) [email protected] 1. Introdução Vivemos em uma sociedade onde o dado é valioso, pois este gera a informação, o conhecimento. Cada vez mais organizações se empenham em capturar, armazenar e organizar grandes quantidades de dados. O objetivo? Extrair informações úteis deste emaranhado de dados. Neste contexto entra a Mineração de Dados. Temos a Mineração de Dados, do inglês Data Mining (DM) como uma importante ferramenta na extração do conhecimento, capaz de revelar estruturas de conhecimento que, a olho nu, isto é, pela capacidade humana, seria praticamente impossível de serem descobertas devido ao grande volume de dados. Portanto, podemos entender a DM como uma técnica de exploração e/ou extração de conhecimentos em grandes volumes de dados, reconhecendo padrões e regras que tendem a ocorrer em determinada ocasião. Diante de tal volume de dados, algumas técnicas são utilizadas em seu tratamento, como a classificação, responsável pela separação em grupos, classificando os dados levando em consideração a covariância entre estes, isto é, reconhecendo e determinando determinado padrão ali existente e atribuindo-os a uma classe. Neste trabalho busca-se, através de técnicas de mineração de dados classificar tipos de solo quanto à sua umidade. O conhecimento desta última é tida como uma importante informação pois indica em que condições hídricas encontra-se o solo. Atualmente tal classificação se dá por sensores capazes de medir o nível do teor de água no solo.

Upload: adriel-santos

Post on 19-Jan-2016

41 views

Category:

Documents


5 download

TRANSCRIPT

Page 1: Mineração de Dados Classificando o Solo Quanto Ao Teor de Água Presente Nestes

Mineração de Dados: classificando o solo quanto ao teor de água presente nestes.

Adriel dos Santos Araújo

Sistemas de Informação – Universidade Federal de Mato Grosso (UFMT)

[email protected]

1. Introdução

Vivemos em uma sociedade onde o dado é valioso, pois este gera a informação, o conhecimento. Cada vez mais organizações se empenham em capturar, armazenar e organizar grandes quantidades de dados. O objetivo? Extrair informações úteis deste emaranhado de dados. Neste contexto entra a Mineração de Dados.

Temos a Mineração de Dados, do inglês Data Mining (DM) como uma importante ferramenta na extração do conhecimento, capaz de revelar estruturas de conhecimento que, a olho nu, isto é, pela capacidade humana, seria praticamente impossível de serem descobertas devido ao grande volume de dados. Portanto, podemos entender a DM como uma técnica de exploração e/ou extração de conhecimentos em grandes volumes de dados, reconhecendo padrões e regras que tendem a ocorrer em determinada ocasião.

Diante de tal volume de dados, algumas técnicas são utilizadas em seu tratamento, como a classificação, responsável pela separação em grupos, classificando os dados levando em consideração a covariância entre estes, isto é, reconhecendo e determinando determinado padrão ali existente e atribuindo-os a uma classe.

Neste trabalho busca-se, através de técnicas de mineração de dados classificar tipos de solo quanto à sua umidade. O conhecimento desta última é tida como uma importante informação pois indica em que condições hídricas encontra-se o solo. Atualmente tal classificação se dá por sensores capazes de medir o nível do teor de água no solo.

Alguns métodos de classificação, chamados de supervisionados, requerem uma seleção prévia de algumas variáveis, neste caso, a taxa de umidade de cada solo. Para tal usaremos algoritmos de classificação supervisionada e indução por árvore de decisão, que estabelecem, baseando-se na base de dados, regras para que determinada instancia pertença a uma classe, tendo em consideração todos os seus atributos.

Uma das ferramentas de fácil acesso e amplamente utilizada na mineração de dados é o Waikato Environment for Knowledge Analysis (WEKA), um software implementado pela Universidade de Waikato, na Nova Zelândia, escrito em Java, que agrega diversos algoritmos destinados à análise computacional e estatística dos dados a partir dos padrões encontrados gerando regras e hipóteses.

Page 2: Mineração de Dados Classificando o Solo Quanto Ao Teor de Água Presente Nestes

2. Materiais e Métodos

Atualmente a forma mais utilizada para classificação da umidade de um solo baseia-se no uso de sensores implantados em um solo. Tais sensores são capazes de medir o teor de água de um solo dividindo a massa da água contida neste pela massa de solo seco entrada em determinada amostra.

A proposta deste trabalho, classificação da umidade de um solo utilizando imagens, pretende avaliar a viabilidade eficiência de um novo modelo de classificação para este segmento. Esse novo modelo promoverá diminuição de custos com equipamentos de medição e instalação deste, sendo mais flexível, exigindo apenas um meio de captura de imagens.

No estudo foram utilizados imagens, cedidas pelo departamento de Engenharia Agrícola e Ambiental/ICAT/UFMT/CUR. A captura dessas imagens seguiu um protocolo desenvolvido em conjunto por docentes e discentes do curso. As imagens retratam amostras de solo em diferentes níveis de teor de água. As taxas de umidade encontradas nas imagens das amostras do solo são:

0 % de teor de água (solo totalmente seco);

75% de teor de água (solo parcialmente seco);

100% de teor de água (solo completamente úmido).

A primeira etapa deste estudo é a extração de características das imagens. Essa extração gera dados que compõem uma base a ser utilizada pelo WEKA na fase de classificação.

Para extrair características das imagens, foram implementadas funções geoestatísticas capazes de quantificar a covariância, isto é, a inter-relação entre dois pontos, medindo eventos ocorridos em um localização que tendem a ter comportamento igual ou similar nas vizinhanças. As funções aqui utilizadas são: Índice de Moran e Coeficiente de Geary.

De acordo com BRAZ JR, o Índice de Moran é um dos indicadores mais antigos de auto correlação espacial e é aplicado às zonas ou pontos que têm variáveis contínuas associadas as suas intensidades. Pontos vizinhos com valores similares indicam grande auto correlação. O Coeficiente de Geary tem características semelhantes à Moran, contudo é mais sensível às pequenas diferenças entre as vizinhanças, pois leva em consideração o desvio padrão de cada posição, neste caso pixel. Em contra partida, o Índice de Moran considera o produto do desvio padrão de toda a imagem pela média.

A implementação e execução destas duas funções geoestatísticas gerou um conjunto de 80 características para cada imagem, sendo 40 para cada função (Moran e Geary). Tais características são utilizadas como atributos no WEKA. Este conjunto de características se deu percorrendo a imagem, pixel à pixel, em quatro sentidos diferentes com intervalos que variam de 0 à 10 pixels, gerando assim quarenta características para cada função geoestatística utilizada em cada imagem.

Uma vez obtidas as características, inicia-se a etapa relativa à mineração, utilizando o WEKA. Nesta fase foram realizados testes utilizando algoritmos de árvore de decisão. Os testes principais ocorreram em torno do Naive Bayes Tree Cassifier NBTree e Best-First Decision Tree Classifier, BFTree.

Page 3: Mineração de Dados Classificando o Solo Quanto Ao Teor de Água Presente Nestes

Foi utilizado o seguinte protocolo de execução de mineração de dados, considerando os seguintes passos:

1. Executar mineração baseada em BFTree em duas rodadas:

a. Cross Validation com taxa de 10 folds

b. Percentage Split com taxa de 70% de instâncias destinadas ao treino

2. Executar mineração baseada em NBTree, também em duas rodadas:

a. Cross Validation com taxa de 10 folds

b. Percentage Split com taxa de 70% de instâncias destinadas ao treino

Após estas quatro execuções, formalizou-se também um protocolo de análise e comparação dos resultados obtidos, destes, dois baseados no algoritmos e dois baseados no método utilizado (Cross Validation ou Percentage Split ), são eles:

1. Baseados em Algoritmos

a. BFTree Cross Validation X BFTree Percentage Split

(Comparando Resultados BFTree em diferentes métodos de execução)

b. Naive Bayes Cross Validation X Naive Bayes Percentage Split

(Comparando Resultados Naive Bayes em diferentes métodos de exeução)

2. Baseados em método de execução da mineração.

a. BFTree Cross Validation X Naive Bayes Cross Validation

(Comparando resultados de ambos algoritmos sob o método Cross Validation)

b. BFTree Percentage Split X Naive Bayes Percentage Split

(Comparando resultados de ambos algoritmos sob o método Percentage Split)

Durante a análise e comparação dos resultados foram considerados alguns índices e apresentações tidos como fundamentais neste processo, basicamente quatro, são eles:

1. Correctly Classified Instances - CCI

(Instâncias Classificadas Corretamente);

2. Incorrectly Classified Instances - ICI

(Instâncias Classificadas Incorretamente);

3. Estatística Kappa;

4. Matriz de Confusão.

Page 4: Mineração de Dados Classificando o Solo Quanto Ao Teor de Água Presente Nestes

Por CCI, como o próprio nome sugere, podemos entender como o índice responsável por apresentar a quantificação de instâncias classificadas corretamente. Este índice é apresentado tanto em porcentagem de acertos quanto em quantidade de corretas classificações. Quanto mais próximo dos 100% ou do número total de instâncias, melhor.

Em contrapartida podemos entender de ICI exatamente o oposto, ou seja, ele apresenta o índice de quantificação de instâncias classificadas incorretamente durante o processo de mineração. Também é apresentado de duas formas, sendo a primeira a quantidade de erros totais e a segunda uma porcentagem de erros obtidos em todo o conjunto de instâncias. Ao contrário do CCI, o ICI melhor é o apresentando com um número baixo, isto é, quanto mais próximo de 0 ou 0%, melhor.

A Estatística Kappa define uma de proximidade da quantidade de observações se aproximam daquelas esperadas, isto é, é um índice que expressa o quão legítima foi uma interpretação, ou, nesse caso, uma execução de mineração utilizando determinado classificador. A estatística capa é dada entre 0 e 1 e quanto maior, ou seja, mais próximo de 1 melhor foi a classificação. Pode-se considerar as seguintes concordâncias para cada faixa:

Valor de Kappa Concordância

0 Pobre

0 – 0,20 Ligeira

0,21 – 0,40 Considerável

0,41 – 0,60 Moderada

0,61 – 0,80 Substancial

0,81 – 1 Excelente

Outro índice bastante utilizado para análise de resultados em mineração de dados é a matriz de confusão. Ao contrário do que o nome sugere, o seu entendimento é claro e pontual, uma vez entendido a sua forma de funcionamento, e fornece informações bastantes úteis para a esta análise.

Podemos definir algumas regras ou passos para correta análise da Matriz de confusão:

a. As instâncias corretamente classificadas são encontradas na Diagonal Principal da matriz, para cada classe.

b. As instâncias acima e abaixo da diagonal principal indicam as instâncias classificadas incorretamente para cada classe.

Vejamos o exemplo a seguir:

CLASSE CLASSE CLASSE

Page 5: Mineração de Dados Classificando o Solo Quanto Ao Teor de Água Presente Nestes

1 2 3

CLASSE 1

43 3 4

CLASSE 2

5 40 5

CLASSE 3

8 0 42

Realizando a análise da seguinte matriz de confusão, podemos extrair as seguintes informações:

Para a Classe 1:

o 43 instâncias classificadas corretamente;

o 03 instâncias classificadas como Classe 2;

o 04 instâncias classificadas como Classe 3.

Para a Classe 2:

o 40 instâncias classificadas corretamente;

o 05 instâncias classificadas como Classe 1;

o 05 instâncias classificadas como Classe 3.

Para a Classe 3:

o 42 instâncias classificadas corretamente;

o 08 instâncias classificadas como Classe 1;

o 00 instâncias classificadas como Classe 2

Total de instâncias classificadas corretamente: 125

Total de instâncias classificadas incorretamente: 25

3. Algoritmo de Classificação Best First Tree Classifier

De acordo com MACHADO, O BFTree é um algoritmo que se assemelha ao classificador J48 (não abordado neste estudo) no que diz respeito ao modelo de árvore de decisão criado. Ambos constroem um modelo de árvore de decisão através de várias iterações, baseando-se em um conjunto de dados para treinamento e outro para teste. A cada iteração o algoritmo seleciona o atributo que melhor diferencia os dados com a base no ganho da informação e separa o conjunto em duas partes até que restem apenas nós folhas, ou seja, a classificação

A diferença é que o BFTree realiza uma busca no espaço de subconjuntos de atributos através de métodos como o hillclimbing, acrescido de um facilitador de backtracking. [WITTEN E FRANK].

Page 6: Mineração de Dados Classificando o Solo Quanto Ao Teor de Água Presente Nestes

4. Algoritmo de Classificação Naives Bayes Tree Classifier

De acordo com MAYA E SOUZA, Naive Bayes é um método de classificação baseado em inferência bayesiana. Trabalha com dados contínuos e discretos. É indicado para dados discretos os valores de probabilidades são coletados através da contagem nos grupos dos documentos. A proposta do algoritmo NBTree é juntar a eficiência e velocidade das arvores de decisão em conjuntos de dados maiores, com a precisão da Naive-Bayes [Witten e Frank 2005].

5. Discussão e Resultados.

O protocolo definido para execução de testes foi seguido com sucesso. Os algoritmos trouxeram resultados satisfatórios, chegando à índices de até 80%, aproximadamente, de instâncias classificadas corretamente. Foram consideradas três classes e dois algoritmos foram executados sobre a base de atributos.

Realizando uma análise de acordo com as abordagens estabelecidas no protocolo podemos encontrar alguns resultados interessantes, principalmente analisando as matrizes de confusão geradas como saída da execução dos classificadores. Abaixo segue quatro matrizes, cada uma referente à uma execução:

Os resultados são expostos em gráficos e tabelas abaixo com algumas considerações:

5.1 Matriz de Confusão: BFTree – Cross Compilation

Pode-se concluir que a maior incidência de erros se concentra na classificação de instâncias de 100% de umidade, dessas 45 instâncias foram classificadas, erroneamente como sendo da classe 75.

Classe 0:

Classificadas corretamente: 178 instâncias

Classificadas como Classe 75: 17 instâncias

Classificadas como Classe 100: 13 instâncias

Classe 75:

Classificadas corretamente: 178

Classificadas como Classe 0: 15 instâncias

Classificadas como Classe 100: 30 instâncias

Classe 100:

Classificadas corretamente: 178 instâncias

0 75 100

0 178 17 13

75 15 163 30

100 19 45 144

Page 7: Mineração de Dados Classificando o Solo Quanto Ao Teor de Água Presente Nestes

Classificadas como Classe 0: 19 instâncias

Classificadas como Classe 75: 45 instâncias

5.2 Matriz de Confusão: BFTree Percentage Split

Aqui a maior concentração de erros também se deu entre as classes 75 e 100. Onze instâncias foram classificadas como Classe 100 e são classe 75. O mesmo também ocorreu com também com a Classe 100, tendo 11 de suas instâncias classificadas como Classe 75.

Classe 0:

Classificadas Corretamente: 56 instâncias

Classificadas como Classe 75:1 instâncias

Classificadas como Classe 100: 4 instâncias

Classe 75:

Classificadas corretamente: 40 instâncias

Classificadas como Classe 0: 5 instâncias

Classificadas como Classe 100: 11 instâncias

Classe 100:

Classificadas corretamente: 49 instâncias

Classificadas como classe 0: 10 instâncias

Classificadas como classe 75: 11 instâncias

5.3 Matriz de Confusão: NBTree – Cross Validation

Novamente conclui-se maior concentração de erros entre as classes 75 e 100

Classe 0:

Classificadas corretamente: 173 instâncias

Classificadas como Classe 75: 17 instâncias

Classificadas como Classe 100: 18 instâncias

0 75 100

0 56 1 4

75 5 40 11

100 10 11 49

0 75 100

0 173 17 18

75 13 153 42

100 24 53 131

Page 8: Mineração de Dados Classificando o Solo Quanto Ao Teor de Água Presente Nestes

Classe 75:

Classificadas corretamente: 153 instâncias

Classificadas como classe 0: 13 instâncias

Classificadas como classe 100: 42 instâncias

Classe 100:

Classificadas corretamente: 131 instâncias

Classificadas como classe 0: 24 instâncias

Classificadas como classe 75: 53 instâncias

5.4 Matriz de Confusão: NBTree – Percentage Split

Embora o classificador NBTree rodando sobre Percentage Split tenha apresentado melhor resultado comparado aos demais, a maior concentração de erros também se encontra entre as classes 75 e 100.

Classe 0:

Classificadas corretamente: 57 instâncias

Classificadas como Classe 75: 2 instâncias

Classificadas como Classe 100: 52 instâncias

Classe 75:

Classificadas corretamente: 41 instâncias

Classificas como Classe 0: 5: instâncias

Classificadas como Classe 100: 10 instâncias

Classe 100:

Classificadas corretamente: 52 instâncias

Classificadas como Classe 0: 6 instâncias

Classificadas como Classe 75: 12 instâncias

5.5 Análise Baseada em Algoritmo: BFTree:

0 75 100

0 57 2 2

75 5 41 10

100 6 12 52

Page 9: Mineração de Dados Classificando o Solo Quanto Ao Teor de Água Presente Nestes

Aqui concluímos que o algoritmo BFTree retornou melhores resultados executando sobre o método Cross Validation.

Figura 1. Comparativo CCI o entre Percentage Split e Cross Validation.Algorítmo utilizado: BFTree.

Figura 2. Comparativo ICI entre Percentage Split e Cross Validation. Algorítmo utilizado: BFTree.

Figura 3. Comparativo KAPPA entre Percentage Split e Cross Validation. Algorítmo utilizado: BFTree.

5.6 Análise Baseada em Algoritmo: NBTree:

Page 10: Mineração de Dados Classificando o Solo Quanto Ao Teor de Água Presente Nestes

Aqui concluímos que das duas execuções do algoritmo NFTree a execução que utilizou o método Percentage Split apresentou resultados significativamente melhores.

Figura 4. Comparativo CCI entre Percentage Split e Cross Validation. Algorítmo utilizado: NBTree.

Figura 5. Comparativo ICI entre Percentage Split e Cross Validation. Algorítmo utilizado: NBTree.

Figura 6. Comparativo KAPPA entre Percentage Split e Cross Validation. Algorítmo utilizado: NBTree.

Page 11: Mineração de Dados Classificando o Solo Quanto Ao Teor de Água Presente Nestes

5.7 Análise Baseada em Método de Execução: Cross Validation:

Esta comparação, baseada no método de execução Cross Validation, ressaltou um fato interessante: embora, de forma global, o Naives Bayes retornou resultados consideravelmente melhores, se consideramos apenas o método de execução Cross Validation, o BFTree se sobressaiu ao NBTree. Conclui-se então que o Naives Bayes não é tão eficiente, se comparado ao Best First, quando executa sobre o método Cross Validation. Confira os gráficos:

Figura 7. Comparativo CCI entre NBTree e BFTree. Método utilizado: Cross Validation.

Figura 8. Comparativo ICI entre NBTree e BFTree. Método utilizado: Cross Validation.

Page 12: Mineração de Dados Classificando o Solo Quanto Ao Teor de Água Presente Nestes

Figura 9. Comparativo KAPPA entre NBTree e BFTree. Método utilizado: Cross Validation.

5.8 Análise Baseada em Método de Execução: Percentage Split:

Por fim, podemos constatar aqui que o classificador Naives Bayes executando sobre o método Percentage Split foi o classificador que mais aprsentou resultados relevantes. Chegando a ser cerca de 7% melhor, no que diz respeito à correta classificação, se comparado aos demais.

Figura 10. Comparativo CCI entre NBTree e BFTree. Método utilizado: Percentage Split.

Figura 11. Comparativo ICI entre NBTree e BFTree. Método utilizado: Percentage Split.

Page 13: Mineração de Dados Classificando o Solo Quanto Ao Teor de Água Presente Nestes

Figura 12. Comparativo Kappa entre NBTree e BFTree. Método utilizado: Percentage Split.

6. Conclusão

Sendo esta uma etapa inicial, caracterizada pela análise da viabilidade da aplicação conclui-se que os resultados foram significativamente satisfatórios, atingindo cerca de 80% de acertos na melhor das execuções o que apontam a pesquisa como promissora.

Como próximas etapas busca-se extrair características mais precisas de forma a melhorar a classificação, em especial das classes 75 e 100 que demonstraram maior taxa de erro em todos os casos de teste. Como etapa futura também entra a extração de características de mais duas classes, 25 e 50, que represemtão, respectivamente, 25% e 50% de umidade no solo. Novos classificadores também serão testados a fim de encontrar o melhor caso de uso.

Page 14: Mineração de Dados Classificando o Solo Quanto Ao Teor de Água Presente Nestes

Referências

BRAZ JUNIOR, Geraldo. (2008) “Classificações de Regiões de Mamografia em Massa e Não Massa usando estatística espacial e Maquia de Vetores de Suporte”

CORTEZ, Sérgio da Costa (2002) “Mineração de Dados – Funcionalidades, Técnicas e Abordagens.

Michael Abernethy, (2010) “Mineração de dados com WEKA, Parte 1: Introdução e regressão”, in: IBM Developer Works: http://www.ibm.com/developerworks/br/opensource/library/os-weka1/ Março 2014

CIENTEC, “Umidade do solo” in: Cientec – Consultoria e Desenvolvimento de Sistemas: http://www.cientec.net/cientec/InformacoesTecnicas_Irriga/Solo_UmidadedoSolo.asp Março 2014;

“Métodos para Estimação de Reprodutividade de Medidas”, Faculdade de Medicina do Porto. In: http://users.med.up.pt/joakim/intromed/estatisticakappa.htm Março 2014

MAIA, Luiz Claudio Gomes; SOUZA, Renato Rocha. (2010) “Uso de sintagmas nominais na classificação automática de documentos eletrônicos”

MACHADO, Marcos Rafael (2007) “Modelo para a Determinação dos Perfis de Estudantes em Sistemas Web”

WITTEN, I. H. e FRANK, E. (2005) “Data Mining: Practical Machine Learning tools and techniques 2nd edition ”