descoberta de conhecimento em bases de dados

15
22/02/2015 Revista ESPACIOS | Vol. 35 (Nº 12) Año 2014 http://www.revistaespacios.com/a14v35n12/14351219.html 1/15 Espacios. Vol. 35 (Nº 12) Año 2014. Pág. 19 Descoberta de conhecimento em bases de dados no processo de produção de alumina Knowledge discovery in databases in the production process of alumina Carla Regina Mazia ROSA 1, Cleina Yayoe OKOSHI 2; Maria Teresina Arns STEINER 3; Ruy Gomes da SILVA 4; Wesley Vieira da SILVA 5. Recibido: 12/08/14 • Aprobado: 24/10/14 Contenido 1. Introdução 2. Descrição do problema 3. KDD e DATA MINING 4. Metodologia 5. Obtenção dos resultados 6. Conclusão Referências bibliográficas RESUMO: Este trabalho tem por objetivo realizar a classificação de padrões quanto ao teor de soda cáustica contido no rejeito gerado no processo de produção de alumina. Para tanto foram coletados 1060 dados, cada um dos quais com nove variáveis e uma saída (teor da soda cáustica). Com base no processo KDD foi realizada uma análise exploratória sobre os dados e, em seguida, foi aplicada a técnica de Data Mining, Regressão Logística Binária. Por meio dos resultados obtidos, podese concluir que a referida análise se mostrou bastante eficiente neste estudo, com uma taxa de acerto geral de 100% de acerto. Palavraschave: Bases de dados; processo de produção de alumina; KDD Brasil. ABSTRACT: This paper aims to perform the classification of patterns as the caustic soda content contained in the waste generated in alumina production process. For both 1060 data, each of which has nine variables and one output (content of caustic soda) were collected. Based on the KDD process an exploratory analysis of the data was performed and then the data mining technique, Binary Logistic Regression was applied. Through the results obtained, we can conclude that this analysis was very efficient in this study, with an overall accuracy rate of 100% accuracy. Key Words: Databases; Alumina production process; KDD Brazil. 1. Introdução A produção mineral se caracteriza por sua relevância no contexto econômico, podendo ser considerada uma das atividades mais impactantes ao solo, embora, em geral, não afete amplas extensões territoriais. Aproximadamente 7% da crosta terrestre é composta por alumínio, fazendo deste elemento químico o terceiro mais abundante na Terra, depois do oxigênio e do silício. A produção de alumínio começa com a matériaprima bauxita. A mineração de bauxita, por sua vez, caracterizase pela retirada da vegetação, seguida de intensa movimentação das camadas superficiais do solo e a consequente geração de rejeitos e, por este motivo, é considerada uma atividade de alto impacto ambiental. O alumínio para ser produzido necessita de alumina, que é extraída da bauxita por meio de um processo químico composto por várias etapas de transformações, até atingir o estado de

Upload: helena-joplin

Post on 12-Dec-2015

9 views

Category:

Documents


2 download

DESCRIPTION

Descoberta de Conhecimento Em Bases de Dados

TRANSCRIPT

22/02/2015 Revista ESPACIOS | Vol. 35 (Nº 12) Año 2014

http://www.revistaespacios.com/a14v35n12/14351219.html 1/15

Espacios. Vol. 35 (Nº 12) Año 2014. Pág. 19

Descoberta de conhecimento em bases de dadosno processo de produção de aluminaKnowledge discovery in databases in the production process of aluminaCarla Regina Mazia ROSA 1, Cleina Yayoe OKOSHI 2; Maria Teresina Arns STEINER 3; Ruy Gomesda SILVA 4; Wesley Vieira da SILVA 5.

Recibido: 12/08/14 • Aprobado: 24/10/14

Contenido1. Introdução2. Descrição do problema3. KDD e DATA MINING4. Metodologia5. Obtenção dos resultados6. ConclusãoReferências bibliográficas

RESUMO:Este trabalho tem por objetivo realizar aclassificação de padrões quanto ao teor de sodacáustica contido no rejeito gerado no processode produção de alumina. Para tanto foramcoletados 1060 dados, cada um dos quais comnove variáveis e uma saída (teor da sodacáustica). Com base no processo KDD foirealizada uma análise exploratória sobre osdados e, em seguida, foi aplicada a técnica deData Mining, Regressão Logística Binária. Pormeio dos resultados obtidos, pode­se concluirque a referida análise se mostrou bastanteeficiente neste estudo, com uma taxa de acertogeral de 100% de acerto. Palavras­chave: Bases de dados; processo deprodução de alumina; KDD Brasil.

ABSTRACT:This paper aims to perform the classification ofpatterns as the caustic soda content contained inthe waste generated in alumina productionprocess. For both 1060 data, each of which hasnine variables and one output (content of causticsoda) were collected. Based on the KDDprocess an exploratory analysis of the data wasperformed and then the data mining technique,Binary Logistic Regression was applied.Through the results obtained, we can concludethat this analysis was very efficient in thisstudy, with an overall accuracy rate of 100%accuracy.Key Words: Databases; Alumina productionprocess; KDD Brazil.

1. IntroduçãoA produção mineral se caracteriza por sua relevância no contexto econômico, podendo serconsiderada uma das atividades mais impactantes ao solo, embora, em geral, não afete amplasextensões territoriais. Aproximadamente 7% da crosta terrestre é composta por alumínio,fazendo deste elemento químico o terceiro mais abundante na Terra, depois do oxigênio e dosilício. A produção de alumínio começa com a matéria­prima bauxita. A mineração debauxita, por sua vez, caracteriza­se pela retirada da vegetação, seguida de intensamovimentação das camadas superficiais do solo e a consequente geração de rejeitos e, por estemotivo, é considerada uma atividade de alto impacto ambiental.O alumínio para ser produzido necessita de alumina, que é extraída da bauxita por meio de umprocesso químico composto por várias etapas de transformações, até atingir o estado de

22/02/2015 Revista ESPACIOS | Vol. 35 (Nº 12) Año 2014

http://www.revistaespacios.com/a14v35n12/14351219.html 2/15

alumina. O processo mais utilizado industrialmente é o Processo Bayer, que consiste emmisturar a bauxita moída a uma solução de soda cáustica, com a qual a mesma reage sobpressão e temperatura, dissolvendo a bauxita e formando uma solução de aluminato de sódio(Luz, Lins, 2005), chamada de rejeito.O rejeito de um processo de produção de alumina, conhecido como lama vermelha, ficadepositada em bacias expostas ao meio ambiente, podendo danificá­lo e, por este motivo, édesejável que tais teores sejam minimizados.O processo de Descoberta de Conhecimento em Bases de Dados (Knowledge Discovery inDatabase – KDD) tem se mostrado efetivo na gestão de informações, do qual a Mineração deDados (Data Mining – DM) é a sua principal etapa.Segundo Cardoso e Machado (2008), o DM é capaz de revelar, automaticamente, oconhecimento que está implícito em grande quantidade de informações armazenadas nosbancos de dados de uma organização. As técnicas de DM podem fazer uma análise antecipadados eventos, possibilitando prever tendências e comportamentos futuros, permitindo aosgestores a tomada de decisões baseada em fatos e não em suposições.Dentre os métodos de DM, capazes de fazer o reconhecimento de padrões, têm­se os métodosestatísticos, dentre os quais se destacam a Regressão Logística Binária (RLB), as RedesNeurais, as Máquinas de Vetores de Suporte (Support Vector Machines ­ SVM) e as meta­heurísticas de uma forma geral, resultando em funções que estimem o comportamento de umconjunto de dados, buscando a maximização de sua eficiência.Assim sendo, o presente trabalho tem por objetivo discriminar os dados relativos aos teores desoda cáustica contidos na lama vermelha (padrões), para que obtidos novos padrões, suaclassificação possa ser realizada com o menor erro possível tendo­se, assim, condições deantecipar ações que possam minimizar o teor de soda cáustica contida na lama vermelha. Paraisso, pretende­se aplicar o processo KDD com a técnica de RLB na etapa de DM.O presente artigo está organizado em seis seções. Além desta seção introdutória tem­se naseção 2 a descrição do problema aqui abordado. A seção 3 comtempla a revisão da literatura arespeito do processo KDD e da técnica de DM, a RLB. A seção 4 apresenta a metodologia, ouseja, como o problema será abordado. Na seção 5 tem­se a obtenção dos resultados, tanto daanálise exploratória dos dados, quanto da RLB. Para a utilização da RLB, são propostos doistestes com o intuito de se obter resultados com a máxima acurácia. Finalmente, na seção 6 sãoapresentadas as considerações finais.

2. Descrição do problemaAtualmente, o mercado mundial possui 46 países produtores de alumínio, onde o Brasil ocupao sexto lugar, com a terceira maior reserva do minério (bauxita), localizada na regiãoamazônica e em reservas que podem ser encontradas no sudeste do Brasil, na região de Poçosde Caldas e Goitacazes, MG (Abal, 2013). Porém nem toda a bauxita processada geraalumina, pois existe um grande percentual de rejeito do processo não aproveitáveleconomicamente. A quantidade de rejeito depende da qualidade da bauxita, que influenciadiretamente na quantidade de lama vermelha gerada.Há uma relação de produtividade existente na produção da alumina, sendo que cada toneladade alumina produzida, necessita de duas toneladas de bauxita que, conforme já comentado,varia de acordo com a especificação de cada tipo de bauxita. Cada tonelada de bauxita contémum percentual de alumina aproveitável de 50%, sendo que o restante é composto por silicatos,ferro, manganês, potássio e outros metais não economicamente exploráveis (a lamavermelha).O fato é que a quantidade de lama vermelha gerada anualmente tem assumido enormeproporção, da ordem de milhões de toneladas, representando um sério risco ao meio ambiente.Além disso, junto com a lama vermelha perde­se uma quantidade considerável de sodacáustica, o que também contribui significativamente nos custos de reposição desse insumo, jáque é um dos principais insumos e de maior custo na produção da alumina.

22/02/2015 Revista ESPACIOS | Vol. 35 (Nº 12) Año 2014

http://www.revistaespacios.com/a14v35n12/14351219.html 3/15

O controle de teor cáustico no rejeito do processo de alumina é um dos desafios enfrentadospelas empresas deste ramo, que está diretamente ligado ao controle ambiental da organização.A soda cáustica é um dos principais insumos no processo de produção da alumina, que ématéria prima na produção do alumínio.A necessidade de um controle efetivo do teor cáustico auxilia não somente na redução decustos da organização, pois cada tonelada de soda cáustica que fica retida no rejeito necessitaser reposta no processo, a qual tem um elevado custo de aquisição, como também reduz osimpactos ambientais causados pelo produto químico. Com a redução deste teor cáustico nalama vermelha haverá a possibilidade desta ser utilizada na fabricação de cerâmicas e naconstrução civil, já que poderá fazer parte da composição do concreto.O alumínio é um metal extremamente importância no segmento industrial, o que torna seuconsumo cada vez maior, através da descoberta de novas ligas metálicas, as quais possibilitama sua aplicação nos mais variados segmentos industriais e atividades em geral, sejam denatureza econômica ou de uso doméstico. Ele é produzido em escala comercial desde o séculoXVIII e seu mercado vem se expandindo desde então.Segundo Luz (2003), a produção anual de bauxita é superior a 120 milhões de toneladas, ondecerca de 95% da produção são utilizados na obtenção do alumínio metalúrgico, pelo ProcessoBayer, seguido do processo Hall­Héroult, cujo produto final é o metal, ou seja, o alumíniotêm produção estimada em 40 milhões de toneladas por ano. Uma pequena percentagem debauxita (5%) não­metalúrgica após calcinação é aplicada na manufatura de abrasivos,refratários, cimento, entre outras.A alumina utilizada para produtos químicos, não é calcinada, mantendo­se na forma hidratada.De acordo com o International Aluminium Institute (Iai, 2013) aproximadamente 40% daprodução de bauxita produzida no mundo provêm da Austrália, destacando­se, ainda comoprincipais produtores: Guiana (14%), Jamaica (11%), Brasil (8%), Índia (5%) China (3%). Asreservas mundiais de bauxitas estão distribuídas nas regiões tropicais (57%), mediterrânea(33%) e subtropicais (10%).O principal processo de extração de Alumina da bauxita foi desenvolvido em 1858 por LeChatelier e aperfeiçoado posteriormente em 1888 por Karl Bayer, sendo conhecidoatualmente como processo Bayer (Hind et al. 1999).O Processo Bayer extrai a alumina que está contida na bauxita, quando dissolvida em soluçãode soda cáustica sob determinadas condições de pressão e temperatura. O processo apresentauma melhor extração, dependendo da natureza do minério de bauxita, devido suas diferentescaracterísticas químicas. Deste modo, mesmo que diferentes empresas utilizem o mesmoprocesso de extração, acabam obtendo diferentes valores de concentração de soda cáustica norejeito, devido a melhorias tecnológicas implementadas por cada unidade fabril. Estima­se umvalor de 15g/l de soda cáustica para cada tonelada de rejeito gerado sendo que, atualmente,este material é acondicionado em bacias próprias expostas ao meio ambiente.Tal valor é considerado elevado, pois a soda cáustica é um contaminante. Um resultado idealseria um valor nulo de soda cáustica na lama, porém tal valor é inviável para o processodevido seu alto custo operacional. Dependendo dos distúrbios do processo, este valor poderáchegar em 40 g/l, que além de aumentar a contaminação da lama vermelha, eleva os custos deprodução, tendo­se em vista que esta soda cáustica necessitará ser reposta no processo. Destamaneira, a lama vermelha foi considerada um resíduo inaproveitável para a indústria doalumínio (Chaves, 1962).McLellan et al. (2009) afirmam que existem avanços na busca do alinhamento da indústriamineral e o compromisso com o desenvolvimento sustentável, através da redução do impactoocorrido pelo processo produtivo. Segundo Hilson e Murck (2000), esta integração requer umcompromisso de melhoria ambiental e socioeconômica contínua, desde a exploração mineral,passando pela operação, até o fim da cadeia.As variáveis independentes utilizadas nesse estudo foram em um total de nove: Vazão,Densidade, Injeção, Vácuo, Nível da bacia, Rotação, Spray, TTS (teor total de soda), Soda na

22/02/2015 Revista ESPACIOS | Vol. 35 (Nº 12) Año 2014

http://www.revistaespacios.com/a14v35n12/14351219.html 4/15

lama (nível de soda cáustica na lama vermelha) e uma variável dependente (resposta),Concentração (teor final de soda cáustica). Foram coletadas 1060 observações (quantidade depadrões; amostras), das quais 669 foram consideradas como sendo de boa qualidade (teor desoda cáustica < 12; Classe "Bom") e 391 foram consideradas como sendo de baixa qualidade(teor de soda cáustica ≥ 12; Classe "Ruim"). O valor "12" foi definido pelos especialistas daárea como sendo um "valor limite" para a discriminação de uma amostra da classe "Bom" ouda classe "Ruim". Na tabela 1, a seguir, são apresentados 20 dos 1060 dados, dos quais os 10primeiros são da classe "Bom" e os 10 seguintes da classe "Ruim".

Tabela1 ­ Dados do processo de lavagem de lama

3. KDD e DATA MININGA definição KDD foi dada por Fayyad et al. (1996) como sendo: "o processo não trivial deidentificação de padrões válidos, novos, potencialmente úteis e compreensíveis, embutidosnos dados" e caracteristicamente composto das seguintes etapas: seleção dos dados, pré­processamento, limpeza e preparação dos dados; processamento, que trata da descoberta depadrões mediante algoritmos de Mineração; pós­processamento, que refina os resultadosobtidos durante o processamento, seja compondo novos padrões ou avaliando seu interesse, einterpretação dos padrões extraídos, úteis para a extração de conhecimento, ou seja, para a"tradução" de dados brutos em informações relevantes. Estas etapas estão ilustradas na Figura1 a seguir.

22/02/2015 Revista ESPACIOS | Vol. 35 (Nº 12) Año 2014

http://www.revistaespacios.com/a14v35n12/14351219.html 5/15

Figura 1. Etapas do Processo KDD. Fonte: Fayyad et al. (1996)Segundo Tan et al. (2009) é importante não confundir os termos DM e KDD, visto que KDD étodo o processo até que se chegue ao resultado de um padrão de comportamento das variáveisou relações. Já DM é considerada apenas uma das etapas, a mais importante, que compõem oKDD. O DM consiste da obtenção de padrões para a geração de conhecimento (Fayyad et al.1996).O DM é uma área emergente dentro da inteligência computacional usada na análise degrandes bancos de dados (Kusiak et al. 2000), com a geração de padrões e a extração deinformações dessas bases (Mcdonald et al. 1998). Permite, por exemplo, examinar as relaçõesde similaridade entre as informações (Linares, 2003).Desta forma, o DM consiste da utilização de técnicas de Reconhecimento de Padrões (RP),aprendizado de máquina e estatística, seja para a classificação, predição, agrupamento ouassociação de padrões. As técnicas são concebidas para agir sobre grandes bancos de dados,com o intuito de descobrir padrões úteis e recentes que poderiam de outra forma, permanecerignorados. Estas técnicas vão desde as tradicionais da estatística multivariada, como análisede agrupamentos e regressões, até modelos mais atuais de aprendizagem, como redes neurais,lógica difusa e algoritmos genéticos.3.1. Regressão logisticaSegundo Hines (2003), a estatística trabalha com a coleta, apresentação, análise e uso dedados para resolução de problemas, tomada de decisões, desenvolvimento de estimativas eplanejamento tanto de produtos quanto de procedimentos, e ainda é usada para a descrição e acompreensão da variabilidade. Desta forma, um importante instrumento na estatística é aanálise multivariada, que trata todas as variáveis simultaneamente, sumariando os dados erevelando a sua estrutura com a menor perda de informações possível (Gauch, 1982; Pielou,1984).Assim sendo, a Regressão Logística (RL) é definida como uma técnica estatística de análisemultivariada que permite o ajuste de um conjunto de variáveis independentes a uma variávelde resposta categórica. Ao contrário das variáveis contínuas, as variáveis categóricas podemassumir apenas alguns valores particulares de resposta, podendo estes ser binários(dicotômicos) cuja resposta possui apenas dois níveis (não ou sim) ou politômicos (mais detrês classes), uma extensão do anterior, no qual a resposta pode assumir múltiplos níveis desaída (Hosmer, Lemeshow, 2000). A RLB consiste em relacionar, por meio de um modelo, avariável resposta (padrões pertencentes ao conjunto A ou B) com os atributos que influenciamem sua ocorrência (Hair et al. 2009).As premissas básicas a serem atendidas são: a) a média condicional da equação da RL será umvalor definido entre "0" e "1"; b) os erros da equação seguirão a distribuição binária; e c) osresultados obtidos podem ser entendidos na forma de probabilidades (Hosmer, Lemeshow,2000).

22/02/2015 Revista ESPACIOS | Vol. 35 (Nº 12) Año 2014

http://www.revistaespacios.com/a14v35n12/14351219.html 6/15

O modelo de RL proposto por Hosmer e Lemeshow (2000), assume a relação exposta naequação (1), também conhecida como função logística.

onde: π (x) = representa a probabilidade associada a "x".e = é o vetor de coeficientes a ser estimado caracterizado como um valor fixo, base doslogaritmos naturais (aproximadamente 2,718).

= são os vetores das variáveis explicativas associadas ao evento.pode ser linearizada pela transformação:

onde:1­π(x) = representa a probabilidade de não ocorrer o evento.

= representa a razão de probabilidades. = representa os coeficientes estimados

x = representa as variáveis independentes.A RLB é aplicada a uma variável dependente, sendo que esta variável não representa osvalores dos dados brutos, mas representa a probabilidade do evento. Assim sendo temos paraa RL a equação geral (3).

onde termos padrão das variáveis independentes estão representados a direita e a esquerda estáo log natural da probabilidade e a quantidade ln(odds) é chamada de logit. Deste modo,retirando o problema de predição para fora dos limites da variável dependente. Asprobabilidades são relacionadas pela equação (4).

Na RL há um relacionamento linear com as variáveis independentes, mas é linear nasprobabilidades de log e não nas probabilidades originais. Como o objeto de estudo é aprobabilidade de ocorrência de um evento, a equação logística pode ser transformada numaequação na probabilidade (5) (Hair, 2009).

A regressão linear clássica, não segue uma distribuição normal, mas a de Bernoulli. De talmodo que na regressão linear o método usado para estimar os coeficientes β0, ..., βn é ométodo dos mínimos quadrados, e na RL usa­se o método da máxima verossimilhança, quemaximizem a probabilidade de se obter o conjunto observado de dados (Hosmer, Lemeshow,2000).Desta forma, na RL minimiza o número de variáveis para que o modelo resultante seja mais

22/02/2015 Revista ESPACIOS | Vol. 35 (Nº 12) Año 2014

http://www.revistaespacios.com/a14v35n12/14351219.html 7/15

facilmente generalizado e mais estável numericamente, dado que quanto mais variáveis sãoincluídas no modelo, mais ele se torna dependente dos dados. A técnica stepwise na RL é oprocesso de inclusão ou exclusão de variáveis do modelo, baseado em critérios tais com oteste Wald.Para Crichton(2001), o teste Wald é utilizado para avaliar se o parâmetro é estatisticamentesignificativo, é obtido através da razão do coeficiente pelo seu respectivo erro padrão, e segueuma distribuição normal. A estatística de teste, para avaliar se o parâmetro β é igual a zero epode­se especificar por meio da equação (6).

No entanto, o teste de Wald, falha quando se rejeita coeficientes que são estatisticamentesignificativos (Hauck, Donner, 1977). Assim sendo, recomenda­se que os coeficientes,identificados neste teste como sendo estatisticamente não significativos, sejam testadostambém pelo teste da razão de verossimilhança.Após estimar os coeficientes da equação de regressão, é necessário verificar se cada variável ésignificantemente relacionada com a variável resposta do modelo, através dos testes dehipóteses estatísticas, que avaliam o modelo com a variável e sem a variável (Hosmer,Lemeshow, 2000). Desta forma o teste estatístico indica se houve ou não diferençaestatisticamente significativa entre as classificações observadas e previstas.Segundo Hair (2000), o ajuste geral do modelo pode ser avaliado utilizando­se algumasmedidas como o ­2LL. Contudo se ocorrer um decréscimo no valor ­2LL comparado aomodelo base, existe melhora no modelo, pois o valor mínimo para ­2LL é 0, o quecorresponde ao ajuste perfeito. A medida R2 Cox e Snell opera da mesma forma, com valoresmais altos indicando maior ajuste do modelo. Entretanto, esta medida está limitada pelo fatode que não consegue alcançar o valor máximo de 1, de modo que Nagelkerke propôs umamodificação que tem o alcance de 0 para 1. A terceira medida é a medida R2 "pseudo" combase na melhoria do valor –2LL. O pseudo R2 é calculado por meio da equação (7).

Para Hosmer e Lemeshow (2000) a medida final do ajuste do modelo mede a correspondênciados valores efetivos e previstos da variável dependente, que é indicado por uma diferençamenor na classificação observada e prevista e ainda mostra a não significância, indicando aausência de diferença na distribuição de valores. Um melhor ajuste de modelo é indicado porum valor chi­quadrado não significante. Por fim, as matrizes de classificação, idênticas emnatureza às usadas na análise discriminante, demostram se as taxas de acerto são altas oubaixas para os casos corretamente classificados no modelo.Desta forma, na RL deve necessariamente achar o modelo que melhor se ajuste aos dados emanálise, com o intuito de conseguir um modelo moderado e razoável, que permita descrever arelação entre a variável resultado e um conjunto de variáveis independentes.Mota (2007) apresenta uma proposta para a avaliação de imóveis urbanos (apartamentos,casas e terrenos) através de técnicas de análise multivariada e redes neurais artificiais. Steineret al. (2008) utilizaram uma metodologia, composta por técnicas de análise multivariada, paraa construção de um modelo estatístico de regressão linear múltipla para avaliação de imóveisem função de suas características.Santos et al. (2007) analisaram a riqueza e similaridade florística de fragmentos florestais noNorte do estado de Minas Gerais, através do métodos de análise multivariada. Toledo et al.(2009) aplicaram análise multivariada para a caracterização fitossociológica em vegetação deCerrado no Norte do estado de Minas Gerais. Outros estudos com abordagem em análise

22/02/2015 Revista ESPACIOS | Vol. 35 (Nº 12) Año 2014

http://www.revistaespacios.com/a14v35n12/14351219.html 8/15

multivariada foram desenvolvidos por Oliveira­Filho, Fontes (2000) e Scudeller et al. (2001)na Mata Atlântica do Sudeste brasileiro.

4. MetodologiaA metodologia do trabalho foi dividida em duas fases, enquadradas no KDD. A 1ª. fase, aanálise exploratória de dados, incorpora as três primeiras etapas do processo do KDD (Figura1 já apresentada) , conforme a Figura 2 a seguir. A 2ª. fase contém a etapa de DM (RP)einterpretação dos resultados, conforme a Figura 2 a seguir.

Figura 2. Fase do Processo.

Na 1ª. fase foi realizada a estatística descritiva dos dados e também o descarte de padrõesatípicos. Com a estatística descritiva foi possível identificar os outliers, ou seja, queapresentavam características "fora do padrão". Os outliers foram identificados pela análisedos escores padronizados (z). Esses outliers foram descartados, pois são considerados comopadrões atípicos.Na 2ª. fase foi aplicada a técnica utilizada de RL para a mineração dos dados, ou seja, para aclassificação dos mesmos e, em seguida, foram obtidos e interpretados os seus resultados.Nessa 2ª. fase foram realizados dois testes: o primeiro, com a quantidade de padrões(observações da amostra) resultantes da 1ª. fase, ou seja, após a eliminação dos outliers e, em

22/02/2015 Revista ESPACIOS | Vol. 35 (Nº 12) Año 2014

http://www.revistaespacios.com/a14v35n12/14351219.html 9/15

seguida, utilizada a ferramenta RL. O segundo teste foi realizado após a eliminação dosoutliers, seguida da determinação do valor médio de uma das variáveis analisadas no estudo(variável "densidade"), conforme será mostrado mais adiante e, finalmente, foi plicada a RL.

5. Obtenção dos resultadosOs resultados foram obtidos por meio da aplicação das duas fases: análise exploratória e RLsobre os dados.

5.1. Análise exploratória de dadosNa análise exploratória de dados foram realizados a estatística descritiva dos dados e odescarte de padrões atípicos. Esta fase ocorreu com o auxílio do software SPSS 13.0. Aestatística descritiva, apresentada na Tabela 2 a seguir, foi realizada com as 1060 (dadosbrutos) observações, das quais 669 pertencem à classe "Bom" e 391 à classe "Ruim".

Tabela 2­ Estatística descritiva dos dados brutos

A Tabela 2 destaca que os desvios padrões da maioria das variáveis estão acima de "3", ouseja, apontando a existência de dados atípicos (outliers), que deverão ser excluídos, poispoderão influenciar negativamente, piorando o desempenho da RL, nos resultados da análisefinal. Dessa forma é fundamental identificar e excluir os outliers para que o resultado sejamais confiável.Os outliers foram analisados através dos escores padronizados (z). Foram excluídos os dadosque apresentaram z < ­3 ou z > 3 para cada uma das variáveis analisadas individualmente.Desta forma, foram excluídas 82 observações (dados) e, portanto, a amostra ficou com 978observações (624 da classe "Bom" e 354 da classe "Ruim"). A Tabela 3 apresenta a estatísticadescritiva com os dados após a exclusão dos outliers.

Tabela 3­ Estatística descritiva após a exclusão dos dados atípicos (outliers)

22/02/2015 Revista ESPACIOS | Vol. 35 (Nº 12) Año 2014

http://www.revistaespacios.com/a14v35n12/14351219.html 10/15

Por meio da Tabela 3 é possível notar que os desvios padrões das variáveis, analisadas deforma conjunta, diminuíram após a exclusão dos 82 dados. Após a determinação da novaamostra foi realizada a 2ª. fase que descreve o processo para a utilização da técnica da RL.5.2. Regressão logísticaA técnica de DM, RL, foi aplicada por meio da realização de dois testes. Para o primeiro testefoi utilizada a amostra com 978 observações e o segundo teste utilizou uma nova amostra com488 observações. As observações para o segundo teste foram formadas através da retirada deobservações da primeira amostra por meio do valor médio da variável "densidade" (detalhadomais adiante); este segundo teste foi realizado, pois os resultados do primeiro teste foraminsatisfatórios, ou seja, insuficientes para obter um desempenho aceitável da RL.A. Primeiro testeA técnica de RL foi aplicada às 978 observações obtidas após a 1ª fase (exlusão dos outliers),com o auxílio do software SPSS 13.0 utilizando o método stepwise foward, para definir omodelo final que minimiza o número de variáveis e maximiza a precisão do modelo.A Tabela 4, conhecida como "matriz de confusão", apresenta a classificação para as 978observações. A taxa de acerto global foi de 69,1% e as taxas individuais de acertos foram:para a classe "Bom", de 86,4% e para a classe "Ruim", de 38,7%. Assim, dos 624 padrões daclasse "Bom", apenas 85 estão na classificação de "Ruim" e dos 354 padrões considerados"Ruins" detinham 217 padrões "Bons". Ou seja, o resultado é considerado não tão satisfatório.

Tabela 4 – Tabela de classificação para as 978 observações

A Tabela 5 apresenta o resumo do modelo do primeiro teste, destacando os índices "R2 Cox eSnell" de 11,4% e "R2 Nagelkerke" de 15,7%. O "R2 Cox e Snell" indica que apenas 11,4%das variações ocorridas na RL são explicadas pelo conjunto das variáveis independentes, ouseja, este índice apresenta um baixo índice de explicação. O índice "R2 Nagelkerke" indicaque 15,7% das variações registradas na variável dependente (Concentração) são ocasionadaspelas variáveis independentes. Ou seja, este índice também apresenta baixa explicação.

22/02/2015 Revista ESPACIOS | Vol. 35 (Nº 12) Año 2014

http://www.revistaespacios.com/a14v35n12/14351219.html 11/15

Tabela 5 – Resumo do modelo para as 978 observações

Por esse motivo foi realizado um novo teste que resultasse em melhoria da qualidade noreconhecimento dos padrões da amostra. Assim, para realizar o segundo teste analisou­se asvariáveis que não detinham influência sobre o modelo do primeiro teste, como mostrado naTabela 6.

Tabela 6 ­ Análise das variáveis não possuem influência no modelo de RL

A Tabela 6 apresenta todas as nove variáveis analisadas e seu nível de significância. Pode­seobservar que existem 4 variáveis independentes (densidade, injeção, vácuo e nível da bacia)que não influenciam o modelo, pois o valor de p > 0,05 para todas elas. Como a "densidade"tem um nível de significância maior do que as demais três variáveis, os comportamentos dosdados dessa variável foram, então, melhor analisados.O comportamento dos dados da variável independente "densidade" foi analisado por meio desua média amostral (média=1,514). O comportamento apresentou que a maioria dasobservações classificadas como "Bom" estava no intervalo 1,425≤densidade≤1,514 e que amaioria das observações classificadas como "Ruim" estava no intervalo densidade<1,514 edensidade≥1,603. Assim, as observações que eram classificadas como "Bom", que nãoapresentavam valores no intervalo especificado (1,425≤densidade≤1,514), foram excluídas,assim como as observações que eram classificadas como "Ruim" que não apresentavamvalores no intervalo especificado (densidade<1,514 e densidade≥1,603). Desta forma, a novaamostra resultou em 488 observações sobre as quais foi aplicado o segundo teste.B. Segundo testeA técnica de RL foi aplicada às 488 observações obtida no estudo do comportamento daamostra "densidade", assim foram excluídas 490 observações da amostra utilizada para aanálise da primeira fase (978 observações). A RL foi aplicada com o auxílio do softwareSPSS 13.0 utilizando o método stepwise foward, para definir o modelo final que minimiza onúmero de variáveis e maximiza a precisão do modelo.A Tabela 7 apresenta o resultado inicial considerando o modelo com apenas uma constante,ou seja, se toda a concentração fosse classificada como "Bom", a taxa de acerto seria de61,7%, considerado insatisfatório também. O modelo de RL que irá estimar os diferentesteores de soda cáustica gerados pelas diferentes variáveis precisa ser mais assertivo na

22/02/2015 Revista ESPACIOS | Vol. 35 (Nº 12) Año 2014

http://www.revistaespacios.com/a14v35n12/14351219.html 12/15

classificação dos resíduos.

Tabela 7 – Classificação segundo teste (488 observações e todas as variáveis)

A primeira variável a ser incluída no modelo será aquela que tiver a estatística de pontuaçãomais alta, estatística Wald, no caso, a variável "densidade". Na tabela 8, verificamos que aanálise direcionada a etapa utilizando a estatística Wald consumiu uma etapa até se obter omodelo final. Observando­se as significâncias estatísticas do modelo, constatamos que ocoeficiente é significante da etapa, conforme a tabela 8.

Tabela 8 – Testes de coeficientes de modelo Omnibus

Após 20 iterações, o modelo final selecionou apenas uma variável, a "densidade", das novevariáveis incluídas inicialmente no modelo, excluindo todas as demais oito variáveis. ATabela 9 mostra que o índice "R2 de Cox e Snell" situou­se no patamar de 73,6% e o "R2Nagelkerke" ficou em 100%. As magnitudes das duas estatísticas são consideráveis.

Tabela 9 – Resumo do modelo

Na Tabela 10 mostra que o teste "Hosmer e Lemeshow" indica a ausência de diferençasignificativa na distribuição de valores dependentes efetivos e previstos. Um bom ajuste demodelo é indicado por um valor chi­quadrado não significante (HAIR et al., 2009), como oobservado no modelo. Isto demostra que o modelo significante de RL.

Tabela 10 – Teste de Hosmer e Lemeshow

As matrizes de classificação, idênticas em natureza às utilizadas na análise discriminante(HAIR et al., 2009), mostram taxa de acerto extremamente alta de casos corretamenteclassificados para o modelo. Na Tabela 11, a taxa de acerto geral é de 100% e, de formaadicional, as taxas de acerto de grupos individuais são consistentemente altas e não indicam

22/02/2015 Revista ESPACIOS | Vol. 35 (Nº 12) Año 2014

http://www.revistaespacios.com/a14v35n12/14351219.html 13/15

um problema na previsão de qualquer um dos dois grupos. As taxas de acerto do conjunto depadrões classificados como "Bom" é a mesma que a do conjunto de padrões classificadoscomo "Ruim", de 100%. O modelo inicial que considerava apenas a constante tinha uma taxageral de acerto de 61,7%. Já o modelo completo com uma variável ("densidade") apresentou ataxa de acerto de 100%.

Tabela 11 – Classificação segundo teste (488 observações, com apenas a variável "densidade")

A Tabela 12 mostra que uma variável independente é estatisticamente significativa paraexplicar o teor de soda cáustica contida na lama vermelha. Os coeficientes de RL das aludidasvariáveis apresentam significância estatística, conforme indicado pelo teste de Wald.

Tabela 12 – Variáveis incluídas no modelo de RL (apenas a "densidade")

a = Variáveis inseridas na etapa 1: Densidade.Na Tabela 13 é possível verificar que todas as variáveis que não foram incluídas no modelo,exibiram coeficientes que são, estatisticamente, iguais a zero, ou seja, (p>0,05) e,consequentemente, não exercem impacto sobre o resultado final (classificação "Bom" ou"Ruim").

Tabela 13 ­ Variáveis não presentes no modelo de RL

6. ConclusãoO presente trabalho utilizou a análise exploratória dos dados e a RL, enquadradas no processo

22/02/2015 Revista ESPACIOS | Vol. 35 (Nº 12) Año 2014

http://www.revistaespacios.com/a14v35n12/14351219.html 14/15

KDD, a fim de identificar no rejeito do processo de produção de alumina (teor de sodacáustica na lama vermelha), os padrões das variáveis de entrada que controlam o processo.Foram identificadas as variáveis que interferem no controle do teor cáustico do rejeito doprocesso e que foram utilizadas como variáveis de entrada do procedimento de classificação eprevisão deste trabalho. É possível afirmar que o modelo de RL pode ser eficiente para aprevisão do teor de soda cáustica contida na lama vermelha a partir de variáveis contidas nomodelo.Visando obter o melhor desempenho possível para a técnica de RL, foram realizados doistestes: em um primeiro teste foi aplicado o modelo de RL a uma amostra de dados com 978observações, cujos resultados não foram satisfatórios. Em um segundo teste foi utilizada umaamostra de 488 observações, com a qual obteve­se uma taxa de acerto geral do modelo de RLde 100%, com a seleção de apenas uma variável, a "densidade".Com base na classificação eficiente, poderemos utilizar o modelo de RL para prever aclassificação de novos padrões. Caso a previsão indique que o padrão ainda em formação váser de qualidade "Ruim", a ideia seria interferir nas variáveis de entrada, a um mínimo custo,para que o processo forneça um produto (teor de soda cáustica) de qualidade "Bom".

Referências bibliográficasASSOCIAÇÃO BRASILEIRA DO ALUMÍNIO. Disponível em: <http://www.abal.org.br>.Acesso em: fev./ 2013.CARDOSO, O.N.P.; MACHADO, R.T.M. (2008); Gestão do conhecimento usando datamining: estudo de caso na Universidade Federal de Lavras. Revista de Administração Pública,v.42, n.3, p.495­528.CHAVES, A.G.F. (1962); A lama vermelha e sua eliminação da fábrica de alumina, In: 2°semana de estudos. Alumínio e Zinco. Sociedade de Intercâmbio Cultural e EstudosGeológicos dos Alunos da Escola de Minas de Ouro Preto, n. 2, Ouro Preto, Minas Gerais.CRICHTON, N. (2001); Wald test. Journal of Clinical Nursing, v.10, p.697­706.FAYYAD, U.M.; SHAPIRO, G.P.; SMYTH, P. (1996); From data mining to knowledgediscovery: an overview. In: Fayyad UM, Shapiro GP, Smyth P, Uthursamy R, editors.Advances in knowledge discovery and data mining. Cambridge: The MIT Press/London:AAAI Press; p. 1­34.FAYYAD, U.M.; PIATETSKY–SHAPIRO, G.; SMYTH, P. (1996); Knowledge discoveryand data mining: towards a unifying framework. Proceeding of the Second InternationalConference on Knowledge Discovery and Data Mining (KDD­96), Portland, Oregon, august.GAUCH, H.G. (1982); Multivariate analysis in community ecology. Cambridge:Cambridge Univ. Press.HAIR, J.F.; BLACK, W.C.; BABIN, B.J.; ANDERSON, R.E.; TATHAM, R.L. (2009);Análise multivariada de dados. 6. ed. Porto Alegre: Bookman.HAUCK, W.W.; DONNER, A. (1977); Wald's test as applied to hypotheses in logit analysis.Journal of the American Statistical Association, v.72, n.360a, p.851­853.HILSON, G.; MURCK, B. (2000); Sustainable development in the mining industry: clarifyingthe corporate perspective. Resources Policy, v.26, p.227­238.HIND, R.A.; BHARGAVA, S.K.; GROCOTT, S.C. (1999); The surface chemistry of Bayerprocess solids: a review. Colloids and surfaces A: physicochemical and engineeringaspects, n.146, p.359­374. HINES, W.W. (2006); Probabilidade e estatística na engenharia. 4. Ed., tradução de VeraRegina Lima de Farias e Flores, Rio de Janeiro.HOSMER, D.W.; LEMESHOW, S. (2000); Applied logistic regression. New York: Wiley &Sons.INTERNATIONAL ALUMINIUM INSTITUTE (IAI) Disponível em<http://www.worldaluminium. org/>. Acesso em Fev./13.

22/02/2015 Revista ESPACIOS | Vol. 35 (Nº 12) Año 2014

http://www.revistaespacios.com/a14v35n12/14351219.html 15/15

KUSIAK, A.; KERN, J.A.; KERNSTINE, K. H.; TSENG, B.T.L. (2000); Autonomousdecision making a data mining approach. IEEE Trans Inf Technol Biomed, v.4, n.4, p.274­284.LINARES, K.S.C. (2003); Aspectos teóricos do data mining: descoberta do conhecimento emmedicina (Tese de Doutorado). Florianópolis: Universidade Federal de Santa Catarina.LUZ, A.B. (2003); Rochas e minerais industriais, Editora CETEM/MCT, Rio de Janeiro.LUZ, A.B.; LINS, F.A.F. (2005); Rochas & minerais industriais: usos e especificações. 2.ed. Rio de Janeiro: CETEM/MCT.MCDONALD, J. M.; BROSSETTE, S.; MOSER, S. A. (1998); Pathology informationsystems, data mining leads to knowledge discovery. Archives of Pathology & LaboratoryMedicine, v.122, n.5, p.409­11.MCLELLAN, B.C.; CORDER, G.D.; GIURCO, D.; GREEN, S. (2009); Incorporatingsustainable development in the design of mineral processing operations – review and analysisof current approaches. Journal of Cleaner Production, v.17, p.1414­1425.MOTA, J.F. (2007); Um estudo de caso para a determinação do preço de venda deimóveis urbanos via redes neurais artificiais e métodos estatísticos multivariados(Dissertação de Mestrado). Curitiba: Universidade Federal do Paraná.OLIVEIRA FILHO, A.T.; FONTES, M.A.L. (2000); Patterns of floristic differentiationamong Atlantic Forests in Southeastern Brazil and the influence of climate. Biotropica, v.32,n.4, p.793­810.PIELOU, E.C. (1984); The interpretation of ecological data: a primer on classification andordination. New York: John Wiley & Sons Publ.SANTOS, R.M.; VIEIRA, F.A.; FAGUNDES, M.; NUNES, Y.R.F.; GUSMÃO, E. (2007);Riqueza e similaridade florística de oito remanescentes florestais no norte de Minas Gerais,Brasil. Revista Árvore, v.31, n.1, p.135­144.SCUDELLER, V.V.; MARTINS, F.R.; SHEPHERD, G.J. (2001); Distribution and abundanceof arboreal species in the atlantic ombrophilous dense forest in Southeastern Brazil. PlantEcology, v.152, n.2, p.185­199.STEINER, M.T.A.; NETO, A.C.; BRAULIO, S. N.; ALVES, A.C. (2008); Métodosestatísticos multivariados aplicados à engenharia de avaliações. Gestão Produção, v.15, n.1,p.23­32.TAN, P. N.; STEINBACH, M.; KUMAR, V. (2009); Introdução ao data mining mineração dedados. Rio de Janeiro: Ciência Moderna.TOLEDO, L.O.; ANJOS, L.H.C.; COUTO, W.H.; CORREIA, J.R.; PEREIRA, M.G.;CORREIA, M.E.F. (2009); Análise multivariada de atributos pedológicos e fitossociológicosaplicada na caracterização de ambientes de cerrado no norte de Minas Gerais. RevistaÁrvore, v.33, n.5, p.957­968.

1. Pontifícia Universidade Católica do Paraná ­ PUCPR – Brasil [email protected]. Pontifícia Universidade Católica do Paraná ­ PUCPR – Brasil [email protected]. Pontifícia Universidade Católica do Paraná ­ PUCPR – Brasil [email protected]. Pontifícia Universidade Católica do Paraná ­ PUCPR – Brasil [email protected]. Pontifícia Universidade Católica do Paraná ­ PUCPR – Brasil [email protected]

Vol. 35 (Nº 12) Año 2014[Índice]

[En caso de encontrar algún error en este website favor enviar email a webmaster]