mineração de texto- análise comparativa de algoritmos - revista sql magazine 138

7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

1/56


2/56

O uso de minerao de texto importante para o processo de extrao de conhecimento

em bases textuais. Contudo, importante avaliar se o conhecimento extrado ou gerado

relevante ou no para o us urio. Neste artigo avaliamos a performance de algoritmos deminerao de texto da ferramenta TextMining. A discusso apresentada nes te artigo til

pois cada vez mais comum a necessidade de descobrirmos informao til a partir de

dados textuais. Atravs do es tudo de caso apresentado ser possvel entender o impacto

que diferentes algoritmos de m inerao de texto trazem a es ta atividade. Esta informao

poder apoiar a tomada de deciso sobre qual estratgia de minerao utilizar.

Grandes massas de dados so geradas diariamente pelos s istemas que apoiam as

atividades rotineiras das organizaes, dificultando a tarefa analtica dos gestores. Diante

dessa necess idade, surgiram os Sistemas de Apoio Deciso (SADs) que permitem apoiar,

contribuir e influenciar no processo de tomada de deciso. Os SADs permitem, a partir dos

dados transacionais da organizao, gerar informaes gerenciais que facilitam o referido

processo.

Como grande parte dos dados manipulados pelas organizaes es t em formato textual,

torna-se fundamental o uso da tcnica de minerao de texto (tambm conhecido por

Knowledge Discovery in Texts, KDT) para identificar padres e conhecimentos para auxiliar

nas decises.

O conhecimento gerado pode ser avaliado para determinar se o mesmo relevante ou no

para o usurio, ou seja, avaliar o desempenho do processo de minerao para a gerao do

conhecimento. Existem vrias mtricas, sendo as principais relacionadas ao desempenho,

acurcia, preciso e cobertura.

Neste artigo iremos apresentar um estudo de caso realizado em uma organizao ABC. A

INICIAR MVP Anderson Kerlly Rodrigues De Sousa


3/56

mecanismos que tornem efetivas as atividades de auditoria. Auditoria a atividade que

realiza a validao das informaes , verificao da obedincia s normas e recomendaes

e avaliaes dos controles em busca dos resultados da ges to. Objetivando atender as

necess idades da ABC, desenvolvemos uma aplicao que realiza a minerao de texto em

qualquer campo descritivo de um sistema, a ferramenta TextMining.

A aplicao permite determ inar se uma descrio ou no evidncia de irregularidade,

tornando efetivo o trabalho do auditor na identificao de irregularidades. Para class ificar

uma descrio, a ferramenta dispe de um algoritmo, Nave Bayes, de forma parametrizada,

especificando um limiar mnimo para auxiliar no processo class ificatrio. importante

destacar que existem trs mtodos para o Nave Bayes: Hbrido (utilizao da frequncia do

termo da amostra com tf, term frequency, da sentena), Frequncia Inversa (tfidf, term

frequency inverse document frequency, da amostra com tf da sentena) e Frequncia

(frequncia da amostra com frequncia da sentena).

Este trabalho introduziu um segundo algoritmo, Similaridade, na ferramenta citada e foram

avaliadas as mtricas de qualidade e desempenho para as duas abordagens. A avaliao

se deu por meio da coleta de mtricas de tempo mdio, acurcia, cobertura, medida F e

preciso de cada algoritmo.

Assim, este artigo objetiva comparar o desempenho e qualidade de dois algoritmos de

minerao de texto aplicados a his tricos de contas pblicas custodiadas pela organizao

ABC. A anlise comparativa determ inar o melhor algoritmo da ferramenta TextMining e,consequentemente, o conhecimento gerado por essa abordagem ser efetivo e relevante

para os auditores na descoberta de irregularidades como a identificao de uma descrio

de motivo de viagem para a qual no permitida o pagamento de dirias.

Descoberta de Conhecimento em Bases de



4/56

KDD (Knowledge Discovery in Databases) o processo no-trivial de identificar padres

vlidos, novos, potencialmente teis em dados, ou seja, o processo de descoberta de

conhecimento ou padres teis e desconhecidos em grandes massas de dados.

O processo de KDD consiste de vrias etapas, as quais envolvem preparao dos dados,

busca por padres, avaliao do conhecimento e refinamento, todos repetidos em mltiplas

iteraes. Esse processo composto por cinco pass os bem definidos: seleo,

pr-processamento, transformao, minerao de dados, anlise / ass imilao, conforme

mostrado na Figura 1.

abrir imagem em nova janela

Figura 1.Passos que compem o processo de KDD.

Na etapa seleo sero definidas as fontes de dados relevantes, ou seja, as bases de

dados importantes para o problema em questo, o qual se deseja resolver. No

pr-processamento, os dados sero tratados, pois como esses dados podem ser oriundos

de diversas fontes, os mesmos podem conter divergncia de valores e outras



5/56

estrutura compatvel com o algoritmo de minerao escolhido. J na etapa minerao de

dados, objetivo do processo de KDD, escolhida e executada uma tcnica e algoritmo de

minerao de acordo com o problema em questo, por exemplo, classificao, regresso,

agrupamento e sumarizao. E, por fim, na etapa de anlise/assimilao, o conhecimento

gerado ser avaliado se til ou no para a tomada de deciso.

Como mostrado na Figura 1, o processo de KDD um processo iterativo e interativo, em

que o usurio participa e realiza decises nas diversas etapas do processo, as quais podem

tambm ser repetidas, dependendo do conhecimento gerado ou pela ausncia do mesmo.

O processo de KDD pode ser aplicado em diversas reas, incluindo marketing, finanas,

deteco de fraudes, manufaturas e telecomunicaes. Um exemplo clssico de utilizao

de KDD o conhecimento descoberto nos dados da rede de supermercados Walmart. Foi

descoberto que a maioria dos pais que iam comprar fraldas para seus filhos acabavam

comprando cerveja. Em uma jogada de marketing, as fraldas foram colocadas prximas da

cerveja, sendo que as batatas fritas es tavam entre elas . Consequentemente, houve um

aumento das vendas dos trs produtos.

Outro exemplo de utilizao do processo de KDD foi o uso do s istema ADVANCED SCOUT da

IBM para ajudar os treinadores da NBA, no ano de 1996, a procurar e descobrir padres

interessantes nos dados dos jogos da NBA. Com esse conhecimento obtido, os treinadores

podiam avaliar a eficcia das decises de tticas e formular estratgias de jogo para jogos

futuros. O sis tema foi distribudo para dezesseis das vinte e nove equipes da NBA, sendousado de forma efetiva por algumas equipes para a preparao de jogadas e processos

analticos, como foi o caso do time Seattle Supersonics, o qual atingiu as finais da NBA.

Minerao de Texto



6/56

previamente desconhecimento, em bas es de dados deses truturadas, ou seja, extrao de

conhecimento til para o usurio em bases textuais.

O processo de minerao de texto dividido em quatro etapas bem definidas: seleo,

pr-processamento, minerao e ass imilao, conforme mos trado na Figura 2.

Figura 2.Processo de minerao de texto.

Na seleo, os documentos relevantes devem ser escolhidos, os quais sero processados .

No pr-process amento ocorrer a converso dos documentos em uma estrutura compatvel

com o minerador, bem como ocorrer um tratamento especial do texto. Na minerao, o

minerador ir detectar os padres com base no algoritmo escolhido. E por fim, na

ass imilao, os usurios iro utilizar o conhecimento gerado para apoiar as suas decises.

notrio a semelhana entre os processos de KDD e KDT, sendo que o KDT no possui a

etapa de transformao. O fato da ausncia da etapa transformao, etapa no processo de

KDD que converte os dados pr-processados para uma estrutura utilizada na etapa de

minerao de dados, justificada pelo fato de que a etapa de pr-processamento no KDT,

alm de realizar um tratamento no texto, permite definir uma estrutura compatvel com as

entradas dos algoritmos de minerao.



7/56

conflao, normalizao de sinnimos e indexao. Na etapa remoo de s topwords os

termos com pouca ou nenhuma relevncia para o documento sero removidos. So palavras

auxiliares ou conectivas, ou seja, no so discriminantes para o contedo do documento.

So, em sua maioria, pronomes , preposies, artigos, numerais e conjunes . Para auxiliar

na remoo das stopwords, geralmente, utiliza-se uma lista destas predefinida. Para facilitar

o entendimento, na Figura 3 apresentado um exemplo de remoo de stopwords.

Figura 3.Exemplo de remoo de StopWords

.

Na etapa seguinte, conflao, realiza-se uma normalizao morfolgica, ou seja, realiza-se

uma combinao das palavras que so variantes morfolgicas em uma nica forma de

representao. Um dos procedimentos mais conhecidos de conflao a radicalizao

(Stemming). Nela as palavras so reduzidas ao seu radical, ou seja, as palavras variantes

morfologicamente sero combinadas em uma nica representao, o radical. A radicalizao

pode ser efetuada com o auxlio de algoritmos de radicalizao, sendo os mais utilizados o

algoritmo de Porter (Porter Stemming Algorithm) e algoritmo de Orengo (Stemmer

Portuguese ou RLSP). AFigura 4exemplifica o processo de radicalizao de um texto

utilizando o algoritmo de Porter.



8/56

Figura 4.Exemplo de radicalizao utilizando o algoritmo de Porter.

Existem dois problemas no processo de radicalizao:

Overstemming: quando a stringremovida no um sufixo, mas sim parte do radical da

palavra. Isso possibilita a combinao de palavras no relacionadas;

Understemming:quando parte do sufixo no removido, ocasionando numa falha de

conflao de palavras relacionadas .

Aps a conflao, na etapa de normalizao de sinnimos, os termos que possuem

significados similares sero agrupados em um nico termo, por exemplo, as palavras rudo,

tumulto e barulho sero substitudas ou representadas pelo termo barulho.

Na normalizao de sinnimos, formado um vocabulrio controlado que se refere

utilizao de termos adequados para representar um documento, sendo esses termos

pr-definidos e especficos a um determinado assunto de uma rea. Isso facilita a busca,

pois os termos so comumente utilizados pelos usurios da rea.

E, por fim, na etapa indexao atribui-se uma pontuao para cada termo, garantindo uma

nica instncia do termo no documento. No processo de atribuio de pesos devem ser

considerados dois pontos: (a) quanto mais vezes um termo aparece no documento, mais

relevante ele para o documento; (b) quanto mais vezes um termo aparece na coleo de



9/56

Existem vrias formas de determinar o peso de um termo (pontuao). Os principais

mtodos so:

Booleano ou Binrio:o peso para um determinado termo ser 1 se o mesmo aparece no

documento. Caso contrrio, o peso ser 0. Indica a presena ou ausncia do termo no

documento;

Frequncia do Termo (term frequencyou tf): o peso a frequncia do termo no

documento. Consiste da razo entre a quantidade de vezes que o termo apareceu no

documento e a quantidade total de termos contidos no documento, como mostrado na

Figura 5, onde ni a quantidade de ocorrncias do termo i no documento e

a quantidade total de termos no documento;

Figura 5.Frmula para calcular a frequncia do termo.

Frequncia do Documento (Document Frequencyou df): o nmero de documentos que

possui um determinado termo;



10/56

importncia de um termo em um conjunto de documentos. Quanto maior o idf, mais

representativo o termo para o documento. Consiste no logaritmo da razo entre o nmero

total de documentos e a frequncia do documento, conforme demonstrado na Figura 6,

onde

a quantidade total de documentos e df(termo i)a frequncia do documento para o termo i;



11/56

Figura 6.Frmula para calcular a frequncia inversa do termo.

tfidf(Term Frequency Inverse Document Frequency):o peso para o termo associado

na proporo da frequncia do termo no documento e na proporo inversa do nmero de

documentos na coleo em que o termo aparece pelo menos uma vez, ou seja, combina o tf

com idf, como mostrado na Figura 7, onde tf(termo i)e idf(termo i)so, respectivamente, o tf

e idfdo termo i. Obtm-se, assim, o ndice de maior representatividade do termo.

Figura 7.Frmula para calcular o tfidfdo termo.

As subetapas do pr-processamento permitem uma reduo da dimens ionalidade do texto,

pois um documento pode ser representado por um vetor de termos . Como um termo

representa uma dimenso do texto, quanto maior a dimensionalidade do texto, mais

complexa ser a anlise feita pelo algoritmo de minerao.

Assim como no KDD, o processo de minerao de texto possui diversas aplicaes, comoextrao de palavras-chave, determinao de s istemas representacionais preferenciais,

class ificao de documentos por categoria, filtro de documentos, entre outras.

Similaridade de documentos



12/56

considerado uma coordenada dimensional e os documentos podem ser colocados num

espao euclidiano de n dimenses onde n o nmero de termos . A posio do documento

em cada dimenso dada pelo peso (pontuao calculada na fase de indexao). A

distncia entre um documento e outro o grau de sim ilaridade. Documentos que possuem

os mesmos termos acabam sendo colocados numa mesma regio no espao euclidiano,

ou seja, so similares.

A similaridade entre dois documentos tambm pode ser obtida pelos termos que ocorrem

em ambos, ou seja, pelos termos compartilhados. Os documentos mais sim ilares so os

que possuem mais termos em comum. No clculo da similaridade, so ignorados os

termos que ocorrem em um documento e que no ocorrem no outro. Em outras palavras, s

interessam os termos que ocorrem nos dois, isto , a ocorrncia positiva dess e em ambos.

Similaridade considerada o corao do mtodo de class ificao K-Nearest-Neighbor. A

diferena entre ambos que no K-Nearest-Neighbor consideram-se os k documentos mais

similares. A depender do valor de k, podem ser considerados os documentos com score

inferior aos de maior score para determinar a classe do novo documento.

Similaridade considera apenas os documentos com maior score e a classe do novo

documento ser a class e que mais ocorre nesses. importante frisar que para o clculo do

grau de similaridade (score), devem ser apenas considerados os termos em comum.

Existem vrias formas de calcular o grau de similaridade, isto , as funes de s imilaridade.

Depois de calcular os scores, podemos criar uma lis ta em forma de ranking, em que os

documentos mais sim ilares esto no topo da lis ta. As principais funes de sim ilaridade

so:

Contagem de palavras: considerada a funo mais s imples de mensurar a sim ilaridade,

pois se baseia apenas na contagem de termos que ocorrem em ambos documentos, isto ,



13/56

Contagem de palavras com bnus:de forma anloga contagem de palavras, sero

contabilizados os termos em comum aos vetores com apenas um diferencial: para cada

termo analisado, se esse termo ocorre em ambos documentos, ser adicionado um bnus

ao scoreconforme visto na Figura 8, onde K a quantidade total de termos do novo

documento, w(j)a pontuao para o termo j, D(i)o documento i da coleo e a expresso

1/df(j)o bnus para o termo j. O bnus considerado uma variao do idf. Se o termo ocorre

em m uitos documentos, o valor do bnus baixo. J se o termo aparece em poucos, o

bnus alto;

Figura 8.Frmula para a contagem de palavras com bnus.

Cosine similarity:funo de similaridade mais utilizada na rea de recuperao de

informao (RI) para comparar documentos. Representa o coss eno do ngulo formado por

dois vetores, como mos trado naFigura 9, onde d1e d2so os documentos cuja

sim ilaridade ser calculada,



14/56

o peso do termo j em d1,

o peso do termo j em d2,



15/56

a normalizao de d2. Quanto mais prximo de zero for o valor do cosseno, menos sim ilares

so os documentos. J quando for mais prximo de um, mais s imilares eles so;

Figura 9.Frmula para a cosine similarity.

Distncia euclidiana: representa a menor distncia entre dois vetores de termos no espao

euclidiano, como visto na Figura 10, em que d1e d2so os documentos, Ko nmero de

termos,



16/56

o peso do termo j em d1e

o peso do termo j em d2;

Figura 10.Frmula para a distncia euclidiana.



17/56

Corresponde distncia a ser percorrida para se chegar de um ponto a outro, em que o

caminho percorrido em quadras, conforme mostrado naFigura 11, onde d1e d2so os

documentos, Ko nmero de termos,


o peso do termo j em d2;



18/56

Figura 11.Frmula para a distncia manhattan.

Produto escalar:corresponde ao somatrio do produto dos pesos de um termo em dois

documentos, como visto na Figura 12, onde d1e d2so os documentos, Ko nmero de

termos,




19/56

o peso do termo j em d2.

Figura 12.Frmula para o produto escalar.

Para facilitar o entendimento sobre s imilaridade, a Figura 13demonstra o clculo da

similaridade entre um novo documento e todos os documentos do dicionrio, utilizando a

funo de similaridade contagem de palavras. Como podemos ver, foi calculado o score

entre o novo documento e todos do dicionrio por meio da contagem de palavras cuja

ocorrncia em ambos foi positiva, isto , a contabilizao delas que ocorre em ambos,

ignorando as que ocorrem apenas em um e as ausentes em ambos. Existem dois

documentos que possuem o maior score, grau de sim ilaridade igual a 2. Como os dois

documentos com maior score possuem classe igual a um (ltima coluna do dicionrio), a

classe do novo documento tambm ser um.



20/56

Figura 13.Clculo de similaridade dos documentos.

Avaliao de desempenho e qualidade

Existem diversas formas de se avaliar a capacidade de predio de um class ificador para

determinar a classe de vrios regis tros. A matriz de confuso a forma mais s imples de

analisar o desempenho e qualidade de um class ificador em reconhecer registros de

diferentes classes . Ela um recurso que permite demons trar o desempenho de um

class ificador, ou seja, a frequncia com que os registros de classe X foram corretamente

class ificados como classe X ou, at mes mo, class ificados erroneamente como outras

classes.

Para n classes, a matriz de confuso uma tabela de dimenso n x n. Para cadaclass ificao possvel existe uma linha e coluna correspondente, ou seja, os valores das

class ificaes sero distribudos na matriz de confuso de acordo com os resultados, assim

gerando a matriz de confuso para as classificaes realizadas. As linhas correspondem s

classificaes corretas e as colunas representam as classificaes realizadas pelo

classificador. Por exemplo, naTabela 1, o valor V1,1 corresponde ao nmero de regis tros de

classe 1 que foram classificados com classe 1 pelo class ificador.

Classe Atual

Classificado como

Classe 1 Classe 2 ... Classe n

Classe 1 V1,1 V1,2 ... V1,n



21/56

... ... ... ... ...

Classe n Vn,1 Vn,2 ... Vn,n

Tabela 1.Matriz de confuso para nclasses.

Quando existem apenas duas classes, uma considerada como positive e a outra como

negative. Os valores da matriz de confuso so referenciados como truee false positivese

truee false negatives, como visto na Tabela 2.

Actual class

Predicted class

Positiv e Negative

Positive True Posi ti ve (TP) False Negati ve (FN)

Negative False Posi ti ve (FP) True Negati ve (TN)

Tabela 2.Matriz de confuso para duas classes.

Assim, exis tem quatro s ituaes:

True Positive (TP): o nmero de instncias de classepositiveque foram classificadas

comopositive;

False Positive (FP): o nmero de instncias de classe negativeque foram classificadas

comopositive;

False Negative (FN): o nmero de instncias de classepositiveque foram classificadas

como negative;

True Negative (TN): o nmero de instncias de classe negativeque foram classificadas



22/56

A avaliao de um classificador se dar pela anlise dos valores nela contidos, bem como

na verificao do somatrio dos elementos das diagonais principal e secundria. Um bom

classificador aquele que possui a soma da diagonal principal maior que a da secundria.

Um classificador considerado ideal quando a soma da diagonal secundria igual a zero,

contudo esse ser considerado um pssimo classificador se possuir o somatrio da

diagonal principal igual a zero.

De posse dos valores da matriz de confuso, podem ser utilizadas as mtricas de avaliao

de desempenho e qualidade de um class ificador. As principais mtricas de desempenho e

qualidade so:

Acurcia (accuracy): o percentual de instncias class ificadas corretamente;

Preciso (precision): o percentual de instncias classificadas comopositiveque so

realmentepositive;

Cobertura ou Revocao (recall): o percentual de ins tnciaspositiveque foramclassificadas corretamente comopositive;

Medida F (F1 Score): a medida que combina a preciso e revocao (cobertura), ou seja,

a mdia harmnica da preciso e revocao.

Ferramenta TextMining

O TextMining permite determinar se informaes so ou no evidncias de irregularidades,

ou seja, se uma descrio est ou no de acordo com a lei e com o que se espera dos

jurisdicionados . Desta forma, a ferramenta tem como objetivo tornar efetivo o trabalho do

auditor na identificao de irregularidades. Suas principais funcionalidades so o

gerenciamento de perfis, de dicionrios e de class ificaes. Considera-se gerenciamento o



23/56

informaes.

Iniciando pelo gerenciamento de perfis, este um mecanismo que auxilia nas consultas por

meio dos filtros anexados aos perfis. Conforme mostrado na Figura 14, por meio deles

que o usurio poder determinar dinamicamente os campos que deseja filtrar nas telas, nas

quais poder escolher o perfil. Na TextMining, est disponvel para o usurio as

funcionalidades de cadastro, consulta e excluso.


Figura 14.Tela Perfil (Ferramenta TextMining)

A criao de um perfil poder ocorrer s uma vez e pode ser compartilhado por todos os

usurios. Como o custo da operao muito baixo, se houver a necess idade de alterao

dele, basta exclu-lo e criar outro novamente. Esta caracterstica torna a aplicao flexvel e



24/56

campos contidos na base de dados.

Dados es tes entendimentos sobre perfis, outra funcionalidade importantss ima o

gerenciamento de dicionrios, que so os modelos de conhecimento que servem de base

para tornar possvel a descoberta de evidncias de fraudes semelhantes em toda base de

dados ou em unidades e cidades especficas. Um dicionrio criado por meio da seleo

de amostras que so dados s elecionados pelo auditor como Evidncia (possvel evidncia

de irregularidade) e Em Conformidade (descrio que est de acordo com a lei), bem como

o auditor pode informar amostras avulsas, as quais so especificadas manualmente e

class ificadas como Evidncia ou Em Conformidade, como mostrado na Figura 15.

A seleo de amostras para criao do dicionrio deve ser balanceada, para cada evidncia

informada, dever existir um ou mais registros que s o exemplos de conformidade. Na

ferramenta esto disponveis para o usurio as funcionalidades de cadastro, consulta,

edio, excluso e desbloqueio de dicionrios. importante ressaltar que o dicionrio criado

poder ser utilizado por todos os auditores, permitindo maior eficincia ao processo de

auditoria.



25/56


Figura 15.Tela Dicionrio (Ferramenta TextMining).

A partir do perfil selecionado, dos filtros anexados a esse e do dicionrio escolhido, o auditor

poder escolher os dados a serem class ificados pela ferramenta, ou seja, o local em que

sero buscadas novas evidncias semelhantes s do dicionrio criado.

A aplicao dispe de dois algoritmos de minerao de texto, Nave Bayes e Similaridade,

para classificar os regis tros, como mostrado na Figura 16. Nave Bayes um algoritmo de

anlise estatstica e foi implementado de forma parametrizada, especificando um limiar

mnimo para auxiliar na classificao dos registros. Para realizar a class ificao de um

registro, o algoritmo calcula a probabilidade desse registro ser ou no uma evidncia de

irregularidade. Este algoritmo dispe de trs formas para realizar o clculo da probabilidade:

Hbrido, Frequncia Inversa e Frequncia. Na primeira abordagem, considerada a

frequncia do termo na amostra e o tf desse na sentena. J na segunda levado em conta



26/56

frequncias do termo na am ostra e na sentena.

J o algoritmo de s imilaridade, tambm de anlise estatstica, calcula a similaridade entre

uma sentena e um conjunto de amostras, por meio dos termos que ambos possuem em

comum para determinar se a sentena ou no uma evidncia.

Na ferramenta, esto disponveis para o usurio as funcionalidades de cadastro, consulta,

excluso e visualizao de classificaes.


Figura 16.Telas Classificao sobrepostas mos trando os algoritmos disponveis

(Ferramenta TextMining).

Aps a anlis e da aplicao foram efetuadas alteraes no cdigo objetivando melhoria no

uso da ferramenta, incluso de novas funcionalidades, preveno e correo de problemas .

A seguir temos as principais alteraes realizadas:

Modelo de Dados:



27/56

DIM_CLASSIFICACAO.

Mdulo Dicionrio:

o A tela de criao de dicionrios foi alterada para permitir a incluso de amostras avulsas;

o A tela de consulta de dicionrios foi alterada para que os botes Editar e Excluir

ficassem desabilitados quando no existissem dicionrios cadastrados;

o A tela Dicionrios Bloqueados foi alterada para que o boto Liberar ficasse desabilitado

quando no existissem dicionrios bloqueados.

Mdulo Classificao:

o Criao da classe sim ilaridade, algoritmo de classificao;

o Criao da classe abstrata Class ificador, superclasse das classes Similaridade e

NaiveBayes. A classe Classificador possui um mtodo esttico ClassificadorFactory que

retorna um objeto do tipo Class ificador, o qual pode ser uma ins tncia das classes

NaiveBayes ou Sim ilaridade;

o Na tela Classificao, o algoritmo Similaridade foi includo nas opes de mtodos de

classificao;

o Na tela Classificao, foram adicionados os percentuais 51 e 55 ao componente Limiar

Classificao %;

o A tela Classificao foi alterada para os componentes Dicionrios, Perfil, Limiar

Classificao %, Mtodo, Medidas, Filtros, Class ificar e Descrio da Classificao

serem desabilitados quando um processo class ificatrio fosse iniciado;



28/56

ficassem desabilitados quando no existissem classificaes cadastradas;

o As alteraes da tela Dados da Classificao foram:

Criao do componente Tempo de Classificao para visualizar o tempo da class ificao

realizada;

Atribuio do valor --- para o componente Limiar de Classificao % quando o algoritmo

de minerao utilizado no for o Nave Bayes, porque este o nico que utiliza limiar;

Parametrizao da tabela Evidncias, em que o label e os valores da coluna do

Limiar/Score sero formatados de acordo com o algoritmo utilizado na classificao. Por

exemplo, caso o algoritmo seja Nave Bayes, o label da coluna ser Limiar e os valores da

coluna estaro formatados em porcentagem, mas se for escolhido Similaridade, o label da

coluna ser Score e os valores da coluna estaro formatados em nmeros com casas

decimais.

Implementamos uma adaptao do algoritmo de similaridade de documentos. O mtodoconvencional de similaridade realiza um clculo de s imilaridade entre todos os documentos

do dicionrio e o documento a ser classificado, apenas levando em conta os termos que

ocorrem em ambos.

Para class ificar o novo documento, o algoritmo convencional apenas considera as

ocorrncias do maior score, ignorando todos os outros. Nessa abordagem, existe a

possibilidade de no class ificar um novo documento quando a quantidade de documentos

com maior score para diferentes classes , a mesma, como mostrado naFigura 17.



29/56

Figura 17.Exemplo de quatro situaes de classificao do algoritmo convencional de

similaridade.

Visando performance e melhoria do processo de classificao, foi desenvolvida uma

adaptao do algoritmo de similaridade. As adaptaes efetuadas foram:

Ser realizada uma poda, onde no sero analisados todos os documentos (amostras) do



30/56

a ser classificado para determinar o grau de similaridade;

Sero utilizados os outros scoresquando no for possvel class ificar com o maior score.

O score para uma determinada amostra (documento do dicionrio) pode ser obtido atravs

do somatrio da multiplicao do tfidfdo termo da amostra com o tfda sentena (novo

documento) para todos os termos comuns entre a amostra e a sentena, como pode ser

visto na Figura 18, onde k o nmero de termos que a amostra e a sentena possuem em

comum.

Figura 18.Frmula para o clculo do scoreutilizado no algoritmo implementado.

Para facilitar o entendimento do algoritmo implementado, apresentado o seu passo apasso a seguir.

Entrada:

sc, sentena a ser classificada como Evidncia ou Em Conformidade

dic, dicionrio utilizado para classificar a sentena

Sada:

result, resultado da classificao da sentena, ou seja, objeto ResultadoGenerico contendo a

classe e o score da sentena class ificada



31/56

2. Para cada amostra que contenha pelo menos um termo de sc, calcular o scorepara cada

amostra, criar um objeto ResultadoGenerico para cada amostra analisada, contendo nesse

objeto a classe da amostra e o scorecalculado e, por fim, armazenar o objeto no vetor de

ResultadoGenerico.

3. Ordenar o vetor de ResultadoGenerico em ordem crescente pelo score.

4. Seo vetor es tiver vazio Ento

Retorneum objeto ResultadoGenerico com classe igual a falso e scoreigual a zero.

Seno

5. Seo vetor possuir apenas um elemento Ento

Retorneo nico objeto ResultadoGenerico dentro do vetor.

Seno

6. Sedentre os objetos ResultadoGenerico no vetor existe apenas uma ocorrncia de um

objeto com o maior score Ento

Retorneo objeto ResultadoGenerico com maior score.

Seno

7. Para todas as ocorrncias dos objetos ResultadoGenerico com maior score, realizar a

contagem de objetos que possuem class e igual a falso (Em Conformidade) e tambm os

que possuem classe igual a verdadeiro (Evidncia).

8. Sea quantidade de verdadeiro for maior que a de falso Ento



32/56

score.

Seno

9. Sea quantidade de falso for maior que a de verdadeiro Ento

Retorneum objeto ResultadoGenerico com classe igual a falso e scoreigual ao maior score.

Seno

10. Enquanto no for poss vel classificar a sentena (quantidade de verdadeiros e falsos

forem iguais) e nem todos os objetos do vetor foram analisados, realizar os passos 6 a 9,considerando que o novo maior scoreser o scoredo objeto ResultadoGenerico que

antecede a primeira ocorrncia do objeto que possui o atual maior score.

11. Seno foi possvel class ificar analisando todos os elementos do vetor Ento

Retorneum objeto ResultadoGenerico com classe igual a falso e scoreigual a zero.

Estudo de caso

A realizao do es tudo de caso teve por objetivo principal a validao dos resultados

emitidos pela ferramenta TextMining para deteco de irregularidades nos pagamentos de

dirias contidos nos histricos de contas pblicas sob custdia da organizao ABC. Para

atingir este objetivo, necessria a efetivao dos seguintes passos:

Selecionar os participantes e objetos do estudo de caso;

Definir o dicionrio a s er utilizado;

Executar o processo classificatrio nas amos tras dos participantes envolvidos para cada



33/56

Verificar e validar os resultados obtidos por meio das mtricas de Tempo Mdio de

Execuo, Acurcia, Preciso, Cobertura e Medida F;

Realizar alteraes na ferramenta, se necessrios.

Primeiramente foram selecionados os participantes e objetos, em seguida, a definio do

dicionrio utilizado, a determinao das mtricas para a avaliao de desempenho e

qualidade dos algoritmos e, por fim, foi realizada a execuo do es tudo.

Para a seleo dos participantes, foi necessrio analisar dois critrios: os participantes

devem ser unidades gestoras cadastradas e que possuam uma quantidade considervel de

registros cadas trados. De acordo com o DW cedido, existem 481 unidades gestoras

cadastradas, sendo assim, sero escolhidas, aleatoriamente, trs unidades para a

realizao do estudo. Por questo de sigilo das informaes, os nomes das unidades

gestoras no sero revelados.

As unidades escolhidas, com a quantidade de registros especificados entre parnteses,foram: Unidade A (8872), Unidade B (625) e Unidade C (1855). importante ressaltar que

para as unidades A e C, tambm foram escolhidas dentro da quantidade de registros,

aleatoriamente, amostras de 500 regis tros para o estudo. fundamental frisar que a base de

treinamento ser constituda pela Unidade A, j a base de teste ser formada pelas

unidades B e C.

Aps a escolha das unidades, fundamental determinar o atributo na tabela de fato a ser

minerado, ou seja, o campo descritivo. De acordo com a Figura 19, existem cinco campos

descritivos: IdDw_Fato_Diaria, Matricula_Funcionario, Destino_Viagem, Motivo_Viagem e

Numero_Empenho. Dentre estes, para detectar irregularidades no pagamento de dirias, o

atributo mais significativo Motivo_Viagem, porque o mesmo representa a justificativa da



34/56



35/56



36/56

Diria uma espcie de auxlio financeiro ou ajuda de custo para um colaborador prestar

algum servio fora da localidade do rgo ao qual es teja vinculado. Em outras palavras, um

auxlio recebido pelo colaborador com o intuito de custear seus gastos para a realizao de

servio fora do local de trabalho. A concesso de dirias diversificada, pois abrange gastos

referentes capacitao, viagens para reunies com superiores, entre outras.

Diante do exposto, proibida a concesso de dirias para fins que no s ejam relacionados

prestao de servio. Existem inmeras justificativas consideradas evidncias de

irregularidades para concesso de dirias como realizao de uma viagem particular. Ass im,

para a definio do dicionrio a ser utilizado neste estudo, optou-se em restringir esse

conjunto para evidncias relacionadas ao uso de dirias para tratamento de sade.

O modelo de conhecimento (dicionrio a ser utilizado) possuir, no total, 60 sentenas

constitudas de amostras da prpria base e de amostras avulsas para class ificar registros.

Para as amos tras da prpria base foram escolhidas, aleatoriamente, 40 sentenas da

Unidade A, sendo 20 classificadas como Evidncia e as outras 20 como Em

Conformidade.

Para as amostras avulsas, foram definidas 20 sentenas, sendo 10 class ificadas como

Evidncia e as outras 10 como Em Conformidade. As sentenas avulsas class ificadas

como Em Conformidade so s imilares s da prpria base, as quais foram formuladas por

meio de uma anlise das amostras dos dados das unidades gestoras envolvidas.

J das sentenas avulsas classificadas como Evidncia, apenas duas so s imilares s da

prpria base, por meio da anlise da amostra dos dados da Unidade A. Para formular as

sentenas avulsas restantes, com o intuito de obter termos da Medicina sobre

procedimentos, tratamentos e cirurgias mdicas, profissionais da sade, doenas e

exames, foram realizadas algumas pesquisas sobre Medicina.



37/56

apenas os termos mais comuns e relevantes, a exemplo de doenas mais comuns e

exames de rotinas mais solicitados.

Nas Tabelas 3 e 4so apresentadas as amostras que constituem o modelo de

conhecimento.

AMOSTRAS DA PRPRIA BASE

Sentena Em Conformidade Sentena Ev idncia

A DISPOSIO DA JUSTIA ELEITORALACOMPANHAMENTO DE TRATAMENTO DE

SADE DE SUA FILHA

A SERVIO DA ASSEMBLEIAACOMPANHANTE DA SRA DEP. CELIA

FRANCO P/TRATAMENTO MEDICO

A SERVIO DESTE PODERACOMPANHAR A DEPUTADA PARA

TRATAMENTO DE SADE

A TRABALHOACOMPANHAR A FILHA EM TRATAMENTO

MDICO

ACOMPANHAR O SR.PRIMEIRO SECRETARIO ATENDER PROCEDIMENTOS MDICOS

ACOMPANHAR PROCESSOS E REUNIES

PARLAMENTARESCONSULTA MEDICA

ASSUNTO DE INTERESSE DESTE PODER DESPESAS MDICA

AUTORIZADA PELO PRIMEIRO SECRETRIOFAZER EXAMES PARA LIBERAO DE

TRANSPLANTE DE RINS

ENCONTRO DO PARTIDO PROGRESSISTAPARA A FUNCIONARIA A T RATAMENTO DE

SADE



38/56

CLNICO

INTEGRAR COMITIVA DO GOVERNO DO

ESTADOREVISO MEDICA

PARA O SR. DEPUTADO PARTICIPAR DE

REUNIO DO PARTIDOSUBMETER-SE A CONSULTA MDICA

PARTICIPAR DE REUNIO DE CUNHO

POLTICO PARTIDRIOSUBMETER-SE A EXAMES MDICOS

PARTICIPAR DA CONVENO NACIONAL DO

DEM SUBMETER-SE A T RATAMENTO MDICO

PARTICIPAR DA POSSE DO PRESIDENTE DA

PETROBRAS DISTRIBUIDORATRATAMENTO MEDICO

PARTICIPAR DE ATO PUBLICO CONTRA

REFORMA SINDICALTRATAMENTO DE SADE

PARTICIPAR DO I CONGRESSO

INTERMUNICIPAL DE SADETRATAMENTO DE SADE

REUNIO DE CUNHO POLITICO PARTIDRIO TRATAMENTO DE SADE

TRATAR DE ASSUNTO DE INTERESSE DESTE

PODERTRATAMENTO DE SADE

VISITAR A SUPERINTENDNCIA DA CAIXA

ECONMICA FEDERALTRATAMENTO DE SADE

Tabela 3.Amos tras da base.

AMOSTRAS AVULSAS



39/56

Complementao de di ria para funcionrio

realizar trabalho.

25-HIDROXIVITAMINA D OU 25(OH)D; ACIDO

RICO NO SANGUE; ALBUMINA;

ALTERAES DO FERRO E DE SUA

CAPACIDADE DE FIXAO; AUDIOMETRIA

VON BEKESY; BILIRRUBINA NA URINA;

BILIRRUBINA NO SANGUE (DIRETA, INDIRETA

E TOTAL). PROVAS DE FUNO HEPTICA

(BILIRRUBINAS, ELETROFORESE DE

PROTENAS. FA, TGO, TGP E GAMA-PGT);

CLCIO NO SANGUE; CARDIOLIPINA,

AUTO-ANTICORPOS IGG; ...

Conduzir pacientes para hospital

ABLATIVA; ABORTO; ACUPUNTURA;

ALOPATIA; AMPUTAO; ANESTESIA;

ANTI-SEPSIA; APENDICECTOMIA; ASSEPSIA;

AUSCULTAO; AUTPSIA; BARITRICA;

BIPSIA; CABEA; CARDACA;

CAUTERIZAO; CHECK-UP; CIRURGIA;

COLUNA; COSTURA; DRENO; ...

Pagamento de diria para servidor ou

funcionrio reali zar servios fora desta unidade

AMBULATRIO; ASSISTNCIA MDICA;

ATENDIMENTO MDICO; CARDIOGRAMA;

CLNICA; CONSULTA MDICA; CONSULTRIO;

DIAGNSTICO MDICO; DESPESA MDICA;

ELETROENCEFALOGRAMA; EMERGNCIA;

EXAMES MDICOS; HISTRICO DE SADE;

HOSPITAL; LAUDO; PERCIA MDICA;



40/56

PRONTO-SOCORRO; QUADRO CLNICO;

RADIOGRAFIA; REVISO MDICA; VACINA

Viagem para real izao de servio desta

unidade

REALIZAO DE EXAMES MDICOS DA

ESPOSA E FILHOS.

Viagem para tratar de assuntos de sade pbl ica

e obter recursos financeiros.REALIZAR PROCEDIMENTO CIRRGICO.

Tabela 4.Amostras avulsas.

Medidas de desem penho e qualidade para avaliao dos algoritmos

Para analisar o desempenho e qualidade dos algoritmos de minerao de texto em questo

ser utilizado o recurso matriz de confuso, bem como as mtricas de acurcia, cobertura,

preciso e medida F e tempo de execuo.

De acordo com o contexto deste trabalho, devemos considerar quatro situaes:

NSCCE:nmero de sentenas class ificadas corretamente como Evidncia (True Positive).

NSCCC:nmero de sentenas class ificadas corretamente como Em Conformidade (True

Negative).

NSCEE:nmero de sentenas class ificadas erroneamente como Evidncia (False

Positive).

NSCEC:nmero de sentenas class ificadas erroneamente como Em Conformidade (False

Negative).

A matriz de confuso que contempla essas situaes pode ser vis ta na Tabela 5.



41/56

ass ca o orre a

Ev idncia Em Conformidade

Evidncia NSCCE NSCEC

Em Conformidade NSCEE NSCCC

Tabela 5.Matriz de confuso utilizada.

Com a matriz de confuso criada, podemos definir as mtricas a serem utilizadas:

Acurcia o percentual de sentenas classificadas corretamente pelo classificador;

Cobertura o percentual de evidncias que foram classificadas corretamente como

Evidncia;

Preciso o percentual de sentenas classificadas como Evidncia que so realmente

evidncias;

Medida F, tambm conhecida como Mdia Harmnica da Preciso e Cobertura, a medidaque combina a preciso e cobertura;

Tempo de Execuo o tempo de durao de uma classificao, compreendida pela

diferena entre o tempo de trmino e o tempo de incio da class ificao.

A etapa de execuo consis tir na realizao do processo classificatrio nas amostras dos

participantes envolvidos para cada algoritmo de minerao de texto, utilizando o modelo de

conhecimento definido. Foram efetuadas trs class ificaes nas amostras dos participantes

envolvidos para cada algoritmo. necessrio frisar que para cada execuo do Nave Bayes

foi utilizado cada mtodo desse algoritmo (Hbrido, Frequncia Inversa e Frequncia),

bem como o limiar de 51 % foi utilizado em todas as execues do Nave Bayes. Aps o

trmino do processo class ificatrio, as matrizes de confuso foram geradas a partir dos



42/56

para cada algoritmo.

Resultados

Aps a realizao do es tudo de caso, foram coletados os valores das matrizes de confuso

de cada execuo para cada algoritmo e unidade escolhida. Com os valores das matrizes de

confuso foi possvel coletar as mtricas para avaliar todas as abordagens. Vale ressaltar

que para um mesmo algoritmo e unidade ges tora, a matriz de confuso foi a mesma para as

trs execues (processos classificatrios). Nas Tabelas 6e 7 apresentado um resumo

dos valores das matrizes de confuso por algoritmo e unidade.

Unidades

Valores da Matriz de Confuso Diagonal Principal

NSCCE (TP) NSCCC (TN)

N.B.

F.I.

N.B.

H.

N.B.

F.SIM.

N.B.

F.I.

N.B.

H.

N.B.

F.SIM.

Unidade A 136 137 137 137 363 363 363 362

Unidade B 0 1 1 0 613 603 603 588

Unidade C 3 3 3 2 457 449 449 430

Tabela 6.Valores da matriz de confuso por algoritmo e unidade gestora Diagonal

Principal.

Unidades

Valores da Matriz de Confuso Diagonal Secundria

NSCEE (FP) NSCEC (FN)

N.B. N.B. N.B.SIM.

N.B. N.B. N.B.SIM.



43/56

Unidade A 0 0 0 1 1 0 0 0

Unidade B 11 21 21 36 1 0 0 1

Unidade C 40 48 48 67 0 0 0 1

Tabela 7. Valores da matriz de confuso por algoritmo e unidade gestora Diagonal

Secundria.

Inicialmente foram analisados os resultados das trs classificaes realizadas para cada

algoritmo na Unidade A. Conforme visto nas Tabelas 8 a 10, os algoritmos Nave Bayes

Hbrido (N.B.H.) e Nave Bayes Frequncia (N.B.F.) so as melhores abordagens para essa

unidade, pois possuem as melhores porcentagens de acurcia (100%), preciso (100%),

cobertura (100%) e medida F (100%). Similaridade (SIM) obteve um melhor desempenho do

que os demais na mtrica tempo de execuo. Comparando similaridade e Nave Bayes

Frequncia Inversa (N.B.F.I.), sim ilaridade supera esse nas mtricas de cobertura, medida F

e tempo de execuo, mas ambos possuem a mesma porcentagem de acurcia.

importante verificar que o algoritmo similaridade possui preciso inferior em relao s

demais abordagens.

Execues

Mtricas de Desempenho e Qualidade

Acurcia Preciso

N.B.

F.I.

N.B.

H.

N.B.

F.SIM. N.B.

F.I.

N.B.

H.

N.B.

F.SIM.

1 Exec.99,80

%100 % 100 %

99,80

%100 % 100 % 100 %

99,28

%

2 Exec.99,80

100 % 100 %99,80

100 % 100 % 100 %99,28



44/56

3 Exec.99,80

%100 % 100 %

99,80

%100 % 100 % 100 %

99,28

%

Mdia99,80

%100 % 100 %

99,80

%100 % 100 % 100 %

99,28

%

Tabela 8.Comparativo das mtricas acurcia e preciso para cada algoritmo na Unidade A.

Execues


Cobertura Medida F

N.B.

F.I.

N.B.

H.

N.B.

F.SIM.

N.B.

F.I.

N.B.

H.

N.B.

F.SIM.

1 Exec.99,27

%100 % 100 % 100 %

99,63

%100 % 100 %

99,64

%

2 Exec.

99,27

%100 % 100 % 100 %

99,63

%100 % 100 %

99,64

%

3 Exec.99,27

%100 % 100 % 100 %

99,63

%100 % 100 %

99,64

%

Mdia99,27

%100 % 100 % 100 %

99,63

%100 % 100 %

99,64

%

Tabela 9.Comparativo das mtricas cobertura e medida F para cada algoritmo na Unidade A.

Execues


Tempo de Execuo



45/56

F.I. H. F..

1 Exec. 135,88 s 133,49 s 146,79 s 84,78 s

2 Exec. 135,24 s 139,28 s 153,68 s 83,39 s

3 Exec. 134,64 s 134,81 s 156,64 s 82,22 s

Mdia135,25

s

135,86

s

152,37

s83,46 s

Tabela 10.Comparativo da mtrica tempo de execuo para cada algoritmo na Unidade A.

A prxima unidade analis ada foi a Unidade B. Tambm foram analisados os resultados das

trs class ificaes realizadas para cada algoritmo na referida unidade. De acordo com as

Tabelas 11, 13 e13, o algoritmo sim ilaridade obteve um melhor desempenho do que os

demais apenas na mtrica de tempo de execuo. J o Nave Bayes Frequncia Inversa

obteve um melhor desempenho na mtrica acurcia (98,08 %). J Similaridade obteve a

menor porcentagem de acurcia. importante verificar que todas as abordagens tiveram umpssimo desempenho na mtrica preciso (valor abaixo de 50 %), mas Nave Bayes

Hbrido e Nave Bayes Frequncia tiveram desempenho melhor que os demais.

Apesar dos pssimos resultados, Nave Bayes Frequncia Inversa foi a melhor

abordagem, pois o mesmo class ificou, erroneamente, um nmero muito inferior de

evidncias do que os outros algoritmos , como mostrado nas Tabelas 8 e9. Em outras

palavras, comparando-se o resultado da soma entre NSCCE e NSCCC (soma da diagonal

principal da matriz de confuso) de cada algoritmo, o resultado de Nave Bayes Frequncia

Inversa foi superior aos resultados das demais abordagens, portanto, Nave Bayes

Frequncia Inversa foi o algoritmo que apresentou melhor desempenho e qualidade na

classificao das sentenas dessa unidade.



46/56

ExecuesAcurcia Preciso

N.B.

F.I.

N.B.

H.

N.B.

F.

SIM.N.B.

F.I.

N.B.

H.

N.B.

F.

SIM.

1 Exec.98,08

%

96,64

%

96,64

%

94,08

%

0,00

%

4,55

%

4,55

%

0,00

%

2 Exec.98,08

%

96,64

%

96,64

%

94,08

%

0,00

%

4,55

%

4,55

%

0,00

%

3 Exec. 98,08

%

96,64

%

96,64

%

94,08

%

0,00

%

4,55

%

4,55

%

0,00

%

Mdia98,08

%

96,64

%

96,64

%

94,08

%

0,00

%

4,55

%

4,55

%

0,00

%

Tabela 11.Comparativo das mtricas acurcia e preciso para cada algoritmo na Unidade B.

Execues


Cobertura Medida F

N.B.

F.I.

N.B.

H.

N.B.

F.SIM.

N.B.

F.I.

N.B.

H.

N.B.

F.SIM.

1 Exec.

0,00

%100 % 100 % 0,00 %

8,70

%

8,70

%

2 Exec.0,00

%100 % 100 % 0,00 %

8,70

%

8,70

%

3 Exec.0,00

100 % 100 % 0,00 %8,70 8,70



47/56

Mdia0,00

%100 % 100 % 0,00 %

8,70

%

8,70

%

Tabela 12.Comparativo das mtricas cobertura e medida F para cada algoritmo na Unidade

B.

Execues


Tempo de Execuo

N.B.

F.I.

N.B.

H.

N.B.

F.SIM.

1 Exec. 256,01 s 268,49 s 276,44 s 159,55 s

2 Exec. 259,67 s 258,26 s 266,54 s 158,14 s

3 Exec. 254,64 s 271,76 s 291,13 s 159,16 s

Mdia 256,77

s

266,17

s

278,04

s

158,95

s

Tabela 13.Comparativo da mtrica tempo de execuo para cada algoritmo na Unidade B.

Encerrando a primeira anlise, a prxima unidade analisada foi a Unidade C. Tambm foram

analisados os resultados das trs classificaes realizadas para cada algoritmo nessa

unidade. Conforme visto nas Tabelas 14, 16 e16, similaridade obteve um melhor

desempenho do que os demais apenas na mtrica de tempo de execuo, bem como

obteve os menores percentuais nas outras mtricas. J o Nave Bayes Frequncia Inversa

obteve as melhores porcentagens de acurcia, preciso, cobertura e medida F, seguido das

abordagens Nave Bayes Hbrido e Nave Bayes Frequncia. Sendo assim, o algoritmo



48/56

dessa unidade. Contudo, importante observar que, apesar do timo desempenho, Nave

Bayes Frequncia Inversa class ificou, erroneamente, uma quantidade considervel de

sentenas como Evidncia, como mostrado na Tabela 7.

Execues


Acurcia Preciso

N.B.

F.I.

N.B.

H.

N.B.

F.SIM.

N.B.

F.I.

N.B.

H.

N.B.

F.SIM.

1 Exec.

92,00

%

90,40

%

90,40

%

86,40

%

6,98

%

5,88

%

5,88

%

2,90

%

2 Exec.92,00

%

90,40

%

90,40

%

86,40

%

6,98

%

5,88

%

5,88

%

2,90

%

3 Exec.92,00

%

90,40

%

90,40

%

86,40

%

6,98

%

5,88

%

5,88

%

2,90

%

Mdia92,00

%

90,40

%

90,40

%

86,40

%

6,98

%

5,88

%

5,88

%

2,90

%

Tabela 14.Comparativo das mtricas acurcia e preciso para cada algoritmo na Unidade C.

Execues


Cobertura Medida F

N.B.

F.I.

N.B.

H.

N.B.

F.SIM.

N.B.

F.I.

N.B.

H.

N.B.

F.SIM.

1 Exec. 100 % 100 % 100 %66,67 13,04 11,11 11,11 5,56



49/56

2 Exec. 100 % 100 % 100 %66,67

%

13,04

%

11,11

%

11,11

%

5,56

%

3 Exec. 100 % 100 % 100 %66,67

%

13,04

%

11,11

%

11,11

%

5,56

%

Mdia 100 % 100 % 100 %66,67

%

13,04

%

11,11

%

11,11

%

5,56

%

Tabela 15.Comparativo das mtricas cobertura e medida F para cada algoritmo na Unidade

C.

Execues


Tempo de Execuo

N.B.

F.I.

N.B.

H.

N.B.

F.SIM.

1 Exec. 184,19 s 201,97 s 245,13 s 117,37 s

2 Exec. 212,91 s 185,20 s 311,77 s 114,61 s

3 Exec. 187,70 s 194,69 s 256,87 s 119,11 s

Mdia194,93

s

193,95

s

271,26

s

117,03

s

Tabela 16.Comparativo da mtrica tempo de execuo para cada algoritmo na Unidade C.

Encerrando a anlise comparativa dos algoritmos, foi feita uma anlise por mtrica utilizada.

Verificando o grfico da Figura 20, correspondente mtrica acurcia, notvel os timos

desempenhos dos Nave Bayes Hbrido e Nave Bayes Frequncia na Unidade A e o



50/56

Bayes Frequncia Inversa e Similaridade na Unidade A. Em mdia, Nave Bayes

Frequncia Inversa possui a melhor porcentagem de acurcia, consequentemente, a

melhor abordagem em termos de acurcia.


Figura 20.Grfico da mtrica acurcia.

No grfico apresentado na Figura 21podemos observar o bom desempenho do Nave Bayes

Frequncia Inversa na maioria das unidades, apesar do pssimo desempenho na

Unidade B. Em mdia, Nave Bayes Hbrido e Nave Bayes Frequncia foram melhores do

que Nave Bayes Frequncia Inversa. Mesmo assim, Nave Bayes Frequncia Inversa a

melhor abordagem em termos de preciso, pois, como foi dito anteriormente, class ificou

erroneamente um nmero inferior de sentenas em relao aos demais algoritmos .



51/56


Figura 21.Grfico da mtrica preciso.

Observando o grfico apresentado na Figura 22, conclumos o timo desempenho de Nave

Bayes Hbrido e Nave Bayes Frequncia, possuindo 100 % em todas as unidades.

Assim como perceptvel o baixo desempenho de s imilaridade na mtrica cobertura.

Portanto, Nave Bayes Hbrido e Nave Bayes Frequncia, por possurem as melhores

porcentagens de cobertura, so os melhores algoritmos em termos desta mtrica.



52/56


Figura 22.Grfico da mtrica cobertura.

Analisando o grfico da Figura 23, notvel a qualidade de Nave Bayes Hbrido e Nave

Bayes Frequncia, apesar de possuir a mdia harmnica um pouco inferior de Nave

Bayes Frequncia Inversa na Unidade C. J sim ilaridade possui, em mdia, a menor

porcentagem de medida F. Assim, Nave Bayes Hbrido e Nave Bayes Frequncia

possuem, em mdia, as melhores porcentagens de medida F, consequentemente, so os

melhores algoritmos para esta medida.



53/56


Figura 23.Grfico da mtrica medida F.

Observando o grfico daFigura 24fica evidente o timo desempenho do algoritmo de

sim ilaridade por possuir os menores tempos de execuo em todas as unidades gestoras.




54/56

Na tentativa de descobrir o motivo de todos algoritmos terem class ificado erroneamente uma

quantidade considervel de evidncias nas unidades B e C, foram analisadas as

class ificaes de duas conformidades que foram consideradas como evidncias por todas

as abordagens: INAUGURACAO DE CONJUNTO HABITACIONAL,CLINICA DE SAUDE E

CEN (Unidade B) e LEVAR PACIENTES P/REALIZACAO DE EXAMES (Unidade C). Para

class ificar a primeira sentena, foi considerado apenas um termo cujo radical saud,

sendo 06 e 09 as quantidades de amostras Em Conformidade e Evidncia,

respectivamente. J para a segunda sentena, foram cons iderados dois termos de radicais

pacient e exam, sendo 01 a quantidade de Em Conformidade para o radical pacient e

06 a quantidade de Evidncia para o radical exam. Portanto, o processo de Stemming

influenciou na classificao errnea dessas sentenas, podendo at ter influenciado nas

demais sentenas classificadas de forma errada.

Finalizando a anlise, na maioria das mtricas e unidades analisadas, conclui-se que Nave

Bayes Frequncia Inversa, para o contexto abordado neste artigo, foi o algoritmo que obteve

melhor desempenho e qualidade para classificar sentenas, consequentemente,

possibilitando melhores resultados para apoiar a deciso dos auditores na deteco de

irregularidades no pagamento de dirias.

De posse do melhor algoritmo, esse pode ser utilizado para tornar mais efetivo o trabalho do

auditor na identificao de irregularidades, auxiliando-o na tomada de deciso.

DevMedia

A DevM edia um portal para analistas, desenvolvedores de sistemas, gerentes e DBAs com mi lhares de

artigos, di cas, cursos e videoaulas gratui tos e exclusivos para assinantes.

Publicado em 2016



55/56

Gostei (1) (0)

Postar dvida / Comentrio

+ Mais contedo sobre SQL

No h comentrios

Meus comentarios

Publicidade

Mais postsArtigo

Oracle Data Guard com Fast-Start Failover

Artigo



56/56

Artigo

Estratgias de backup e restore no PostgreSQL

Artigo

Service Broker no SQL Server 2014

Artigo

Cluster Shared Volume no SQL Server 2014

Artigo

Passo a passo para realizar a modelagem de dados

Listar mais contedo


mineração de texto- análise comparativa de algoritmos - revista sql magazine 138

Documents