mineração de texto- análise comparativa de algoritmos - revista sql magazine 138

Upload: anderson-kerlly

Post on 24-Feb-2018

268 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    1/56

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    2/56

    O uso de minerao de texto importante para o processo de extrao de conhecimento

    em bases textuais. Contudo, importante avaliar se o conhecimento extrado ou gerado

    relevante ou no para o us urio. Neste artigo avaliamos a performance de algoritmos deminerao de texto da ferramenta TextMining. A discusso apresentada nes te artigo til

    pois cada vez mais comum a necessidade de descobrirmos informao til a partir de

    dados textuais. Atravs do es tudo de caso apresentado ser possvel entender o impacto

    que diferentes algoritmos de m inerao de texto trazem a es ta atividade. Esta informao

    poder apoiar a tomada de deciso sobre qual estratgia de minerao utilizar.

    Grandes massas de dados so geradas diariamente pelos s istemas que apoiam as

    atividades rotineiras das organizaes, dificultando a tarefa analtica dos gestores. Diante

    dessa necess idade, surgiram os Sistemas de Apoio Deciso (SADs) que permitem apoiar,

    contribuir e influenciar no processo de tomada de deciso. Os SADs permitem, a partir dos

    dados transacionais da organizao, gerar informaes gerenciais que facilitam o referido

    processo.

    Como grande parte dos dados manipulados pelas organizaes es t em formato textual,

    torna-se fundamental o uso da tcnica de minerao de texto (tambm conhecido por

    Knowledge Discovery in Texts, KDT) para identificar padres e conhecimentos para auxiliar

    nas decises.

    O conhecimento gerado pode ser avaliado para determinar se o mesmo relevante ou no

    para o usurio, ou seja, avaliar o desempenho do processo de minerao para a gerao do

    conhecimento. Existem vrias mtricas, sendo as principais relacionadas ao desempenho,

    acurcia, preciso e cobertura.

    Neste artigo iremos apresentar um estudo de caso realizado em uma organizao ABC. A

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    3/56

    mecanismos que tornem efetivas as atividades de auditoria. Auditoria a atividade que

    realiza a validao das informaes , verificao da obedincia s normas e recomendaes

    e avaliaes dos controles em busca dos resultados da ges to. Objetivando atender as

    necess idades da ABC, desenvolvemos uma aplicao que realiza a minerao de texto em

    qualquer campo descritivo de um sistema, a ferramenta TextMining.

    A aplicao permite determ inar se uma descrio ou no evidncia de irregularidade,

    tornando efetivo o trabalho do auditor na identificao de irregularidades. Para class ificar

    uma descrio, a ferramenta dispe de um algoritmo, Nave Bayes, de forma parametrizada,

    especificando um limiar mnimo para auxiliar no processo class ificatrio. importante

    destacar que existem trs mtodos para o Nave Bayes: Hbrido (utilizao da frequncia do

    termo da amostra com tf, term frequency, da sentena), Frequncia Inversa (tfidf, term

    frequency inverse document frequency, da amostra com tf da sentena) e Frequncia

    (frequncia da amostra com frequncia da sentena).

    Este trabalho introduziu um segundo algoritmo, Similaridade, na ferramenta citada e foram

    avaliadas as mtricas de qualidade e desempenho para as duas abordagens. A avaliao

    se deu por meio da coleta de mtricas de tempo mdio, acurcia, cobertura, medida F e

    preciso de cada algoritmo.

    Assim, este artigo objetiva comparar o desempenho e qualidade de dois algoritmos de

    minerao de texto aplicados a his tricos de contas pblicas custodiadas pela organizao

    ABC. A anlise comparativa determ inar o melhor algoritmo da ferramenta TextMining e,consequentemente, o conhecimento gerado por essa abordagem ser efetivo e relevante

    para os auditores na descoberta de irregularidades como a identificao de uma descrio

    de motivo de viagem para a qual no permitida o pagamento de dirias.

    Descoberta de Conhecimento em Bases de

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    4/56

    KDD (Knowledge Discovery in Databases) o processo no-trivial de identificar padres

    vlidos, novos, potencialmente teis em dados, ou seja, o processo de descoberta de

    conhecimento ou padres teis e desconhecidos em grandes massas de dados.

    O processo de KDD consiste de vrias etapas, as quais envolvem preparao dos dados,

    busca por padres, avaliao do conhecimento e refinamento, todos repetidos em mltiplas

    iteraes. Esse processo composto por cinco pass os bem definidos: seleo,

    pr-processamento, transformao, minerao de dados, anlise / ass imilao, conforme

    mostrado na Figura 1.

    abrir imagem em nova janela

    Figura 1.Passos que compem o processo de KDD.

    Na etapa seleo sero definidas as fontes de dados relevantes, ou seja, as bases de

    dados importantes para o problema em questo, o qual se deseja resolver. No

    pr-processamento, os dados sero tratados, pois como esses dados podem ser oriundos

    de diversas fontes, os mesmos podem conter divergncia de valores e outras

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    5/56

    estrutura compatvel com o algoritmo de minerao escolhido. J na etapa minerao de

    dados, objetivo do processo de KDD, escolhida e executada uma tcnica e algoritmo de

    minerao de acordo com o problema em questo, por exemplo, classificao, regresso,

    agrupamento e sumarizao. E, por fim, na etapa de anlise/assimilao, o conhecimento

    gerado ser avaliado se til ou no para a tomada de deciso.

    Como mostrado na Figura 1, o processo de KDD um processo iterativo e interativo, em

    que o usurio participa e realiza decises nas diversas etapas do processo, as quais podem

    tambm ser repetidas, dependendo do conhecimento gerado ou pela ausncia do mesmo.

    O processo de KDD pode ser aplicado em diversas reas, incluindo marketing, finanas,

    deteco de fraudes, manufaturas e telecomunicaes. Um exemplo clssico de utilizao

    de KDD o conhecimento descoberto nos dados da rede de supermercados Walmart. Foi

    descoberto que a maioria dos pais que iam comprar fraldas para seus filhos acabavam

    comprando cerveja. Em uma jogada de marketing, as fraldas foram colocadas prximas da

    cerveja, sendo que as batatas fritas es tavam entre elas . Consequentemente, houve um

    aumento das vendas dos trs produtos.

    Outro exemplo de utilizao do processo de KDD foi o uso do s istema ADVANCED SCOUT da

    IBM para ajudar os treinadores da NBA, no ano de 1996, a procurar e descobrir padres

    interessantes nos dados dos jogos da NBA. Com esse conhecimento obtido, os treinadores

    podiam avaliar a eficcia das decises de tticas e formular estratgias de jogo para jogos

    futuros. O sis tema foi distribudo para dezesseis das vinte e nove equipes da NBA, sendousado de forma efetiva por algumas equipes para a preparao de jogadas e processos

    analticos, como foi o caso do time Seattle Supersonics, o qual atingiu as finais da NBA.

    Minerao de Texto

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    6/56

    previamente desconhecimento, em bas es de dados deses truturadas, ou seja, extrao de

    conhecimento til para o usurio em bases textuais.

    O processo de minerao de texto dividido em quatro etapas bem definidas: seleo,

    pr-processamento, minerao e ass imilao, conforme mos trado na Figura 2.

    Figura 2.Processo de minerao de texto.

    Na seleo, os documentos relevantes devem ser escolhidos, os quais sero processados .

    No pr-process amento ocorrer a converso dos documentos em uma estrutura compatvel

    com o minerador, bem como ocorrer um tratamento especial do texto. Na minerao, o

    minerador ir detectar os padres com base no algoritmo escolhido. E por fim, na

    ass imilao, os usurios iro utilizar o conhecimento gerado para apoiar as suas decises.

    notrio a semelhana entre os processos de KDD e KDT, sendo que o KDT no possui a

    etapa de transformao. O fato da ausncia da etapa transformao, etapa no processo de

    KDD que converte os dados pr-processados para uma estrutura utilizada na etapa de

    minerao de dados, justificada pelo fato de que a etapa de pr-processamento no KDT,

    alm de realizar um tratamento no texto, permite definir uma estrutura compatvel com as

    entradas dos algoritmos de minerao.

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    7/56

    conflao, normalizao de sinnimos e indexao. Na etapa remoo de s topwords os

    termos com pouca ou nenhuma relevncia para o documento sero removidos. So palavras

    auxiliares ou conectivas, ou seja, no so discriminantes para o contedo do documento.

    So, em sua maioria, pronomes , preposies, artigos, numerais e conjunes . Para auxiliar

    na remoo das stopwords, geralmente, utiliza-se uma lista destas predefinida. Para facilitar

    o entendimento, na Figura 3 apresentado um exemplo de remoo de stopwords.

    Figura 3.Exemplo de remoo de StopWords

    .

    Na etapa seguinte, conflao, realiza-se uma normalizao morfolgica, ou seja, realiza-se

    uma combinao das palavras que so variantes morfolgicas em uma nica forma de

    representao. Um dos procedimentos mais conhecidos de conflao a radicalizao

    (Stemming). Nela as palavras so reduzidas ao seu radical, ou seja, as palavras variantes

    morfologicamente sero combinadas em uma nica representao, o radical. A radicalizao

    pode ser efetuada com o auxlio de algoritmos de radicalizao, sendo os mais utilizados o

    algoritmo de Porter (Porter Stemming Algorithm) e algoritmo de Orengo (Stemmer

    Portuguese ou RLSP). AFigura 4exemplifica o processo de radicalizao de um texto

    utilizando o algoritmo de Porter.

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    8/56

    Figura 4.Exemplo de radicalizao utilizando o algoritmo de Porter.

    Existem dois problemas no processo de radicalizao:

    Overstemming: quando a stringremovida no um sufixo, mas sim parte do radical da

    palavra. Isso possibilita a combinao de palavras no relacionadas;

    Understemming:quando parte do sufixo no removido, ocasionando numa falha de

    conflao de palavras relacionadas .

    Aps a conflao, na etapa de normalizao de sinnimos, os termos que possuem

    significados similares sero agrupados em um nico termo, por exemplo, as palavras rudo,

    tumulto e barulho sero substitudas ou representadas pelo termo barulho.

    Na normalizao de sinnimos, formado um vocabulrio controlado que se refere

    utilizao de termos adequados para representar um documento, sendo esses termos

    pr-definidos e especficos a um determinado assunto de uma rea. Isso facilita a busca,

    pois os termos so comumente utilizados pelos usurios da rea.

    E, por fim, na etapa indexao atribui-se uma pontuao para cada termo, garantindo uma

    nica instncia do termo no documento. No processo de atribuio de pesos devem ser

    considerados dois pontos: (a) quanto mais vezes um termo aparece no documento, mais

    relevante ele para o documento; (b) quanto mais vezes um termo aparece na coleo de

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    9/56

    Existem vrias formas de determinar o peso de um termo (pontuao). Os principais

    mtodos so:

    Booleano ou Binrio:o peso para um determinado termo ser 1 se o mesmo aparece no

    documento. Caso contrrio, o peso ser 0. Indica a presena ou ausncia do termo no

    documento;

    Frequncia do Termo (term frequencyou tf): o peso a frequncia do termo no

    documento. Consiste da razo entre a quantidade de vezes que o termo apareceu no

    documento e a quantidade total de termos contidos no documento, como mostrado na

    Figura 5, onde ni a quantidade de ocorrncias do termo i no documento e

    a quantidade total de termos no documento;

    Figura 5.Frmula para calcular a frequncia do termo.

    Frequncia do Documento (Document Frequencyou df): o nmero de documentos que

    possui um determinado termo;

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    10/56

    importncia de um termo em um conjunto de documentos. Quanto maior o idf, mais

    representativo o termo para o documento. Consiste no logaritmo da razo entre o nmero

    total de documentos e a frequncia do documento, conforme demonstrado na Figura 6,

    onde

    a quantidade total de documentos e df(termo i)a frequncia do documento para o termo i;

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    11/56

    Figura 6.Frmula para calcular a frequncia inversa do termo.

    tfidf(Term Frequency Inverse Document Frequency):o peso para o termo associado

    na proporo da frequncia do termo no documento e na proporo inversa do nmero de

    documentos na coleo em que o termo aparece pelo menos uma vez, ou seja, combina o tf

    com idf, como mostrado na Figura 7, onde tf(termo i)e idf(termo i)so, respectivamente, o tf

    e idfdo termo i. Obtm-se, assim, o ndice de maior representatividade do termo.

    Figura 7.Frmula para calcular o tfidfdo termo.

    As subetapas do pr-processamento permitem uma reduo da dimens ionalidade do texto,

    pois um documento pode ser representado por um vetor de termos . Como um termo

    representa uma dimenso do texto, quanto maior a dimensionalidade do texto, mais

    complexa ser a anlise feita pelo algoritmo de minerao.

    Assim como no KDD, o processo de minerao de texto possui diversas aplicaes, comoextrao de palavras-chave, determinao de s istemas representacionais preferenciais,

    class ificao de documentos por categoria, filtro de documentos, entre outras.

    Similaridade de documentos

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    12/56

    considerado uma coordenada dimensional e os documentos podem ser colocados num

    espao euclidiano de n dimenses onde n o nmero de termos . A posio do documento

    em cada dimenso dada pelo peso (pontuao calculada na fase de indexao). A

    distncia entre um documento e outro o grau de sim ilaridade. Documentos que possuem

    os mesmos termos acabam sendo colocados numa mesma regio no espao euclidiano,

    ou seja, so similares.

    A similaridade entre dois documentos tambm pode ser obtida pelos termos que ocorrem

    em ambos, ou seja, pelos termos compartilhados. Os documentos mais sim ilares so os

    que possuem mais termos em comum. No clculo da similaridade, so ignorados os

    termos que ocorrem em um documento e que no ocorrem no outro. Em outras palavras, s

    interessam os termos que ocorrem nos dois, isto , a ocorrncia positiva dess e em ambos.

    Similaridade considerada o corao do mtodo de class ificao K-Nearest-Neighbor. A

    diferena entre ambos que no K-Nearest-Neighbor consideram-se os k documentos mais

    similares. A depender do valor de k, podem ser considerados os documentos com score

    inferior aos de maior score para determinar a classe do novo documento.

    Similaridade considera apenas os documentos com maior score e a classe do novo

    documento ser a class e que mais ocorre nesses. importante frisar que para o clculo do

    grau de similaridade (score), devem ser apenas considerados os termos em comum.

    Existem vrias formas de calcular o grau de similaridade, isto , as funes de s imilaridade.

    Depois de calcular os scores, podemos criar uma lis ta em forma de ranking, em que os

    documentos mais sim ilares esto no topo da lis ta. As principais funes de sim ilaridade

    so:

    Contagem de palavras: considerada a funo mais s imples de mensurar a sim ilaridade,

    pois se baseia apenas na contagem de termos que ocorrem em ambos documentos, isto ,

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    13/56

    Contagem de palavras com bnus:de forma anloga contagem de palavras, sero

    contabilizados os termos em comum aos vetores com apenas um diferencial: para cada

    termo analisado, se esse termo ocorre em ambos documentos, ser adicionado um bnus

    ao scoreconforme visto na Figura 8, onde K a quantidade total de termos do novo

    documento, w(j)a pontuao para o termo j, D(i)o documento i da coleo e a expresso

    1/df(j)o bnus para o termo j. O bnus considerado uma variao do idf. Se o termo ocorre

    em m uitos documentos, o valor do bnus baixo. J se o termo aparece em poucos, o

    bnus alto;

    Figura 8.Frmula para a contagem de palavras com bnus.

    Cosine similarity:funo de similaridade mais utilizada na rea de recuperao de

    informao (RI) para comparar documentos. Representa o coss eno do ngulo formado por

    dois vetores, como mos trado naFigura 9, onde d1e d2so os documentos cuja

    sim ilaridade ser calculada,

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    14/56

    o peso do termo j em d1,

    o peso do termo j em d2,

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    15/56

    a normalizao de d2. Quanto mais prximo de zero for o valor do cosseno, menos sim ilares

    so os documentos. J quando for mais prximo de um, mais s imilares eles so;

    Figura 9.Frmula para a cosine similarity.

    Distncia euclidiana: representa a menor distncia entre dois vetores de termos no espao

    euclidiano, como visto na Figura 10, em que d1e d2so os documentos, Ko nmero de

    termos,

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    16/56

    o peso do termo j em d1e

    o peso do termo j em d2;

    Figura 10.Frmula para a distncia euclidiana.

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    17/56

    Corresponde distncia a ser percorrida para se chegar de um ponto a outro, em que o

    caminho percorrido em quadras, conforme mostrado naFigura 11, onde d1e d2so os

    documentos, Ko nmero de termos,

    o peso do termo j em d1e

    o peso do termo j em d2;

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    18/56

    Figura 11.Frmula para a distncia manhattan.

    Produto escalar:corresponde ao somatrio do produto dos pesos de um termo em dois

    documentos, como visto na Figura 12, onde d1e d2so os documentos, Ko nmero de

    termos,

    o peso do termo j em d1e

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    19/56

    o peso do termo j em d2.

    Figura 12.Frmula para o produto escalar.

    Para facilitar o entendimento sobre s imilaridade, a Figura 13demonstra o clculo da

    similaridade entre um novo documento e todos os documentos do dicionrio, utilizando a

    funo de similaridade contagem de palavras. Como podemos ver, foi calculado o score

    entre o novo documento e todos do dicionrio por meio da contagem de palavras cuja

    ocorrncia em ambos foi positiva, isto , a contabilizao delas que ocorre em ambos,

    ignorando as que ocorrem apenas em um e as ausentes em ambos. Existem dois

    documentos que possuem o maior score, grau de sim ilaridade igual a 2. Como os dois

    documentos com maior score possuem classe igual a um (ltima coluna do dicionrio), a

    classe do novo documento tambm ser um.

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    20/56

    Figura 13.Clculo de similaridade dos documentos.

    Avaliao de desempenho e qualidade

    Existem diversas formas de se avaliar a capacidade de predio de um class ificador para

    determinar a classe de vrios regis tros. A matriz de confuso a forma mais s imples de

    analisar o desempenho e qualidade de um class ificador em reconhecer registros de

    diferentes classes . Ela um recurso que permite demons trar o desempenho de um

    class ificador, ou seja, a frequncia com que os registros de classe X foram corretamente

    class ificados como classe X ou, at mes mo, class ificados erroneamente como outras

    classes.

    Para n classes, a matriz de confuso uma tabela de dimenso n x n. Para cadaclass ificao possvel existe uma linha e coluna correspondente, ou seja, os valores das

    class ificaes sero distribudos na matriz de confuso de acordo com os resultados, assim

    gerando a matriz de confuso para as classificaes realizadas. As linhas correspondem s

    classificaes corretas e as colunas representam as classificaes realizadas pelo

    classificador. Por exemplo, naTabela 1, o valor V1,1 corresponde ao nmero de regis tros de

    classe 1 que foram classificados com classe 1 pelo class ificador.

    Classe Atual

    Classificado como

    Classe 1 Classe 2 ... Classe n

    Classe 1 V1,1 V1,2 ... V1,n

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    21/56

    ... ... ... ... ...

    Classe n Vn,1 Vn,2 ... Vn,n

    Tabela 1.Matriz de confuso para nclasses.

    Quando existem apenas duas classes, uma considerada como positive e a outra como

    negative. Os valores da matriz de confuso so referenciados como truee false positivese

    truee false negatives, como visto na Tabela 2.

    Actual class

    Predicted class

    Positiv e Negative

    Positive True Posi ti ve (TP) False Negati ve (FN)

    Negative False Posi ti ve (FP) True Negati ve (TN)

    Tabela 2.Matriz de confuso para duas classes.

    Assim, exis tem quatro s ituaes:

    True Positive (TP): o nmero de instncias de classepositiveque foram classificadas

    comopositive;

    False Positive (FP): o nmero de instncias de classe negativeque foram classificadas

    comopositive;

    False Negative (FN): o nmero de instncias de classepositiveque foram classificadas

    como negative;

    True Negative (TN): o nmero de instncias de classe negativeque foram classificadas

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    22/56

    A avaliao de um classificador se dar pela anlise dos valores nela contidos, bem como

    na verificao do somatrio dos elementos das diagonais principal e secundria. Um bom

    classificador aquele que possui a soma da diagonal principal maior que a da secundria.

    Um classificador considerado ideal quando a soma da diagonal secundria igual a zero,

    contudo esse ser considerado um pssimo classificador se possuir o somatrio da

    diagonal principal igual a zero.

    De posse dos valores da matriz de confuso, podem ser utilizadas as mtricas de avaliao

    de desempenho e qualidade de um class ificador. As principais mtricas de desempenho e

    qualidade so:

    Acurcia (accuracy): o percentual de instncias class ificadas corretamente;

    Preciso (precision): o percentual de instncias classificadas comopositiveque so

    realmentepositive;

    Cobertura ou Revocao (recall): o percentual de ins tnciaspositiveque foramclassificadas corretamente comopositive;

    Medida F (F1 Score): a medida que combina a preciso e revocao (cobertura), ou seja,

    a mdia harmnica da preciso e revocao.

    Ferramenta TextMining

    O TextMining permite determinar se informaes so ou no evidncias de irregularidades,

    ou seja, se uma descrio est ou no de acordo com a lei e com o que se espera dos

    jurisdicionados . Desta forma, a ferramenta tem como objetivo tornar efetivo o trabalho do

    auditor na identificao de irregularidades. Suas principais funcionalidades so o

    gerenciamento de perfis, de dicionrios e de class ificaes. Considera-se gerenciamento o

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    23/56

    informaes.

    Iniciando pelo gerenciamento de perfis, este um mecanismo que auxilia nas consultas por

    meio dos filtros anexados aos perfis. Conforme mostrado na Figura 14, por meio deles

    que o usurio poder determinar dinamicamente os campos que deseja filtrar nas telas, nas

    quais poder escolher o perfil. Na TextMining, est disponvel para o usurio as

    funcionalidades de cadastro, consulta e excluso.

    abrir imagem em nova janela

    Figura 14.Tela Perfil (Ferramenta TextMining)

    A criao de um perfil poder ocorrer s uma vez e pode ser compartilhado por todos os

    usurios. Como o custo da operao muito baixo, se houver a necess idade de alterao

    dele, basta exclu-lo e criar outro novamente. Esta caracterstica torna a aplicao flexvel e

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    24/56

    campos contidos na base de dados.

    Dados es tes entendimentos sobre perfis, outra funcionalidade importantss ima o

    gerenciamento de dicionrios, que so os modelos de conhecimento que servem de base

    para tornar possvel a descoberta de evidncias de fraudes semelhantes em toda base de

    dados ou em unidades e cidades especficas. Um dicionrio criado por meio da seleo

    de amostras que so dados s elecionados pelo auditor como Evidncia (possvel evidncia

    de irregularidade) e Em Conformidade (descrio que est de acordo com a lei), bem como

    o auditor pode informar amostras avulsas, as quais so especificadas manualmente e

    class ificadas como Evidncia ou Em Conformidade, como mostrado na Figura 15.

    A seleo de amostras para criao do dicionrio deve ser balanceada, para cada evidncia

    informada, dever existir um ou mais registros que s o exemplos de conformidade. Na

    ferramenta esto disponveis para o usurio as funcionalidades de cadastro, consulta,

    edio, excluso e desbloqueio de dicionrios. importante ressaltar que o dicionrio criado

    poder ser utilizado por todos os auditores, permitindo maior eficincia ao processo de

    auditoria.

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    25/56

    abrir imagem em nova janela

    Figura 15.Tela Dicionrio (Ferramenta TextMining).

    A partir do perfil selecionado, dos filtros anexados a esse e do dicionrio escolhido, o auditor

    poder escolher os dados a serem class ificados pela ferramenta, ou seja, o local em que

    sero buscadas novas evidncias semelhantes s do dicionrio criado.

    A aplicao dispe de dois algoritmos de minerao de texto, Nave Bayes e Similaridade,

    para classificar os regis tros, como mostrado na Figura 16. Nave Bayes um algoritmo de

    anlise estatstica e foi implementado de forma parametrizada, especificando um limiar

    mnimo para auxiliar na classificao dos registros. Para realizar a class ificao de um

    registro, o algoritmo calcula a probabilidade desse registro ser ou no uma evidncia de

    irregularidade. Este algoritmo dispe de trs formas para realizar o clculo da probabilidade:

    Hbrido, Frequncia Inversa e Frequncia. Na primeira abordagem, considerada a

    frequncia do termo na amostra e o tf desse na sentena. J na segunda levado em conta

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    26/56

    frequncias do termo na am ostra e na sentena.

    J o algoritmo de s imilaridade, tambm de anlise estatstica, calcula a similaridade entre

    uma sentena e um conjunto de amostras, por meio dos termos que ambos possuem em

    comum para determinar se a sentena ou no uma evidncia.

    Na ferramenta, esto disponveis para o usurio as funcionalidades de cadastro, consulta,

    excluso e visualizao de classificaes.

    abrir imagem em nova janela

    Figura 16.Telas Classificao sobrepostas mos trando os algoritmos disponveis

    (Ferramenta TextMining).

    Aps a anlis e da aplicao foram efetuadas alteraes no cdigo objetivando melhoria no

    uso da ferramenta, incluso de novas funcionalidades, preveno e correo de problemas .

    A seguir temos as principais alteraes realizadas:

    Modelo de Dados:

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    27/56

    DIM_CLASSIFICACAO.

    Mdulo Dicionrio:

    o A tela de criao de dicionrios foi alterada para permitir a incluso de amostras avulsas;

    o A tela de consulta de dicionrios foi alterada para que os botes Editar e Excluir

    ficassem desabilitados quando no existissem dicionrios cadastrados;

    o A tela Dicionrios Bloqueados foi alterada para que o boto Liberar ficasse desabilitado

    quando no existissem dicionrios bloqueados.

    Mdulo Classificao:

    o Criao da classe sim ilaridade, algoritmo de classificao;

    o Criao da classe abstrata Class ificador, superclasse das classes Similaridade e

    NaiveBayes. A classe Classificador possui um mtodo esttico ClassificadorFactory que

    retorna um objeto do tipo Class ificador, o qual pode ser uma ins tncia das classes

    NaiveBayes ou Sim ilaridade;

    o Na tela Classificao, o algoritmo Similaridade foi includo nas opes de mtodos de

    classificao;

    o Na tela Classificao, foram adicionados os percentuais 51 e 55 ao componente Limiar

    Classificao %;

    o A tela Classificao foi alterada para os componentes Dicionrios, Perfil, Limiar

    Classificao %, Mtodo, Medidas, Filtros, Class ificar e Descrio da Classificao

    serem desabilitados quando um processo class ificatrio fosse iniciado;

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    28/56

    ficassem desabilitados quando no existissem classificaes cadastradas;

    o As alteraes da tela Dados da Classificao foram:

    Criao do componente Tempo de Classificao para visualizar o tempo da class ificao

    realizada;

    Atribuio do valor --- para o componente Limiar de Classificao % quando o algoritmo

    de minerao utilizado no for o Nave Bayes, porque este o nico que utiliza limiar;

    Parametrizao da tabela Evidncias, em que o label e os valores da coluna do

    Limiar/Score sero formatados de acordo com o algoritmo utilizado na classificao. Por

    exemplo, caso o algoritmo seja Nave Bayes, o label da coluna ser Limiar e os valores da

    coluna estaro formatados em porcentagem, mas se for escolhido Similaridade, o label da

    coluna ser Score e os valores da coluna estaro formatados em nmeros com casas

    decimais.

    Implementamos uma adaptao do algoritmo de similaridade de documentos. O mtodoconvencional de similaridade realiza um clculo de s imilaridade entre todos os documentos

    do dicionrio e o documento a ser classificado, apenas levando em conta os termos que

    ocorrem em ambos.

    Para class ificar o novo documento, o algoritmo convencional apenas considera as

    ocorrncias do maior score, ignorando todos os outros. Nessa abordagem, existe a

    possibilidade de no class ificar um novo documento quando a quantidade de documentos

    com maior score para diferentes classes , a mesma, como mostrado naFigura 17.

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    29/56

    Figura 17.Exemplo de quatro situaes de classificao do algoritmo convencional de

    similaridade.

    Visando performance e melhoria do processo de classificao, foi desenvolvida uma

    adaptao do algoritmo de similaridade. As adaptaes efetuadas foram:

    Ser realizada uma poda, onde no sero analisados todos os documentos (amostras) do

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    30/56

    a ser classificado para determinar o grau de similaridade;

    Sero utilizados os outros scoresquando no for possvel class ificar com o maior score.

    O score para uma determinada amostra (documento do dicionrio) pode ser obtido atravs

    do somatrio da multiplicao do tfidfdo termo da amostra com o tfda sentena (novo

    documento) para todos os termos comuns entre a amostra e a sentena, como pode ser

    visto na Figura 18, onde k o nmero de termos que a amostra e a sentena possuem em

    comum.

    Figura 18.Frmula para o clculo do scoreutilizado no algoritmo implementado.

    Para facilitar o entendimento do algoritmo implementado, apresentado o seu passo apasso a seguir.

    Entrada:

    sc, sentena a ser classificada como Evidncia ou Em Conformidade

    dic, dicionrio utilizado para classificar a sentena

    Sada:

    result, resultado da classificao da sentena, ou seja, objeto ResultadoGenerico contendo a

    classe e o score da sentena class ificada

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    31/56

    2. Para cada amostra que contenha pelo menos um termo de sc, calcular o scorepara cada

    amostra, criar um objeto ResultadoGenerico para cada amostra analisada, contendo nesse

    objeto a classe da amostra e o scorecalculado e, por fim, armazenar o objeto no vetor de

    ResultadoGenerico.

    3. Ordenar o vetor de ResultadoGenerico em ordem crescente pelo score.

    4. Seo vetor es tiver vazio Ento

    Retorneum objeto ResultadoGenerico com classe igual a falso e scoreigual a zero.

    Seno

    5. Seo vetor possuir apenas um elemento Ento

    Retorneo nico objeto ResultadoGenerico dentro do vetor.

    Seno

    6. Sedentre os objetos ResultadoGenerico no vetor existe apenas uma ocorrncia de um

    objeto com o maior score Ento

    Retorneo objeto ResultadoGenerico com maior score.

    Seno

    7. Para todas as ocorrncias dos objetos ResultadoGenerico com maior score, realizar a

    contagem de objetos que possuem class e igual a falso (Em Conformidade) e tambm os

    que possuem classe igual a verdadeiro (Evidncia).

    8. Sea quantidade de verdadeiro for maior que a de falso Ento

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    32/56

    score.

    Seno

    9. Sea quantidade de falso for maior que a de verdadeiro Ento

    Retorneum objeto ResultadoGenerico com classe igual a falso e scoreigual ao maior score.

    Seno

    10. Enquanto no for poss vel classificar a sentena (quantidade de verdadeiros e falsos

    forem iguais) e nem todos os objetos do vetor foram analisados, realizar os passos 6 a 9,considerando que o novo maior scoreser o scoredo objeto ResultadoGenerico que

    antecede a primeira ocorrncia do objeto que possui o atual maior score.

    11. Seno foi possvel class ificar analisando todos os elementos do vetor Ento

    Retorneum objeto ResultadoGenerico com classe igual a falso e scoreigual a zero.

    Estudo de caso

    A realizao do es tudo de caso teve por objetivo principal a validao dos resultados

    emitidos pela ferramenta TextMining para deteco de irregularidades nos pagamentos de

    dirias contidos nos histricos de contas pblicas sob custdia da organizao ABC. Para

    atingir este objetivo, necessria a efetivao dos seguintes passos:

    Selecionar os participantes e objetos do estudo de caso;

    Definir o dicionrio a s er utilizado;

    Executar o processo classificatrio nas amos tras dos participantes envolvidos para cada

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    33/56

    Verificar e validar os resultados obtidos por meio das mtricas de Tempo Mdio de

    Execuo, Acurcia, Preciso, Cobertura e Medida F;

    Realizar alteraes na ferramenta, se necessrios.

    Primeiramente foram selecionados os participantes e objetos, em seguida, a definio do

    dicionrio utilizado, a determinao das mtricas para a avaliao de desempenho e

    qualidade dos algoritmos e, por fim, foi realizada a execuo do es tudo.

    Para a seleo dos participantes, foi necessrio analisar dois critrios: os participantes

    devem ser unidades gestoras cadastradas e que possuam uma quantidade considervel de

    registros cadas trados. De acordo com o DW cedido, existem 481 unidades gestoras

    cadastradas, sendo assim, sero escolhidas, aleatoriamente, trs unidades para a

    realizao do estudo. Por questo de sigilo das informaes, os nomes das unidades

    gestoras no sero revelados.

    As unidades escolhidas, com a quantidade de registros especificados entre parnteses,foram: Unidade A (8872), Unidade B (625) e Unidade C (1855). importante ressaltar que

    para as unidades A e C, tambm foram escolhidas dentro da quantidade de registros,

    aleatoriamente, amostras de 500 regis tros para o estudo. fundamental frisar que a base de

    treinamento ser constituda pela Unidade A, j a base de teste ser formada pelas

    unidades B e C.

    Aps a escolha das unidades, fundamental determinar o atributo na tabela de fato a ser

    minerado, ou seja, o campo descritivo. De acordo com a Figura 19, existem cinco campos

    descritivos: IdDw_Fato_Diaria, Matricula_Funcionario, Destino_Viagem, Motivo_Viagem e

    Numero_Empenho. Dentre estes, para detectar irregularidades no pagamento de dirias, o

    atributo mais significativo Motivo_Viagem, porque o mesmo representa a justificativa da

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    34/56

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    35/56

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    36/56

    Diria uma espcie de auxlio financeiro ou ajuda de custo para um colaborador prestar

    algum servio fora da localidade do rgo ao qual es teja vinculado. Em outras palavras, um

    auxlio recebido pelo colaborador com o intuito de custear seus gastos para a realizao de

    servio fora do local de trabalho. A concesso de dirias diversificada, pois abrange gastos

    referentes capacitao, viagens para reunies com superiores, entre outras.

    Diante do exposto, proibida a concesso de dirias para fins que no s ejam relacionados

    prestao de servio. Existem inmeras justificativas consideradas evidncias de

    irregularidades para concesso de dirias como realizao de uma viagem particular. Ass im,

    para a definio do dicionrio a ser utilizado neste estudo, optou-se em restringir esse

    conjunto para evidncias relacionadas ao uso de dirias para tratamento de sade.

    O modelo de conhecimento (dicionrio a ser utilizado) possuir, no total, 60 sentenas

    constitudas de amostras da prpria base e de amostras avulsas para class ificar registros.

    Para as amos tras da prpria base foram escolhidas, aleatoriamente, 40 sentenas da

    Unidade A, sendo 20 classificadas como Evidncia e as outras 20 como Em

    Conformidade.

    Para as amostras avulsas, foram definidas 20 sentenas, sendo 10 class ificadas como

    Evidncia e as outras 10 como Em Conformidade. As sentenas avulsas class ificadas

    como Em Conformidade so s imilares s da prpria base, as quais foram formuladas por

    meio de uma anlise das amostras dos dados das unidades gestoras envolvidas.

    J das sentenas avulsas classificadas como Evidncia, apenas duas so s imilares s da

    prpria base, por meio da anlise da amostra dos dados da Unidade A. Para formular as

    sentenas avulsas restantes, com o intuito de obter termos da Medicina sobre

    procedimentos, tratamentos e cirurgias mdicas, profissionais da sade, doenas e

    exames, foram realizadas algumas pesquisas sobre Medicina.

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    37/56

    apenas os termos mais comuns e relevantes, a exemplo de doenas mais comuns e

    exames de rotinas mais solicitados.

    Nas Tabelas 3 e 4so apresentadas as amostras que constituem o modelo de

    conhecimento.

    AMOSTRAS DA PRPRIA BASE

    Sentena Em Conformidade Sentena Ev idncia

    A DISPOSIO DA JUSTIA ELEITORALACOMPANHAMENTO DE TRATAMENTO DE

    SADE DE SUA FILHA

    A SERVIO DA ASSEMBLEIAACOMPANHANTE DA SRA DEP. CELIA

    FRANCO P/TRATAMENTO MEDICO

    A SERVIO DESTE PODERACOMPANHAR A DEPUTADA PARA

    TRATAMENTO DE SADE

    A TRABALHOACOMPANHAR A FILHA EM TRATAMENTO

    MDICO

    ACOMPANHAR O SR.PRIMEIRO SECRETARIO ATENDER PROCEDIMENTOS MDICOS

    ACOMPANHAR PROCESSOS E REUNIES

    PARLAMENTARESCONSULTA MEDICA

    ASSUNTO DE INTERESSE DESTE PODER DESPESAS MDICA

    AUTORIZADA PELO PRIMEIRO SECRETRIOFAZER EXAMES PARA LIBERAO DE

    TRANSPLANTE DE RINS

    ENCONTRO DO PARTIDO PROGRESSISTAPARA A FUNCIONARIA A T RATAMENTO DE

    SADE

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    38/56

    CLNICO

    INTEGRAR COMITIVA DO GOVERNO DO

    ESTADOREVISO MEDICA

    PARA O SR. DEPUTADO PARTICIPAR DE

    REUNIO DO PARTIDOSUBMETER-SE A CONSULTA MDICA

    PARTICIPAR DE REUNIO DE CUNHO

    POLTICO PARTIDRIOSUBMETER-SE A EXAMES MDICOS

    PARTICIPAR DA CONVENO NACIONAL DO

    DEM SUBMETER-SE A T RATAMENTO MDICO

    PARTICIPAR DA POSSE DO PRESIDENTE DA

    PETROBRAS DISTRIBUIDORATRATAMENTO MEDICO

    PARTICIPAR DE ATO PUBLICO CONTRA

    REFORMA SINDICALTRATAMENTO DE SADE

    PARTICIPAR DO I CONGRESSO

    INTERMUNICIPAL DE SADETRATAMENTO DE SADE

    REUNIO DE CUNHO POLITICO PARTIDRIO TRATAMENTO DE SADE

    TRATAR DE ASSUNTO DE INTERESSE DESTE

    PODERTRATAMENTO DE SADE

    VISITAR A SUPERINTENDNCIA DA CAIXA

    ECONMICA FEDERALTRATAMENTO DE SADE

    Tabela 3.Amos tras da base.

    AMOSTRAS AVULSAS

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    39/56

    Complementao de di ria para funcionrio

    realizar trabalho.

    25-HIDROXIVITAMINA D OU 25(OH)D; ACIDO

    RICO NO SANGUE; ALBUMINA;

    ALTERAES DO FERRO E DE SUA

    CAPACIDADE DE FIXAO; AUDIOMETRIA

    VON BEKESY; BILIRRUBINA NA URINA;

    BILIRRUBINA NO SANGUE (DIRETA, INDIRETA

    E TOTAL). PROVAS DE FUNO HEPTICA

    (BILIRRUBINAS, ELETROFORESE DE

    PROTENAS. FA, TGO, TGP E GAMA-PGT);

    CLCIO NO SANGUE; CARDIOLIPINA,

    AUTO-ANTICORPOS IGG; ...

    Conduzir pacientes para hospital

    ABLATIVA; ABORTO; ACUPUNTURA;

    ALOPATIA; AMPUTAO; ANESTESIA;

    ANTI-SEPSIA; APENDICECTOMIA; ASSEPSIA;

    AUSCULTAO; AUTPSIA; BARITRICA;

    BIPSIA; CABEA; CARDACA;

    CAUTERIZAO; CHECK-UP; CIRURGIA;

    COLUNA; COSTURA; DRENO; ...

    Pagamento de diria para servidor ou

    funcionrio reali zar servios fora desta unidade

    AMBULATRIO; ASSISTNCIA MDICA;

    ATENDIMENTO MDICO; CARDIOGRAMA;

    CLNICA; CONSULTA MDICA; CONSULTRIO;

    DIAGNSTICO MDICO; DESPESA MDICA;

    ELETROENCEFALOGRAMA; EMERGNCIA;

    EXAMES MDICOS; HISTRICO DE SADE;

    HOSPITAL; LAUDO; PERCIA MDICA;

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    40/56

    PRONTO-SOCORRO; QUADRO CLNICO;

    RADIOGRAFIA; REVISO MDICA; VACINA

    Viagem para real izao de servio desta

    unidade

    REALIZAO DE EXAMES MDICOS DA

    ESPOSA E FILHOS.

    Viagem para tratar de assuntos de sade pbl ica

    e obter recursos financeiros.REALIZAR PROCEDIMENTO CIRRGICO.

    Tabela 4.Amostras avulsas.

    Medidas de desem penho e qualidade para avaliao dos algoritmos

    Para analisar o desempenho e qualidade dos algoritmos de minerao de texto em questo

    ser utilizado o recurso matriz de confuso, bem como as mtricas de acurcia, cobertura,

    preciso e medida F e tempo de execuo.

    De acordo com o contexto deste trabalho, devemos considerar quatro situaes:

    NSCCE:nmero de sentenas class ificadas corretamente como Evidncia (True Positive).

    NSCCC:nmero de sentenas class ificadas corretamente como Em Conformidade (True

    Negative).

    NSCEE:nmero de sentenas class ificadas erroneamente como Evidncia (False

    Positive).

    NSCEC:nmero de sentenas class ificadas erroneamente como Em Conformidade (False

    Negative).

    A matriz de confuso que contempla essas situaes pode ser vis ta na Tabela 5.

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    41/56

    ass ca o orre a

    Ev idncia Em Conformidade

    Evidncia NSCCE NSCEC

    Em Conformidade NSCEE NSCCC

    Tabela 5.Matriz de confuso utilizada.

    Com a matriz de confuso criada, podemos definir as mtricas a serem utilizadas:

    Acurcia o percentual de sentenas classificadas corretamente pelo classificador;

    Cobertura o percentual de evidncias que foram classificadas corretamente como

    Evidncia;

    Preciso o percentual de sentenas classificadas como Evidncia que so realmente

    evidncias;

    Medida F, tambm conhecida como Mdia Harmnica da Preciso e Cobertura, a medidaque combina a preciso e cobertura;

    Tempo de Execuo o tempo de durao de uma classificao, compreendida pela

    diferena entre o tempo de trmino e o tempo de incio da class ificao.

    A etapa de execuo consis tir na realizao do processo classificatrio nas amostras dos

    participantes envolvidos para cada algoritmo de minerao de texto, utilizando o modelo de

    conhecimento definido. Foram efetuadas trs class ificaes nas amostras dos participantes

    envolvidos para cada algoritmo. necessrio frisar que para cada execuo do Nave Bayes

    foi utilizado cada mtodo desse algoritmo (Hbrido, Frequncia Inversa e Frequncia),

    bem como o limiar de 51 % foi utilizado em todas as execues do Nave Bayes. Aps o

    trmino do processo class ificatrio, as matrizes de confuso foram geradas a partir dos

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    42/56

    para cada algoritmo.

    Resultados

    Aps a realizao do es tudo de caso, foram coletados os valores das matrizes de confuso

    de cada execuo para cada algoritmo e unidade escolhida. Com os valores das matrizes de

    confuso foi possvel coletar as mtricas para avaliar todas as abordagens. Vale ressaltar

    que para um mesmo algoritmo e unidade ges tora, a matriz de confuso foi a mesma para as

    trs execues (processos classificatrios). Nas Tabelas 6e 7 apresentado um resumo

    dos valores das matrizes de confuso por algoritmo e unidade.

    Unidades

    Valores da Matriz de Confuso Diagonal Principal

    NSCCE (TP) NSCCC (TN)

    N.B.

    F.I.

    N.B.

    H.

    N.B.

    F.SIM.

    N.B.

    F.I.

    N.B.

    H.

    N.B.

    F.SIM.

    Unidade A 136 137 137 137 363 363 363 362

    Unidade B 0 1 1 0 613 603 603 588

    Unidade C 3 3 3 2 457 449 449 430

    Tabela 6.Valores da matriz de confuso por algoritmo e unidade gestora Diagonal

    Principal.

    Unidades

    Valores da Matriz de Confuso Diagonal Secundria

    NSCEE (FP) NSCEC (FN)

    N.B. N.B. N.B.SIM.

    N.B. N.B. N.B.SIM.

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    43/56

    Unidade A 0 0 0 1 1 0 0 0

    Unidade B 11 21 21 36 1 0 0 1

    Unidade C 40 48 48 67 0 0 0 1

    Tabela 7. Valores da matriz de confuso por algoritmo e unidade gestora Diagonal

    Secundria.

    Inicialmente foram analisados os resultados das trs classificaes realizadas para cada

    algoritmo na Unidade A. Conforme visto nas Tabelas 8 a 10, os algoritmos Nave Bayes

    Hbrido (N.B.H.) e Nave Bayes Frequncia (N.B.F.) so as melhores abordagens para essa

    unidade, pois possuem as melhores porcentagens de acurcia (100%), preciso (100%),

    cobertura (100%) e medida F (100%). Similaridade (SIM) obteve um melhor desempenho do

    que os demais na mtrica tempo de execuo. Comparando similaridade e Nave Bayes

    Frequncia Inversa (N.B.F.I.), sim ilaridade supera esse nas mtricas de cobertura, medida F

    e tempo de execuo, mas ambos possuem a mesma porcentagem de acurcia.

    importante verificar que o algoritmo similaridade possui preciso inferior em relao s

    demais abordagens.

    Execues

    Mtricas de Desempenho e Qualidade

    Acurcia Preciso

    N.B.

    F.I.

    N.B.

    H.

    N.B.

    F.SIM. N.B.

    F.I.

    N.B.

    H.

    N.B.

    F.SIM.

    1 Exec.99,80

    %100 % 100 %

    99,80

    %100 % 100 % 100 %

    99,28

    %

    2 Exec.99,80

    100 % 100 %99,80

    100 % 100 % 100 %99,28

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    44/56

    3 Exec.99,80

    %100 % 100 %

    99,80

    %100 % 100 % 100 %

    99,28

    %

    Mdia99,80

    %100 % 100 %

    99,80

    %100 % 100 % 100 %

    99,28

    %

    Tabela 8.Comparativo das mtricas acurcia e preciso para cada algoritmo na Unidade A.

    Execues

    Mtricas de Desempenho e Qualidade

    Cobertura Medida F

    N.B.

    F.I.

    N.B.

    H.

    N.B.

    F.SIM.

    N.B.

    F.I.

    N.B.

    H.

    N.B.

    F.SIM.

    1 Exec.99,27

    %100 % 100 % 100 %

    99,63

    %100 % 100 %

    99,64

    %

    2 Exec.

    99,27

    %100 % 100 % 100 %

    99,63

    %100 % 100 %

    99,64

    %

    3 Exec.99,27

    %100 % 100 % 100 %

    99,63

    %100 % 100 %

    99,64

    %

    Mdia99,27

    %100 % 100 % 100 %

    99,63

    %100 % 100 %

    99,64

    %

    Tabela 9.Comparativo das mtricas cobertura e medida F para cada algoritmo na Unidade A.

    Execues

    Mtricas de Desempenho e Qualidade

    Tempo de Execuo

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    45/56

    F.I. H. F..

    1 Exec. 135,88 s 133,49 s 146,79 s 84,78 s

    2 Exec. 135,24 s 139,28 s 153,68 s 83,39 s

    3 Exec. 134,64 s 134,81 s 156,64 s 82,22 s

    Mdia135,25

    s

    135,86

    s

    152,37

    s83,46 s

    Tabela 10.Comparativo da mtrica tempo de execuo para cada algoritmo na Unidade A.

    A prxima unidade analis ada foi a Unidade B. Tambm foram analisados os resultados das

    trs class ificaes realizadas para cada algoritmo na referida unidade. De acordo com as

    Tabelas 11, 13 e13, o algoritmo sim ilaridade obteve um melhor desempenho do que os

    demais apenas na mtrica de tempo de execuo. J o Nave Bayes Frequncia Inversa

    obteve um melhor desempenho na mtrica acurcia (98,08 %). J Similaridade obteve a

    menor porcentagem de acurcia. importante verificar que todas as abordagens tiveram umpssimo desempenho na mtrica preciso (valor abaixo de 50 %), mas Nave Bayes

    Hbrido e Nave Bayes Frequncia tiveram desempenho melhor que os demais.

    Apesar dos pssimos resultados, Nave Bayes Frequncia Inversa foi a melhor

    abordagem, pois o mesmo class ificou, erroneamente, um nmero muito inferior de

    evidncias do que os outros algoritmos , como mostrado nas Tabelas 8 e9. Em outras

    palavras, comparando-se o resultado da soma entre NSCCE e NSCCC (soma da diagonal

    principal da matriz de confuso) de cada algoritmo, o resultado de Nave Bayes Frequncia

    Inversa foi superior aos resultados das demais abordagens, portanto, Nave Bayes

    Frequncia Inversa foi o algoritmo que apresentou melhor desempenho e qualidade na

    classificao das sentenas dessa unidade.

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    46/56

    ExecuesAcurcia Preciso

    N.B.

    F.I.

    N.B.

    H.

    N.B.

    F.

    SIM.N.B.

    F.I.

    N.B.

    H.

    N.B.

    F.

    SIM.

    1 Exec.98,08

    %

    96,64

    %

    96,64

    %

    94,08

    %

    0,00

    %

    4,55

    %

    4,55

    %

    0,00

    %

    2 Exec.98,08

    %

    96,64

    %

    96,64

    %

    94,08

    %

    0,00

    %

    4,55

    %

    4,55

    %

    0,00

    %

    3 Exec. 98,08

    %

    96,64

    %

    96,64

    %

    94,08

    %

    0,00

    %

    4,55

    %

    4,55

    %

    0,00

    %

    Mdia98,08

    %

    96,64

    %

    96,64

    %

    94,08

    %

    0,00

    %

    4,55

    %

    4,55

    %

    0,00

    %

    Tabela 11.Comparativo das mtricas acurcia e preciso para cada algoritmo na Unidade B.

    Execues

    Mtricas de Desempenho e Qualidade

    Cobertura Medida F

    N.B.

    F.I.

    N.B.

    H.

    N.B.

    F.SIM.

    N.B.

    F.I.

    N.B.

    H.

    N.B.

    F.SIM.

    1 Exec.

    0,00

    %100 % 100 % 0,00 %

    8,70

    %

    8,70

    %

    2 Exec.0,00

    %100 % 100 % 0,00 %

    8,70

    %

    8,70

    %

    3 Exec.0,00

    100 % 100 % 0,00 %8,70 8,70

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    47/56

    Mdia0,00

    %100 % 100 % 0,00 %

    8,70

    %

    8,70

    %

    Tabela 12.Comparativo das mtricas cobertura e medida F para cada algoritmo na Unidade

    B.

    Execues

    Mtricas de Desempenho e Qualidade

    Tempo de Execuo

    N.B.

    F.I.

    N.B.

    H.

    N.B.

    F.SIM.

    1 Exec. 256,01 s 268,49 s 276,44 s 159,55 s

    2 Exec. 259,67 s 258,26 s 266,54 s 158,14 s

    3 Exec. 254,64 s 271,76 s 291,13 s 159,16 s

    Mdia 256,77

    s

    266,17

    s

    278,04

    s

    158,95

    s

    Tabela 13.Comparativo da mtrica tempo de execuo para cada algoritmo na Unidade B.

    Encerrando a primeira anlise, a prxima unidade analisada foi a Unidade C. Tambm foram

    analisados os resultados das trs classificaes realizadas para cada algoritmo nessa

    unidade. Conforme visto nas Tabelas 14, 16 e16, similaridade obteve um melhor

    desempenho do que os demais apenas na mtrica de tempo de execuo, bem como

    obteve os menores percentuais nas outras mtricas. J o Nave Bayes Frequncia Inversa

    obteve as melhores porcentagens de acurcia, preciso, cobertura e medida F, seguido das

    abordagens Nave Bayes Hbrido e Nave Bayes Frequncia. Sendo assim, o algoritmo

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    48/56

    dessa unidade. Contudo, importante observar que, apesar do timo desempenho, Nave

    Bayes Frequncia Inversa class ificou, erroneamente, uma quantidade considervel de

    sentenas como Evidncia, como mostrado na Tabela 7.

    Execues

    Mtricas de Desempenho e Qualidade

    Acurcia Preciso

    N.B.

    F.I.

    N.B.

    H.

    N.B.

    F.SIM.

    N.B.

    F.I.

    N.B.

    H.

    N.B.

    F.SIM.

    1 Exec.

    92,00

    %

    90,40

    %

    90,40

    %

    86,40

    %

    6,98

    %

    5,88

    %

    5,88

    %

    2,90

    %

    2 Exec.92,00

    %

    90,40

    %

    90,40

    %

    86,40

    %

    6,98

    %

    5,88

    %

    5,88

    %

    2,90

    %

    3 Exec.92,00

    %

    90,40

    %

    90,40

    %

    86,40

    %

    6,98

    %

    5,88

    %

    5,88

    %

    2,90

    %

    Mdia92,00

    %

    90,40

    %

    90,40

    %

    86,40

    %

    6,98

    %

    5,88

    %

    5,88

    %

    2,90

    %

    Tabela 14.Comparativo das mtricas acurcia e preciso para cada algoritmo na Unidade C.

    Execues

    Mtricas de Desempenho e Qualidade

    Cobertura Medida F

    N.B.

    F.I.

    N.B.

    H.

    N.B.

    F.SIM.

    N.B.

    F.I.

    N.B.

    H.

    N.B.

    F.SIM.

    1 Exec. 100 % 100 % 100 %66,67 13,04 11,11 11,11 5,56

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    49/56

    2 Exec. 100 % 100 % 100 %66,67

    %

    13,04

    %

    11,11

    %

    11,11

    %

    5,56

    %

    3 Exec. 100 % 100 % 100 %66,67

    %

    13,04

    %

    11,11

    %

    11,11

    %

    5,56

    %

    Mdia 100 % 100 % 100 %66,67

    %

    13,04

    %

    11,11

    %

    11,11

    %

    5,56

    %

    Tabela 15.Comparativo das mtricas cobertura e medida F para cada algoritmo na Unidade

    C.

    Execues

    Mtricas de Desempenho e Qualidade

    Tempo de Execuo

    N.B.

    F.I.

    N.B.

    H.

    N.B.

    F.SIM.

    1 Exec. 184,19 s 201,97 s 245,13 s 117,37 s

    2 Exec. 212,91 s 185,20 s 311,77 s 114,61 s

    3 Exec. 187,70 s 194,69 s 256,87 s 119,11 s

    Mdia194,93

    s

    193,95

    s

    271,26

    s

    117,03

    s

    Tabela 16.Comparativo da mtrica tempo de execuo para cada algoritmo na Unidade C.

    Encerrando a anlise comparativa dos algoritmos, foi feita uma anlise por mtrica utilizada.

    Verificando o grfico da Figura 20, correspondente mtrica acurcia, notvel os timos

    desempenhos dos Nave Bayes Hbrido e Nave Bayes Frequncia na Unidade A e o

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    50/56

    Bayes Frequncia Inversa e Similaridade na Unidade A. Em mdia, Nave Bayes

    Frequncia Inversa possui a melhor porcentagem de acurcia, consequentemente, a

    melhor abordagem em termos de acurcia.

    abrir imagem em nova janela

    Figura 20.Grfico da mtrica acurcia.

    No grfico apresentado na Figura 21podemos observar o bom desempenho do Nave Bayes

    Frequncia Inversa na maioria das unidades, apesar do pssimo desempenho na

    Unidade B. Em mdia, Nave Bayes Hbrido e Nave Bayes Frequncia foram melhores do

    que Nave Bayes Frequncia Inversa. Mesmo assim, Nave Bayes Frequncia Inversa a

    melhor abordagem em termos de preciso, pois, como foi dito anteriormente, class ificou

    erroneamente um nmero inferior de sentenas em relao aos demais algoritmos .

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    51/56

    abrir imagem em nova janela

    Figura 21.Grfico da mtrica preciso.

    Observando o grfico apresentado na Figura 22, conclumos o timo desempenho de Nave

    Bayes Hbrido e Nave Bayes Frequncia, possuindo 100 % em todas as unidades.

    Assim como perceptvel o baixo desempenho de s imilaridade na mtrica cobertura.

    Portanto, Nave Bayes Hbrido e Nave Bayes Frequncia, por possurem as melhores

    porcentagens de cobertura, so os melhores algoritmos em termos desta mtrica.

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    52/56

    abrir imagem em nova janela

    Figura 22.Grfico da mtrica cobertura.

    Analisando o grfico da Figura 23, notvel a qualidade de Nave Bayes Hbrido e Nave

    Bayes Frequncia, apesar de possuir a mdia harmnica um pouco inferior de Nave

    Bayes Frequncia Inversa na Unidade C. J sim ilaridade possui, em mdia, a menor

    porcentagem de medida F. Assim, Nave Bayes Hbrido e Nave Bayes Frequncia

    possuem, em mdia, as melhores porcentagens de medida F, consequentemente, so os

    melhores algoritmos para esta medida.

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    53/56

    abrir imagem em nova janela

    Figura 23.Grfico da mtrica medida F.

    Observando o grfico daFigura 24fica evidente o timo desempenho do algoritmo de

    sim ilaridade por possuir os menores tempos de execuo em todas as unidades gestoras.

    abrir imagem em nova janela

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    54/56

    Na tentativa de descobrir o motivo de todos algoritmos terem class ificado erroneamente uma

    quantidade considervel de evidncias nas unidades B e C, foram analisadas as

    class ificaes de duas conformidades que foram consideradas como evidncias por todas

    as abordagens: INAUGURACAO DE CONJUNTO HABITACIONAL,CLINICA DE SAUDE E

    CEN (Unidade B) e LEVAR PACIENTES P/REALIZACAO DE EXAMES (Unidade C). Para

    class ificar a primeira sentena, foi considerado apenas um termo cujo radical saud,

    sendo 06 e 09 as quantidades de amostras Em Conformidade e Evidncia,

    respectivamente. J para a segunda sentena, foram cons iderados dois termos de radicais

    pacient e exam, sendo 01 a quantidade de Em Conformidade para o radical pacient e

    06 a quantidade de Evidncia para o radical exam. Portanto, o processo de Stemming

    influenciou na classificao errnea dessas sentenas, podendo at ter influenciado nas

    demais sentenas classificadas de forma errada.

    Finalizando a anlise, na maioria das mtricas e unidades analisadas, conclui-se que Nave

    Bayes Frequncia Inversa, para o contexto abordado neste artigo, foi o algoritmo que obteve

    melhor desempenho e qualidade para classificar sentenas, consequentemente,

    possibilitando melhores resultados para apoiar a deciso dos auditores na deteco de

    irregularidades no pagamento de dirias.

    De posse do melhor algoritmo, esse pode ser utilizado para tornar mais efetivo o trabalho do

    auditor na identificao de irregularidades, auxiliando-o na tomada de deciso.

    DevMedia

    A DevM edia um portal para analistas, desenvolvedores de sistemas, gerentes e DBAs com mi lhares de

    artigos, di cas, cursos e videoaulas gratui tos e exclusivos para assinantes.

    Publicado em 2016

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    55/56

    Gostei (1) (0)

    Postar dvida / Comentrio

    + Mais contedo sobre SQL

    No h comentrios

    Meus comentarios

    Publicidade

    Mais postsArtigo

    Oracle Data Guard com Fast-Start Failover

    Artigo

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa

  • 7/25/2019 Minerao de Texto- Anlise Comparativa de Algoritmos - Revista SQL Magazine 138

    56/56

    Artigo

    Estratgias de backup e restore no PostgreSQL

    Artigo

    Service Broker no SQL Server 2014

    Artigo

    Cluster Shared Volume no SQL Server 2014

    Artigo

    Passo a passo para realizar a modelagem de dados

    Listar mais contedo

    INICIAR MVP Anderson Kerlly Rodrigues De Sousa