painel 02 01 patrícia maia - uso de técnicas de mineração de textos aplicado à triagem...

Post on 15-Apr-2017

217 Views

Category:

Technology

5 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Uso de Técnicas de Mineração de Textos Aplicado à triagem automática de

denúncias

TEXT MINING

TRIAGEM DE DENÚNCIAS DA CGU

Denúncia: comunicação de prática de ato ilícito cuja solução dependa da atuação de órgão de controle interno ou externo.

Habilitadas

Inabilitadas

Denúncias

PROTOCOLO

Ouvidoria(35 mil)

Lixo Eletrônico(17 mil )

Fluxo da Triagem de DenúnciasDSSA

UDSEDU

DRDAG

91 diferentes áreas da

CGU...

Dados insuficient

esNão é

competência CGU

Já foi Ficalizada

Arquivadas...

Exemplo de Texto de Denúncia com Erros de Ortografia

Exemplo de Lixo Eletrônico

Porque a triagem manual é um problema?

O estoque de denúncias aumenta a cada diaPoucos servidoresProcesso de triagem baseado em palavras chaves

Denúncia é feita com campo texto em formato livre

91 áreas da CGU para as quais as denúncias devem ser encaminhadas

Objetivo

Propor um modelo de triagem eletrônica baseada em mineração de textos e aprendizagem de máquina.

Proposta de triagem eletrônica

Denúncias

PROTOCOLOo

Triagem eletrônica

Lixo Eletrônico

DSSAUDSEDU

DRDAG

91 diferentes áreas da

CGU...

Arquivadas

Elimina similares

Dados insuficient

esNão é

competência CGU

Já foi Ficalizada

...

Denúncias Repetidas – como tratar?

Similaridades de cossenos: encontra semelhanças através dos cossenos do ângulo formado entre 2 vetores.

Valida antes da triagem. 1 = denúncias idênticas!

Proposta de triagem eletrônica

Denúncias

PROTOCOLOo

Triagem eletrônica

Lixo Eletrônico

DSSAUDSEDU

DRDAG

91 diferentes áreas da

CGU...

Arquivadas

Elimina similares

Dados insuficient

esNão é

competência CGU

Já foi Ficalizada

...

Matriz termo documento

Remoção de StopWords

Remoção de Pontuação, números e espaços

Conversão de letras Maiúsculas para minúsculas

Uso de stemming

Base de dadosDenúncia

denunc escolc fraud ...

1 1 0 0

1 0 1 0

Classificador

Resultados

• POC com 4 categorias• Precisão de 0.82• 58 categorias – precisão de 0.554

Classificação multi-label

Resultados

Conclusões- POC com 58 categorias (unidades da CGU) e cerca

de 40 mil denúncias- Identificação automática de denúncias similares- A triagem pode ser feita de forma automática, em

menor tempo e sem perda de qualidade!- Triagem pode indicar mais de uma unidade da CGU- O processo é escalável e pode triar maior volume de

denúncias e menor tempo

patricia.maia@cgu.gov.br

Artigo ENIAC 2014: Application of text mining techniques for classification of documents: a study of automation of complaints screening in a Brazilian Federal Agencyhttp://www.lbd.dcc.ufmg.br/colecoes/eniac/2014/0081.pdf

Obrigada!

Text mining

Mineração de textos é o processo de descoberta de conhecimento que utiliza técnicas de análise e extração de dados a partir de textos, frases ou palavras. É o processo de extrair padrões interessantes e não triviais ou conhecimento a partir de documentos em textos não estruturados.

Etapas da Mineração de Textos

Similaridade de CossenosA técnica de Similaridade de Cossenos pode ser utilizada para encontrar classes baseada na semelhança entre as mesmas. Calcula, através dos cossenos do ângulo formado entre dois vetores, a similaridades entre dois documentos. Assim, ao comparar dois documentos, o resultado será um número entre 0 e 1. Caso a taxa de similaridades seja próxima de 1, a mesma indicará que os documentos serão muito similares, pertencendo, provavelmente a mesma classe ou categoria. O resultado for próximo de 0, indicará que os documentos são pouco similares, não pertencendo a mesma classe. Resultados médios, nem próximos de 0 e nem próximos de 1, podem não ser conclusivos, não sendo capaz de identificar a classe a que o documento pertence.

Precisão

Precisão é a quantidade de itens selecionados que estão corretamente classificados. Mede, dentre todos os documentos julgados, a quantidade de documentos classificados corretamente como positivos, sendo portanto, a proporção entre o número de itens selecionados que foram recuperados corretamente. Em um contexto com um total de 1000 denúncias por exemplo, caso a precision seja igual a 0.87, quer dizer que 870 das 1000 denúncias foram classificadas corretamente e 130 foram classificadas incorretamente.

top related