extração automática de definições: um estudo de caso em textos legislativos

24
Extração Automática de Definições – Estudo de Caso em Textos Legislativos Extração Automática de Definições – Estudo de Caso em Textos Legislativos Extração Automática de Definições Um Estudo de Caso em Textos Legislativos Augusto Herrmann Batista Orientador: Edilson Ferneda Co-orientador: Hércules Antonio do Prado

Upload: augusto-herrmann-batista

Post on 17-Feb-2017

143 views

Category:

Science


1 download

TRANSCRIPT

Page 1: Extração Automática de Definições: um estudo de caso em textos legislativos

Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos

Extração Automática de DefiniçõesUm Estudo de Caso em Textos Legislativos

Augusto Herrmann Batista

Orientador: Edilson FernedaCo-orientador: Hércules Antonio do Prado

Page 2: Extração Automática de Definições: um estudo de caso em textos legislativos

Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos

Roteiro

Contextualização e Motivação Problema Objetivos Revisão da Literatura (EI e ED) Referencial Teórico Metodologia Resultados e Discussão Conclusões e Trabalhos Futuros

Ref.: pág. 13

Page 3: Extração Automática de Definições: um estudo de caso em textos legislativos

Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos

Contextualização e Motivação

Por que se fazer um Glossário? Facilitar o aprendizado Fixar conceitos Externalizar um jargão Evitar ambiguidades Reduzir ruídos de comunicação

Ref.: págs. 10 a 12

Page 4: Extração Automática de Definições: um estudo de caso em textos legislativos

Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos

Contextualização e Motivação

Extração Manual Tarefa Dispendiosa Grande Volume de Textos

Obs.: ainda está sujeita a desacordo entre anotadores!

Ref.: págs. 10 a 12, 39 e 40

Page 5: Extração Automática de Definições: um estudo de caso em textos legislativos

Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos

Problema

Problema ”Dado um conjunto de textos em linguagem natural

em língua portuguesa, em meio eletrônico, como extrair automaticamente um conjunto de termos e definições originalmente apresentados de forma não-estruturada visando a construção de um glossário?”

Ref.: pág. 12

Page 6: Extração Automática de Definições: um estudo de caso em textos legislativos

Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos

Objetivos

Objetivo Geral Elaborar um método de extração de definições a

partir de textos em língua portuguesa aplicando técnicas de processamento de linguagem natural

Objetivos Específicos Estudar técnicas existentes em ED Selecionar, adaptar e combinar Efetuar estudo de caso e aplicar a técnica

Ref.: pág. 12

Page 7: Extração Automática de Definições: um estudo de caso em textos legislativos

Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos

Revisão de Literatura

Origens na Extração de Informação (EI) Revisões de Muslea (1999) e Sarawagi (2007) Uso de sequências de padrões sintáticos e slots

(e.g. AutoSlog – RILOFF, 1993) Proximidade semântica com uso do Wordnet

(MILLER, 1995) Aprendizagem de máquina estatística

Modelos Markovianos Ocultos (HMM) Entropia Máxima (MEMM) Campos Aleatórios Condicionais (CRF)

Modelos Híbridos (regras + aprendizagem)Ref.: págs. 14 a 23

Page 8: Extração Automática de Definições: um estudo de caso em textos legislativos

Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos

Revisão de Literatura

Problemas Relacionados à Extração de Definições (ED) Origem: sistemas de resposta automática a

perguntas (e.g. SAGGION, 2004) ”Quem é … ?” ”O que é um … ?”

Extração de Tesauros (e.g., CURRAN e MOENS, 2002)

Apoio à Construção de Ontologias (e.g., MALAISÉ, 2005, apud ALARCÓN et al, 2007; GANGEMI et al, 2003 apud NAVIGLI e VELARDI, 2010)

Ref.: págs. 24 a 26

Page 9: Extração Automática de Definições: um estudo de caso em textos legislativos

Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos

Revisão de Literatura

Abordagens em ED Baseadas em regras / padrões morfossintáticos

(e.g. TANEV et al, 2005) Baseadas em aprendizagem de máquina estatística

(e.g. FAHMI e BOUMA, 2006) Bayesiano Ingênuo Entropia Máxima Máquinas de Vetor de Suporte (MVS) Algortimos Genéticos (BORG et al, 2007)

Ref.: págs. 25, 29, 30 e 35

Page 10: Extração Automática de Definições: um estudo de caso em textos legislativos

Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos

Revisão de Literatura

ED em Língua Portuguesa Pinto e Oliveira (2004)

Corpógrafo – Textos de Medicina Identificação manual de estruturas sintáticas comuns Construção de expressões regulares

Del Gaudio e Branco (2007, 2009) Textos em TI e EAD Gramática baseada em regras

Ref.: págs. 30 a 32

Page 11: Extração Automática de Definições: um estudo de caso em textos legislativos

Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos

Referencial Teórico

Definições Genus et differentia – Aristóteles

definiendum genus differentia

Shaw (1922): por etimologia por análise (ou intensional) por exclusão por exemplo (ou extensional)

Ref.: págs. 47 a 49

Page 12: Extração Automática de Definições: um estudo de caso em textos legislativos

Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos

Referencial Teórico

Etiquetagem Morfossintática presente na cadeia de processamento de PLN atribui etiquetas com o papel desempenhado pelo

segmento na frase Tipos de etiquetadores

Expressões Regulares Estatísticos N-Gramas Aprendizagem baseada em transformações

(BRILL, 1993 apud BIRD et al, 2009)

Ref.: págs. 49 a 54

Page 13: Extração Automática de Definições: um estudo de caso em textos legislativos

Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos

Referencial Teórico

Máquinas de Vetor de Suporte abordagem de aprendizagem de máquina para

problemas de classificação classifica vetores n-dimensionais

cada dimensão representa uma característica separador que maximiza a margem entre as

classes de vetores

Ref.: págs. 54 a 57

Page 14: Extração Automática de Definições: um estudo de caso em textos legislativos

Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos

Metodologia

Ref.: Figura 12, pág. 58

Page 15: Extração Automática de Definições: um estudo de caso em textos legislativos

Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos

Metodologia

Corpus de experimentação – Coleção Brasileira do Direito das Telecomunicações (ARANHA e LIMA, 2009) 1.940 documentos com 6.120.832 tokens

Leis, Decretos, Resoluções, Jurisprudência 1.757 termos no glossário 2.097 definições

Ref.: págs. 59 a 60

Page 16: Extração Automática de Definições: um estudo de caso em textos legislativos

Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos

Metodologia

”Problemas” no corpus faltam alguns documentos referenciados

Ex.: ”Acessórios”, referencia a Resolução da ANATEL nº 533, de 10/09/2009. O documento não consta no corpus.

correções ortográficas Ex.: no Anexo à Resolução da ANATEL nº 297, de

10/05/2002 está: ”questão específca”. No glossário, ”questão específica”.

definições omitidas Ex.: ”contratante” e ”contratado” na Lei 8.666/1993

Ref.: págs. 60 a 62

Page 17: Extração Automática de Definições: um estudo de caso em textos legislativos

Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos

Metodologia

Pré-processamento conversão de formatos filtragem para sanear os problemas

Segmentação por períodos por palavras

Ref.: págs. 61 a 62

Page 18: Extração Automática de Definições: um estudo de caso em textos legislativos

Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos

Metodologia

Etiquetagem morfossintática treino no corpus MAC-MORPHO (ALUÍSIO et al,

2003) divisão de treino/testes 90%/10% acurácia: 90,44%

Ref.: págs. 62 a 65

Page 19: Extração Automática de Definições: um estudo de caso em textos legislativos

Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos

Metodologia

Funções extratoras de características (FEC) retornam um valor numérico ou binário

normalizado para a faixa [0, 1] exemplos:

o segmento contém o verbo ”ser” seguido de um determinante?

o segmento contém dois pontos (”:”) entre as cinco primeiras posições?

exemplos de características negativas: palavra não seguida por conjugação do verbo ”ser”

Ref.: págs. 65 a 66

Page 20: Extração Automática de Definições: um estudo de caso em textos legislativos

Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos

Metodologia

Treino Coleção Brasileira de Direito das

Telecomunicações (ARANHA e LIMA, 2009) amostragem aleatória de 70% dos períodos

utilizados para treino normalização dos valores das FEC resposta de referência (”gold standard”) balanceamento da quantidade de instâncias

Aplicação 30% restantes para aplicação e validaçãoRef.: págs. 67 a 69

Page 21: Extração Automática de Definições: um estudo de caso em textos legislativos

Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos

Metodologia

Page 22: Extração Automática de Definições: um estudo de caso em textos legislativos

Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos

Resultados e Discussão

Resultados acurácia: 73,5% precisão: 75,6% Revocação: 69,6%

Matriz de confusão:

PrediçãoCorreção

Negativa Positiva

Negativa 30538,7%

8911,3%

Positiva 12015,2%

27534,9%

Ref.: págs. 70 a 71

Page 23: Extração Automática de Definições: um estudo de caso em textos legislativos

Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos

Conclusões

Atingidos os objetivos geral e específicos estudo das técnicas existentes escolha de uma abordagem p/ construir glossário estudo de caso

Poucos trabalhos em língua portuguesa, nenhum aplicado a textos normativos

Primeiro passo para a construção de glossários (revisão manual)

Ref.: pág. 72

Page 24: Extração Automática de Definições: um estudo de caso em textos legislativos

Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos

Trabalhos Futuros

Construção de corpus anotado manualmente revisado

Aplicação em outras áreas do conhecimento Uso de programação genética e outras, aplicadas

à língua portuguesa

Ref.: págs. 72 a 75