extração de informação ana carolina do amaral marcílio josé a. gomes filho rodrigo c. mendes...

Extração de Informação

Ana Carolina do AmaralMarcílio José A. Gomes Filho

Rodrigo C. MendesFlávia Barros

Roteiro

IntroduçãoMotivaçãoUm pouco de HistóriaProcesso de ExtraçãoConceitosWrappersAplicaçõesReferências

Motivação

O volume de informação vem aumentado consideravelmente, principalmente com o advento da internet.

Como conseguir extrair informação relevante de tantos artefatos digitais?

Motivação

O Problema:Documentos em sua maioria não

estruturados ou semi-estruturados. (Internet - WEB)

Migração de dados entre interfaces diferentes. (WebServices – Banco de Dados)

Motivação

O que queremos: responder a consultas de usuários gerar resumos do texto original preencher bancos de dados preencher bases de conhecimento mineração de dados sumarizar textos ...

Processo de Extração

Trata o problema da extração de dados relevantes a partir de uma coleção de documentos [Mus99]

Os dados a serem extraídos são previamente definidos em um template (formulário)

Sistema p/ EI

BD

Item1:Item2:Item3:Item4:Item5:

Template

BC

Um pouco de História

MUC-Message Understanding Conference [final da década de 80]Uso de técnicas de PLN (Processamento

de Linguagem Natural)

Internet/Web [década de 90]Desenvolvimento de wrappers

Conceitos

Sistemas baseados em PLN Processamento de Linguagem Natural. Criados para extrair informação a partir de

textos livres (sem estruturação). Wrappers

Crescimento da Web a partir dos anos 1990. Incapacidade dos sistemas anteriores para

extrair informações de seus textos, motivou a criação de sistemas específicos para esse domínio.

Conceitos

Quadro Comparativo Wrappers Sistemas de EI baseados

em PLNMotivação Principalmente, extrair informações

das diversas fontes na Web.Extrair informações de textos em linguagem natural.

Tipos de texto Geralmente estruturados e semi-estruturados, mas também textos livres, em alguns casos.

Apenas texto livre.

Padrões usados para extração

Informações de formatação do texto, marcadores presentes nos documentos, freqüência estatística das palavras e, em alguns casos, PLN.

Padrões lingüísticos baseados em PLN (uso intenso de PLN).

Conceitos

Tipos de Texto Estruturado - segue um formato predefinido e

rígido.

Conceitos

Tipos de Texto Não estruturado (Livre) - Não apresentam

nenhuma estrutura regular e as informações apresentam-se como sentenças livres, escritas em alguma língua natural.

Conceitos

Tipos de Texto Semi-estruturado - Não possuem uma

formatação rígida, permitindo, por exemplo, a ocorrência de variações na ordem dos dados. Em geral, não respeitam rigidamente a gramática da língua natural, e podem possuir muitas palavras abreviadas.

M. E. Califf & R. J. Mooney. (1999). Relational learning of pattern-match rules for information extraction. In Proceedings of the Sixteenth National Conference on Artificial Intelligence, pp. 328--334 Orlando, FL.

Conceitos

Tipos de Wrappers Singleshot - são aqueles que extraem do

documento de entrada apenas dados isolados, ou seja, eles não são capazes de ligar uma instância de um campo (slot) do formulário de saída a uma instância de outro campo.

Multishot - são aqueles capazes de extrair do documento de entrada os dados relacionados entre si, ou seja eles são capazes de ligar as instancias de diferentes campos.

Conceitos

Tipos de Wrappers – Exemplo:C a p ito l H il l 1 b r tw n h m e . F p lc D /W W /D .U n d rg rn d p k g in c l $ 6 7 5 . 3 B R , u p p e r f lr o f tu rn o f c t ry H O M E . in c l g a r,g r t N . H ill lo c $ 9 9 5 . (2 0 6 ) 9 9 9 -9 9 9 9 < fo n t s iz e = 2 > (T h is a d la s t ra n o n 0 8 /0 3 /9 7 .)< /fo n t> < h r>

b a ir ro : C ap ito l H i llq u a r to s : 1p re ç o : 6 7 5

b a ir ro : C ap ito l H illb a ir ro : C ap ito l H illq u a r to s: 1q u a r to s: 3p re ç o : 6 7 5p re ç o : 9 9 5

b a ir ro : C ap ito l H i llq u a r to s : 3p re ç o : 9 9 5

Fo rm ulá rio Pre e nc h id o Fo rm ulá rio Pre e nc h id o

siste m a m ulti-slo t siste m a sing le -slo t

Sistemas baseados em PLN

Precisam de um pré-processamento lingüístico para a realização da extraçãoClasses sintáticas e semânticas das

palavrasAlgumas vezes é impossível fazer este pré-

processamento (Informal Domains)Web!

Wrappers

A princípio não eram capazes de tratar textos livres

Recentemente, tornaram-se mais poderosos fazem uso das informações de formatação

e também das características lingüísticas

Wrappers

Técnicas para extração de informaçãopreencherFormulario(documento) =

fomularioPreenchidoDeterminam as regras de extraçãoAutômatos finitos, casamento de padrões,

classificadores de texto e modelos de Markov escondidos

Wrappers – Autômatos finitos

Definição (S, Σ,T,s0,F)

S é um conjunto finito de estados Σ é um alfabeto finito de símbolos de entrada T é a função de transição (T : S × Σ -> S) s0 S é o estado inicial F S é o conjunto de estados finais

Excelentes em textos estruturados Podem ser definidos manualmente ou ser

aprendidos automaticamente


TiposAcceptors: apenas um estado inicial,

resposta é sim ou nãoFiltragem e existência do dado

Recognizers: um ou mais estados finais. Categorização!

Transducers: geram um conjunto de símbolos de saída para a entrada

Exemplo<LI> <A HREF="…"> Mani Chandy </A>, Professor of Computer

Science and Executive Officer for Computer Science…<LI> Fred Thompson, Professor Emeritus of Applied Philosophy and

Computer Science

b

U_U

N_N

? / å etc.

? / å

? / å

? / next_token

? / next_token

Key• ? : wildcard• U : state to extract URL• U : state to skip over tokens

until we reach N• N : state to extract Name• N : state to skip over tokens

until we reach A• s<X,Y> : separator rule for

the separator ofstates X and Y

• etc.

Key• ? : wildcard• U : state to extract URL• U : state to skip over tokens

until we reach N• N : state to extract Name• N : state to skip over tokens

until we reach A• s<X,Y> : separator rule for

the separator ofstates X and Y

• etc.

s<U,U> / ås<U,U> / å

s<b,U> /“U=”+ next_token

s<N,N> / ås<N,N> / ås<b,N> /“N=”+ next_token

s<U,N> /“N=”+ next_tokens<U,N> /“N=”+ next_token


Devemos definirOs estados que deverão “aceitar” os

símbolos a serem extraídos para preencher o formulário de saída

Os estados que irão apenas consumir os símbolos irrelevantes encontrados no documento

Os símbolos do documento de entrada que provocaram a transição de um estado para outro

Wrappers – Casamento de padrões

Padrões podem ser descritos através de expressões regulares ou em uma linguagem específica ao sistema de EI

O processo de extração se dá quando se realiza o casamento dos padrões definidos com o texto de entrada

Wrappers – Casamento de padrões

Trata textos estruturados, semi-estruturados e livres

Expressões regulares são mais intuitivas do que autômatosRealizam extração multi-slot

Wrappers - Classificação

Classifica(fragmentoTexto) = [escore campo 1, ..., escore campo n]

Limitações:Criação dos fragmentosClassificam cada fragmento de forma

independente => ótima localmente, mas nada garante que seja ótima também globalmente

Wrappers - ClassificaçãoB. Tho m a s, An ti-Un ific a tio n Ba se d Le a rn ing o f T-Wra p p e rs fo r In fo rm a tio n Extra c tio n, In Pro c . AA AI-99 Wo rksho p o n M a c hine Le a rn ing fo r In fo rm a tio n Extra c tio n, 19 99 .

B. Tho m a s, An ti-Un ific a tio n Ba se d Le a rn ing o f T-Wra p p e rs fo r In fo rm a tio n Extra c tio n, In Pro c . AA AI-99 Wo rksho p o n M a c hine Le a rn ing fo r In fo rm a tio n Extra c tio n, 19 99 .

d ivisã o e m fra g m e nto s

c la ssific a ç ã o

e xtra ç ã o d e c a ra c te rístic a s

fra g m e nto 1

fra g m e nto 1

fra g m e nto 2

fra g m e nto 2

fra g m e nto 3

fra g m e nto 3

fra g m e nto 4

fra g m e nto 4130

10

041

20

152

13

2325

a uto r títu lo c o nfe rê nc ia d a ta

Wrappers – Modelos de Markov escondidos

Exploram a ocorrência dos padrões em seqüência no texto de entrada para classificá-los de uma só vezMaximiza a probabilidade de acerto para

todo o conjunto de padrões


Modelos de Markov - definiçãoConjunto de estados S Probabilidade a priori (s) para os estados s

S Probabilidade de transição Pr[s’/s] do

estado s S para o estado s’ S S = {ensolarado, chuvoso, nublado} (nublado) Pr[chuvoso/ensolarado]


Estados ocultos É possível observar os símbolos (estados visíveis)

emitidos pelos estados escondidos A cada estado oculto, é associada uma das

classes a serem extraídas Cada estado oculto emite tokens de acordo

com a probabilidade de pertencer à classe associada ao estado

Criado o modelo, pode-se utilizar o algoritmo Viterbi para decodificar uma entrada e determinar os estados ocultos associados

Extração de Informação em DocumentosPalavras-chave

IndexaçãoCatalogação

Empresa do Rio de Janeiro com mais de 12 anos de experiênciaem Gerenciamento Eletrônico de Documentos.

Aplicações de RI

Extração de Informação em DocumentosConteúdo

Análise EstruturalAnálise Semântica

Empresa portuguesa responsável por 3,4% do PIB de Portugal.

Aplicações de RI

http://www.ptsi.pt/PTSI/

Extração de Informação em DocumentosAnálise do Código Fonte de Aplicações

Uso de PadrõesQualidade do Código

Empresa de Curitiba, oferece sistemas de análise do código fonteem diversas linguagens.

Aplicações de RI

Extração de Informação na WEBFiltragem de Fóruns

Controle do ConteúdoAssunto dos Diálogos

Empresa de São Paulo com mais de 20 anos de mercado. Oferecesoluções para e-learning.

Aplicações de RI

http://www.techne.com.br/default.htm

Extração de Informação na WEBMonitoramento da WEB

Busca por HackersBusca por Terroristas

Empresa mundialmente reconhecida, presente no Brasil há 10 anos,oferecendo soluções nas áreas de segurança web e redes.

Aplicações de RI

http://www.atsolutions.com.br/index.html

Extração de Informações EstratégicasBusiness Intelligence

Análise de MercadoMelhoria de Processos

Empresa brasileira que oferece soluções na área de BI.

Aplicações de RI

http://www.ncbi.nlm.nih.gov/

Extração de Informações EstratégicasAnálises Biológicas de Dados

Regiões Codificantes (DNA)Regiões Ativas (Proteínas)

National Center for Biotechnology Information, criado em 1988, localizadonos Estados Unidos. É a principal fonte de informações sobre Genômicana Internet.

Aplicações de RI

http://www.oracle.com/index.html

Extração de Informações EstratégicasAnálises de Arquivos de LOG

Logs de ErroLogs de Acesso

Empresa mundialmente reconhecida, com mais de 25 anos, oferecesoluções para a análise de logs de erro e acesso a bancos de dados.

Aplicações de RI

Extração de Informações EstratégicasAnálises de Imagens

GeologiaClimatologiaAstrologia

Empresa brasileira com 10 anos de mercado, oferece soluções paraanálise e classificação de imagens.

Aplicações de RI

extração de informação ana carolina do amaral marcílio josé a. gomes filho rodrigo c. mendes...

Documents