extração de informação ana carolina do amaral marcílio josé a. gomes filho rodrigo c. mendes...
TRANSCRIPT
Extração de Informação
Ana Carolina do AmaralMarcílio José A. Gomes Filho
Rodrigo C. MendesFlávia Barros
Roteiro
IntroduçãoMotivaçãoUm pouco de HistóriaProcesso de ExtraçãoConceitosWrappersAplicaçõesReferências
Motivação
O volume de informação vem aumentado consideravelmente, principalmente com o advento da internet.
Como conseguir extrair informação relevante de tantos artefatos digitais?
Motivação
O Problema:Documentos em sua maioria não
estruturados ou semi-estruturados. (Internet - WEB)
Migração de dados entre interfaces diferentes. (WebServices – Banco de Dados)
Motivação
O que queremos: responder a consultas de usuários gerar resumos do texto original preencher bancos de dados preencher bases de conhecimento mineração de dados sumarizar textos ...
Processo de Extração
Trata o problema da extração de dados relevantes a partir de uma coleção de documentos [Mus99]
Os dados a serem extraídos são previamente definidos em um template (formulário)
Sistema p/ EI
BD
Item1:Item2:Item3:Item4:Item5:
Template
BC
Um pouco de História
MUC-Message Understanding Conference [final da década de 80]Uso de técnicas de PLN (Processamento
de Linguagem Natural)
Internet/Web [década de 90]Desenvolvimento de wrappers
Conceitos
Sistemas baseados em PLN Processamento de Linguagem Natural. Criados para extrair informação a partir de
textos livres (sem estruturação). Wrappers
Crescimento da Web a partir dos anos 1990. Incapacidade dos sistemas anteriores para
extrair informações de seus textos, motivou a criação de sistemas específicos para esse domínio.
Conceitos
Quadro Comparativo Wrappers Sistemas de EI baseados
em PLNMotivação Principalmente, extrair informações
das diversas fontes na Web.Extrair informações de textos em linguagem natural.
Tipos de texto Geralmente estruturados e semi-estruturados, mas também textos livres, em alguns casos.
Apenas texto livre.
Padrões usados para extração
Informações de formatação do texto, marcadores presentes nos documentos, freqüência estatística das palavras e, em alguns casos, PLN.
Padrões lingüísticos baseados em PLN (uso intenso de PLN).
Conceitos
Tipos de Texto Estruturado - segue um formato predefinido e
rígido.
Conceitos
Tipos de Texto Não estruturado (Livre) - Não apresentam
nenhuma estrutura regular e as informações apresentam-se como sentenças livres, escritas em alguma língua natural.
Conceitos
Tipos de Texto Semi-estruturado - Não possuem uma
formatação rígida, permitindo, por exemplo, a ocorrência de variações na ordem dos dados. Em geral, não respeitam rigidamente a gramática da língua natural, e podem possuir muitas palavras abreviadas.
M. E. Califf & R. J. Mooney. (1999). Relational learning of pattern-match rules for information extraction. In Proceedings of the Sixteenth National Conference on Artificial Intelligence, pp. 328--334 Orlando, FL.
Conceitos
Tipos de Wrappers Singleshot - são aqueles que extraem do
documento de entrada apenas dados isolados, ou seja, eles não são capazes de ligar uma instância de um campo (slot) do formulário de saída a uma instância de outro campo.
Multishot - são aqueles capazes de extrair do documento de entrada os dados relacionados entre si, ou seja eles são capazes de ligar as instancias de diferentes campos.
Conceitos
Tipos de Wrappers – Exemplo:C a p ito l H il l 1 b r tw n h m e . F p lc D /W W /D .U n d rg rn d p k g in c l $ 6 7 5 . 3 B R , u p p e r f lr o f tu rn o f c t ry H O M E . in c l g a r,g r t N . H ill lo c $ 9 9 5 . (2 0 6 ) 9 9 9 -9 9 9 9 < b r>< i> < fo n t s iz e = 2 > (T h is a d la s t ra n o n 0 8 /0 3 /9 7 .)< /fo n t> < /i> < h r>
b a ir ro : C ap ito l H i llq u a r to s : 1p re ç o : 6 7 5
b a ir ro : C ap ito l H illb a ir ro : C ap ito l H illq u a r to s: 1q u a r to s: 3p re ç o : 6 7 5p re ç o : 9 9 5
b a ir ro : C ap ito l H i llq u a r to s : 3p re ç o : 9 9 5
Fo rm ulá rio Pre e nc h id o Fo rm ulá rio Pre e nc h id o
siste m a m ulti-slo t siste m a sing le -slo t
Sistemas baseados em PLN
Precisam de um pré-processamento lingüístico para a realização da extraçãoClasses sintáticas e semânticas das
palavrasAlgumas vezes é impossível fazer este pré-
processamento (Informal Domains)Web!
Wrappers
A princípio não eram capazes de tratar textos livres
Recentemente, tornaram-se mais poderosos fazem uso das informações de formatação
e também das características lingüísticas
Wrappers
Técnicas para extração de informaçãopreencherFormulario(documento) =
fomularioPreenchidoDeterminam as regras de extraçãoAutômatos finitos, casamento de padrões,
classificadores de texto e modelos de Markov escondidos
Wrappers – Autômatos finitos
Definição (S, Σ,T,s0,F)
S é um conjunto finito de estados Σ é um alfabeto finito de símbolos de entrada T é a função de transição (T : S × Σ -> S) s0 S é o estado inicial F S é o conjunto de estados finais
Excelentes em textos estruturados Podem ser definidos manualmente ou ser
aprendidos automaticamente
Wrappers – Autômatos finitos
TiposAcceptors: apenas um estado inicial,
resposta é sim ou nãoFiltragem e existência do dado
Recognizers: um ou mais estados finais. Categorização!
Transducers: geram um conjunto de símbolos de saída para a entrada
Wrappers – Autômatos finitos
Exemplo<LI> <A HREF="…"> Mani Chandy </A>, <I>Professor of Computer
Science</I> and <I>Executive Officer for Computer Science</I>…<LI> Fred Thompson, <I>Professor Emeritus of Applied Philosophy and
Computer Science</I>
b
U_U
N_N
? / å etc.
? / å
? / å
? / next_token
? / next_token
Key• ? : wildcard• U : state to extract URL• U : state to skip over tokens
until we reach N• N : state to extract Name• N : state to skip over tokens
until we reach A• s<X,Y> : separator rule for
the separator ofstates X and Y
• etc.
Key• ? : wildcard• U : state to extract URL• U : state to skip over tokens
until we reach N• N : state to extract Name• N : state to skip over tokens
until we reach A• s<X,Y> : separator rule for
the separator ofstates X and Y
• etc.
s<U,U> / ås<U,U> / å
s<b,U> /“U=”+ next_token
s<N,N> / ås<N,N> / ås<b,N> /“N=”+ next_token
s<U,N> /“N=”+ next_tokens<U,N> /“N=”+ next_token
Wrappers – Autômatos finitos
Devemos definirOs estados que deverão “aceitar” os
símbolos a serem extraídos para preencher o formulário de saída
Os estados que irão apenas consumir os símbolos irrelevantes encontrados no documento
Os símbolos do documento de entrada que provocaram a transição de um estado para outro
Wrappers – Casamento de padrões
Padrões podem ser descritos através de expressões regulares ou em uma linguagem específica ao sistema de EI
O processo de extração se dá quando se realiza o casamento dos padrões definidos com o texto de entrada
Wrappers – Casamento de padrões
Trata textos estruturados, semi-estruturados e livres
Expressões regulares são mais intuitivas do que autômatosRealizam extração multi-slot
Wrappers - Classificação
Classifica(fragmentoTexto) = [escore campo 1, ..., escore campo n]
Limitações:Criação dos fragmentosClassificam cada fragmento de forma
independente => ótima localmente, mas nada garante que seja ótima também globalmente
Wrappers - ClassificaçãoB. Tho m a s, An ti-Un ific a tio n Ba se d Le a rn ing o f T-Wra p p e rs fo r In fo rm a tio n Extra c tio n, In Pro c . AA AI-99 Wo rksho p o n M a c hine Le a rn ing fo r In fo rm a tio n Extra c tio n, 19 99 .
B. Tho m a s, An ti-Un ific a tio n Ba se d Le a rn ing o f T-Wra p p e rs fo r In fo rm a tio n Extra c tio n, In Pro c . AA AI-99 Wo rksho p o n M a c hine Le a rn ing fo r In fo rm a tio n Extra c tio n, 19 99 .
d ivisã o e m fra g m e nto s
c la ssific a ç ã o
e xtra ç ã o d e c a ra c te rístic a s
fra g m e nto 1
fra g m e nto 1
fra g m e nto 2
fra g m e nto 2
fra g m e nto 3
fra g m e nto 3
fra g m e nto 4
fra g m e nto 4130
10
041
20
152
13
2325
a uto r títu lo c o nfe rê nc ia d a ta
Wrappers – Modelos de Markov escondidos
Exploram a ocorrência dos padrões em seqüência no texto de entrada para classificá-los de uma só vezMaximiza a probabilidade de acerto para
todo o conjunto de padrões
Wrappers – Modelos de Markov escondidos
Modelos de Markov - definiçãoConjunto de estados S Probabilidade a priori (s) para os estados s
S Probabilidade de transição Pr[s’/s] do
estado s S para o estado s’ S S = {ensolarado, chuvoso, nublado} (nublado) Pr[chuvoso/ensolarado]
Wrappers – Modelos de Markov escondidos
Estados ocultos É possível observar os símbolos (estados visíveis)
emitidos pelos estados escondidos A cada estado oculto, é associada uma das
classes a serem extraídas Cada estado oculto emite tokens de acordo
com a probabilidade de pertencer à classe associada ao estado
Criado o modelo, pode-se utilizar o algoritmo Viterbi para decodificar uma entrada e determinar os estados ocultos associados
Wrappers – Modelos de Markov escondidos
B. Tho m a s, An ti-Un ific a tio n Ba se d Le a rn ing o f T-Wra p p e rs fo r In fo rm a tio n Extra c tio n, In Pro c . AAA I-99 Wo rksho p o n
B. | Tho m a s | , | Anti-Un ific a tio n | Ba se d | Le a rn ing | o f | T-Wra p p e rs | fo r | In fo rm a tio n | Extra c tio n | , | In | Pro c . | AAA I-99 | Wo rksho p | o n | M a c h ine | Le a rn ing |
B.= a uto r | Tho m a s = a uto r| ,= o utro | Anti-Unific a tio n = títu lo | Ba se d = título | Le a rning = títu lo | o f = títu lo | T-Wra p p e rs = título | fo r = títu lo | Info rm a tio n = títu lo | Extra c tio n = títu lo | , = o utro | In = c onfe rê nc ia | Pro c . = c o nfe rê nc ia | AAAI-99 = c o nfe rê nc ia | Wo rksho p = c o nfe rê nc ia | o n = c o nfe rê nc ia | M a c hine = c o nfe rê nc ia | Le a rning = c o nfe rê nc ia | fo r = c o nfe rê nc ia | Info rm a tio n = c onfe rê nc ia | Extra c tion = c o nfe rê nc ia | , = o utro | 1999. = d a ta
a u to r
o u tro sS0
títu lo
d a ta
0 ,2
0 ,80 ,2
0 ,50 ,5
0 ,50 ,50 ,5
0 ,5
0 ,5
0 ,1
0 ,5
0 ,2
Alg o ritm o Vite rb iHM M
Extração de Informação em DocumentosPalavras-chave
IndexaçãoCatalogação
Empresa do Rio de Janeiro com mais de 12 anos de experiênciaem Gerenciamento Eletrônico de Documentos.
Aplicações de RI
Extração de Informação em DocumentosConteúdo
Análise EstruturalAnálise Semântica
Empresa portuguesa responsável por 3,4% do PIB de Portugal.
Aplicações de RI
Extração de Informação em DocumentosAnálise do Código Fonte de Aplicações
Uso de PadrõesQualidade do Código
Empresa de Curitiba, oferece sistemas de análise do código fonteem diversas linguagens.
Aplicações de RI
Extração de Informação na WEBFiltragem de Fóruns
Controle do ConteúdoAssunto dos Diálogos
Empresa de São Paulo com mais de 20 anos de mercado. Oferecesoluções para e-learning.
Aplicações de RI
Extração de Informação na WEBMonitoramento da WEB
Busca por HackersBusca por Terroristas
Empresa mundialmente reconhecida, presente no Brasil há 10 anos,oferecendo soluções nas áreas de segurança web e redes.
Aplicações de RI
Extração de Informações EstratégicasBusiness Intelligence
Análise de MercadoMelhoria de Processos
Empresa brasileira que oferece soluções na área de BI.
Aplicações de RI
Extração de Informações EstratégicasAnálises Biológicas de Dados
Regiões Codificantes (DNA)Regiões Ativas (Proteínas)
National Center for Biotechnology Information, criado em 1988, localizadonos Estados Unidos. É a principal fonte de informações sobre Genômicana Internet.
Aplicações de RI
Extração de Informações EstratégicasAnálises de Arquivos de LOG
Logs de ErroLogs de Acesso
Empresa mundialmente reconhecida, com mais de 25 anos, oferecesoluções para a análise de logs de erro e acesso a bancos de dados.
Aplicações de RI
Extração de Informações EstratégicasAnálises de Imagens
GeologiaClimatologiaAstrologia
Empresa brasileira com 10 anos de mercado, oferece soluções paraanálise e classificação de imagens.
Aplicações de RI