sistemas de pergunta e resposta equipe: artur luis do nascimento eudes pimentel canuto marcelo...

88
Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes Lima da Cunha

Upload: internet

Post on 19-Apr-2015

107 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Sistemas de Pergunta e Resposta

Equipe:Artur Luis do Nascimento

Eudes Pimentel CanutoMarcelo Victor Calado de Sousa Costa

Márcio Bernardino Fernandes Lima da Cunha

Page 2: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Roteiro

• Introdução• Motivação• Histórico • Sistemas de Pergunta-Resposta• Sistemas de Pergunta-Resposta

Atuais• Estudo de Caso• Conclusão

Page 3: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Introdução

• Um sistema de Pergunta-Resposta é um programa capaz de receber como entrada uma pergunta em linguagem natural e retornar a resposta esperada.

• A base de dados pesquisada pode conter dados estruturados ou documentos sem nenhuma estruturação.

Page 4: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Motivação

• O usuário deseja fazer uma pergunta em linguagem natural e obter a resposta correta no contexto do documento onde ela ocorre.

• Os engenhos de busca convencionais negligenciam a semântica da pergunta e dos documentos indexados, o que os torna inadequados para esse tipo de aplicação.

Page 5: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Histórico

• Em 1965, vários sistemas de Pergunta-Resposta foram analisados:– Front-ends em Linguagem Natural para

Bancos de Dados• Ex: Baseball, Lunar

– Sistemas de Diálogo Interativo• Ex: Jupiter

– Compreensão de Texto• QUALM

• Normalmente usavam bases proprietárias

Page 6: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Recuperação de Informação

• É o processo de recuperar de uma base documentos relevantes.

• RI está relacionada com sistemas de pergunta-respostas.

• Sistemas de RI retornam documentos, e não respostas objetivas.

Page 7: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Recuperação de Informação

• RI é relevante para sistemas de pergunta-resposta por dois motivos principais:– As técnicas tradicionais de RI foram

estendidas para não só retornar documentos relevantes.

– A comunidade de RI desenvolveu uma sólida metodologia para avaliação dos seus sistemas.

Page 8: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Extração de Informação

• Consiste em uma atividade de preencher templates pré-definidos a partir de documentos em linguagem natural.

• EI pode ser vista como uma forma limitada de sistemas de pergunta-resposta.

Page 9: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Arquitetura Genérica

Usuário

Documentos

Referências aos Documentos

Consulta

Trechos Candidatos

Representação da Pergunta

Representação da Pergunta

Resposta

Pergunta

Análise da Pergunta

Seleção de Documentos Candidatos

Pré-Processamento da Coleção de Documentos

Extração das Respostas

Contrução do Resultado

Coleção de Documentos

Modelo do Usuário

Contexto do Diálogo

Documentos Pré-Processados

Resposta Candidata

Page 10: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Análise da Pergunta

• A pergunta precisa ser convertida num formato (ou em alguns formatos).

• A pergunta pode ser interpretada: – No contexto de um diálogo em

andamento.– Sob a óptica de um modelo do usuário

que o sistema eventualmente possua.

Page 11: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Análise da Pergunta

Usuário

Documentos

Referências aos Documentos

Consulta

Trechos Candidatos

Representação da Pergunta

Representação da Pergunta

Resposta

Pergunta

Análise da Pergunta

Seleção de Documentos Candidatos

Pré-Processamento da Coleção de Documentos

Extração das Respostas

Contrução do Resultado

Coleção de Documentos

Modelo do Usuário

Contexto do Diálogo

Documentos Pré-Processados

Resposta Candidata

Page 12: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Pré-Processamento da Coleção de Documentos

• A coleção de documentos precisa ser processada a priori para que seja convertida num formato adequado para o processamento em tempo real.

Page 13: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Pré-Processamento da Coleção de Documentos

Usuário

Documentos

Referências aos Documentos

Consulta

Trechos Candidatos

Representação da Pergunta

Representação da Pergunta

Resposta

Pergunta

Análise da Pergunta

Seleção de Documentos Candidatos

Pré-Processamento da Coleção de Documentos

Extração das Respostas

Contrução do Resultado

Coleção de Documentos

Modelo do Usuário

Contexto do Diálogo

Documentos Pré-Processados

Resposta Candidata

Page 14: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Seleção de Documentos Candidatos

• Um subconjunto do total dos documentos da base é selecionado.

Page 15: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Seleção de Documentos Candidatos

Usuário

Documentos

Referências aos Documentos

Consulta

Trechos Candidatos

Representação da Pergunta

Representação da Pergunta

Resposta

Pergunta

Análise da Pergunta

Seleção de Documentos Candidatos

Pré-Processamento da Coleção de Documentos

Extração das Respostas

Contrução do Resultado

Coleção de Documentos

Modelo do Usuário

Contexto do Diálogo

Documentos Pré-Processados

Resposta Candidata

Page 16: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Extração das Respostas

• Através da utilização de representações adequadas da pergunta e de cada documento candidato, as respostas candidatas são extraídas e repassadas ao módulo seguinte.

Page 17: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Extração das Respostas

Usuário

Documentos

Referências aos Documentos

Consulta

Trechos Candidatos

Representação da Pergunta

Representação da Pergunta

Resposta

Pergunta

Análise da Pergunta

Seleção de Documentos Candidatos

Pré-Processamento da Coleção de Documentos

Extração das Respostas

Contrução do Resultado

Coleção de Documentos

Modelo do Usuário

Contexto do Diálogo

Documentos Pré-Processados

Resposta Candidata

Page 18: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Construção do Resultado

• Esse módulo recebe as respostas candidatas e deve ordená-las.

• O resultado que é retornado ao usuário pode ser influenciado: – Pelo contexto de um possível diálogo

em andamento.– Pelo modelo do usuário que o sistema

eventualmente tenha.

Page 19: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Construção do Resultado

Usuário

Documentos

Referências aos Documentos

Consulta

Trechos Candidatos

Representação da Pergunta

Representação da Pergunta

Resposta

Pergunta

Análise da Pergunta

Seleção de Documentos Candidatos

Pré-Processamento da Coleção de Documentos

Extração das Respostas

Contrução do Resultado

Coleção de Documentos

Modelo do Usuário

Contexto do Diálogo

Documentos Pré-Processados

Resposta Candidata

Page 20: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Sistemas de Pergunta-Resposta Atuais

• As primeiras pesquisas na área de Pergunta-Resposta foram desenvolvidas em meados dos anos 60.

• Desde então, pesquisas na área com focos diferentes foram realizadas.

Page 21: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Sistemas de Pergunta-Resposta Atuais

• Atualmente, a maior parte das pesquisas na área tem um escopo bem definido:– Desenvolver sistemas capazes de responder

as perguntas dos usuários através de busca numa coleção de documentos não-estruturados.

• Essa tendência é motivada principalmente pelas competições anuais organizadas pelo TREC.

Page 22: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Arquitetura de Sistemas de PR Atuais

• Dois módulos normalmente não estão presentes:– Contexto do Diálogo– Modelo do Usuário

• Não são necessários para que os tipos de perguntas que os sistemas tratam atualmente sejam respondidas.

Page 23: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Contexto do Diálogo

• O Sistema deve guardar informações relativas as perguntas anteriores.

• Exemplo:– Quando foi o decretado o impeachment de

Fernando Collor?• Em 1992.

– Qual foi a importância da participação popular para isso?

• ...

Page 24: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Modelo do Usuário

• Busca da informação baseada no perfil do usuário.

• Exemplo:– Um usuário que em seu perfil é fã de futebol

faz a seguinte pergunta ao sistema:• Quem foi o campeão brasileiro de 1987?

– SPORT

Page 25: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Arquitetura de Sistemas de PR Atuais

• Tem o objetivo de responder uma pergunta mediante pesquisa em uma base de documentos não-estruturados.

• Geralmente apresentam 7 módulos:– Análise da Pergunta, Pré-Processamento da

Coleção de Documentos, Seleção de Documentos Candidatos, Extração das Respostas e Construção do Resultado.

• Como foi destacado anteriormente, não costumam possuir os módulos que armazenam o contexto do diálogo em andamento e o modelo do usuário.

Page 26: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Arquitetura de Sistemas de PR Atuais

Usuário

Documentos

Referências aos Documentos

Consulta

Trechos Candidatos

Representação da Pergunta

Representação da Pergunta

Resposta

Pergunta

Análise da Pergunta

Seleção de Documentos Candidatos

Pré-Processamento da Coleção de Documentos

Extração das Respostas

Contrução do Resultado

Coleção de Documentos

Documentos Pré-Processados

Resposta Candidata

Page 27: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Análise da Pergunta

Análise

da

Pergunta

Pergunta Representação da Pergunta

Usuário

• Entrada: uma pergunta expressa em linguagem natural realizada pelo usuário e taxonomia de tipos.

• Saída: uma ou mais representações da pergunta, que serão usadas em fases subseqüentes.– Identificação de sua taxonomia.

Taxonomia de Tipos

Page 28: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Análise da Pergunta

• Como forma de simplificar o processamento, podem-se impor restrições à linguagem utilizada.

• Utilizando um subconjunto da linguagem natural, com limitações sobre o vocabulário e a sintaxe.

• Apresentando ao usuário um formulário com campos pré-definidos, através do qual ele deve construir sua pergunta.

Simplifica enormemente o processo de interpretação da pergunta.Limita bastante a expressividade das perguntas que o usuário pode formular.

Page 29: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Análise da Pergunta

• Classificação da pergunta de acordo com uma taxonomia de tipos semânticos da entidade procurada pela pergunta.

• Determinação de novas restrições sobre a entidade de resposta. Por exemplo:– Identificação de palavras-chave na pergunta

que serão usadas no processo de casamento com sentenças que contêm as respostas candidatas;

– Identificação de relações (sintáticas e semânticas) que podem existir entre uma entidade na resposta candidata e entidades presentes na pergunta.

Page 30: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Taxonomia de Tipos de Pergunta

• Servem para classificar as perguntas dos usuários no sistema.

• Pode ser complexa ou simples:– Sendo essa escolha uma decisão de projeto

que deve ser analisada pela equipe de pesquisa e desenvolvimento do sistema.

• Devem ser suficientemente genéricas para cobrir todas as possíveis perguntas dos usuários.

Page 31: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Taxonomia de Tipos de Pergunta

• As perguntas são classificadas de acordo com essa lista segundo dois métodos:– indução de regras de decisão – um algoritmo heurístico baseado em regras

• Exemplos de categorias:• Pessoa• Lugar• Data• Numero• Definição• Organização• ...

Page 32: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Taxonomia de Tipos de Pergunta

Exemplo de taxonomia de tipos complexa apresentada por Pasça e Harabagiu

Page 33: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Taxonomia de Tipos de Pergunta

• Construção de taxonomia de tipos complexas envolve vários passos, além da utilização de ferramentas léxico-semânticas como o WoedNet.

Page 34: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Classificação da Pergunta

• Uma vez criada uma taxonomia dos possíveis tipos de pergunta, é necessário um algoritmo para efetivamente realizar a classificação.

• Uma abordagem bastante intuitiva para a classificação é observar a principal palavra interrogativa da pergunta, a wh-word.

• Por exemplo:– quando indica a procura por uma data– onde por um lugar– quem por uma pessoa– ...

Page 35: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Classificação da Pergunta

• Entretanto, essa abordagem pode não ser suficiente, já que várias das wh-words, como qual ou que, não contêm muita informação sobre o tipo semântico da resposta. Por exemplo:– Qual o nome da capital da Itália?– Qual é o carro mais rápido do mundo?– Qual era a nacionalidade de Che Guevara?

• São iniciadas pela mesma wh-word (“qual”)• Porém procuram por uma entidade diferente:

– Lugar– Objeto– Nacionalidade,

Page 36: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Classificação da Pergunta

• Para isso são necessárias técnicas para classificação da pergunta:– Técnicas Heurísticas– Técnicas Baseadas em Aprendizagem de

Máquina

Page 37: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Técnicas Heurísticas

• A maioria dos trabalhos na área de Pergunta-Resposta utiliza abordagens essencialmente heurísticas para a classificação das perguntas.

• Essa técnica apresenta a vantagem de ter uma implementação bastante simples e um alto grau de precisão na classificação.

• O framework geral de algoritmos baseados nessas técnicas será mostrado a seguir:

Page 38: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Técnicas Heurísticas – Passo 1

• Através da análise da wh-word da pergunta, tentar inferir imediatamente o tipo de resposta esperado.

• Através dessa regra de associação simples é possível classificar perguntas iniciadas por wh-words que são boas discriminantes, como:– ‘por que’ (indica uma razão) – ‘onde’ (lugar) – ‘quando’ (data)– ...

Page 39: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Técnicas Heurísticas – Passo 2

• Caso o tipo não possa ser completamente determinado no Passo 1, através da utilização de um parser, o núcleo do primeiro sintagma nominal da pergunta após a wh-word é extraído de forma a se determinar a que classe ele está associado.

• Exemplo:– Qual é a capital do Brasil?– O sintagma nominal após a wh-word é “... é a

capital do Brasil”, cujo núcleo é “capital”.– Através da utilização de uma ferramenta que

consegue mapear palavras em tipos semânticos, um sistema de Pergunta-Resposta poderia classificar a pergunta acima na classe “Lugar”.

Page 40: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Técnicas de Aprendizagem de Máquina

• Apesar da aplicação de técnicas heurísticas, como aquelas apresentadas na seção anterior, ser uma abordagem clássica para o problema de classificação da pergunta, existem trabalhos que propõem técnicas diferentes.

• Utilizada, tanto para construção da taxonomia de tipos quanto para a classificação das perguntas.

Page 41: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Técnicas de Aprendizagem de Máquina

• A taxonomia é construída em dois níveis de hierarquia:– O primeiro nível, mais genérico, possibilita

que a classificação seja realizada mais facilmente

– As classes definidas no segundo nível provêem uma especificação mais precisa das categorias.

• O classificador pode utilizar um conjunto de treinamento com cerca de 6.000 perguntas manualmente classificadas.

Page 42: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Outras Etapas de Análise da Pergunta

• Uma vez identificado o tipo da entidade procurada, o restante do processo de análise da pergunta se resume a identificar restrições adicionais a que as respostas candidatas deverão satisfazer.

• Esse processo pode ser realizado através da extração de palavras-chave do restante da pergunta, que serão usadas no casamento da pergunta com as sentenças que contêm as respostas candidatas.– Esse conjunto de palavras-chave pode,

adicionalmente, ser expandido através do uso de sinônimos ou palavras relacionadas

Page 43: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Pré-Processamento da Coleção de Documentos

• Como as perguntas devem ser processadas em tempo real através de pesquisas em coleções de documentos de texto da ordem dos gigabytes, um pré processamento off-line dos dados é necessário.

• Alto custo da estrutura computacional necessária para se manter uma base com as informações vindas desse pré-processamento.

• O processamento sobre a coleção de documentos geralmente é realizada por engenhos de busca.

Page 44: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Seleção de Documentos Candidatos

• Responsável pela identificação dos documentos que provavelmente contém a resposta para a pergunta do usuário

• Escolha do tipo de engenho de busca

Page 45: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Seleção de Documentos Candidatos

• Principais componentes desse módulo

– Construtor de Queries• responsável por construir queries eficazes a partir

da pergunta do usuário, que serão enviadas ao(s) engenho(s) de busca utilizado(s).

– Seletor de Trechos• deve selecionar, a partir dos documentos

recuperados, as passagens que mais provavelmente contêm as respostas.

Page 46: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Construtor de Queries

•Papel fundamental em qualquer sistema de pergunta-resposta

•Deve ser capaz de recuperar documentos onde a resposta procurada ocorra sob diversas construções diferentes

Page 47: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Construtor de Queries

• Modificação de Verbos• Expansão de Termos• Remoção de Palavras Irrelevantes

(Stopwords)• Identificação de Termos Compostos• Reescrita da Pergunta

Page 48: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Modificação de Verbos

• Em perguntas em inglês com um verbo auxiliar “do” e um verbo principal, a resposta deve ocorrer num trecho que contém o verbo principal na forma conjugada. Ex.: “When did Nixon visit China?”

• Dessa forma, uma query poderia ser construída com os termos “Nixon visited China in...”.

Page 49: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Expansão de Termos

• Dada uma pergunta, é possível que os trechos de documentos com sua resposta contenham sinônimos de termos usados na pergunta, ou palavras semanticamente relacionadas a esses termos

• Por exemplo, se uma pergunta foi identificada como sendo da categoria INTERVALO DE TEMPO, os seguintes termos são adicionados à query: horas, minutos, semanas, ...

Page 50: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Remoção de Palavras Irrelevantes (Stopwords)

• Palavras como pronomes, artigos, preposições, conjunções e interjeições são removidas

• Além da exclusão de stopwords, pode haver também a exclusão de palavras comuns

Page 51: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Identificação de Termos Compostos

• Alguns termos compostos, como os substantivos próprios, são atômicos e devem ser tratados dessa forma

• Esses termos podem ser identificados através de:– Identificação de expressões entre

aspas ou iniciadas por letra maiúscula na pergunta

– Identificação de sintagmas nominais. Ex.: “What is question answering?” -> “question answering”

Page 52: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Reescrita da Pergunta

• É feita através da movimentação das palavras, cujo objetivo é achar a ordem em que a resposta poderá ocorrer

• Duas formas de movimentações:– Entre sujeito e verbo auxiliar

• Ex.: “Who was the first American in space?” ->“was the first American in space” e

“the first American in space was”

– Entre sujeito e verbo• Ex.:“Who shot JFK?” -> “shot JFK”

Page 53: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Seleção de Trechos Candidatos

• É necessário que se selecionem os trechos dos documentos selecionados que serão posteriormente processados, em busca de possíveis respostas para a pergunta do usuário

• Pode ser realizada de duas formas: – Utilização dos resumos de documentos

retornados pelos engenhos de busca – Busca, no documento inteiro, de trechos

que foram julgados importantes.

Page 54: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Busca de Trechos Candidatos no Documento

• A identificação desses trechos é feita através de variações da seguinte técnica: define-se uma janela de tamanho fixo e ordenam-se as janelas de acordo com a quantidade de termos importantes que elas contêm

• Quantidade de termos importantes– Regras simples– Métodos mais sofisticados como idf

(inverse document frequency)

Page 55: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Utilização de Resumos dos Engenhos de Busca

• Diversos sistemas de Pergunta-Resposta utilizam apenas os resumos retornados pelos engenhos de busca para localizar respostas para a pergunta do usuário

• Principais Vantagens– Eficiência– O processo de identificação de trechos

candidatos é simplificado

Page 56: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Extração das Respostas

• Deve ser capaz de efetuar a identificação de possíveis respostas nos trechos selecionados.

• Existem duas tendências neste módulo– Baseada no uso de técnicas e

ferramentas lingüísticas– Baseada no uso de padrões superficiais

de texto

Page 57: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Técnicas Lingüísticas

• Uma das técnicas lingüísticas mais utilizadas é, através do uso de named entity recognizers.Ex.:Pergunta: Quem é o presidente da Venezuela?Trecho Candidato: Hugo Chávez, atual presidente da Venezuela, é conhecido por...

Page 58: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Técnicas Baseadas em Padrões de Texto

• Os trechos candidatos são comparados com uma série de indicadores (padrões) pré-definidos, que têm pesos associados previamente

• Esses padrões têm estrutura similar à de expressões regulares adicionando-se elementos correspondentes a listas de termos

Page 59: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Técnicas Híbridas

• Há um problema com o uso de padrões puramente textuais

• Têm surgido trabalhos com o objetivo de tornar a técnica de padrões mais genérica. São usadas ferramentas de processamento de linguagem natural, como named entity recognizers em conjunto com padrões

Page 60: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Construção do Resultado

• Tem como função construir uma lista ordenada com as respostas candidatas, de acordo com a probabilidade de cada uma ser a correta. Apresenta duas técnicas:– Normalização das respostas– Ordenamento das respostas

Page 61: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Normalização das Respostas

• Respostas candidatas semanticamente idênticas (ou equivalentes) podem estar escritas de formas diferentes

• Torna-se necessária a normalização (único formato) dessas respostas para posteriormente elas serem ordenadas

Page 62: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Ordenamento das Respostas

• Técnicas– Votação– Votação + Outras Técnicas

• Associação de pesos ao trecho que contém a resposta candidata

• Conceito de qualidade ou autoridade dos documentos (Google)

• ...

• Apresentação da resposta

Page 63: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Pergunte!Uma Interface em Português para

Pergunta-Reposta na Web

Page 64: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Pergunte!

• Sistema PR voltado para Língua Portuguesa

• Trabalho de Mestrado de Juliano RabeloCIn – UFPE 2004

• Utiliza a Web como fonte de informação

Page 65: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Arquitetura do Pergunte!

Page 66: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Módulo de Análise da pergunta

• Entrada: Uma pergunta em linguagem natural sem restrições– Como o sistema não possui módulos de perfil do

usuário nem de suporte a diálogo a pergunta submetida não é acompanhada de entradas implícitas.

• Saída: Conjunto de representações da pergunta que serão utilizadas nos estágios subseqüentes.– Classe da pergunta – Termos atômicos– Classes morfológicas das palavras

Page 67: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Exemplo do processamento do módulo

Page 68: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Detalhamento do módulo 1/3

•Classificação das Perguntas–Definição da Taxonomia de Tipos

•12 categorias: Localização, Data, Quantidade, Razão, Porque_Famoso, Modo, Definição, Tradução, Função, Abreviação, Abreviação_Expansão e Nome

–O classificador de perguntas

Page 69: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Detalhamento do Módulo 2/3

• POS-Tagging– Atribuição de classes morfológicas – POS-Tagger treinado para português- Utilização dentro do próprio módulo

(classificação) e no módulo de seleção de documentos candidatos (Const. De Queries)

– Diversas técnicas de implementação de POS-Taggers:

• Baseadas em métodos estatísticos• Modelos de Markov• Árvores de decisão estatísticas• Baseadas em regras

Page 70: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Detalhamento do Módulo 3/3

• Identificação de termos atômicos– Utilização de Heurísticas para

determinação dos termos– Representação da pergunta desse

submódulo serve de entrada para os módulos:

• Seleção de documentos candidatos• Módulo de extração de respostas

– Alguns termos sem identificação• Solução: Utilização de ferramentas linguísticas como

parsers ou NP-Chunkers.

Page 71: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Módulo de Seleção de Documentos Candidatos

Page 72: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Módulo de Seleção de Documentos Candidatos

• Iteração com os engenhos de busca

• Construção de Queries– Papel fundamental em qualquer

sistema de Pergunta-Resposta– Construção de várias queries

diferentes• Reescrita da Pergunta• Termos atômicos • Termos simples

Ordem de relevância

Page 73: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Módulo de Seleção de Documentos Candidatos

• Várias queries• Reescrita da pergunta (mais restritivas, porém mais

precisas)– Ex: Qual é o princípio ativo do Tylenol?– “é o princípio ativo do Tylenol”– “o princípio ativo do Tylenol é”– “o princípio ativo do Tylenol”

• Termos atômicos– Ex: Quem escreveu “O Encontro Marcado”?– “escreveu” AND “O Encontro Marcado”

• Termos simples– “escreveu” AND “Encontro” AND “Marcado”

Page 74: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Módulo de Seleção de Documentos Candidatos

• Seleção de trechos– Utilização de resumos ou dos

documentos inteiros

– Identificação de trechos dos documentos retornados que serão utilizados no Módulo de extração de respostas.

– Uso de stoplist

Page 75: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Módulo de Extração das Respostas

Page 76: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Módulo de Extração das Respostas

• Usa a abordagem de padrões de texto– Não precisa de ferramentas lingüísticas

(parsers, taggers, WordNet...)– Obteve os melhores resultados nas

competições do TREC

• Padrões estáticos• Padrões dinâmicos

Page 77: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Padrão Estático

• Pergunta: Onde está localizado o Cristo Redentor? (tipo: Localização)

• Trecho Candidato: “Construído em 1931, o Cristo Redentor fica no topo do morro do Corcovado, no Rio de Janeiro.”

• Alguns padrões correspondentes ao tipo Localização:– fica no “RESPOSTA”– se situa na “RESPOSTA”– estão localizados em “RESPOSTA”

Page 78: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Padrão Dinâmico

• Pergunta: Quem é o recordista mundial dos 100 metros rasos? (tipo: Nome)

• Queries do tipo Reescrita da Pergunta:– “é o recordista mundial dos 100 metros rasos”– “O recordista mundial dos 100 metros rasos é”– “O recordista mundial dos 100 metros rasos”

• Trecho candidato: “Tim Montgomery, o recordista mundial dos 100 metros rasos, foi o primeiro atleta a alcançar a marca de...”

• Padrões dinâmicos construídos para a pergunta acima:– “RESPOSTA” é o recordista mundial dos 100 metros rasos– o recordista mundial dos 100 metros rasos é “RESPOSTA”– “RESPOSTA” o recordista mundial dos 100 metros rasos– o recordista mundial dos 100 metros rasos “RESPOSTA”

Page 79: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Módulo de Construção do Resultado

Page 80: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Módulo de Construção do Resultado

• Normalização das respostas

– Clustering das respostas candidatas• Baseado no Modelo do Espaço de Vetores

– Centróide + medida do co-seno• Datas agrupadas de maneira especial

– Ordenamento das respostas

Page 81: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Protótipo

• Seguiu a arquitetura apresentada• Orientado a objetos em Java• Reusabilidade, extensibilidade e

modularidade• Metodologia de desenvolvimento

baseada em conceitos de XP• Alguns padrões de projeto foram

aplicados

Page 82: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Testes

• Corpus de 417 perguntas criado a partir do TREC 11– A tradução procurou manter o nível de

dificuldade– Perguntas literalmente traduzidas

• When was the telegraph invented? • Quando o telégrafo foi inventado?

– Perguntas com pequenas adaptações• How high is Mount Kinabalu?• Qual a altura do Monte Kinabalu?

– Perguntas inteiramente reformuladas• What is the democratic party symbol?• Qual é o símbolo do PT?• What river is called “China’s Sorrow”?• Que rio é chamado de “Rio da Integração Nacional”

Page 83: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Resultados

•Classificador de perguntas: 99,04% de acertos

–Taxonomia simples

•Sistema:

Respostas Pergunte! usando

Certas Erradas Sem Resposta

Docs. Completos 250 (59,95%) 82 (19,66%) 85 (20,38%)

Descrição 226 (54,19%) 99 (23,74%) 92 (22,06%)

Page 84: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Conclusão

Page 85: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Contribuições

• Criação do primeiro sistema de Pergunta-Resposta em português na Web– Pode ser estendido ou reutilizado como

um framework em sistemas de Pergunta-Resposta em português

• Construção de um corpus de perguntas em português

Page 86: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Dificuldades encontradas

• Falta de um corpus em português• Limitação de recursos lingüísticos• Poucos documentos em português

na Web• Dificuldades de ordem técnica

– Diversas ferramentas foram utilizadas: JTidy, HttpClient, Castor, jUnit...

Page 87: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

Perguntas

?

Page 88: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes

OBRIGADO!