cin/ufpe processamento de linguagem natural flávia barros centro de informática - ufpe

33
CIn/UFPE Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE

Upload: internet

Post on 22-Apr-2015

164 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: CIn/UFPE Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE

CIn/UFPE

Processamento de Linguagem Natural

Flávia BarrosCentro de Informática - UFPE

Page 2: CIn/UFPE Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE

CIn/UFPE

Roteiro

Breve histórico

Arquitetura geral de sistemas de PLN

Etapas na interpretação da LN• Processamento morfológico• Processamento sintático• Análise semântica• Análise do discurso• Processamento pragmático

Page 3: CIn/UFPE Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE

CIn/UFPE

Processamento de Linguagem Natural

Há 20 anos atrás...• Os dados estavam ordenadamente armazenados em

Bancos de Dados

Hoje:• Os dados estão armazenados em forma de texto livre

– e.g., Internet

• Como ter acesso a esses dados?

Processamento de Linguagem Natural (PLN) !!!

• tem por objetivo interpretar e gerar frases isoladas ou textos em alguma língua natural

• congrega estudos da Lingüística e da Ciência da Computação.

Page 4: CIn/UFPE Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE

CIn/UFPE

Um Pouco de História Déc. 40 - 60:

• Tradução automática (Ling.)• Recuperação de informação (C.C.)

Final 60 - 70• Técnicas de Inteligência Artificial para representar e

manipular conhecimento• Sistemas de pergunta-resposta • Interfaces em L.N. para bancos de dados e bases de

conhecimento

Final 70 - final 80• Lógica de Predicados e Frames para representar

conhecimento e fazer inferência• Análise automática do discurso• Geração de linguagem natural• PLN conexionista• Ressurgimento de tradução automática (EUROTRA,UNL)

Page 5: CIn/UFPE Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE

CIn/UFPE

Um Pouco de História

Final 80 - 90:• PLN estatístico (grandes corpora)• Recuperação de informação na Web• Apresentações multimídia• Ajuda on-line • Sistemas tutores inteligentes

Outras aplicações:• Verificadores ortográficos e gramaticais• Reconhecimento e síntese de voz• Extração de informação• Geração de resumos• Avaliação empírica de teorias lingüísticas

Page 6: CIn/UFPE Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE

CIn/UFPE

Arquitetura de Sistemas para PLN

Etapas:

• Processamento morfológico

• Processamento sintático

• Análise semântica

• Análise do discurso

• Processamento pragmático

Ver figura na apostila

Page 7: CIn/UFPE Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE

CIn/UFPE

Processamento Morfológico

Objetivo:

Na interpretação: decompor as palavras da frase de entrada em radical + morfema gramatical

• morfologia inflexional:– menina = menin + a– cadeiras = cadeira + s

• morfologia derivativa:– fazia = faz + ia– desfaz = des + faz

Na geração: gerar as palavras que vão formar a frase a partir do seu radical + morfema gramatical

Page 8: CIn/UFPE Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE

CIn/UFPE

Processamento Morfológico

Análise morfológica:

• Utiliza os radicais, morfemas gramaticais e regras morfológicas de formação das palavras

• É central na construção de – verificadores ortográficos automáticos– qualquer aplicação com léxico e gramática de grande

tamanho

Page 9: CIn/UFPE Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE

CIn/UFPE

Processamento Sintático

Objetivo:

Na interpretação:

• obter a representação da estrutura sintática da frase: Parsing

Na geração:

• determinar a estrutura sintática da frase a ser gerada

Page 10: CIn/UFPE Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE

CIn/UFPE

A partir de agora...

Veremos apenas Interpretação de Linguagem Natural

Page 11: CIn/UFPE Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE

CIn/UFPE

Processamento Sintático

Parser:

• algoritmo que mapeia uma frase na sua estrutura sintática

• com base no léxico e na gramática do sistema.

Page 12: CIn/UFPE Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE

CIn/UFPE

Parsing

Etapas de processamento:

• rotular cada palavra com sua categoria sintática (pos-tagging)

– mesa: substantivo; casa: subst. ou verbo• delimitar constituintes sintáticos - sintagmas

(bracketing)• rotular os constituintes com categorias sintáticas

– SN (sintagma nominal), SV (sintagma verbal), etc– Gramática de Constituintes Imediatos

• rotular os constituintes com sua função sintática – sujeito, objeto, predicado, ...

• identificar dependências estruturais entre os constituintes

– oração coordenada, subordinada, embedding,...

Page 13: CIn/UFPE Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE

CIn/UFPE

O Léxico

Dicionário com os termos utilizados pelo sistema.

Existem variados formalismos para representação dos léxicos.

A representação do léxico deve estar de acordo com a da gramática do sistema.

Exemplos de entradas de um léxico em PATR-II (Shieber 1984):

mesa<categoria> = substantivo<gênero> = feminio<número> = singular<contável> = yes

comprou<cat> = verbo<tempo> = pretérito-perfeito<número> = singular<pessoa> = 3<voz passiva> = yes<arg1> = SN<arg2> = SN

Page 14: CIn/UFPE Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE

CIn/UFPE

A Gramática

Define, através de regras, quais são as cadeias de palavras válidas para o sistema.

Sistemas de PLN tratam um sub-conjunto de uma língua natural.

Existem diversos formalismos para a representação de gramáticas.

Exemplos de regras de uma gramática em PATR-II:• este formalismo oferece mecanismos para verificação de

concordância gênero e número, por exemplo.

SN Subst Adj<Subst gênero> = <Adj gênero><Subst número> = <Adj número>

SN Det Subst<Det gênero> = <Subs gênero><Det número> = <Subs número>

Page 15: CIn/UFPE Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE

CIn/UFPE

Ambigüidade no nível Sintático

Frases onde as palavras podem assumir categorias sintáticas diferentes, a depender da interpretação:• I saw her duck

Ambigüidade estrutural:• Eu vi o banco da praça• Eu vi o rapaz no parque com o binóculo.

(1) O rapaz estava com o binóculo(2) Eu estava com o binóculo

Page 16: CIn/UFPE Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE

CIn/UFPE

Ambigüidade no nível Sintático

Ver figura na apostila

Page 17: CIn/UFPE Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE

CIn/UFPE

Interpretação Semântica

Estrutura sintática apenas não basta!

• frases com palavras e estruturas sintáticas diferentes, porém com mesmo significado:

(1) Eu dei um livro a Maria.

(2) Maria recebeu um livro de mim.

• receber e dar conceito semântico de transferência

Controle de inferência

• Eu vi uma baleia grande– eu vi uma baleia– eu vi algo grande

• Eu vi uma baleia pequena– eu vi algo pequeno???

Page 18: CIn/UFPE Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE

CIn/UFPE

Interpretação Semântica

Semântica• estuda o significado das palavras e como elas se

combinam para formar o significado das frases.

Objetivo: Na interpretação: mapear a estrutura lingüística da

frase nos conceitos do domínio que a frase pode expressar.• problema: ambigüidade

– Ela estava em minha companhia (1) companhia = empresa(2) companhia = pessoa (i.e., ela estava comigo)

Na geração: expressar os conceitos do domínio na estrutura lingüística da frase.• problema: paráfrase

Page 19: CIn/UFPE Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE

CIn/UFPE

Restrições de Seleção

Restrições de seleção são atribuídas às palavras no léxico:

• menino [+humano], [+masculino], [-adulto]

• pensamento [+abstrato]

• cabo [+vivente], [+humano], [+adulto]

• cabo [+concreto], [+inanimado]

• jovem = Substantivo modificado pelo adjetivo [+vivente]

• morrer = Substantivo sujeito do verbo [+vivente]

• Exemplo:

– o cabo é jovem

– o cabo é longo

Page 20: CIn/UFPE Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE

CIn/UFPE

Restrições de SeleçãoOntologias

Restrições de seleção definem classes semânticas de palavras, que podem ser organizadas em hierarquias de tipos (ontologias).

Page 21: CIn/UFPE Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE

CIn/UFPE

Gramáticas de Casos

Formalismo muito utilizado no processamento semântico de frases.

Papéis temáticos, ou casos, são atribuídos aos constituintes da frase.

Papéis temáticos são determinados pelo verbo, o constituinte central da frase.

Exemplo de entrada lexical para o verbo entregar:entregar, Verbo argumentos: agente, tema, beneficiário

• Eu entreguei a carta a Pedro.

Page 22: CIn/UFPE Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE

CIn/UFPE

Gramáticas de Casos

Ver figuras na apostila

Page 23: CIn/UFPE Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE

CIn/UFPE

O Modelo do Domínio

Fornece o contexto enciclopédico do sistema.

Armazena conhecimento a respeito das entidades, relações, eventos, lugares e datas do domínio da aplicação.

O conhecimento é representado em uma Ontologia do domínio, em um (ou mais de um) formalismo de IA • e.g., Lógica de Predicados, Redes Semânticas, Frames,

Scripts.

Na interpretação: interpretação do conteúdo implícito das palavras.

Na geração: escolha do conteúdo a explicitar.

Page 24: CIn/UFPE Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE

CIn/UFPE

Processamento Automático do Discurso

Problema:

Antônio quer fazer uma festa de formatura na sua casa.

Ele a limpou e arrumou ontem.

Qual o referente do pronome a?

• festa e casa apresentam os mesmos traços morfológicos (fem, sing) e sintáticos (subs).

• o que nos ajuda a optar por casa é o nosso conhecimento do mundo (ou senso comum).

Page 25: CIn/UFPE Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE

CIn/UFPE

Processamento Automático do Discurso

Como é possível resolver automaticamente problemas desta natureza?

Foram desenvolvidos teorias lingüísticas e algoritmos computacionais para representar, interpretar e gerar discurso, a fim de construir sistemas de PLN capazes de manter um diálogo com o usuário.

Discurso: qualquer produção lingüística composta por mais de uma frase.

Page 26: CIn/UFPE Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE

CIn/UFPE

Discurso tem Estrutura

(a) João e Maria saíram para comprar um cortador de grama novo

(b) porque o deles foi roubado.

(c) Maria viu os homens que o roubaram.(d) Ela os seguiu até o final da rua,(e) mas eles fugiram num caminhão.

(f) Depois de procurar no shopping center,(g) eles concluíram que não têm dinheiro para um novo.

(h) A propósito, João perdeu o emprego,(i) por isso ele está sem dinheiro.

(j) Finalmente, eles decidiram comprar um cortador usado.

Page 27: CIn/UFPE Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE

CIn/UFPE

Análise do Discurso

Estuda os princípios que governam a produção de seqüências estruturadas de frases = discurso escrito ou falado.

O discurso é formado por segmentos• unidades lingüísticas que contêm uma ou mais frases

consecutivas • que tratam do mesmo assunto (o foco daquele trecho do

discurso).

Qual a importância de se identificar a estrutura do discurso?• entre outras, a identificação dos referentes de pronomes

e dêiticos (e.g., hoje, aqui, agora).

Page 28: CIn/UFPE Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE

CIn/UFPE

Análise do Discurso

Como determinar automaticamente a fronteira entre segmentos?

• analisando a “superfície” do texto em busca de marcadores discursivos

– e.g., "A propósito", "Bem", "Como eu ia dizendo", "Em resumo", etc.

• analisando o "conteúdo semântico" do , em busca de identificar mudanças de foco.

Page 29: CIn/UFPE Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE

CIn/UFPE

O Modelo do Discurso

Fornece o contexto discursivo.

É construído dinamicamente durante o processamento do discurso.

Armazena informações sobre as frases previamente processadas.

Central na interpretação e geração de pronomes e dêiticos.

Geralmente, consiste em uma pilha contendo as caraterísticas sintáticas e semânticas das entidades já introduzidas no discurso.

Essa pilha deve espelhar a estrutura do discurso, indicando onde começa e termina cada segmento.

Page 30: CIn/UFPE Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE

CIn/UFPE

Processamento Pragmático

Pragmática• estuda os enunciados - frases com seu significado no

contexto do discurso.• tem como preocupação central a análise dos objetivos da

comunicação (interação social).

Atos da Fala • atividades desenvolvidas pelos falantes enquanto fazem

uso da íngua.1. Atos Locutórios - "A janela está aberta'’2. Atos Ilocutórios - ordem ou um pedido para fechar a janela3. Atos Perlocutórios - o efeito de um enunciado sobre o

(fechar a janela)

Problema: um mesmo enunciado pode realizar atos da fala diversos, dependendo do seu contexto de uso.

Page 31: CIn/UFPE Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE

CIn/UFPE

Atos da Fala

Tipos de Atos da Fala, e possíveis realizações lingüísticas:• Assertivos - assertiva, constatação, afirmação, negação • Diretivos - ordem, comando, requisição • Comissivos - promessa, garantia, juramento, aposta• Expressivos - elogio, agradecimento, parabenização • Declarativos

(a) encontro, indicação, declaração (b) declaração de guerra (c) estímulo, resignação, excomunhão

Exemplos:• Prometo que vou à festa.• Aposto que você vai gostar do livro.• Fale com o diretor.

Muito úteis na IA Distribuída, na comunicação entre os diversos agentes de uma sociedade.

Page 32: CIn/UFPE Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE

CIn/UFPE

Processamento Pragmático

É necessário em qualquer tarefa de PLN que requeira a análise das intenções dos participantes no discurso.• modelagem do usuário.

O Modelo do Usuário• fornece o contexto interpessoal.• armazena conhecimento a respeito do usuário do

sistema, por exemplo:– seus objetivos, planos, intenções, – sua função, seu status, – seu conhecimento do domínio.

Pode ser modificado ou enriquecido durante o processamento com auxílio do componente pragmático.

Utiliza representações como planejamento hierárquico ou atos da fala.

Page 33: CIn/UFPE Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE

CIn/UFPE

Processamento de Linguagem Natural

Interpretação de LN – OK

Geração de LN• Ver apostila o outros livros e papers...