processamento da linguagem natural pontifÍcia universidade catÓlica do rio grande do sul - pucrs...
TRANSCRIPT
![Page 1: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/1.jpg)
Processamento da Linguagem Natural
PONTIFÍCIA UNIVERSIDADE CATÓLICA
DO RIO GRANDE DO SUL - PUCRS
Faculdade de Informática
Ricardo Annes
![Page 2: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/2.jpg)
2
Apresentação
• Processamento da Linguagem Natural– Processamento Baseado em Corpus– Etiquetação – Conclusões
• Sistemas Multi Agentes
• Arquitetura de Etiquetadores Multi-Agentes
• Referências
![Page 3: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/3.jpg)
3
Processamento da Linguagem Natural
• Ramo da I.A.
• Objetivos– interpretar e processar o conhecimento disponível
• compreensão
• geração
– melhorar a comunicação Homem X Máquina
• interdisciplinar– computação– lingüística– ciências cognitivas
![Page 4: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/4.jpg)
4
Processamento da Linguagem Natural
• Aplicações– tradução automática– correção de textos– geração de resumos– sistemas inteligentes– interface– consultas bibliográficas– consultas tipo SQL em BD– síntese / análise de voz
![Page 5: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/5.jpg)
5
Processamento da Linguagem Natural
• língua X linguagem
• processamento– interpretação
• texto representação
– geração• representação texto
![Page 6: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/6.jpg)
6
Processamento da Linguagem NaturalLinguagem
• natural artificial– geral - restrita– complexa - limitada– contextual - específica– ambígua - não ambígua
– português - fortran– inglês - pascal– francês - C– espanhol - java
![Page 7: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/7.jpg)
7
Fenômenos lingüísticos
• Elipse Não ganhei na loto.• Zeugma Comprei uma caixa de maças e outra de
ameixas.
• Metáfora Um mar de problemas.
• Metonímia Gosto de ler Érico Veríssimo.
• Anáfora João gosta de Maria. Ela gosta de José.
• Ambigüidade casa - substantivo ou verbo
manga - fruta ou peça do vestuário
Se você quer comprar um carro rápido.
![Page 8: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/8.jpg)
8
Domínios do PLN
• Léxico-morfológico
• Sintático
• Semântico-pragmático
![Page 9: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/9.jpg)
9
Domínio Léxico-morfológico
• Analisador léxico-morfológico
• léxico (dicionário)
• categorias gramaticais– substantivo adjetivo– verbo adverbio– numeral artigo– pronome preposição
• ambigüidade léxica-morfológica– casa, mato, morro
![Page 10: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/10.jpg)
10
• Relações entre palavras da sentença
• gramaticalidade
• Unidades sintáticas (sintágmas)– sujeito– predicado– complemento verbal / nominal
• concordância
• regência
• posicionamento
Domínio Sintático
![Page 11: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/11.jpg)
11
Domínio Sintático
texto
estrutura da sentença
gramática
léxico
todas sentença
léxico-morf.
parser
Eu vi a moça com o binóculos.
Árvore de derivações
![Page 12: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/12.jpg)
12
• Representação do significado e sentido.
• Semântica – léxica– gramatical
Um assador de churrasco gaúcho
• fenômenos de referência– anáfora pronominal Ela gosta do
Zé.– elipse
• sarcasmo
Domínio Semântico-pragmático
![Page 13: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/13.jpg)
13
• texto formalismos representação
• representação texto
• templates
• Eliza[MIT60]
Geração de textos
![Page 14: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/14.jpg)
14
• Fonética
• Fonologia
• Prosódia– volume– entonação– tempo (velocidade e ritmo)
• sarcasmo
• agressividade
• excitação
Fala
• amor
• simpatia
![Page 15: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/15.jpg)
palavras
proc. sinal
reconhecimento
fala
class. acústica
Sistema PLN
fonética
intonação
palavras
caracteres f. i.
sintet. voz
fala
ALLEN
![Page 16: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/16.jpg)
Processamento baseado em Corpus• Corpus - coleção de textos
– escritos ou orais – representativos da linguagem– computacionalmente disponíveis– o plural - corpora
• estudo do conhecimento lingüístico através de exemplos
• vantagens– acessibilidade– velocidade– exatidão / fidelidade
![Page 17: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/17.jpg)
Processamento baseado em Corpus
• treino e teste de sistemas de PLN
• corpus– simples – marcados / anotados / rotulados / etiquetados
![Page 18: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/18.jpg)
18
PLN - conclusões
• Ainda é um problema sem solução– relacionamento entre os domínios– interdisciplinar
• IA
• lingüística
• ciências cognitivas
– pesquisa
• soluções domínios restritos
• aplicações – reconhecimento de voz, geração de texto– formalismos para representação
![Page 19: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/19.jpg)
19
Domínios do PLN
• Léxico-morfológico
• Sintático
• Semântico-pragmático
![Page 20: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/20.jpg)
20
PLN - conclusões
• Arquiteturas
• módulos hierárquicos independentes – seqüenciais– explosão combinatória
• Distribuição (IAD) SMA
interdependentes
![Page 21: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/21.jpg)
21
PLN - conclusões
• Trabalhos na área– Ambigüidade léxica categorial [Silva97]– Anáfora do pronome possessivo [Paraboni97]– Léxico semântico [Abrahão97]– Tradução automática [Agustini]– Elipse [Unicamp]– www.portugues.mct.pt/recursos.html– SBIA - www.inf.pucrs.br/~sbia98/– PROPOR - www.inf.pucrs.br/~sbia98/propor98.html
![Page 22: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/22.jpg)
Etiquetação
ETIQUETADORsentençaSentença marcada
Quem casa, quer casa.
Quem/pronome indef.
casa/verbo intransitivo
,/vírgula
quer/verbo trans. direto
casa/substantivo comum
./ponto final
![Page 23: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/23.jpg)
Etiquetador
• estatístico - padrões corpora
• baseado em regras - lingüísticas
• misto - regras obtidas processo estatístico
[BRILL93]
![Page 24: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/24.jpg)
Etiquetador Estatístico (fases)
- treinamento - aprende (corpus marcado)
- teste - marcação (corpus conhecido)
avalidação (medida de precisão)
- marcação - marca sentenças
- HMM - forma de modelar
![Page 25: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/25.jpg)
Corpus de treinamento
classificadorClasses de
ambiguidadee rótulos
Construtor do HMM
Corpus de teste
classificador Classes de ambiguidade
Viterbi Rótulos
dicionário HMMtreinamento
teste
Rotulador Estatístico de Categorias Morfo-Sintáticas para a Língua Portuguesa
![Page 26: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/26.jpg)
Sistemas Multi-Agentes
Sociedade - coleção de entidades
- coordenação
Agentes - entidades atuam na sociedade
- autonomia
- cooperação
- aprendizagem
- objetivos- conhecimentos
![Page 27: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/27.jpg)
Sistemas Multi-Agentes
agentes + ambiente + interações + organização
[DEMA95]
interações - protocolos
apresentação
troca de conhecimentos
negociação
![Page 28: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/28.jpg)
Agente Genérico
Conhecimento EscolhaComunicação
Capacidadesde Decisão
PossibilidadesCapacidadesde raciocínio
Percepção
Objetivos
Modelo de agente [DEMA90]
![Page 29: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/29.jpg)
ARQUITETURA DO SISTEMA
Problema
- conhecimento lingüístico
- conhecimento distribuído - processos distribuídos
- genérico
- específico
![Page 30: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/30.jpg)
precisão corpus de treinamento muito grande
fase de treinamento (tempo)
corpus único perde dependência ao domínio
motiva múltiplos corpora
MAS
![Page 31: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/31.jpg)
Fase de treinamento
corpus T1
HMM T1
Agente T1
corpus T3
HMM Genérico
Agente Genérico
. . .corpus T2 corpus Tn
HMM T2
Agente T2
HMM T3
Agente T3
HMM Tn
Agente Tn
![Page 32: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/32.jpg)
Fase de Marcação
sentença
s
AgenteGenérico
sentençassemi-marcadas
AgenteT1
ou ou
sentençasmarcadas
. . .
AgenteT2
AgenteTn
sentençasmarcadas
sentençasmarcadas
![Page 33: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/33.jpg)
Modelo do Agente
• Conhecimento - HMM (treinamento)
• Objetivos - aquisição de conhecimento
- marcação
• Comunicação - corpus treinamento / sentenças
- interação social (prot. KQML)
• Raciocínio social - negociação
• Ações - marcação- atualização conhecimentos
- comunicação entre agentes
![Page 34: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/34.jpg)
Cooperação entre os Agentes
• INTERAÇÕES– Apresentação– Despedida– Requisição ao agente genérico– Requisição a outro agente específico– Negociação
![Page 35: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/35.jpg)
Protótipo em desenvolvimento
• Conhecimento modelo bigramas (HMM)
• DPSK+P ambiente (MASENV)
• KQML
• NALAMAS
• Etiquetador - UNL
![Page 36: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/36.jpg)
Hidden Markov Model
HMM tuplas <S, s1, W, T>
onde:
S conjunto de estados
s1 estado inicial
W conjunto símbolos
T as transições
![Page 37: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/37.jpg)
Hidden Markov Model
HMM tuplas <S, s1, W, T>
onde:
S conjunto de estados rótulos
s1 estado inicial
W conjunto símbolos palavras
T as transições palavras
![Page 38: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/38.jpg)
Hidden Markov Models
1 2
P(a) = 0,3
P(b) = 0,1
P(b) = 0,1
P(a) = 0,2
P(b) = 0,2 P(b) = 0,5
P(a) = 0,4 P(a) = 0,2
![Page 39: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/39.jpg)
Referências de PLN
• [ALLE94] ALLEN, J. Natural language understanding. The Benjamin/Cumming Company. 1994.
• [BEAR91] BEARDON, C; LUMSDEN, D.; HOLMES, G. Natural Language and Computational Linguistics. Ellis Horwood Ltd. Melsham-Wiltshire, England, 1991.
• [CHARN93] CHARNIAK. E. Statistical language learning. London: Abradford Book.The MIT Press. 1993. 170p.
• [DE LIMA96] DE LIMA, V.L.S. - Processamento da Linguagem Natural - premissas e desafios -IV Escola Regional de Informática - SBC. 1996
• [DE LIMA97] DE LIMA, V.L.S. - Projeto NALAMAS - Atividades setembro 1996/ agosto 1997 - PUCRS - Relatório Técnico -1997
![Page 40: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes](https://reader036.vdocuments.com.br/reader036/viewer/2022062307/552fc10c497959413d8c3f88/html5/thumbnails/40.jpg)
PONTIFÍCIA UNIVERSIDADE CATÓLICA
DO RIO GRANDE DO SUL - PUCRS
Faculdade de Informática
Ricardo Annes