já te digo – uma interface em língua natural para uma base ... · para uma base de dados de...

32
1 Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa technology from seed L 2 F - Spoken Language Systems Laboratory Já Te Digo – Uma interface em língua natural para uma base de dados de cinema Ana Raquel Guimarães

Upload: phamtram

Post on 04-Dec-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Já Te Digo – Uma interface em língua natural para uma base ... · para uma base de dados de cinema ... Interpretação da questão Avaliação Trabalho Futuro Conclusões. Instituto

1

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

L2 F - Spoken Language Systems Laboratory

Já Te Digo – Uma interface em língua naturalpara uma base de dados de cinema

Ana Raquel Guimarães

Page 2: Já Te Digo – Uma interface em língua natural para uma base ... · para uma base de dados de cinema ... Interpretação da questão Avaliação Trabalho Futuro Conclusões. Instituto

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

2L2 F - Spoken Language Systems Laboratory

EstruturaEstrutura

MotivaçãoO que é uma ILNBD?ObjectivoAnálise do problema

Fases de DesenvolvimentoRecolha do CorpusConstrução da base de dadosInterpretação da questão

AvaliaçãoTrabalho FuturoConclusões

Page 3: Já Te Digo – Uma interface em língua natural para uma base ... · para uma base de dados de cinema ... Interpretação da questão Avaliação Trabalho Futuro Conclusões. Instituto

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

3L2 F - Spoken Language Systems Laboratory

MotivaçãoMotivação (1/3)

Uma ILNBD (Interface em Língua Natural para uma Base de Dados):

É uma forma de obter informação a partir de uma base de dadosrecorrendo a língua natural.

Exemplos

Qual é a maior cidade de Portugal?Quantos óscares venceu Woody Allen?Quem escreveu “A tia Júlia e o Escrevedor“?

Page 4: Já Te Digo – Uma interface em língua natural para uma base ... · para uma base de dados de cinema ... Interpretação da questão Avaliação Trabalho Futuro Conclusões. Instituto

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

4L2 F - Spoken Language Systems Laboratory

MotivaçãoMotivação (2/3)

Objectivo

Desenvolvimento de uma ILNBD que:

Dê respostas concisas e correctas ao utilizador;

Seja facilmente expansível, rápida e acessível;

Responda a questões cuja resposta não seja facilmente obtida em outrasinterfaces (Google, IMDB):

Quem entra em <filme1> e <filme2>?

Em que filmes entra <pessoa1> e <pessoa2>?

Resolva ambiguidade entre entidades (pessoas com o mesmo nome,filmes com o mesmo título);

Page 5: Já Te Digo – Uma interface em língua natural para uma base ... · para uma base de dados de cinema ... Interpretação da questão Avaliação Trabalho Futuro Conclusões. Instituto

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

5L2 F - Spoken Language Systems Laboratory

MotivaçãoMotivação (3/3)

Análise do problema

Que questões se podem fazer acerca de cinema?

Quem é o realizador / actor principal de <filme>?

Quem venceu o óscar de <categoria> em <ano>?

Em que filmes entra <pessoa>?

Que tipo de questões são mais frequentemente realizadas?

Como interpretar as questões?

Como reconhecer as entidades mencionadas nas questões formuladas?

Como “traduzir” questões em língua natural para SQL?

Page 6: Já Te Digo – Uma interface em língua natural para uma base ... · para uma base de dados de cinema ... Interpretação da questão Avaliação Trabalho Futuro Conclusões. Instituto

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

6L2 F - Spoken Language Systems Laboratory

FasesFases de de DesenvolvimentoDesenvolvimento

Recolha do corpus

Construção da base de dados

Interpretação da questão

Reconhecimento de Entidades Mencionadas

Desambiguação

Análise morfo/sintáctica/semântica

Page 7: Já Te Digo – Uma interface em língua natural para uma base ... · para uma base de dados de cinema ... Interpretação da questão Avaliação Trabalho Futuro Conclusões. Instituto

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

7L2 F - Spoken Language Systems Laboratory

RecolhaRecolha do do CorpusCorpus

Dimensão

150 questões realizadas por 10 pessoas;

Verificou-se que:

“Objectivo” das questões é, muito frequentemente, um nome de filme ou umnome de pessoa;

Exemplos de questões:

Quem é o herói do filme The Matrix?

Que filme realizaram os irmãos Wachowsky?

Que filme de animação teve como personagem principal um leão?

Page 8: Já Te Digo – Uma interface em língua natural para uma base ... · para uma base de dados de cinema ... Interpretação da questão Avaliação Trabalho Futuro Conclusões. Instituto

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

8L2 F - Spoken Language Systems Laboratory

FasesFases de de DesenvolvimentoDesenvolvimento

Recolha do corpus

Construção da base de dados

Interpretação da questão

Reconhecimento de Entidades Mencionadas

Desambiguação

Análise morfo/sintáctica/semântica

Page 9: Já Te Digo – Uma interface em língua natural para uma base ... · para uma base de dados de cinema ... Interpretação da questão Avaliação Trabalho Futuro Conclusões. Instituto

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

9L2 F - Spoken Language Systems Laboratory

ConstruçãoConstrução dada Base de Dados Base de Dados

Proveniência

IMDB – Internet Movie DataBase

Website da Academia dos Óscares

Website Cinema PTGate

Dados inseridos

Elenco dos filmes

Informação biográfica

Óscares da Academia (Melhor Filme e Filme Estrangeiro, representação,Melhor Realizador)

Page 10: Já Te Digo – Uma interface em língua natural para uma base ... · para uma base de dados de cinema ... Interpretação da questão Avaliação Trabalho Futuro Conclusões. Instituto

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

10L2 F - Spoken Language Systems Laboratory

ConstruçãoConstrução dada Base de Dados Base de Dados

Processamento dos dados

Ficheiros de texto de elevadas dimensões processados através descripts em Perl;

Dificuldades

Formato dos dados nem sempre respeitado;

Diferentes “fornecedores” causa incoerência entre dados (personagenscom nomes diferentes, ex: Lt. Col. Frank Slade e Lieutenant ColonelFrank Slade);

Page 11: Já Te Digo – Uma interface em língua natural para uma base ... · para uma base de dados de cinema ... Interpretação da questão Avaliação Trabalho Futuro Conclusões. Instituto

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

11L2 F - Spoken Language Systems Laboratory

ConstruçãoConstrução dada Base de Dados Base de Dados

Page 12: Já Te Digo – Uma interface em língua natural para uma base ... · para uma base de dados de cinema ... Interpretação da questão Avaliação Trabalho Futuro Conclusões. Instituto

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

12L2 F - Spoken Language Systems Laboratory

EstruturaEstrutura

Recolha do corpus

Construção da base de dados

Interpretação da questão

Reconhecimento de Entidades Mencionadas

Desambiguação

Análise morfo/sintáctica

Page 13: Já Te Digo – Uma interface em língua natural para uma base ... · para uma base de dados de cinema ... Interpretação da questão Avaliação Trabalho Futuro Conclusões. Instituto

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

13L2 F - Spoken Language Systems Laboratory

InterpretaçãoInterpretação dada QuestãoQuestão

Plano

Utilização de um analisador morfo/sintáctico

Criar regras de dependência para detecção de padrões

Utilizar uma linguagem de representação intermédia baseada empredicados

Realizador(x) – Realizador(“A Casa dos Espíritos”)

Contracena(x,y) – Contracena(“Meg Ryan”, “A cidade dos anjos”)

Realização de queries SQL para obtenção da resposta

Page 14: Já Te Digo – Uma interface em língua natural para uma base ... · para uma base de dados de cinema ... Interpretação da questão Avaliação Trabalho Futuro Conclusões. Instituto

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

14L2 F - Spoken Language Systems Laboratory

InterpretaçãoInterpretação dada QuestãoQuestão

Exemplo de análise morfo/sintáctica

Quem contracena com jodie foster em panic room?

Reconhecimento de entidades mencionadas previamente

Page 15: Já Te Digo – Uma interface em língua natural para uma base ... · para uma base de dados de cinema ... Interpretação da questão Avaliação Trabalho Futuro Conclusões. Instituto

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

15L2 F - Spoken Language Systems Laboratory

ReconhecimentoReconhecimento de de EntidadesEntidadesMencionadasMencionadas

Estratégias consideradas

Criação de gramática local com “todos os títulos e nomes do Mundo”.

Não era viável carregar uma gramática com centenas de milhares de regras

Criação de gramática local com os títulos e nomes principais

Critérios para títulos e nomes principais?

Filmes mais recentes… E os grandes clássicos do cinema?

Pessoas com mais filmes… Ignoram-se nomes como James Dean?

Page 16: Já Te Digo – Uma interface em língua natural para uma base ... · para uma base de dados de cinema ... Interpretação da questão Avaliação Trabalho Futuro Conclusões. Instituto

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

16L2 F - Spoken Language Systems Laboratory

ReconhecimentoReconhecimento de de EntidadesEntidadesMencionadasMencionadas

Estratégia seguidaRealização de queries full-text com a questão formulada sobre atabela persons e films.

Quem é o realizador de forrest gump?

SELECT DISTINCT films.title FROM films WHERE match(title) AGAINST(“Quem é o realizador de forrest gump”)

forrestgump & co.

vida, pasión y muerte de un realizadoriracundo

through the eyes of forrest gumpdie welt des forrest gump

black forrest gumpforrest gump

Page 17: Já Te Digo – Uma interface em língua natural para uma base ... · para uma base de dados de cinema ... Interpretação da questão Avaliação Trabalho Futuro Conclusões. Instituto

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

17L2 F - Spoken Language Systems Laboratory

ReconhecimentoReconhecimento de de EntidadesEntidadesMencionadasMencionadas

Nem sempre os resultados são os esperados

SELECT DISTINCT films.title FROM films WHERE match(title)

AGAINST (“apocalypse now”)

Método: Consultar as primeiras 150 entradas e escolher o nome“mais longo”

apocalypseapocalypse bopapocalypse oz

apocalypse nowapocalypse joethe apocalypse

10.5: apocalypse

Page 18: Já Te Digo – Uma interface em língua natural para uma base ... · para uma base de dados de cinema ... Interpretação da questão Avaliação Trabalho Futuro Conclusões. Instituto

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

18L2 F - Spoken Language Systems Laboratory

EstruturaEstrutura

Recolha do corpus

Construção da base de dados

Interpretação da questão

Reconhecimento de Entidades Mencionadas

Desambiguação

Análise morfo/sintáctica/semântica

Page 19: Já Te Digo – Uma interface em língua natural para uma base ... · para uma base de dados de cinema ... Interpretação da questão Avaliação Trabalho Futuro Conclusões. Instituto

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

19L2 F - Spoken Language Systems Laboratory

DesambiguaçãoDesambiguação

Realizada a diversos níveis2 ou mais pessoas com o mesmo nome2 ou mais filmes com o mesmo títuloNome de pessoa que também é título de filme (ex: Michael Collins)

Page 20: Já Te Digo – Uma interface em língua natural para uma base ... · para uma base de dados de cinema ... Interpretação da questão Avaliação Trabalho Futuro Conclusões. Instituto

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

20L2 F - Spoken Language Systems Laboratory

DesambiguaçãoDesambiguação

Com base no contexto

Quem contracena com emma watson em harry potter?

Só uma “Emma Watson” entra em Harry Potter.

Nem sempre é possível desambiguar pelo contexto.

Quantos óscares recebeu Amadeus?

FILME ACTOROU

Page 21: Já Te Digo – Uma interface em língua natural para uma base ... · para uma base de dados de cinema ... Interpretação da questão Avaliação Trabalho Futuro Conclusões. Instituto

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

21L2 F - Spoken Language Systems Laboratory

EstruturaEstrutura

Recolha do corpus

Construção da base de dados

Interpretação da questão

Reconhecimento de Entidades Mencionadas

Desambiguação

Análise morfo/sintáctica/semântica

Page 22: Já Te Digo – Uma interface em língua natural para uma base ... · para uma base de dados de cinema ... Interpretação da questão Avaliação Trabalho Futuro Conclusões. Instituto

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

22L2 F - Spoken Language Systems Laboratory

AnáliseAnálise Morfo/Sintáctica/SemânticaMorfo/Sintáctica/Semântica

Cruzamento com regras de dependência que detectam padrões dequestões.

Questão é sintetizada em predicados com um ou mais argumentos.

Quem é o realizador de Forrest Gump?

Page 23: Já Te Digo – Uma interface em língua natural para uma base ... · para uma base de dados de cinema ... Interpretação da questão Avaliação Trabalho Futuro Conclusões. Instituto

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

23L2 F - Spoken Language Systems Laboratory

FasesFases de de DesenvolvimentoDesenvolvimento

Recolha do corpus

Construção da base de dados

Interpretação da questão

Reconhecimento de Entidades Mencionadas

Desambiguação

Análise morfo/sintáctica

Page 24: Já Te Digo – Uma interface em língua natural para uma base ... · para uma base de dados de cinema ... Interpretação da questão Avaliação Trabalho Futuro Conclusões. Instituto

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

24L2 F - Spoken Language Systems Laboratory

ExemploExemplo

Reconhecimento de entidades mencionadasMeg Ryan (pessoa)

Tom Cruise (pessoa)

Verificação de ambiguidadesNão existe

Escrita da gramática local1> noun[actor=+] = ?[surface:tom], ?[surface:cruise].1> noun[actriz=+] = ?[surface:meg], ?[surface:ryan].

Page 25: Já Te Digo – Uma interface em língua natural para uma base ... · para uma base de dados de cinema ... Interpretação da questão Avaliação Trabalho Futuro Conclusões. Instituto

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

25L2 F - Spoken Language Systems Laboratory

ExemploExemplo

Emparelhamento com regras de dependênciatarget_which_films_main_act_two(“meg ryan”, “tom cruise”)

<DEPENDENCY name="TARGET_WHICH_FILMS_MAIN_ACT_TWO">

<PARAMETER ind="0" num="23" word=“meg ryan"/>

<PARAMETER ind="1" num="24" word=“tom cruise"/>

</DEPENDENCY>

Processamento de XML por XSLT

get_from_bd/script-which-films-main-act-two.pl

ACTOR ‘meg ryan’ ACTOR ‘tom cruise’

Page 26: Já Te Digo – Uma interface em língua natural para uma base ... · para uma base de dados de cinema ... Interpretação da questão Avaliação Trabalho Futuro Conclusões. Instituto

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

26L2 F - Spoken Language Systems Laboratory

AvaliaçãoAvaliação

Realizada através de uma página Web

Questões efectuadas e respostas dadas guardadas em base de dados

Efectuada em 2 fases

Durante o desenvolvimento

198 questões que permitiram a detecção de erros

Final

Interface com questões-exemplo (5 utilizadores, 10 questões cada)

Interface sem questões-exemplo (5 utilizadores, 10 questões cada)

Page 27: Já Te Digo – Uma interface em língua natural para uma base ... · para uma base de dados de cinema ... Interpretação da questão Avaliação Trabalho Futuro Conclusões. Instituto

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

27L2 F - Spoken Language Systems Laboratory

AvaliaçãoAvaliação

Interface com questões-exemplo

Page 28: Já Te Digo – Uma interface em língua natural para uma base ... · para uma base de dados de cinema ... Interpretação da questão Avaliação Trabalho Futuro Conclusões. Instituto

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

28L2 F - Spoken Language Systems Laboratory

AvaliaçãoAvaliação

Interface sem questões-exemplo

Page 29: Já Te Digo – Uma interface em língua natural para uma base ... · para uma base de dados de cinema ... Interpretação da questão Avaliação Trabalho Futuro Conclusões. Instituto

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

29L2 F - Spoken Language Systems Laboratory

AvaliaçãoAvaliação

ResultadosCom questões-exemplo

Sem questões-exemplo

12 (70,6%)Outros Motivos0 (0,0%)Incorrecto NER 17 (34%)5 (19,4%)Sem Tratamento

Nãorespondidas

4 (12,1%)Incorrectamente

50

33 (66%)29 (87,9%)Correctamente

Respondidas

6 (20,0%)Outros Motivos9 (30,0%)Incorrecto NER 30 (60%)

15 (50,0%)Sem TratamentoNão

respondidas

2 (10,0%)Incorrectamente

50

20 (40%)18 (90,0%)Correctamente

Respondidas

Page 30: Já Te Digo – Uma interface em língua natural para uma base ... · para uma base de dados de cinema ... Interpretação da questão Avaliação Trabalho Futuro Conclusões. Instituto

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

30L2 F - Spoken Language Systems Laboratory

ConclusõesConclusões

Contribuições

Desenvolvimento de uma arquitectura genérica para ILNBD’s

Concretização para o domínio de cinema

Melhoria do analisador morfo/sintáctico/semântico utilizado

Page 31: Já Te Digo – Uma interface em língua natural para uma base ... · para uma base de dados de cinema ... Interpretação da questão Avaliação Trabalho Futuro Conclusões. Instituto

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

31L2 F - Spoken Language Systems Laboratory

TrabalhoTrabalho FuturoFuturo

Tratar mais padrões de questões

Disponibilizar mais dados

Providenciar correcção ortográfica

Tratar de elipse e anáfora

Integrar com um sistema de QA (question-answering)

Page 32: Já Te Digo – Uma interface em língua natural para uma base ... · para uma base de dados de cinema ... Interpretação da questão Avaliação Trabalho Futuro Conclusões. Instituto

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

L2 F - Spoken Language Systems Laboratory

technologyfrom seed

L2 F - Spoken Language Systems Laboratory