r3m uma participação minimalista no segundo harem cristina mota linguateca encontro do segundo...
TRANSCRIPT
R3M R3M
Uma participação minimalista no Segundo HAREM
Cristina Mota Linguateca
Encontro do Segundo HAREM Aveiro, 7 de Setembro de 2008
Porquê minimalista?
Objectivo inicial Classificação de PESSOA, ORGANIZACAO e LOCAL
Resultado final Identificação de tudo excepto TEMPO e VALOR
1
Melhorar um sistema de REM baseado em aprendizagem
semi-supervisionada
2
Dados etiquetados mínimos
Treinar com poucos dados3 Melhor é melhor que mais
Sistema de Base Ideia inicial a melhorar baseada em Mota & Grishman (2008)
Collins & Singer (1999)
Collins & Singer (1999)
Sistema R3MO que precisava de ser melhorado ou adaptado?
Collins & Singer (1999)
NooJ (Silberztein, 2004) → JET (Grishman,1999-2006)
Sementes EM → Sementes EM + contexto
Classificar P O L→ Classificar P O L e outro
→ Módulo de selecção
Sistema R3MFerramentas do JET – Java Extraction Toolkit
AtomizadorSegmentador de frasesConsultador de dicionárioEtiquetador morfo-sintáctico (HMM)Etiquetador de EMAnalisador de grupos nominaisAnalisador sintácticoAnalisador sintáctico estatísticoReconhecedor de padrõesResolvedor de referências
Sistema R3MRecursos portugueses
Dicionários:
Cargos (106) e formas de tratamento (59) disponibilizados pela organização do HAREM
Palavras de ligação extraídas de
um fragmento do CETEMPúblico (8112)
dicionário de português integrado no NooJ (Barreiro, 2007)
Palavras em maiúsculas da Colecção do Segundo HAREM (10050)
Sistema R3MRecursos portugueses
Padrões:
Conjunto de padrões para delimitação de candidatos a EM
Conjunto de padrões para identificação do contexto envolvente da EM
Material de treino:
Floresta sintáctica (Afonso et al., 2001), para treino de analisador morfo-sintáctico
Colecções dourada e HAREM do Primeiro HAREM, para treino do classificador de EM
Colecção dourada do Mini-HAREM, para teste do classificador de EM
Resultados
Resultados
Resultados
Comentários finais
Contrariamente à nossa posição no Primeiro HAREM, optámos por seguir as regras do jogo
Tirámos partido de ferramentas “genéricas” testadas em inglês , criando ou usando recursos portugueses
Usámos recursos mínimos
Obtivémos uma pontuação competitiva sem classificação
O que teria acontecido se o classificador e o Murphy não se tivessem encontrado?
Anotação da CD do Primeiro HAREM não era 100% compatível com o Segundo HAREM
Teste e validação com programas de avaliação do Primeiro HAREM poderia ser enganador
AgradecimentosAgradecimentos
A Linguateca e o HAREM são financiados através do contrato nº 339/1.3/C/NAC, financiado pelo governo português e pela União Europeia, e executado pela FCCN.
12