o sistema cage e a participação no segundo harem bruno martins instituto superior técnico,...

Post on 18-Apr-2015

102 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

O sistema CaGE e a participação no segundo HAREM

Bruno Martins

Instituto Superior Técnico, Technical University of Lisbon

Motivação• As referências geográficas e temporais ocorrem com abundância sobre

documentos textuais (e.g., páginas Web, RSS feeds, …)

• A extracção da informação geo-temporal (e.g., nomes de locais e nomes de períodos temporais) presente nos textos pode servir de suporte para serviços de indexação/pesquisa/navegação com base em critérios geo-temporais.

• Ambiguidade é o maior problema:• Diferentes nomes para o mesmo local• Locais diferentes com o mesmo nome• Mesmo nome para locais e outras entidades• Variações ao longo do tempo e do espaço

O sistema CaGE aborda o problema do reconhecimento e desambiguação

de referências geo-temporais

Associar as referências presentes nos textos a entradas num almanaque

Resumo da apresentação

• Motivação

• Apresentação do sistema CaGE

• Especificidades das referências geo-temporais

• Um serviço Web com base no sistema CaGE

• Participação no HAREM 2 e resultados obtidos

• Conclusões e trabalho futuro

Apresentação do sistema CaGE

• Reconhecimento de entidades mencionadas com base em dicionários (i.e., almanaques) e regras

• Extensão para desambiguação de nomes de locais e nomes de períodos temporais, com base em heurísticas e um almanaque específico desenvolvido no projecto DIGMAP

• Extensão para atribuição de âmbitos geográficos a documentos, com base nos locais reconhecidos no texto

Não necessita dados de treino (apenas dicionários específicos), fácil de adaptar a outras línguas e tarefas de reconhecimento.

Dicionários usados pelo sistema CaGE

• Nomes de pessoas, organizações e periodos temporais– Base de dados REPENTINO (REPositório para reconhecimento de ENtidades NOmeadas)

– Internet Movie DataBase– Wikipedia (e.g., listas de períodos temporais e de nomes comuns)– ECAI TimePeriod directory (traduções para Português)– Dicionários distribuídos com o sistema de IE/REM Balie

• Nomes de locais– GeoNET (combinação do GeoNET-PT e ML)– Base de dados disponibilizada pelo www.geonames.org– Nomes no almanaque do projecto DIGMAP– Lista de excepções construída manualmente

Funcionamento do CaGE

• Reconhecimento de entidades mencionadas– Atomização dos textos– Janela deslizante sobre os átomos identificados no texto (até 6 palavras)– EMs começam com maiúsculas e não ocorrem apenas no início de frases.– Mapeamento da EM máxima com entidades presentes nos dicionários– Expressões regulares para algumas entidades temporais (e.g., datas)

• Ambiguidade entre vários tipos de entidades– Regras desenvolvidas manualmente, utilizando palavras adjacentes– Classificação round-robin entre os vários tipos possíveis

• Tratamento das entidades geográficas e temporais– Desambiguação e “grounding” com base em almanaque específico

O almanaque usado na desambiguação das referências geo-temporais

• Base de dados de locais e períodos temporais– Nomes, coordenadas, períodos, relações e outras informações

• Pode ser acedido por um serviço Web XML (interface ADL)• Integra dados de múltiplas fontes (e.g. geonames.org)

http://gaz.digmap.eu/

Estatística Valor

Locais 7,034,538

Nomes de locais 15,026,983

Tipos de locais 210

Periodos temporais 1,989

Nomes periodos temp. 3,782

Locais com coordenadas 66,211,38

Tipos de relações 5

Locais com relações 431,397

Número de relações 866,019

Relações entre locais e periodos 1,989

Específicidades das referências geográficas e temporais

• Desambiguação e grounding das referências a locais– Pesquisar no almanaque os locais com o mesmo nome e tipo– Ordenar possibilidades com base na heurística “um sentido por defeito”

• Locais mais gerais (e.g., países e continentes) têm preferência

– Ajustes com base na heurística “referências relacionadas”• Locais no mesmo documento estão semanticamente relacionados (e.g., parte-de)

• Desambiguação e grouding das referências temporais– Regras para converter as representações textuais das datas– Pesquisar no almanaque os nomes de períodos temporais

• Atribuição de âmbitos aos documentos– Entrada no almanaque que melhor combina os locais reconhecidos– Intervalo de tempo que cobre os vários intervalos reconhecidos no texto

Atribuição de âmbitos geográficos

EuropaEuropa

EspanhaEspanha PortugalPortugal

MadridMadrid BarcelonaBarcelona LisboaLisboa PortoPortoweightx weighty

(weightx*0.75)+(weighty*0.75)

(weightx*0.752)+(weighty*0.752)

• Algoritmo simples que explora as relações hierárquicas (Amitay et al., 2005)

• Pesos iniciais correspondentes às ocorrências no texto são propagados através das relações hierárquicas definidas entre as entradas do almanaque

• Função quadrática para ajustar os pesos de acordo com o nível hierárquico

Um serviço Web baseado no CaGE• Serviço Web XML online em http://geoparser.digmap.eu

– Serviço segue a OGC’s Geoparser draft implementation specification– Suporta ainda os formatos HAREM, geoRSS and SpatialML (com XSLTs)

• Interface para exploração de feeds RSS com TimeLines+Mapas• Locais e períodos temporais ligados a entradas no almanaque

– Nomes de locais e âmbitos dos documentos associados a coordenadas– Períodos temporais e âmbitos temporais associados a intervalos de tempo

Participação no segundo HAREM

• Quatro runs submetidas ao segundo HAREM

1. Vários dicionários, locais no almanaque específico• Apenas os locais presentes no almanaque usado na desambiguação e

grounding foram anotados pelo sistema

2. Vários dicionários, excepto lista de excepções

3. Apenas dicionários de locais e períodos temporais• Não eram reconhecidos os restantes tipos de entidades

4. Vários dicionários

Resultados experimentais

• Resultados obtidos no primeiro HAREM– Versão anterior do sistema CaGE lidando apenas com reconhecimento de locais– Dicionários baseados apenas no GeoNET

• Resultados obtidos no HAREM2, cenário 2– Considera vários tipos de entidades (i.e., locais, tempo, organizações e pessoas) e sub-

tipos para as entidades do tipo local

• Resultados obtidos no HAREM2, cenário 5– Considera apenas entidades do tipo local, excepto o sub-tipo VIRTUAL

• Experiências focando na atribuição de âmbitos– Experiências com 511 documentos (i.e., registos bibliográficos do projecto DIGMAP)

manualmente atribuídos a âmbitos geográficos e temporais

Resultados no primeiro HAREM

• Participação num cenário limitado à identificação de entidades do tipo local• Semelhante ao cenário selectivo 5 do segundo HAREM

Resultados modestos obtidos no HAREM e no MiniHAREM, com uma diferença de cerca de 0.1 em termos da medida-F para com o melhor sistema participante

Resultados no cenário selectivo 2

Classificação Posição Precisão Abrangência Medida-F MaxCD MaxSis

4 14 0.4264 0.407 0.4164 10489.2103 10012.6786

1 16 0.4277 0.4025 0.4148 10489.2103 9871.3095

2 17 0.4226 0.4059 0.4141 10489.2103 10074.4286

3 20 0.3883 0.35 0.3682 10489.2103 9455.5744

Melhores resultados 0.7347 0.5893 0.6325

Identificação Posição Precisão Abrangência Medida-F Sobre-ger Sub-ger TotalEMCD TotalEMSis

4 16 0.4615 0.4553 0.4584 0.5385 0.5447 5538.3333 5463.5

1 17 0.4643 0.452 0.4581 0.5357 0.548 5538.3333 5391.5

2 18 0.4576 0.4547 0.4562 0.5424 0.5453 5538.3333 5503.5

3 20 0.4225 0.3929 0.4072 0.5775 0.6071 5538.3333 5151.1667

Melhores resultados 0.8561 0.7127 0.6813

Diferença de aprox. 0.2 em termos da medida-F para com o melhor resultado

Resultados no cenário selectivo 5

Identificação Posição Precisão Abrangência Medida-F Sobre-ger Sub-ger TotalEMCD TotalEMSis

4 11 0.5198 0.6788 0.5888 0.4802 0.3212 1418 1851.5

2 12 0.5091 0.6802 0.5823 0.4909 0.3198 1418 1894.5

1 13 0.5049 0.6781 0.5788 0.4951 0.3219 1418 1904.5

3 14 0.5084 0.6689 0.5777 0.4916 0.3311 1418 1865.5

Melhores resultados 0,7186 0,7856 0,6572

Classificação Posição Precisão Abrangência Medida-F MaxCD MaxSis

4 11 0.5267 0.5844 0.554 2087.8214 2316.5774

2 12 0.5196 0.5851 0.5504 2087.8214 2351.3274

1 13 0.5147 0.5802 0.5455 2087.8214 2353.747

3 14 0.5178 0.5754 0.5451 2087.8214 2319.8274

Melhores resultados 0,7080 0,70236 0,6246

Diferença de aprox. 0.1 na medida-F para o melhor resultado

Diferença de aprox. 0.1 na medida-F em relação ao MiniHAREM

Resultados ligueiramente melhores que no cenário selectivo 2

Resultados na atribuição de âmbitos• Documentos na colecção de teste manualmente atribuídos a uma caixa delimitadora

• Medir a diferença entre os âmbitos geográficos atribuídos manual- e automaticamente

•A baseline 1 corresponde ao âmbito mais frequente e baseline 2 à área mais abrangente

Âmbitos geográficos atribuídos a mais de 75% dos documentos, e em mais de 50% dos casos com um erro inferior a 25Km

Conclusões e Trabalho Futuro

O sistema CaGE e a participação no segundo HAREM– Reconhecer referências geo-temporais em documentos textuais.– Atribuir âmbitos aos documentos com base nas referências.– Disponível como um serviço Web produzindo anotações XML.– Resultados modestos no segundo HAREM.

Trabalho futuro• Melhorar precisão e abrangência do sistema

– Almanaques já têm uma boa cobertura, o foco deve estar em regras.

• Melhor avaliação da atribuição de âmbitos a documentos.• Melhorar tratamento de referências temporais (TimeML).

top related