phd marcirio chaves

18
UMA METODOLOGIA PARA CONSTRUÇÃO DE GEO-ONTOLOGIAS Marcirio Silveira Chaves Orientadores: Mário J. Silva e Diana Santos UNIVERSIDADE DE LISBOA FACULDADE DE CIÊNCIAS DEPARTAMENTO DE INFORMÁTICA Doutoramento em Informática Especialidade Engenharia Informática Lisboa, 16 de outubro de 2009.

Upload: marcirio-chaves

Post on 30-Jun-2015

345 views

Category:

Education


0 download

DESCRIPTION

Apresentação de tese de doutoramento.

TRANSCRIPT

Page 1: Phd Marcirio Chaves

UMA METODOLOGIA PARA

CONSTRUÇÃO DE GEO-

ONTOLOGIAS

Marcirio Silveira ChavesOrientadores: Mário J. Silva e Diana

Santos

UNIVERSIDADE DE LISBOA

FACULDADE DE CIÊNCIAS

DEPARTAMENTO DE INFORMÁTICA

Doutoramento em InformáticaEspecialidade Engenharia Informática

Lisboa, 16 de outubro de 2009.

Page 2: Phd Marcirio Chaves

GEO-ONTOLOGIA

Geo-ontologia: um conjunto de conceitos

geográficos e relacionamentos geográficos

definidos formalmente e sem ambiguidade.

Serve para:

Normalização de terminologia

Integrar base de dados e textos (85%)

2

Page 3: Phd Marcirio Chaves

3

PROBLEMA CONCRETO

CTTDistrito,

Concelho, Freguesia

CTTDistrito,

Concelho, Freguesia

ISO 19109Feature, feature type

ISO 19109Feature, feature type

INENomenclatura de

Unidade Territorial (NUT)

1,2,3

INENomenclatura de

Unidade Territorial (NUT)

1,2,3

Wikipedia e textos

Província, região, aldeia

Wikipedia e textos

Província, região, aldeia

Geo-OntologiaGeo-

Ontologia

Page 4: Phd Marcirio Chaves

SUMÁRIO

4

Desafios

Solução Proposta

Estado da Arte

Geographic Knowledge Base (GKB)

Geograficidade

Sistema de Extração e Integração de Conhecimento Geográfico (SEI-Geo)

Metodologia Proposta

Contribuições

Page 5: Phd Marcirio Chaves

DESAFIOS Informação em bases de dados geográficas

com baixa qualidade, escondida e sub-utilizada

Ontologias carecem de ocorrências e, na prática, não estão disponíveis

Tratamento de informação geográfica em

texto

Ausência de detalhes nas metodologias para construção de ontologias

5

Page 6: Phd Marcirio Chaves

SOLUÇÃO PROPOSTA

6

Etapa Solução Proposta

Encontrar, limpar e integrar informação proveniente de bases de dados geográficas com informações complementares

GKB

Realizar estudos quantitativos Caracterização da geograficidade presente em textos da web em português

Reconhecer o conhecimento disponível em textos e gerar uma representação formal desse conhecimento

SEI-Geo - Extrator

Integrar a ontologia gerada por um sistema de extração e integração de conhecimento geográfico numa ontologia existente

SEI-Geo - Integrador

Page 7: Phd Marcirio Chaves

ESTADO DA ARTE

Representação de conhecimento

7

Tipo de relacionamento

Grau de formalidade

Especialista no domínio

Classificação facetada

livre baixo sim

Mapa de tópicos livre baixo não

Vocabulário controlado

- baixo sim

Taxonomia É um/parte de alto sim

Tesauro BT/NT SN Use/Use For

alto sim

Meta-modelo Livre, porém limitado

baixo sim

Folksonomia rasa baixo não

Ontologia livre alto sim

Page 8: Phd Marcirio Chaves

Sistemas de extração e integração de informação geográfica

8

Padrões Ontologia Integra conhecimento

Geo PT

Snowball ✓ ✗ ✗ ✓ ✗

Ontolearn ✗ ✓ (WordNet)

✓ ✗ ✗

KnowItAll/KnowItNow ✓ ✗ ✗ ✗ ✗

OntoSyphon ✓ ✓ ✗ ✗ ✗

OnLocus e Endereçamento

✓ ✓(ênfase endereços)

✗ ✓ ✓

SEI-Geo ✓ ✓ ✓ ✓ ✓

ESTADO DA ARTE

Page 9: Phd Marcirio Chaves

Metodologias para construção de ontologias

9

TGN SPIRIT Geo-Names GKB

Limpeza de dados

proposta

não proposta

não proposta

descrita em detalhe

Integração de conhecimento

regras similaridade similaridade regras

Formato XML XML, RDF e OWL

XML, RDF e OWL

XML, RDF e OWL

Multi-lingua sim não sim sim

Versionamento mês/ano

N/D variável variável

Documentação informal

formal Informal formal

ESTADO DA ARTE

Page 10: Phd Marcirio Chaves

SISTEMA DE GESTÃO DE CONHECIMENTO GEOGRÁFICO

10

Informação textual não estruturada

Fontes de informação

estruturadas (autoridades)

Ambiente de extração e integração de conhecimento

geográfico

ExtraçãoLimpezaCarregamento

SEI-Geo - Extrator Portugal

Lisboa Sintra

Belém

Arbustos

Rio Tejo

Portugal

Lisboa Sintra

Belém

Geo-ontologia

Rio Tejo

Graça

Rua 25 de Abril

Queluz

SEI-Geo -Integrador

Page 11: Phd Marcirio Chaves

MODELO CONCEITUAL DA GKB

11

Entidade Geográfic

a

Tipo de Entidade

Nome de

Entidade

Tipo de relacionament

o

Relacionamento

Page 12: Phd Marcirio Chaves

GEO-ONTOLOGIAS PRODUZIDAS WGO – World Geographic Ontology

Mais de 13 mil entidades geográficas (EG) (mais de 10 mil distintas)

Ca. 25.000 relacionamentos

Geo-Net-PT01 Mais de 400 mil EG (34 mil termos distintos) Mais de 75% dos termos formados por 1 ou 3

palavras 45% dos termos formados por uma palavra

estão presentes no nome de outras EG formadas por mais de uma palavra

12

Page 13: Phd Marcirio Chaves

GEOGRAFICIDADE DA WEB PORTUGUESA

78,8% dos termos formados por 1 palavra da Geo-Net-PT

estão no WPT 03

nomes de locais em nomes de pessoas e organizações

amostra aleatória de 32.000 documentos do WPT 03

31% das entidades mencionadas distintas da

categoria pessoa e

mais de 23% das entidades mencionadas distintas da

categoria organização

contêm um nome geográfico incluído na Geo-Net-

PT 13

Page 14: Phd Marcirio Chaves

SEI-Geo

14

Mundo

País

Cidade

Rua

Portugal

Sintra

São João

<Local tipo=“adm” subtipo=“aldeia”> Aldeia de Penedo</Local> em <Local tipo=“adm” subtipo=“cidade”> Sintra</Local>.

Identificador

Extrator de

arbustos

Frases c/ potencial conteúdo geográfico

Conceitos e Ocorrências

de Geo-ontologias

Mundo

PaísCidad

eRua

PortugalSintra

São João

Padrões

ArbustosCidade

AldeiaSintra

Penedo

Anotador

Frases anotadas

GKB

Integrador de Conhecimento

Geográfico

Geo-Ontologiasexpandidas

Geo-Ontologias

Aldeia

Mundo

País

Cidade

Rua

Portugal

Sintra

São João Penedo

Geo-Ontologiasexpandidas

Sentenças

... na aldeia de Penedo localizada em Sintra.

Classificador

EM e relacionamentos

reconhecidos

frases com EM e relacionamentos

reconhecidos

Page 15: Phd Marcirio Chaves

METODOLOGIA PROPOSTA NESSA TESE

Concepção de um modelo conceitual

Sub-domínios, relacionamentos (intra-inter), variantes, diferenças de opinião, atributos das EG, etc.

Seleção e limpeza de fontes de informação

Autoridade, custo de aquisição, tipo de

licenciamento e formato

Integração de conhecimento

Exportação de conhecimento e as aplicações15

Page 16: Phd Marcirio Chaves

VALIDAÇÃO INDIRETA DA METODOLOGIA

Sistemas de REM (SEI-Geo e CaGE)

Módulos do Sistema de Recuperação de Informação

Geográfica da UL

Interfaces

Sistemas que utilizaram as geo-ontologias produzidas participaram em avaliações internacionais (GeoCLEF e HAREM) com resultados significativos. 16

Page 17: Phd Marcirio Chaves

CONTRIBUIÇÕES Metodologia para construção de geo-

ontologias proposta e validada

17

Sistema de gestão de conhecimento geográfico – GKB

Análise da geograficidade

Sistema de Extração e Integração de Conhecimento Geográfico – SEI-Geo

Geo-ontologias públicas e gratuitas – WGO e

Page 18: Phd Marcirio Chaves

PRINCIPAIS PUBLICAÇÕES Chaves, Marcirio Silveira. Geo-ontologias e padrões para reconhecimento

de locais e suas relações em textos: a participação do SEI-Geo no Segundo HAREM. In: Cristina Mota e Diana Santos (eds.). Desafios na avaliação conjunta do reconhecimento de entidades mencionadas: O Segundo HAREM, Linguateca, p. 231–245, 2009. ISBN: 978-989-20-1656-6

Chaves, Marcirio Silveira; Rodrigues, Catarina e Silva, Mário J.. Data Model for Geographic Ontologies Generation. XATA2007 - XML: Aplicações e Tecnologias Associadas. 15-16 de Fevereiro, Lisboa, Portugal, 2007.

Santos, Diana e Chaves, Marcirio Silveira. The place of place in geographical IR. In 3rd Workshop on Geographic Information Retrieval, SIGIR'2006. p. 5-8, August 10th, Seattle, 2006.

Chaves, Marcirio Silveira e Santos, Diana. What kinds of geographical information are there in the Portuguese Web?. In Renata Vieira, Paulo Quaresma, Maria da Graça Volpes Nunes, Nuno Mamede, Claudia Oliveira & Maria Carmelita Dias (eds.), Encontro para o Processamento Computacional da Língua Portuguesa Escrita e Falada (PROPOR'2006), LNAI 3960 - Springer, (Itatiaia, RJ, 13 a 17 de maio), pp. 264-267. ISBN 3-540-34045-9

Silva, Mário J.; Martins, Bruno; Chaves, Marcirio Silveira; Cardoso, Nuno; Afonso, Ana Paula. Adding Geographic Scopes to Web Resources. CEUS - Computers, Environment and Urban Systems, Elsevier Science. volume 30, issue 4, July, pages 378-399, 2006.

Chaves, Marcirio Silveira; Silva, Mário J. and Martins, Bruno. A Geographic Knowledge Base for Semantic Web Applications. 20th Brazilian Symposium on Databases - SBBD, Uberlândia, Minas Gerais, Brazil, p. 40-54, 3-7 October, 2005.

18