pesquisa em integração de dados xml

53
Pesquisa em Pesquisa em Integração de Integração de Dados XML Dados XML Ronaldo dos Santos Mello INE / CTC / UFSC [email protected] SECCOM - UFSC Semana de Cursos e Palestras da Computação Outubro/2005

Upload: baruch

Post on 12-Jan-2016

33 views

Category:

Documents


5 download

DESCRIPTION

SECCOM - UFSC Semana de Cursos e Palestras da Computação Outubro/2005. Pesquisa em Integração de Dados XML. Ronaldo dos Santos Mello INE / CTC / UFSC [email protected]. Roteiro. Integração de Dados XML Integração de Dados XML Estudo de Caso: Abordagem BInXS Considerações Finais. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Pesquisa em Integração de Dados XML

Pesquisa em Integração Pesquisa em Integração de Dados XMLde Dados XML

Ronaldo dos Santos Mello

INE / CTC / [email protected]

SECCOM - UFSC

Semana de Cursos e Palestras da Computação

Outubro/2005

Page 2: Pesquisa em Integração de Dados XML

RoteiroRoteiro

1. Integração de Dados

2. XML

3. Integração de Dados XML

4. Estudo de Caso: Abordagem BInXS

5. Considerações Finais

Page 3: Pesquisa em Integração de Dados XML

RoteiroRoteiro

1.1. Integração de DadosIntegração de Dados2. XML

3. Integração de Dados XML

4. Estudo de Caso: Abordagem BInXS

5. Considerações Finais

Page 4: Pesquisa em Integração de Dados XML

Integração de DadosIntegração de Dados

Problemática antiga na área de Banco de Dados!– necessidade de acesso compartilhado, não-redundante e

transparente a dados heterogêneos

Exemplos de gerenciamento de dados heterogêneos– BDD (réplicas e fragmentos)

– dados cadastrais de pessoas físicas (receita federal, bancos, SPC, ...)

– dados geográficos (órgãos governamentais, institutos de pesquisa, ...)

– pesquisa a dados de determinados domínios na Web com resultado não-redundante

– . . .

Page 5: Pesquisa em Integração de Dados XML

Gerência de Dados HeterogêneosGerência de Dados Heterogêneos Duas principais abordagens

BD Federado (BDF)BD Federado (BDF) MultidatabaseMultidatabase possui um ou mais esquemas globais resultantes da integração de vários esquemas locais de BDs ou fontes de dados

– com ou sem materialização

visão global dos dados e menor número de mapeamentos overhead com a manutenção do esquema global e traduções de consultas

não possui esquemas globais e sim correspondências entre esquemas locais não há visão global adicional, mas um maior número de mapeamentos bidirecionais overhead com a definição e manutenção de múltiplos mapeamentos e traduções de consultas

Page 6: Pesquisa em Integração de Dados XML

Arquitetura de um BDF Arquitetura de um BDF

Esquema Local 1

Esquema Componente 1

Esquema Exportação 1

Esquema Global

Esquema Externo 1

BDLocal 1

Esquema Externo 2 Esquema Externo m

Esquema Exportação 2 Esquema Exportação n

. . .

Esquema Local 2 Esquema Local n. . .

. . .

BDLocal 2

BDLocal n

Esquema Componente 2 Esquema Componente n. . . esquema local nomodelo canônico

porção do esquema local a ser integrada

resultado da integração dos esquemas de exportação

visões do esquema global

Page 7: Pesquisa em Integração de Dados XML

Arquitetura de um Arquitetura de um MultidatabaseMultidatabase

Esquema Local 1

Esquema MultiDB 1

BDLocal 1

Esquema Correspondência 1 . . .

Esquema Local 2 Esquema Local n. . .

BDLocal 2

BDLocal n

Esquema MultiDB 2 Esquema MultiDB n. . . equivalente a um esquema de exportação

define mapeamentos entre 2 esquemas MultiDBs

Esquema Correspondência m

Page 8: Pesquisa em Integração de Dados XML

Integração de EsquemasIntegração de Esquemas Atividade de geração de um esquema global e

de seus mapeamentos para esquemas locais– manual, semi-automática ou automática

Etapas tradicionais

Pré-Integração Comparaçãode Esquemas

UnificaçãoReestruturação

esquemasde entrada

esquemascanônicos

+mapeamentos

esquemas canônicos+mapeamentos+equivalências entre conceitos

esquema global+

mapeamentos

esquema globalreestruturado

+mapeamentos

Page 9: Pesquisa em Integração de Dados XML

Integração de EsquemasIntegração de Esquemas Atividade de geração de um esquema global e

de seus mapeamentos para esquemas locais– manual, semi-automática ou automática

Etapas tradicionais

Pré-Integração Comparaçãode Esquemas

UnificaçãoReestruturação

esquemasde entrada

esquemascanônicos

+mapeamentos

esquemas canônicos+mapeamentos+equivalências entre conceitos

esquema global+

mapeamentos

esquema globalreestruturado

+mapeamentos

• decidir quais partes de cada esquema devem ser integradas• mapear cada esquema para uma representação canônica

Page 10: Pesquisa em Integração de Dados XML

Integração de EsquemasIntegração de Esquemas Atividade de geração de um esquema global e

de seus mapeamentos para esquemas locais– manual, semi-automática ou automática

Etapas tradicionais

Pré-Integração ComparaçãoComparaçãode Esquemasde Esquemas

UnificaçãoReestruturação

esquemasde entrada

esquemascanônicos

+mapeamentos

esquemas canônicos+mapeamentos+equivalências entre conceitos

esquema global+

mapeamentos

esquema globalreestruturado

+mapeamentos

• determinar correspondências semânticas entre conceitos dos esquemas

– análise de nomenclatura, estrutura, relacionamentos, restrições, ...

Page 11: Pesquisa em Integração de Dados XML

Integração de EsquemasIntegração de Esquemas Atividade de geração de um esquema global e

de seus mapeamentos para esquemas locais– manual, semi-automática ou automática

Etapas tradicionais

Pré-Integração Comparaçãode Esquemas

UnificaçãoUnificaçãoReestruturação

esquemasde entrada

esquemascanônicos

+mapeamentos

esquemas canônicos+mapeamentos+equivalências entre conceitos

esquema global+

mapeamentos

esquema globalreestruturado

+mapeamentos

• resolver conflitos entre conceitos equivalentes e gerar uma representação integrada para eles• atualizar os mapeamentos locais

– levando em conta a nova representação

Page 12: Pesquisa em Integração de Dados XML

Integração de EsquemasIntegração de Esquemas Atividade de geração de um esquema global e

de seus mapeamentos para esquemas locais– manual, semi-automática ou automática

Etapas tradicionais

Pré-Integração Comparaçãode Esquemas

UnificaçãoReestruturação

esquemasde entrada

esquemascanônicos

+mapeamentos

esquemas canônicos+mapeamentos+equivalências entre conceitos

esquema global+

mapeamentos

esquema globalreestruturado

+mapeamentos

• adequar melhor o esquema global à semântica do domínio

– mudanças de nomenclatura, inclusão de relacionamentos semânticos, remoção de relacionamentos redundantes, ...

Page 13: Pesquisa em Integração de Dados XML

Taxonomias de Integração de EsquemasTaxonomias de Integração de EsquemasClassificação Técnica Características

Processo de Integração

bottom-up esquema global gerado a partir dos esquemas locais

top-down esquema global gerado a partir de esquemas externos e posteriormente associado a esquemas locais

Unificação binária sucessivas unificações de pares de esquemas – menor complexidade de comparação e unificação

n-ária mais de dois esquemas são unificados a cada passo – redução no número de passos de unificação

Determinação de Equivalências

lingüística afinidade de nomenclatura (dicionários, Thesaurus, ...)

restrição afinidade de domínio (propriedades + restrições)

esquema afinidade estrutural

instância afinidade de conteúdo (técnicas de IR: freqüência de palavras, termos chave, ...)

Categorias de Conflitos

nome nomenclatura heterogênea – identificar relações semânticas (sinônimo, hipônimo) para tomar decisão

estrutura representação heterogênea – vários tipos: construtor de modelagem, número de atributos e de relacionamentos, ...

Page 14: Pesquisa em Integração de Dados XML

RoteiroRoteiro

1. Integração de Dados

2.2. XMLXML3. Integração de Dados XML

4. Estudo de Caso: Abordagem BInXS

5. Considerações Finais

Page 15: Pesquisa em Integração de Dados XML

XML XML ((eXtensible Markup LanguageeXtensible Markup Language))

Tecnologia desenvolvida pela W3C (1998)– W3C: World Wide Web Consortium

Linguagem de marcação– semelhança com a linguagem HTML

utiliza tags para descrição os dados– tag: indica a intenção do dado e delimita o seu conteúdo

– meta-linguagem cada aplicação define o seu protocolo (linguagem) para a

representação dos seus dados

Dados são descritos em um documento XML– arquivos texto

não ocupam muito espaço em disco

Page 16: Pesquisa em Integração de Dados XML

XML - EstruturaXML - Estrutura<?xml version =“1.0” encoding ="ISO-8859-1“><!–- documento XML sobre livros --><!DOCTYPE listaDeLivros [ <!ELEMENT listaLivros(livro+) ...]><listaLivros><livro ISBN=“112”> <título>Tecnologia XML</título> <autor> <nome>João da Silva</nome> <eMail>[email protected]</eMail> </autor> ... <capítulo nome=“Introdução”>A XML foi ... <seção>

<nome>Linguagens de Marcação</nome> ...</seção>

</capítulo> ... </livro> ...</listaLivros>

dado XML: estrutura hierárquica, ordenada e complexa

atributoelemento (simples)elemento (composto)

elemento (misto)

informações dodocumento

elemento (raiz)

Page 17: Pesquisa em Integração de Dados XML

XML - AplicaçãoXML - Aplicação

Representação e transferência de dados em diversos domínios de aplicação e tecnologias para a Web– comércio eletrônico (CXML, ebXML)

– SIG (SVG, GML)

– referências bibliográficas (DBLP, SIGMOD, ...)

– dispositivos móveis (WAP/WML)

– mensagens e processos (SOAP, WSDL)

– . . .

Page 18: Pesquisa em Integração de Dados XML

XML - TecnologiaXML - Tecnologia

Definição de esquemas de documentos– DTD (Document Type Definition) – XSD (XML-Schema Definition)

Linguagens de consulta a documentos– XPath e XQuery

APIs para processamento de documentos – DOM, SAX, ...

BDs para XML– Tamino, eXist, XIndice, ...

Page 19: Pesquisa em Integração de Dados XML

RoteiroRoteiro

1. Integração de Dados

2. XML

3.3. Integração de Dados XMLIntegração de Dados XML4. Estudo de Caso: Abordagem BInXS

5. Considerações Finais

Page 20: Pesquisa em Integração de Dados XML

Por quê se Preocupar com Por quê se Preocupar com Integração de Dados XML?Integração de Dados XML?

Alta disponibilidade de dados XML na Web– mais fácil e mais econômico de publicar, se

comparado com estruturas de BDs– muitos dados são redundantes e/ou complementares

interessante ter uma visão única e integrada desses dados– excelente para máquinas de busca e aplicações na Web

Web Semântica– visão da Web como um grande BD!

BDs XML Distribuídos– lidam com fragmentos XML redundantes

Page 21: Pesquisa em Integração de Dados XML

Integração de Dados XMLIntegração de Dados XML Mais complexa que a integração de BDs!

– XML são dados semi-estruturados dados são parcialmente estruturados instâncias XML em uma mesma fonte podem ter estruturas

diferentes (dados opcionais, dados repetidos, ...) instâncias XML em uma mesma fonte podem ter

representações alternativas

<pessoa> <nome>João Silva</nome> <endereço>rua B, 23</endereço> <eMail>[email protected]</eMail></pessoa>

<pessoa> <nome>João Silva</nome> <CPF>10101010101</CPF> <eMail>[email protected]</eMail> <eMail>[email protected]</eMail></pessoa>

<pessoa CPF = “10101010101”> <nome>João Silva</nome> </residência><rua>B</rua><nro>23</nro></residência></pessoa>

Page 22: Pesquisa em Integração de Dados XML

Arquitetura Típica de Integração XMLArquitetura Típica de Integração XML

Wrapper 1 Wrapper nEsquema XML 1

Consultas locais

Documento XML global

EsquemaGlobal

Usuário Especialista

Mediador

Interface de Consulta

Consulta global Resultado

Esquemas e documentos XML Locais

Consulta global textual

. . .

Fonte de dados XML 1

Esquema XML n

Fonte de dados XML n

Usuários e aplicações

Page 23: Pesquisa em Integração de Dados XML

Abordagens de Integração XMLAbordagens de Integração XML Integração manual X integração semi-automática

– integração manual ferramentas de apoio a usuários especialistas para a definição

de esquemas globais desvantagens

– baixo grau de automatização– usuário deve ter conhecimento profundo do domínio

– integração semi-automática preferível, pois retira do usuário todas as decisões de

integração devem ser bem projetadas para produzir resultados mais

exatos possíveis com um mínimo de intervenção do usuário

Page 24: Pesquisa em Integração de Dados XML

Abordagens de Integração XMLAbordagens de Integração XML

Quanto ao modelo canônico adotado– modelo de implementação ou lógico

DTD ou XSD ou algum modelo de grafo hierárquico ênfase apenas na estrutura dos dados mapeamento direto e simples do esquema XML

– modelo conceitual UML, ER, ORM, ... ênfase na estrutura e na semântica dos dados mapeamento mais complexo do esquema XML

– deve inferir relacionamentos semânticos entre os dados XML

Page 25: Pesquisa em Integração de Dados XML

Abordagens de Integração XMLAbordagens de Integração XML Abordagens mais ricas

– semi-automáticas + modelo canônico conceitual + análise de diversos tipos de equivalência + tratamento de todos os tipos de conflitos

Limitações destas abordagens– não lidam com todos os problemas de integração inerentes a

natureza dos dados XML abstrações canônicas e processos de unificação não consideram elementos

mistos e/ou elementos com representações alternativas e/ou ...

– nem todos os tipos de análise de determinação de equivalência são considerados análise de estrutura, de restrições, de instâncias, ...

Estudo de caso: Abordagem BInXS– tenta suprir as limitações das abordagens atuais

Page 26: Pesquisa em Integração de Dados XML

RoteiroRoteiro

1. Integração de Dados

2. XML

3. Integração de Dados XML

4.4. Estudo de Caso: Abordagem BInXSEstudo de Caso: Abordagem BInXS5. Considerações Finais

Page 27: Pesquisa em Integração de Dados XML

BInXSBInXS

Abordagem de integração semântica de fontes de dados XML

BInXS é uma sigla para– Bottom-up Integration of XML Sources

BInXS é um dos trabalhos em desenvolvimento no Grupo de Banco de Dados da UFSC (GBD-UFSC)– http://www.grupobd.inf.ufsc.br

Page 28: Pesquisa em Integração de Dados XML

BInXS – Principais ContribuiçõesBInXS – Principais Contribuições Abordagem bottom-up

– gera, de forma semi-automática, um esquema global a partir dos esquemas XML das fontes locais considera todos os dados presentes em todas as fontes

Representações conceituais de esquemas XML– esquemas canônicos e global são conceituais

alto nível de abstração para os dados XML

Estratégia de unificação específica para XML– leva em conta as características semi-estruturadas

dos dados XML

Page 29: Pesquisa em Integração de Dados XML

BInXS - ArquiteturaBInXS - Arquitetura BInXS é um mediador em uma arquitetura mediador-wrapper

Esquema XML 1

Esquema Global

Usuário Especialista

UnificaçãoBInXS

. . .Esquema Conceitual 1 Esquema Conceitual n

. . .

Conversão

BDs Terminológicas

Documentos XML

Documentos XML

Conversão. . .

Esquema XML n

Page 30: Pesquisa em Integração de Dados XML

BInXS – Etapa de ConversãoBInXS – Etapa de Conversão

Baseado em um conjunto de regras para mapeamento de construtores do modelo XML para construtores do modelo conceitual

Documentos XML (instâncias) são também analisados– objetivo: gerar, de forma automática, um esquema conceitual

preliminar mais próximo de um esquema exato

Modelo conceitual de dados escolhido: ORM– correspondência mais próxima com o modelo XML

elemento complexo conceito não-léxico elemento simples ou atributo conceito léxico todas as associações entre dados no modelo XML possuem

associações correspondentes no modelo ORM

Page 31: Pesquisa em Integração de Dados XML

Modelos Considerados na ConversãoModelos Considerados na Conversão

Empresa

Universidade

Endereço

Ano Livro

(1,N)

(1,N)

residencial

(0,1)

(1,N)

(1,N)

(1,1)

(1,N)

(1,N)

(1,N)

(1,N)

(1,1)

(0,1)

{técnico, ficção}

Categoria

Autor

Nome(1,1)

(1,1)

comercial

(1,1)

(1,N)

string

string

stringstring

integer

Modelo ORM

Livro

AutorEndereço

Categoria

UniversidadeEmpresa

Título Ano

(0,1)(1,1) (1,N)

Nome

(1,1)

(1,1)

(1,1)

(1,N)

(0,1)

Modelo XML

<!ELEMENT Livro (Título, Ano?, Autor+)><!ATTLIST Livro Categoria CDATA (técnico | ficção)><!ELEMENT Autor (Nome, (Universidade+ | Empresa), ...)><!ELEMENT Nome (#PCDATA). . .

Esquema XML em DTD

Page 32: Pesquisa em Integração de Dados XML

Conversão de Elemento CompostoConversão de Elemento Composto<!ELEMENT Publicação (Ano?,...,Autor+,...,Livro?)>

Publicação

Page 33: Pesquisa em Integração de Dados XML

Conversão de Elemento SimplesConversão de Elemento Simples<!ELEMENT Publicação (Ano?,...,Autor+,...,Livro?)>

<!ELEMENT Ano(#PCDATA)>

Publicação

Anointeger

análise de docs XML

default: string

Page 34: Pesquisa em Integração de Dados XML

Análise de Documentos XMLAnálise de Documentos XML

Análise de tipo de dado

...<Ano>2002</Ano> ...<Ano>1999</Ano>...<Ano>2005</Ano> ...

Tipo de dado de Ano: integer

Page 35: Pesquisa em Integração de Dados XML

Conversão de ComponentesConversão de Componentes<!ELEMENT Publicação (Ano?,...,Autor+,...,Livro?)>

<!ELEMENT Ano(#PCDATA)>

Anointeger

Publicação

(0,1)

(1,N)default: (1,N)

regras decardinalidade

análise de docs XML

Page 36: Pesquisa em Integração de Dados XML

Análise de Documentos XMLAnálise de Documentos XML

Análise de cardinalidade inversa...<Publication Title = “XML”> ... <Year>2002</Year> ... </Publication>...<Publication Title = “ORM”> ... <Year>2002</Year> ...</Publication>...

CardinalidadeAnoPublicação: (1,N)

Page 37: Pesquisa em Integração de Dados XML

Conversão de Representações AlternativasConversão de Representações Alternativas<!ELEMENT Publicação (Ano?,...,Autor+,...,Livro?)>

<!ELEMENT Ano(#PCDATA)>

<!ELEMENT Autor(Nome,(Universidade+ | Empresa), ...)>

Anointeger

Publicação

(0,1)

(1,N)

Autor

Universidadestring

(1,N)(1,N)

Empresastring

(1,N)(1,1)

(1,N)

(1,N)

Page 38: Pesquisa em Integração de Dados XML

Deifinição de Relações de EspecializaçãoDeifinição de Relações de Especialização<!ELEMENT Publicação (Ano?,...,Autor+,...,Livro?)>

<!ELEMENT Ano(#PCDATA)>

<!ELEMENT Autor(Nome,(Universidade+ | Empresa), ...)>

Anointeger

Publicação

(0,1)

(1,N)

Autor

Universidadestring

(1,N)(1,N)

Empresastring

(1,N)(1,1)

(1,N)

(1,N)

Livro

consulta à BD terminológica

<Publicação IS-A Livro>

Page 39: Pesquisa em Integração de Dados XML

Conversão de AtributosConversão de Atributos<!ELEMENT Publicação (Ano?,...,Autor+,...,Livro?)>

<!ELEMENT Ano(#PCDATA)>

<!ELEMENT Autor(Nome,(Universidade+ | Empresa), ...)>

<!ATTLIST Livro Categoria CDATA #REQUIRED (técnico | ficção)>

Anointeger

Publicação

(0,1)

(1,N)

Autor

Universidadestring

(1,N)(1,N)

Empresastring

(1,N)(1,1)

(1,N)

(1,N)

Livro

Categoria{técnico, ficção}

string

(1,1)(1,N)

Page 40: Pesquisa em Integração de Dados XML

Conversão de Elementos MistosConversão de Elementos Mistos...

<!ELEMENT Livro (Editora,...,Capítulo+,...)>

<!ELEMENT Capítulo (Seção | #PCDATA)*>

Livro

Capítulo

Seção

(1,1)(0,N)

Capítulo-Textostring

(1,1)(0,N)

(1,N)(1,1)

Page 41: Pesquisa em Integração de Dados XML

BInXS – Dados de MapeamentoBInXS – Dados de Mapeamento Dados gerados durante a conversão Expressões XPath 1.0

– indicam o caminho até o dado XML na fonte local

– facilitam a execução de futuras consultas a partir do esquema global

– mapeamento definido para conceitos e relacionamentos

ExemplosLivro

Capítulo

(1,N)(1,1)

Fonte XML 1: /publicação/livroFonte XML 2: /acervo/midiaImpressa/livro

Fonte XML 1: /publicação/livro/conteúdo/capítuloFonte XML 2:

Fonte XML 1: LivroCapítulo: conteúdo/capítuloCapítuloLivro: . . / . .Fonte XML 2:

Page 42: Pesquisa em Integração de Dados XML

BInXS – Etapa de UnificaçãoBInXS – Etapa de Unificação Geração de um esquema conceitual global a

partir dos esquemas conceituais locais Uma integração tradicional de esquemas é feita

1. Comparação de Esquemas– agrupa conceitos ORM em clusters de afinidade

– apoio de BDs Terminológicas para determinar esses clusters

2. “Casamento” (Unificação propriamente dita)– gera um conceito global para cada cluster de afinidade– trata 3 casos de unificação: LxL, NLxNL e NLxL

3. Reestruturação– executa ajustes manuais e automáticos no esquema global

remoção de relacionamentos redundantes, generalização de conceitos, ...

Page 43: Pesquisa em Integração de Dados XML

Casos de UnificaçãoCasos de UnificaçãoCaso Tipo de

Conceito no Cluster

Corresponde ao “casamento” de

Resultado

L x L somente léxico

conteúdo XML atômico (atributo, elemento simples, partes textuais de elementos mistos, ...)

conceito global léxico

NL x NL somente não-léxico

conteúdo XML estruturado (elemento composto)

conceito global não-léxico

NL x L léxico ou

não-léxico

conteúdo XML atômico e estruturado

conceito global não-léxico NLx (para os conceitos não-léxicos) E cada conceito léxico corresponde a um conceito global léxico associado a NLx OU gera um conceito global léxico

Page 44: Pesquisa em Integração de Dados XML

Exemplo de Unificação Exemplo de Unificação L x LL x L

Fonte XML 2Fonte XML 1

X

Esquema Global

{técnico, infantil, poesia}

Categoria

{técnico, ficção}

Classe

string[20] string[30]

Categoria

string[30]

{técnico, ficção, infantil, poesia}

Page 45: Pesquisa em Integração de Dados XML

Exemplo de Unificação Exemplo de Unificação NL x NLNL x NL

Fonte XML 2Fonte XML 1 X

Esquema Global

Autor Instituto-Pesquisa

Empresa

Universidade

(1,N)

(1,N)

(1,N)

(1,N)

(0,1)

(0,1)

(0,1)

(0,N)Categoria

(1,N)

(1,N)

Autor

Escritório

Empresa

Universidade

(1,N)

(1,N)

(1,N)

(1,1)

(1,1)

(1,N)Classe

(1,N)

(1,N)

Escritor

Escritório

Instituto-Pesquisa

Empreendimento

Universidade

(1,N)

(1,N)

(1,N)

(1,N)

(1,1)

(1,1)

(1,1)

(1,1)Categoria

(0,2)

(1,N)

Residência

(1,N)

(1,N) Domicílio

(1,N)

(1,N)

(1,N)

(1,N)

Escritório

Residência

Page 46: Pesquisa em Integração de Dados XML

Exemplo de Unificação Exemplo de Unificação NL x LNL x L

Fonte XML 2Fonte XML 1

X

Esquema Global

Residência

CidadeNúmero

Rua

(1,N)

(1,1)(1,1)

(1,1)

(1,N)

(0,1)

Domicílio

Mapeamento do conceito Cidade para a Fonte XML 2:/Autores/Autor/Domicílio

Residência

CidadeNúmero

Rua

(1,N)

(1,1)(1,1)

(1,1)

(1,N)

(0,1)

Page 47: Pesquisa em Integração de Dados XML

Exemplos de ReestruturaçãoExemplos de Reestruturação

Artigo Livro

Título(1,1)(1,1)(1,1)(1,1)

(1,1)(1,1)

(1,1)(1,1)

Publicação

Artigo Livro

Publicação Título(1,1)(1,1)(1,1)(1,1)generalizaçãode conceitos

Livro

Publicaçãoremoção derelacionamentosredundantes

Ano

(1,N)(1,N)

(1,1)(1,1)

(1,N)(1,N)(1,1)(1,1) Livro

Publicação

Ano

(1,N)(1,N)

(1,1)(1,1)

Page 48: Pesquisa em Integração de Dados XML

BInXS – Trabalhos no GBD-UFSCBInXS – Trabalhos no GBD-UFSC Concluído

– sistema de controle de BD terminológicas Em Fase de Conclusão

– conversão de esquemas XSD para ORM Em Andamento

– geração de esquemas XSD a partir de docs XML– gerência de resultados de consultas a partir do esquema global

determinação de equivalência entre instâncias XML heterogêneas operações de integração de instâncias XML heterogêneas

Em Fase Inicial– funções de análise de documentos XML para a Conversão– análise e incorporação de RIs de domínio das fontes XML no

esquema global A Desenvolver...

– um monte de trabalhos!!!!!

Page 49: Pesquisa em Integração de Dados XML

RoteiroRoteiro

1. Integração de Dados

2. XML

3. Integração de Dados XML

4. Estudo de Caso: Abordagem BInXS

5.5. Considerações FinaisConsiderações Finais

Page 50: Pesquisa em Integração de Dados XML

Considerações FinaisConsiderações Finais

Integração de Dados XML é um tópico atual de pesquisa

– popularização de dados XML é um fato! gerados por aplicações na Web disponibilizados em sites na Web gerados por SGBDs para exportação

– Web semântica está caminhando para uma formato universal XML forma padrão de ver dados, esquemas, informações

semânticas de domínios na Web (ontologias), ...

Page 51: Pesquisa em Integração de Dados XML

Vertentes de PesquisaVertentes de Pesquisa Integração de esquemas XML

– tópico de pesquisa mais maduro com várias propostas– ideal em termos de abordagem robusta

mais automatizada possível! geração de esquemas globais conceituais (semânticos!)

– abordagens bottom-up consideram características de todas as fontes consideração das características semi-estruturadas de XML

e da semântica dos dados no esquema global– nomenclatura, estrutura, restrições do domínio, instâncias, ...

Integração de instâncias XML– tópico de pesquisa mais recente– não há abordagem de consenso

equivalência baseada em conteúdo, estrutura, semântica, ...

Page 52: Pesquisa em Integração de Dados XML

Abordagem BInXSAbordagem BInXS Uma proposta robusta para integração de esquemas e integração

de instâncias XML Integração de esquemas XML

– semi-automática porém, implementa diversas regras automáticas nas várias etapas de integração

(aliado a consulta a BDs terminológicas) visando minimizar a validação manual

– bottom-up, n-ária, com análise de nomenclatura, estrutura e instâncias para fins de determinação de equivalência e posterior unificação consideração das características de todas as fontes XML análise de diversas características (esquema e dados)

– trabalhos futuros: consideração de restrições de domínio e técnicas de afinidade baseada em instâncias para integração de esquemas

– esquema global gerado é conceitual abstração de dados com maior semântica

Integração de instâncias XML– objetivo: desenvolver uma abordagem robusta que considere aspectos

sintáticos (nomenclatura, estrutura, etc) e semânticos dos dados (uso de BDs terminológicas, ontologias, etc) no processo de integração

Page 53: Pesquisa em Integração de Dados XML

Pesquisa em Integração Pesquisa em Integração de Dados XMLde Dados XML

Ronaldo dos Santos Mello

INE / CTC / [email protected]

SECCOM - UFSC

Semana de Cursos e Palestras da Computação

Outubro/2005