dados, integração de dados e dados...
TRANSCRIPT
Dados, Integração de Dados e Dados Interligados
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
Bernadette Farias Lóscio [email protected]
PARTE 1 – DADOS E INTEGRAÇÃO DE DADOS
2
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
Dados – Fatos registrados, e que têm um significado
implícito, sobre fenômenos do mundo real
– Tipicamente representam valores (números, caracteres) de variáveis (qualitativas ou quantitativas)
– Utilizados para transmitir, armazenar e deduzir informações
3
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 4
– raw data – Dados que ainda não foram processados – Termo relativo!
• O processamento de dados ocorre em etapas
• O processamento dos dados gera informação
Dados brutos
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 5
– facilitam o entendimento dos relacionamentos e a utilidade das informações dos dados
metaDados
Central do Brasil Walter Sales Fernanda Montenegro
!tulo
diretor
atriz_principal
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
dado
6
informação conhecimento
Informação adicional extraída dos dados ou do especialista do
domínio da aplicação
Significado associado ou deduzido de um
conjunto de dados e de associações entre eles
Valor sem um significado explícito
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
A principal diferença entre eles é o nível de abstração !
7
dado
informação
conhecimento A
BST
RA
ÇÃ
O
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
Processar dados para gerar
informação
8
Interesse comum de organizações públicas e privadas!
Processar informação para gerar
conhecimento
dado
informação
conhecimento
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 9
Quem são as fontes de dados?
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
Podem estar armazenados em – Fontes de dados privadas - disponíveis nas
organizações – Fontes de dados públicas - disponíveis na
Web
10
Dados
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 11
1960
hierárquico em rede
relacional
orientado a objeto
OEM
XML RDF
1970 1980 1990 2000 2012
Web
Web Semântica
Linked Data
modelos de dados
Dados são representados usando modelos de dados!
NoSQL
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
Podem ter diferentes formatos – Dados estruturados (ex. bancos de dados
relacionais) – Dados semi-estruturados (ex. documentos
xml) – Dados não estruturados (ex. documentos
texto)
12
Dados
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 13
Dados estruturados
Dados provenientes dos sistemas transacionais Dados armazenados em bancos de dados relacionais Possuem uma estrutura fixa e bem definida (esquema do banco de dados)
– Esquema pré-definido – Todos os dados de acordo com o esquema
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 14
cod! título! cod_autor!Mar Morto!L01! autor_1!
ano!
L02!L03!L04!L05!
A Estrada do Mar!1936! genero_1!
cod_genero!
autor_1! 1938! genero_2!!O mundo da Paz! autor_1! genero_3!1951!
autor_2! 1930! genero_1!!Tieta do Agreste! autor_1! 1977! genero_1!!
O Quinze!
Tabela relacional - Livros
Dados estruturados
Tabela Gêneros Tabela
Autores
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 15
Dados estruturados
– Grandes volumes de dados armazenados em registros bem definidos
– SGBD, em geral, trabalha com dados bem estruturados – Um SGBD precisa do esquema para
• Armazenar e indexar dados • Processar consultas e atualizações
– Usuários precisam do esquema para formular consultas e atualizações
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 16
Dados semi-estruturados
• Ausência de uma estrutura regular, ou a estrutura é capaz de evoluir de forma imprevisível
• Dados podem ser incompletos • Estrutura irregular (dados heterogêneos) • Tipos são apenas indicativos • A estrutura pode ser implícita • Dados na Web
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 17
Dados semi-estruturados
<?xml version="1.0" encoding="utf-8"?> <livraria> <livro id="L01" ano="1936">
<autor> Jorge Amado </autor> <titulo>Mar Morto</titulo>
</livro> <livro id="L04" ano="1930">
<autor> <nome>Rachel</nome > <sobrenome>de Queiroz</sobrenome > </autor> <titulo>O Quinze</titulo>
<genero> Romance </genero> </livro> </livraria>
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 18
Dados não estruturados
• Ausência de estrutura • Dados que ainda não foram “tratados” ou modelados • Dados armazenados em arquivos ou documentos
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 19
Ilhas de … …
…
estruturados semi-estruturados
não-estruturados
As fontes de dados podem ser !públicas ou privadas!
dados
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
– Apresentação de uma visão uniforme e consistentes dos dados
– Identificação de dados complementares e redundantes
– Resolução de inconsistências
20
Integração dos Dados
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
Como integrar? Como oferecer uma visão global de dados distribuídos em fontes de dados autônomas e heterogêneas?
visão global dos dados
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 22
Tipos de Heterogeneidade de Informação
Estrutural
Sintática
Semântica
Modelos diferentes
Estruturas diferentes
Significados diferentes
Terminológica
Nomes diferentes
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
esquema de integração!
esquema local!
esquema local!
esquema local!
visão integrada !
mapeamentos!
mesmo modelo de dados!
Visão Geral do Problema de Integração de Dados
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
– Mediadores – Datawarehouse – P2P – Dataspaces
24
Arquiteturas
de Integração
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
tradutor!
aplicação!
tradutor! tradutor!
mediador!
consultas !
sub-consultas !
dados!
arquitetura de
mediadores
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
arquitetura de
Data warehouse
aplicação!
Data warehouse !
consultas !
atualizações !dados!
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
arquitetura
Peer to Peer
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
arquitetura de
Dataspaces
tradutor! tradutor! tradutor!
mediador!
tradutor! tradutor! tradutor!
mediador!
tradutor! tradutor! tradutor!
mediador!
aplicação!
abordagem pay-as-you-go
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 29
A escolha da arquitetura depende de alguns fatores:
– A quantidade de fontes de dados a serem integradas
– A frequencia de atualização das fontes – A infra-estrutura de comunicação – …
Arquiteturas
de Integração
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 30
A escolha da arquitetura responde algumas perguntas:
– A integração de dados será virtual ou materializada? – Será usado um único esquema de integração ou
vários esquemas? – É possível definir mapeamentos entre as fontes de
dados ou apenas entre as fontes e o esquema de integração?
Arquiteturas de Integração
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica
Prover interoperabilidade entre as fontes de dados
31
Desafio
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 32
Interoperabilidade
Uma solução de integração de dados deve prover: – interoperabilidade sintática: adoção de um modelo
de dados comum – interoperabilidade estrutural: definição de
mapeamentos – interoperoperabilidade semântica: uso de
vocabulários
Interoperabilidade: é a capacidade de um sistema (informatizado ou não) de se comunicar de forma transparente (ou o mais próximo disso) com outro sistema (semelhante ou não).
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 33
Interoperabilidade
– O modelo de dados comum deve ser flexível e capaz de representar dados semi-estruturados
– Prover interoperabilidade semântica é o maior desafio da integração de dados!
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 34
Web Semântica e Linked Data
– Oferecem soluções e tecnologias adequadas para
resolver o problema da integração de dados – Modelo de dados flexível para representação
dos dados na Web – Ontologias ajudam a resolver o problema da
heterogeneidade semântica
II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 35
Conclusões