gestão da informação- desafios em: escala, contexto...

18
Desafio 1 : Gestão da informação em grandes volumes de dados multimídia distribuídos SEMISH 2007 Marta Mattoso, COPPE/UFRJ Desafio 1 : Gestão da informação em grandes volumes de dados multimídia distribuídos Marta Mattoso Flávio Wagner Lisandro Granville Edison Ishikawa Coordenação: Semish 2007 30 de junho a 02 de julho UFRGS UFRGS Gestão da Informação- desafios em: escala, contexto, distribuição, curadoria, ... Marta Mattoso Engenharia de Sistemas COPPE Universidade Federal do Rio de Janeiro [email protected]

Upload: others

Post on 14-Mar-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Gestão da Informação- desafios em: escala, contexto ...marta/Enginfo/Palestra9_DesafiosVolumesDados.pdf · – Cientista analisa bases de dados/arquivos Recursos – armazenar,

Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos

SEMISH 2007 Marta Mattoso, COPPE/UFRJ

Desafio 1: Gestão da informação em grandes volumes de dados

multimídia distribuídos

Marta Mattoso

Flávio Wagner

Lisandro Granville

Edison Ishikawa

Coordenação:

Semish 2007

30 de junho a 02 de julho

UFRGS

UFRGS

Gestão da Informação-desafios em: escala, contexto,

distribuição, curadoria, ...

Marta MattosoEngenharia de SistemasCOPPEUniversidade Federal do Rio de [email protected]

Page 2: Gestão da Informação- desafios em: escala, contexto ...marta/Enginfo/Palestra9_DesafiosVolumesDados.pdf · – Cientista analisa bases de dados/arquivos Recursos – armazenar,

Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos

SEMISH 2007 Marta Mattoso, COPPE/UFRJ

Problemas técnicos e científicos:

Escala1. Redução (abstração e sumarização) das massas de dados por

meio de modelagem computacional, simulações e outros;

2. Utilização de processamento paralelo envolvendo recursos heterogêneos como nas grades (grids) computacionais;

3. Estudos em modelos e mecanismos de conciliação e integração de dados com larga escala de heterogeneidade;

4. Utilização de estruturas de indexação dinâmicas e distribuídas do tipo P2P;

5. Estudo de infra-estruturas adaptáveis e inteligentes para o processamento distribuído de informações;

Problemas técnicos e científicos:Contexto

6. Definição e uso da noção de contexto para a recuperação de informação, considerando fatores como localização do usuário, perfil de interesses, objetivos dentre outros;

7. Projeto e implementação de descritores de conteúdomultimodal e algoritmos para extração e indexação desses descritores, permitindo buscas multimodais;

8. Consideração, no armazenamento e recuperação, de fatores inerentes à heterogeneidade na aquisição de dadostais como sensores, celulares, PDAs, etc. ;

9. Trabalho em modelos conceituais dos domínios ou gêneros do entretenimento digital, incluindo o desenvolvimento de métodos e implementando sistemas de manipulação de enredos, ganhando experiência com os requisitos dos diferentes tipos de aplicação;

Page 3: Gestão da Informação- desafios em: escala, contexto ...marta/Enginfo/Palestra9_DesafiosVolumesDados.pdf · – Cientista analisa bases de dados/arquivos Recursos – armazenar,

Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos

SEMISH 2007 Marta Mattoso, COPPE/UFRJ

Problemas técnicos e científicos:Curadoria

10. Estudo de formas alternativas de disponibilização da informação, incluindo pesquisa em novos tipos de interfaces;

11. Tratamento da confiabilidade e validade dos dados e da propriedade intelectual;

Detalhando

• Escala• Contexto• Curadoria

Page 4: Gestão da Informação- desafios em: escala, contexto ...marta/Enginfo/Palestra9_DesafiosVolumesDados.pdf · – Cientista analisa bases de dados/arquivos Recursos – armazenar,

Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos

SEMISH 2007 Marta Mattoso, COPPE/UFRJ

Problemas técnicos e científicos:

Escala 1. Redução (abstração e sumarização) das

massas de dados por meio de modelagem computacional, simulações e outros;

Engenharia Computacional

Page 5: Gestão da Informação- desafios em: escala, contexto ...marta/Enginfo/Palestra9_DesafiosVolumesDados.pdf · – Cientista analisa bases de dados/arquivos Recursos – armazenar,

Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos

SEMISH 2007 Marta Mattoso, COPPE/UFRJ

DESAFIOS paraCiência & Tecnologia

• Evolução da Ciência & Ciência em Tempo real

• Complexidade dos fenômenos• Avalanche de informações e

conhecimentos• Gestão: Monitorar informação, extrair

conhecimento e transformar em decisão

Evolução da Ciência

• Ciência baseada em Observações– Cientista obtém dados por observação direta– Cientista analisam dados

• Ciência baseada em Análises– Cientista constrói o modelo analítico– Realiza previsões

• Ciência baseada em Simulações– Simula o modelo analítico– Valida o modelo e realiza previsões

Page 6: Gestão da Informação- desafios em: escala, contexto ...marta/Enginfo/Palestra9_DesafiosVolumesDados.pdf · – Cientista analisa bases de dados/arquivos Recursos – armazenar,

Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos

SEMISH 2007 Marta Mattoso, COPPE/UFRJ

Evolução da Ciência (cont.)

• Ciência baseada em Observações• Ciência baseada em Análises• Ciência baseada em Simulações• Ciência baseada em Dados

– Dados obtidos por instrumentos, sensores ou dados gerados por simulação

– Processados por software– Armazenados em bases de dados/arquivos– Cientista analisa bases de dados/arquivos

Recursos – armazenar, gerenciar, manipular ...

– Modelos• Conjunto de idéias que descrevem um processo natural• Algoritmos

– Programas• implementação computacional de um modelo

– Dados• Obtidos em redes de sensores• Gerados por mecanismos de “coleta”• Gerados por programas científicos

– Workflows• Combinação de modelos ou programas e dados

– Experimentos• Execução de programas e workflows

Page 7: Gestão da Informação- desafios em: escala, contexto ...marta/Enginfo/Palestra9_DesafiosVolumesDados.pdf · – Cientista analisa bases de dados/arquivos Recursos – armazenar,

Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos

SEMISH 2007 Marta Mattoso, COPPE/UFRJ

Recursos

Fonte: adaptado de Carole Goble, myGrid

Recursos Científicos -isolados

Dados isolados dos Processos que os geraram

Dados isolados dos Processos que os geraram

Filtros, transformadores deformato de dados

Filtros, transformadores deformato de dados

Execução isolada de programas e workflowsExecução isolada de

programas e workflows

Resultado do Wf

isolado de parametros

Resultado do Wf

isolado de parametros

Inúmeros programas

disponíveisInúmeros programas

disponíveis

Page 8: Gestão da Informação- desafios em: escala, contexto ...marta/Enginfo/Palestra9_DesafiosVolumesDados.pdf · – Cientista analisa bases de dados/arquivos Recursos – armazenar,

Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos

SEMISH 2007 Marta Mattoso, COPPE/UFRJ

Com imagens ainda maiscrítico

Como essas imagens foram criadas ?São do mesmo paciente ?

Usam o mesmo padrão de cores ?

Fonte: adaptado de Juliana Freire, VisTrails

Recursos Científicos isolados não “escalam”

• Re-trabalho, Inconsistências• Relacionamento implícito• Sem compartilhamento de experiências• Conhecimento científico localizado• Perda de informação

Page 9: Gestão da Informação- desafios em: escala, contexto ...marta/Enginfo/Palestra9_DesafiosVolumesDados.pdf · – Cientista analisa bases de dados/arquivos Recursos – armazenar,

Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos

SEMISH 2007 Marta Mattoso, COPPE/UFRJ

Problemas técnicos e científicos:

Escala 2. Utilização de processamento paralelo

envolvendo recursos heterogêneos como nas grades (grids) computacionais;

Open Science Grid

• Construído pelo iVDGL (International Virtual Data Grid Laboratory)• No pico:

– Agrega 59 sítios de grid através dos EUA, Brasil e Coréia Sul– Mais de 15000 CPUs só nos EUA– 69.000 Terabytes de espaço em disco

2006

Page 10: Gestão da Informação- desafios em: escala, contexto ...marta/Enginfo/Palestra9_DesafiosVolumesDados.pdf · – Cientista analisa bases de dados/arquivos Recursos – armazenar,

Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos

SEMISH 2007 Marta Mattoso, COPPE/UFRJ

[http://www.gridworkflow.org/kwfgrid/gwes/docs/]

Perspectivas de formação em Grid

Congresso da SBC 2007 – IME- Rio• Segunda Escola de Grid

http://www.sbc.de9.ime.eb.br/br/eventos/2gs.htm

VLDB 2007 & Vecpar 2008 – Toulouse, FR• Workshop em HP Data Grid

Projeto EELA – UFRJ• Tutoriais e escolas Grid- (http://www.eu-eela.org/)

Sinapad- MCT• Laboratórios

Page 11: Gestão da Informação- desafios em: escala, contexto ...marta/Enginfo/Palestra9_DesafiosVolumesDados.pdf · – Cientista analisa bases de dados/arquivos Recursos – armazenar,

Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos

SEMISH 2007 Marta Mattoso, COPPE/UFRJ

Perspectivas de formação em Grid

Congresso da SBC 2007 – IME- Rio• Segunda Escola de Grid

http://www.sbc.de9.ime.eb.br/br/eventos/2gs.htm

Vecpar 2008 – Toulouse, FR• Segundo Workshop em HP Data Grid

Projeto EELA – UFRJ• Tutoriais e escolas Grid- (http://www.eu-eela.org/)

Sinapad- MCT• Laboratórios

Mais detalhes em:

Grid Data Management: open problems and new issues

Esther Pacitti, Patrick Valduriez, Marta Mattoso

Journal of Grid Computing, Springer(to appear)

Problemas técnicos e científicos:

Escala 3. Estudos em modelos e mecanismos de

conciliação e integração de dados com larga escala de heterogeneidade;

Page 12: Gestão da Informação- desafios em: escala, contexto ...marta/Enginfo/Palestra9_DesafiosVolumesDados.pdf · – Cientista analisa bases de dados/arquivos Recursos – armazenar,

Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos

SEMISH 2007 Marta Mattoso, COPPE/UFRJ

Gerência Universal de Dados

Data Server Data ServerWWWDigitalLibraries......

Fonte: Prof. Bernhard Mitschang, http://www.nexus.uni-stuttgart.de/index.en.html

Panorama

Data Server Data ServerWWWDigitalLibraries......

Fonte: Prof. Bernhard Mitschang, http://www.nexus.uni-stuttgart.de/index.en.html

Page 13: Gestão da Informação- desafios em: escala, contexto ...marta/Enginfo/Palestra9_DesafiosVolumesDados.pdf · – Cientista analisa bases de dados/arquivos Recursos – armazenar,

Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos

SEMISH 2007 Marta Mattoso, COPPE/UFRJ

Visão de pesquisas

Data Server Data ServerWWWDigitalLibraries......

Data/Content Management

Information Integration

Web Services andWorkflow

Business Processes (BPEL)

. . .

Dat

a G

RID

Dat

a Pl

acem

.Tr

ansa

ctio

n

Anal

ysis

Met

adat

a

Opt

imim

izat

ion

Fonte: Prof. Bernhard Mitschang, http://www.nexus.uni-stuttgart.de/index.en.html

Problemas técnicos e científicos:

Contexto 5. Definição e uso da noção de contexto

para a recuperação de informação, considerando fatores como localização do usuário, perfil de interesses, objetivos dentre outros;

Page 14: Gestão da Informação- desafios em: escala, contexto ...marta/Enginfo/Palestra9_DesafiosVolumesDados.pdf · – Cientista analisa bases de dados/arquivos Recursos – armazenar,

Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos

SEMISH 2007 Marta Mattoso, COPPE/UFRJ

Problemas técnicos e científicos:

Contexto 6. Projeto e implementação de descritores de conteúdo multimodal

e algoritmos para extração e indexação desses descritores, permitindo buscas multimodais;

7. Consideração, no armazenamento e recuperação, de fatores inerentes à heterogeneidade na aquisição de dados tais como sensores, celulares, PDAs (i.e., personal digital assistant), etc. ;

8. Trabalho em modelos conceituais dos domínios ou gêneros do entretenimento digital, incluindo o desenvolvimento de métodos e implementando sistemas de manipulação de enredos, ganhando experiência com os requisitos dos diferentes tipos de aplicação;

Projetos visionários - Nexus

Professor Bernhard MitschangApplications of Parallel and Distributed

Systems: Department

Stuttgart University, [email protected]

http://www.nexus.uni-stuttgart.de/index.en.html

Page 15: Gestão da Informação- desafios em: escala, contexto ...marta/Enginfo/Palestra9_DesafiosVolumesDados.pdf · – Cientista analisa bases de dados/arquivos Recursos – armazenar,

Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos

SEMISH 2007 Marta Mattoso, COPPE/UFRJ

Contexto: Vizinhança

WGS84:9,175E, 48,7826N

WGS84:9,175E, 48,7826N

Restaurantin 100m?

H

H

H

16:14

16:19

16:17

Time TableTime Table

Musikhochschule Stuttgart

Que contexto é necessário ?

• Geographic context: map data– Streets, buildings, land marks, points of interest, ... – Data source: geographic information systems (GIS)– Stationary objects, rarely chaning

• Dynamic context: movement and change– Persons, vehicles,traffic situation, weather, ...– Data source: sensors

• Information context: digital world, "cyberspace"– web sites, documents, game objects, ...

• Technical context: infrastructure– access networks, topology, services

(printer, projector, ...)

Musikhochschule Stuttgart

http://www.nexus.uni-stuttgart.de/index.en.html

Page 16: Gestão da Informação- desafios em: escala, contexto ...marta/Enginfo/Palestra9_DesafiosVolumesDados.pdf · – Cientista analisa bases de dados/arquivos Recursos – armazenar,

Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos

SEMISH 2007 Marta Mattoso, COPPE/UFRJ

Problemas técnicos e científicos:Curadoria

10. Estudo de formas alternativas de disponibilização da informação, incluindo pesquisa em novos tipos de interfaces;

11. Tratamento da confiabilidade e validade dos dados e da propriedade intelectual;

Projetos visionários -myGrid

• myExperiments, Taverna

Professor Carole GobleThe University of Manchester, [email protected]

UK e-Science project

Page 17: Gestão da Informação- desafios em: escala, contexto ...marta/Enginfo/Palestra9_DesafiosVolumesDados.pdf · – Cientista analisa bases de dados/arquivos Recursos – armazenar,

Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos

SEMISH 2007 Marta Mattoso, COPPE/UFRJ

Alguns Desafios

• De onde vem o conhecimento (Fala com o Nelson)?• Como modelamos a qualidade (Fala com a Ana)?• Escalabilidade da tecnologia da Web Semantica ?• Visualização do conhecimento (Ver com Gerson)?• Qual o ciclo de vida da proveniência ?• Modelos diferentes de conhecimento para domínios diferentes ?

• Camadas de proveniência• Proveniência que faz parte do conhecimento do domínio• Proveniência para o contexto vs execução• Pessoas vs máquina• Modelos diferentes para itens diferentes, mas precisam de

integração• Tecnologias flexíveis para compartilhamento e integração

knowledge

workflow provenance

Fonte: adaptado de Carole Goble, myGrid

• Engenharia de Aplicações Científicas• Gerência de Workflow Científico• Ambientes Computacionais (HPC) em Grid,

redes móveis, sensores, etc• Proveniência e curadoria de dados• Mecanismos para Gerenciamento e

Manutenção de Conhecimento Científico

Mãos à obra !

Processos e Técnicas

Page 18: Gestão da Informação- desafios em: escala, contexto ...marta/Enginfo/Palestra9_DesafiosVolumesDados.pdf · – Cientista analisa bases de dados/arquivos Recursos – armazenar,

Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos

SEMISH 2007 Marta Mattoso, COPPE/UFRJ

Marta MattosoCOPPE/ Sistemas

Universidade Federal do Rio de [email protected]

Obrigada !

Workshop on E-ScienceSDDD/SBES 2007

Submissões abertas !

Workshop on E-ScienceSDDD/SBES 2007

Submissões abertas !