introdução e desafios em recuperação de imagens por conteúdo

79
Introdução e Desafios em Recuperação de Imagens por Conteúdo Prof. Dr. Rodrigo Tripodi Calumby [email protected] www.rtcalumby.com.br

Upload: rodrigo-calumby

Post on 14-Apr-2017

130 views

Category:

Data & Analytics


4 download

TRANSCRIPT

Page 1: Introdução e Desafios em Recuperação de Imagens por Conteúdo

Introdução e Desafios emRecuperação de Imagens por Conteúdo

Prof. Dr. Rodrigo Tripodi [email protected]

www.rtcalumby.com.br

Page 2: Introdução e Desafios em Recuperação de Imagens por Conteúdo

Roteiro

● Introdução

● O que é Recuperação da Informação?● Dados vs. Informação● RI e a Web● RI Multimídia

● Recuperação de Imagens por Conteúdo● Descritores de Imagens● Procedimento e Arquitetura● Cenários e Desafios

Page 3: Introdução e Desafios em Recuperação de Imagens por Conteúdo

3

Motivação

● Tecnologias ● Captura● Armazenamento● Processamento de dados

Page 4: Introdução e Desafios em Recuperação de Imagens por Conteúdo

4

Motivação

● Tecnologias ● Captura● Armazenamento● Processamento de dados

Page 5: Introdução e Desafios em Recuperação de Imagens por Conteúdo

5

Motivação

● Tecnologias ● Captura● Armazenamento● Processamento de dados

● Grandes bases de dados● Como recuperar?

Page 6: Introdução e Desafios em Recuperação de Imagens por Conteúdo

6

Recuperação da Informação

Fonte: Baeza-Yates e Ribeiro-Neto – Modern Information Retrieval – The concepts and technology behind search. 2ed.

Page 7: Introdução e Desafios em Recuperação de Imagens por Conteúdo

7

O que é Recuperação da Informação?

● Estrutura● Análise● Organização● Armazenamento● Busca● Recuperação

Page 8: Introdução e Desafios em Recuperação de Imagens por Conteúdo

8

O que é Recuperação da Informação?

Fonte: Grossman and Frieder - Information Retrieval – Algorithms and Heuristics. 2ed.

Page 9: Introdução e Desafios em Recuperação de Imagens por Conteúdo

9

Características das informações

● Tipo● Estrutura● Contexto● Volume● Interação

Page 10: Introdução e Desafios em Recuperação de Imagens por Conteúdo

10

Tipos de dados

● Textos– Documentos inteiros– Informação contida em documentos– Metadados sobre documentos

● Recuperação multimídia– Imagens– Vídeos– Audio

Page 11: Introdução e Desafios em Recuperação de Imagens por Conteúdo

11

Estrutura dos dados

Page 12: Introdução e Desafios em Recuperação de Imagens por Conteúdo

12

Page 13: Introdução e Desafios em Recuperação de Imagens por Conteúdo

13

Estrutura dos dados

● Estruturados

● Semiestruturados

● Não estruturado

Page 14: Introdução e Desafios em Recuperação de Imagens por Conteúdo

14

Dados estruturados

● Modelo relacional● Esquema bem definido● Linguagem formal

● Representação● Manipulação

Cliente

Id Nome Endereço

Pedido

Id Data Id_Cliente

Page 15: Introdução e Desafios em Recuperação de Imagens por Conteúdo

15

Dados semiestruturados

● Esquema misturado com os dados● Auto descritivo● XML

Fonte: Elmasri e Navathe. Sistemas de Bancos de Dados. 6ed.

Page 16: Introdução e Desafios em Recuperação de Imagens por Conteúdo

16

Dados não estruturados

● Páginas web, livros, e-mails, etc.● HTML● Linguagem natural

Page 17: Introdução e Desafios em Recuperação de Imagens por Conteúdo

17

Motivação

● Aplicações da RI● Medicina● Biologia● Sensoriamento remoto● Bibliotecas digitais● Ambientes sociais● Web

Page 18: Introdução e Desafios em Recuperação de Imagens por Conteúdo

18

Recuperação de DadosX

Recuperação da Informação

Page 19: Introdução e Desafios em Recuperação de Imagens por Conteúdo

19

BD x RI

● Evidências● Metadados ou Conteúdo e estatísticas

● Conhecimento do esquema ou não● Consulta

● Linguagem formal ou Linguagem livre – Condições– Palavras-chave– Linguagem natural

● Resposta ● Exata ou Aproximada

Page 20: Introdução e Desafios em Recuperação de Imagens por Conteúdo

20

Contexto dos dados

● Repositório homogêneo - vertical● Ex.: Coleção de artigos médicos● Ex.: Imagens marinhas● Ex.: Contratos, e-mails e relatórios de uma empresa

● Repositório heterogêneo - horizontal● Ex.: Biblioteca digital de uma universidade● Ex.: Álbum das férias● Ex.: Páginas de um serviço de blogging

Page 21: Introdução e Desafios em Recuperação de Imagens por Conteúdo

21

Volume dos dados

● Crescimento acelerado● Número de páginas● Eventos de interação social

● Necessidades de algoritmos● Indexação, Caching e Agregação● Tolerância a falhas● Distribuídos e paralelos

● Ex.: Busca de arquivos em um computador● Ex.: Busca de arquivos em um rede P2P

Page 22: Introdução e Desafios em Recuperação de Imagens por Conteúdo

22ESCALA

Page 23: Introdução e Desafios em Recuperação de Imagens por Conteúdo

23

Page 24: Introdução e Desafios em Recuperação de Imagens por Conteúdo

24

Recuperação da Informaçãoe a Web

Page 25: Introdução e Desafios em Recuperação de Imagens por Conteúdo

25

RI e a Web

● Busca na Web é RI na prática

● Impactos● Informação ligada e distribuída

– Crawling → indexação● Tamanho da coleção e volume de consultas

– Escalabilidade

Page 26: Introdução e Desafios em Recuperação de Imagens por Conteúdo

26

RI e a Web

● Busca na Web é RI na prática

● Relevância● Web → meio de negócio

● Busca de preços, números de telefone, download de software

Page 27: Introdução e Desafios em Recuperação de Imagens por Conteúdo

27

RI e a Web

● Desafios● Grandes quantidades● Crawling● Criação e atualização de índices● Análise do conteúdo● Análise de hiperlinks

– Texto âncora– Página de destino– Links de saída e links de retorno

Page 28: Introdução e Desafios em Recuperação de Imagens por Conteúdo

28

Arquitetura de um sistema de RI

Fonte; Chap 01: Introduction, Baeza-Yates & Ribeiro-Neto, Modern Information Retrieval, 2nd Edition

Page 29: Introdução e Desafios em Recuperação de Imagens por Conteúdo

29

Recuperação Multimídia

● Imagens● Vídeos● Audio

Page 30: Introdução e Desafios em Recuperação de Imagens por Conteúdo

30

Recuperação Textual

Page 31: Introdução e Desafios em Recuperação de Imagens por Conteúdo

31

Recuperação Textual

● Vantagens● Abrange qualquer descrição● Adaptação ao usuário

● Desvantagens● Necessidade de anotação● Padrão de anotação● Subjetividade da interpretação● Sinônimos● Polissemia

Page 32: Introdução e Desafios em Recuperação de Imagens por Conteúdo

32

Exemplo

Page 33: Introdução e Desafios em Recuperação de Imagens por Conteúdo

33

Exemplo

Como descrever esta consulta?

Page 34: Introdução e Desafios em Recuperação de Imagens por Conteúdo

34

Exemplo

Page 35: Introdução e Desafios em Recuperação de Imagens por Conteúdo

35

Exemplo

Page 36: Introdução e Desafios em Recuperação de Imagens por Conteúdo

36

Exemplo

Page 37: Introdução e Desafios em Recuperação de Imagens por Conteúdo

37

Recuperação baseada em Contéudo

● Similaridade do conteúdo (pixels)

● Dado um banco de imagens o usuário deseja recuperar imagens semelhantes a um determinado padrão de consulta● Cor● Forma● Textura● Relacionamento espacial

Page 38: Introdução e Desafios em Recuperação de Imagens por Conteúdo

38

ExemplosConsulta:

Resultados:

38

Page 39: Introdução e Desafios em Recuperação de Imagens por Conteúdo

39

ExemplosConsulta:

Resultados:

39

Page 40: Introdução e Desafios em Recuperação de Imagens por Conteúdo

40

ExemplosConsulta:

Resultados:

40

Page 41: Introdução e Desafios em Recuperação de Imagens por Conteúdo

41

Exemplos

Consulta:

Resultados:

41

Page 42: Introdução e Desafios em Recuperação de Imagens por Conteúdo

42

Descritores de Imagens

Page 43: Introdução e Desafios em Recuperação de Imagens por Conteúdo

43

Procedimento

Fonte: Eduardo Valle and Matthieu Cord. 2009. Advanced Techniques in CBIR: Local Descriptors, Visual Dictionaries and Bags of Features. In Proceedings of the 2009 Tutorials of the XXII Brazilian Symposium on Computer Graphics and Image Processing (SIBGRAPI-TUTORIALS '09). IEEE Computer Society, Washington, DC, USA, 72-78.

Page 44: Introdução e Desafios em Recuperação de Imagens por Conteúdo

44

Arquitetura

Page 45: Introdução e Desafios em Recuperação de Imagens por Conteúdo

45

Arquitetura

QUAIS OS DESAFIOS?

Page 46: Introdução e Desafios em Recuperação de Imagens por Conteúdo

Desafios em CBIR

lighthouse at the sea

Page 47: Introdução e Desafios em Recuperação de Imagens por Conteúdo

Desafios em CBIR

lighthouse at the sea

Page 48: Introdução e Desafios em Recuperação de Imagens por Conteúdo

Desafios em CBIR

lighthouse at the sea

Page 49: Introdução e Desafios em Recuperação de Imagens por Conteúdo

Desafios em CBIR

lighthouse at the sea

color

texture

shape

Page 50: Introdução e Desafios em Recuperação de Imagens por Conteúdo

Desafios em CBIR

lighthouse at the sea

color

texture

shape

Low-level features vs. Concepts/preferences

Page 51: Introdução e Desafios em Recuperação de Imagens por Conteúdo

Desafios em CBIR

lighthouse at the sea

color

texture

shape

sem

anti

c g

ap!

Page 52: Introdução e Desafios em Recuperação de Imagens por Conteúdo

52

Gap Semântico

● Diferentes pessoas → percepções distintas● Propriedades de baixo nível x valor semântico

Page 53: Introdução e Desafios em Recuperação de Imagens por Conteúdo

Desafios em CBIR

lighthouse at the sea

MULTIMODALITY

color

texture

shape

Page 54: Introdução e Desafios em Recuperação de Imagens por Conteúdo

54

Multimodalidade

● Múltiplas fontes de evidências

● Fusão de características● Visual + Textual

● Agregação de resultados

Page 55: Introdução e Desafios em Recuperação de Imagens por Conteúdo

55

Combinação de Características

Page 56: Introdução e Desafios em Recuperação de Imagens por Conteúdo

56

Combinação de Características

???

Page 57: Introdução e Desafios em Recuperação de Imagens por Conteúdo

57

Combinação de Características

● Aprendizado de métricas● Treinamento e teste● Seleção de características● Ajuste de pesos

● Fusão de dados de baixo nível

● Fusão de resultados● Agregação de rankings

Page 58: Introdução e Desafios em Recuperação de Imagens por Conteúdo

Desafios em CBIR

lighthouse at the sea

color

texture

shape

Page 59: Introdução e Desafios em Recuperação de Imagens por Conteúdo

Desafios em CBIR

lighthouse at the sea

color

texture

shape

Page 60: Introdução e Desafios em Recuperação de Imagens por Conteúdo

Desafios em CBIR

lighthouse at the sea

color

texture

shape

- User subjectivity

- Difficulty on expressing needs

- Poorly defined queries

Page 61: Introdução e Desafios em Recuperação de Imagens por Conteúdo

61

Realimentação de Relevância

Page 62: Introdução e Desafios em Recuperação de Imagens por Conteúdo

Desafios em CBIRcolor

texture

shape

lighthouse at the sea

RELEVANCE FEEDBACK

Page 63: Introdução e Desafios em Recuperação de Imagens por Conteúdo

Desafios em CBIRcolor

texture

shape

lighthouse at the sea

● Per user system optimization

● Implicit/Explicit relevance assessments

● Online adaptiveness

– Learning-to-rank

Page 64: Introdução e Desafios em Recuperação de Imagens por Conteúdo

Desafios em CBIR

lighthouse at the sea

Page 65: Introdução e Desafios em Recuperação de Imagens por Conteúdo

Desafios em CBIR

lighthouse at the sea

Near duplicates!

Page 66: Introdução e Desafios em Recuperação de Imagens por Conteúdo

Desafios em CBIR

lighthouse at the sea

Page 67: Introdução e Desafios em Recuperação de Imagens por Conteúdo

“Oscar Niemeyer Buildings” on Google Images

With the “labeled for reuse” search option enabled - As of Oct 6, 2015

Page 68: Introdução e Desafios em Recuperação de Imagens por Conteúdo

“Oscar Niemeyer Buildings” on Google Images

- 24 images → 11 different buildigs out of hundreds → 46% of the ideal set

Page 69: Introdução e Desafios em Recuperação de Imagens por Conteúdo

“Oscar Niemeyer Buildings” on Google Images

- 24 images → 11 different buildings out of hundreds → 46% of the ideal set

- 46% covering the same building(Oscar Niemeyer Museum in Curitiba, Paraná)

Page 70: Introdução e Desafios em Recuperação de Imagens por Conteúdo

Diversity Promotion

Page 71: Introdução e Desafios em Recuperação de Imagens por Conteúdo

Diversity Promotion

● Clustering

Page 72: Introdução e Desafios em Recuperação de Imagens por Conteúdo

Diversity Promotion

● Clustering

Page 73: Introdução e Desafios em Recuperação de Imagens por Conteúdo

73

Finalizando...

Page 74: Introdução e Desafios em Recuperação de Imagens por Conteúdo

74

Desafios Gerais

● Larga escala● Interatividade● Eficácia● Eficiência● Novidade● Diversidade

Page 75: Introdução e Desafios em Recuperação de Imagens por Conteúdo

75

Desafios da RI

● Múltiplos tipos de dados● Recuperação multilíngue● Dados georreferenciados● Informações em contextos

● Biologia● Medicina● Química● Agricultura● Jurídico

Page 76: Introdução e Desafios em Recuperação de Imagens por Conteúdo

76

Desafios em CBIR

● Desenvolvimento de descritores● Globais, locais, etc.

● Técnicas de aprendizado de máquina● Realimentação de relevância

● Aprendizado ativo

● Sumarização visual / Diversidade● Busca social● Meios de visualização e navegação

Page 77: Introdução e Desafios em Recuperação de Imagens por Conteúdo

77

Resumindo...

● Grandes quantidades de dados são geradas diariamente

● Diferentes tipos de objetos digitais

● Acesso eficaz e eficiente

● RI → Transformar a web em um repositório do conhecimento humano

● Há muito o que ser

● Estudado● Pesquisado● Desenvolvido

Page 78: Introdução e Desafios em Recuperação de Imagens por Conteúdo

78

Leitura Recomendada(R. T. Calumby et al.)

● Multimodalidade e Realimentação de Relevância● Multimodal retrieval with relevance feedback based on genetic programming.

Multimedia Tools and Applications, 69(3):991–1019, 2014.

● Diversificação de Resultados● Recod @ Mediaeval 2015: Diverse social images retrieval. In Working Notes of

the MediaEval 2015 Workshop, Wurzen, Germany, September 14-15, 2015.

● Diversidade e Interatividade● Diversity-driven learning for multimodal image retrieval with relevance

feedback. In IEEE International Conference on Image Processing, pages 2197–2201, 2014.

● Aprendizado Interativo● On Interactive Learning-to-Rank for IR: Overview, Recent Advances,

Challenges, and Directions. Neurocomputing. 2016.

Page 79: Introdução e Desafios em Recuperação de Imagens por Conteúdo

79

Prof. Dr. Rodrigo Tripodi [email protected]

Visite: www.rtcalumby.com.br

Desafios em Recuperação de Imagens por Conteúdo