visualização de texto e documento - 0.5cmscc5836...

39
Visualização de Texto e Documento SCC5836 – Visualização Computacional Prof. Fernando V. Paulovich [email protected] Instituto de Ciências Matemáticas e de Computação (ICMC) Universidade de São Paulo (USP) 1 / 39

Upload: nguyenhanh

Post on 14-Feb-2019

219 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Visualização de Texto e Documento

SCC5836 – Visualização Computacional

Prof. Fernando V. Paulovichhttp://www.icmc.usp.br/~paulovic

[email protected]

Instituto de Ciências Matemáticas e de Computação (ICMC)Universidade de São Paulo (USP)

1 / 39

Page 2: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Sumário

1 Introdução

2 Modelo de Espaço Vetorial

3 Visualização de Documento

4 Visualização de Coleções de Documentos

5 Visualização de Texto EstendidaVisualização de SoftwareVisualização de Resultados de BuscaVisualização Temporal de Coleção de Documentos

6 Referências

2 / 39

Page 3: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Introdução

Existe uma grande quantidade de informação disponível naforma de documentos que precisa de ferramentas para poderser explorada

Páginas Web

Artigos científicosNotícias de jornalPatentesetc.

3 / 39

Page 4: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Introdução

Existe uma grande quantidade de informação disponível naforma de documentos que precisa de ferramentas para poderser explorada

Páginas WebArtigos científicos

Notícias de jornalPatentesetc.

4 / 39

Page 5: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Introdução

Existe uma grande quantidade de informação disponível naforma de documentos que precisa de ferramentas para poderser explorada

Páginas WebArtigos científicosNotícias de jornal

Patentesetc.

5 / 39

Page 6: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Introdução

Existe uma grande quantidade de informação disponível naforma de documentos que precisa de ferramentas para poderser explorada

Páginas WebArtigos científicosNotícias de jornalPatentes

etc.

6 / 39

Page 7: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Introdução

Existe uma grande quantidade de informação disponível naforma de documentos que precisa de ferramentas para poderser explorada

Páginas WebArtigos científicosNotícias de jornalPatentesetc.

7 / 39

Page 8: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Introdução

Uma coleção de documentos pode ser definida como umcorpus composto de objetos como

PalavrasSentençasParágrafosDocumentosColeções de documentos

Documentos podem ter associados metadados (autor, data,tamanho, citações, etc.)

8 / 39

Page 9: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Introdução

Uma coleção de documentos pode ser definida como umcorpus composto de objetos como

PalavrasSentençasParágrafosDocumentosColeções de documentos

Documentos podem ter associados metadados (autor, data,tamanho, citações, etc.)

9 / 39

Page 10: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Introdução

Podemos definir documentos textuais em diferentes níveis

Nível léxico: identificação de processamento de tokens, como,caracteres, palavras, n-grams, frases, etc.Nível sintático: identificação e anotação dos tokens, como,posição, classe, gênero - esse processo é conhecido comoreconhecimento de entidadeNível Semântico: extração de significado e relacionamentosentre peças de conhecimento derivadas das estruturas sintáticas

10 / 39

Page 11: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Introdução

Podemos definir documentos textuais em diferentes níveisNível léxico: identificação de processamento de tokens, como,caracteres, palavras, n-grams, frases, etc.

Nível sintático: identificação e anotação dos tokens, como,posição, classe, gênero - esse processo é conhecido comoreconhecimento de entidadeNível Semântico: extração de significado e relacionamentosentre peças de conhecimento derivadas das estruturas sintáticas

11 / 39

Page 12: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Introdução

Podemos definir documentos textuais em diferentes níveisNível léxico: identificação de processamento de tokens, como,caracteres, palavras, n-grams, frases, etc.Nível sintático: identificação e anotação dos tokens, como,posição, classe, gênero - esse processo é conhecido comoreconhecimento de entidade

Nível Semântico: extração de significado e relacionamentosentre peças de conhecimento derivadas das estruturas sintáticas

12 / 39

Page 13: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Introdução

Podemos definir documentos textuais em diferentes níveisNível léxico: identificação de processamento de tokens, como,caracteres, palavras, n-grams, frases, etc.Nível sintático: identificação e anotação dos tokens, como,posição, classe, gênero - esse processo é conhecido comoreconhecimento de entidadeNível Semântico: extração de significado e relacionamentosentre peças de conhecimento derivadas das estruturas sintáticas

13 / 39

Page 14: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Sumário

1 Introdução

2 Modelo de Espaço Vetorial

3 Visualização de Documento

4 Visualização de Coleções de Documentos

5 Visualização de Texto EstendidaVisualização de SoftwareVisualização de Resultados de BuscaVisualização Temporal de Coleção de Documentos

6 Referências

14 / 39

Page 15: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Modelo de Espaço Vetorial

No modelo de espaço vetorial, um vetor é construído paracada objeto cujas dimensões representam palavras e suasfrequências ponderadas

Normalmente ruído é removido eliminando stopwords e aspalavras restantes são lematizadas

Existem diversos esquemas de ponderação, o mais conhecido éo term frequency inverse document frequency (tf-idf)

tfidf (w) = tf (w)∗ log(

ndf (w)

)com tf (w) a frequência do termo w, df (w) o número dedocumentos que contém w e n o número de documentos

15 / 39

Page 16: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Modelo de Espaço Vetorial

No modelo de espaço vetorial, um vetor é construído paracada objeto cujas dimensões representam palavras e suasfrequências ponderadas

Normalmente ruído é removido eliminando stopwords e aspalavras restantes são lematizadas

Existem diversos esquemas de ponderação, o mais conhecido éo term frequency inverse document frequency (tf-idf)

tfidf (w) = tf (w)∗ log(

ndf (w)

)com tf (w) a frequência do termo w, df (w) o número dedocumentos que contém w e n o número de documentos

16 / 39

Page 17: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Modelo de Espaço Vetorial

No tfidf importância de um termo em um documento édiretamente proporcional a sua frequência (tf (w)) nesse einversamente proporcional a seu aparecimento nos outrosdocumentos (df (w))

17 / 39

Page 18: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Sumário

1 Introdução

2 Modelo de Espaço Vetorial

3 Visualização de Documento

4 Visualização de Coleções de Documentos

5 Visualização de Texto EstendidaVisualização de SoftwareVisualização de Resultados de BuscaVisualização Temporal de Coleção de Documentos

6 Referências

18 / 39

Page 19: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Visualização de Documento

Documentos podem ser individualmente visualizados em níveisléxicos e sintáticos

19 / 39

Page 20: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Tag Clouds

Na representação de tag clouds, tokens são coloridos e temtamanho proporcional a sua frequência

(a)

(b)

Figura: Representações usando (a) TagCrowd e (b) Wordle.

20 / 39

Page 21: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

WordTree

Na técnica WordTree a frequência e o contexto dos termos sãoapresentados por meio de uma árvore cuja raiz é um termoescolhido pelo usuário

http://www-958.ibm.com/software/data/cognos/manyeyes/visualize/testimony-of-william-jefferson-cli/versions/1

21 / 39

Page 22: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

TextArc

Na técnica TextArc frases de um texto são desenhadas naborda de uma elipse, os termos mais frequentes sãodesenhados dentro dela e ligações entre os termos e as frasessão apresentadas

http://www.textarc.org/

22 / 39

Page 23: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

ArcDiagrams

A técnica ArcDiagram pode ser usada para identificarrepetições de tokens dentro de um texto

Figura: Visualização do Minueto em Sol maior de Bach.

23 / 39

Page 24: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Literature Fingerprints

Na Literature Fingerprints características são extraídas deblocos de texto dentro de diferentes documentos e apresentadascomo heatmaps

Diferentes níveis de resolução podem ser analisados

Figura: Representação usando como característica a média do tamanho desentenças em blocos de texto. É possível diferenciar os autores.

24 / 39

Page 25: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Sumário

1 Introdução

2 Modelo de Espaço Vetorial

3 Visualização de Documento

4 Visualização de Coleções de Documentos

5 Visualização de Texto EstendidaVisualização de SoftwareVisualização de Resultados de BuscaVisualização Temporal de Coleção de Documentos

6 Referências

25 / 39

Page 26: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Visualização de Coleções de Documentos

Na maioria das visualizações de coleções de documentos oobjetivo é posicionar os documentos similares próximos noespaço visual

Abordagens que podem ser usadas incluem MDS e SOM

26 / 39

Page 27: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Self Organizing Maps

O Self Organizing Mas (SOM) é um método nãosupervisionado onde nós 2D são definidos e os documentos sãoassinalados a esses em um processo iterativo

27 / 39

Page 28: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Themescapes

A técnica Themescape representa uma coleção de documentoscomo uma paisagem cuja altura e cor são usadas para definirregiões de alta densidade (documentos similares)

28 / 39

Page 29: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Document Cards

A técnica Document Cards tenta representar um documentopor meio das suas características mais relevantes (imagens,texto, etc.)

29 / 39

Page 30: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Sumário

1 Introdução

2 Modelo de Espaço Vetorial

3 Visualização de Documento

4 Visualização de Coleções de Documentos

5 Visualização de Texto EstendidaVisualização de SoftwareVisualização de Resultados de BuscaVisualização Temporal de Coleção de Documentos

6 Referências

30 / 39

Page 31: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Sumário

1 Introdução

2 Modelo de Espaço Vetorial

3 Visualização de Documento

4 Visualização de Coleções de Documentos

5 Visualização de Texto EstendidaVisualização de SoftwareVisualização de Resultados de BuscaVisualização Temporal de Coleção de Documentos

6 Referências

31 / 39

Page 32: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Visualização de Software

O sistema SeeSoft representa cada linha de código como umpixel em uma linha e diferentes propriedades podem sermapeadas para cor do pixel

32 / 39

Page 33: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Sumário

1 Introdução

2 Modelo de Espaço Vetorial

3 Visualização de Documento

4 Visualização de Coleções de Documentos

5 Visualização de Texto EstendidaVisualização de SoftwareVisualização de Resultados de BuscaVisualização Temporal de Coleção de Documentos

6 Referências

33 / 39

Page 34: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Visualização de Resultados de Busca

A visualização TileBars apresenta estatísticas sobredocumentos retornados em uma busca (frequência, distribuição,etc. de termos) por meio de display de pixels

34 / 39

Page 35: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Sumário

1 Introdução

2 Modelo de Espaço Vetorial

3 Visualização de Documento

4 Visualização de Coleções de Documentos

5 Visualização de Texto EstendidaVisualização de SoftwareVisualização de Resultados de BuscaVisualização Temporal de Coleção de Documentos

6 Referências

35 / 39

Page 36: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

ThemeRiver

A técnica ThemeRiver apresenta mudanças temáticas emcoleções de documentos com o passar do tempo usando umametáfora de correntes em um rio

36 / 39

Page 37: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Representando Ligações

O sistema Jigsaw apresenta uma tipo de visualização baseadoem grafos onde entidades são relacionadas a documentos

37 / 39

Page 38: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Sumário

1 Introdução

2 Modelo de Espaço Vetorial

3 Visualização de Documento

4 Visualização de Coleções de Documentos

5 Visualização de Texto EstendidaVisualização de SoftwareVisualização de Resultados de BuscaVisualização Temporal de Coleção de Documentos

6 Referências

38 / 39

Page 39: Visualização de Texto e Documento - 0.5cmSCC5836 …paulovic/aulas/VIS/visualizacao-09_visualiz... · Figura:Visualização do Minueto em Sol maior de Bach. 23/39. Literature Fingerprints

Referências

Ward, M., Grinstein, G. G., Keim, D. Interactive datavisualization foundations, techniques, and applications.Natick, Mass., A K Peters, 2010.

39 / 39