ferramentas de ri arthur freitas ramos (afr) davi duarte pinheiro (ddp) hugo neiva de melo (hnm2)...

72
Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Upload: internet

Post on 18-Apr-2015

105 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Ferramentas de RI

Arthur Freitas Ramos (afr)Davi Duarte Pinheiro (ddp)Hugo Neiva de Melo (hnm2)Tullio José de Souza Lucena (tjsl)

Page 2: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Motivação

•Bases e sistemas de RI são trabalhosas de definir, criar e implementar

•Algumas etapas deste processo necessitam ser realizadas por pessoas

•Diversas ferramentas foram criadas para abstrair várias etapas deste processo

Page 3: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Ferramentas de RI

•Xapian

•Lucene

•Sphinx (acrescentado por Flávia)

•Wumpus

•GATE

Page 4: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

•http://xapian.org/

•É uma ferramenta de busca Open Source•Biblioteca escrita em C++

▫Compatível com Perl, Python, PHP, Java, C#, Ruby e Lua

•Permite integrar em uma aplicação técnicas avançadas de indexação e busca

Page 5: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Características

•Portabilidade

•Modelo probabilístico

•Feedback de relevância

•Stemming e sinônimos

Page 6: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Características

•Suporta documentos grandes▫> 2 GB

•Permite busca e atualização simultâneas

•Indexa grande quantidade de documentos▫html, php, pdf, openOffice, Word, Excel

•Indexa dados de qualquer SQL▫Oracle, MySQL, SQLite, etc.

Page 7: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Modelo probabilístico

•Utiliza como esquema o “Best Match (BM)” 25

•Constantes podem ser alteradas

•Possui mecanismos para impedir que arquivos muito pequenos ganhem pesos muito altos

Page 8: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Colapsos

•Permite eliminar documentos repetidos

•Realizado durante o processo de “match”

•“Collapse key”

•Restrição de número de “matches” por fonte

Page 9: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

PostingSource

•Alimenta dados para o matcher do Xapian

•Pode ser usado nas seguintes formas

•Filtro

•Aumento dos pesos

•Forma alternativa de ranqueamento

Page 10: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Indexação

•Todas as palavras indexadas são letras minúsculas

•As palavras são indexadas com informação de posição

•Stemmings indexados sem posição

•Prefixo ‘Z’

Page 11: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Buscas

•AND, OR, NOT, XOR

•Expressões com parênteses

•‘+’ e ‘-’

•NEAR

•ADJ

Page 12: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Buscas

•Busca de frases

•Busca com campo probabilístico

•Nomes próprios

•Região de buscas

•Sinônimos e Wildcards

Page 13: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Ordenação

•Relevância

•Valor

•Chave gerada

Page 14: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Preparação dos textos

•Usa o algoritmo de Stemming “Snowball”

•Suporte a várias linguagens▫Inglês, português, alemão, espanhol,

francês, etc.

Page 15: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Suporte a sinônimos

•Suporte a thesaurus

•Criação manual

•Integração com o sistema de buscas

•Sem suporte a dicionário de palavras compostas

Page 16: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Outras funcionalidades

•Faceting

•Correção de escrita

•Serialização de consultas e documentos

Page 17: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Lucene

Page 18: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

O que é o Lucene?

“O Apache Lucene é uma tecnologia adequada para quase todas as aplicações que necessitam de buscas em textos, especialmente as multiplataformas.”

•http://lucene.apache.org

Page 19: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Disponibilidade

•Gratuita

•Open Source▫Apache License, versão 2.0

•Escrita em Java

•Implementações em outras linguagens ▫C++, .Net, Python, etc.

Page 20: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Características

•Rápida indexação (95 GB / h)

•Pouca memória RAM requerida ( 1 MB)

•Atualização e buscas feitas simultaneamente

•Fácil distribuição

Page 21: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Funcionalidades

•Ranqueamento das buscas

•Buscas flexíveis

•Buscas por campos

•Ordenação

Page 22: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Ranqueamento das buscas

•Faz uma filtragem nos documentos

•Classifica por relevância▫Frequência dos termos▫Termos específicos de um documento

Page 23: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Buscas flexíveis

•Frases▫“WEB Mining”

•WildCards▫Min*

• Intervalos▫[2010-2012]

•Expressões booleanas▫WEB OR Mining

Page 24: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Buscas por campos

•Buscas feitas por campos específicos do documento▫Exemplo

Class: “WEB Mining” AND

Teacher: “Flavia”

Page 25: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Ordenação

•Ordenação por campos do documento▫Preço, tamanho, assunto, etc.

•Por padrão, os documentos são ordenados por relevância

Page 26: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Arquitetura

•Documentos

•Índices

•Indexação

•Buscas

Page 27: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Documentos

•Documentos representam qualquer texto▫Texto Word, metadados de músicas,

Website, etc.

•Faz uma representação similar a um documento XML

Page 28: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Índices

•Calcula a frequência de cada termo no documento

•Cada termo mapeia os documentos em que aparece

•Faz a tabela de TF-IDF

Page 29: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Indexação

• Operação feita ao adicionar um novo documento

• Os documentos são analisados para achar os seus termos

• Possui um analisador robusto para textos em inglês

• Dá suporte à criação de novos analisadores

• Possui algumas implementações para o stemming

Page 30: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Buscas

1. Realiza o parsing do texto do usuário

2. Utiliza o mesmo analisador da indexação

3. Procura os documentos com os termos

4. Filtra os resultados por relevância

5. Ordena os documentos

6. Retorna a lista ao usuário

Page 31: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

• http://sphinxsearch.com/

• Sphinx é uma ferramenta de busca por texto open source escrita em C++ que funciona em Linux, Windows, MacOS, Solaris, FreeBSD, e alguns outros sistemas

• Sphinx permite que você faça indexação e buscas de arquivos armazenados em servidores SQL e NoSQL

• Permite adicionar a uma aplicação técnicas de indexação e busca

Page 32: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Performance e Escalabilidade• Sphinx organiza em índices cerca de 60mb/seg

de dados em cada servidor dedicado para indexação

• Realiza buscas testes através de milhões de documentos com cerca de 500 queries/seg para garantir velocidade de entrega de resultados

• Possui cerca de 25 bilhões de documentos indexados em seus servidores e recebe hoje mais de 300 milhões de search queries/dia

Page 33: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

O que apresenta?

• Índices não textuais – número arbitrários (ID do produto, nome da empresa, etc.) que são armazenados no índice para facilitação de recuperação de documentos

•Suporte a busca com termos complexos – operadores booleanos, frases, termos sinônimos, substrings

•Ranking por relevância

Page 34: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

O que apresenta?

•Processamento de texto suporta stopwords, stemming, tokenizing

•Pode ser utilizado apenas como uma ferramenta de armazenamento

•Exemplos de uso: Craigslist.org , Tradebit.com , vBulletin.com

Page 35: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

•http://www.wumpus-search.org/

•Engenho de busca Open Source

•Implementado em C++

•Disponível para Linux

Page 36: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Wumpus

•Escalável

•Indexa centenas de GB de documentos

•Engenho de busca e serviço de indexação de arquivos

•Suporte a vários usuários

•Acesso local (terminal) e remoto (interface web)

Page 37: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Wumpus local

Page 38: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Wumpus remoto

Page 39: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Wumpus

• Indexa documentos em vários formatos▫Txt, doc, ppt, pdf, xml, etc.

•Permite buscas com vários parâmetros de filtro

•Permite configurar o número de documentos retornados

•Definição de macros

•Suporte a TREC

Page 40: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Wumpus remoto busca

Page 41: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Base de dados

•Base de índices invertidos

•Modelo probabilístico

•Permite uso do modelo espaço vetorial

•Usa o Best Match (Okapi BM) 25

•Permite modificação dos parâmetros de configuração e pesos

Page 42: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Consultas

•Busca por termos ou frases

•Busca utilizando a linguagem GCL (Generalized Concordance Lists)

•Suporta vários operadores▫AND, OR, etc.

•Stemming (Porter)

Page 43: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

GCL

•Linguagem principal

•Consultas mais complexas

•Pode ser usada junto com termos e frases

•Usada para definir os parâmetros do BM25

•Define outros atributos opcionais

Page 44: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Consultas

•Prefixos

•Definição de atributos relevantes

•Menor substring▫Evita repetição de resultados

•Stemming e prefixos podem ser aplicados a termos, individualmente

Page 45: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Relevância dos documentos

•Suporte a várias métricas▫Best Match 25, espaço vetorial, qap

•Suporte a feedback de relevância▫Okapi e KLD▫Lento

Page 46: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Divergência de Kullback-Leibler

•Também chamada de ganho de informação

•Cria um modelo de linguagem para query e documento

•A “distância” entre estes modelos é utilizada para ranquear os documentos

Page 47: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

The Handyman

•Ferramenta de suporte ao Wumpus

•Permite extrair e alterar diversas informações sobre a base

•Evita uso do Wumpus para modificar a base▫Algumas funcionalidades não existem

•Cria um vocabulário para uma base específica

Page 48: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

•http://gate.ac.uk/

•Open Source

•Bastante robusta em atividades de processamento de textos

•O “Lucene” da extração de informação•O “Eclipse” do processamento de

linguagem natural

Page 49: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

GATE

•Tem um escopo muito grande▫Processamento de texto▫Análise de sentimentos▫Mineração da web▫Anotações semânticas▫Extração de informação▫Processamento de linguagem

Page 50: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Funcionalidades

•Ferramentas de processamento de texto

•Ferramentas de recuperação de informação

•Sistema de extração de informação (ANNIE)

•Anotação semântica

•Análise de sentimentos

Page 51: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Funcionalidades

•JAPE

•Benchmark

•Extração de instancias de treinamento de aprendizagem de máquina

•Integração com implementações de aprendizagem de máquina (Weka)

Page 52: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Módulos

•GATE Developer•GATE Cloud•GATE Teamware•GATE Mimir•Módulo de análise de sentimentos•GATE Embedded•ANNIE•JAPE

Page 53: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Anotações

•São comentários, explanações, informação associada a um documento ou a parte dele

•São considerados metadados

•Anotação != Tags

•Melhora buscas

Page 54: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Developer

•GUI do GATE

•Gerenciamento do corpo de documentos

•Criação manual de anotações

•Gerenciamento das anotações, podendo associar tipos

Page 55: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Developer

•Criação de conjuntos formados por grupos de anotações

•Permite procurar e editar anotações automaticamente

•Permite utilização de recursos para criação e manipulação automática de anotações, como os recursos do módulo de extração de informação (ANNIE)

Page 56: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Developer

Page 57: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Developer

Page 58: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Developer

Page 59: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

GATE Cloud

•Funciona como uma caixa preta•Cloud computing•Necessidade de alugar os servidores•Funcionalidades

▫Mineração de opinião, web e texto▫Indexação e buscas (booleana, estruturada

ou texto completo)▫Extração de informação e anotação

semântica▫Análise de sentimentos

Page 60: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

GATE Cloud

Page 61: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

GATE Teamware

•Plataforma WEB•Gerenciamento de anotações•Colaborativo

Page 62: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

GATE Teamware

•Carregamento de corpus•Criação de templates•Inicia projetos a partir de templates•Ferramentas de gerenciamento•Relatórios do status do projeto,

estatísticas•Permite anotações automáticas

Page 63: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Mimir

•Interface Web•É um gerenciador de índices e repositório•Indexa documentos GATE•Indexa o texto de documentos e as

anotações semânticas•Pode salvar metadados dos documentos•Permite consultas na base de índices

Page 64: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Mimir

•Permite consultas complexas (operadores &, |, In, Over, +)

•Possui queries especiais, como retornar a quantidade de documentos ou o título dos documentos (metadados)

•Base de conhecimento•Possui diversos algoritmos já

implementados para ordenar os documentos (pode usar TF-IDF, etc.)

Page 65: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Mimir

Page 66: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Análise de sentimentos

•Usa aprendizagem supervisionado de máquina

•Utiliza para o treinamento documentos manualmente anotados, técnicas de estatística e mapeamento de palavras positivas e negativas

•Opiniões sensíveis ao usuário

•Elemento temporal

Page 67: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

GATE Embedded

•Biblioteca implementada em Java

•Conjunto de arquivos JARs

•Usado nativamente em JAVA

•Voltado especialmente para programadores

Page 68: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

JAPE

•Versão do CPSL

•ER em anotações

•LHS e RHS

Page 69: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

ANNIE

•Utiliza JAPE

•Algumas funcionalidades:▫Reset documentos▫Tokens▫Gazetter

Page 70: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

ANNIE

Page 71: Ferramentas de RI Arthur Freitas Ramos (afr) Davi Duarte Pinheiro (ddp) Hugo Neiva de Melo (hnm2) Tullio José de Souza Lucena (tjsl)

Dúvidas

?