visão geral sobre text mining

Visão geral sobre Text Mining Instituto tecnológico Vale (ITV) Ehilton Kazuo Chiba Yoshidome - CBCC/UFPA Fernando Fábio D. Gama da Mata - CBSI/UFPA

Upload: fernando-gama-da-mata

Post on 11-Jun-2015

204 views

Category:

Presentations & Public Speaking

5 download

Report

Download

Embed Size (px):

DESCRIPTION

Uma abordagem introdutória sobre text mining em uma apresentação no ITV (Instituto Tecnológico Vale). Ministrado por Ehilton Kazuo e Fernando Gama da Mata.

TRANSCRIPT

Visão geral sobreText Mining

Instituto tecnológico Vale (ITV)

Ehilton Kazuo Chiba Yoshidome - CBCC/UFPA

Fernando Fábio D. Gama da Mata - CBSI/UFPA

Agenda● Introdução (O que é text mining e qual sua importância?) (Fernando)● KDT: ● - Introdução (Kazuo)● - Etapas do processo (Fernando)● - Categorização (Kazuo)● - Classificação (Fernando)● - Tarefa de mineração (Kazuo)● - Estudo de caso (Ambos)

Introdução● Crescimento no volume de informações.● ~80% dos dados de uma empresa são não estruturados.

● Problemas:● “Lixo de dados”● Sobrecarga de informações.

KDT: introdução

Tipos de Descoberta de Conhecimento (Morais & Ambrósio ,2007)

KDT: etapas do processoEntender o domínio da aplicação.

Selecionar o conjunto de dados.

Integrar e verificar e salvar o data set.

Limpeza, pré-processamento e transformação.

Desenvolvimento de um modelo e construção de uma hipótese.

Escolher o algoritmo.

Interpretação dos resultados e visualização.

Teste e verificação.

KDT: etapas do processo

Limpeza, pré-processamento e transformação.

DADOS

Remover espaços em branco

Remover pontuações

Remover números

Converter maiúsculas em minúsculas

Remover stopwords

Remover words

Remover stemmings

CATEGORIZAÇÃO

● Rocchio (centroid);○ Desvantagem: contexto

de palavras (palavras próximas)

● Métodos:○ palavras-chave ou frases;○ grau de relevância.

CLASSIFICAÇÃO● Gerar definição de conceitos.

- Termos e grau de associação e relevância.

● Pode-se utilizar um dicionário.● É possível gerar automaticamente umvocabulário próprio.

TAREFA DE MINERAÇÃO● Lista de conceitos-chave:

○ Permite a constatação de que existem temas dominantes em uma coleção ou em um único texto

● Associação ou correlação:

○ Confiança: proporção nos textos que tem em X e Y. Relação ao número de textos que têm apenas no X;

○ Suporte: é a proporção nos textos que têm X e Y. Relação a todos os textos da coleção.

Confiança = 82.1%, Suporte = 23 documentos

Confiança = 93.3%, Suporte = 14 documentos

X Y

ESTUDO DE CASO

Ehilton Kazuo Fernando Gama

● Trabalho com foco no delineamento de padrões associativos relativos ao índice de risco de atropelamento nas ferrovias operadas pela Vale.

● A base para o desenvolvimento consiste em dados textuais descritos pelos funcionários da Vale.

● Trabalho com foco na extração de artigos científicos na área da Metagenômica;

● Buscar frameworks similares no ramo.

● Criar um dicionário com os jargões da área analisada.

REFERÊNCIASLOH, S.; WIVES, L.K.; OLIVEIRA, J.P.M. Concept-Based Knowledge Discovery in Texts Extracted from the Web.

MORAIS, E. A. M.; AMBRÓSIO, A. P. L. Mineração de Textos (2007).

WIVES, L.K. Agrupamento de Informações Textuais. <http://www.leandro.wives.nom.br/pt-br/publicacoes/semacad.pdf>. Acesso em 24/04/2014.

Sérgio Gomes Gonçalves - Universidade do Minho...Sérgio Gomes Gonçalves Uma plataforma para revisão automática de literatura via técnicas de Text Mining Projeto da Dissertação

Data mining

· Web viewWrite here the English version of your "Resumo". Example text, example text, example text, example text, example text, example text, …

ESPECIAL RAE · 2017-08-15 · ESPECIAL RAE Artigo convidado EXPLORAÇÃO DO ACERVO DA RAE-REVISTA DE ADMINISTRAÇÃO DE EMPRESAS (DE 1961 A 2016) À LUZ DA BIBLIOMETRIA, TEXT MINING,

Text Mining e Linguagem Natural para a deteção de padrões ... · publicação e número de citações. 2.2 Linguagem Natural O Processamento de Linguagem Natural (PLN) é uma abordagem

Seminário IN1099 Information Retrieval & Text Mining Luciano de Souza Cabral CIn-UFPE

Processamento de Linguagem Natural e Extração de Conhecimento · 2019-06-02 · subjective text, using Natural Language Processing techniques and extT Mining approa-ches. As such,

Text Mining e Linguagem Natural para a deteção de padrões ... · Para fazer a análise das notas clínicas irão ser ... Os diários clínicos e as decisões tomadas são normalmente

CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar

APLICAÇÃO DA TÉCNICA TEXT MINING ... - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2010-II/TCC2010-2-04-AP-CarlaAFink.pdf · mineração de dados . 1999. 102 f. Laboratório

TEXT MINING - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joseluberap.pdf · preparação dos dados, modelagem, avaliação e ... Malharia Circular Malharia Retilínea

Estratégias para Análise Intelectual de Dados · –Biometria –Speech recognition –Text Mining –Web Mining (apps também) –GPS (rotas) 20 . Novas Interfaces 21 . Novas Interfaces

Text Mining Sistemas de Informação e Gestão. Introdução Text Mining, geralmente é definido como um processo que utiliza métodos para navegar, organizar,

Biomedical Text Mining - josefernandes.pt text mining.pdf · Text Mining Data Mining fontes de informação são colecções de documentos de informação textual não estruturada

Text Mining utilizando o Software R: um estudo de caso de

DESENVOLVIMENTO DE UM PROTÓTIPO DE CLASSIFICAÇÃO ...€¦ · conceito de “Text Mining” que, segundo Sullivan (2000, online) é “(...) o estudo e a prática de extrair informação

€¦ · Web viewWrite here the English version of your "Resumo". Example text, example text, example text, example text, example text, example text, example text, example text, example

PROCESSAMENTO DE TEXTO - web.fe.up.pteol/IA/1617/APONTAMENTOS/JFT_Txt_Mining... · •Text mining é uma sub-área do “Data Mining” • Ciência que trata o processamento de informação

Prof. Dr. Emir José Suaiden Orientador Brasília – DF 2006repositorio.unb.br/bitstream/10482/5537/1/2006_Roberto Rezende... · 2.3.4 Uma visão geral sobre o Text Mining ... 2.3.7

Extração da Informação Adaptado do seminário: DIAL: A Dedicated Information Extraction Language for Text Mining de Marcus Sampaio

Text Mining - Departamento de Engenharia Informáticapaf/proj/Set2003/Text Mining.pdf · Fig. 3.1 – Tradicional, Dados estruturados e organizados ... num formato sem estrutura ou

Descoberta de Conhecimento com o uso de Text Mining: … · 2018-12-10 · Edilberto Magalhães Silva Descoberta de Conhecimento com o uso de Text Mining: Cruzando o Abismo de Moore

[Type text] [Type text] [Type text] de Gestao Rede... · [Type text] [Type text] [Type text] MANUAL DE GESTÃO REDE E-TEC BRASIL E PROFUNCIONÁRIO 05 de Maio de 2016 Brasília –

Algoritmo IPM2 Interaction Pattern Mining AULA 21 DATA MINING

Elcelina Rosa Correia TÉCNICAS DE DATA E TEXT MINING ...conjunto de técnicas de treino e de análise de textos previamente anotados pelos especialistas em catalogação e indexação

Ferramenta para Text Mining em Textos completos · O algoritmo de Naive Bayes precisa de um conjunto de documentos de treino já classiﬁcados para construir um modelo de aprendizagem

Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite

Text Mining e Twitter - RUN: Página principal à necessidade de obter conhecimento a partir dos dados existentes. Neste trabalho utilizámos um algoritmo de Clustering hierárquico

R - Text Mining

Text Mining para determinar o nível de (in)satisfação Tese de … · Análise de comentários de clientes com o auxílio a técnicas de Text Mining para determinar o nível de

7. Mineração de Texto ("Text Mining")

Text Mining aplicado em sistemas de atendimento on-line

DESCOBERTA DE CONHECIMENTO COM O ... - campeche.inf.furb.brcampeche.inf.furb.br/tccs/2004-II/2004-2joselubervf.pdf · TEXT MINING APLICADA AO SAC JOSÉ LINO UBER BLUMENAU 2004 2004/2-27

Text Mining Aplicado a Sistema On-line SILVA... · Toda a lógica de evolução e do crescimento dos serviços on-line centra-se na necessidade de resolver problemas logísticos dos

Text Mining - inf.ufsc.bralvares/INE5644/G2_texto.pdf · Augusto Fredigo Hack Luis Felipe Nunes Matheus Hoffmann Silva Thiago Thalison Firmino de Lima Florianópolis, 19 de outrubro