apresentaçao statsoft text miner inet · big data - integrar a análise de texto na análise...

II SEMINÁRIO MODELAGEM QUANTITATIVAII SEMINÁRIO MODELAGEM QUANTITATIVA 28 MAIO 2013

TEXT MININGTEXT MINING

A StatSoft é uma empresa especializada em SoluçõesAnalíticas Prediti as q e está no mercado há 29 anosAnalíticas Preditivas que está no mercado há 29 anos,com o software STATISTICA.

A NOSSA MISSÃO:A NOSSA MISSÃO:Gerar valor para os nossos clientes, colaboradores,fornecedores e sociedade fornecendo Soluções Analíticasfornecedores e sociedade, fornecendo Soluções Analíticasavançadas.

OS NOSSOS VALORES: Inovar em conjunto com os nossos clientes e parceiros;

Garantir a excelência das soluções apresentadas;ç p

Aumentar a competitividade dos nossos clientes.

CLIENTESCLIENTES

StatSoft SouthAmerica

Estabelecida em 1984 Profunda conhecedora de soluções analíticas e reporting Profunda conhecedora de soluções analíticas e reporting.

Presente em todos os continentes nos seus 30 escritórios Pode suportar projetos multi-nacionais.

Comunidade de mais de 1 000 000 de usuários nos mais variados setoresComunidade de mais de 1.000.000 de usuários nos mais variados setoresprofissionais Plataforma que beneficia de um grande número de usuários, casos de sucesso,

melhores práticas e exemplos “do que funciona”melhores práticas e exemplos do que funciona .

Player de topo em soluções analíticas Soluções analíticas (básicas e avançadas) e de reporting validadas. Monitoramento e otimização de processos com gestão documental inclusa. Análises avançadas data mining modelação preditiva e scoring suporte à Análises avançadas, data mining, modelação preditiva e scoring, suporte à

decisão.

Soluções STATISTICA

• Tecnologia de ponta e escalonável. Disponível em versões monoposto, ou em rede e como

sistemas empresariais com integração Web - com inúmeras funcionalidades groupware,

integradas com data warehouse.

• Usado em processos de fabrico críticos, nos setores regulamentados FDA e tambémUsado em processos de fabrico críticos, nos setores regulamentados FDA e também

como uma solução para garantir o cumprimento das CFR Part 11 e da regulamentação

Sarbanes-Oxley. Base para a implementação Six sigma.

• Utilizado numa ampla variedade de indústrias e em aplicações, por organizações de

referência em áreas como: banca, seguros, energia, farmacêutica, química, petroquímica,

automotiva, equipamentos, telecomunicações, R & D, retalho, saúde, produção de

semicondutores, entre outros.

• Parceiro GOLD Microsoft e Intel Premier Elite.

Avaliação usuários acadêmicos e empresariaisempresariais

Avaliação usuários

Soluções STATISTICA

AnáliseAnálise Preditiva

Presente, em nossa volta, há décadas.

Tem recebido especial atenção nos últimos anos.últimos anos.

Porquê?Porquê?

As Empresas e demais Instituições perceberam que:

"Olhar para trás“

"Ter uma fotografia do momento"

Não é garantia de vantagensNão é garantia de vantagens competitivas no mercado atual!

Então, onde está o maior valor, atualmente?Então, onde está o maior valor, atualmente?

Saber “porque" algo está acontecendo;

Prever “o que irá acontecer”;Prever o que irá acontecer ;

Obter os resultados acima em tempo hábil;Obter os resultados acima em tempo hábil;

Coletar informação não estr t rada de o trasColetar informação não estruturada de outras fontes e ter acesso ao sentimento (motivações subjetivas) da comunidade de usuários/clientes deum produto e/ou serviço.p ç

“Mais de 50% das respostas de um enquete% p qrealizado na Chicago World Conferenceconfirmavam que a organização pretende q g ç pimplementar Análise Preditiva em seus processos nos três anos seguintes.”

Algumas tendências atuais no mercado:

Bancos de dados com cada vez maior dimensão: BIG DATA!BIG DATA!

Aumento da complexidade da informaçãoAumento da complexidade da informação armazenada nos bancos de dados;

Adicionar um caráter científico às ferramentas de suporte à decisãosuporte à decisão.

Onde entra o Text Mining neste contexto?

A sua importância é revelada pelo fato de já acontecer o TextAnalytics Worldy

Vejamos os temas selecionados para 2013...

Big Data - Integrar a análise de texto na análise preditiva;

Mídias Sociais - Análise de sentimento, a voz-do-cliente, e outros novos aplicativos sociais;novos aplicativos sociais;

Plataformas Empresariais - Busca e gestão do conhecimento, i t d t úd l ifi ã t áti t dgerenciamento de conteúdo, classificação automática e aumento da

produtividade e lucratividade;

Inteligência - Scoring de clientes, segurança, detecção de vulnerabilidades e fraudes, análise de pesquisa, e mais;

Organização do conhecimento - Técnicas de categorização, de extração desenvolvimento de taxonomias e aplicações criação deextração, desenvolvimento de taxonomias e aplicações, criação de semânticas web e novos modelos de conhecimento.

A maioria da informação existente é ã t t d (t t inão-estruturada (textos, imagens,

clipes, etc.)

É possível armazenar “toda” a informação com as tecnologias de BD t iatuais

Não é necessário definir à priori o queNão é necessário definir à priori o queserá relevante para análise

É á i t b lh i t i dÉ necessário um trabalho intensivo de processamento para extrair informaçãoútil da enorme quantidade de dadosútil da enorme quantidade de dados armazenados.

Dados não estruturados VS InformaçãoInformação

Apesar de termos muitos dados, só uma parte deles é relevantedeles é relevante

As empresas gastaram fortunas em bancos de dados mas querem ver o retorno do investimentodados mas querem ver o retorno do investimento

A quantidade de dados armazenados podecrescer exponencialmente a capacidade paracrescer exponencialmente – a capacidade paraextrair informação útil atingirá, assintoticamente, um limite.

Estes processos de extração de informação, modelagem, automação de decisões e processosde apoio à gestão devem ser desenhados juntode apoio à gestão devem ser desenhados juntocom os sistemas de armazenagem de dados.

Análise de sentimento b Msobre uma Marca

Todo o tempo coletamos texto de várias fontes (documentosde várias fontes (documentos,

web, twitter, facebook, respostas livres de p

inquéritos, prosa, etc.)

Se analisarmos somente a informação estruturada, estaremos ignorando um repositórioestruturada, estaremos ignorando um repositório

de informação valiosíssimo ao nosso dispor e perguntas importantes ficarão por responderperguntas importantes ficarão por responder.

Que comentários estão fazendo da minha marca ou

A minha popularidade

do meu nome?p pestá subindo?

Que motivações subjetivas estão levando alguém a comprar os meus

O que faz os clientes comprar os meus

serviços/produtos?clientes participarem do nosso evento?

Gostaria de ser avisado sempre que ocorrer um

Estão falando mais de mim ou d s s t s

qpico de menções negativas sobre a minha marca.

dos meus concorrentes no twitter? E no facebook? E nos fóruns?

Converter Big Data em dados numéricos emails user comments other…

-1

1

Direct Open – ConvertText Files SPSSExcel Files SAS

SAPData StructureExcel Files SAS

dBASE Files JMPMinitab

Query DesignQuery Design

Advanced ETLPreview

Processamento de dados para Análise de Sentimento –gerando bancos de dados manipuláveis

Existe muita redundância na informação textual

A St tS ft t t d l id j t d tA StatSoft tem estado envolvida em projetos de procesamentode “tweets” para determinar o grau de satisfação do cliente

A maioria acaba por ser um divisão entre “boas” e “más” experienciasA i i d l dA maioria das pessoas reclama sempre das mesmascoisas

Explorando as narrativas

Negative, 6, 6%Negative, 6, 6%

Neutral, 28, 27%Neutral, 28, 27%

Positive, 68, 67%Positive, 68, 67%

Classificação automática de tweets

Classificação não supervisonada de tweetsClassificação não supervisonada de tweets

AnúnciosAnúncios

Notícias

Reconhecimento

Outros

Reclamações

Relatórios de carros

Quais são os problemas sobre os quais os motoristas estãofalando num relatório ou numa reclamação?

Sem o text mining estarei sempre limitado a variáveis jáSem o text mining, estarei sempre limitado a variáveis jáestruturadas, que me dão uma informação limitada (ex: marca do carro, preço pago pelo veículo, grau de , p ç p g p , gsatisfação de 1 a 10, etc.). Por aqui, posso saber se a preferência média por uma marca A é superior à B

MAS,MAS,estou perdendo as respostas de maior valor

como: "Porque o cliente gosta mais da marcacomo: Porque o cliente gosta mais da marca A ou da B?"

Descobrir padrões de palavras que são comummente usadas pelos compradores para descrever as suas experiências com marcas compradas por eles.

Quatro marcas – Mercedes, Lexus, BMW e “CarZZ”

Nota: Uma das marcas foi ocultada por motivos de confidencialidadeNota: Uma das marcas foi ocultada por motivos de confidencialidade “CarZZ”.

Objeti o I Identificar pala ras importantes q e possamObjetivo I: Identificar palavras importantes que possam claramente distinguir as diferenças de percepção das marcas usando algoritmos de Data Mining.

Objetivo II: Identificar a marca que acumulou um maior numero de conotações “negativas”numero de conotações negativas .

Não estruturadas

Estruturadas

Revisões extraídas do site www.carreview.com

1 – Extracción de Palabras

•Extrair palavras•Filtrar os conteúdos textuais

Encontrar palavras influentes no meio de centenas ou milhares de documentos analisados

A nossa marca não está recebendo muitos elogios...

Já os comentários sobre as marcas concorrentes estão tendo de um modo geral comentáriosestão tendo, de um modo geral, comentários

positivos e elogiosos.

Que expressões vêm mais associadas a impressões negativas?Q p p g

Que variáveis mais impactammais impactamna ocorrência de expressões expressões negativas?

ExplorandoExplorando uma determinadadeterminada palavra

Buscando associações “escondidas”

Relatórios de Polícia

O ponto de partida é neste exemplo um conjunto de 600 relatóriosO ponto de partida é, neste exemplo, um conjunto de 600 relatórios de polícia

Palavra processada por Text Mining Quantas vezes aparece? Em quantos relatórios aparece? Original

vítim 1186 393 vítimadenunc 862 278 denuncia

filh 828 362 filhadenunciant 805 252 denunciante

it 786 268 itsuspeit 786 268 suspeitolocal 726 394tend 587 303 tendocas 577 283 casa

encontr 554 324 encontramesm 518 299 mesma

resident 514 307 residenteinform 501 291 informa

ter 452 277dia 450 291

agred 442 306 agrediurefer 424 265 refereaind 410 257 aindaanos 380 245fact 363 226 factofact 363 226 factovez 361 242

onde 343 237part 337 240 parteles 331 123 lesada

hospital 302 209hospital 302 209dest 300 209 deste

ambos 298 211cheg 290 226 chegaser 282 210h 281 264 hhor 281 264 hora

moment 277 195 momento

Classificação de relatórios de atividades criminosasSegmentação de relatóriosClassificação automática por temas

Detecção de fraudes e çvulnerabilidades

Analisar os conteúdos de páginas web e emails. Os usuários podemautomaticamente processar e sumariar páginas web mensagens de chat etcautomaticamente processar e sumariar páginas web, mensagens de chat, etc.

Incluir texto não-estruturado em projetos de Data Mining.

Relatórios de acidentes, dos empregados, etc.

Analisar grandes repositórios de dados comportamentais. Por exemplo, os usuáriosg p p ppodem analisar narrativas com relatórios de roubos, etc., para que essa informaçãoseja incorporada nos projetos de detecção de fraude.

A informação correta, para o usuário certo, no momento adequado!

Informação inteligência1. Análise fatorial & clusters2 Á d l ifi ã

1 Detecção de l bilid d

3

2. Árvores de classificação e regress3. Redes neurais4. Outras técnicas de Mining

vulnerabilidadesIndicadorestemporais de roubo/fraude

Identificação2 Identificaçãode suspeitosde crime

2

Vamos agoraVamos agora ver na práticap

Baanco dde daddos orriginall

Selecionar idioma para o stemming:Reduzir as palavras à sua raiz comum. Ex: Diferentes formasReduzir as palavras à sua raiz comum. Ex: Diferentes formasgramaticais ou declinações de verbos são identificadas e indexadascomo uma única entrada. Desempenha e desempenhou seriam a mesma unidade amostral.

lh õEscolher as opções que maximizem a eficiência no processamento do texto

Listas de exclusão

Processar como a mesmaProcessar como a mesma entrada:

FrasesSinônimosListas personalizadas

Filtrar os termos que serão relevantes para o

Que palavras?

relevantes para o projeto de Text Mining

Que tipo?

Entre A e B?

f f 1 l f f f 0f wf 1 log wf ,forwf 0

f wf 1,forwf 0

Estatísticas de palavras

Organizar o projeto

Escrever previsões na BDEscrever previsões na BD

Colocar em produção

Tree graph for Topic: Earnings?Num. of non-terminal nodes: 3, Num. of terminal nodes: 4

Model: C&RT

No Yes

ID=1 N=5000No

ID=2 N=4461No

ID=3 N=539Yes

shr

<= 1,113739 > 1,113739

div

<= 1,585043 > 1,585043ID=4 N=4285

NoID=5 N=176

Yes

dividend

ID=6 N=4140No

ID=7 N=145Yes

<= 1,635085 > 1,635085

Word importance

issuoffer

Importance

analystyearbondquotacoffeopec

ldmlndlrs

marketrev

brazilanalyst

tradeprofitrate

priceexportwould

shrnetoil

sharepct

debt

ctsbankbillion

tonnlossshr

0 20 40 60 80 100 120

vs

"Um dia, a Estatística será tão importante como saber ler pou escrever"H.G. Wells

"A alfabetização estatística é uma capacidade básica:A habilidade para pensar criticamente sobre argumentos p p gque usam a estatística como prova.“Milo Schield

MUITO OBRIGADO PELO VOSSO TEMPO E ATENÇÃO

apresentaçao statsoft text miner inet · big data - integrar a análise de texto na análise...

Documents