apresentaçao statsoft text miner inet · big data - integrar a análise de texto na análise...
TRANSCRIPT
II SEMINÁRIO MODELAGEM QUANTITATIVAII SEMINÁRIO MODELAGEM QUANTITATIVA 28 MAIO 2013
TEXT MININGTEXT MINING
A StatSoft é uma empresa especializada em SoluçõesAnalíticas Prediti as q e está no mercado há 29 anosAnalíticas Preditivas que está no mercado há 29 anos,com o software STATISTICA.
A NOSSA MISSÃO:A NOSSA MISSÃO:Gerar valor para os nossos clientes, colaboradores,fornecedores e sociedade fornecendo Soluções Analíticasfornecedores e sociedade, fornecendo Soluções Analíticasavançadas.
OS NOSSOS VALORES: Inovar em conjunto com os nossos clientes e parceiros;
Garantir a excelência das soluções apresentadas;ç p
Aumentar a competitividade dos nossos clientes.
CLIENTESCLIENTES
StatSoft SouthAmerica
Estabelecida em 1984 Profunda conhecedora de soluções analíticas e reporting Profunda conhecedora de soluções analíticas e reporting.
Presente em todos os continentes nos seus 30 escritórios Pode suportar projetos multi-nacionais.
Comunidade de mais de 1 000 000 de usuários nos mais variados setoresComunidade de mais de 1.000.000 de usuários nos mais variados setoresprofissionais Plataforma que beneficia de um grande número de usuários, casos de sucesso,
melhores práticas e exemplos “do que funciona”melhores práticas e exemplos do que funciona .
Player de topo em soluções analíticas Soluções analíticas (básicas e avançadas) e de reporting validadas. Monitoramento e otimização de processos com gestão documental inclusa. Análises avançadas data mining modelação preditiva e scoring suporte à Análises avançadas, data mining, modelação preditiva e scoring, suporte à
decisão.
Soluções STATISTICA
• Tecnologia de ponta e escalonável. Disponível em versões monoposto, ou em rede e como
sistemas empresariais com integração Web - com inúmeras funcionalidades groupware,
integradas com data warehouse.
• Usado em processos de fabrico críticos, nos setores regulamentados FDA e tambémUsado em processos de fabrico críticos, nos setores regulamentados FDA e também
como uma solução para garantir o cumprimento das CFR Part 11 e da regulamentação
Sarbanes-Oxley. Base para a implementação Six sigma.
• Utilizado numa ampla variedade de indústrias e em aplicações, por organizações de
referência em áreas como: banca, seguros, energia, farmacêutica, química, petroquímica,
automotiva, equipamentos, telecomunicações, R & D, retalho, saúde, produção de
semicondutores, entre outros.
• Parceiro GOLD Microsoft e Intel Premier Elite.
Avaliação usuários acadêmicos e empresariaisempresariais
Avaliação usuários
Soluções STATISTICA
AnáliseAnálise Preditiva
Presente, em nossa volta, há décadas.
Tem recebido especial atenção nos últimos anos.últimos anos.
Porquê?Porquê?
As Empresas e demais Instituições perceberam que:
"Olhar para trás“
"Ter uma fotografia do momento"
Não é garantia de vantagensNão é garantia de vantagens competitivas no mercado atual!
Então, onde está o maior valor, atualmente?Então, onde está o maior valor, atualmente?
Saber “porque" algo está acontecendo;
Prever “o que irá acontecer”;Prever o que irá acontecer ;
Obter os resultados acima em tempo hábil;Obter os resultados acima em tempo hábil;
Coletar informação não estr t rada de o trasColetar informação não estruturada de outras fontes e ter acesso ao sentimento (motivações subjetivas) da comunidade de usuários/clientes deum produto e/ou serviço.p ç
“Mais de 50% das respostas de um enquete% p qrealizado na Chicago World Conferenceconfirmavam que a organização pretende q g ç pimplementar Análise Preditiva em seus processos nos três anos seguintes.”
Algumas tendências atuais no mercado:
Bancos de dados com cada vez maior dimensão: BIG DATA!BIG DATA!
Aumento da complexidade da informaçãoAumento da complexidade da informação armazenada nos bancos de dados;
Adicionar um caráter científico às ferramentas de suporte à decisãosuporte à decisão.
Onde entra o Text Mining neste contexto?
A sua importância é revelada pelo fato de já acontecer o TextAnalytics Worldy
Vejamos os temas selecionados para 2013...
Big Data - Integrar a análise de texto na análise preditiva;
Mídias Sociais - Análise de sentimento, a voz-do-cliente, e outros novos aplicativos sociais;novos aplicativos sociais;
Plataformas Empresariais - Busca e gestão do conhecimento, i t d t úd l ifi ã t áti t dgerenciamento de conteúdo, classificação automática e aumento da
produtividade e lucratividade;
Inteligência - Scoring de clientes, segurança, detecção de vulnerabilidades e fraudes, análise de pesquisa, e mais;
Organização do conhecimento - Técnicas de categorização, de extração desenvolvimento de taxonomias e aplicações criação deextração, desenvolvimento de taxonomias e aplicações, criação de semânticas web e novos modelos de conhecimento.
A maioria da informação existente é ã t t d (t t inão-estruturada (textos, imagens,
clipes, etc.)
É possível armazenar “toda” a informação com as tecnologias de BD t iatuais
Não é necessário definir à priori o queNão é necessário definir à priori o queserá relevante para análise
É á i t b lh i t i dÉ necessário um trabalho intensivo de processamento para extrair informaçãoútil da enorme quantidade de dadosútil da enorme quantidade de dados armazenados.
Dados não estruturados VS InformaçãoInformação
Apesar de termos muitos dados, só uma parte deles é relevantedeles é relevante
As empresas gastaram fortunas em bancos de dados mas querem ver o retorno do investimentodados mas querem ver o retorno do investimento
A quantidade de dados armazenados podecrescer exponencialmente a capacidade paracrescer exponencialmente – a capacidade paraextrair informação útil atingirá, assintoticamente, um limite.
Estes processos de extração de informação, modelagem, automação de decisões e processosde apoio à gestão devem ser desenhados juntode apoio à gestão devem ser desenhados juntocom os sistemas de armazenagem de dados.
Análise de sentimento b Msobre uma Marca
Todo o tempo coletamos texto de várias fontes (documentosde várias fontes (documentos,
web, twitter, facebook, respostas livres de p
inquéritos, prosa, etc.)
Se analisarmos somente a informação estruturada, estaremos ignorando um repositórioestruturada, estaremos ignorando um repositório
de informação valiosíssimo ao nosso dispor e perguntas importantes ficarão por responderperguntas importantes ficarão por responder.
Que comentários estão fazendo da minha marca ou
A minha popularidade
do meu nome?p pestá subindo?
Que motivações subjetivas estão levando alguém a comprar os meus
O que faz os clientes comprar os meus
serviços/produtos?clientes participarem do nosso evento?
Gostaria de ser avisado sempre que ocorrer um
Estão falando mais de mim ou d s s t s
qpico de menções negativas sobre a minha marca.
dos meus concorrentes no twitter? E no facebook? E nos fóruns?
Converter Big Data em dados numéricos emails user comments other…
-1
1
Direct Open – ConvertText Files SPSSExcel Files SAS
SAPData StructureExcel Files SAS
dBASE Files JMPMinitab
Query DesignQuery Design
Advanced ETLPreview
Processamento de dados para Análise de Sentimento –gerando bancos de dados manipuláveis
Existe muita redundância na informação textual
A St tS ft t t d l id j t d tA StatSoft tem estado envolvida em projetos de procesamentode “tweets” para determinar o grau de satisfação do cliente
A maioria acaba por ser um divisão entre “boas” e “más” experienciasA i i d l dA maioria das pessoas reclama sempre das mesmascoisas
Explorando as narrativas
Negative, 6, 6%Negative, 6, 6%
Neutral, 28, 27%Neutral, 28, 27%
Positive, 68, 67%Positive, 68, 67%
Classificação automática de tweets
Classificação não supervisonada de tweetsClassificação não supervisonada de tweets
AnúnciosAnúncios
Notícias
Reconhecimento
Outros
Reclamações
Relatórios de carros
Quais são os problemas sobre os quais os motoristas estãofalando num relatório ou numa reclamação?
Sem o text mining estarei sempre limitado a variáveis jáSem o text mining, estarei sempre limitado a variáveis jáestruturadas, que me dão uma informação limitada (ex: marca do carro, preço pago pelo veículo, grau de , p ç p g p , gsatisfação de 1 a 10, etc.). Por aqui, posso saber se a preferência média por uma marca A é superior à B
MAS,MAS,estou perdendo as respostas de maior valor
como: "Porque o cliente gosta mais da marcacomo: Porque o cliente gosta mais da marca A ou da B?"
Descobrir padrões de palavras que são comummente usadas pelos compradores para descrever as suas experiências com marcas compradas por eles.
Quatro marcas – Mercedes, Lexus, BMW e “CarZZ”
Nota: Uma das marcas foi ocultada por motivos de confidencialidadeNota: Uma das marcas foi ocultada por motivos de confidencialidade “CarZZ”.
Objeti o I Identificar pala ras importantes q e possamObjetivo I: Identificar palavras importantes que possam claramente distinguir as diferenças de percepção das marcas usando algoritmos de Data Mining.
Objetivo II: Identificar a marca que acumulou um maior numero de conotações “negativas”numero de conotações negativas .
Não estruturadas
Estruturadas
Revisões extraídas do site www.carreview.com
1 – Extracción de Palabras
•Extrair palavras•Filtrar os conteúdos textuais
Encontrar palavras influentes no meio de centenas ou milhares de documentos analisados
A nossa marca não está recebendo muitos elogios...
Já os comentários sobre as marcas concorrentes estão tendo de um modo geral comentáriosestão tendo, de um modo geral, comentários
positivos e elogiosos.
Que expressões vêm mais associadas a impressões negativas?Q p p g
Que variáveis mais impactammais impactamna ocorrência de expressões expressões negativas?
ExplorandoExplorando uma determinadadeterminada palavra
Buscando associações “escondidas”
Relatórios de Polícia
O ponto de partida é neste exemplo um conjunto de 600 relatóriosO ponto de partida é, neste exemplo, um conjunto de 600 relatórios de polícia
Palavra processada por Text Mining Quantas vezes aparece? Em quantos relatórios aparece? Original
vítim 1186 393 vítimadenunc 862 278 denuncia
filh 828 362 filhadenunciant 805 252 denunciante
it 786 268 itsuspeit 786 268 suspeitolocal 726 394tend 587 303 tendocas 577 283 casa
encontr 554 324 encontramesm 518 299 mesma
resident 514 307 residenteinform 501 291 informa
ter 452 277dia 450 291
agred 442 306 agrediurefer 424 265 refereaind 410 257 aindaanos 380 245fact 363 226 factofact 363 226 factovez 361 242
onde 343 237part 337 240 parteles 331 123 lesada
hospital 302 209hospital 302 209dest 300 209 deste
ambos 298 211cheg 290 226 chegaser 282 210h 281 264 hhor 281 264 hora
moment 277 195 momento
Classificação de relatórios de atividades criminosasSegmentação de relatóriosClassificação automática por temas
Detecção de fraudes e çvulnerabilidades
Analisar os conteúdos de páginas web e emails. Os usuários podemautomaticamente processar e sumariar páginas web mensagens de chat etcautomaticamente processar e sumariar páginas web, mensagens de chat, etc.
Incluir texto não-estruturado em projetos de Data Mining.
Relatórios de acidentes, dos empregados, etc.
Analisar grandes repositórios de dados comportamentais. Por exemplo, os usuáriosg p p ppodem analisar narrativas com relatórios de roubos, etc., para que essa informaçãoseja incorporada nos projetos de detecção de fraude.
A informação correta, para o usuário certo, no momento adequado!
Informação inteligência1. Análise fatorial & clusters2 Á d l ifi ã
1 Detecção de l bilid d
3
2. Árvores de classificação e regress3. Redes neurais4. Outras técnicas de Mining
vulnerabilidadesIndicadorestemporais de roubo/fraude
Identificação2 Identificaçãode suspeitosde crime
2
Vamos agoraVamos agora ver na práticap
Baanco dde daddos orriginall
Selecionar idioma para o stemming:Reduzir as palavras à sua raiz comum. Ex: Diferentes formasReduzir as palavras à sua raiz comum. Ex: Diferentes formasgramaticais ou declinações de verbos são identificadas e indexadascomo uma única entrada. Desempenha e desempenhou seriam a mesma unidade amostral.
lh õEscolher as opções que maximizem a eficiência no processamento do texto
Listas de exclusão
Processar como a mesmaProcessar como a mesma entrada:
FrasesSinônimosListas personalizadas
Filtrar os termos que serão relevantes para o
Que palavras?
relevantes para o projeto de Text Mining
Que tipo?
Entre A e B?
f f 1 l f f f 0f wf 1 log wf ,forwf 0
f wf 1,forwf 0
Estatísticas de palavras
Organizar o projeto
Escrever previsões na BDEscrever previsões na BD
Colocar em produção
Tree graph for Topic: Earnings?Num. of non-terminal nodes: 3, Num. of terminal nodes: 4
Model: C&RT
No Yes
ID=1 N=5000No
ID=2 N=4461No
ID=3 N=539Yes
shr
<= 1,113739 > 1,113739
div
<= 1,585043 > 1,585043ID=4 N=4285
NoID=5 N=176
Yes
dividend
ID=6 N=4140No
ID=7 N=145Yes
<= 1,635085 > 1,635085
Word importance
issuoffer
Importance
analystyearbondquotacoffeopec
ldmlndlrs
marketrev
brazilanalyst
tradeprofitrate
priceexportwould
shrnetoil
sharepct
debt
ctsbankbillion
tonnlossshr
0 20 40 60 80 100 120
vs
"Um dia, a Estatística será tão importante como saber ler pou escrever"H.G. Wells
"A alfabetização estatística é uma capacidade básica:A habilidade para pensar criticamente sobre argumentos p p gque usam a estatística como prova.“Milo Schield
MUITO OBRIGADO PELO VOSSO TEMPO E ATENÇÃO