artigo big data_final
DESCRIPTION
TCC que fiz na conclusão do curso de SI.TRANSCRIPT
O FUTURO ESTA NOS DADOS
Alexandra Alcântara da Silva*
Fernando Santos**
RESUMO
Neste artigo será abordado um assunto que está sendo comentada pelo mundo Business e pela internet, ‘grande volume de dados’, sua importância, dificuldades e como poderá ser solucionado. Hoje a informação é muito mais importante que algo material, dados custa caro e representam para as empresas um excelente acervo estratégico para diversas áreas de negócios. Em 2013 está previsto que os dados devem dobrar e em 2015 esses dados irão triplicar ficando assim difícil de gerencia-los. Nesse trabalho iremos apresentar uma solução para isso, uma tecnologia de monitoramento chamada Big Data e a utilização das ferramentas como Hadoop, MapReduce e InfoSphere para extração dessas informações. Primeira etapa desse processo é coletar os dados através de um meio de rede social como é o caso do Twitter, podendo assim fazer essa coleta de informações, buscando por palavras chaves que formarão uma rede de características e dados para se conseguir uma resposta final. O Hadoop junto com o InfoSphere da IBM faz com que esses dados sejam coletados e dê um retorno para melhores investimentos. O controle desses dados será de suma importância para lucros futuros.
Palavras-chave: Analise de dados; Grande volume de dados; Big Data; Mapeamento de dados.
1. INTRODUÇÂO
Tratar de grandes volumes de dados e gerenciamento do mesmo sempre foi um
desafio para o mundo dos negócios, porém hoje a tecnologia tem tido grandes avanços
em relação a esses problemas. Na bolsa de valores, dados, que podem chegar a mais de
um Tera por ano, faz com que o gerenciamento fique difícil de ser extraído e
organizado, ou em outros casos como saber qual a melhor cotação e o histórico de
empresas que estão com ações em alta. Como coletar dados tão imensos para poder ter
um retorno de negocio mais seguro? E o que as empresas que trabalham com a bolsa ou
outros negócios estão fazendo?
Apresentamos o Big Data que é visto como uma arma contra os problemas
socioeconômicos. Na teoria é um conjunto de soluções tecnológicas, capaz de lidar com
dados digitais em volume, variedade e velocidade. Essa é a nova sensação do momento
*Graduada em Sistema de Informação na Faculdade Joaquim Nabuco, Analista de Sistema da Apevisa email: [email protected] **Graduado em Sistema de Informação na Faculdade Joaquim Nabuco, Analista de Suporte, email: [email protected]
2
‘Grandes Dados’ que quando são coletados dão um retorno inteligente com maior
rapidez. Bem como a computação em nuvem hoje tem tido uma evolução e as empresas
estão investindo pesado nela e o conceito de Big Data trabalhado em cima de Cloud
Computer, portanto tornando maior a busca por essa técnica. Difundindo fortemente nas
organizações, que podem ter acesso e controle dos seus dados em qualquer lugar do
mundo, a computação em nuvem junto com a técnica de mapeamento colabora para um
crescimento devastador da utilização desse novo meio de ‘Business Intelligence’.
O objetivo desse artigo é mostrar técnicas e ferramentas para extração desses
grandes dados, dando como exemplo a bolsa de valores, que possui um grande volume
de informações relacionado a cotações e modificações das mesmas, extraindo-as de
forma inteligente e rápida, com isso armazenando, gerenciando e processando essa
grande massa de dados.
O artigo está organizado da seguinte forma, inicialmente será abordado os
grandes volumes de dados e o mercado no tópico 2 em seguida será tratado o futuro
dessa técnica no 2.1 Big Data e o Futuro, no 2.2 Companies e os Dados trata o que o
mundo empresarial anda fazendo com a utilização do Big Data, no 2.3 Mapeando e
cruzando resultados e por fim o 3.0 as Considerações finais.
2. GRANDES VOLUMES DE DADOS E O MERCADO
Já pensou uma situação onde dados de uma loja virtual que vende tanto para o
Brasil como para o exterior, rodando numa plataforma que não suporte nem metade das
informações contida em seu banco de dados, e ainda seu retorno e extração deveria ser
em tempo real?
Há alguns anos atrás o mercado sofria com essas situações apesar de que seu
volume de dados não era tão imenso como é hoje, pesquisas feitas relatam que a cada
dois anos o volume de dados dobra. Uma dessas pesquisas foi feita por Anderson
Figueiredo analista da IDC Brasil, prevendo que esse ano será gerados 2,7 zettabytes de
informações, esse numero subirá para oito zettabytes em 2015. Com tantas informações
para serem gerenciadas as empresas terão que buscar um modo de lhe dar com essa
montanha de informações e coletar apenas os dados de valor para os negócios,
infelizmente esse pesquisa ainda afirma que 51% das empresas não adotaram nenhum
tipo de ferramenta para resolver esse problema. Outro estudo foi feito recentemente pela
3
Oracle informavam que a falta de controle de dados faz as empresas perderem em
média 14% de seu faturamento.
Um bom exemplo mesmo é a bolsa de valores que antigamente, mesmo
possuindo grandes dados, fazia suas transações de negócios na própria bolsa, em cada
cidade de todos os pais, o famoso pregão viva-voz. Hoje essas transações são cada vez
mais realizadas em tempo real. O mercado está cada dia mais consciente que
informação é tudo para os negócios, investir em dados está dando a muitas empresas
grandes retorno financeiro e a visão de como interagir com esses dados tirando proveito
dos mesmos. Hoje as corretoras se organizam e possuem ferramentas que tem o objetivo
de gerenciar e retornar dados que darão um norte aqueles que pretendem investir.
‘Gerenciar grandes volumes de dados com eficiência e inteligência pode ser
possível com novas tecnologias de mineração. - Big Data é um grande negocio?’.
Titulo de um artigo tirado da ComputerWorld EUA feito por Stacy Collet (em 02 de
Setembro de 2011,s/d) que retrata se o Big Data é viável ou não.
Abaixo a Figura 01 tirada do site visual.ly mostra como o Big Data pode mapear
grande informações e apresenta-los de forma simples ao mundo.
Figura 01: Gráficos e imagens do site visual.ly mostra como Big Data pode dar retorno através de dados sobre o nicho de mercado. – EUA – 2012.
FONTE: VISUAL. LY – 2012.
4
O Business Intelligence já era bem chamativo para o setor de analise de dados e
negócios quando o Big Data apareceu se mostrando bem mais atrativo e rápido para as
respostas, que necessitavam de maior precisão em seu retorno. Hoje no século 21
“Inteligência de Negócio” é o carro chefe tanto para o mundo Business como para o
mundo de TI. Na feira CeBit na Alemanha desse ano o Big Data foi mostrado como o
mais novo meio de pesquisa de negócios, como no filme Moneyball com Brad Pitt onde
ele usa ferramentas e o conceito do Big Data para coletar dados com o objetivo de
formar o melhor time de beisebol, assim popularizando a ideia. Sobre a aplicação para
extração de dados na bolsa de valores, não foi utilizado até o momento, porém em breve
será um chamativo.
2.1 Big Data e o Futuro
Recentemente foi anunciado que o Big Data seria utilizado na copa do mundo
de 2014, essa noticia mostra como o método de extração e analise de dados, esta cada
vez mais tomando espaço no mercado, Marcelo Leite, diretor de produtos da BT para a
América Latina explica em seu artigo postado no Portal da BT a metodologia que pode
prever os negócios. Também usado nos jogos olímpicos o método está crescendo cada
vez mais, a empresa SAS no Brasil está focando a ideia como uma nova corrida do
ouro.
Mas o Big Data não só serve para os negócios, o meio ambiente mesmo está
tendo seus privilégios também, empresas como a OPower que tem a proposta de ser
capaz de economizar um terawatt hora de energia, que é o equivalente à energia
consumida por 100.000 lares americanos por ano até o final de 2012.
O Big Data está crescendo tanto que a EMC promove escola de verão em Big
Data no Rio de Janeiro e a SAP seleciona estudantes para programa de estágio no Sul do
País. Hoje a busca por cientista de dados esta imensa, salários altíssimos para esses
profissionais.
Em reportagem do jornal O Globo, o executivo de operações da EMC, Pat Gelsinger, afirmou que o mercado global de Big Data já movimenta US$ 70 bilhões por ano, e a tendência é que tenha um crescimento de quase 40% até 2015. (DARROW, 2012, s/p)
5
Muitas novas ferramentas foram criadas para à utilização desses métodos de
análise de grandes dados, no Vale do Silício uma empresa chamada de Cloudera lançou
um projeto de código aberto chamado Broca, que procura imitar a eficaz ferramenta de
análise de dados construído pelo Google que usa a metodologia do Big Data.
2.2 Companies e os Dados
Como foi dito anteriormente o acúmulo de dados tem sido imenso de uns tempos
para cá e em 2012 esse volume absurdamente cresceu. Com estudos e pesquisa de que
isso seria um problema empresas como Yahoo, Amazon, Intel, IBM e outros se
dedicaram a essa solução, tanto para aumento financeiro como inovação de mercado.
A Amazon que oferece um conjunto de serviços baseados em Cloud Computing
como o seu Amazon Web Services (AWS) e Amazon Elastic MapReduce, torna mais
fácil e econômico aos clientes extrair e processar informações de grandes volumes de
dados, volume esse que é através do AWS, tem a análise de mapeamento de genoma,
análise de dados de serviços financeiros e análise de logs da web entre outros. Abaixo
matéria tirada da ComputerWorld Blakeley arquiteto da Mazda mostra os investimentos
dessa técnica.
A Mazda Motor Corp, que possui 900 revendedores e 800 funcionários nos EUA, gerencia cerca de 90 terabytes de dados. O arquiteto de infraestrutura das operações da Mazda na América do Norte, Barry Blakeley, diz que as unidades de negócios e os revendedores estão gerando quantidades cada vez maiores de arquivos de dados analíticos, materiais de marketing, bases de dados para inteligência de negócios, dados do Microsoft SharePoint e muito mais. "Temos tudo virtualizados, incluindo o armazenamento", afirma Blakeley. (BRANDON,2011, s/p)
Derrick Harrys escreveu no site Gigaom.com que recentemente o Yahoo e o
Facebook investiram na analise de grande dados e adotaram um serviço em uma nova
plataforma chamada Continuuity, sendo em nuvem é um ambiente de desenvolvimento
em tempo de execução que fica em cima da infraestrutura do Hadoop e abstrai a
complexidade de escrever apps. Abaixo a Figura 02 mostra a interface dessa ferramenta
que tem como objetivo extrair grandes informações geradas por essas redes sociais.
6
Figura 02: Face do sistema Continuuity – EUA – 2012.FONTE: CONTINUUITY – 2012.
Mas é a IBM que está investindo pesado, já tem a Web Site Educacional Big
Data University com direito a vídeo aulas, material, downloads das ferramentas e
certificações, mostrando como o Big Data Funciona e as ferramentas utilizadas. A
buscar por grandes dados de forma organizada estão aumentando cada vez mais entre as
empresas, como é o caso da Terada, HP, Walmart, Google e muitos outros gigantes que
estão aproveitando essa febre.
2.3 Mapeando e cruzando resultados
Tanto o BigSheets, Hadoop e o MapReduce são excelentes ferramentas
utilizadas para o levantamento de grandes dados , usaremos o Hadoop na plataforma
Cloudera um sistema operacional Linux para os estudos do mapeamento. As cotações
da bolsa são gigantescas, precisando muitas vezes ser simples de ser analisada, o Big
Data já foi recomendando para ser utilizado na área de cotações da bolsa, mas por falta
de profissionais na área encontrasse só em especulações.
Ao iniciarmos o Cloudera vamos para o Hadoop e fazemos uma busca
organizada por esses valores colocando palavras chaves como ‘compra’ e ‘alta’,
retornando com isso algumas informações que ainda pode ser peneirada para um melhor
entendimento. No caso do BigSheets essas respostas são bem mais rápidas e eficientes
buscando através do twitter ou facebook dados estatísticos para ser aplicado no negocio.
Um dos módulos interessantes das ferramentas do Big data é o bubble chart
‘gráfico de bolhas’ ele mostra de uma forma bem macro todas as informações desejadas
7
e uma visão de como será aplicadas, pode passar o mouse sobre cada bolha para ver o
que os projetos têm e quanto eles valem. Abaixo um exemplo do bubble chart é a
Figura 03, que mostra resultados obtidos através do BigSheets sobre educação e os
professores nos EUA.
Figura 03: bubble chart sobre educação e professores nos EUA – 2009.FONTE: OUSEFUL.INFO – 2009.
Depois de ter utilizado algumas ferramentas e as técnicas de mapeamento
citadas, pode-se observar que houve uma grande busca pela empresa de logística LLX
em novembro de 2012, que teve um ótimo desempenho e aumento de acionista, outras
empresas do setor de energia teve várias buscas também, retornando assim informações
de forma prática e rápida. Através desses comentários tanto dos que trabalham na área
como os que são investidores assíduos, pode-se com isso ter retornado aos leigos ou
aqueles que desejam essas informações, uma orientação em quem ou o que investir.
3 CONSIDERAÇÕES FINAIS Os conceitos vistos para a elaboração desse trabalho foram técnica de
mapeamento de análises, as ferramentas open source usadas nesse processo, como o
meio empresarial está aceitando a ideia e qual as vantagens que essa nova metodologia
está trazendo para os negócios, tornando assim mais fácil a buscar por informações.
Os resultados encontrados através da busca feita pelas ferramentas que rodam o
Hadoop em sua plataforma trouxeram em formas de gráficos e números dados que antes
não tinham um retorno tão direto e tão rápido, utilizado anteriormente pelas ferramentas
Business Intelligence.
8
Mesmo essa técnica sendo nova existe muitas empresas que estão começando a
buscar informações sobre o Big Data e o valor que os dados têm para os negócios,
fazendo com que seja fácil disseminar essa ideia tanto no Brasil como em outros países.
A Bolsa de Valores ainda é uma área de negócios que está madura em relação à
‘Grandes Dados’, porém futuramente terá um ótimo rendimento quando começar a
utilizar essa técnica para buscar informações em relação a cotações do dia, fazendo uma
avaliação de simples palavras, cruzando assim dados e disponibilizando informações
sobre qual empresa será mais viável para investir e uma previsão sobre o futuro de
alguns investimentos.
O Big Data se for usado de maneira correta, permite também aos analistas
identificar tendências e dá ideias de nicho que ajudam a criar valor e inovações muito
mais rápido do que os métodos convencionais.
REFERÊNCIAS BIBLIOGRÁFICAS
Autor não informado. Big Data na Copa do Mundo de 2014.Disponível em: http://letstalk.globalservices.bt.com/pt/2012/09/big-data-na-copa-do-mundo-de-2014 Acesso em: 03 Setembro 2012.
BRANDON, JOHN, Confira técnicas para vencer o desafio de gerenciar Big Data, Disponível em: computerworld.uol.com.br/tecnologia/2011/10/13/confira-tecnicas-para-vencer-o-desafio-de-gerenciar-big-data, Acesso em: 14 de Outubro de 2011.
COLLET, STACY. Big Data: é um grande negócio? Disponível em: http://computerworld.uol.com.br/tecnologia/2011/09/02/big-data-e-um-g. Acesso em: 02 de Setembro de 2011.
CONTINUUITY, Figura 02, Face do sistema Continuuity, Fonte: www.continuuity.com/technology.
DARROW, BARB, Amazon Launches home-grown NoSQL database, Disponível em: http://gigaom.com/cloud/amazon-launches-home-grown-nosql-database, Acesso em: 18 de Janeiro de 2012.
FIGUEIREDO, ANDERSON. Big Data: volume de dados no mundo crescerá 60% em 2012. Disponível em: http://cio.uol.com.br/tecnologia/2012/05/27/big-data-volume-de-dados-no-mundo-crescera-60-em-2012. Acesso em: 27 de Maio de 2012.
HARRYS, DERRICK. Ex-Yahoo e Facebook big data vets do Hadoop for developer, Disponível em: http://gigaom.com/data/ex-yahoo-facebook-big-data-vets-launch-paas-for-hadoop, Acesso em: 23 de Outubro de 2012.
9
OUSEFUL, Figura 03, Burble Chat, Fonte: http://blog.ouseful.info/2009/02/27/simple-embeddable-twitter-map-mashup.
VISUAL. LY, Figura01, Gráfico Big Data, Fonte: http://visual.ly/big-data.