artigo big data_final

13
O FUTURO ESTA NOS DADOS Alexandra Alcântara da Silva* Fernando Santos** RESUMO Neste artigo será abordado um assunto que está sendo comentada pelo mundo Business e pela internet, ‘grande volume de dados’, sua importância, dificuldades e como poderá ser solucionado. Hoje a informação é muito mais importante que algo material, dados custa caro e representam para as empresas um excelente acervo estratégico para diversas áreas de negócios. Em 2013 está previsto que os dados devem dobrar e em 2015 esses dados irão triplicar ficando assim difícil de gerencia-los. Nesse trabalho iremos apresentar uma solução para isso, uma tecnologia de monitoramento chamada Big Data e a utilização das ferramentas como Hadoop, MapReduce e InfoSphere para extração dessas informações. Primeira etapa desse processo é coletar os dados através de um meio de rede social como é o caso do Twitter, podendo assim fazer essa coleta de informações, buscando por palavras chaves que formarão uma rede de características e dados para se conseguir uma resposta final. O Hadoop junto com o InfoSphere da IBM faz com que esses dados sejam coletados e dê um retorno para melhores investimentos. O controle desses dados será de suma importância para lucros futuros. Palavras-chave: Analise de dados; Grande volume de dados; Big Data; Mapeamento de dados. 1. INTRODUÇÂO *Graduada em Sistema de Informação na Faculdade Joaquim Nabuco, Analista de Sistema da Apevisa email: [email protected] **Graduado em Sistema de Informação na Faculdade Joaquim Nabuco, Analista de Suporte, email: [email protected]

Upload: alexandra-alcantara

Post on 05-Jun-2015

153 views

Category:

Documents


0 download

DESCRIPTION

TCC que fiz na conclusão do curso de SI.

TRANSCRIPT

Page 1: Artigo big data_final

O FUTURO ESTA NOS DADOS

Alexandra Alcântara da Silva*

Fernando Santos**

RESUMO

Neste artigo será abordado um assunto que está sendo comentada pelo mundo Business e pela internet, ‘grande volume de dados’, sua importância, dificuldades e como poderá ser solucionado. Hoje a informação é muito mais importante que algo material, dados custa caro e representam para as empresas um excelente acervo estratégico para diversas áreas de negócios. Em 2013 está previsto que os dados devem dobrar e em 2015 esses dados irão triplicar ficando assim difícil de gerencia-los. Nesse trabalho iremos apresentar uma solução para isso, uma tecnologia de monitoramento chamada Big Data e a utilização das ferramentas como Hadoop, MapReduce e InfoSphere para extração dessas informações. Primeira etapa desse processo é coletar os dados através de um meio de rede social como é o caso do Twitter, podendo assim fazer essa coleta de informações, buscando por palavras chaves que formarão uma rede de características e dados para se conseguir uma resposta final. O Hadoop junto com o InfoSphere da IBM faz com que esses dados sejam coletados e dê um retorno para melhores investimentos. O controle desses dados será de suma importância para lucros futuros.

Palavras-chave: Analise de dados; Grande volume de dados; Big Data; Mapeamento de dados.

1. INTRODUÇÂO

Tratar de grandes volumes de dados e gerenciamento do mesmo sempre foi um

desafio para o mundo dos negócios, porém hoje a tecnologia tem tido grandes avanços

em relação a esses problemas. Na bolsa de valores, dados, que podem chegar a mais de

um Tera por ano, faz com que o gerenciamento fique difícil de ser extraído e

organizado, ou em outros casos como saber qual a melhor cotação e o histórico de

empresas que estão com ações em alta. Como coletar dados tão imensos para poder ter

um retorno de negocio mais seguro? E o que as empresas que trabalham com a bolsa ou

outros negócios estão fazendo?

Apresentamos o Big Data que é visto como uma arma contra os problemas

socioeconômicos. Na teoria é um conjunto de soluções tecnológicas, capaz de lidar com

dados digitais em volume, variedade e velocidade. Essa é a nova sensação do momento

*Graduada em Sistema de Informação na Faculdade Joaquim Nabuco, Analista de Sistema da Apevisa email: [email protected] **Graduado em Sistema de Informação na Faculdade Joaquim Nabuco, Analista de Suporte, email: [email protected]

Page 2: Artigo big data_final

2

‘Grandes Dados’ que quando são coletados dão um retorno inteligente com maior

rapidez. Bem como a computação em nuvem hoje tem tido uma evolução e as empresas

estão investindo pesado nela e o conceito de Big Data trabalhado em cima de Cloud

Computer, portanto tornando maior a busca por essa técnica. Difundindo fortemente nas

organizações, que podem ter acesso e controle dos seus dados em qualquer lugar do

mundo, a computação em nuvem junto com a técnica de mapeamento colabora para um

crescimento devastador da utilização desse novo meio de ‘Business Intelligence’.

O objetivo desse artigo é mostrar técnicas e ferramentas para extração desses

grandes dados, dando como exemplo a bolsa de valores, que possui um grande volume

de informações relacionado a cotações e modificações das mesmas, extraindo-as de

forma inteligente e rápida, com isso armazenando, gerenciando e processando essa

grande massa de dados.

O artigo está organizado da seguinte forma, inicialmente será abordado os

grandes volumes de dados e o mercado no tópico 2 em seguida será tratado o futuro

dessa técnica no 2.1 Big Data e o Futuro, no 2.2 Companies e os Dados trata o que o

mundo empresarial anda fazendo com a utilização do Big Data, no 2.3 Mapeando e

cruzando resultados e por fim o 3.0 as Considerações finais.

2. GRANDES VOLUMES DE DADOS E O MERCADO

Já pensou uma situação onde dados de uma loja virtual que vende tanto para o

Brasil como para o exterior, rodando numa plataforma que não suporte nem metade das

informações contida em seu banco de dados, e ainda seu retorno e extração deveria ser

em tempo real?

Há alguns anos atrás o mercado sofria com essas situações apesar de que seu

volume de dados não era tão imenso como é hoje, pesquisas feitas relatam que a cada

dois anos o volume de dados dobra. Uma dessas pesquisas foi feita por Anderson

Figueiredo analista da IDC Brasil, prevendo que esse ano será gerados 2,7 zettabytes de

informações, esse numero subirá para oito zettabytes em 2015. Com tantas informações

para serem gerenciadas as empresas terão que buscar um modo de lhe dar com essa

montanha de informações e coletar apenas os dados de valor para os negócios,

infelizmente esse pesquisa ainda afirma que 51% das empresas não adotaram nenhum

tipo de ferramenta para resolver esse problema. Outro estudo foi feito recentemente pela

Page 3: Artigo big data_final

3

Oracle informavam que a falta de controle de dados faz as empresas perderem em

média 14% de seu faturamento.

Um bom exemplo mesmo é a bolsa de valores que antigamente, mesmo

possuindo grandes dados, fazia suas transações de negócios na própria bolsa, em cada

cidade de todos os pais, o famoso pregão viva-voz. Hoje essas transações são cada vez

mais realizadas em tempo real. O mercado está cada dia mais consciente que

informação é tudo para os negócios, investir em dados está dando a muitas empresas

grandes retorno financeiro e a visão de como interagir com esses dados tirando proveito

dos mesmos. Hoje as corretoras se organizam e possuem ferramentas que tem o objetivo

de gerenciar e retornar dados que darão um norte aqueles que pretendem investir.

‘Gerenciar grandes volumes de dados com eficiência e inteligência pode ser

possível com novas tecnologias de mineração. - Big Data é um grande negocio?’.

Titulo de um artigo tirado da ComputerWorld EUA feito por Stacy Collet (em 02 de

Setembro de 2011,s/d) que retrata se o Big Data é viável ou não.

Abaixo a Figura 01 tirada do site visual.ly mostra como o Big Data pode mapear

grande informações e apresenta-los de forma simples ao mundo.

Figura 01: Gráficos e imagens do site visual.ly mostra como Big Data pode dar retorno através de dados sobre o nicho de mercado. – EUA – 2012.

FONTE: VISUAL. LY – 2012.

Page 4: Artigo big data_final

4

O Business Intelligence já era bem chamativo para o setor de analise de dados e

negócios quando o Big Data apareceu se mostrando bem mais atrativo e rápido para as

respostas, que necessitavam de maior precisão em seu retorno. Hoje no século 21

“Inteligência de Negócio” é o carro chefe tanto para o mundo Business como para o

mundo de TI. Na feira CeBit na Alemanha desse ano o Big Data foi mostrado como o

mais novo meio de pesquisa de negócios, como no filme Moneyball com Brad Pitt onde

ele usa ferramentas e o conceito do Big Data para coletar dados com o objetivo de

formar o melhor time de beisebol, assim popularizando a ideia. Sobre a aplicação para

extração de dados na bolsa de valores, não foi utilizado até o momento, porém em breve

será um chamativo.

2.1 Big Data e o Futuro

Recentemente foi anunciado que o Big Data seria utilizado na copa do mundo

de 2014, essa noticia mostra como o método de extração e analise de dados, esta cada

vez mais tomando espaço no mercado, Marcelo Leite, diretor de produtos da BT para a

América Latina explica em seu artigo postado no Portal da BT a metodologia que pode

prever os negócios. Também usado nos jogos olímpicos o método está crescendo cada

vez mais, a empresa SAS no Brasil está focando a ideia como uma nova corrida do

ouro.

Mas o Big Data não só serve para os negócios, o meio ambiente mesmo está

tendo seus privilégios também, empresas como a OPower que tem a proposta de ser

capaz de economizar um terawatt hora de energia, que é o equivalente à energia

consumida por 100.000 lares americanos por ano até o final de 2012.

O Big Data está crescendo tanto que a EMC promove escola de verão em Big

Data no Rio de Janeiro e a SAP seleciona estudantes para programa de estágio no Sul do

País. Hoje a busca por cientista de dados esta imensa, salários altíssimos para esses

profissionais.

Em reportagem do jornal O Globo, o executivo de operações da EMC, Pat Gelsinger, afirmou que o mercado global de Big Data já movimenta US$ 70 bilhões por ano, e a tendência é que tenha um crescimento de quase 40% até 2015. (DARROW, 2012, s/p)

Page 5: Artigo big data_final

5

Muitas novas ferramentas foram criadas para à utilização desses métodos de

análise de grandes dados, no Vale do Silício uma empresa chamada de Cloudera lançou

um projeto de código aberto chamado Broca, que procura imitar a eficaz ferramenta de

análise de dados construído pelo Google que usa a metodologia do Big Data.

2.2 Companies e os Dados

Como foi dito anteriormente o acúmulo de dados tem sido imenso de uns tempos

para cá e em 2012 esse volume absurdamente cresceu. Com estudos e pesquisa de que

isso seria um problema empresas como Yahoo, Amazon, Intel, IBM e outros se

dedicaram a essa solução, tanto para aumento financeiro como inovação de mercado.

A Amazon que oferece um conjunto de serviços baseados em Cloud Computing

como o seu Amazon Web Services (AWS) e Amazon Elastic MapReduce, torna mais

fácil e econômico aos clientes extrair e processar informações de grandes volumes de

dados, volume esse que é através do AWS, tem a análise de mapeamento de genoma,

análise de dados de serviços financeiros e análise de logs da web entre outros. Abaixo

matéria tirada da ComputerWorld Blakeley arquiteto da Mazda mostra os investimentos

dessa técnica.

A Mazda Motor Corp, que possui 900 revendedores e 800 funcionários nos EUA, gerencia cerca de 90 terabytes de dados. O arquiteto de infraestrutura das operações da Mazda na América do Norte, Barry Blakeley, diz que as unidades de negócios e os revendedores estão gerando quantidades cada vez maiores de arquivos de dados analíticos, materiais de marketing, bases de dados para inteligência de negócios, dados do Microsoft SharePoint e muito mais. "Temos tudo virtualizados, incluindo o armazenamento", afirma Blakeley. (BRANDON,2011, s/p)

Derrick Harrys escreveu no site Gigaom.com que recentemente o Yahoo e o

Facebook investiram na analise de grande dados e adotaram um serviço em uma nova

plataforma chamada Continuuity, sendo em nuvem é um ambiente de desenvolvimento

em tempo de execução que fica em cima da infraestrutura do Hadoop e abstrai a

complexidade de escrever apps. Abaixo a Figura 02 mostra a interface dessa ferramenta

que tem como objetivo extrair grandes informações geradas por essas redes sociais.

Page 6: Artigo big data_final

6

Figura 02: Face do sistema Continuuity – EUA – 2012.FONTE: CONTINUUITY – 2012.

Mas é a IBM que está investindo pesado, já tem a Web Site Educacional Big

Data University com direito a vídeo aulas, material, downloads das ferramentas e

certificações, mostrando como o Big Data Funciona e as ferramentas utilizadas. A

buscar por grandes dados de forma organizada estão aumentando cada vez mais entre as

empresas, como é o caso da Terada, HP, Walmart, Google e muitos outros gigantes que

estão aproveitando essa febre.

2.3 Mapeando e cruzando resultados

Tanto o BigSheets, Hadoop e o MapReduce são excelentes ferramentas

utilizadas para o levantamento de grandes dados , usaremos o Hadoop na plataforma

Cloudera um sistema operacional Linux para os estudos do mapeamento. As cotações

da bolsa são gigantescas, precisando muitas vezes ser simples de ser analisada, o Big

Data já foi recomendando para ser utilizado na área de cotações da bolsa, mas por falta

de profissionais na área encontrasse só em especulações.

Ao iniciarmos o Cloudera vamos para o Hadoop e fazemos uma busca

organizada por esses valores colocando palavras chaves como ‘compra’ e ‘alta’,

retornando com isso algumas informações que ainda pode ser peneirada para um melhor

entendimento. No caso do BigSheets essas respostas são bem mais rápidas e eficientes

buscando através do twitter ou facebook dados estatísticos para ser aplicado no negocio.

Um dos módulos interessantes das ferramentas do Big data é o bubble chart

‘gráfico de bolhas’ ele mostra de uma forma bem macro todas as informações desejadas

Page 7: Artigo big data_final

7

e uma visão de como será aplicadas, pode passar o mouse sobre cada bolha para ver o

que os projetos têm e quanto eles valem. Abaixo um exemplo do bubble chart é a

Figura 03, que mostra resultados obtidos através do BigSheets sobre educação e os

professores nos EUA.

Figura 03: bubble chart sobre educação e professores nos EUA – 2009.FONTE: OUSEFUL.INFO – 2009.

Depois de ter utilizado algumas ferramentas e as técnicas de mapeamento

citadas, pode-se observar que houve uma grande busca pela empresa de logística LLX

em novembro de 2012, que teve um ótimo desempenho e aumento de acionista, outras

empresas do setor de energia teve várias buscas também, retornando assim informações

de forma prática e rápida. Através desses comentários tanto dos que trabalham na área

como os que são investidores assíduos, pode-se com isso ter retornado aos leigos ou

aqueles que desejam essas informações, uma orientação em quem ou o que investir.

3 CONSIDERAÇÕES FINAIS Os conceitos vistos para a elaboração desse trabalho foram técnica de

mapeamento de análises, as ferramentas open source usadas nesse processo, como o

meio empresarial está aceitando a ideia e qual as vantagens que essa nova metodologia

está trazendo para os negócios, tornando assim mais fácil a buscar por informações.

Os resultados encontrados através da busca feita pelas ferramentas que rodam o

Hadoop em sua plataforma trouxeram em formas de gráficos e números dados que antes

não tinham um retorno tão direto e tão rápido, utilizado anteriormente pelas ferramentas

Business Intelligence.

Page 8: Artigo big data_final

8

Mesmo essa técnica sendo nova existe muitas empresas que estão começando a

buscar informações sobre o Big Data e o valor que os dados têm para os negócios,

fazendo com que seja fácil disseminar essa ideia tanto no Brasil como em outros países.

A Bolsa de Valores ainda é uma área de negócios que está madura em relação à

‘Grandes Dados’, porém futuramente terá um ótimo rendimento quando começar a

utilizar essa técnica para buscar informações em relação a cotações do dia, fazendo uma

avaliação de simples palavras, cruzando assim dados e disponibilizando informações

sobre qual empresa será mais viável para investir e uma previsão sobre o futuro de

alguns investimentos.

O Big Data se for usado de maneira correta, permite também aos analistas

identificar tendências e dá ideias de nicho que ajudam a criar valor e inovações muito

mais rápido do que os métodos convencionais.

REFERÊNCIAS BIBLIOGRÁFICAS

Autor não informado. Big Data na Copa do Mundo de 2014.Disponível em: http://letstalk.globalservices.bt.com/pt/2012/09/big-data-na-copa-do-mundo-de-2014 Acesso em: 03 Setembro 2012.

BRANDON, JOHN, Confira técnicas para vencer o desafio de gerenciar Big Data, Disponível em: computerworld.uol.com.br/tecnologia/2011/10/13/confira-tecnicas-para-vencer-o-desafio-de-gerenciar-big-data, Acesso em: 14 de Outubro de 2011.

COLLET, STACY. Big Data: é um grande negócio? Disponível em: http://computerworld.uol.com.br/tecnologia/2011/09/02/big-data-e-um-g. Acesso em: 02 de Setembro de 2011.

CONTINUUITY, Figura 02, Face do sistema Continuuity, Fonte: www.continuuity.com/technology.

DARROW, BARB, Amazon Launches home-grown NoSQL database, Disponível em: http://gigaom.com/cloud/amazon-launches-home-grown-nosql-database, Acesso em: 18 de Janeiro de 2012.

FIGUEIREDO, ANDERSON. Big Data: volume de dados no mundo crescerá 60% em 2012. Disponível em: http://cio.uol.com.br/tecnologia/2012/05/27/big-data-volume-de-dados-no-mundo-crescera-60-em-2012. Acesso em: 27 de Maio de 2012.

HARRYS, DERRICK. Ex-Yahoo e Facebook big data vets do Hadoop for developer, Disponível em: http://gigaom.com/data/ex-yahoo-facebook-big-data-vets-launch-paas-for-hadoop, Acesso em: 23 de Outubro de 2012.

Page 9: Artigo big data_final

9

OUSEFUL, Figura 03, Burble Chat, Fonte: http://blog.ouseful.info/2009/02/27/simple-embeddable-twitter-map-mashup.

VISUAL. LY, Figura01, Gráfico Big Data, Fonte: http://visual.ly/big-data.