oportunidades e desafios para projetos de big data… · como referência a esses dados massivos,...

1

UNIVERSIDADE FEDERAL DO RIO DE JANEIRO

INSTITUTO COPPEAD DE ADMINISTRAÇÃO

CÉSAR WAKO SUZUKI

OPORTUNIDADES E DESAFIOS PARA

PROJETOS DE BIG DATA: um estudo de

caso da parceria Petrobras EMC²

RIO DE JANEIRO

2016

2

CÉSAR WAKO SUZUKI

OPORTUNIDADES E DESAFIOS PARA PROJETOS DE BIG

DATA: um estudo de caso da parceria Petrobras EMC²

RIO DE JANEIRO

2016

Dissertação de Mestrado apresentada ao

Programa de Pós-Graduação em

Administração, Instituto COPPEAD de

Administração, Universidade Federal do

Rio de Janeiro, como parte dos requisitos

necessários à obtenção do título de Mestre

em Administração

Orientador: Profª. Drª. Elaine Tavares

Rodrigues

4

Dedico este trabalho a minha família,

que esteve junto comigo em todos os momentos,

demonstrando paciência quando não pude passear,

carinho quando encontrei dificuldades,

e admiração quando mostrei o resultado!

5

AGRADECIMENTOS

Agradeço à minha família, pelo amor.

À minha orientadora, pela confiança.

Ao meu chefe, pelo suporte e incentivo.

Aos professores, pela sabedoria passada.

Ao Instituto COPPEAD, pela oportunidade única.

Aos meus colegas, pelas experiências inesquecíveis.

À Petrobras e à EMC pela cooperação e tempo dedicado.

E, não menos importante, aos leitores. Desejo a estes uma ótima experiência!!!

6

RESUMO

Mídias Sociais, câmeras de segurança, GPS, sensores espalhados em equipamentos

eletrônicos, logs de acessos de Internet. Nunca se produziu tanto dado como atualmente.

Esta infinidade de dados, advindos das mais diversas fontes, estão fluindo numa

velocidade incomparável. Neste contexto, surge uma tecnologia que promete fazer uso

desses dados, extraindo informações relevantes às empresas em tempo real: Big Data.

Quais oportunidades essa nova tecnologia oferece? Quais desafios podem ser encontrados

ao se optar pela sua adoção? Com o intuito de responder essas perguntas, este trabalho

teve como foco um estudo de caso do desenvolvimento de três projetos de pesquisa de

Big Data na Petrobras, em parceria com centro de pesquisa da EMC2. Para efeito de

comparação, foram levantadas nove oportunidades e nove desafios, os quais foram

tratadas como categorias analíticas. Posteriormente foram identificadas dez

oportunidades, das quais cinco conferem com as categorias analíticas desenvolvidas e

cinco foram consideradas oportunidades emergentes deste estudo. Referente aos desafios,

seis deles coincidem com as categorias apresentadas e dois surgiram durante o estudo. As

oportunidades, no caso analisado, giraram em torno da otimização operacional, através

da construção de modelos preditivos que incorrem na possibilidade de traçar um plano de

manutenção baseada na condição e melhorias em processos da cadeia de suprimentos. Já

o maior desafio esteve nos problemas relacionados à custódia e gestão dos dados. A

principal contribuição da pesquisa reside no estudo de projetos desenvolvidos em

organizações e empresas de TI, onde as primeiras podem transpor desafios técnicos e as

últimas terem a chance de desenvolver projetos que podem vir a ser transformados em

produtos com valor de mercado.

Palavras-chave: Tecnologia da informação; Big Data; Indústria de óleo e gás; Petrobras,

EMC².

7

ABSTRACT

Social media, security cameras, GPS, scattered sensors in electronic equipment, Internet

access logs. We never produced as much data as today. This plethora of data, coming

from different sources, are flowing in an unrivaled speed. In this context, a technology

emerges that promises to make use of these data, extracting relevant information to

companies in real time: Big Data. Which opportunities this new technology offers? What

challenges can be found to opt for its adoption? In order to answer these questions, this

study focused on a case study of the development of three big research projects by

Petrobras, in partnership with research center EMC². For comparison, it was raised nine

challenges and nine opportunities, which were treated as analytical categories. Later ten

opportunities were identified, of which five confer with the developed analytical

categories and five were considered emerging opportunities in this study. Regarding the

challenges, six of them coincide with the categories presented and two arose during the

study. The opportunities in the analyzed case, centered on the operational optimization

through the construction of predictive models that incur the possibility of drawing up a

maintenance plan based on the condition and improvements in processes of the supply

chain. And the biggest challenge was the problems related to the custody (ownership) and

management of data. The main contribution of the research lies in the study of projects

developed in IT organizations and businesses, where the former can overcome technical

challenges and the last have the chance to develop projects that may be processed into

products with market value.

Key words: Information Technology, Big Data, Oil & gas, Petrobras, EMC².

8

SUMÁRIO

1. INTRODUÇÃO .................................................................................................................... 9

1.1. OBJETIVO GERAL .................................................................................................................. 10

1.2. OBJETIVOS ESPECÍFICOS ........................................................................................................ 11

1.3. RELEVÂNCIA ......................................................................................................................... 11

1.4. DELIMITAÇÃO DO ESTUDO ..................................................................................................... 12

2. REFERENCIAL TEÓRICO ............................................................................................. 14

2.1. BREVE HISTÓRICO DA EVOLUÇÃO DA ANÁLISE DE DADOS ..................................................... 14

2.2. O QUE É BIG DATA ................................................................................................................ 17

2.3. OPORTUNIDADES ADVINDAS DO USO DO BIG DATA ................................................................ 24

2.4. DESAFIOS NA IMPLEMENTAÇÃO DO BIG DATA ...................................................................... 32

3. MÉTODO ............................................................................................................................ 41

4. OS PROJETOS ANALISADOS ........................................................................................ 49

5. OPORTUNIDADES E DESAFIOS NO DESENVOLVIMENTO DE PROJETOS DE

BIG DATA NA PETROBRAS ................................................................................................................ 54

6. CONSIDERAÇÕES FINAIS ............................................................................................. 69

7. REFERÊNCIAS.................................................................................................................. 75

ANEXOS ................................................................................................................................................... 85

ANEXO I – ROTEIRO DE PESQUISA ................................................................................................. 85

ANEXO II – LISTA DE DEFINIÇÕES DE BIG DATA ....................................................................... 86

9

1. INTRODUÇÃO

Já não é de hoje que as organizações veem na informação grande fonte de vantagem

competitiva. Utilizando-se de dados para obter informações relevantes que podem ajudar

na otimização operacional, refinar a tomada de decisão, alimentar sistemas antifraudes e

muitos outros exemplos, as organizações podem obter vantagens competitivas

(DAVENPORT, 2014).

Nesse contexto, surge o conceito de data analytics, que consiste basicamente na aplicação

de tratamento estatístico em dados coletados, com o intuito de gerar previsões e insights

dando sentido a esses dados, transformando-os em informação que ajudam na tomada de

decisões e planejamento estratégico das empresas (CHEN ET AL., 2012).

Segundo Galbraith (2014), empresas utilizam grande bancos de dados há anos e, através

de técnicas como “data mining”, aplicam algoritmos que buscam correlações entre esses

dados, com o intuito de gerar insights que possam vir a trazer vantagens competitivas

frente aos seus concorrentes. Porém, o volume, a forma e a fonte de dados existentes

atualmente são bem diferentes de antigamente. No princípio, dados eram coletados

através de instrumentos como pesquisas, faturas de cartões, comprovantes de transações

e armazenados em bancos de dados (databases) de forma estruturada. Assim, muitas

vezes, o limitante era a falta de dados para gerar informações úteis/relevantes.

Hoje, muito devido à facilidade e velocidade de troca de informações advindo da criação

da internet, aliado à grande capacidade de armazenamento existente, dados estão sendo

extraídos das mais diversas fontes, como fotos de celulares, mapas de GPS, vídeos de

câmeras de segurança, áudio de call centers, e-mails, redes sociais e blogs, de forma

instantânea (Galbraith, 2014).

Portanto, o principal desafio agora é selecionar os dados que possam gerar informações

relevantes, dentro de tantas fontes possíveis e gerar o modelo/algoritmo/ferramenta que

melhor interprete esses dados (HARRIOTT, 2013).

Como referência a esses dados massivos, surgiu o termo Big Data1, que para Boudreau

(2012) é muito mais do que simplesmente uma grande quantidade de dados estruturados

1 Um conjunto de tecnologias capazes de armazenar, limpar, tratar, processar, analisar e extrair valor de

conjuntos de dados que são difíceis de processar com tecnologias tradicionais. Será detalhado mais a frente.

10

ou não2, e sim de dar sentido a eles. Portanto, além da habilidade de coletar uma

imensidão de dados, Big Data trata também de usá-los de forma a entender melhor como

o mundo funciona.

Shaw (2014) corrobora Boudreau ao afirmar que a verdadeira revolução trazida pelo Big

Data não está no impressionante volume de dados obtidos em tempo real e na capacidade

de armazenamento, mas na criação e aperfeiçoamento das técnicas de análise (algoritmos)

desses dados e na velocidade de processamento que os computadores proporcionam na

aplicação desses algoritmos. A isto se soma a capacidade de se utilizar dados de diversos

tipos de bases de dados e fontes de informação, possibilitando maximizar sua utilidade.

Schmarzo (2013) destaca a capacidade do Big Data de prover análise de dados em tempo

real, possibilitando o desenvolvimento de modelos de previsão e o monitoramento de todo

o ambiente de negócios, refinando, assim, a tomada de decisões gerenciais e modificando

de forma drástica a estrutura das organizações.

Nesse contexto, surgem as perguntas que norteiam todo o desenvolvimento deste presente

trabalho: Quais oportunidades e desafios estão presentes em projetos de Big Data?

1.1. OBJETIVO GERAL

O objetivo geral deste estudo foi identificar oportunidades e desafios para o

desenvolvimento de projetos de Big Data. Mais especificamente, analisou-se o caso da

Petrobras para conhecer o que motivou a empresa a implementar o Big Data e quais

desafios ela precisou superar para isto.

2 Dados estruturados são dados que contém uma organização para serem recuperados. É como se fossem

etiquetas, linhas e colunas que identificam diversos pontos sobre aquela informação. Já dados não

estruturados referem-se a dados que não se encaixam nesse padrão (linhas e colunas), como por exemplo

vídeos, e-mails, áudios e comentários de redes sociais.

11

1.2. OBJETIVOS ESPECÍFICOS

Muito se fala sobre o Big Data hoje, porém, no Brasil, ela ainda é uma tecnologia pouco

difundida. A literatura acadêmica na área de administração da informação é também ainda

pouco desenvolvida, pois uma vez que se trata de soluções tecnológicas relativamente

recentes, seu estudo na perspectiva gerencial ainda está sendo iniciado (NETO, 2015).

Assim, optou-se por fazer um levantamento teórico de oportunidades e desafios

potenciais para adoção de Big Data, estabelecendo categorias de análise para estudar o

caso da Petrobras. Posteriormente, de posse destas categorias, uma pesquisa de campo foi

realizada para se identificar as oportunidades e barreiras encontradas no caso da

Petrobras.

Assim, os objetivos específicos da pesquisa de campo foram:

A) Fazer um levantamento das oportunidades, identificadas pela Petrobras, que

levaram a utilização do Big Data.

B) Identificar os desafios enfrentados pela Petrobras ao adotar essa nova tecnologia.

C) Comparar os achados com os estudos acadêmicos sobre o assunto, buscando

ampliar o conhecimento sobre implementação de Big Data, ainda que de forma

exploratória.

1.3. RELEVÂNCIA

Mídias Sociais, sensores em celulares, sensores em automóveis, câmeras de filmagens,

chamadas de call centers - nunca se produziu tantos dados como atualmente. A

possibilidade de extrair insights a partir dessa imensidão de fontes faz com que o Big

Data, aliado à computação em nuvem (cloud computing), seja um dos assuntos mais

debatidos hoje na área da Tecnologia da Informação (DAVENPORT, 2006;

SCHMARZO, 2013).

Ao se realizar uma busca ao termo Big Data na Business Source Complete (EBSCOhost),

foram encontrados 26.455 artigos, destes 9.688 presentes em revistas acadêmicas.

Restringindo a pesquisa somente ao ano de 2015, o resultado é 7.357 artigos encontrados,

12

sendo 3.470 publicações em revistas acadêmicas. Ou seja, mais de um terço das

publicações acadêmicas se concentraram nesse ano, corroborando a importância atribuída

à pesquisa deste tema atualmente. Entretanto, uma leitura rápida dos títulos disponíveis

permite identificar que o conhecimento científico produzido sobre o assunto é

preponderantemente técnico. A perspectiva gerencial da implementação de Big Data

ainda não foi corretamente explorada na literatura.

Números ainda mais impressionantes foram divulgados pelo grupo Gartner3, em seu site,

no segundo semestre de 2015. Segundo eles, estima-se que mais de 75% das empresas de

todos os segmentos pretendem investir em Big Data até 2017, e cerca de 4,4 milhões de

empregos serão criados para suportar essa demanda já em 2016, sendo 1,9 milhões deles

localizados nos Estados Unidos (GARTNER, 2015).

Já a opção pelo setor de óleo e gás, deu-se devido aos altos investimentos alocados em

tecnologia da informação, especialmente em Big Data que segundo a Newswire (2015)

foi algo em torno de $ 3,5 bilhões. Além disso, seus produtos sofrem grandes oscilações

de preços, envolvem grandes custos de produção e operacionais e apresentam problemas

típicos de Big Data (alto volume de dados, advindos de diversos sensores e em alta

velocidade).

Através dos números acima, pode-se ter uma ideia da importância do Big Data.

Entretanto, por se tratar de um conjunto de tecnologias novas trazidas para o contexto

organizacional, não se pode partir da premissa de que as oportunidades e desafios

anteriormente encontradas na implementação de sistemas de informação serão os mesmos

para Big Data. Torna-se relevante estudar as oportunidades advindas de seu uso, assim

como os desafios que podem ser encontrados pelas empresas que optam pela sua adoção,

pois tratando-se de uma tecnologia nova, poder acompanhar o desenvolvimento de

projetos na área e comparar com a literatura, não só servirá de base para outros estudos,

mas também pode ajudar as outras empresas a compreender melhor essa ferramenta.

1.4. DELIMITAÇÃO DO ESTUDO

3 Uma das empresas de consultoria mais conceituadas na área de TI.

13

A pesquisa desenvolvida teve como base um estudo de caso numa empresa pública do

setor de petróleo - a Petrobras, compreendendo o período de 2014 ao início de 2016. Os

três projetos estudados na Petrobras estão em fase de desenvolvimento, não sendo

possível a coleta de resultados da adoção destes projetos. Novos desafios ainda poderão

surgir, mas como se tratam de projetos de desenvolvimento longos, não é necessário

esperar até o final para que o caso apresentado possa já trazer conhecimento sobre os

processos de implementação de Big Data.

Os três projetos tratam de uma inciativa do Centro de Pesquisas e Desenvolvimento

Leopoldo Américo Miguez de Mello (Cenpes) e da EMC², assim outras inciativas que

possam existir em outras áreas e subsidiárias da cia não foram contempladas.

14

2. REFERENCIAL TEÓRICO

Este capítulo está subdividido em quatro partes. A primeira busca fazer uma breve linha

evolutiva da análise de dados, para entendermos um pouco melhor o porquê de existir

tantas definições diferentes para o Big Data e o que levou ao seu surgimento. As demais

partes, tratam da definição do termo Big Data, das oportunidades e desafios para sua

implementação, os quais motivam as empresas a buscarem cada vez mais a sua utilização

e influenciam o sucesso de sua implementação.

2.1. BREVE HISTÓRICO DA EVOLUÇÃO DA ANÁLISE DE DADOS

Um grande número de dados não estruturados e complexos, anteriormente descartados,

tornam-se úteis no processo decisório de negócios. Os dados são correlacionados a fim

de buscar padrões que não seriam evidentes ao serem analisados com sistemas de banco

de dados ou ferramentas de software tradicionais. A este novo processo, dá-se o nome

Big Data Analytics (SIMON, 2013).

Em termos acadêmicos, os estudos relativos à Business Intelligence and Analytics

(BI&A) e Big Data Analytics tem crescido significativamente. Sendo assim, faz-se

necessário uma breve explanação dos conceitos de BI&A utilizados nesse estudo.

Analisando a evolução e aplicações do BI&A, Chen et al. (2012) propuseram um modelo

evolutivo que classifica as iniciativa em BI&A 1.0, 2.0 e 3.0.

BI&A 1.0:

BI&A 1.0 emerge do campo da gestão de dados, sendo dependente de tecnologias de

coleta, extração e análise de dados (ETL)4. Popularizado na década de 1990, o BI&A 1.0

foi largamente adotado para análise e integração de dados coletados pelas empresas e

armazenados em sistemas de banco de dados relacionais (RDBMS)5. Para tanto, o

conjunto de dados analisados são, geralmente, estruturados.

4 Termo em inglês para “Extraction, Transformation and Load”. 5 Termo em inglês para “Relational Database Management System”.

15

Compõe a categoria de BI&A 1.0 os sistemas de gestão e armazenamento de dados,

ferramentas ETL, processamento analítico online (OLAP)6 e ferramentas de relatórios.

Também estão inseridos os sistemas de gestão de desempenho de negócios (BPM)7 e

ferramentas de mineração de dados essenciais na associação e segmentação dos dados,

possibilitando, assim, a detecção de anomalias e a confecção de modelagens utilizáveis

em diversos setores de negócios.

Segundo Sallam et al. (2011), algumas características fundamentais para o

desenvolvimento das plataformas deste tipo de Business Analytics são: relatórios,

dashboards, queries ad hoc, sistemas de rastreamento de buscas para utilização em

inteligência de negócios, OLAP, ferramentas de visualização interativa, scorecards,

modelagem preditiva, mineração de dados.

BI&A 2.0:

O BI&A 2.0 surge como uma extensão do advento da web 2.0. Segundo O’Reilly (2004):

Web 2.0 é a mudança para uma internet como plataforma, e um

entendimento das regras para obter sucesso nessa nova

plataforma. Entre outras, a regra mais importante é desenvolver

aplicativos que aproveitem os efeitos de rede para se tornarem

melhores quanto mais são usados pelas pessoas, aproveitando a

inteligência coletiva.

O advento da web 2.0 forneceu não só os seus bancos de dados relacionais tradicionais,

como também logs de usuários, detalhamentos destes usuários através de IPs, cookies,

buscas recorrentes e padrões de compra. Para O’Reilly (2005), a atividade dos usuários

em mídias sociais, fóruns, blogs, grupos online, eventos virtuais ou jogos online gerou

também um imenso volume de informações atraentes para diversos tipos de negócios.

Novos objetos de análise trouxeram uma real mudança na forma como as organizações

lidam com esses dados e como podem usar essas informações. O BI&A 2.0, através de

suas ferramentas de análise, amplia o conhecimento sobre esses novos dados, e é capaz

de informar e identificar novas áreas de atuação e oportunidades de negócios.

6 Termo em inglês para Online Analytic Processing. Local onde os dados são analisados e processados

gerando informações essenciais ao negócio. 7 Termo em inglês Business Performance Management.

16

Ao trabalhar com informações em tempo real, O BI&A 2.0 procura fornecer informações

precisas no momento em que as empresas mais precisam. A análise de dados estruturados,

não estruturados e complexos, advindos da web 2.0, demandam novas aplicações de

softwares e tecnologias aplicadas aos processos de negócios. Diferentemente do BI&A

1.0, não são utilizados somente banco de armazenamento de dados tradicionais, mas sim

de dados on-line com o auxílio do OLTP8 e do Real Time ETL9.

BI&A 3.0

A mobilidade é uma realidade cada vez mais presente em todos os segmentos de mercado,

por isso, o BI&A 3.0 atua no sentido de permitir que as empresas se adaptem a uma nova

realidade de negócios.

Dispositivos móveis de alto desempenho, infraestrutura de transmissão de dados rápida e

confiável e os avanços tecnológicos dos sistemas móveis fazem do BI&A 3.0 um nicho

de mercado e investimento promissor. Com ele, é possível ter pronto acesso às

informações de BI&A de determinada empresa e concorrentes a qualquer momento ou

lugar, facilitando a análise, cruzamento de dados e tomada estratégica de decisões.

Por fim, a tabela a seguir resume as principais características do BI&A 1.0, 2.0 e 3.0

segundo Gartner BI Hype Cicle (2015):

8 OLTP: Online Transaction Processing basicamente é o processamento de transações em tempo real

através de sistemas como o Enterprise Resource Planning (ERPs).

9 Real Time ETL consiste na extração, transformação e carga de dados em tempo real. Através deste sistema

é possível integrar os dados em tempo real, sendo realizado em intervalos curtos de tempo.

17

Quadro 2 – Características e Capacitações do BI&A Evolução do BI&A - Principais Características e

Capacitações (Fonte: CHEN, CHIANG e STOREY, 2012).

2.2. O QUE É BIG DATA

Big Data são ativos de informação de grande volume, velocidade e variedade que exigem

formas custo-efetivas e inovadoras de processamento de informações para uma melhor

percepção e tomada de decisões (GARTNER, 2013).

Por se tratar de um tema relativamente novo, ainda existem muitas divergências sobre a

definição do que é Big Data. Em uma matéria de 2014, publicada no

datascience@berkeley10, de sua relações públicas Jennifer Ducther, mais de quarenta

líderes de setores como moda, alimentação, automobilístico, medicina, marketing

definem o que é Big Data na visão deles. Na tabela abaixo, seguem algumas das respostas.

Nome, posição Definição sobre Big Data

John Akred,

Fundador e CTO da

Silicon Valley Data

Science

É uma tentativa de dar sustento à tomada de decisão através de

insights extraídos da análise de dados, somado a um conjunto

de tecnologias que viabilizem economicamente essa análise de

grande quantidade de dados obtidos de várias fontes diferentes

10 Portal do mestrado em ciência da informação e dados online (Master of Information anda Data Science

Delivered Online).

18

John Bruner, editor

da O’Reilly Midia

É o resultado da coleta de informação no nível mais granular

possível

Daniel Gillik,

pesquisador sênior

do Google

Representa uma mudança cultural, na qual cada vez mais as

decisões são tomadas com base em dados documentados e

analisados através de algoritmos, que obedecem a uma lógica

transparente

Seth Grimes,

fundador e consultor

da Alta Plana

Corporation

O conceito central do Big Data, vem de uma década atrás,

quando o Doug Laney (2001) criou os 3 Vs, Volume,

Velocidade e Variedade, mostrando que a análise de dados

atualmente, conta com desafios os quais justificam o uso de

recursos computacionais e procedimentos técnicos mais

apurados

Annette Greiner,

professora na UC

Berkeley School of

Information

Nada mais é que data que contenha informações que exijam

uma maneira diferenciada de se analisar, seja devido ao grande

tamanho ou na pluralidade de fontes

Quentin Hardy,

editor da área de

tecnologia do The

New York Times

O que é grande (Big) no Big Data, não é somente o tamanho

das bases de dados e sim a variedade de suas fontes, uma vez

que sensores e rastreados de comportamento inundam o mundo

de hoje

Sharmila Mulligan,

CEO e fundadora da

ClearStory Data

É aproveitar mais fontes de dados diversos, na qual velocidade

e variedade de dados são as oportunidades chaves de se obter

melhores insights para a área de negócios

David Leonhardt,

editor do The Upshot

Big Data não é mais do que um a ferramenta para se capturar a

realidade

Prakash Nanduri,

cofundador, CEO e

presidente da Paxata,

inc

É a intersecção entre coleta, organização, armazenamento e

transformação de todo esse grande volume de dados não

tratados em informações realmente importantes

19

AnnaLee Saxenian,

decana da UC

Berkeley School of

Information

São dados que não podem ser processados de maneira

convencional, pois são muito grandes, muito velozes ou muito

complexos para serem analisados pelas ferramentas usuais

Quadro 3 – Definições de Big Data segundo personalidades dos negócios (Fonte:

datascience@berkeley, 2014.)

Talvez a definição mais aceita atualmente é a de Doug Laney que escreveu um artigo,

publicado em fevereiro de 2001, em nome da Gartner intitulado “3-D Data Management:

Controlling Data Volume”, no qual foram introduzidos os 3 Vs (Volume, Velocidade, e

Variedade), conceitos largamente utilizados para explicar o fenômeno Big Data até hoje.

Porém, outras empresas de tecnologia como a Microsoft e a Oracle possuem definições

ligeiramente diferentes. Para a Microsoft, Big Data é um termo que descreve a aplicação

de uma grande capacidade computacional, o que se tem de mais moderno em machine

learning e inteligência artificial para processar informações massivas e muitas vezes

altamente complexas (The Big Bang, 2013).

Por outro lado, para a Oracle, Big Data é a soma do tradicional banco de dados relacional

com novas fontes de dados não estruturados, também citando os 3 Vs e acrescentando um

quarto: Valor (Oracle White Paper, 2012).

Para este estudo, foi observado que ao longo do ano de 2015, dos vinte artigos

organizados por ordem de relevância na base de dado EBSCOhost, ao se procurar o termo

Big Data, quinze deles continham descrição clara do conceito de Big Data e dentre eles,

todos citavam pelo menos 3 “Vs” (Volume, Velocidade e Variedade). Portanto, pode-se

inferir que existe uma tendência de chegar a um consenso quanto à definição do termo

Big Data, fazendo-se necessário uma explicação mais detalhada desses “Vs”.

De forma simplificada “Volume” é a quantidade, “Velocidade” é a taxa de transferência

e a “Variedade” é a diversidade de tipos e fontes dos dados (SIMON, 2013, MINELLI,

CHAMBERS e DHIRAJ, 2013; BUHL, ROGLIMGER, MOSER e HEIDEMANN, 2013,

Davenport, 2014; KYUNGHEE, HOGDUIN e ZHANG, 2015; MIN, CHYCYLA e

STEWART, 2015).

O grande volume de dados que caracteriza o Big Data advém da quantidade de transações,

eventos e história que as novas tecnologias nos possibilitam capturar e armazenar. Porém,

Gandomi e Haider (2015) salientam a dificuldade de se estabelecer um parâmetro de qual

20

o tamanho que os dados devem ter para serem considerados “Big”. Primeiro, porque o

que é considerado grande hoje, no futuro com o avanço tecnológico, tende a ficar

pequeno. Segundo, porque determinado tamanho de um conjunto de dados considerado

grande para certos setores é consideravelmente pequeno para outros. Por último, nem

sempre o tamanho do conjunto retrata sua complexidade. Assim, conjuntos menores de

dados podem demandar tecnologias de análise bem mais avançadas dependendo de seu

tipo e complexidade.

Por variedade entende-se a heterogeneidade dos dados, uma vez que um grande avanço

do Big Data foi possibilitar a introdução de dados semiestruturados e não estruturados,

possibilitando integrar e agregar diferentes tipos de dados de diversas fontes para uma

análise mais rica, propiciando insights que antes não eram viáveis (MCAFEE e

BRYNJOLFSSON, 2012).

Para Minelli, Chambers e Dhiraj (2013), dados semiestruturados são aqueles que não se

encaixam em uma estrutura formal de modelo de dados porém, exibem certos padrões

que possibilitam sua ordenação e hierarquização. Como exemplo, pode-se citar as

ligações de call centers que sempre perguntam as mesmas informações pessoais dos

clientes (nome, endereço, entre outras) e suas reclamações. Ainda segundo os mesmos

autores, dados não estruturados são aqueles que não se encaixam em modelos pré-

definidos e/ou não podem ser estruturados em um banco de dados relacional. Inúmeros

tipos de dados não estruturados podem providenciar uma série de informações úteis para

as empresas, como vídeos, áudios, mídias sociais, sensores e dados de Internet

(quantidade e direcionamento de clicks, logs e etc.).

Não menos importante, a velocidade é o quão rápido os dados são criados, inseridos,

acumulados e processados (MINELLI, CHAMBERS e DHIRAJ, 2013) e também se

refere à vinculação de conjuntos de dados que estão vindo com velocidades diferentes e

a mudança repentina das quantidades de informação transferidas quando comparadas ao

ritmo habitual (SICULAR, 2013).

A proliferação de aparelhos digitais, como smartphones e sensores pode nos dar uma ideia

do que representa a velocidade dos dados atualmente, pois eles emitem dados de forma

continua, os quais muitas vezes demandam análise em tempo real para se tornarem

significantes, uma vez que muitos desses dados podem perder importância ao longo do

tempo (GANDOMI e HAIDER, 2015).

21

A IBM11 achou necessário adicionar mais um “V”, a Veracidade, que nada mais é do que

a necessidade de se obter dados verídicos, de acordo com a realidade do momento

analisado, pois dados passados muitas vezes não podem ser considerados verídicos para

o presente, tão pouco para análises preditivas. Portanto, a relevância dos dados coletados

são importantes, assim como a necessidade de verificação deles e seu processamento em

tempo real. Esse ponto é agravado quando não se pode garantir o acesso à dados

completos ou a confiabilidade das fontes, tornando a validade da análise questionável.

Outra importante empresa do setor, a SAS, também sentiu a necessidade de se acrescentar

mais um “V” ao conceito - a Variabilidade que trata da inconsistência dos fluxos de dados,

causando picos periódicos sazonais ou gerados com base em eventos específicos.12

Contudo, esse atributo não é muito citado, devido ao entendimento que ele é uma

característica da velocidade.

E finalmente, o último “V”, o Valor, foi introduzido inicialmente pela Oracle ao destacar

que, apesar do patamar tecnológico que atingimos, propiciar decisões muito mais precisas

e acuradas, extrair valor do uso do Big Data depende ultimamente das pessoas, que devem

se preocupar em aprender a detectar e fazer uso dos insights, aprendendo a fazer as

perguntas certas, reconhecer padrões e prever comportamentos durante a análise dos

dados.13

Ainda quanto ao valor, quanto maior a riqueza de dados, mais importante é saber realizar

as pergunta certas no início de todo o processo de análise, destaca Brow e Eric (2014).

Faz-se necessário o foco para a orientação do negócio, ou seja o valor que a coleta e

análise dos dados trata para ele. Não é viável realizar todo o processo de Big Data se não

se tem questionamentos que auxiliem o negócio de um modo realístico. Igualmente

importante é se ater aos custos envolvidos nessa operação, o valor agregado de todo esse

trabalho desenvolvido, coleta, armazenamento e análise de todos esses dados tem que

compensar os custos financeiros envolvidos (TAURION, 2013).

Esses 3 últimos conceitos (Veracidade, Variabilidade e Valor) ao contrário dos 3

primeiros (Volume, Variedade e Velocidade) originalmente apresentados por Laney

11 Informação extraída do próprio site da empresa disponível em

https://www.ibm.com/developerworks/community/blogs/jfp/entry/big_data_for_dummies23?lang=en

acessado em 27/01/2016. 12 Informação retirada do site da SAS disponível em http://www.sas.com/pt_br/insights/big-data/what-is-

big-data.html acessado em 27/01/2016. 13 Informação retirada do site da Oracle disponível em https://www.oracle.com/big-data/index.html

acessado em 27/01/2016.

https://www.ibm.com/developerworks/community/blogs/jfp/entry/big_data_for_dummies23?lang=en

http://www.sas.com/pt_br/insights/big-data/what-is-big-data.html

http://www.sas.com/pt_br/insights/big-data/what-is-big-data.html

https://www.oracle.com/big-data/index.html

22

(2001) são comuns à grande parte das ferramentas de análise de dados que conhecemos,

causando certa relutância a serem aceitos como características intrínsecas ao Big Data.

Por outro lado, Veracidade está sendo cada vez mais comentado na forma do desafio de

validar as informações advindas do Big Data e Valor tem sido usado como o ápice/junção

advinda dos atributos volume, velocidade e variedade.

Mediante o exposto, o conceito de Big Data utilizado neste estudo é:

Um conjunto de tecnologias capazes de armazenar, limpar, tratar, processar, analisar e

extrair valor de conjuntos de dados que são difíceis de processar com tecnologias

tradicionais (e que podem ser definidos por um ou mais V’s do conjunto multidimensional

de V’s), bem como o próprio conjunto de dados que demanda essas tecnologias para

serem analisados.

Uma tabela com as referências utilizadas nesta pesquisa para o entendimento do conceito

de Big Data é apresentada no anexo II.

Definidos os conceitos a serem utilizados de Big Data e apresentada uma breve

contextualização da evolução da análise dos dados, uma vez que este estudo é direcionado

principalmente para pessoas ligadas à área de administração, optou-se por fazer uma

breve introdução à termos mais técnicos relacionados ao Big Data, na forma de um

glossário apresentado a seguir.

23

TERMO DEFINIÇÃO

Algoritmo É a matemática por trás da análise, mais especificamente seria os procedimentos de

cálculo, a lista de instruções para se calcular uma função.

Analytics Uso de algoritmos para extrair informações de dados

Cloud (Nuvem) Termo usado para qualquer recurso computacional oferecido como serviço em rede

(network)

Complex Event

Processing (CEP) Processo que analisa eventos em tempo real

Data Lake Repositório que armazena um grande e variado volume de dados, estruturados e não

estruturados

Data Mining Processo de descobrir padrões, tendências e relações de dados usando "machine

learning"

Framework

(Arcabouço)

É uma abstração que une códigos comuns entre vários projetos de software

provendo soluções para determinados problemas

Grid Servidores ligados em rede para usufruir dos benefícios do paralelismo

Hadoop Framework open-source com capacidade de armazenar dados não estruturados

enormes (HDFS) e processá-los (MapReduce) em GRID

HDFS Sistema de arquivo do Hadoop

HStreaming Add-on do Hadoop que prove CEP

Machine

Learning

Técnica algorítmica de "aprender" com dados empíricos, extraindo informações

suficientes para predizer o resultado de novos dados

MapReduce

Programa escrito quase todo em Java, que permite a "quebra" de um problema em

pequenas partes que são distribuídas em Grid, fazendo com que eles possam ser

solucionados simultaneamente (mapper). Posteriormente ele coleta todos os

resultados e faz a combinação deles (reducer)

NoSQL Database É um termo utilizado para definir um tipo de banco de dados que não segue normas

de tabelas (schemas) determinadas previamente (Not only SQL)

SQL (Structured

Query Language)

Linguagem para armazenar, acessar e manipular dados em um banco de dados

relacional

Quadro – 4 Glossário de termos técnicos (fonte: autor)

Todos os termos acima descritos estão intimamente ligados ao Big Data, uma vez que

grande parte dos dados envolvidos na análise do Big Data são semi ou não estruturados,

ou seja, que não se encaixam em banco de dados SQL. Portanto, para processá-los, foram

criados uma nova linguagem (NoSQL), o algoritmo MapReduce e novos frameworks

como, por exemplo, o Hadoop.

O NoSQL surgiu da necessidade de um desempenho superior e de maior escalabilidade,

uma vez que os bancos de dados relacionais exigem uma distribuição vertical dos

servidores, ou seja, quanto mais dados, mais memória e mais espaço para armazenamento

um servidor precisa. Já no NoSQL, a distribuição é horizontal, fazendo uso do paralelismo

para diminuir a carga exigida de processamento de cada servidor, podendo obter

24

resultados muito melhores com “cpus” menos potentes (MINELLI, CHAMBERS e

DHIRAJ, 2013).

Um grande utilizador do conceito é o Google, que garante maior eficiência e menor custo

utilizando computadores de médio e pequeno porte para distribuição dos dados. Outro

benefício ressaltado pela empresa, é que os bancos de dados NoSQL são mais tolerantes

a erros.

A criação do algoritmo MapReduce e de sua plataforma gratuita mais utilizada o Hadoop

podem ser vistos como os principais responsáveis pelo boom do Big Data, pois somente

através deles que foi possível viabilizar o processamento e, por consequência, a extração

de valiosas informações desse amontoado de dados (SHVACHKO, KUANG, et al.,

2010).

O MapReduce alia o poder do paralelismo com o HDFS (caso for utilizado com o

Hadoop), formando um framework no qual um controlador mestre distribui comandos via

uma função “Mapper” para todos os processos que estão sendo rodados, quebrando um

grande problema em processos menores. Posteriormente, o resultado desses processos são

enviados à uma outra tarefa “Reducer”, a qual sumariza todo o trabalho dos “Mappers”

(MINELLI, CHAMBERS e DHIRAJ, 2013).

Outras plataformas gratuitas como o Hive e o PIG também fazem uso do MapReduce

para processar o Big data, porém a diferença destas para o Hadoop é que elas oferecem

uma interface parecida com o SQL para o HDFS.

2.3. OPORTUNIDADES ADVINDAS DO USO DO BIG DATA

O termo oportunidade pode ser interpretado de várias maneiras, porém para este trabalho,

entende-se por oportunidades quaisquer potenciais benefícios ou vantagens identificados,

que motivem as empresas a adotarem o Big Data.

Para melhor entendimento, este tópico foi dividido em duas partes, serão apresentadas

oportunidades e exemplos de aplicações gerais e, posteriormente, os aplicados na

indústria de óleo e gás.

25

Dado que as empresas que dominam a gestão orientada para dados podem obter

recompensas significativas e se diferenciar de seus concorrentes (CHEN, CHIANG E

STOREY, 2012), fica claro que as maiores oportunidades do uso do Big Data está

relacionado com suas características peculiares que o diferencia dos dados e análises

tradicionalmente usados hoje nas organizações.

Assim, Simon (2013) afirma que o domínio do Big Data permite as organizações

entenderem melhor seu passado, presente e futuro, possibilitando encontrar respostas

sobre o que aconteceu, o que está acontecendo, o que acontecerá e por quê. O autor

destaca que o Big Data pode muito mais do que responder perguntas complexas

predefinidas pois, com o uso de análises preditivas, além de prover insights sobre

problemas existentes, pode-se identificar potenciais problemas que nem se sabia que

existiam. A técnica fomenta uma cultura de experimentação, onde dados podem ser

combinados de formas diferentes na busca de insights interessantes ao negócio.

Halaweh e Massry (2015) também destacam a capacidade do Big Data em identificar

padrões escondidos, que suportam uma tomada de decisão mais refinada, além da melhora

dos processos e a possibilidade de se desenvolver novos modelos de negócios. Outro

ponto bastante importante, é a habilidade de se tomar decisões baseadas em análises de

fatos em tempo real, tornando elas mais sensíveis e efetivas.

O acréscimo de novas fontes de dados, aliado com a capacidade de processá-los

rapidamente e extrair insights que antes não eram possíveis, tornando a construção de

modelos preditivos uma realidade, foram os destaques de Davenport (2014). O autor

também afirma que existe três classes de valor ligadas ao Big Data: redução de custos,

melhora na tomada de decisões e melhora de produtos e serviços.

A figura a seguir tem como objetivo mostrar de forma simplificada o que o Big Data traz

de novo e alguns exemplos de aplicações.

26

Figura – 1 Big Data a Novidade (fonte: Gartner, créditos: Editora de Arte)

Loshin (2013) levantou uma série de oportunidades advindas do uso do Big Data:

Maior assertividade ao se identificar perfil do consumidor, possibilitando a

criação de produtos mais adequados.

Melhora na pesquisa e análise nos setores de manufaturados, possibilitando a

criação de novos produtos.

Melhora no planejamento estratégico e de negócios, gerando inovação e novas

start-ups.

Construção de modelos preditivos, refinando a tomada de decisão, impactando

diretamente em setores como cadeia de suprimentos, no qual otimização do

estoque e previsão de vendas é essencial.

27

Melhora na identificação de fraudes.

Contudo, ainda segundo o autor, todas essas promessas não passam de mera replicação

do que foi prometido pelos promotores do BI. Assim, para ele o diferencial do Big Data

é a profundidade e, por consequência, o valor dos insights providos pelo Big Data, pois

este é suportado por tecnologias como o Hadoop e o MapReduce, capazes de processar

dados que nunca antes foram levados em conta em tempo real (CEP).

Em um estudo realizado em 2012 pela IBM e pela Said Business School, cerca de 49%

dos respondentes afirmaram que a maior oportunidade do Big Data está na capacidade de

se entender melhor os consumidores, pois entendendo melhor seus clientes, é possível

prever como eles vão se comportar no futuro, provendo-lhes melhores produtos e

serviços. Em segundo lugar, ficou a otimização operacional com 18%, seguido de

gerenciamento de risco/financeiro (15%), criação de novos modelos de negócios (14%) e

melhoria em recursos humanos com 4% (YIN e KAYNAK, 2015).

A criação de transparência nas atividades organizacionais que podem ser usados para

aumentar a eficiência e a melhora nos processos de inovação também são benefícios do

uso do Big Data destacados pela McKinsey Global Institute (2011) e Tankard (2012).

Embora intimamente associado aos benefícios já listados, Silva & Campos (2014)

acrescenta ainda a melhora nas previsões de demanda de mercado e a capacidade de

desenvolver vantagens competitivas mais sustentáveis.

Para ilustrar melhor as oportunidades espalhadas nos diversos setores econômicos, segue

um quadro com exemplos de aplicações do Big Data por indústria:

28

INDÚSTRIA APLICAÇÃO

Finanças/Banco

Perfil do consumidor, targeting, vendas cruzadas

Sentiment Analysis, fortalecimento da marca

Inovação de produtos

Detecção de fraudes

Varejo

Serviço personalizado

Otimização dos produtos

Excelência operacional

Melhor alocação de espaço para produtos e publicidade

Saúde

Melhoria na qualidade e eficiência

Detecção de doenças de forma antecipada

Detecção de fraudes

Prevenção de epidemias

Controle de tráfego

Melhoria da capacidade de detectar funis

Melhor alocação de policiais e agentes de trânsito

Maior facilidade de obter informações relevantes de veículos

Melhor distribuição e temporalização de sinais

Maior ajuda na tomada de decisão dos clientes

Turismo Novos serviços e produtos

Processamento de informações de forma mais barata e rápida

Otimização de routing

Telecomunicações Análise de gravações

Melhoria nos planos

Quadro -5 Exemplos de aplicação de Big Data por indústria (Fonte: Adaptado de Big Data Analytics:

Applications and Benefits por K V N Rajesh, 2013)

A redução dos custos e aumento das receitas; o aumento da eficiência operacional; a

melhora na tomada de decisão; a melhora de produtos e serviços já existentes; a melhora

nos processos de inovação e o desenvolvimento de novos produtos e mercados são

oportunidades constantemente citadas por diversos autores que estudam o Big Data,

conforme tabela a seguir.

29

Benefícios

Autores

Aumento da

eficiência

operacional e

melhor

desempenho

financeiro

Melhora na

tomada de

decisão

Inovação

incremental em

produtos e

serviços já

existentes, e

aumento da

lealdade dos

clientes

Inovação

disruptiva de

produtos,

serviços e

modelos de

negócios

Bloem et. al. (2012) x

Brown, Chui e Manyika (2011) x x

Davenport (2014) x x x x

Gallant (2011) x x

Leeflang, Verhoeff et. al. (2014) x x

McAfee e Brynjolfsson (2012) x x x

McKinsey Global Inst. (2011) x x x

Minelli et. al. (2013) x x

Novo e Neves (2013) x x x

Ohlhorst (2013) x

Silva & Campos (2013) x x

Tankard (2012) x x x

Ularu, Puican et. al. (2012) x x

Yan (2013) x

Tabela 1: Benefícios Gerais citados por autores (Fonte: Fatores relevantes na adoção e uso do Big Data na prefeitura do Rio de Janeiro: O caso do P3NS4 – Casa de Ideias por Neto, 2015)

O aumento da eficiência operacional pode ocasionar uma redução dos custos, um aumento

das receitas ou ambos aos mesmo tempo. A utilização do paralelismo, torna até mesmo o

armazenamento e processamento de dados estruturados mais baratos, fazendo com que o

potencial da economia de custos devido ao Big Data seja alto. Para comparação os custos

de armazenagem de um terabyte por ano para uma companhia são de $37 mil dólares em

base de dados relacionais tradicionais, $5 mil para data appliance, e apenas $2 mil para

Hadoop cluster (DAVENPORT, 2014).

O Big Data pode ainda entregar maiores receitas provenientes de maior custo-eficiência

para as empresas (MINELLI, CHAMBERS e DHIRAJ, 2013). Leeflang, Verhoeff et alii

(2014) afirmaram que as empresas que analisam dados sistematicamente superam o

desempenho de suas concorrentes, citando exemplos para embasar sua afirmação:

30

Amazon.com (taxa de crescimento anual – AGR14 – 2000-2010: 56,5%), O2 (AGR

29,5%), CapitalOne (AGR 16,6%), Tesco (AGR 11.7%), e progressiva (AGR 6%).

A melhora da tomada de decisão, talvez fora o primeiro motivador para as empresas

criarem mecanismos de análise de dados. Que proposta devemos apresentar para o

cliente? Quais clientes tem maior tendência de deixar de ser clientes rapidamente? Quanto

de estoque devemos manter? Como devemos precificar nossos produtos? Estes tipos de

decisões são facilitadas com Big Data devido ao surgimento dos novos conjuntos de

dados menos estruturados que podem ser aplicados a elas (DAVENPORT, 2014).

Os insights advindos do uso do Big Data tem se mostrado mais profundos e valiosos,

devido à própria característica dos “V,s”, eles envolvem maior quantidade e qualidade de

informações, além de um melhor timing do que antes (MANYIKA, CHUI, et al., 2011;

ZIKOPOULOS, DEROOS, et al., 2012; THE WHITE HOUSE, 2012).

A área de RH pode se beneficiar enormemente ao se obter uma decisão mais assertiva,

seja na hora de se selecionar e admitir novos empregados ou na hora de promovê-los.

(BERSIN, 2013). Outra área que se beneficia muito é a de marketing, pois entendendo

melhor seus consumidores, não só pode-se criar campanhas publicitárias mais eficazes,

como também criar/adaptar produtos e precificar de maneira mais eficiente (LOSHIN,

2013).

A contribuição da tecnologia para a melhora da tomada de decisão pode beneficiar toda

a companhia, e não somente a área de RH e marketing, devido à maior disponibilidade de

dados e a maior capacidade de processá-los. Tradicionalmente, os modelos têm sido

criados usando subconjuntos dos dados chamados de amostra. Uma vez que o modelo é

criado, um segundo conjunto maior de dados é utilizado para testar ou validar o modelo.

Este processo iterativo é frequente. Uma vez que o modelo foi validado, o modelo é

utilizado para avaliar ou analisar todos os dados. Esta é uma abordagem estatística bem

conhecida que tem sido utilizada durante décadas. Com Big Data, cientistas de dados

utilizam uma maior quantidade de dados, ou todos os dados, para criar o modelo. Ao fazer

isto, os cientistas de dados são capazes de introduzir variáveis preditivas no modelo a fim

de aumentar a exatidão do modelo (MINELLI, CHAMBERS e DHIRAJ, 2013).

14 Do inglês, “Anual Growth Rate”.

31

A possibilidade de se trabalhar com 100% do espaço amostral como dito acima, permite

uma maior compreensão do perfil de cada consumidor. Assim, entendendo a fundo seus

anseios, é possível trabalhar de forma ativa, seja na inovação incremental de produtos e

serviços existentes, ou na inovação disruptiva de produtos, serviços e modelos de

negócios (NOVO e NEVES, 2013).

Gallant (2011) ressalta a importância da análise de eventos e da capacidade de criar

sistemas preditivos. Prever a intenção de um cliente de mudar-se para a concorrência tem

muito mais valor do que analisar porque o cliente deixou a empresa. Não que entender os

motivos que levaram a esta decisão do cliente não tenha seu valor, mas poder tomar ações

de contenção, impedindo a saída do cliente, é mais importante do que agir reativamente,

melhorando o que estava errado ou investindo em campanhas caras para tentar trazer o

cliente perdido de volta. Esta mesma visão é compartilhada por Hea (2013) que adiciona

a importância do uso de dados disponíveis em mídias sociais para a capacidade de realizar

estas predições (NOVO e NEVES, 2013).

Especificamente para a indústria de óleo e gás, segundo um estudo publicado pela PR

Newswire US (2015), a indústria de óleo e gás gerou investimentos da ordem de $3,5

bilhões em 2015. A Bain & Company, em um relatório publicado em 2014 já afirmava

que a indústria de petróleo era considera “early adopter” do Big Data e já estava colhendo

benefícios de seu poder de análise de dados, muito devido a sua característica de sempre

lidar com uma grande quantidade de dados, advindos de diversas fontes e muitos deles

obtidos em tempo real (BERTOCCO E PADMANABHAN, 2014).

A Oracle, em uma publicação intitulada “Improving Oil & Gas Performance with Big

Data”, publicada em Abril de 201515, destaca que em todas as etapas do ciclo do petróleo,

desde a exploração, passando pela extração até a produção, assim como em grande parte

das atividades envolvidas em todo o processo, como cadeia de suprimento e marketing,

produzem uma quantidade massiva de dados provenientes de diversas fontes, muitos

deles de forma contínua. Dados de sensores durante a perfuração, produção, transporte e

refino; dados armazenados em sistemas que acompanham a operação; dados de redes

sociais, dados históricos de exploração, distribuição e precificação; dados sísmicos; e

relatórios de ocorrências são alguns exemplos.

15 Disponível em http://www.oracle.com/us/technologies/big-data/big-data-oil-gas-2515144.pdf Acessado

em 20/03/2016

http://www.oracle.com/us/technologies/big-data/big-data-oil-gas-2515144.pdf

32

Esses fatores levaram a grandes empresas como a Shell a apostarem no Big Data. Em

parceria com a Hewlett-Packard, a Shell instalou sensores ligados por fibra ótica que

transmitem dados sísmicos para servidores mantidos pela Amazon Web Services. Através

da análise desses dados, certos padrões de interferência podem ser identificados em

potenciais bolsões de petróleo. Outra aplicação de Big Data explorada pela empresa é a

utilização de dados de sensores de máquinas com o intuito de estabelecer procedimentos

de manutenção preventiva, evitando quebra e interrupção de funcionamento. Por último,

a Shell ainda faz uso de algoritmos complexos que levam em conta o custo de produção

do combustível, indicadores econômicos, previsões e padrões de clima para construir um

modelo de previsão da demanda, podendo assim alocar de forma mais eficaz recursos e

também precificar seu produto (MARR, 2015).

Portanto, é fato que em uma indústria que envolve alto desenvolvimento tecnológico,

imenso investimento e que seu produto sofre constantes oscilações de preço, uma postura

“data driven” é necessária, pois quanto mais refinada for a tomada de decisão, maior

impacto terá em seus resultados.

Novo e Neves (2013) afirmaram que uma grande empresa de petróleo, conseguiu reduzir

os custos com pessoal em quase 25% e ao mesmo tempo aumentar a produtividade em

5% graças à adoção da tecnologia. Este ganho de eficiência operacional foi possível

utilizando sensores ao longo da linha de produção, enviando dados que eram analisados

em tempo real, permitindo ajustes imediatos na linha, evitando assim intervenções

manuais, que são, em geral, demoradas, caras e perigosas.

Assim, as maiores empresas que prestam serviços de Big Data do mundo, como a Oracle,

a SAS e a EMC, estão cada vez mais focadas na indústria de óleo e gás e apontam as

oportunidades de melhoria da eficiência operacional; maior eficácia na exploração

(inclusive Pré-sal) e refinamento e a possibilidade de um melhor entendimento das

mudanças do mercado como os maiores potenciais de ganho.

2.4. DESAFIOS NA IMPLEMENTAÇÃO DO BIG DATA

Harriott (2013) criou o modelo “Business analytics success pillars” (BASF), representado

na figura 2 que consiste na introdução de fatores responsáveis, segundo o autor, por uma

boa utilização do Big Data numa empresa:

33

“Business Challenges”, que representa entender de forma clara as questões

mais urgentes que necessitam ser respondidas pela análise dos dados, ou

seja, os desafios da empresa/negócio que, quando resolvidos, podem gerar

aumento de receita ou vantagem competitiva.

“Data Foundation”, que remete à importância de se ter uma fonte

válida/confiável de dados. Isso só é possível se os silos de conhecimento

existentes dentro dos departamentos de uma empresa sejam

desconstruídos e a informação flua entre eles de forma rápida e

padronizada. Deve-se buscar uniformizar a “língua” da informação,

estabelecendo o mesmo parâmetro para todas as áreas.

“Analytics Implementation”, que se relaciona com o “como”, ou seja,

como desenvolver e prover a informação de forma a realmente resolver os

desafios da empresa. Para isso, o autor alerta que o mais importante é

sempre focar nos objetivos finais dos usuários da informação (setores,

outros profissionais) e prosseguir com a análise com o intuito de atingi-

los.

“Insight”, que o autor classifica como o fator mais importantes, pois

determina como os analistas transformam dados em informações/insights

úteis. Para isso, eles precisam (através de análise estatísticas) mostrar o

que aconteceu, por que e, por extrapolação, prever o que acontecerá

(tendência).

“Execution and Measurement”, que basicamente é a capacidade de tomar

decisões suportadas pelas informações processadas e acompanhar os

resultados delas de forma a medir a eficácia/eficiência das análises.

“Distributed Knowledge”, que trata do desafio de se utilizar do

conhecimento de toda a organização com o intuito de enriquecer os

insights obtidos dos dados ou ainda processá-los mais rápidos, obtendo

melhores resultados do que se fosse aplicado somente o conhecimento do

analista.

“Innovation”, onde o analista deve sempre buscar formas criativas de

como proceder com a extração da informação e como processá-la de forma

a melhor atender às necessidades da empresa, evitando cair na rotina de

34

providenciar relatórios e mais relatórios, sem nem ao menos saber para

que serve estas informações.

Figura 2 – Modelo de Harriot (BASF) (Fonte: Pillars for Successful Analytics

Implementation)

Também em 2013, uma pesquisa com 140 profissionais de TI de Hong Kong realizada

por Sheila Lam, para o periódico Computer World, apontou que dentre os maiores

desafios que as empresas enfrentaram ao implementarem o Big Data (Tabela 1)

destacaram-se baixa integração entre as diversas ferramentas de dados (48,8%), baixa

qualidade dos dados (39,8%), falta de arquitetura de dados (39%) e confusão quanto à

quem pertence os dados (39%).

35

Baixa integração entre as diversas ferramentas de dados 48,8%

Baixa qualidade dos dados 39,8%

Falta de arquitetura de dados 39,0%

Confusão quanto a quem pertencem os dados 39,0%

Equipe ou habilidades de "Data Science" inadequadas 38,2%

Desafios relacionados ao legado tecnológico 32,5%

Infraestrutura de gerenciamento de dados inadequada 31,7%

Desenvolvimento de novos casos de negócios 24,4%

Inabilidade de atingir a velocidade desejada 14,6%

Conflitos internos/culturais 14,6% Tabela 2 – Desafios imediatos para a implementação do Big Data segundo estudo realizado com

profissionais de TI de Hong Kong (Fonte: Tradução livre de Computer World Hog Kong

Julho/Agosto de 2013)

Analisando a tabela acima, é válido destacar que grande parte dos desafios mencionados

são puramente técnicos e portanto devem ser mais simples de serem solucionados do que

aqueles atribuídos à mudanças culturais (14,6%) ou ao desenvolvimento de novos casos

de negócios (14,6%) (LAM, 2013).

Já para Barton & Court (2012), os principais desafios para uma boa aplicação do Big Data

são:

Ter que lidar com múltiplas fontes de dados, que consiste na escolha dos

dados a serem utilizados (internos e externos), na estrutura do banco de

dados escolhida (como padronizar esses dados) e como agrupar dados de

diferentes formatos em um mesmo database.

Construir modelos que provisionam previsões e otimizações

eficientes/acuradas. Muito mais do que a mera aplicação de ferramental

estatístico nos dados no intuito de identificar correlações e, com isso, fazer

previsões, Big Data trata do desenvolvimento de modelos/algoritmos

construídos a partir de uma oportunidade de negócio identificada, na qual

pode-se utilizar da análise de dados que venham a resultar em melhoria do

desempenho da empresa. Neste quesito, especial atenção quanto à

complexidade do modelo é necessária.

O último desafio elencado pelos autores é a necessidade de se adaptar às

organizações para uma cultura “data driven”, ou seja, alinhar a cultura

organizacional com a aplicação da análise de dados, gerando

36

confiabilidade à ferramenta. Isso pode ser obtido através da sincronização

do fluxo de informação entre analistas e usuários das análises (prover

informações realmente relevantes e atualizadas) e de se prover informação

de forma simples aos usuários finais (os analistas não precisam mostrar o

algoritmo ou dar um monte de informações aos usuários, e sim somente o

resultado da aplicação do modelo em uma interface fácil de ser entendida).

É preciso também desenvolver a capacidade de seus analistas de

explorarem os dados e entender o que os usuários realmente precisam, para

a criação de modelos que melhor traduzam esses dados em informações

relevantes.

Ainda há a dificuldade de, no meio de tanta informação, achar correlações que mostram

mais do que meras casualidades, achar significado para “o por quê” dessas correlações

acontecerem e, consequentemente, achar aplicabilidade para essas informações. Somado

com problemas quanto à preservação da privacidade e a necessidade de conseguir

identificar quem tem os dados que sua empresa necessita e como obter esses dados.

Muitas vezes os dados não estão em silos departamentais dentro de sua empresa e sim

com consumidores, terceiros, outras empresas. Estes são os fatores apontados por

Pentland (2012) como maiores problemas enfrentados por quem quer fazer uso do Big

Data.

Já Galbraith (2014), aponta três principais desafios para as organizações que pretendem

usufruir dos benefícios advindos do uso do Big Data:

Mudanças de poder16 entre os tomadores de decisões que se apoiam em

julgamentos baseados na experiência para aqueles que se baseiam no uso de

tecnologias digitais. Neste tópico, o autor ressalta que é inevitável uma mudança

de poder dentro de toda a estrutura organizacional da empresa para receber e

integrar os novos analistas de dados, de forma que eles possam participar

ativamente na tomada de decisão. Ele ainda defende que, em muitos casos, para

reforçar a autoridade desses novos analistas ou para mediar potenciais conflitos

dentro da organização, a criação do “Chief Data Officer” (CDO) é uma possível

solução.

16 O termo original utilizado pelo autor foi Power Shifts

37

Capacidade de tomada de decisão em tempo real17, pois se a organização contar

com uma capacidade de análise apropriada, elas poderão tomar decisões em tempo

real. Ainda segundo o autor, tomar decisões baseados em análises de fatos que

estão acontecendo em tempo real, impactaria em diversas áreas da organização,

dentre elas: publicidade, gerenciamento de comunidade, desenvolvimento de

novos produtos e gerenciamento da cadeia de suprimentos, uma vez que as

empresas podem envolver seus clientes em conversas sobre suas marcas, obter

ideias de novos produtos e como comercializá-los.

E finalmente, gerar receita da utilização do Big Data. Para o autor, esse tópico

representa tanto um desafio quanto uma oportunidade e está intimamente ligado

ao sucesso ou fracasso dos dois desafios citados anteriormente, pois para ele (o

autor), fazendo a transição adequada da mudança de poder na estrutura de tomada

de decisão da organização e obter a capacidade de tomar essas decisões em tempo

real, naturalmente criará oportunidades de ganho de receita.

Outro modo bastante utilizado para abordar os desafios advindos da implementação do

Big Data é relacioná-los aos “Vs” citados anteriormente, pois ao mesmo tempo que eles

representam grandes oportunidades a serem exploradas, também representam grandes

desafios a serem superados. Yin e Kaynak (2015), discutiram os desafios do Big Data,

baseados no Volume, Variedade, Veracidade, Velocidade e Valor, agrupando esses “5

Vs” em três grupos:

Volume e Variedade: estas duas características se relacionam diretamente com os

requerimentos de hardware e software a serem utilizados. Uma vez que o

problema de espaço de armazenamento e processamento originado por essas

características tem sido em grande parte solucionado por tecnologias baseados em

nuvem18, o processamento dessa quantidade enorme de dados em tempo real ainda

é desafiador, assim programas como o MapReduce e frameworks como o Hadoop

tendem a ultrapassar essas barreiras no futuro.

Veracidade e Velocidade: A combinação desses dois atributos remete à

necessidade de se obter a habilidade de detectar e processar dados online. O fluxo

contínuo de grande quantidade de dados, demanda extremo cuidado e agilidade

ao se selecionar dados relevantes de não relevantes, pois dependendo de como

17 Real-Time Decision Making 18 Por exemplo: Cloud computing, virtualization, storage

38

estes dados são selecionados e processados, eles podem ser corrompidos,

manipulados ou se tornarem obsoletos.

Valor: Apontado pelo autor juntamente com o desafio de se validar (Veracidade)

as informações obtidas, a capacidade de extrair valor (monetizar) do Big Data

depende diretamente da capacidade de se criar um ambiente cooperativo ente

academia, indústria e empresas. Neste tópico, o autor salienta que existe um

enorme “gap” entre o uso ideal do Big Data e o real, e que somente as empresas

e indústria compartilhando seus dados com pesquisadores, e permitindo que esses

publiquem seus estudos, pode acelerar seu desenvolvimento.

Jagadish et al. (2014), em uma abordagem mais técnica, desenvolveram um modelo em

que descrevem o passo a passo do processo de análise do Big Data19. Nesse modelo, os

autores apontaram os seguintes desafios como os mais importantes (divididos por fases):

Aquisição de dados: desafio referente ao procedimento de seleção dos dados a

serem utilizados na análise, ou seja, que filtros usar de forma a não descartar dados

relevantes e não deixar passar inutilidades.

Extração e limpeza das informações: nem sempre os dados processados derivam

informações estruturadas ou informações que possam ser usadas diretamente.

Nestes casos, existe o desafio de se obter as informações desejadas no meio de

grandes volumes de dados processados não estruturados, além de um trabalho de

limpeza desses dados, eliminando possíveis erros e suprindo possíveis faltas.

Integração, agregação e representação: em muitas oportunidades, diversos tipos

de dados diferentes devem ser utilizados para a obtenção da mesma informação.

Além disso, existem diversas maneiras de se construir banco de dados e cada

organização utiliza sua própria arquitetura. Assim, problemas de integração

desses diversos banco de dados, de como homogeneizar essas diversas fontes de

dados e produzir um “padrão” para representar essas informações, de forma que

toda a comunidade possa entendê-las, são grandes desafios.

Modelagem e análise: desafios relacionados ao método de como estruturar e

proceder com a análise do Big Data (querying and mining), levando-se em conta

19 Os autores chamara de Big Data analysis pipeline

39

as características de que o Big Data normalmente é heterogêneo, advindo de fontes

não confiáveis e extremamente dinâmico.

Por fim, vem o desafio de interpretar o resultado da análise desse conjunto de

dados complexos, que depende da capacidade humana.

Os autores ainda enumeram desafios comuns à todas as fases anteriormente descritas:

O primeiro grande desafio é relacionado à heterogeneidade (representado pelo

“V” de Variedade) dos dados, uma vez que os algoritmos usados pelas máquinas

ao se efetuar as análises contam com a entrada de dados homogêneos. Espera-se

ainda, grande dificuldade para gerar metadata válida que descreva com exatidão

a data armazenada de forma automatizada.

O próximo desafio remete à existência de dados inconsistentes ou incompletos,

desafio este presente em qualquer tipo de análise de dados, porém deveras

agravado no uso do Big Data, pois a grande variedade de fontes dos dados pode

significar que a procedência desses dados nem sempre são confiáveis e que eles

nem sempre podem ser obtidos na íntegra. Por outro lado, o grande volume de

dados pode significar que através da redundância e do cruzamento de dados, esse

problema possa ser amenizado.

O terceiro fator é a escala, que apesar do grande avanço que estamos presenciando

na evolução do hardware atualmente, a complexidade dos dados e

consequentemente a exigência de maior capacidade de processamento também

está aumentando. Portanto, mesmo com o advento das tecnologias relacionadas à

nuvem, existe uma grande preocupação sobre a escalabilidade do Big Data, pois

ainda não se chegou uma forma custo-efetiva ótima dessa tecnologia.

O quarto desafio é basicamente o mesmo apontado por Yin e Kaynak (2015), que

é a necessidade de se processar e analisar dados em tempo real.

O penúltimo desafio é bastante discutido atualmente, não só ao se tratar de Big

Data e sim de praticamente todas as tecnologias que tratam de dados,

principalmente após o surgimento da Internet que é a questão da privacidade e

pertencimento dos dados. Serviços online, aplicativos de rastreamento, arquivos

médicos, todos eles se apoderam de nossos dados privados. Como controlar o que

40

será feito com esses dados e como evitar que eles sejam compartilhados, são

problemas amplamente discutidos.

E finalmente, existe a perspectiva humana, que semelhante a escala da tecnologia,

é necessário garantir que os as pessoas possam absorver os resultados dessas

análises. Mais ainda, para garantir essa escalabilidade do ponto de vista humano,

uma forte colaboração dos especialistas (que atualmente são poucos) em

modelagem, compartilhando seus algoritmos e uma arquitetura de visualização

que possibilite acesso e entendimento de todos é bastante desafiador.

Apesar dos inúmeros desafios descritos nessa seção, as empresas acreditam que as

oportunidades advindas do uso do Big Data são uma realidade e que seus benefícios são

imensos, justificando o grande investimento que essas organizações estão fazendo nessa

área.

41

3. MÉTODO

O presente estudo tem caráter exploratório devido ao pouco conhecimento acumulado

sobre implementação de Big Data em organizações, especialmente no Brasil. O método

escolhido foi o do estudo de caso, por ser recomendado a estudos exploratórios e em fase

inicial de investigação (YIN, 1989). O estudo de caso se caracteriza como um tipo de

pesquisa cujo objeto é uma unidade que se analisa profundamente (GODOY, 1995).

Assim, esse modelo tem se tornado uma estratégia utilizada quando os pesquisadores

procuram responder "como" e "por que" os fenômenos ocorrem, quando o investigador

tem pouco controle sobre os eventos, e quando o foco da pesquisa é um fenômeno inserido

em algum contexto da vida real (YIN, 1989) – características bem próximas da presente

pesquisa.

3.1. Petrobras, Cenpes e TIC

A Petrobras é uma sociedade anônima de capital aberto, cujo maior acionista é a União

(representada pela Secretaria do Tesouro Nacional). Presente em 19 países, opera em

diversos campos: exploração e produção, refino, comercialização, transporte,

petroquímica, distribuição de derivados, gás natural, energia elétrica, gás-química e

biocombustíveis.20

Sua missão é atuar na indústria de petróleo e gás de forma ética, segura e rentável, com

responsabilidade social e ambiental, fornecendo produtos adequados às necessidades dos

clientes e contribuindo para o desenvolvimento do Brasil e dos países onde atua. Já sua

visão para 2030 é ser uma das cinco maiores empresas integradas de energia do mundo e

a preferida de seus públicos de interesse.

Presente em 19 países a Petrobras conta 725.447 acionistas em 2015, ano em que seus

investimentos foram da ordem de R$ 76,3 bilhões e sua receita de vendas foi de R$ 321,6

bilhões, obtendo um lucro líquido de R$ -34,8 bilhões. A empresa ainda conta com 78.470

funcionários, 122 plataformas de produção, 16 refinarias e reservas provadas de 13,3

20 Informações retiradas do site da Petrobras (www.petrobras.com.br), dados de dezembro de 2014.

http://www.petrobras.com.br/

42

bilhões de barris de óleo equivalentes. Sua produção diária é de 2 milhões 787 mil barris

de óleo equivalente por dia e 2 milhões 26 mil barris de derivados por dia. Conforme

representado na figura a seguir.

Figura 3 – Estatísticas Petrobras (Fonte: http://www.petrobras.com.br21)

O Centro de Pesquisas e Desenvolvimento Leopoldo Américo Miguez de Mello (Cenpes),

localiza-se na Cidade Universitária, campus da Universidade Federal do Rio de Janeiro

(UFRJ), com uma área de aproximadamente 300 mil m2 e quase 50 anos de existência.

Foi criado com a intenção de ser responsável por coordenar todas as pesquisas científicas

e tecnológicas na empresa, recolhendo e sistematizando sua documentação, além de

coordenar trabalhos relativos a estudos de patentes. Em Abril de 2014, o Cenpes contava

com 1950 profissionais, somando investimentos na ordem de US$ 566 milhões em

pesquisa e desenvolvimento desde 2008, tornando-se um dos maiores complexos de

pesquisa aplicada à indústria de energia do mundo.22

As atividades de tecnologia da informação e telecomunicações estão presentes desde a

fundação da Petrobras, em 1953, a partir da implantação dos primeiros sistemas de

21 Dados dos resultados do exercício de 2014/ Última atualização: Dezembro de 2014. Não inclui os

escritórios de representação 22 Informações retirada no site da Petrobras: http://www.petrobras.com.br/fatos-e-dados/cenpes-tecnologia-

para-superar-desafios-em-60-anos-de-petrobras.htm


43

comunicação telefônica. Naquela ocasião, a área era denominada Divisão de

Telecomunicações (DITEL) e estava ligada ao Gabinete da Presidência. No entanto

somente em 2008 foi criada a Gerência Executiva da Tecnologia da Informação e

Telecomunicações (TIC).

A TIC é a maior unidade da área de serviços da Petrobras, com mais de 11 mil

colaboradores, sendo responsável pela integração de toda a Companhia. A formação

dessa unidade teve como objetivo gerar para a Petrobras economias de escala e de escopo

e reduzir o tempo de entrega de serviços e soluções, através da integração dos processos

e serviços de tecnologia da informação e de telecomunicações.

3.2. A parceria estratégia com a EMC²

Presente em 86 países, a EMC é líder mundial em auxiliar empresas e provedores de

serviços a otimizar suas operações e fornecer ITaaS (IT as a service, TI como serviço). A

computação em nuvem é fundamental para essa transformação. Com produtos e serviços

inovadores, a EMC acelera a jornada rumo à computação em nuvem, ajudando os

departamentos de TI a armazenar, gerenciar, proteger e analisar seu ativo mais valioso –

a informação – de um modo mais ágil, confiável e barato.

Com mais de 70.000 colaboradores ao redor do mundo, em 2014 a empresa ocupou a

posição 128 da Fortune 500 e declarou uma receita de $24,4 bilhões. Dentre seus

principais clientes estão bancos de atuação global e empresas líderes de serviços

financeiros, fabricantes, organizações de assistência médica e ciências biomédicas,

provedores de serviços de Internet e telecomunicações, linhas aéreas e empresas de

transporte, instituições de ensino e órgãos públicos.

Atualmente, a Dell está em processo de compra da EMC Corp, numa transação de

aproximadamente $67 bilhões, tratando-se da maior aquisição da história na área de TI.

O Centro de Pesquisa e Desenvolvimento do Brasil (BRDC) foi criado em 2012 no Parque

Tecnológico do Rio, no campus da Universidade Federal do Rio de Janeiro. A unidade,

cuja principal atividade é a realização de pesquisas aplicadas relacionadas com o Big Data

e com desafios encontrados na indústria de óleo e gás, abriga um centro de investigações

44

aplicada, laboratórios de desenvolvimento de soluções e o primeiro Executive Briefing

Center (EBC) da América Latina.

A missão do BRDC é criar tecnologias revolucionárias a fim de solucionar os desafios

relevantes da indústria. Sua visão é ser um excelente provedor de IP para a EMC, um dos

principais contribuintes para o sucesso global da EMC em óleo e gás, ser o provedor

número um de IP Big Data para a indústria de óleo e gás, ser a primeira opção na América

Latina para pesquisas de Big Data e ser o modelo de sucesso para futuros centros de P&D

da EMC.

O BRDC da EMC² estabeleceu parceria estratégica com o Cenpes, de fundamental

importância durante o desenvolvimento dos projetos estudados, pois recaiu sobre o

Centro de Pesquisa da EMC2 a responsabilidade sob parte técnica do tratamento e limpeza

dos dados utilizados. Assim, o Cenpes proveu os desafios que precisava tratar com Big

Data e a EMC2 colaborou na parte técnica dos projetos. A parceria realizada será

explicada em detalhes mais adiante nesta dissertação.

3.2. Coleta e análise de dados

Análise documental e entrevistas semiestruturadas foram os instrumentos utilizados neste

estudo para coleta de dados, após a realização da pesquisa bibliográfica. Foram realizadas

quatro entrevistas semiestruturadas com os líderes dos projetos de Big Data. Como fontes

documentais, foram utilizados áudios de palestras, sites, apresentações em power point e

textos fornecidos pelas empresas envolvidas (Petrobras e EMC²).

Com o intuito de melhor entender as empresas envolvidas e fazer uma breve introdução

das mesmas, foram consultados os seus respectivos sites23. Para detalhar os três projetos

de Big Data desenvolvidos pela Petrobras, utilizou-se de dois áudios de palestras de um

de seus idealizadores, uma ministrada em um encontro organizado pela Harvard Business

Review do Brasil em 2013 e a outra - dois anos depois - no Instituto COPPEAD de

Administração, além de documentos e apresentações eletrônicas cedidas pela própria

23 www.petrobras.com.br e www.emc.com


http://www.emc.com/

45

Petrobras e uma entrevista semiestruturada com o responsável geral dos projetos,

realizada em meados de 2015.

Para aprofundar na identificação das oportunidades e desafios apresentados no uso do Big

Data pela Petrobras, cerne deste presente estudo, optou-se por realizar três entrevistas

semiestruturadas, duas com os representantes da EMC² nos projetos e uma novamente

com o responsável geral do projeto, o qual representa a Petrobras e mais especificamente

Centro de Pesquisas e Desenvolvimento (Cenpes).

As entrevistas foram classificadas como semiestruturadas, devido ao fato de que todas

partiram de três tópicos básicos a serem desenvolvidos com base em um roteiro básico,

apresentado no Anexo 1. Os tópicos abordados foram:

Definição de Big Data.

Fatores que motivaram a Petrobras a optarem pelo uso do Big Data

(Oportunidades identificadas)

Principais dificuldades esperadas e encontradas durante o desenvolvimento dos

projetos.

Porém, para cada entrevistado foram o roteiro de entrevista foi adaptado, de acordo com

seu papel e competência atribuída nos projetos. Novamente esses “sub roteiros”

representavam tópicos a serem discutidos durante as entrevistas, cabendo ao entrevistador

formular as perguntas e aprofundar a discussão ao longo de sua execução.

As entrevistas ocorreram entre o 2015 e início de 2016 e foram entrevistados o

representante do Cenpes nos projetos (duas vezes), que ao mesmo tempo é o responsável

geral dos projetos e os especialistas da EMC² responsáveis pelos projetos 1 e projetos 3 e

4, conforme tabela a seguir. Dos cinco envolvidos nos projetos das duas empresas, três

responsáveis foram entrevistados.

Entrevistado Empresa Papel Número de entrevistas

RG Petrobras Responsável geral dos projetos 2

LP1 EMC² Líder do projeto 1 1

LP2 EMC² Líder dos projetos 2 e 3 1 Tabela 3: Tabela dos entrevistados para o caso (Fonte: autor)

O objetivo de não se fazer uma entrevista rigorosamente estruturada foi o de explorar os

tópicos básicos de forma bastante aberta, devido ao caráter exploratório da pesquisa. De

46

acordo com as respostas, poderia-se aprofundar o tema, evitando assim, a indução das

respostas e favorecendo a discussão de oportunidades e desafios não tratados na literatura.

Para a análise de dados, os itens mencionados na literatura como oportunidades e desafios

para o uso de Big Data foram tratados como categorias analíticas, representados nas

tabelas a seguir:

47

Oportunidades Autores

Capacidade de se armazenar, analisar grandes volumes

de informação

Davenport (2014), Minelli et al. (2013), Novo

e Neves (2013), Silva e Campos (2014),

Taurion (2012), McAfee e Brynjolfsson

(2012), Simon (2013), Loshin (2013), Gallant

(2011)

Análise de informação em tempo real





(2011)

Capacidade de se integrar dados de diversas fontes e

tipos





(2011)

Obtenção de novos insights

Davenport (2014), Manyika et al. (2011),

Harriott (2013), Simon (2013), Loshin

(2013), Gallant (2011)

Melhora na tomada de decisão

Brown, Chui e Manyika (2011), Davenport

(2014), Gallant (2011), Minelli et al. (2013),

Tankard (2012)

Aumento da eficiência operacional e melhor

desempenho financeiro

Leeflang, Verhoeff et. al. (2014), Davenport

(2014), McAfee e Brynjolfsson (2012),

Minelli et. al. (2013), Novo e Neves (2013),

Silva & Campos (2013), Tankard (2012), Yan

(2013)

Inovação incremental em produtos e serviços já

existentes, e aumento da lealdade dos clientes

Bloem et. al. (2012), Brown, Chui e Manyika

(2011), Davenport (2014), Gallant (2011),

Leeflang, Verhoeff et. al. (2014), McAfee e

Brynjolfsson (2012), Novo e Neves (2013),

Ohlhorst (2013) Ularu, Puican et. al. (2012)

Inovação disruptiva de produtos, serviços e modelos de

negócios

Davenport (2014), McAfee e Brynjolfsson

(2012), McKinsey Global Inst. (2011), Novo

e Neves (2013), Silva & Campos (2013),

Tankard (2012), Ularu, Puican et. al. (2012)

Construção de modelos preditivos


Minelli et al. (2013), Taurion (2012), Novo e

Neves (2013), Gallant (2011), Loshin (2013),

Rajesh (2013), Simon (2013)

Tabela 4: Oportunidades citados por autores (Fonte: autor)

48

Desafios Autores

Validade e qualidade dos dados


Minelli et al. (2013), Taurion (2012), McAfee

e Brynjolfsson (2012), Simon (2013),

Harriott (2013), Lam (2013), Barton e Court

(2012), Yin e Kaynak (2015), Jagadish et al.

(2014)

Modelar algoritmos que produzam informações

pertinentes


Minelli et al. (2013), Simon (2013), Harriott

(2013), Lam (2013), Barton e Court (2012),

Jagadish et al. (2014)

Interpretar os dados de maneira eficiente




Harriott (2013), Yin e Kaynak (2015),

Jagadish et al. (2014), Galbraith (2014),

Falta de especialistas "cientistas de dados"


Taurion (2012), Simon (2013), Minelli et al.

(2013), Jagadish et al. (2014), Barton & Court

(2012), Lam (2013)

Dificuldade de se migrar de um perfil "modo driven"

para "data driven"

Davenport (2014), Harriott (2013), Lam

(2013), Barton & Court (2012)

Custódia, gerenciamento dos dados



e Brynjolfsson (2012), Simon (2013), Lam

(2013), Jagadish et al. (2014)

Segurança dos dados



e Brynjolfsson (2012), Simon (2013)

Infraestrutura de TI

Davenport (2014), Taurion (2012), Simon

(2013), Jagadish et al. (2014), Yin e Kaynak

(2015), Lam (2013)

Dificuldade de se extrair valor



(2013), Yin e Kaynak (2015), Taurion (2012)

Tabela 5: Desafios citados por autores (Fonte: autor)

Ou seja, buscou-se nos dados coletados trechos que confirmassem estes itens como

oportunidades e desafios e também procurou-se identificar oportunidade e desafios

emergentes, que não foram apontados na revisão literária, mas que estiveram presentes

no caso da Petrobras. As categorias analíticas estabelecidas a priori e a posteriori geraram

então as proposições desta pesquisa exploratória.

49

4. OS PROJETOS ANALISADOS

Algumas peculiaridades quanto à iniciativa de implementar o Big Data na Petrobras

devem ser levadas em conta ao estudar esse casso.

A primeira é que são projetos de pesquisa desenvolvidos por iniciativa de um líder no

Cenpes e não envolve a entrega de um “produto final”, pois como se trata de projetos de

pesquisa, eles podem ou não dar origem a “entregáveis”, dependendo do resultado da

pesquisa e da capacidade da empresa de aproveitá-lo. Outro ponto de destaque é que os

projetos foram desenvolvidos por uma parceria entre a Petrobras (através do Cenpes e da

TIC) e a EMC, não existindo uma relação cliente-fornecedor entre as partes, ou seja, sem

contrapartida financeira. A parceria realizada será explicada em detalhes mais adiante

nesta dissertação.

A seguir, os projetos são aplicados detalhadamente.

Projeto 1: Centro de monitoramento e diagnóstico (análise dos dados dos sensores

das turbo máquinas).

Projeto 2: Análise de dados da cadeia de suprimentos e inventários (Logística e

Supply Chain).

Projeto 3: Análise dos dados sísmicos (Prospecção).

1) Centro de monitoramento e diagnóstico (CMD)

Uma plataforma de petróleo conta com, em média, seis mil sensores, emitindo uma

enorme quantidade de dados. A análise destes dados pode ajudar a melhor as operações

das plataformas. Esta ideia deu origem ao centro de monitoramento e diagnóstico, pois

hoje os parques termoelétricos Petrobras contam com quinze turbinas, setenta turbo

geradores, cinquenta moto geradores, totalizando a geração de mais de cinco mil

megawatts. Tudo isso gera uma quantidade massiva de dados.

Com o tempo, essas máquinas exigem paradas para manutenção preventiva, o que

culmina na interrupção da operação. O atraso dessa parada pode resultar em danos nos

equipamentos e, por consequência, em manutenção corretiva, acarretando interrupções

50

não programadas e aumentando os gastos, que consistem na despesa para o conserto

acrescidos do prejuízo da interrupção de funcionamento.

Portanto, o momento de realização das paradas preventivas é essencial. Por um lado, se

ela for feita prematuramente, incide o significante custo da paralisação da operação. Por

outro lado, caso ela seja adiada em demasia, a empresa incorrerá em risco de danificar o

equipamento, comprometendo toda a operação e estendendo ainda mais o tempo de

parada.

Assim, o principal papel do CMD é otimizar essas paradas. Analisando dados desses

sensores, a CMD pode entender o comportamento de geradores, identificar anomalias e

prever falhas, melhorando significantemente a eficiência dos mesmos, reduzindo o tempo

de parada, eliminando paradas desnecessárias e potenciais defeitos no equipamento.

Em suma, a Petrobras está buscando basicamente:

Monitoramento contínuo e integrado de sensores dos equipamentos;

Acompanhamento, em tempo real, da eficiência térmica e elétrica dos

equipamentos;

Diagnóstico da causa raiz de eventos críticos, para correção e prevenção de

defeitos;

Prognóstico, em tempo real, de possíveis desvios de desempenho.

2) Logística e Cadeia de Suprimentos

A Logística equivale a cerca de 40% dos custos na indústria de petróleo. Na Petrobras

isso não é diferente. São mais de R$ 11 bilhões em estoques, totalizando mais de 80 mil

itens e 2 mil pedidos diários para mais de 300 destinos diferentes. A complexidade

Logística da empresa impõe diversos desafios, o que faz com que a Petrobras busque

incessantemente melhorias nos processos.

Por isso, a empresa investe em um projeto de Big Data específico para a Logística do

armazém, que consiste em todo o processo de transporte de materiais entre o armazém e

as plataformas. Esses transportes podem ser terrestres ou marítimos e seguem as seguintes

etapas:

Recebimento – chegada do equipamento.

51

Armazenagem – estocagem.

Atendimento da demanda, que se subdivide em tratamento do pedido,

consolidação das caixas e entrega dos itens na plataforma.

Os problemas ocorridos em cada etapa descrita acima são numerosos. Contudo, os mais

destacados são o longo lead-time e o estoque excessivo. O lead-time - tempo entre o

pedido e a chegada da peça à plataforma - hoje varia entre 7 e 15 dias, quando a meta é

um lead-time de 5 dias. Vale lembrar que, dependendo da falha que se deseja reparar, o

lead-time pode representar tempo de interrupção de atividades nas plataformas.

Já o estoque excessivo tem relação com a necessidade de produção ininterrupta. A parada

da produção devido à indisponibilidade de peças de reposição pode significar um prejuízo

de milhões de reais. Por este motivo, a Petrobras mantém um grande estoque com a

finalidade de disponibilizar peças de reposição e evitar paradas na produção. Contudo, o

estoque da empresa está avaliado em cerca de R$ 11 bilhões, o que faz a gerência

questionar se esse estoque é excessivo ou não.

Para atenuar esses e outros problemas, a empresa investe em um projeto de Big Data que

busca prioritariamente:

Identificar gargalos nos processos de logística e cadeia de suprimentos;

Reduzir lead time;

Estimar como melhorar o atendimento;

Evitar perdas por paradas na plataforma;

Otimizar o estoque;

Avaliar a probabilidade de falta de materiais para reposição, assim como, a

probabilidade da utilização de um material em determinado período de tempo.

Em outras palavras, o objetivo final do projeto é otimizar o processo nos armazéns de

forma a atender as plataformas de maneira satisfatória, reduzindo o tempo de entrega e

os estoques.

Para atingir esses objetivos, o projeto de Big Data alia informações do SAP, do sistema

de reserva e transporte de carga, que envolve não só a análise dos dados existentes da

52

operação, como a criação de um modelo preditivo. A criação de um modelo preditivo se

justifica porque o banco de dados da empresa não contém as informações necessárias para

cobrir todos os cenários possíveis da operação. Sendo assim, o objetivo é identificar o

comportamento em cada etapa no atendimento da demanda, desde o recebimento até a

entrega do material na plataforma.

O modelo ajudará a companhia a criar todos os cenários possíveis da operação,

permitindo a empresa calcular a probabilidade de ocorrência de eventos, buscar

alternativas para melhorar o atendimento, identificar gargalos no processo, otimizar o

estoque, assim como estimar os lead-time esperados de acordo com o comportamento da

demanda.

3) Otimização da Produção

Em qualquer empresa, otimizar a produção é sempre um dos objetivos e um desafio

constante.

No processo produtivo da Petrobrás, encontram-se diversos sensores nos poços, nas

plataformas e nos barcos de apoio, por exemplo. Com essa massa de dados à disposição,

abriu-se a possibilidade de utilizá-los, através de Big Data, para melhorar o modelo

preditivo de produção e preventivo contra falhas.

Um dos problemas que podem ocorrer no processo produtivo são as chamadas “golfadas”.

Isto acontece quando o padrão de escoamento se torna intermitente. O fluido não gira

constantemente, os separadores enfrentam problemas e não conseguem operar,

precisando parar. Além disso, grandes variações de pressão também causam problemas

na plataforma, que não está preparada para receber, em separado, água, óleo ou gás, e sim

uma mistura destes componentes. Alguns motivos para a golfada são a maneira como o

óleo está no reservatório ou o quanto é injetado no reservatório para facilitar a retirada do

óleo.

Outro problema comum à produção são as formações de hidratos, uma espécie de

congelamento de CO2, dentro da plataforma. Isto acontece porque, em águas profundas,

a 2 mil metros de profundidade, a temperatura é baixa e a pressão é alta. Quando os

hidratos se formam, é necessário injetar um equipamento para limpar esse acúmulo de

53

CO2 congelado. Com o auxílio de Big Data, espera-se antever a formações de hidrato

para poder realizar a limpeza antes de uma situação crítica.

Com a prevenção e previsão de erros, objetiva-se manter a plataforma operando no ponto

ótimo. Hoje na Petrobras já existem projetos com este objetivo, mas que não trabalham

com Big Data. Com a análise de grande quantidade de dados, espera-se conseguir atuar

em um horizonte maior, como médio e longo prazo, até mesmo em função da

característica de disposição dos equipamentos, com a plataforma em alto mar e as

máquinas de conserto em terra.

Para operacionalizar a prevenção de erros, a tentativa é obter correlação entre as variáveis

que afetam a produção para acompanhamento proativo dos KPIs (Indicadores Chaves de

Produção). Além disso, busca-se também encontrar correlações não óbvias entre as

variáveis.24

Assim, o Big Data neste projeto foi aplicado para utilizar os dados dos diversos sensores

espalhados nos poços, nas plataformas e nos barcos de apoio, com o intuito de:

Melhorar o modelo preditivo de produção e preventivo contra falhas.

Evitar paradas advindas de problemas como “golfadas”.

Antever a formações de hidrato para poder realizar a limpeza antes de uma

situação crítica.

Manter a plataforma operando no ponto ótimo.

24 Todas as informações sobre os projetos foram obtidas através da análise de documentos fornecidos pela

Petrobras e de palestras ministradas pelo Dr. Ismael dos Santos no COPPEAD e em congresso da HBR.

54

5. OPORTUNIDADES E DESAFIOS NO DESENVOLVIMENTO DE

PROJETOS DE BIG DATA NA PETROBRAS

Para a análise de dados desta pesquisa, optou-se por usar de comparação entre a literatura

e as informações coletadas durante as entrevistas, na tentativa de melhor compreender as

oportunidades e desafios levantados, e aferir se o que é descrito em textos acadêmicos

pode ser verificado na prática. Adicionalmente, buscou-se identificar também

peculiaridades destes desafios e oportunidades e fatores emergentes ainda não descritos

na literatura. Em resumo, levantou-se algumas categorias de análise levantadas no

referencial teórico, sintetizadas nas tabelas 4 e 5, e na pesquisa de campo, buscou-se

verificar a existência destas oportunidades e desafios e de outras oportunidades e desafios

emergentes.

Apesar da indústria do petróleo ser bastante conservadora, no que tange ao Big Data ela

pode ser considerada uma “early adopter”. Porém, no caso específico da Petrobras, essa

tecnologia era pouco difundida, como retrata o trecho a seguir, parte da entrevista feita

com o representante do Cenpes e responsável geral (RG) dos três projetos de pesquisa

estudados neste caso.

Há uns 3 anos atrás25 recebi uma visita do pessoal do MIT aqui junto com o

pessoal do ITA, primeira vez que ouvi falar de Big Data... Eu na época

confesso a você que não sabia nada do que era Big Data, não tinha a menor

ideia, achava que Big Data era muito dado... Aí eles me pediram para falar

sobre Big Data na Petrobras. Como eu não sabia qual era o assunto eu fui lá e

apresentei a área de (sísmica) na reunião onde eles tem muitos dados. Não

consegui traçar nenhum diálogo com o pessoal porque eu percebi que o que eu

falei não era o que eles queriam ouvir. (RG)

Por outro lado, a EMC instalou o seu Centro de Pesquisa e Desenvolvimento do Brasil

(BRDC), com o principal objetivo de realizar pesquisas na área de Big Data focada na

indústria de óleo e gás, conforme os trechos a seguir.

...a indústria de óleo e gás é uma indústria com cara de Big Data porque todas

as etapas dela (...) têm Big Data de algum jeito. Na parte de exploração os

dados são gigantes, são altas quantidades de dados. Então você tem muito

dado, é o tal do volume do Big Data. Ela está no comecinho. Depois disso,

quando você vai para fazer perfuração e tal, você tem dados que, por exemplo,

podem ser super reais, porque durante a perfuração você tem dados em

streaming, você tem que ajustar aquilo. De repente tem a parte de velocidade

do dado. E na hora em que você está produzindo você tem zilhões de fontes de

dados diferentes que vão te dar... Se você olhar para uma plataforma é uma

25 Refere-se a 2013.

55

cidade inteligente. Também coordeno o projeto de cidades inteligentes, assim

é uma cidade inteligente, você tem que em última análise tudo é (sensoriado)

e você poderia ter aquilo tudo entrado num grande lago, num repositório de

dados e você toma decisões que são melhores porque você está olhando o todo

e não cada um só o seu processo, a produção na produção, a mecânica na

mecânica, o moço da comida na comida, a água na água, enfim, você pode

integrar isso tudo. Então você tem a tal da variedade dos dados, tem muita

informação. A indústria de óleo e gás é uma indústria que é naturalmente de

Big Data. (LP1)

...o mercado de óleo e gás tem essa característica de ter um volume de dados

crescente, e característica de big data ao longo de todo processo... No caso, a

gente focou na parte de “up stream”, que é a parte de exploração e produção

de óleo e gás. Então você tem um volume muito grande de dados no início do

processamento, que são os dados sísmicos... Mais à frente, depois dessa parte

de início que você tem esses dados todos que precisam ser processados por

algoritmos pesados que demoram um bom tempo para gerar um resultado, se

tem um uso de HPC, hard perfomance computing nessa fase. Você encurta o

processamento disso por algum tempo, você mede isso em barril de óleo...Você

consegue transferir isso para valor de mercado facilmente... Nessa fase

seguinte você tem integração desses dados sísmicos com vários outros tipos de

dados. Então tem uma diversidade de dados que precisam ser integrados muito

grande, e isso é outra característica de big data, o volume... Aqui você tem a

variedade dos dados e uma etapa crítica que precisa de apoio, são muitas

hipóteses que estão sendo feitas, o estudo muitas vezes de integração entre

vários profissionais para poder trabalhar e a produtividade disso é muito

importante, você integrar bem esses dados. Então tinha o segundo V

aparecendo aqui. Depois tem um momento onde você vai furar, perfurar os

poços, e também, quando você começa a produzir, você tem dado chegando

continuamente. Então o terceiro V que é o V da velocidade aparece nessa fase

final, que você tem uma parte de engenharia, de construção lá e de produção,

que precisa tratar stream de dado chegando o tempo todo e juntar isso com meu

histórico de dados para ter a melhor decisão naquele momento. (LP2)

As iniciativas em Big Data da Petrobras podem ser consideradas, de certa forma, ainda

tímidas, mediante as oportunidades do setor. O depoimento a baixo mostra como

começou os projetos, na Petrobras.

Aí um outro dia, uma vez, passando aqui pelo centro, a Karin, que é o símbolo

lá da EMC, esteve aqui no Brasil falando que eles estavam criando um centro

de data science aqui, que eles queriam fazer pesquisas junto com a Petrobras.

Eu levei essa ideia aqui para a gerência e a gente acabou criando esses

primeiros projetos depois de muito tempo de conversa, de ver o que as pessoas

estavam fazendo na área e aí a gente percebeu valor nesse negócio e fomos a

alguns clientes internos da Petrobras para poder vender o projeto. Então a gente

foi falar com o pessoal do Geope, que é parte de gestão integrada de operações,

sobre o assunto, mesmo sem ser ainda especialista no assunto e nem nada, a

gente foi comentar com eles essa ideia de usar informações dos dados que a

gente tinha para tentar melhorar a qualidade das soluções que a gente tinha até

o momento. (RG)

De maneira geral, a abordagem da Petrobras em relação ao Big Data foi de identificar

problemas do dia a dia, principalmente das áreas de operação e logística e, com o auxílio

da EMC, verificar se existia a possibilidade de aplicar alguma solução de Big Data a esses

56

problemas. Seguem trechos que descrevem o passo a passo do processo de identificação

dessas oportunidades.

A gente fez uma série de seminários onde tinham pessoas do Cenpes, do centro

de pesquisa, onde eles enxergavam... Eles lá já estavam começando com

iniciativas na área de Big Data, então eles convidaram pessoas que eles

achavam que tinham problemas que se pareciam com Big Data, e a gente fez

uma sequência de seminários, apresentou umas tecnologias e falando mesmo

desse papel de especialista e depois dessa sequência de seminários a gente foi

aprofundando qual seriam os projetos que seriam mais interessantes da gente

fazer em parceria. Aí a gente tinha a presença das pessoas do Cenpes e das

pessoas da TI Petrobras. No final disso a gente começou com uma lista grande,

onde a gente foi reduzindo por interesse da área fim, quantidade de dado

disponível porque assim, às vezes é um dado sigiloso e a gente não trabalharia

dentro da Petrobras, a gente não era contratado Petrobras. (LP1)

...já existia uma vertical de óleo e gás na EMC, um segmento para colocar os

nossos produtos na área de óleo e gás, e a gente teve gente que veio desse setor,

o Tim Voyt, que era o nosso diretor de negócios aqui, ele veio dessa área - já

tinha um bom conhecimento de alguns casos que pareciam interessantes, e

outras pessoas da própria vertical também. Agora, os casos que foram

escolhidos, quando a gente foi trabalhar com a Petrobras especificamente, a

gente teve várias sessões, muita discussão e estamos com uma quantidade

razoável de possíveis projetos, resultado dessas conversas e foram escolhidos

esses 3 casos, que foram os desenvolvidos. (LP2)

No trechos a seguir, os entrevistados reforçam que a Petrobras, assim como toda a

indústria de óleo e gás per si, possuem problemas clássicos de Big Data e o ponto crucial

que motivou a empresa a recorrer a esse ferramental foi a oportunidade de se otimizar a

produção.

O outro projeto foi de otimização da produção onde a gente tenta estudar o

comportamento da planta, a situação em que ela está e tentar prever a

ocorrência de problemas futuros como geração de hidratos, geração de

“golfadas”, situações anômalas que prejudicam a produção de óleo. Então isso

também foi abordado junto com os colegas do Geope... Esse é um problema

do dia a dia deles, otimizar a produção e a gente colocou que seria interessante

tentar fazer alguma iniciativa de pesquisa nessa área. (RG)

...uma área que foi inicialmente levantada foi isso daí, da operação de

plataformas, porque a operação de uma plataforma é um sistema complexo

com milhares de variáveis correlacionadas e muitas das vezes a otimização,

não digo nem a otimização, mas o controle da operação num ponto ideal, é

uma tarefa difícil porque você projeta a plataforma para um ponto de

operação... Isso se reflete basicamente nas perdas de produção que você ...

Como o objetivo é você fazer a planta próximo do seu ponto máximo ótimo de

operação, para você ter a maior eficiência possível, isso se torna um problema

naturalmente importante. ... como que a gente pode olhar para os dados da

planta que refletem o estado em que ela está e tentar correlacionar o estado

atual dela com (...) eventuais problemas indicados no passado e ver se a gente

consegue antever esses problemas no futuro. Um problema clássico de Big

Data. (RG)

Você pode pensar, por exemplo, em usar todos os sensores disponíveis - a parte

de dados para fazer projetos, por exemplo, de otimização da produção. Hoje

em dia o cara que olha o óleo ele olha o óleo, o cara que olha o gás, ele olha

gás, não tem assim um indicador holístico de dizer "olha, tudo bem, vou

57

diminuir a produção de gás, mas vou aumentar a de óleo". Então existe, você

pode trabalhar e otimizar a produção... (LP1)

Esse tipo de aplicação é bastante condizente com o que a maioria dos autores destacam

como um ponto forte do Big Data: a capacidade de se processar uma infinidade de dados,

vindo de diversas fontes, nesse caso, milhares de sensores e uma séries de relatórios

operacionais. Através de algoritmos, construir um modelo preditivo que possa através da

análise desses dados, apontar possíveis problemas que possam vir a acontecer no futuro.

Outra oportunidade identificada, foi tentar aplicar o Big Data em um problema que já foi

tratado com outras ferramentas analíticas e comparar resultados, como descrito a seguir.

Já tinha tido uma iniciativa na Petrobras para fazer um gestão da manutenção

de tubos geradores, mas o approach utilizado não era de Big Data. Era um

approach meramente estatístico, porque o pessoal de operação e manutenção

tem esse problema. É um calcanhar de Aquiles deles - eles têm que garantir o

máximo de tempo de funcionamento dos tubos geradores e eles já tinham

iniciado vários projetos tentando melhorar a vida útil desse equipamento,

diminuir o downtime, essas coisas todas. E a gente entendeu que poderia ser

interessante fazer um projeto que tentasse resolver o mesmo problema com as

técnicas de Big Data. Então esse foi um dos projetos selecionados. (RG)

...a gente tem uma plataforma que é uma cidade que precisa ter seu próprio

gerador de energia. Então eles usam o que eles chamam de turbo geradores.

Turbo geradores nada mais são do que turbinas iguais às de avião. Eles têm

turbinas daquele jeito, parte a vapor e tal. Eles precisam gerar energia. Você

imagina que você está (aqui no nosso pré-sal) a 200 km da costa, você não

pode ficar sem energia porque as pessoas vão morrer lá dentro. Não é assim

tão desesperador, mas você vai parar de produzir petróleo, por exemplo, se

você não tiver energia. Então a gente fez projetos de manutenção preditiva que

é dizer quando aquela máquina vai dar problema antecipadamente, uma

semana antes, dizer "esse sintoma...” (LP1)

Esse projeto, em específico, mostra que apesar de existirem muitas semelhanças na

aplicação do Big Data e outras ferramentas de tratamento de dados, o grande diferencial

do primeiro frente ao último é que, muitos dados que não eram levados em conta,

principalmente pela incapacidade da tecnologia usada não ser capaz de processá-los,

podem ser usados para aprimorar a análise e revelar importantes insights. Levando tudo

isso em conta, mais uma vez os anseios da Petrobras corroboram o que os autores

estudados na revisão bibliográfica concluíram, quando afirmaram que muitas empresas

procuram o Big Data na esperança de se utilizar do crescente volume de dados como

forma de se obter insights para dar mais suporte a decisões mais eficientes e assertivas.

O último projeto está ligado aos potenciais benefícios que o Big Data pode trazer na

melhoria da cadeia de suprimentos, em especial na logística de transporte da Petrobras,

como descrito abaixo. Isto naturalmente está ligado a melhoria da eficiência operacional.

58

E o último projeto que a gente criou foi o de logística aplicado à gerencia de

estoques do (AIP) onde a gente... É um problema clássico voltado para Big

Data porque essa gestão de tempo, de estoques, tempo de entrega chamado

“lead time” são problemas clássicos de otimização em geral e é natural que

você possa tentar técnicas de Big Data para você, por exemplo, tentar descobrir

as melhores opções, melhores perfis de compra de equipamentos, tudo isso

para tentar reduzir esse tempo de entrega nas plataformas. (RG)

...ele tinha um projeto lá de estudar o lead time, ou seja, o lead time médio do

tempo de entrega dos pedidos das embarcações no caso da Petrobras. E esse

lead time historicamente é considerado alto e a ideia desse projeto era se

descobrir o valor ideal para esse lead time da forma que a gente conseguisse

sempre baixar esse tempo aumentando a eficiência... Então é complexo. Você

tem um problema de roteamento envolvido, tem um problema de maximização

do container, ou seja, você quer mandar o máximo possível de material pelos

barcos, mas os barcos têm limitação. Então a gente construiu um modelo de

simulação que pelo menos não otimiza nada, mas me dá respostas sobre as

decisões que eu venha a tomar quando eu faço, por exemplo, aumento da frota

de barcos ou redução da frota de barcos. ... O outro problema é esse que falei,

dado que você tem que comprar essas coisas, qual é o melhor fornecedor para

te fornecer o equipamento tal na data tal, num prazo tal, ou seja, esse tipo de

estudo é que é importante lá para o cara decidir quem vai comprar. Além disso

a gente também espera modelar toda essa cadeia de suprimento para ter um

simulador mais real porque é muito difícil escrever um problema de otimização

com tantas variáveis e com tantos... Não é que seja impossível, mas é bem

difícil de você montar um simulador só na base de variáveis que você tem, que

não são só variáveis continuas, tem categóricas e outros tipos de variáveis que

são ruins para você modelar num processo qualquer. (RG)

...você pode trabalhar na parte logística, porque a logística de uma companhia,

principalmente a nossa que a maioria é off shore, é uma loucura, porque você

tem que levar comida, água, todas as peças, você tem barco, armazéns que tem

fortunas sentadas lá dentro porque não pode faltar. Então a parte logística vira

um problema combinatorial que é Big Data, não tem jeito. (LP1)

Enfim, todas as oportunidades citadas estão alinhadas com o que vem sendo apontado

como principais pontos fortes do Big Data e justificam o interesse da Petrobras em fazer

uso dessa nova tecnologia, reforçado nas palavras a seguir.

...modelo preditivo de manutenção, especialmente para equipamentos caros.

Você não vai fazer um modelo preditivo pra acompanhar o funcionamento de

uma lâmpada de luz, mas tu vai fazer para um compressor... Esse é um ponto.

No caso especifico nosso de reservatório e refinaria acompanhar o pós

operação para saber se alguma anomalia está acontecendo com a planta antes

de você de fato saber do problema é importante... Predição e manutenção

baseada na condição. (RG)

Nos nossos projetos que a gente teve com a Petrobras até focaram um pouco

mais nessa parte final, muito dado chegando, tratamento de histórico de dados

na área de manutenção preditiva, de otimização e de logística, estava nessa fase

final... (LP2)

Porém, aliados à essas grandes oportunidades, são esperados grandes desafios, os quais

são detalhados pelos entrevistados mais adiante.

O desafio mais citado entre os três entrevistados foi sem dúvida a gestão dos dados (Data

ownership e Data management), o qual também é apontado por quase todos dos experts

59

em Big Data referenciados neste trabalho. Nesse contexto, destacam-se a importância de

se ter uma figura de poder como o CDO (do inglês Chief Data Officer), capaz de fornecer

dados pertencentes às mais diversas áreas da organização para os profissionais que fazem

a análise, o maior controle da gestão dos dados, ou seja, como garantir a relevância e a

qualidade dos dados, além do problema quanto à segurança e legislação sobre esses dados,

conforme trechos a seguir.

Pra falar a verdade, a gente não tinha noção da dificuldade que seria a questão

dos dados, porque aqui na Petrobras (acho que isso são problemas de empresas

grandes) existe a questão da TIC que é a “custodiante” dos dados, mas não é a

dona dos dados. Existe a automação que é quem coleta as informações, mas

também não é dona do dado. Existe o dono do dado que é o cliente, que é o

gerente da plataforma, gerente do ativo, que é o dono do dado e quem pode

liberar o acesso ao dado para qualquer um. Então a gente tem 3 atores aí com

os quais a gente tem que “interfaciar” sendo que o nosso projeto tinha uma

característica mais complicada ainda, que o acesso aos dados tinha que ser

garantido para o pessoal de fora da Petrobras. Então esse foi o grande

problema, um dos grandes problemas foi conseguir negociação do acesso aos

dados porque, convencer as pessoas de que o dado é importante e que ele tem

valor e que eu posso em prol da Petrobras compartilhar essa informação para

ter resultado, não foi uma tarefa fácil. Nossos projetos, a maioria deles tem em

torno de 18 meses de duração, não sei se tem algum de 24, mas de 15 a 20

meses e mais ou menos a gente ficou nessa briga pelos projetos em torno de 8

meses, para arrumar o dado e coisa e tal. (RG)

Um outro problema que existe é que a gestão do dado é de um ator e o cara que

tem os dados... Não existe uma padronização, uma preocupação com o valor

da informação. Então eu diria que a gente tem muito dado que a gente nem

sabe... Isso é meio difícil de colocar abertamente, mas muita coisa a gente

armazena e não sabe nem para que está armazenando. O dado está sendo

adquirido, mas eu acho que a gente tinha que ter uma postura diferente em

relação ao dado e saber por que a gente está adquirindo cada dado, qual é o

valor daquele dado, quem usa aquele dado, isso tudo tem que ser revisto. Acho

que a grande contribuição para esse projeto, espero que seja criar uma nova era

na Petrobras e a oportunidade da criação do que a gente chama na área do Big

Data do Chief Data Office, algum camarada ou alguma área de gestão de dados

que esteja colocada com um papel maior do que ela tem hoje dentro da

estrutura organizacional da Petrobras. (RG)

...a gente tinha essas dificuldades da obtenção do dado por ele ser muito

sensível, é comum dar uma insegurança para banco, enfim. Acho que isso seria

um desafio. (LP1)

Então tem questão de transmissão de dados, toda essa parte. Tem questão de

segurança do dado que precisa ser tratado também, o volume de dados muitas

vezes você vai tratar com informações que são... Por exemplo, dado sísmico é

crucial para a empresa. Ele já é crucial quando você adquire, depois que

interpreta então ele tem um valor muito importante. (LP2)

Para o Responsável Geral dos projetos, este desafio de se obter os dados é o maior de

todos no caso da Petrobras, ao ser indagado sobre uma possível solução, ele apontou a

criação de um CDO. Porém, como constatado no trecho a seguir, na visão dele esse

problema é muito mais complexo.

60

A estrutura é um problema organizacional porque veja, de que grupo vai ser o

Chief Data Officer? Vai ser o cara do negócio que debaixo dele tem um outro

cara que é o cara da TIC, que não está na mesma estrutura da área de negócio,

é uma estrutura paralela? Ou está dentro do cara da TIC e ele não está na

estrutura do negócio? Ou o pessoal da automação, vai estar na automação, que

também não está no negócio e também não está na TIC? Quer dizer, a

colocação desse elemento que eu acho, defendo que esteja no negócio, ela

envolve alguns problemas porque ela tinha que ter também a infra da TIC para

tocar e quando você faz uma organização vertical como a Petrobras tem hoje,

de área da TIC, área do EP, área de abastecimento, área de finanças, essa

verticalização dificulta porque o data science é transversal a todo mundo e aí é

que é a grande dificuldade. Por isso para mim isso teria que ser um cara do

negócio, mas que tivesse a autoridade sobre as outras áreas, é aí que é um

modelo de gestão complicado e eu não conheço o assunto nem para propor.

(RG)

Além do problema de custódia, segurança e gestão dos dados, outro desafio encontrado,

pode ser considerado dois lados de uma mesma moeda: encontrar especialistas. De um

lado a Petrobras via a parte de tratamento dos dados e modelagem como um grande

desafio, que foi resolvido pela EMC, através do esforço conjunto de seus líderes de

projeto com o envolvimento de especialistas do Instituto Alberto Luiz Coimbra de Pós-

Graduação e Pesquisa de Engenharia da Universidade Federal do Rio de Janeiro (COPPE

– UFRJ) e da Pontifícia Universidade Católica do Rio de Janeiro (PUC – RJ). Do outro,

a parceira EMC necessitava de especialistas que pudessem descrever com precisão os

problemas a serem resolvidos, ou seja, o que eles realmente precisavam que os modelos

fizessem.

Essa “moeda” impacta diretamente tanto no gerenciamento de riscos do projeto, pois

como nem uma parte, nem outra possui uma visão geral do projeto, e sim domínio de

partes do mesmo, dificulta identificar e prever possíveis problemas durante sua execução,

quanto na qualidade das soluções, uma vez que sem o envolvimento de especialistas dos

problemas, muitas informações são ignoradas.

O lado da Petrobras coincide com um grande desafio encontrado por muitas empresas que

optaram por utilizar do Big Data. Conforme foi levantado anteriormente, a dificuldade de

se encontrar um “data scientist” capaz não só de realizar a modelagem, mas também

interpretar os resultados dela, obtendo os insights desejados é enorme. Por isso, muitas

dessas empresas, assim como a própria Petrobras, optam por contratar serviços

especializados como o da EMC. Essa “frustração” de não ser nem especialista na área de

petróleo, nem da área de Big Data, dificultando a gestão dos projetos, tal como a

expectativa de se deparar com dificuldades na parte mais teórica (matemática) do

61

ferramental, que logo foi suprida pela parceira (EMC), ficam claras nas seguintes

declarações do RG.

Tem um outro problema também que eu poderia dizer, aí mais um problema

meu como gestor dos projetos, coordenador geral dos projetos, que é o fato de

eu não ser especialista nas áreas de petróleo, sou especialista em computação

gráfica, matemática e HPC... Sempre, a gente sabe conversar, mas um projeto

de Big Data como esse, você precisa mais do que isso, você precisa ter

idealmente vivência do problema. Isso faz toda a diferença quando você

procura uma solução de analytcs para seu problema. (RG)

Nossos especialistas não entendem o problema do Big Data, até pensar em

riscos para eles é muito complexo. Pra mim é complexo, apesar de entender do

ponto de vista de desenvolvimento de sistemas e arquitetura de software e um

pouco de Big Data que estou entendendo hoje, falar em questão de riscos numa

gestão de projetos é uma coisa muito tranquila para mim, entretanto mapear

esses riscos no problema que a gente está atacando é que é difícil. Por outro

lado, para os especialistas como não conhecem e não tem ideia de como o

projeto evoluiu, como vai evoluir, até porque se os caras são especialistas em

petróleo, não são especialistas em software, não é? Eles não conseguem

também enxergar os riscos, essa é um ponto crítico em qualquer projeto para o

sucesso, ter a gerência dos riscos bem administrada, bem controlada. (RG)

A gente esperava uma dificuldade na parte teórica, mas a EMC teve a

competência, posso dizer assim, de trazer outros pesquisadores da área de

computação, de estatística, que são da COPPE e da PUC do Rio de Janeiro que

estão dando apoio à parte teórica na formulação. Então a dificuldade natural

que a gente esperava em relação à tratamento dos dados sempre vai existir

porque você tem milhares de maneira de resolver o problema... (RG)

...o fato da gente não conhecer o assunto. Boa parte do projeto a gente levou

treinando o nosso pessoal. Isso foi uma parte bem interessante que a EMC fez

de trazer aqui alguns especialistas deles e fazerem casos junto com a gente,

mostrarem algumas soluções e isso permitiu que a gente ganhasse tempo no

conhecimento sobre o problema. (RG)

No tocante à EMC, uma maior aproximação dos usuários finais dos produtos poderia ser

uma solução adequada, porém o fato de se tratar de projetos de pesquisas e não de um

contrato para entrega de um produto, toda a comunicação durante o trabalho baseou-se

entre o Cenpes, a TIC e a EMC, excluindo-se os potenciais usuários finais do

desenvolvimento, conforme trechos a seguir.

...tive um problema que era a dificuldade assim do contato com o usuário final,

porque as pessoas que estavam engajadas desde o começo que era mais a parte

de TI e centro de pesquisa e tal, eu achei que tive menos contato do que era

necessário com o usuário final que seria o cara que entende da turbo máquina

mesmo, achei que teve um gap. (LP1)

...tinha projeto de logística que envolvia um tanto de conhecimento de

domínio, muito dado... O dado era um dado mais difícil de entender porque

tinham coisas lá, a gente tinha que interagir com o pessoal da própria Petrobras.

Nem sempre encontra a pessoa certa que vai te explicar o que é tal tabela, o

que tem ali, qual é realmente o significado daquilo. São várias inconsistências,

na forma como também as pessoas descreviam o processo. (LP2)

No processo de otimização em que atuei tinha um volume muito grande de

dados já coletados, eram dados mais uniformes, mas tinham várias

62

combinações, tinha problemas de performance, escalabilidade para ver e tinha

o próprio caso de uso, a necessidade de ter uma proximidade com o usuário

final lá da ponta. Algo que eu aprendi, se a gente tivesse tido a oportunidade

de ter tido contato tanto num projeto quanto no outro, envolvimento já de quem

usa lá na ponta logo no início, talvez a gente até pudesse ter tido resultados até

mais relevantes... (LP2)

Ao contrário do esperado, durante as entrevistas, poucos problemas estritamente técnicos

foram apontados. Dentre eles, ainda destacam-se a falta de padronização dos dados

coletados, a segurança da informação e a dificuldade de se escrever um problema de

otimização com tantas variáveis foram os mais críticos.

O maior motivo para o impacto dos problemas técnicos serem minimizados neste caso,

foi sem dúvida o envolvimento da parceira EMC e seus especialistas. Além disso, o

paralelismo é hoje uma tecnologia acessível e de relativo baixo custo.

O principal motivo para o paralelismo representar redução de custo é que ele está

associado à mudança de plataforma para armazenamento e processamento de dados, que

passa de uma grande e potente plataforma de dados estruturados para o uso de múltiplos

servidores (DAVENPORT, 2014).

Apesar disto, o entrevistado LP2 destaca que usar do paralelismo e obter escalabilidade

não são dificuldades triviais e, por isso, continua sendo desafiador, conforme trecho a

seguir.

Tecnicamente, tem o problema clássico de escalabilidade. Os problemas são

grandes e você tem que dar um jeito de saber quebrá-los bem para você poder

acelerar, poder botar paralelismo, essencialmente está falando de big data,

envolve paralelismo, e envolve também a questão de você aplicar... Se fala

muito em ciência de dados, o que é, já fui em outras entrevistas e perguntavam

o que o cientista de dados precisa ter, e a minha resposta sempre foi “o cientista

de dados precisa ser um cientista”, ele precisa saber formular hipóteses, validar

hipóteses, saber ser capaz de isolar variáveis para ver qual é a influência de

uma coisa na outra. Então é um processo cientifico só que você está usando a

computação do processo num volume de dados muito grande que te ajuda a

poder trabalhar e você consegue fazer ciência com um apoio computacional

grande. Diria que esse enfoque, (seria a inclusão) do máximo que você pode

de poder computacional que vai se tornando mais barato na medida em que as

máquinas estão se tornando mais baratas, mas envolve muito de engenharia

também que é você poder quebrar os problemas e desenvolver soluções

paralelas não é algo trivial. Exige uma formação diferente. (LP2)

O último desafio citado foi uma certa dificuldade de se apresentar o valor de forma

atrativa para o setor estratégico da Petrobras. Sendo uma tecnologia relativamente nova,

existiam poucos resultados consolidados de projetos semelhantes, além do fato de ser

63

difícil de se quantificar os benefícios diretos da aplicação do Big Data, conforme

comentário do entrevistado LP1.

...o fato de eles serem muito conservadores é o desafio de trabalhar com dados

muito sensíveis e claro, de fazer com que uma indústria que já tem "tanto

sucesso", se abrisse para o fato de que tinha alguma coisa nova que podia

revolucionar a vida deles. Até porque assim, eles usam tecnologia de ponta o

tempo inteiro. Então de repente chegam uns caras aqui dizendo que tem esse

Big Data que vai mudar a minha vida, o cara diz "claro que não, já tenho aqui

meu super cluster que trouxe uma porção de coisas então não preciso disso".

(LP1)

A questão da custódia e, por consequência, do acesso aos dados foi o grande desafio a ser

superado. A essência de qualquer ferramenta de análise de dados, tão como o Big Data é

o acesso aos dados, porém o que foi relatado por todos os entrevistados foi uma grande

dificuldade de se obter esses dados, pois muitas vezes os “donos” desses dados não são

os mesmo que armazenam (tem a custódia), que também não são os mesmos que coletam

esses dados. Assim, para obtê-los, foi necessário garantir a permissão desses três agentes,

o que acabou tomando muito tempo. Além disso, como se tratou de uma parceria, ou seja,

envolveu uma empresa externa a Petrobras, muitos dados foram tratados como sigilosos,

o que dificultou ainda mais sua obtenção.

Um fato especial aconteceu durante a realização desse trabalho, que foi a explosão da

crise da Petrobras e da queda do preço do barril de petróleo. Contudo, diferente do

esperado, pode-se dizer que esses fatores não só não afetaram os projetos como, de certa

forma, contribuíram positivamente à realização dos mesmos, conforme as afirmações

abaixo.

...nesse momento de crise isso é uma coisa importante porque agora qualquer

incremento de produtividade ou qualquer economia que você faça é

importante, pelo momento da crise atual de petróleo. (LP1)

Talvez a continuação, o engajamento ou a venda dessas coisas tenha tido algum

efeito, mas para o projeto de pesquisa em si não vi nenhum problema. (LP1)

Os projetos, o que a gente teve se torna até mais relevantes para a Petrobras

porque são coisas que ajudam a diminuir custo e quando se está no contexto

de petróleo em baixa, reduzir custo é muito importante, evitar perdas, por

exemplo, na produção. Você poder evitar perda na manutenção das máquinas,

evitar perdas na logística. Então são coisas que estão no coração do que precisa

ser pensado. Diria que na disposição, digamos assim, houve todo um turbilhão

no contexto da Petrobras, inclusive questões políticas sobre o processo, não só

a questão do preço do petróleo. Não sei como vai ser a continuidade, mas diria

que houve dificuldades no início para questões até burocráticas para ter o dado

e do acesso ao usuário final que pesaram mais até no resultado final, digamos

64

de atrapalhar um pouco mais o resultado final, do que realmente o que

aconteceu do preço do petróleo ter caído. (LP2)

Talvez devido ao fato dos três projetos de pesquisa terem sido desenvolvidos em sistema

de parceria, consequentemente, não envolvendo custos adicionais à Petrobras, uma vez

que a EMC não recebeu nenhum pagamento e os profissionais do Cenpes e da TIC

envolvidos somente dedicaram suas horas de trabalho ao projeto, foi possível dar

continuidade sem maiores problemas aos trabalhos.

No entanto, transformá-los em produto final e implementá-los de fato exigem

investimentos massivos seja em treinamento, ou mesmo em equipamento.

Em resumo, o estudo do caso da Petrobras, mostra algumas oportunidades e desafios

enfrentados pela empresa no desenvolvimento de projetos de Big Data

A Petrobras gera um grande volume de dados em fluxo contínuo, além de demandar a

integração de diferentes tipos de dados, dando origem a problemas clássicos de Big Data.

Assim, a Petrobras se torna uma empresa extremamente atrativa para projetos de big data.

Além disto, a empresa atua num mercado altamente promissor para soluções de Big Data,

o que fez com que a EMC desenvolvesse um Centro de Pesquisa no Brasil para

desenvolvimento de soluções para o setor de Óleo e Gás.

No processo de comparação entre as oportunidades identificadas durante o

desenvolvimento dos projetos pela Petrobras com as citadas pelos autores estudados

(Tabela 4), foi possível identificar cinco confirmações:

A possibilidade de se aplicar o Big Data para problemas já tratados por estatísticas

convencionais, permitindo a incorporação de novos dados que não eram

considerados antes. Essa oportunidade se enquadra nas categorias analíticas

“Capacidade de se armazenar, analisar grandes volumes de informação”

apontados pelos autores Davenport (2014), Minelli et al. (2013), Novo e Neves

(2013), Silva e Campos (2014), Taurion (2012), McAfee e Brynjolfsson (2012),

Simon (2013), Loshin (2013), Gallant (2011) e “Capacidade de se integrar dados

de diversas fontes e tipos” mencionados pelos autores Davenport (2014), Minelli

et al. (2013), Novo e Neves (2013), Silva e Campos (2014), Taurion (2012),

McAfee e Brynjolfsson (2012), Simon (2013), Loshin (2013) e Gallant (2011),

culminando na obtenção de informações mais precisas e aprofundadas.

65

Otimização da produção e melhoria na cadeia de suprimentos, que se enquadram

na categoria “aumento da eficiência operacional e melhor desempenho

financeiro”, descrita por Leeflang, Verhoeff et. al. (2014), Davenport (2014),

McAfee e Brynjolfsson (2012), Minelli et. al. (2013), Novo e Neves (2013), Silva

& Campos (2013), Tankard (2012) e Yan (2013).

Construção de modelos preditivos para previsão de problemas e para manutenção,

que se encaixa perfeitamente na categoria “Construção de modelos preditivos”

referida por Davenport (2014), Manyika et al. (2011), Minelli et al. (2013),

Taurion (2012), Novo e Neves (2013), Gallant (2011), Loshin (2013), Rajesh

(2013) e Simon (2013).

As duas últimas oportunidades podem ser consideradas causa e consequência, pois

a obtenção de novos insights possibilita o refinamento da tomada de decisão,

ambos citados de maneira expressa nas categorias analíticas “Obtenção de novos

insights” tratados por Davenport (2014), Manyika et al. (2011), Harriott (2013),

Simon (2013), Loshin (2013), Gallant (2011) e “Melhora da tomada de decisão”

descritos por Brown, Chui e Manyika (2011), Davenport (2014), Gallant (2011),

Minelli et al. (2013) e Tankard (2012).

No quesito oportunidades emergentes deste estudo, optou-se por separar as oportunidades

para a Petrobras, das oportunidades da parceira EMC², uma vez que se trata de uma

peculiaridade deste estudo tratar de um caso sobre o desenvolvimento de projetos de

pesquisa através de parceria. Assim, temos:

Oportunidades emergentes para a Petrobras:

Na parceria com a EMC, possibilidade de se ter acesso a data scientists e de se

estudar possíveis soluções para seus problemas.

Seleção de portfólio de projetos com base no interesse da área fim, na quantidade

de dados disponível e no acesso aos dados (não expuseram dados sigilosos).

Para a EMC²:

Os projetos desenvolvidos podem gerar produtos de valor para o mercado.

Acesso aos dados para poder desenvolver modelos e posteriormente transformá-

los em produtos.

Assim, das nove categorias analíticas, somente três não foram confirmadas nesta

pesquisa: Análise de informação em tempo real, Inovação incremental em produtos e

66

serviços já existentes, e aumento da lealdade dos clientes e Inovação disruptiva de

produtos, serviços e modelos de negócios.

Sobre as oportunidades para desenvolvimentos de projetos de Big Data, é possível

apontar as seguintes proposições:

P1: Algumas condições existentes na organização relacionadas aos problemas que

possui e aos dados que tem acesso favorecem o desenvolvimento de projetos de Big

Data.

A existência de alto volume de dados, de dados em fluxo contínuo e de diversos tipos que

podem ser integrados são fatores que motivam o desenvolvimento de projetos de Big

Data. Soma-se a isto, a existência de problemas clássicos de big data na instituição.

P2: Big Data é uma oportunidade de se tratar de forma diferente problemas já

tratados por estatísticas convencionais, podendo favorecer a otimização da

produção, a melhoria na cadeia de suprimentos e as atividades de manutenção.

Big data, ao permitir que novos dados sejam incorporados na análise de problemas que já

eram tratados por estatísticas convencionais, permite o desenvolvimento de modelos

preditivos, de simulações e a obtenção de novos insights.

P3: Parcerias entre Centros de Pesquisa de empresas de TI e de empresas que

desejem desenvolver soluções de Big Data são favorecidas pela atratividade das

soluções para o setor.

Empresas que atuem em setores com grande potencial para aplicações de Big Data podem

estabelecer parcerias com centros de pesquisa de empresas de TI para desenvolver

soluções que lhes sejam úteis e que possam ser, posteriormente, comercializadas pelas

empresas de TI. Estas parcerias podem dar às empresas acesso à cientistas de dados, e

podem se transformar em laboratórios de desenvolvimentos de soluções para a empresa

de TI. A seleção do portfólio para estas parceiras deve levar em consideração a existência

e o acesso aos dados e o interesse das áreas fins na solução.

67

No que tange aos desafios, foram constatados que seis desafios levantados durante o caso,

foram abordados de forma direta ou indireta na literatura estudada (Tabela 5):

A falta de padronização de dados remete à categoria analítica “Validade e

qualidade dos dados”, enunciada pelos autores Davenport (2014), Manyika et al.

(2011), Minelli et al. (2013), Taurion (2012), McAfee e Brynjolfsson (2012),

Simon (2013), Harriott (2013), Lam (2013), Barton e Court (2012), Yin e Kaynak

(2015) e Jagadish et al. (2014).

O problema de escrever um problema de otimização com tantas variáveis pode ser

enquadrado na categoria “Modelar algoritmos que produzam informações

pertinentes”, descrita pelos autores Davenport (2014), Manyika et al. (2011),

Minelli et al. (2013), Simon (2013), Harriott (2013), Lam (2013), Barton e Court

(2012) e Jagadish et al. (2014).

Segurança da informação, que se refere a categoria homônima “Segurança da

informação” tratada pelos autores Davenport (2014), Manyika et al. (2011),

Minelli et al. (2013), Taurion (2012), McAfee e Brynjolfsson (2012) e Simon

(2013).

A falta de uma figura que possua a autoridade sobre o acesso aos dados coletados,

facilitando sua obtenção e uma melhor comunicação entre os entes que coletam,

armazenam e os “donos dos dados” são problemas clássicos retratados na

categoria “Custódia, gerenciamento de dados” citado por Davenport (2014),

Manyika et al. (2011), Minelli et al. (2013), Taurion (2012), McAfee e

Brynjolfsson (2012), Simon (2013), Lam (2013) e Jagadish et al. (2014).

Dificuldade de obtenção dos dados, seja pela sensibilidade da informação, seja

pela falta de organização e completude dos dados ou ainda pela falta de

comunicação entre os três entes supracitados - coletor, custodiante e dono do

dado. Isto está ligado com as categorias ”Custódia, gerenciamento de dados”

referido por Davenport (2014), Manyika et al. (2011), Minelli et al. (2013),

Taurion (2012), McAfee e Brynjolfsson (2012), Simon (2013), Lam (2013),

Jagadish et al. (2014) e “Validade e qualidade dos dados” descrita por Davenport

(2014), Manyika et al. (2011), Minelli et al. (2013), Taurion (2012), McAfee e

Brynjolfsson (2012), Simon (2013), Harriott (2013), Lam (2013), Barton e Court

(2012), Yin e Kaynak (2015) e Jagadish et al. (2014).

68

Estrutura organizacional – onde encaixar o CDO, apesar deste item não ser tratado

diretamente em nenhuma categoria analítica construída, ele foi abordado por

Harriott (2013), como parte do problema de “Custódia, gerenciamento de dado”.

Dois desafios emergiram durante o estudo do caso:

Como os projetos foram feitos entre centros de pesquisa, faltavam especialista em

óleo e gás que pudessem descrever com precisão os problemas a serem resolvidos.

Por não ser um contrato de prestação de serviço, não há envolvimento dos usuários

finais das soluções.

Dificuldade de mostrar para a alta direção da Petrobras o valor estratégico dos

projetos, pois a tecnologia ainda é nova. Isto é influenciado pela dificuldade de

medir o valor das soluções, que também é um desafio para a EMC poder lançar

produtos no mercado.

Todavia, as categorias Interpretar os dados de maneira eficiente, Dificuldade de se migrar

de um perfil "modo driven" para "data driven", Dificuldade de se extrair valor, Falta de

especialistas "cientistas de dados"e Infraestrutura de TI não foram identificadas no

presente estudo, destacando que a minimização do impacto das duas últimas (Dificuldade

de se extrair valor, Falta de especialistas "cientistas de dados"e Infraestrutura de TI) muito

se deve ao modelo de parceria aplicado nestes projetos, conforme citado anteriormente.

Sobre os desafios para desenvolvimentos de projetos de Big Data, é possível apontar as

seguintes proposições:

P4: Projetos de Big Data enfrentam desafios ricos, relacionados à qualidade do

dados, à dificuldades de modelagem e à segurança da informação.

A falta de padronização de dados, a dificuldade de escrever problemas de otimização com

um grande número de variáveis e as dificuldades associadas à segurança da informação

são desafios presentes em projetos de Big Data.

69

P5: Projetos de Big Data enfrentam desafios de gestão, relacionados à gestão dos

dados, às reformulações das estruturas organizacionais e à especificidades

decorrentes das parcerias Interorganizacionais criadas para o desenvolvimento dos

projetos.

Os desafios de gestão dos dados e a dificuldade de obter dados na organização marcam

projetos de Big Data. As revisões necessárias na estrutura organizacional para inclusão

de novos cargos e competências também merece atenção. Por fim, é preciso gerir os

projetos de Big Data de acordo com as especificidades das parcerias desenvolvidas, que

determinam que recursos serão alocados no desenvolvimento e de que forma.

6. CONSIDERAÇÕES FINAIS

Após análise da literatura e dos dados obtidos sobre os projetos desenvolvidos na área

pela Petrobras, pode-se concluir que, de fato, existem muitas oportunidades para a

aplicação do Big Data na indústria de óleo e gás, tal como inúmeros desafios.

Não só na indústria de óleo e gás, foco deste estudo, como em diversos outros setores, o

Big Data tem sido explorado por empresas, vide o enorme investimento relacionado às

tecnologias envolvidas.

A contribuição principal desta pesquisa reside na investigação de projetos realizados por

centros de pesquisa sem contrapartida financeira, mas que representam oportunidades

para diferentes organizações.

Ao se investigar oportunidades identificadas pela Petrobras durante o desenvolvimento

dos seus projetos, cinco delas se mostraram bastante alinhadas com a literatura abordada

neste presente estudo: a aplicar Big Data para problemas já tratados por estatísticas

convencionais, permitindo a incorporação de novos dados que não eram considerados

antes; a otimização da produção e melhoria na cadeia de suprimentos, que se enquadram

na categoria “aumento da eficiência operacional e melhor desempenho financeiro”; a

criação de modelos preditivos para previsão de problemas e para manutenção; a

possibilidade de melhoria da tomada de decisão e a obtenção de novos insights.

Além dessas oportunidades, mais quatro oportunidades emergiram durante esta pesquisa.

Para a Petrobras, na parceria com a EMC, existiu a possibilidade de se ter acesso à data

70

scientists, para se estudar possíveis soluções para seus problemas e de se selecionar um

portfólio de projetos com base no interesse da área fim, na quantidade de dados disponível

e no acesso aos dados (sem a exposição de dados sigilosos). Já por parte da EMC², os

projetos desenvolvidos podem gerar produtos de valor para o mercado, além de se obter

o acesso aos dados para poder desenvolver modelos e, posteriormente, transformá-los em

produtos.

Houve consenso na opinião dos entrevistados no sentido de destacar a oportunidade de

aplicação do Big Data na otimização operacional como o principal benefício vislumbrado

na adoção desta ferramenta no contexto da Petrobras.

Todavia, uma série de desafios foram encontrados nas tentativas de explorar os benefícios

destes projetos. Muitos desses desafios já estavam presentes na adoção de outras

tecnologias de análise de dados como o BI e o Analytics. Porém, as características

representadas pelos “Vs” do Big Data escalonam esses problemas, seja quanto à

complexidade da tecnologia a ser usada, quanto à exigência da própria capacidade

humana de interpretação.

Equacionando todos esses fatores, os principais players da indústria de óleo e gás, como

a BP, a Shell, a Schlumberger e a Halliburton, fizeram significativos investimentos na

área, ao contrário do que se esperava de um setor relativamente conservador, apostando

pesado no potencial do Big Data fornecer insights que possam vir a impactar

profundamente na eficiência destas empresas, culminando em corte de custos.

Acompanhando esse desenvolvimento, a EMC estabeleceu o BRDC e focou no

desenvolvimento de pesquisas relacionadas ao Big Data na área de óleo e gás,

aproximando-se naturalmente da Petrobras.

Assim, no segundo eixo deste estudo que gira em torno de quais desafios a Petrobras

encontrou durante o desenvolvimento de seus projetos de pesquisa em Big Data, foram

identificados oito itens, dos quais seis estão de acordo com os citados pelos autores: falta

de padronização de dados; a dificuldade de escrever um problema de otimização com

tantas variáveis (modelar algoritmos que produzam informações pertinentes); a segurança

da informação; gestão de dados (ownership e management); dificuldade de obtenção dos

dados (ligado intimamente com data ownership e validade/qualidade dos dados), e as

dificuldades de adequação da estrutura organizacional,.

71

Durante as entrevistas foram descobertos dois desafios: como os projetos foram feitos

entre centros de pesquisa, faltavam especialista em óleo e gás que pudessem descrever

com precisão os problemas a serem resolvidos. Por não ser um contrato de prestação de

serviço, não há envolvimento dos usuários finais das soluções, e houve dificuldade de

mostrar para a alta direção da Petrobras o valor estratégico dos projetos, pois a tecnologia

ainda é nova. Isto é influenciado pela dificuldade de medir o valor das soluções, que

também é um desafio para a EMC poder lançar produtos no mercado.

Dentre os desafios citados, na opinião dos entrevistados a dificuldade de se obter os

dados, seja pela dispersão e incompletude destes, seja pela forte proteção dos silos

informacionais, transformou o desafio de gestão e custódia de dados o maior desafio.

72

Seguem os quadros das categorias analíticas anteriormente descritas, destacando em

verde as categorias que foram confirmadas no estudo e em vermelho as não encontradas:

Oportunidades Autores

Capacidade de se armazenar, analisar grandes volumes

de informação





(2011)

Análise de informação em tempo real





(2011)

Capacidade de se integrar dados de diversas fontes e

tipos





(2011)

Obtenção de novos insights


Harriott (2013), Simon (2013), Loshin

(2013), Gallant (2011)

Melhora na tomada de decisão

Brown, Chui e Manyika (2011), Davenport

(2014), Gallant (2011), Minelli et al. (2013),

Tankard (2012)

Aumento da eficiência operacional e melhor

desempenho financeiro

Leeflang, Verhoeff et. al. (2014), Davenport

(2014), McAfee e Brynjolfsson (2012),

Minelli et. al. (2013), Novo e Neves (2013),

Silva & Campos (2013), Tankard (2012), Yan

(2013)

Inovação incremental em produtos e serviços já

existentes, e aumento da lealdade dos clientes

Bloem et. al. (2012), Brown, Chui e Manyika

(2011), Davenport (2014), Gallant (2011),

Leeflang, Verhoeff et. al. (2014), McAfee e

Brynjolfsson (2012), Novo e Neves (2013),

Ohlhorst (2013) Ularu, Puican et. al. (2012)

Inovação disruptiva de produtos, serviços e modelos de

negócios

Davenport (2014), McAfee e Brynjolfsson

(2012), McKinsey Global Inst. (2011), Novo

e Neves (2013), Silva & Campos (2013),

Tankard (2012), Ularu, Puican et. al. (2012)

Construção de modelos preditivos


Minelli et al. (2013), Taurion (2012), Novo e

Neves (2013), Gallant (2011), Loshin (2013),

Rajesh (2013), Simon (2013)

Tabela 6: Oportunidades confirmadas vs não confirmadas (Fonte: autor)

73

Desafios Autores

Validade e qualidade dos dados




Harriott (2013), Lam (2013), Barton e Court

(2012), Yin e Kaynak (2015), Jagadish et al.

(2014)

Modelar algoritmos que produzam informações

pertinentes



(2013), Lam (2013), Barton e Court (2012),

Jagadish et al. (2014)

Interpretar os dados de maneira eficiente




Harriott (2013), Yin e Kaynak (2015),

Jagadish et al. (2014), Galbraith (2014),

Falta de especialistas "cientistas de dados"


Taurion (2012), Simon (2013), Minelli et al.

(2013), Jagadish et al. (2014), Barton & Court

(2012), Lam (2013)

Dificuldade de se migrar de um perfil "modo driven"

para "data driven"

Davenport (2014), Harriott (2013), Lam

(2013), Barton & Court (2012)

Custódia, gerenciamento dos dados



e Brynjolfsson (2012), Simon (2013), Lam

(2013), Jagadish et al. (2014)

Segurança dos dados



e Brynjolfsson (2012), Simon (2013)

Infraestrutura de TI

Davenport (2014), Taurion (2012), Simon

(2013), Jagadish et al. (2014), Yin e Kaynak

(2015), Lam (2013)

Dificuldade de se extrair valor



(2013), Yin e Kaynak (2015), Taurion (2012)

Tabela 7: Desafios confirmados vs não confirmados (Fonte: autor)

Sobre as principais limitações desta pesquisa, a primeira é referente ao método utilizado,

pois trata-se de um caso único e exploratório. Portanto, os resultados desta pesquisa não

são generalizáveis. As proposições apresentadas ainda precisam ser validadas em

pesquisas futuras (YIN, 1989).

74

A segunda é que, por ser uma tecnologia ainda em desenvolvimento, as oportunidades e

desafios apresentados por estudiosos relativos ao uso do Big Data podem sofrer

alterações.

E, por último, o presente caso tem uma peculiaridade, pois se trata de projetos de pesquisa

decorrentes de uma parceria interinstitucional. Novamente a extrapolação dos achados

para outras realidades deve considerar as características das parcerias e relações

comerciais subjacentes a implementação.

Vale destacar que, em decorrência dessa peculiaridade em especial, a demanda por

especialistas capazes de prover soluções técnicas complexas por parte da Petrobras foi

suprida pela parceira EMC, mas foi necessária uma maior aproximação desses

especialistas com os especialistas da Petrobras, com o intuito de que estes pudessem

descrever com precisão os problemas a serem resolvidos, ou seja, o que eles realmente

precisavam que os modelos fizessem. Porém criou-se um desafio não previsto na

literatura que foi o impacto tanto no gerenciamento de riscos do projeto, pois como nem

uma parte, nem outra possui uma visão geral do projeto, e sim domínio de partes do

mesmo, dificultando identificar e prever possíveis problemas durante sua execução,

quanto na qualidade das soluções, uma vez que sem o envolvimento de especialistas dos

problemas, muitas informações são ignoradas.

Como sugestão de estudos futuros, sugere-se estudos de caso em contextos distintos sobre

implementação de Big Data, como forma de acumular maior conhecimento sobre estas

implementações. Pode-se também realizar pesquisas qualitativas com profissionais que

lideram estas implementações, de forma a explorar oportunidades e desafios que eles

veem encontrando nestas implementações.

75

7. REFERÊNCIAS

ALLES, MG. Drivers of the Use and Facilitators and Obstacles of the Evolution of Big

Data by the Audit Profession. Accounting Horizons. Junho, 2015.

BARTON, Dominic e COURT, David. Making Advanced Analytics Work for You.

Harvard Business Review online, outubro, 2012.

BAZZOTTI, C.; GARCIA, E.; A Importância do Sistema de Informação Gerencial na

gestão empresarial para tomada de decisões. Ciências Sociais Aplicadas em

Revista, 2006.

BEAUDRY, A; PINSONNEAULT, A. Understanding Users Responses to Information

Technology: A Coping Model of User Adaption. MIS Quarterly, v. 29, n. 3, p. 493-

534, sep., 2005.

BEATH, Cynthia M.; QUADGRAS, Anne e ROSS, Jeanne. You May Not Need Big Data

After All. Harvard Business Review online, dezembro, 2013.

Big Bang, The: How the big data explosion is changing the world.; Microsoft News

Center, 2013. Disponível em <http://www.microsoft.com/en-

us/news/features/2013/feb13/02-11bigdata.aspx> Acesso em: setembro de 2015.

BINGI, P.; SHARMA, M.K.; GODLA, J.K.; Critical Issues affecting an ERP

Implementation. IS Management. 1999

BIEDERMAN, David. Big Data. The Journal of Commerce, março, 2013.

BOTTLES, Kent; BEGOLI, Edmon e WORLEY, Brian. Understanding the Pros and

Cons of Big Data Analytics. Physician Executive, julho/agosto, 2014.

BOUDREAU, Kevin. Big Data Solves Big Problems. Harvard Business Review online,

outubro, 2012.

BOYD, D.; CRAWFORD, K.; Critical questions for Big Data: provocations for a cultural,

technological and scholarly phenomenon. Information, Comunication & Socety,

2012.

BROWN, B.; CHUI, M.; MANYIKA, J.; Are you ready for the era of ‘big data’?

McKinsey Quartertly. Outubro, 2011.

76

BROWN, D. E.. What’s the difference between Business Intelligence and Big Data?

Disponível em Eric D. BROWN: http://ericbrown.com/whats-difference-business-

intelligence-big-data.htm Aessado em 05 de junho de 2014.

BROWN-LIBURD, H; ISSA, H; LOMBARDI, D. Behavioral Implications of Big

Data's Impact on Audit Judgment and Decision Making and Future Research

Directions. Accounting Horizons. 29, 2, 451-468, June 2015. ISSN: 08887993.

BRYNJOLFSSON, Erik e MCAFEE, Andrew. Big Data’s Management Revolution.

Harvard Business Review online, setembro, 2012.

CHEN, H.; CHIANG, R.H.L.; STOREY, V.C.; Business Intelligence and Analyics: From

Big Data o Big Impact. MIS Quarterly, 2012.

CRESWELL, J. Qualitative inquiry and research design: Choosing among five

traditions. Thousand Oaks, CA: Sage, 1998.

Current State of Business Analytics, The: Where do we go from here? Bloomberg

Businessweek Research Services, 2011. Disponível em

<http://www.sas.com/resources/asset/busanalyticsstudy_wp_08232011.pdf>.

Acessado em: março 2015.

DAVENPORT, ; PATIL, D. J. Data Scientist: the sexiest job of the 21st century. Harvard

Business School, 2012.

DAVENPORT, T. Big data at work: dispelling the myths, uncovering the opportunities.

Boston: Harvard Business School Publiching Corporation, 2014.

DAVENPORT, T. H. Competing on Analytics. [S.l.]: Harvard Business School, 2006.

DAVENPORT, T.; BARTH, P.; BEAN, R. How 'Big data' is different. MIT Sloan

Management Review, July 2012.

DE MAURO, A; GRECO, M; GRIMALDI, M. What is Big Data? A Consensual

Definition and a Review of Key Research Topics. AIP Conference Proceedings.

1644, 1, 97-104, Feb. 9, 2015. ISSN: 0094243X.

DEAN, J.; GHEMAWAT, S.; MapReduce: Simplified Data Processing on large clusters.

Communications of the ACM, 2008.

DEVLIN, B.; ROGERS, S.; MYERS, J. Big Data Comes of Age. EMA and 9sight

Consulting Report, 2012.

http://ericbrown.com/whats-difference-business-intelligence-big-data.htm

http://ericbrown.com/whats-difference-business-intelligence-big-data.htm

77

DHOLAKIA, R.R.; DHOLAKIA, N. Scholarly Research in Marketing: Trends and

Challenges in the Era of the Big Data. Disponível em <uri.edu>. Acesso em: 20 julho

2014.

DUTCHER, J.; What Is Big Data? 2014. Disponível em

<https://datascience.berkeley.edu/what-is-big-data/> acessado em janeiro de 2016.

ERICKSON, Scott e ROTHBERG, Helen. Big Data and Knowledge Management:

Establishing a Conceptual Foundation. The Electronic Journal of Knowledge

Management, Volume 12, Issue 2 (pp101-111).

FANG, L.; PATRECIA, S. Critical Success Factors in ERP Implementation. Jönköping

International Business School, 2005. Disponível em: <diva-portal.org> Acesso em:

14 junho 2014.

FINNEY, S.; CORBETT, M. ERP Implementation: A Compilation and Analysis of

Critical Success Factors. Business Process Management Journal, 2007.

FRIEDMAN, H; MARLEY, A. Big Data or Small Data: That is the Question.

Workforce Solutions Review. 6, 6, 4-6, Nov. 2015. ISSN: 21546975.

FREEMAN, L. 2013 in review: Big data, bigger expectations? 2013. Disponível em

<http://blogs.computerworld.com/big-data/23266/2013-review-big-data-cfbdcw>

Acesso em julho de 2014.

FRUCHTERMAN, Jim. Big Data Means More Than Big Profits. Harvard Business

Review online, março, 2013.

GALBRAITH, JR. ORGANIZATION DESIGN CHALLENGES RESULTING FROM

BIG DATA. Journal of Organization Design. 3, 1, 2-13, Jan. 2014. ISSN: 2245408X.

GALLANT,. TIBCO CEO: How Real-Time Computing Will Change the Landscape.

ComputeWorld, 2011.

GALLIERS, R.D.; LEIDNER, D.E. Strategic Information Management. 3ª ed, Oxford,

UK. Elsevier Science, 2003.

GANDOMI, A; HAIDER, M. Beyond the hype: Big data concepts, methods, and

analytics. International Journal of Information Management. 35, 2, 137-144, Apr.

2015. ISSN: 02684012.

78

GARTNER. Glossário de TI, 2012. Disponível em http://www.gartner.com/it-

glossary/big-data/ Acessado em 20/03/2015

GARTNER. Symposium/ITxpo 2015 realizado no início de Outubro em Orlando

www.gartner.com/newsroom Acessado em 20/12/2015

GIDDENS, A; PIERSON, C. Conversations with Anthony Giddens: making sense of

modernity. Cambridge: Polity Press, 1998.

GODOY, Arlida Schmidt. Introdução à pesquisa qualitativa e suas

possibilidades. Rev. adm. empres. [online]. 1995, vol.35, n.2, pp. 57-63.

GOTH, G. Bringing Big Data to the Big Tent. Communications of the ACM. 58, 7, 17-

19, Julho 2015.

GROVES, P.; KAYYALI, B.; KNOTT, D.; VAN KUIKEN, S. The ‘big data’ revolution

in healthcare: Accelerating value and innovation. McKinsey & Company.

Disponível em <www.mckinsey.com> Acesso em: 20 junho 2014.

GUEST, G.; BUNCE, A.; JOHNSON, L. How Many Interviews Are Enough? An

Experiment with Data Saturation and Variability Field Methods, v. 18, n. 1, p. 59-

82, 2006.

GUPTA, R.; GUPTA, S.; SINGHAL, A. Big Data: Overview. International Journal of

Computer Trends and Technology, v.9, n.5, 2014.

GUZZO, RA; et al. Big Data Recommendations for Industrial–Organizational

Psychology. Industrial & Organizational Psychology, Dezembro,. 2015.

HABTE, ML; et al. The Big Data Dilemma: Compliance for the Health Professional in

an Increasingly Data-Driven World. Journal of Health Care Compliance. 17, 3,

5-12, May 2015. ISSN: 15208303.

HALAWEH, M; EL MASSRY, A. Conceptual Model for Successful Implementation of

Big Data in Organizations. Journal of International Technology & Information

Management. 24, 2, 21-34, Apr. 2015. ISSN: 15435962.

HARRIOTT, Jesse. 7 Pillars for Successful Analytics Implementation. Marketing

Insights, spring, 2013.

http://www.gartner.com/it-glossary/big-data/

http://www.gartner.com/it-glossary/big-data/

http://www.gartner.com/newsroom

79

HENRY, R; VENKATRAMAN, S. BIG DATA ANALYTICS THE NEXT BIG

LEARNING OPPORTUNITY. Academy of Information & Management Sciences

Journal. 18, 2, 17-29, June 2015. ISSN: 15325806.

HJ, ROBERTS, PRN, BARRAR; MRPII implementation: key factors for success.

Computer Integrated Manufacturing Systems, 1992.

HOLLAND, C.P.; LIGHT, B.; GIBSON, N. A Critical Success Factors Model for

Enterprise Resource Planning Implementation. ECIS, 1999. Disponível em <

http://www.christopherholland.co.uk/> Acesso em setembro 2015.

IVES, B.; OLSON, M. H. User Involvement and MIS Success: A Review of Research.

Management Science, v. 30, n. 5, p. 586-603, 1984.

JAGADISH, H; et al. Big Data and Its Technical Challenges. Communications of the

ACM. 57, 7, 86-94, July 2014. ISSN: 00010782.

JOBS, CG; AUKERS, SM; GILFOIL, DM. THE IMPACT OF BIG DATA ON YOUR

FIRMS MARKETING COMMUNICATIONS: A FRAMEWORK FOR

UNDERSTANDING THE EMERGING MARKETING ANALYTICS

INDUSTRY. Academy of Marketing Studies Journal. 19, 2, 81-92, June 2015.

ISSN: 15282678.

JOHNSON, Jeanne E. Big Data + Big Analytics = Big Opportunity. Financial Executive

july/august 2012.

JUAN, Z; XIONGSHENG, Y; APPELBAUM, D. Toward Effective Big Data Analysis

in Continuous Auditing. Accounting Horizons, Junho, 2015.

JUN, S; PARK, S; JANG, D. A Technology Valuation Model Using Quantitative Patent

Analysis: A Case Study of Technology Transfer in Big Data Marketing. Emerging

Markets Finance & Trade. 51, 5, 963-974, Sept. 2015. ISSN: 1540496X.

KRAUT, R. Effects of technological change: Quality of employment. In: HARTMANN,

H.; KRAUT, R.; TILLY, L. (Eds.). Computer chips and paper clips: Technology

and women's employment. Washington, DC: National Academy Press, p. 127-165,

1986.

KYUNGHEE, Y; HOOGDUIN, L; Li, Z. Big Data as Complementary Audit Evidence.

Accounting Horizons. Junho, 2015.

80

LABRINIDIS, A.; JAGADISH, H.V. Challenges and Opportunities with Big Data.

Proceedings of the VLDB Endowment, Vol. 5, No. 12, 2012. Disponível em:

<vldb.org> Acesso em: junho 2014.

LAM, S. IS BIG DATA TOO BIG TO HANDLE? (cover story). ComputerWorld Hong

Kong. 15-17, Julho, 2013.

LANEY, D. 3-D Data Management: Controlling Data Volume, Velocity and Variety.

META Group Research Note, 2001. Disponível em <http://goo.gl/Bo3GS> Acesso

em: junho 2014.

LEEFLANG, P.S.H.; VERHOEF, P.C.; DAHLSTRÖM, P.; FREUNDT, T. Challenges

and Solutions for Marketing in a Digital Era. European Management Journal,

n.32, p.1-12, 2014. Elsevier. Disponível em: <http://goo.gl/z1uBzT> Acesso em:

maio 2014.

LYYTIEN, K.; HIRSCHHEIM, R. Information Systems Failures: A Survey and

Classification of the Empirical Literature. Oxford Surveys in Information

Technology (4), 1987, pp. 257-309.

MAJCHRZAK, A.; COTTON, J. A Longitudinal Study of Adjustment to Technological

Change: From Mass to Computer-Automated Batch Production. Journal of

Occupational Psychology, v. 61, n. 1, p. 43-66, 1988.

MARR, B. Big Data In Big Oil: How Shell Uses Analytics To Drive Business Success

Forbes May, 2015.

MCAFEE, A.; BRYNJOLFSSON, E. Big Data: The Management Revolution. Harvard

Business Review, 2012. Disponível em <hbr.org> Acesso em: abril 2014.

MILLINGTON, B; MILLINGTON, R. 'The Datafication of Everything': Toward a

Sociology of Sport and Big Data. Sociology of Sport Journal. 32, 2, 140-160, June

2015. ISSN: 07411235.

MILLER, C.C. Data Science: the numbers of our lives. The New York Times, 11 Abril

2013. Disponível em <biostat.jhsph.edu> Acesso: maio 2014.

MIN, C; CHYCHYLA, R; STEWART, T. Big Data Analytics in Financial Statement

Audits. Accounting Horizons. 29, 2, 423-429, June 2015. ISSN: 08887993.

81

MINELLI, M.; CHAMBERS, M.; DHIRAJ, A. Big Data Big Analytics: Emerging

Business Intelligence and Analytic trends for today's businesses. Hoboken: John Wiley

and Sons Inc., 2013.

MORGAN, J. P. The Proliferation of Data. Challenges and Opportunities. Money

Management Executive, junho, 2012.

MURRAY, M.; COFFIN, G. A Case Study analysis of factors for success in ERP System

implementations. Proceedings of the Seventh Americas Conference on Information

Systems, Boston, p.1012–1018, 2001.

NAH, F.F.H.; LAU, J.L.S.; KUANG J. Critical Factors for Successful Implementation of

Enterprise Systems, 2001. Disponível em <http:/www.emerald-library.com/ft>

Acesso em: abril 2014.

NETO, A. M. F. Fatores relevantes na adoção e uso de Big Data na Prefeitura do Rio de

Janeiro: O caso do P3NS4 - Casa de ideias. Rio de Janeiro, 2015.

NOVO, R.; NEVES, J. M. S. D. Inovação na inteligência analítica por meio do Big

data: característica de diferenciação da abordagem tradicional. VIII Workshop de Pós-

graduação e Pesquisa do Centro Paula Souza. São Paulo: [s.n.]. 2013. p. 32-44.

OHLHORST, F. Big Data Analytics: Turning Big data into Big money. [S.l.]: Wiley,

2013.

Oracle: Big Data for the Enterprise. Oracle White Paper, Junho de 2013. Disponível em

< http://www.oracle.com/us/products/database/big-data-for-enterprise-519135.pdf>

Acesso: setembro 2015.

O’REILLY, T. 2005. “What Is Web 2.0? Design Patterns and Business Models for the

Next Generation of Software.” Disponível em:

http//www.oreillynet.com/pub/a/oreilly/tim/News/2005/09/30/what-is-web-20.html

Acesso em 30 de setembro de 2015.

ORLIKOWSKI, W. J. Using Technology and Constituting Structures: A Practice Lens

for Studying Technology in Organizations. Organization Science, v. 11, n. 4, p. 404-

28, jul./ ago., 2000.

PENTLAND, Alex. Big Data’s Biggest Obstacles. Harvard Business Review online,

outubro, 2012.

82

Po-Chieh, H; Po-Sen, H. WHEN BIG DATA GETS SMALL. International Journal of

Organizational Innovation. 8, 2, 100-117, Oct. 2015. ISSN: 19431813.

POZZEBON, M.; PINSONNEAULT, Alain. Challenges in Conducting Empirical Work

Using Structuration Theory: Learning from IT Research. Organization Studies, v.

26 n. 9, p. 1353-376, 2005.

PR, N. Big Data in Oil & Gas Market 2015-2025: Forecasts by Spending Type

(Hardware, Software, Services & Salaries) and Application Area (Upstream,

Midstream, Downstream & Administration). PR Newswire US. Dec. 9, 2015.

RAMESH, CR; et al. A REPORT ON REDUCING DIMENSIONS FOR BIG DATA

USING KERNEL METHODS. Journal of Theoretical & Applied Information

Technology. 80, 2, 296-303, Oct. 15, 2015. ISSN: 19928645.

REED, DA; DONGARRA, J. Exascale Computing and Big Data. Communications of the

ACM. 58, 7, 56-68, July 2015. ISSN: 00010782.

SALLAM, R. L., RICHARDSON, J., HAGERTY, J. E HOSTMANN, B. 2011. “Magic

Quadrant for Business Intelligence Platforms,” Gartner Group, Stamford, CT.

SCHMARZO, B. Big data: understanding how data powers Big Business. Indianapolis:

John Wiley & Sons, Inc., 2013.

SHAPIRO, Gregory P. Big Data Hype (and Reality). Harvard Business Review online,

outubro, 2012.

SHAW, Jonathan. Why “Big Data” Is a Big Deal. Harvard Magazine online, abril, 2014.

SHVACHKO, K. et al. The Hadoop distributed file system. 26th IEEE Symposium on

Mass Storage Systems and Technologies. [S.l.]: [s.n.]. 2010.

SICULAR, S. Gartners’ Big Data definition consists of three pats, not to be confused with

Three “V’s”. Gartner Inc., 2013. Disponível em

<http://www.forbes.com/sites/gartnergroup/2013/03/27/gartners-big-data-

definition-consists-of-three-parts-not-to-be-confused-with-three-vs/> Acesso em:

junho 2015.

SIMON, P. Too Big too Ignore. Hoboken: John Wiley & sons Inc., 2013.

SPONSELLER, S. Enabling Big Data Benefits Across the Oil and Gas Supply Chain.

Pipeline & Gas Journal. 242, 4, 61-78, Apr. 2015. ISSN: 00320188.

83

STANCIU, V. Consideraţii privind auditul financiar în era Big Data. : Considerations

Regarding Financial Audit in the Big Data Era. Audit Financiar. 13, 128, 3-71,

Aug. 2015. ISSN: 15835812.

TANKARD, C. Big data security. Netwrok security, p. 5-8, July 2012.

TAURION,. Você realmente sabe o que é Big data? IBM, 12 Agosto 2012.

<https://www.ibm.com/developerworks/community/blogs/ctaurion/entry/voce_r

ealmente_sabe_o_que_e_big_data?lang=en>. Acesso em: 2 Maio 2015.

TAURION, C. Entrevista com Cezar Taurion: O estágio atual do Big Data no Brasil.

Disponível em IBM:

https://www.ibm.com/developerworks/community/blogs/bigdata/entry/entrevista

_com_cezar_taurion_o_estagio_atual_do_big_data_no_brasil?lang=en;

Acessado em 06 de junho de 2014.

TENE, O.; POLONETSKY, J. Big Data for All: Privacy and User Control in the age of

Analytics. Northwestern Journal of Technology and Intellectual Property, v.11,

n.5, Abril, 2013.

THE 2011 IBM TECH TRENDS REPORT: Tech Trends of today. Skills for tomorrow.

2011. Disponível em

<http://ai.arizona.edu/mis510/other/2011IBMTechTrendsReport.pdf>. Acesso em:

março 2015.

TOLE, AA. Big Data Challenges. Database Systems Journal. 4, 3, 31-40, July 2013.

ISSN: 20693230.

VASARHELYI, MA; KOGAN, A; TUTTLE, BM. Big Data in Accounting: An

Overview. Accounting Horizons. 29, 2, 381-396, June 2015. ISSN: 08887993.

WARREN, J; MOFFITT, KC; BYRNES, P. How Big Data Will Change Accounting.

Accounting Horizons. 29, 2, 397-407, June 2015. ISSN: 08887993.

YAN, J. Big data, Bigger opportunities. 2012 President Management Council Inter-

agency Rotation Program. [S.l.]: [s.n.]. 2013.

YEO, K.T. Critical Failure Factors in Information System Projects. International

Journal of Project Management, Elsevier, 2002.

https://www.ibm.com/developerworks/community/blogs/bigdata/entry/entrevista_com_cezar_taurion_o_estagio_atual_do_big_data_no_brasil?lang=en

https://www.ibm.com/developerworks/community/blogs/bigdata/entry/entrevista_com_cezar_taurion_o_estagio_atual_do_big_data_no_brasil?lang=en

84

YEOH, W; KORONIUS, A. Critical success factors for business intelligence systems.

Journal of Computer Information Systems, pp.23-32, 2010.

YIN, R.K. Case Study Research: Design and Methods. Sage Publications Inc., 19

YIN, S; KAYNAK, O. Big Data for Modern Industry: Challenges and Trends [Point of

View]. Proceedings of the IEEE. 103, 2, 143-146, Feb. 2015. ISSN: 00189219.

YONG, Cat. Big data - the quest to know the unknown. Enterprise Innovation online,

maio, 2013.

85

ANEXOS

ANEXO I – ROTEIRO DE PESQUISA

Foram utilizados dois roteiros para nortear as entrevistas realizadas, o primeiro tratou da

coleta das informações pertinentes ao caso em geral, referente a primeira entrevista

realizada com o Responsável Geral dos projetos, o segundo trata especificamente das

oportunidades e desafios do Big Data.

Roteiro 1:

1) Identificar a experiência da Petrobras com o Big Data.

2) Motivação da Petrobras em se buscar o Big Data.

3) Buscar informações detalhadas sobre cada projeto de pesquisa.

4) Papel da EMC² nos projetos.

5) Influência da crise atual da Petrobras nos projetos.

Roteiro 2:

1) Funcionamento da parceria EMC² e Petrobras.

2) Oportunidades a serem exploradas.

3) Processo de seleção dos projetos.

4) Desafios previstos e desafios encontrados.

À partir desses dois roteiros, foram criadas perguntas durante as entrevistas com o

objetivo de se obter respostas não induzidas, abrangendo cada tópico em profundidade.

86

ANEXO II – LISTA DE DEFINIÇÕES DE BIG DATA

Lista de definição de Big Data por autores. As dimensões V1, V2, V3, V4, V5, O e T

são, respectivamente, volume, velocidade, variedade, valor, veracidade, outras

dimensões e tecnologias de apoio.

Autores Definição adotada V1 V2 V3 V4 V5 O T

Ammu & Irfanuddin (2013)

"Big Data é uma frase popular usada

para descrever um enorme volume de

dados estruturados e não estruturados,

que é tão grande que é difícil processar

com técnicas tradicionais de banco de

dados e software tradicionais. As

características que em geral distinguem

Big Data são os 3 V's: volume, variedade

e maiores taxas de velocidade" x x x x

Arnold (2012)

"Pode ser definido como quantidades

massivas de conteúdo armazenado

(estruturado ou não) que pode ser

facilmente analisado em tempo real (em

uma quantidade de tempo razóavel

para alcançar uma resposta útil)." x x x

Batty (2013)

"Big data é 'qualquer conjunto de dado

que não pode ser inserido em uma

planilha de Excel'" x x x

BEATH et al. (2012)

"Desafios de armazenar, proteger e

acessar quantidades massivas de

dados" x

Begoli & Horey (2012)

"Refere-se a prática de coletar e

processar conjuntos muitos grandes de

dados e uso de sistemas associados e

algoritmos para a análise desses

conjuntos massivos de dados" x x

Bhatia & Vaswani (2013)

Há inúmeras maneiras de mensurar Big

data - que podem ser baseadas em

volume, variedade, velocidade e valor. x x x x

Bonometti (2012)

"A totalidade de fontes de dados

estruturados e não estruturados, incluso

mídias sociais" x x x

BUGHIN, CHUI, MANYIKA

(2010)

Inundação de dados "como resultado de

maior acesso de dados do consumidor

através de fontes públicas, de

proprietário e pagas, bem como

novas informações advindas de

comunidades web e de novas

implantações de ativos inteligentes" x x

Canary (2013)

Volume, velocidade, variedade, valor,

veracidade x x x x x x

Chang, Kauffman et al. (2013) Volume, velocidade, variedade, valor x x x x

87


Chen & Zhang (2014)

Big Data é uma coleção de conjuntos de

dados muito grandes com uma grande

diversidade de tipos de modo que torna-

se difícil processo usando abordagens de

processamento de dados mais

modernas ou plataformas de

processamento de dados tradicionais. x x x x

Chen, Chiang & Storey (2012)

"Descreve os conjuntos de dados e

técnicas analíticas em aplicações que

são tão grandes (de terabytes para

exabytes) e complexas (de sensor a

dados de mídias sociais) que eles

requerem únicas e avançadas

tecnologias de armazenamento de

dados, administração, análise e

visualização."

x x x x

Cumbley & Church (2013)

Grande parte do debate sobre Big Data

tem sido impulsionada pelo tamanho

(...) Impressionante como são, grande

quantidade de dados eletrônicos é de

pouca utilidade em si. Uma parte

importante do movimento de Big Data

são as novas tecnologias que vem sendo

usadas para extrair informações

significativas (...) volumes de dados

atuais não estão sendo impulsionadas

por dados estruturados tradicionais,

mas por uma explosão de dados não

estruturados ou semi-estruturados. x x x

Davenport (2012)

Dados demasiadamente volumosos ou

muito desestruturados para serem

gerenciados e analisados através de

meios tradicionais x x x

Deloitte (2013)

Volume, Velocidade, variedade,

veracidade, viabilidade, valor x x x x x x

Emerald Group (2013)

"Identifica[...] Big Data [...] como os 3

V's: volume, variedade e velocidade" x x x

88


Evers (2014)

"Big Data, de um ponto de vista

organizacional, são dados de múltiplas

fontes e bases de dados, incluindo

estruturado, bem como dados não

estruturados. (...) Do ponto de vista

tecnológico, Big data engloba grandes

volumes, variedade e velocidade de

dados que não podem ser corretamente

processados e analisadas por meio de

técnicas convencionais, e, assim, inclui

técnicas avançadas necessárias para

processar esses dados, tais como o

processamento paralelo." x x x x

Fernandes, O'Connor &

Weaver (2015)

"Big Data pode ser definid por suas

características básicas, por vezes

referida como os 3 V's: volume,

velocidade e variedade" x x x

Freitas Junior & Maçada

(2014)

Observa-se que foram apresentadas

citações de autores mais recentes, que

vêm estudando o tema nos últimos três

anos, assim, com base no quadro acima,

pode-se notar uma similaridade nos

conceitos, que podem ser sintetizados

como sendo um grande volume de

dados estruturados ou não, de fontes

diversas, que devem ser gerenciados e

analisados de forma peculiar. x x x

French (2012)

"A disponibilidade de vastas

quantidades de dados de todos os tipos

e o aumento de velocidade e poder de

máquinas para analisar esses dados" x x x

Gantz & Reinsel (2012)

"'Tecnologias de Big Data' descreve uma

nova geração de tecnologias e

arquiteturas, concebidas para extrair

economicamente valor de volumes

muito grandes de uma ampla variedade

de dados, permitindo a alta velocidade

de captura, descoberta, e / ou análise. x x x x x

Gartner Group (2012)

“Big Data, em geral, é definido como

ativos de alto volume, velocidade e

variedade de informação que exigem

custo-benefício, de formas inovadoras

de processamento de informações para

maior visibilidade e tomada de decisão.” x x x x

89


Gobble (2013)

"Quando são tão grandes [os dados]

que os sistemas tradicionais não

conseguem lidar." x x

Gordon-Murdane (2012)

"Não é apenas aumento na quantidade

e tipos de dados, é também

melhores ferramentas para armazenar,

agregar, combinar, analisar, e extrair

novas idéias." x x

Griffin (2012)

"É importante notar que big data é

muito mais do que mídias sociais. É

dados estruturados e não estruturados

residindo em bases de dados em

múltiplas regiões geográficas. É texto em

formulários Web e PDFs, e é

email e todas as formas de outros

documentos." x

Grunes & Stcke (2015)

Big data é frequentemente caracterizada

por quatro "Vs": volume, velocidade,

variedade e valor. x x x x

HBR (2013)

"Big Data" é um termo usado para

descrever o novo volume, variedade e

velocidade de dados que agora enfrenta

empresas x x x

IBM (2014)

"Volume, velocidade, variedade e

veracidade" x x x x

Jacobs (2009)

"Big data deve ser definida em qualquer

ponto no tempo, como 'dados cujo

tamanho nos obriga a olhar para além

dos métodos experimentados e

verdadeiros que são predominantes

naquela época'. Hoje em dia, isso pode

significar que os dados é muito grande

para ser colocado em um banco de

dados relacional" x

Kaisler, Armour at al. (2013)

"Características de Big Data:" variedade,

volume, velocidade, valor, complexidade x x x x x

Katal, Wazid & Goudar (2013)

"Big data pode ser definida com as

seguintes propriedades associadas a

ele:" variedade, volume, velocidade,

variabilidade, complexidade, valor x x x x x x

Kraska (2013)

"É quando o aplicativo normal da

tecnologia atual não permite aos

usuários obter no tempo correto, com

custo eficaz e com respostas de

qualidade a perguntas orientadas por

dados." x x x

90


Kumar & Vidhyalakshmi

(2012)

"Volume, variedade e velocidade são os

três principais fatores de Big Data" x x x

Kwon, Lee & Shin (2014)

"Caracterizado em volume, variedade,

velocidade e valor, 'big data' é

considerado por profissionais da

indústria como o próximo 'blue ocean' de

oportunidades de negócios. Definimos

grandes tecnologias de análise de dados

(por exemplo, banco de dados e

ferramentas de mineração de dados) e

técnicas (por exemplo, métodos

analíticos) que uma empresa pode

empregar para analisar dados em

grande escala, dados complexos para

várias aplicações de modo a aumentar o

desempenho da empresa em várias

dimensões" x x x x x

Leeflang, Verhoef et al.

(2014)

"Por big data queremos dizer conjuntos

de dados tão grande e complexo que se

torna difícil para processar usando

ferramentas de gerenciamento de banco

de dados tradicionais ou aplicações de

processamento de dado" x x x x

Lima Junior (2012)

"Big data" refere-se ao conjunto de

dados (dataset) cujo tamanho está

além da habilidade de ferramentas

típicas de banco de dados em capturar,

gerenciar e analisar." x x

Lohr (2012)

"Refere-se à inundação crescente de

dados digitais de muitas fontes,

incluindo a internet, sensores biológicos

e industriais, videos, email e redes

sociais de comunicação." x x

Lopez (2012)

"Existem muitas definições de big data ,

mas a maioria dos especialistas

concordam em três características

fundamentais: volume, velocidade e

variedade. Outro aspecto chave,

frequentemente negligenciado, é custo." x x x

Lyon (2014)

"...huge volume, consisting of terabytes

or petabytes of data; high velocity, being

created in or near real time; extensive

variety, both structured and

unstructured;..." x x x

Maçada & Canary (2013) Apresentado em tabela x x x x x

91


Madden (2012)

"Dados que são em grandes

quantidades, muito rápidos e muito

difíceis para as ferramentas atuais de

processamento" x x x x

Mahrt & Scharkow (2013)

"Denotam um maior conjunto de dados

ao longo do tempo, conjuntos de dados

estes que são grandes demais para

serem manipulados por infraestruturas

de armazenamento e processamento

regulares" x x

MANYIKA et al.

(2011)

"Conjunto de dados cujo tamanho está

além da habilidade de típicas

ferramentas de software de base de

dados para capturar, armazenar,

administrar e analisar"

Marshall (2012)

"Muito grande para ser observado de

perto" x

Michael & Miller (2013)

"Big Data reúne não apenas grandes

quantidades de dados, mas também

vários tipos de dados que anteriormente

nunca teria sido consideradas em

conjunto. Estes fluxos de dados exigem

cada vez maior velocidade de

processamento, mas devem ser

armazenados economicamente" x x x x

Minelli et al. (2013)

"A indústria tem uma definição

evoluindo em torno de Big Data que está

definido por três dimensões:

1. Volume

2. Variedade

3. Velocity" x x x

More, Chaudhary et al. (2013)

"'Big Data' refere-se a conjuntos de

dados, cujo tamanho é além da

capacidade de captura, armazenagem,

gerenciamento e análise do típico

software de banco de dados" x x

NewVantagePartners (2013)

"Big Data é um termo usado para

descrever conjuntos de dados tão

grandes, tão complexos ou que

requeiram tratamento rápido (...) que se

tornam difícil ou impossível de trabalhar

com o uso de gestão de banco de dados

padrão ou ferramentas analíticas.

Manipulando conjuntos de dados como

estes muitas vezes exigem software

maciçamente paralelo em execução em

dezenas, centenas ou até milhares de

servidores" x x x x

92


Novo & Neves (2013)

"Comparando os exemplos aqui listados

é possível identificar as três dimensões

do big data (volume, velocidade e

variedade) presentes" x x x

Pospiech & Feldens (2012)

"Um desafio de uma relação

desfavorável entre dados disponíveis e

tecnologias de informação ou conceitos

atuais." x x

Preimesberger (2011)

"Um crescente número de conjunto de

dados empresariais de tamanhos

colossais e toda a tecnologia necessária

para criar, armazenar, cruzar,

analisar, arquivar e recuperar esses

dados empresariais." x x x x

PwC (2014)

A recente onda de informação eletrônica

produzida em maior volume por um

número crescente de fontes (ou seja,

não apenas os dados coletados por uma

organização particular no curso de

negócios normal). x x

Raghupathi & Raghupathi

(2014)

"Por definição, Big data em saúde refere-

se a dados de saúde electrônicos tão

grandes e complexos que é difícil (ou

impossível) de gerenciar com software e

/ ou hardware tradicional; nem podem

ser facilmente gerenciadas com

ferramentas e métodos de gestão de

dados tradicionais ou comuns" x x x x

Ribeiro (2014)

A abordagem de Big Data está

apoiada em quatro outros fatores de

sustentação, conhecidos como os 4 Vs

do

Big Data: Volume, Variedade,

Velocidade e Veracidade (...)Uso de

tecnologias específicas, tais como

processamento de

rotinas em paralelo e ferramentas

para otimização como Hadoop e

MapReduce, HDFS, além de

abordagens de MachineLearning e

Analytics. x x x x x

Rogers (2011)

"Conjuntos de dados que não podem

mais ser facilmente administrados ou

analisados com ferramentas, métodos

ou infraestruturas tradicionais ou

comuns de administração de dados." x x

93


Silva & Campos (2014)

As definições existentes na literatura

para o Big Data convergem para os

seguintes fatos, a utilização de

diferentes fontes, tipos de dados e

características que se refere ao volume,

variedade e velocidade x x x

Singh & Singh (2012)

"Conjunto de dados que continuam a

crescer tanto que torna difícil de

administrá-los usando conceitos e

ferramentas existentes de administração

de base de dados." x x

Tabuena (2012)

"Big data não é apenas sobre tamanho.

Big data é realmente sobre ferramentas

de dados do tipo analytics." x x

Tankard et al (2012)

"Refere-se à quantidade de informações

cada vez maiores que as organizações

estão armazenando, processando e

analisando, devido ao crescente número

das fontes de informações em uso." x x

Taurion (2012)

O que é Big Data? Outro dia escrevi um

post com uma fórmula simples para

conceitualizálo. Big Data = volume +

variedade + velocidade. Hoje adiciono

mais dois “V”s: veracidade e valor. x x x x x

TechAmerica Foundation

(2012)

"Big Data é um termo que descreve

grandes volumes de alta velocidade,

complexo e variáveis de dados que

exigem técnicas e tecnologias avançadas

para permitir a captura,

armazenamento, distribuição, gestão e

análise da informação" x x x x

Tole (2013)

"Os 3 V's de Laney [volume, velocidade e

variedade] [...] representam elementos-

chave que são considerados vitais sobre

as características dos sistemas de Big

Data. (...) Depois dos 3 V's de Laney,

"mais dois" V's de [valor e veracidade]

foram adicionados como aspectos

fundamentais dos sistemas de Big

Data". x x x x x

94


Ularu, Puican et al. (2012)

Há uma série de definições sobre Big

Data em circulação no mundo, mas

consideramos que o mais importante é

aquela que cada líder dá aos dados de

sua empresa. A maneira que Big Data é

definida tem implicação na estratégia de

uma empresa. Cada líder tem que definir

o conceito, a fim de trazer vantagem

competitiva para a empresa. x x x x x x x

Villars, Olofson & Eastwood

(2011)

(...) é possível que alguns funcionários

brilhante em sua organização lidem

efetivamente com a variedade muitos

dados, volume, e os problemas de

velocidade. Por definição, a taxa de

crescimento Big Data excede as

capacidades de infra-estrutura de TI

tradicional e representa grande parte de

computação e gerenciamento de dados

de problemas para os clientes. x x x x

Xexeo (2013)

Há consenso de que três dessas

características, as iniciadas pelos três

‘Vs’, são as principais: volume,

velocidade e variedade (...) A partir

desses três ‘Vs’, diversos autores

propõem ainda outros conceitos, como

veracidade, variabilidade ou valor. x x x x x x

Yan (2013)

Um esclarecimento a ser feito nas

discussões sobre o conceito de Big data é

que o termo pode se referir tanto a

grandes e/ou diversas bases de dados,

ou para tecnologias de lidar com esses

tipos de conjuntos de dados. x x x

oportunidades e desafios para projetos de big data… · como referência a esses dados massivos,...

Documents