lab 2 mapreduce e o console web - ibm.com filelab 2 –mapreduce e o console web ... onde...

10
1 ©2011 BigDataUniversity.com Lab 2 MapReduce e o Console Web Objetivos do Laboratório Neste laboratório você irá praticar o que você aprendeu nesta lição, mais especificamente você ira praticar as operações de MapReduce e aprender sobre o Console Web do BigInsights. Instruções para este Laboratório Este laboratório foi criado como um tutorial. Simplesmente, execute os comandos dados e analise os resultados. O BigInsights de ser inicializado antes de se começar a trabalhar com este laboratório (Veja em “Lab 0 – Setup” para obter as instruções de como inicializar o BigInsights O que e a tarefa WordCount? WordCount é um exemplo de MapReduce do Hadoop que está com a documentação de código livre Apache. Executando a tarefa WordCount 1. Primeiro, precisamos copiar os arquivos com dados para o sistema HDFS: > hadoop fs -put /BigDataUniversity/input/statsFed/ /input 2. Agora, podemos chamar a tarefa wordcount com o seguinte comando, onde “/input” diz onde estão os arquivos e “output” informa o diretório para armazenar a saída da tarefa. > hadoop jar /opt/ibm/biginsights/IHC/hadoop-0.20.2-examples.jar wordcount /input output

Upload: doanphuc

Post on 20-Sep-2018

227 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Lab 2 MapReduce e o Console Web - ibm.com fileLab 2 –MapReduce e o Console Web ... onde “/input” diz onde estão os arquivos e “output” informa o ... 9 ©2011 BigDataUniversity.com

1 ©2011 BigDataUniversity.com

Lab 2 –MapReduce e o Console Web

Objetivos do Laboratório Neste laboratório você irá praticar o que você aprendeu nesta lição, mais especificamente você ira

praticar as operações de MapReduce e aprender sobre o Console Web do BigInsights.

Instruções para este Laboratório Este laboratório foi criado como um tutorial. Simplesmente, execute os comandos dados e analise os

resultados.

O BigInsights de ser inicializado antes de se começar a trabalhar com este laboratório (Veja em “Lab 0 –

Setup” para obter as instruções de como inicializar o BigInsights

O que e a tarefa WordCount? WordCount é um exemplo de MapReduce do Hadoop que está com a documentação de código livre

Apache.

Executando a tarefa WordCount

1. Primeiro, precisamos copiar os arquivos com dados para o sistema HDFS:

> hadoop fs -put /BigDataUniversity/input/statsFed/ /input

2. Agora, podemos chamar a tarefa wordcount com o seguinte comando,

onde “/input” diz onde estão os arquivos e “output” informa o

diretório para armazenar a saída da tarefa.

> hadoop jar /opt/ibm/biginsights/IHC/hadoop-0.20.2-examples.jar

wordcount /input output

Page 2: Lab 2 MapReduce e o Console Web - ibm.com fileLab 2 –MapReduce e o Console Web ... onde “/input” diz onde estão os arquivos e “output” informa o ... 9 ©2011 BigDataUniversity.com

2 ©2011 BigDataUniversity.com

Nota:

Se você está usando uma IBM SmartCloud Enterprise, o caminho para wordcount é outro. Chame este

comando:

> hadoop jar /mnt/biginsights/opt/ibm/biginsights/IHC/hadoop-0.20.2-

examples.jar wordcount /input output

3. Agora reveja o resultado da etapa 2

Page 3: Lab 2 MapReduce e o Console Web - ibm.com fileLab 2 –MapReduce e o Console Web ... onde “/input” diz onde estão os arquivos e “output” informa o ... 9 ©2011 BigDataUniversity.com

3 ©2011 BigDataUniversity.com

> hadoop fs -ls output

Note que o resultado foi dividido em vários arquivos. Veja o conteúdo de cada um destes

arquivos:

> hadoop fs –cat output/*00

Page 4: Lab 2 MapReduce e o Console Web - ibm.com fileLab 2 –MapReduce e o Console Web ... onde “/input” diz onde estão os arquivos e “output” informa o ... 9 ©2011 BigDataUniversity.com

4 ©2011 BigDataUniversity.com

4. Você pode inspecionar esta tarefa de forma mais detalhada

navegando pelo Console Web do BigInsights. Abra o seu navegador (e.g., o Firefox) e

vá para o seguinte endereço: http://localhost:8080/BigInsights

Nota:

Se você estiver trabalhando na nuvem, assegure se que tenha trocado o “localhost” pelo

endereço de IP da sua instância na nuvem.

5. Clique na aba jobs no topo esquerdo da página.

Page 5: Lab 2 MapReduce e o Console Web - ibm.com fileLab 2 –MapReduce e o Console Web ... onde “/input” diz onde estão os arquivos e “output” informa o ... 9 ©2011 BigDataUniversity.com

5 ©2011 BigDataUniversity.com

6. Você devera ver uma tabela contendo um histórico das tarefas que você executou. Selecione a

linha com o Nome Word count (deve ser a primeira linha) e depois clique no botão View Job.

Você deve se deparar com a seguinte tela:

A seção superior rosa mostra todas as informações gerais da tarefa (por exemplo: hora de

inicialização/hora de encerramento). Já, a secção azul mostra um sumário de todas as operações

executadas para uma dada operação. Por exemplo, você pode ver que foram executadas 4

operações Map e 8 operações Reduce. Além disso, as 8 operações Reduce correspondem a

saída dos 8 arquivos da etapa 3.

Page 6: Lab 2 MapReduce e o Console Web - ibm.com fileLab 2 –MapReduce e o Console Web ... onde “/input” diz onde estão os arquivos e “output” informa o ... 9 ©2011 BigDataUniversity.com

6 ©2011 BigDataUniversity.com

7. Clique no botão Job Counters para ver os detalhes como o número de bytes lidos e escritos, o número de registro dos vários tipos de entrada e saída que foram produzido pelo framework MapReduce e etc... Caso necessário, vá para a janela de pop-up para que possa melhor se familiarizar como os vários dados estatísticos coletados.

8. Clique no botão Job Conf… para ver as informações dos parâmetros de configuração que estão associados com esta tarefa

Inspecione o arquivo.xml mostrado no painel inferior; rolando a tela para baixo , caso necessário, para verificar as informações coletadas. A informação de configuração é fornecida pelos elementos property que consistem em pares de nome/valor. Mais ou menos no meio do arquivo, você ira encontrar uma propriedade nomeada de mapred.job.name e um valor de word count. Isto corresponde ao nome da sua tarefa.

Page 7: Lab 2 MapReduce e o Console Web - ibm.com fileLab 2 –MapReduce e o Console Web ... onde “/input” diz onde estão os arquivos e “output” informa o ... 9 ©2011 BigDataUniversity.com

7 ©2011 BigDataUniversity.com

9. É recomendado que você perca alguns minutos explorando todos os logs e detalhes disponíveis nas páginas Job Details.

Page 8: Lab 2 MapReduce e o Console Web - ibm.com fileLab 2 –MapReduce e o Console Web ... onde “/input” diz onde estão os arquivos e “output” informa o ... 9 ©2011 BigDataUniversity.com

8 ©2011 BigDataUniversity.com

Trabalhando com o Console Web

Inspecionando a integridade geral do seu sistema

1. Clique na aba Administration no canto esquerdo. A maior parte das tarefas é feitas a partir

desta visão.

2. Inspecione o conteúdo do Dashboard Summary que está logo abaixo da aba Administration. 3. Perceba que este painel apresenta o número de nós no seu cluster e também o número de erros

e avisos que foram relatados. A linha final apresenta o estado geral do seu sistema. Neste exemplo, o painel mostra um estado de total integridade num ambiente de um único nó.

4. Inspecione o Start Stop Summary na direita do painel. Ele mostra se todos os componentes instalados estão ligados e rodando. Perceba, como mostrado na figura abaixo, que o seu ambiente BigInsights pode estar íntegro mesmo que um ou mais componentes opcionais tenham sido suspensos.

Page 9: Lab 2 MapReduce e o Console Web - ibm.com fileLab 2 –MapReduce e o Console Web ... onde “/input” diz onde estão os arquivos e “output” informa o ... 9 ©2011 BigDataUniversity.com

9 ©2011 BigDataUniversity.com

5. Inspecione o painel Server Administration abaixo do painel Dashboard Summary. Clique no menu lista suspensa (Selecione View) para ter uma visão dos componentes. Esta tela mostra os componentes instalados e seus respectivos estados inicializar/suspender.

6. Selecione a caixa de seleção de um componente de sua escolha e clique no botão Status Details.

Um pop-up deve aparecer com as informações sobre o componente que selecionado, conforme mostrado na figura. (O relatório que você irá ver pode variar dependendo do componente selecionado e o seu estado de operação.)

Page 10: Lab 2 MapReduce e o Console Web - ibm.com fileLab 2 –MapReduce e o Console Web ... onde “/input” diz onde estão os arquivos e “output” informa o ... 9 ©2011 BigDataUniversity.com

10 ©2011 BigDataUniversity.com

Inicializando e suspendendo um componente 1. Na secção Components no canto inferior esquerdo, realce HBase e clique no botão Stop para

parar o servidor HBase.

2. Após o console informar que HBase foi suspenso, clique no botão Start para inicializar o serviço novamente.

------ Fim deste laboratório. ------