lab 2 mapreduce e o console web - ibm.com filelab 2 –mapreduce e o console web ... onde...
TRANSCRIPT
1 ©2011 BigDataUniversity.com
Lab 2 –MapReduce e o Console Web
Objetivos do Laboratório Neste laboratório você irá praticar o que você aprendeu nesta lição, mais especificamente você ira
praticar as operações de MapReduce e aprender sobre o Console Web do BigInsights.
Instruções para este Laboratório Este laboratório foi criado como um tutorial. Simplesmente, execute os comandos dados e analise os
resultados.
O BigInsights de ser inicializado antes de se começar a trabalhar com este laboratório (Veja em “Lab 0 –
Setup” para obter as instruções de como inicializar o BigInsights
O que e a tarefa WordCount? WordCount é um exemplo de MapReduce do Hadoop que está com a documentação de código livre
Apache.
Executando a tarefa WordCount
1. Primeiro, precisamos copiar os arquivos com dados para o sistema HDFS:
> hadoop fs -put /BigDataUniversity/input/statsFed/ /input
2. Agora, podemos chamar a tarefa wordcount com o seguinte comando,
onde “/input” diz onde estão os arquivos e “output” informa o
diretório para armazenar a saída da tarefa.
> hadoop jar /opt/ibm/biginsights/IHC/hadoop-0.20.2-examples.jar
wordcount /input output
2 ©2011 BigDataUniversity.com
Nota:
Se você está usando uma IBM SmartCloud Enterprise, o caminho para wordcount é outro. Chame este
comando:
> hadoop jar /mnt/biginsights/opt/ibm/biginsights/IHC/hadoop-0.20.2-
examples.jar wordcount /input output
…
3. Agora reveja o resultado da etapa 2
3 ©2011 BigDataUniversity.com
> hadoop fs -ls output
Note que o resultado foi dividido em vários arquivos. Veja o conteúdo de cada um destes
arquivos:
> hadoop fs –cat output/*00
…
4 ©2011 BigDataUniversity.com
4. Você pode inspecionar esta tarefa de forma mais detalhada
navegando pelo Console Web do BigInsights. Abra o seu navegador (e.g., o Firefox) e
vá para o seguinte endereço: http://localhost:8080/BigInsights
Nota:
Se você estiver trabalhando na nuvem, assegure se que tenha trocado o “localhost” pelo
endereço de IP da sua instância na nuvem.
5. Clique na aba jobs no topo esquerdo da página.
5 ©2011 BigDataUniversity.com
6. Você devera ver uma tabela contendo um histórico das tarefas que você executou. Selecione a
linha com o Nome Word count (deve ser a primeira linha) e depois clique no botão View Job.
Você deve se deparar com a seguinte tela:
A seção superior rosa mostra todas as informações gerais da tarefa (por exemplo: hora de
inicialização/hora de encerramento). Já, a secção azul mostra um sumário de todas as operações
executadas para uma dada operação. Por exemplo, você pode ver que foram executadas 4
operações Map e 8 operações Reduce. Além disso, as 8 operações Reduce correspondem a
saída dos 8 arquivos da etapa 3.
6 ©2011 BigDataUniversity.com
7. Clique no botão Job Counters para ver os detalhes como o número de bytes lidos e escritos, o número de registro dos vários tipos de entrada e saída que foram produzido pelo framework MapReduce e etc... Caso necessário, vá para a janela de pop-up para que possa melhor se familiarizar como os vários dados estatísticos coletados.
8. Clique no botão Job Conf… para ver as informações dos parâmetros de configuração que estão associados com esta tarefa
Inspecione o arquivo.xml mostrado no painel inferior; rolando a tela para baixo , caso necessário, para verificar as informações coletadas. A informação de configuração é fornecida pelos elementos property que consistem em pares de nome/valor. Mais ou menos no meio do arquivo, você ira encontrar uma propriedade nomeada de mapred.job.name e um valor de word count. Isto corresponde ao nome da sua tarefa.
7 ©2011 BigDataUniversity.com
9. É recomendado que você perca alguns minutos explorando todos os logs e detalhes disponíveis nas páginas Job Details.
8 ©2011 BigDataUniversity.com
Trabalhando com o Console Web
Inspecionando a integridade geral do seu sistema
1. Clique na aba Administration no canto esquerdo. A maior parte das tarefas é feitas a partir
desta visão.
2. Inspecione o conteúdo do Dashboard Summary que está logo abaixo da aba Administration. 3. Perceba que este painel apresenta o número de nós no seu cluster e também o número de erros
e avisos que foram relatados. A linha final apresenta o estado geral do seu sistema. Neste exemplo, o painel mostra um estado de total integridade num ambiente de um único nó.
4. Inspecione o Start Stop Summary na direita do painel. Ele mostra se todos os componentes instalados estão ligados e rodando. Perceba, como mostrado na figura abaixo, que o seu ambiente BigInsights pode estar íntegro mesmo que um ou mais componentes opcionais tenham sido suspensos.
9 ©2011 BigDataUniversity.com
5. Inspecione o painel Server Administration abaixo do painel Dashboard Summary. Clique no menu lista suspensa (Selecione View) para ter uma visão dos componentes. Esta tela mostra os componentes instalados e seus respectivos estados inicializar/suspender.
6. Selecione a caixa de seleção de um componente de sua escolha e clique no botão Status Details.
Um pop-up deve aparecer com as informações sobre o componente que selecionado, conforme mostrado na figura. (O relatório que você irá ver pode variar dependendo do componente selecionado e o seu estado de operação.)
10 ©2011 BigDataUniversity.com
Inicializando e suspendendo um componente 1. Na secção Components no canto inferior esquerdo, realce HBase e clique no botão Stop para
parar o servidor HBase.
2. Após o console informar que HBase foi suspenso, clique no botão Start para inicializar o serviço novamente.
------ Fim deste laboratório. ------