status da t2-uerj equipe técnica: douglas milanez eduardo revoredo josé afonso sanches...

18
Status da T2- UERJ Equipe técnica: Douglas Milanez Eduardo Revoredo José Afonso Sanches Estagiários Luiz Gustavo Dornellas Renata Salles Colaboração CERN: Alan Malta e Ana Franco

Upload: internet

Post on 22-Apr-2015

105 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Status da T2-UERJ Equipe técnica: Douglas Milanez Eduardo Revoredo José Afonso Sanches Estagiários Luiz Gustavo Dornellas Renata Salles Colaboração CERN:

Status da T2-UERJEquipe técnica: Douglas Milanez

Eduardo RevoredoJosé Afonso Sanches

EstagiáriosLuiz Gustavo Dornellas

Renata Salles

Colaboração CERN: Alan Malta e Ana Franco

Page 2: Status da T2-UERJ Equipe técnica: Douglas Milanez Eduardo Revoredo José Afonso Sanches Estagiários Luiz Gustavo Dornellas Renata Salles Colaboração CERN:
Page 3: Status da T2-UERJ Equipe técnica: Douglas Milanez Eduardo Revoredo José Afonso Sanches Estagiários Luiz Gustavo Dornellas Renata Salles Colaboração CERN:

 

Infraestrutura atualCluster

• Três racks contendo 53 servidores de processamento

com 464 núcleos de processamento;

•Um total de 450 TB para armazenamento de dados;

• Servidores adicionais dedicados a disponibilização dos serviços de Grid:

o Transferência de dados (PhEDEx + GridFTPs);

o Submissão de jobs (compute elements Condor);

o Armazenamento distribuído (hadoop);

o Servidor web, servidor de nomes, servidor de

contas dos usuários, servidor de autenticação dos

usuários da Grid, servidor de monitoramento;

Infraestrutura atual

Imagem da sala do cluster com os servidores distribuídos em racks

Ano Núcleos Armazenamento HEP - SPEC

Final 2012 464 450 TB 3,55 K

Final 2013 596 950 TB 9,0 K

Page 4: Status da T2-UERJ Equipe técnica: Douglas Milanez Eduardo Revoredo José Afonso Sanches Estagiários Luiz Gustavo Dornellas Renata Salles Colaboração CERN:

Infraestrutura atual

Sala de controle e de terminais do CMS

Dois monitores de grande visibilidade

Quatro estações de monitoramento com seis monitores de 22 polegadas. 

Seis terminais de submissão e análise de jobs

Imagens da sala de controle (abaixo) e de análise de dados (a direita) do CMS.

Page 5: Status da T2-UERJ Equipe técnica: Douglas Milanez Eduardo Revoredo José Afonso Sanches Estagiários Luiz Gustavo Dornellas Renata Salles Colaboração CERN:

Eficiência semanal dos jobs em 2012 (até novembro)

Page 6: Status da T2-UERJ Equipe técnica: Douglas Milanez Eduardo Revoredo José Afonso Sanches Estagiários Luiz Gustavo Dornellas Renata Salles Colaboração CERN:

Total de jobs executados pela T2-UERJ em 2012

148 K jobs de análise

54K + 136K jobs de produção (MC)

Page 7: Status da T2-UERJ Equipe técnica: Douglas Milanez Eduardo Revoredo José Afonso Sanches Estagiários Luiz Gustavo Dornellas Renata Salles Colaboração CERN:

Número de eventos processados (análise) em 2012

Page 8: Status da T2-UERJ Equipe técnica: Douglas Milanez Eduardo Revoredo José Afonso Sanches Estagiários Luiz Gustavo Dornellas Renata Salles Colaboração CERN:

Interrupções do enlace externo no final de 2012

• Indisponibilidade da conexão externa em 06.07.2012 devido a um rompimento de fibra entre UERJ e o PoP-RJ (duração: 21 dias);

• Devido ao mesmo problema, a conexão caiu novamente em 27.11.2012, (duração 192 dias);

Page 9: Status da T2-UERJ Equipe técnica: Douglas Milanez Eduardo Revoredo José Afonso Sanches Estagiários Luiz Gustavo Dornellas Renata Salles Colaboração CERN:

Atitudes para recuperação do link

• Após a confirmação da indisponibilidade de acesso em 27.11.2012, entramos em contato com o Luciano Martins (responsável alocado no CPqD);

• Após muita insistência para a solução do problema com o Luciano, soubemos que a operadora Oi não tem atendido prontamente os chamados de manutenção para este trecho de fibra que une a UERJ ao POP-RJ (localizado na Urca);

• Durante esse período , ficou claro que a Oi demonstrou total desinteresse na resolução do caso.

Page 10: Status da T2-UERJ Equipe técnica: Douglas Milanez Eduardo Revoredo José Afonso Sanches Estagiários Luiz Gustavo Dornellas Renata Salles Colaboração CERN:

RedeCOMEP na UERJ• Paralelamente a este problema, aconteciam reuniões mensais

a respeito da implantação da RedeCOMEP, cujo anel terá velocidade de 10Gbps;

• A UERJ será um ponto de presença (PoP) deste anel, portanto terá papel importante no funcionamento da RedeCOMEP;

• Atualmente, a RedeCOMEP está em fase de testes em alguns trechos, da qual a UERJ participa;

• Mais informações: http://www.redecomep.rnp.br/

Page 11: Status da T2-UERJ Equipe técnica: Douglas Milanez Eduardo Revoredo José Afonso Sanches Estagiários Luiz Gustavo Dornellas Renata Salles Colaboração CERN:

RedeCOMEP na UERJ• Neste meio tempo, o Santoro entrou em contato com o

Márcio Albuquerque (CBPF), coordenador técnico da RedeCOMEP, para conhecermos mais detalhes do projeto;

• Durante a reunião, o Márcio sugeriu a possibilidade de usarmos, em caráter provisório, um par de fibras da RNP que está inserido no anel da RedeCOMEP;

• Iniciamos uma conversa com a RNP que decidiu após uma reunião de diretoria (colaboração do Michael Stanton) que o projeto poderia usar as fibras até que a RedeCOMEP seja capaz de suportar o tráfego gerado pelo cluster;

Page 12: Status da T2-UERJ Equipe técnica: Douglas Milanez Eduardo Revoredo José Afonso Sanches Estagiários Luiz Gustavo Dornellas Renata Salles Colaboração CERN:

Problemas com os switches/RNP

• A partir desta decisão, iniciamos a configuração dos equipamentos envolvidos;

• Nesta fase, houve dificuldades, pois o switch usado para conexão com o PoP-RJ começou a apresentar defeito e seria necessário substituí-lo;

• A RNP nos informou que enviaria outro switch que também apresentou defeito e assim também ocorreu com um terceiro;

Page 13: Status da T2-UERJ Equipe técnica: Douglas Milanez Eduardo Revoredo José Afonso Sanches Estagiários Luiz Gustavo Dornellas Renata Salles Colaboração CERN:

Problemas com os switches/RNP

• Após comunicarmos o problema ao Santoro ele entrou em contato com o diretor-geral da RNP, Nelson Simões;

• Efetuamos em conjunto os ajustes necessários nos equipamentos envolvidos e o link foi restabelecido no final da tarde de 07.06.2013;

Page 14: Status da T2-UERJ Equipe técnica: Douglas Milanez Eduardo Revoredo José Afonso Sanches Estagiários Luiz Gustavo Dornellas Renata Salles Colaboração CERN:

Restabelecimento dos serviços no cluster

• Após a recuperação do link, iniciamos a atualização/reinstalação de diversos componentes no cluster:

Restabelecimento dos serviços do dCache. Solicitação e concessão de direitos de GridAdmin (Eduardo e Zé) para

a nova autoridade certificadora vinculada ao OSG; Conclusão do backup dos usuários que realizaram o pedido (somente

aqueles que responderam o email); Instalação do sistema operacional e configurações iniciais no futuro

namenode do Hadoop;

Page 15: Status da T2-UERJ Equipe técnica: Douglas Milanez Eduardo Revoredo José Afonso Sanches Estagiários Luiz Gustavo Dornellas Renata Salles Colaboração CERN:

Instalação do sistema operacional e configurações iniciais no futuro servidor BestMan;

Instalação do sistema operacional e configurações iniciais nos futuros quatro servidores GridFTP;

Monitoramento do link (Perdas de pacotes, rotas, RTT); Seleção e cópia dos arquivos de configuração antigos da instância

Rocks 5.4 Acompanhamento dos testes nas fibras da redecomep realizados pela

empresa Ômega. Os dados coletados foram levados para análise. Seremos informados a respeito dos resultados. Não foram tomadas medidas para solução do problema até o momento (perdas na fibra);

Restabelecimento dos serviços o cluster

Page 16: Status da T2-UERJ Equipe técnica: Douglas Milanez Eduardo Revoredo José Afonso Sanches Estagiários Luiz Gustavo Dornellas Renata Salles Colaboração CERN:

Nas próximas duas semanas iremos trabalhar nas seguintes atividades: Término da elaboração dos scripts de instalação dos aplicativos no

sistema operacional rocks nos nós; Instalação do novo sistema operacional rocks nos nós; Instalar o condor, glexec e demais ferramentas de grid nos nós de

processamento; Instalar e configurar o hadoop nos nós; Continuação da configuração dos servidores GridFTPs , Namenode,

BestMan e Frontend; Instalação da nova versão do Squid; Reconfiguração e atualização dos serviços do servidor PhEDEx; Atualização dos servidores OSGCE;

Restabelecimento dos serviços no cluster

Page 17: Status da T2-UERJ Equipe técnica: Douglas Milanez Eduardo Revoredo José Afonso Sanches Estagiários Luiz Gustavo Dornellas Renata Salles Colaboração CERN:

Projetos de software em desenvolvimento

• Elaboração da página do grupo com informações dos componentes do grupo e das pesquisas realizadas e em andamento;

Page 18: Status da T2-UERJ Equipe técnica: Douglas Milanez Eduardo Revoredo José Afonso Sanches Estagiários Luiz Gustavo Dornellas Renata Salles Colaboração CERN:

Obrigado.