status da t2-uerj equipe técnica: douglas milanez eduardo revoredo josé afonso sanches...
TRANSCRIPT
Status da T2-UERJEquipe técnica: Douglas Milanez
Eduardo RevoredoJosé Afonso Sanches
EstagiáriosLuiz Gustavo Dornellas
Renata Salles
Colaboração CERN: Alan Malta e Ana Franco
Infraestrutura atualCluster
• Três racks contendo 53 servidores de processamento
com 464 núcleos de processamento;
•Um total de 450 TB para armazenamento de dados;
• Servidores adicionais dedicados a disponibilização dos serviços de Grid:
o Transferência de dados (PhEDEx + GridFTPs);
o Submissão de jobs (compute elements Condor);
o Armazenamento distribuído (hadoop);
o Servidor web, servidor de nomes, servidor de
contas dos usuários, servidor de autenticação dos
usuários da Grid, servidor de monitoramento;
Infraestrutura atual
Imagem da sala do cluster com os servidores distribuídos em racks
Ano Núcleos Armazenamento HEP - SPEC
Final 2012 464 450 TB 3,55 K
Final 2013 596 950 TB 9,0 K
Infraestrutura atual
Sala de controle e de terminais do CMS
Dois monitores de grande visibilidade
Quatro estações de monitoramento com seis monitores de 22 polegadas.
Seis terminais de submissão e análise de jobs
Imagens da sala de controle (abaixo) e de análise de dados (a direita) do CMS.
Eficiência semanal dos jobs em 2012 (até novembro)
Total de jobs executados pela T2-UERJ em 2012
148 K jobs de análise
54K + 136K jobs de produção (MC)
Número de eventos processados (análise) em 2012
Interrupções do enlace externo no final de 2012
• Indisponibilidade da conexão externa em 06.07.2012 devido a um rompimento de fibra entre UERJ e o PoP-RJ (duração: 21 dias);
• Devido ao mesmo problema, a conexão caiu novamente em 27.11.2012, (duração 192 dias);
Atitudes para recuperação do link
• Após a confirmação da indisponibilidade de acesso em 27.11.2012, entramos em contato com o Luciano Martins (responsável alocado no CPqD);
• Após muita insistência para a solução do problema com o Luciano, soubemos que a operadora Oi não tem atendido prontamente os chamados de manutenção para este trecho de fibra que une a UERJ ao POP-RJ (localizado na Urca);
• Durante esse período , ficou claro que a Oi demonstrou total desinteresse na resolução do caso.
RedeCOMEP na UERJ• Paralelamente a este problema, aconteciam reuniões mensais
a respeito da implantação da RedeCOMEP, cujo anel terá velocidade de 10Gbps;
• A UERJ será um ponto de presença (PoP) deste anel, portanto terá papel importante no funcionamento da RedeCOMEP;
• Atualmente, a RedeCOMEP está em fase de testes em alguns trechos, da qual a UERJ participa;
• Mais informações: http://www.redecomep.rnp.br/
RedeCOMEP na UERJ• Neste meio tempo, o Santoro entrou em contato com o
Márcio Albuquerque (CBPF), coordenador técnico da RedeCOMEP, para conhecermos mais detalhes do projeto;
• Durante a reunião, o Márcio sugeriu a possibilidade de usarmos, em caráter provisório, um par de fibras da RNP que está inserido no anel da RedeCOMEP;
• Iniciamos uma conversa com a RNP que decidiu após uma reunião de diretoria (colaboração do Michael Stanton) que o projeto poderia usar as fibras até que a RedeCOMEP seja capaz de suportar o tráfego gerado pelo cluster;
Problemas com os switches/RNP
• A partir desta decisão, iniciamos a configuração dos equipamentos envolvidos;
• Nesta fase, houve dificuldades, pois o switch usado para conexão com o PoP-RJ começou a apresentar defeito e seria necessário substituí-lo;
• A RNP nos informou que enviaria outro switch que também apresentou defeito e assim também ocorreu com um terceiro;
Problemas com os switches/RNP
• Após comunicarmos o problema ao Santoro ele entrou em contato com o diretor-geral da RNP, Nelson Simões;
• Efetuamos em conjunto os ajustes necessários nos equipamentos envolvidos e o link foi restabelecido no final da tarde de 07.06.2013;
Restabelecimento dos serviços no cluster
• Após a recuperação do link, iniciamos a atualização/reinstalação de diversos componentes no cluster:
Restabelecimento dos serviços do dCache. Solicitação e concessão de direitos de GridAdmin (Eduardo e Zé) para
a nova autoridade certificadora vinculada ao OSG; Conclusão do backup dos usuários que realizaram o pedido (somente
aqueles que responderam o email); Instalação do sistema operacional e configurações iniciais no futuro
namenode do Hadoop;
Instalação do sistema operacional e configurações iniciais no futuro servidor BestMan;
Instalação do sistema operacional e configurações iniciais nos futuros quatro servidores GridFTP;
Monitoramento do link (Perdas de pacotes, rotas, RTT); Seleção e cópia dos arquivos de configuração antigos da instância
Rocks 5.4 Acompanhamento dos testes nas fibras da redecomep realizados pela
empresa Ômega. Os dados coletados foram levados para análise. Seremos informados a respeito dos resultados. Não foram tomadas medidas para solução do problema até o momento (perdas na fibra);
Restabelecimento dos serviços o cluster
Nas próximas duas semanas iremos trabalhar nas seguintes atividades: Término da elaboração dos scripts de instalação dos aplicativos no
sistema operacional rocks nos nós; Instalação do novo sistema operacional rocks nos nós; Instalar o condor, glexec e demais ferramentas de grid nos nós de
processamento; Instalar e configurar o hadoop nos nós; Continuação da configuração dos servidores GridFTPs , Namenode,
BestMan e Frontend; Instalação da nova versão do Squid; Reconfiguração e atualização dos serviços do servidor PhEDEx; Atualização dos servidores OSGCE;
Restabelecimento dos serviços no cluster
Projetos de software em desenvolvimento
• Elaboração da página do grupo com informações dos componentes do grupo e das pesquisas realizadas e em andamento;
Obrigado.