contingenciamento automatizado de dados e voz, … · 2018-11-17 · contingenciamento automatizado...
TRANSCRIPT
CONTINGENCIAMENTO AUTOMATIZADO DE DADOS E VOZ, ENTRE OS
CENTROS DE OPERAÇÃO DO ONS
Jamil de Almeida Silva * Djalma Lira de Oliveira Junior
ONS ONS
Jéssica Marié Maciel
ONS
RESUMO DO ARTIGO:
Os serviços relacionados à operação do sistema elétrico necessitam de uma alta disponibilidade e capacidade de suportar danos dos mais variados tipos, inclusive de impedimento completo de um Centro de Operação. Face à importância desses serviços, é essencial que, em caso de falha total em um centro de operação, seja possível garantir a continuidade do negócio e dos recursos destinados a suportar a execução das atribuições necessárias para operar o SIN (Sistema Interligado Nacional). Ao automatizar o contingenciamento entre Centros de Operação, obtêm-se preciosos ganhos de tempo, restabelecendo o sistema com agilidade e assegurando a continuidade da operação.
O artigo mostra a solução adotada entre os Centros de Operação do ONS (Operador Nacional do Sistema Elétrico), a fim de garantir a continuidade dos serviços de operação destes Centros. O modelo é composto por quatro centros, cada um operando uma região geográfica do Brasil, coordenados pelo CNOS (Centro Nacional de Operação do Sistema) e baseado na filosofia de um Centro Backup, que assume a operação em caso de falha do Centro Principal. O trabalho engloba soluções para determinados cenários de falha, desde os mais simples, a exemplo do impedimento de permanência na sala de controle até casos de grande magnitude, como a falha total de um determinado Centro de Operação, com abordagens adequadas para cada situação.
PALAVRAS-CHAVE:
Contingenciamento Automatizado, Agilidade, Garantia da Continuidade da Operação,
Centro Backup, Cenários de falha.
CONTINGENCIAMENTO AUTOMATIZADO DE DADOS E VOZ, ENTRE
CENTROS DO ONS
1. INTRODUÇÃO
O Contingenciamento de Centros de Operação deve ser implantado considerando a
necessidade de manter, o desempenho na operação contingenciada, a capacidade de execução
das atribuições e, por conseguinte, manter o negócio da empresa.
O ONS estabeleceu alguns cenários de falha e contingenciamento. No primeiro caso, o
operador deixará a sala de controle e acessará o sistema de supervisão de dados e de
comunicação de voz, via ambientes de simulação (OTS – Operator Trainning System). No
segundo caso, as informações de dados e voz serão acessadas por meio de um Centro Backup,
que aquisita os dados oriundos dos Agentes e, também, permite estabelecer plena comunicação
de voz com os Agentes. Os recursos essenciais para o sucesso deste cenário são a ROP, a rede
operativa, e a comunicação de dados e voz, que viabiliza a operação pelo Centro Backup e que,
além de interligar os centros, realiza o sincronismo de dados a fim de garantir que os serviços
contingenciados sejam tão íntegros quanto os obtidos em situações normais e provê, através de
roteamento dinâmico e redundâncias de canais, tolerância a diversos cenários possíveis de
falhas. Com relação ao sistema de voz, para o primeiro caso, a tratativa é semelhante ao exposto.
Porém, no segundo caso, o Centro Backup possui perfil previamente configurado para operação
de ambos os centros, ou seja, assumirá as comunicações de voz referentes aos dois centros
simultaneamente.
De modo a garantir a integridade do sistema, testes periódicos de contingenciamento são
realizados, visando identificar possíveis problemas e corrigi-los, evitando falhas em situações de
emergência.
2. A SOLUÇÃO ADOTADA PELO ONS
A operação do SIN consiste em dois sistemas primordiais: dados e voz. Estes sistemas são
providos através dos circuitos de telecomunicações disponibilizados pelos Agentes e com
requisitos de disponibilidade e qualidade agressivos, previstos nos Procedimentos de Rede
(Submódulo 13). Os requisitos são:
Disponibilidade superior a 99.98%.
Latência ≤ 140ms – para redes sem uso de satélites;
Latência ≤ 700ms – para redes com uso de satélites;
Taxa de perda de pacotes < 1%;
Jitter ≤ 20ms – para redes sem uso de satélites;
Jitter ≤ 90ms – para redes com uso de satélites.
Para atender aos rigorosos requisitos, os Agentes devem disponibilizar dois circuitos de
comunicação com o ONS, em localidades fisicamente distintas, um no SAL (Sistema de
Aquisição Local) e outro no SAR (Sistema de Aquisição Remoto), de modo a garantir
redundância e a continuidade da operação em cenários de falha. Os dados são tratados através
do sistema REGER e a comunicação de voz, através da solução de voz do ONS.
REGER é o acrônimo de ‘Rede de Gerenciamento de Energia’ do ONS e trata-se de uma
arquitetura de software e hardware do sistema de supervisão e controle dos centros de operação
do ONS. O sistema REGER possui quatro SSC (Sistema de Supervisão e Controle):
CNOS/COSR-NCO (região Norte e Centro-Oeste); COSR-SE (região Sudeste), COSR-S (região
SUL) e COSR-NE (região Nordeste).
Os SSCs são divididos em blocos de sistemas que atendem tanto às funções de tempo real
como também os sistemas e aplicações que dão suporte à supervisão do setor elétrico brasileiro.
As redes são:
RTN (núcleo do tempo real) - rede de alta disponibilidade em que os dados provenientes
dos Agentes do setor elétrico são coletados e apresentados para a sala de Controle via
NAD – (Nó de Aquisição de Dados);
Difusão - atualização da base de dados de tempo real e responsável por armazenar a
memória de cada servidor ou estação de trabalho;
Aquisição - aquisita os dados em tempo real provenientes dos Agentes;
CEUS (Corporate/External User System) – permitir o acesso de usuários corporativos e
externos aos dados de tempo real e a funções de estudo com adequado nível de
autorização);
OTS (Operator Training Simulator) – prover recursos de hardware e software para o
treinamento de operadores através de simulações de distúrbios no SIN;
QADS (Quality Assurance and Development System) – plataforma de desenvolvimento,
testes e homologação de sistemas voltados para o atendimento dos SSCs;
Administrativa (administração e segurança dos SSCs) – gerenciamento de contas de
usuários e de redes, atualização de sistemas operacionais;
Backup - tráfego de backup dos servidores da plataforma REGER.
No ONS, a operação do SIN é feita por meio da aquisição de informações dos Agentes que
subsidiam a tomada de decisões, por parte das equipes de tempo real, que dão consecução às
decisões, via comandos de voz. Dessa forma, o serviço de voz apresenta importância primordial
para garantir o efetivo cumprimento das funções do ONS. A solução de voz do ONS está
ilustrada na Figura 1.
Os sistemas supracitados foram desenvolvidos com o intuito de garantir um
contingenciamento automatizado em cenários de falha que causem impedimento da operação
do Centro principal. Os elementos principais que garantem a continuidade dos serviços são: a
existência de links redundantes em uma localidade física distinta e dos Centros Backup.
Figura 1 – Solução do Sistema de Comunicação de Voz do ONS
2.1. Solução de Dados
A aquisição de dados é feita através de circuitos redundantes dispostos em localidades
distintas (SAL e SAR), conforme ilustra a Figura 2, e possuem contingenciamento
automatizado pelo uso dos protocolos VRRP (Virtual Router Redundancy Protocol) e HSRP
(Hot Standby Router Protocol). Ambos os protocolos fazem o chaveamento automático em
caso de falha em um dos dispositivos.
Figura 1 – Topologia típica de um Agente conectado ao ONS
2.2. Solução de Voz
A Figura 1 ilustra a topologia da solução de voz adotada pelo ONS e possuem os
seguintes componentes:
OSV (OpenScape Voice): Servidor SIP, é responsável pelo encaminhamento da sinalização dos hot lines dos Agentes (Hot Lines do Centro Principal e Hot Lines do Centro Backup);
OSB (OpenScape Branch) - Servidor responsável pelo encaminhamento da sinalização dos hot lines dos Agentes quando a solução está operando no modo sobrevivência;
MLC (Multi Line Controller) - Multiplexador de ramais SIP, tem a função de realizar o registro dos ramais SIP do sistema OSV e estabelecer as ligações que serão realizadas pelas Mesas de Operação;
SM (System Manager) - Responsável pelo serviço de autenticação (AD) e resolução de nomes (DNS), bem como pelo serviço de configuração das consoles de voz;
OMS (Open Scape Media Server) - Complementa as funções da aplicação de comunicação, como a geração de tons e anúncios para os usuários e aplicações. Também é responsável pelo serviço de conferência ad-hoc centralizada;
CMP (Common Manager Portal) - Possibilita a manutenção/configuração do OSV através de interface Web;
DLS (Deployment Service) - é uma aplicação utilizada para manutenção em grande escala dos endpoints, possibilitando a atualização simultânea de firmwares, codec’s e configurações;
SA (Survival Authority) - Responsável pela administração do cluster OVS e pela eleição de qual servidor responde pelo cluster.
3. CENÁRIOS DE FALHA
O ONS executa tarefas ininterruptas, as quais são de alta relevância estratégica para o
país, supervisionando, coordenando, e controlando toda a Rede Básica, a Rede Complementar
e as Usinas despachadas de forma centralizada, do Sistema Interligado Nacional. Sendo assim,
além das equipes de Operadores de Sistema e Engenheiros plenamente capacitados para
atuarem em tempo real, os centros possuem uma infraestrutura predial e de telecomunicações
e sistemas computacionais, com redundâncias, de modo a assegurar um grau de disponibilidade
compatível com os padrões internacionais. Para garantir essa rigorosa disponibilidade requerida,
existe um documento com os procedimentos a serem adotados em caso de ocorrência de algum
dos cenários de falha listados a seguir:
3.1. Impossibilidade das equipes de tempo real entrarem ou permanecerem nas instalações da Sala de Controle do Centro
O caso de impedimento da operação na Sala de Controle, foi vivido pelo ONS em um caso
de disparo acidental de 𝐶𝑂2, gás tóxico, usado pela maioria dos sistemas de combate ao
incêndio. O ONS possui um ambiente de treinamento que apresenta as funções do sistema
REGER necessárias para a operação do SIN. Neste caso, os operadores puderam se deslocar,
da sala de controle para a sala de treinamento (OTS), e executar a operação sem a necessidade
de contingenciamento de Centro.
3.2. Indisponibilidade total da supervisão do sistema
Perder a supervisão do sistema implica na perda total dos dados relativos à operação do
SIN em um centro de operação. Neste caso, os dados devem ser acessados através de um
caminho alternativo.
O Agente, ao disponibilizar dois circuitos de comunicação (um no SAL e outro no SAR),
permite ao ONS receber os dados de operação através de dois caminhos distintos e situados em
diferentes localidades, na mesma região metropolitana, concedendo uma redundância entre
centros de aquisição de dados. No caso em questão, na perda de comunicação dos agentes com
o SAL, a sala de controle pode obter os dados necessários à operação através do SAR por meio
de protocolos de roteamento e regras de firewall que redirecionam o caminho principal ao
caminho alternativo.
Neste caso, o centro em falha poderá se conectar com o sistema de supervisão e controle
do centro backup e continuar operando o sistema sem grandes mudanças. Devido a
automatização do redirecionamento de circuitos, a perda de supervisão pode ser contornada por
meio dos recursos alternativos reduzindo os impactos para a sala de controle e viabilizando a
continuidade do negócio.
3.3. Indisponibilidade total de telecomunicação operativa de voz no Centro de Operação
Neste cenário, os operadores deverão usar telefones fixos e/ou celulares.
3.4. Indisponibilidade total e simultânea da supervisão do sistema e de telecomunicação
operativa de voz
Neste caso, é necessário realizar o contingenciamento entre os centros, em que o centro
em falha será operado por outro centro previamente estabelecido (centro backup). O CNOS
(Centro Nacional de Operação do Sistema) é responsável pelo contingenciamento dos outros
três centros de operação (COSR-S, SE e NE). O COSR-NE é responsável por assumir o COSR-
NCO em caso de falha e o COSR-SE é o centro backup do CNOS.
O centro backup acessará os dados através da ROP (Rede Operativa – responsável pela
troca de informações entre os quatro centros), conectando ao SAR do centro em falha para a
aquisição das medidas necessárias para a operação. Com relação ao contingenciamento de voz,
os centros já possuem perfis configurados para a operação conjunta dos centros (em falha e
backup).
O contingenciamento de voz entre os centros não é completamente automático, pois
necessita de uma ação manual. O operador, no Centro Backup, deve fazer um login e acessar o
perfil, previamente configurado, que possui os hot lines de ambos os centros (centro backup e
centro contingenciado). Toda a comunicação de voz é sinalizada pelo OSV, localizado no SAR
de Brasília. Todos os centros possuem um modo de sobrevivência (OSB), o qual é acionado em
caso de falha no OSV. Neste modo de operação, o contingenciamento não é permitido, motivo
pelo qual o OSV não pode estar situado no SAL.
3.5. Indisponibilidade total e simultânea dos recursos da operação em tempo real, quais
sejam, supervisão, telecomunicação operativa e instalações prediais (sala de controle).
Este cenário é semelhante ao anterior, com o agravante da perda completa do prédio.
3.6. Relato de um caso real, de contingenciamento de Centro.
No dia 23/05/2018 foi realizado o contingenciamento do SSC-BSB, sendo necessário
também o deslocamento das equipes de operação em tempo real para a sala de treinamento
simulado em decorrência de uma intervenção programada para a atualização do switch core do
REGER do CNOS/COSR-NCO que afetou o RTN–BSB e o acesso ao REGER pelas consoles
da sala de controle do CNOS/COSR-NCO.
Para que a operação em tempo real do CNOS e do COSR-NCO fossem mantidas, antes
do início da intervenção e do contingenciamento, uma parte das equipes de tempo real destes
centros se deslocou para a sala de treinamento (OTS) e uma outra parte se manteve na sala de
controle. As partes foram orientadas para acessarem o RTN-RIO (equipes do CNOS) e RTN-
RECIFE (equipes do COSR-NCO) em seus respectivos ambientes (sala de controle e sala de
treinamento). A parte das equipes que foram deslocadas para a sala de treinamento realizaram
os procedimentos de acesso ao REGER e também de acesso às consoles de comunicação de
voz. Em seguida foi autorizado o contingenciamento do SSC-BSB que durou aproximadamente
8 minutos.
Após o contingenciamento do SSC-BSB a parte da equipe de tempo real que se
encontrava na sala de controle foi orientada a se deslocar para a sala de treinamento (OTS) onde
já se encontravam disponibilizados os acessos às consoles de comunicação e de supervisão.
Desta forma, todas as equipes de tempo real do CNOS e COSR-NCO já se encontravam na sala
de treinamento acessando o REGER, visualizando os dados de supervisão de suas respectivas
áreas de atuação e mantendo comunicação de voz operativa com os outros centros do ONS e
com os Agentes da Operação. Foi então liberada a intervenção para a atualização do switch
core, conforme descrito no parágrafo anterior.
Concluída a intervenção de atualização do switch core, foi iniciado o processo de
“descontigenciamento” do SSC-BSB. Após este processo encerrado, as equipes de tempo real
do CNOS e do COSR-NCO retornaram gradativamente à sala de controle.
O SSC-BSB permaneceu contingenciado por aproximadamente 2 horas e em nenhum
momento houve descontinuidade da operação em tempo real das equipes do CNOS e do COSR-
NCO.
Não houve necessidade de assunção das funções de operação do CNOS e do COSR-
NCO pelos seus respectivos centros backups (COSR-SE e COSR-NE).
A figura a seguir mostra as equipes de tempo real do CNOS/COSR-NCO operando suas
respectivas áreas de atuação na sala de treinamento (OTS).
Figura 3 – Foto dos operadores na sala de treinamento em caso de contingenciamento
Nos dias 7, 8 e 15 de maio de 2018, foram realizados contingenciamentos dos SSC RIO
(COSR-SE), SSC-FLN (COSR-S) e SSC-REC (COSR-NE) pelo mesmo motivo exposto no
exemplo do CNOS/COSR-NCO. Durante os contingenciamentos, as consoles do REGER
utilizadas pelos Operadores destes centros na sala de controle ficaram sem acesso aos seus
respectivos SSC, de modo que os Operadores utilizaram as consoles do REGER da sala de
treinamento (OTS) para acessarem o RTN-BSB, pois o CNOS é, por definição, o centro backup
do COSR-SE, do COSR-S e e do COSR-NE. A duração do tempo de contingenciamentos dos
SSCs dos RIO (COSR-SE), SSC-FLN (COSR-S) e SSC-REC (COSR-NE) ficou em
aproximadamente uma hora e meia para cada centro.
Entre os dias 07/10/2013 a 19/12/2013 o SSC-RIO permaneceu contingenciado em
função de mudança das instalações físicas do COSR-SE. Desta forma, a equipe de tempo real
do COSR-SE que se encontrava nas antigas e nas novas instalações deste centro passou a
operar a sua respectiva área de controle acessando o RTN-BSB. Durante o período de transição
da mudança de pessoal em que parte da equipe de tempo real do COSR-SE estava nas
instalações antigas e parte nas instalações novas, as consoles de comunicação em ambas as
localidades operavam de forma paralela.
O SSC-RIO permaneceu contingenciado por 52 dias e em nenhum momento houve
descontinuidade da operação em tempo real das equipes do COSR-SE.
Não houve necessidade de assunção das funções de operação do COSR-SE pelo
CNOS, que é o centro backup.
4. CONCLUSÃO
A operação do setor elétrico requer que o sistema seja capaz de operar de forma
contínua e confiável, em condições normais de operação, como também em condições de
emergência (contingências físicas ou lógicas). Esta contingência deve ser implementada por
meio do uso de recursos próprios, exigindo uma arquitetura que considere requisitos de
contingenciamento e de continuidade das atividades de operação do sistema.
O relato apresentado demonstra que o contingenciamento de Centros de Operação do
ONS foi implantado considerando a necessidade de manter, o desempenho durante a operação
contingenciada, a capacidade de execução das atribuições e, por conseguinte, manter o negócio
da empresa, podendo ser usado como referência para os demais Agentes do Setor Elétrico.
REFERÊNCIAS BIBLIOGRÁFICAS
[1] Gilson Fernando da Silva, “Requisitos de Segurança da Informação para a Rede Operativa
do ONS", Monografia de Pós Graduação em Telecomunicações – Dezembro de 2009
[2] Plano de Preservação dos Serviços Prioritários do Centro Regional de Operação
Norte/Centro-Oeste – PPSP/COSR-NCO – Maio de 2017
[3] Artigos publicados pelo autor principal.
BIOGRAFIAS DOS AUTORES
JAMIL DE ALMEIDA SILVA, graduado em Telecomunicações (1986) pelo CEFET-GO e em Física (1996) pela UNB. Mestrado em Engenharia de Produção (2001) pela UFSC. Pós-graduado no CAISE – Capacitação em Aspectos Institucionais do Setor Elétrico (2010), pela PUC-RIO.
Atualmente é Especialista do ONS.
E-mail: [email protected]
Fone: (61) 3241-5304
JÉSSICA MARIÉ MACIEL, graduada em Engenharia Elétrica (2018) pela Universidade de
Brasília.
Começou sua carreira profissional como Estagiária de Engenharia, no ONS, desde abril de 2016.
Atualmente é Engenheira Trainee do ONS.
E-mail: [email protected]
Fone: (61) 3241-5433
DJALMA LIRA DE OLIVEIRA JÚNIOR, é graduado em Engenharia Elétrica pela Universidade de Brasília (1987), Pós-graduado pela Universidade de Brasília (1989) com especialização em Sistemas de Potência. Trabalha no ONS desde 2000, atuando na área de Operação em Tempo-Real
Atualmente é Coordenador Técnico da Operação do Tempo Real do CNOS no ONS.
E-mail: [email protected]
Fone: (61) 3241-5326