Gestão de Incidentes

 

Desde o levantamento dos sistemas que compõem a estrutura do Perímetro Central, a ausência de um processo que definisse a gestão dos incidentes deste perímetro abriu espaço para uma série de dificuldades decorrentes de pontos relevantes quando se trata da saúde dos sistemas. Uma vez decorridos incidentes, faz-se importante ser clara a diretriz a respeito do que deve acontecer e quem deve ser envolvido a fim de que a resolução do problema se dê da forma mais fluida, rápida e eficiente possível.

Neste sentido, foi elaborado e instaurado o seguinte processo para a gestão dos incidentes do Perímetro Central:

 

Figura 1: fluxograma da gestão dos incidentes.

 

As etapas do processo se dividem em três personas, basicamente: o relator do incidente, o próprio CoE QO e o fornecedor cujo sistema apresentou problema. A seguir, cada etapa bem como suas respectivas atividades são descritas mais detalhadamente.

1. Abertura do ticket

Ao perceber a ocorrência de alguma anormalidade em algum sistema do Perímetro Central, o relator deve submeter ao CoE a solicitação para a análise dessa ocorrência por meio da abertura de um ticket. Esta abertura deve ser executada conforme os passos a seguir.

1.1 Acessar o portal

O relator deve acessar o link do portal: Portal Jira Service - Relatar um incidente.

Para abrir um incidente, deve selecionar a opção “Relatar um problema no sistema”, conforme destacado no exemplo a seguir.

1.2 Preencher e enviar o formulário

O relator deve preencher e enviar o formulário com o máximo possível das informações solicitadas a fim de que a análise e a resolução do problema possam ser otimizadas. O formulário pode ser observado no exemplo a seguir.

 

A partir do envio do formulário, o ticket é criado na fila do CoE QO com status “aberto”, como pode ser observado na figura 1.

2. Análise e encaminhamento da ocorrência ao fornecedor pertinente

A partir do recebimento da solicitação, o CoE QO analisa o ticket aberto e todas as informações nele contidas. Com base no sistema afetado e na descrição da ocorrência, o CoE QO deve direcioná-la ao fornecedor pertinente. Neste momento, inicia-se a contagem do SLA e o ticket passa ao status “trabalho em andamento”, como pode ser observado na figura 1.

3. Resolução e encerramento do ticket

Após receber a ocorrência, o fornecedor deve verificar se as informações detalhadas pelo relator são ou não suficientes para a resolução do problema.

3.1 Se forem suficientes

O fornecedor deve executar a resolução e notificá-la ao CoE QO, que por sua vez deve, então, encerrar o ticket e passá-lo ao status “concluído”. Aqui, a contagem do SLA é encerrada.

3.2 Se não forem suficientes

O fornecedor deve notificar ao CoE QO a necessidade de mais detalhes sobre o problema para que se viabilize a sua resolução. Neste momento, o ticket passa ao status “itens pendentes” e a contagem do SLA é pausada. Se o CoE QO dispôr das informações solicitadas pelo fornecedor, ele mesmo deve repassá-las; se não, o CoE QO deve solicitar ao relator as informações requisitadas pelo fornecedor. Tão logo o relator encaminhe ao CoE QO estes dados, o CoE QO deve encaminhá-los ao fornecedor e, neste momento, o ticket deixa o status “itens pendentes”, retorna ao “trabalho em andamento” e a contagem do SLA volta a correr.

Este ciclo comunicativo deve ocorrer até que o fornecedor tenha informações suficientes para resolver a ocorrência. A partir de que isto aconteça, o fornecedor deve comunicar ao CoE QO sobre a resolução e este deve encerrar o ticket, passando-o ao status “concluído”.

Comunicação

Entre CoE QO e fornecedor

Toda a comunicação entre o CoE QO e os fornecedores deve acontecer via email.

Entre CoE QO e relator

Toda a comunicação entre o CoE QO e os relatores deve acontecer através da thread do incidente no Jira Service Management. Sempre que forem solicitadas informações ao relator nesta thread, este será notificado através do seu email utilizado para a abertura do ticket.

Lições a serem aprendidas: Postmortem e RCA

Após a verificação da condição do sistema afetado, se não se tratar de um SaaS o CoE QO deve analisar o encaixe do ocorrido nos critérios para a elaboração de um Blameless Postmortem, disponíveis em: .

Se estes critérios forem atendidos, o CoE QO deve conduzir junto ao fornecedor a elaboração e publicação de um Blameless Postmortem com RCA a fim de que haja um deep dive no contexto, nas causas e na resolução do problema, buscando evitar sua recorrência mas também se preparando para ela.

Sistemas afetados: SaaS vs Não SaaS

 

 

Vale destacar que esta é uma primeira versão do processo de gestão de incidentes. A melhoria contínua é viva e será exercitada sempre que houver oportunidades de se otimizar a aderência do processo à realidade do ecossistema Open Finance Brasil.