Gestão de Problemas

Tabela 1: tabela de acrônimos.

Acrônimo

Significado

Acrônimo

Significado

CoE QO

Coe de Qualidade e Operações

RCA

Root Cause Analysis (Análise de Causa Raiz)

ITIL

Information Technology Infrastructure Library (Biblioteca de Infraestrutura de Tecnologia da Informação)

 

Quando a infraestrutura ou os sistemas falham ou sofrem interrupções inesperadamente, o tempo de inatividade de TI pode ter um impacto direto nos resultados financeiros e nas operações de negócio. De acordo com o Gartner, o custo médio do tempo de inatividade de TI pode chegar a US $5.600 por minuto em operações complexas onde a TI é extremamente crítica (ex: operadoras de cartão, e-commerce, redes sociais, etc). Embora a prática de gestão de incidentes contribua para uma resposta rápida e eficiente às falhas de TI, é no gerenciamento de problemas que existe uma oportunidade de reduzir significativamente a recorrência de incidentes ou até mesmo evitar que eles aconteçam.

O gerenciamento de problemas (também conhecido como gestão de problemas) é uma das práticas descritas pelo ITIL e consiste em uma abordagem sistemática para identificar a causa de incidentes de TI atuais ou potenciais. Trata-se de um processo padronizado para gerenciar problemas e erros conhecidos, identificando a causa raiz do problema e descobrindo uma ou mais soluções alternativa e permanente.

Como define o ITIL, um problema é “uma causa ou potencial causa de um ou mais incidentes”.

Os objetivos deste processo podem ser resumidos em:

  • Identificar soluções alternativas para incidentes;

  • Executar RCA e identificar correções permanentes para incidentes recorrentes;

  • Estabelecer e manter uma base de dados de erros conhecidos (KEDB - Know Errors Data Base);

  • Funcionar como próximo nível de escala da gestão de incidentes para problemas não resolvidos.

Neste sentido, foi elaborado o seguinte processo para a gestão dos problemas do Perímetro Central:

 

Cada uma das etapas deste processo estão mais detalhadamente descritas a seguir.

1. Detecção do problema

O processo de gestão de problemas apresenta gatilhos que podem ser disparados a partir de diversas fontes, sendo algumas delas:

  • A gestão proativa de problemas: se ocorre a identificação da necessidade de uma análise de problema a partir da investigação de eventos, de incidentes, de indisponibilidades, de falhas de capacidade entre outros que podem ser encarados como vulnerabilidades do ecossistema;

  • Incidentes não resolvidos: se a gestão de incidentes não encontra uma solução de contorno ou permanente para o incidente e este carece de uma análise mais minuciosa, sobretudo acerca da causa raiz, a fim de se solucionar permanentemente o incidente;

  • Alertas: se o CoE QO julgar pertinente a abertura de um problema em decorrência do recebimento de alertas que indiquem, por exemplo, a recorrência de indisponibilidades que onerem a operação.

2. Registro inicial do problema

O CoE QO deve tomar o registro do problema detectado, sobretudo, para garantir o devido acompanhamento do atendimento ao problema, da sua resolução pelo time mais pertinente e da rolagem precisa de todo o processo. Este registro deve incluir informações relevantes sobre o problema a fim de garantir que este seja investigado e mitigado no menor tempo possível levando em conta seus sintomas, os detalhes do ocorrido e todos os incidentes ligados a este problema.

3. Categorização e priorização

O CoE QO deve categorizar o problema detectado a fim de garantir o devido relacionamento entre este e todos os erros já conhecidos da mesma categoria. A partir de então, deve haver a priorização do problema com base na urgência e no impacto do incidente associado. Desta forma, o problema deve ser atribuído ao time pertinente e seu status, atualizado conforme execução do processo.

4. Investigação e diagnóstico

O CoE QO junto ao respectivo fornecedor devem investigar as causas subjacentes do problema e o melhor curso de ação para o alcance da remediação. Considera-se a condução de uma RCA que leve em conta os seguintes parâmetros:

É válido ressaltar que a partir da RCA podem ser reveladas uma ou mais possíveis soluções. Desde que necessária e encontrada uma solução paliativa de contorno, faz-se importante aplicá-la ao problema visando a rápida resolução do incidente e o reestabelecimento do serviço, além de apontá-la no registro inicial do problema (KEDB). Soluções paliativas não são ideais, mas colaboram para a redução do impacto sofrido pelo negócio e para a manutenção da qualidade da experiência do usuário do sistema afetado.

Se nenhuma resolução for encontrada ou se a resolução encontrada não apresentar relação custo-benefício viável para a organização, o CoE QO junto ao respectivo fornecedor devem alinhar o melhor curso de ação em face do problema considerado.

Se a implementação da solução encontrada exigir alguma mudança, deve ser acionado o https://openfinancebrasil.atlassian.net/l/cp/Mr3qcP95; se não, a implementação deve se dar de maneira direta.

Toda e qualquer implementação em ambiente produtivo exige o acionamento do processo para envio de mudanças.

Após a aplicação da resolução, o KEDB deve ser atualizado com o registro dos detalhes, da discussão e do procedimento de resolução do problema.

5. Encerramento do problema

Uma vez que o problema foi solucionado, ele deve ser encerrado e seu status deve ser atualizado para “resolvido”.

 

Técnica dos 5 porquês

O que é?

Uma maneira simples de obter uma compreensão mais profunda que leva a insights significativos. Perguntar “Por quê?” cinco vezes é uma técnica simples para remover as camadas externas do entendimento e descobrir as verdadeiras causas, suposições, motivações e emoções por trás de um problema ou comportamento.

Por que fazer?

É comumente utilizada quando se precisa chegar à raiz de um problema ou comportamento. É útil durante workshops, entrevistas, análise de causa raiz entre outros.

Como fazer?

1. Antes da sessão:

Defina o problema ou comportamento que você deseja investigar;

Identifique a pessoa ou o grupo de pessoas que podem contribuir no aprofundamento da compreensão.

2. Comece fazendo uma pergunta ampla sobre o problema ou comportamento.

3. Pergunte “por que” para suas respostas até chegar à resposta real. Perguntar cinco vezes é um parâmetro comum, mas pode ser menos ou mais. Seja paciente e continue cavando até encontrar as raízes da causa.

Dica: evite fazer perguntas horizontais (por exemplo, “Por que mais você não entregou o relatório?”). Em vez disso, concentre-se em ir mais fundo (por exemplo, “Por que você não tinha todos os dados?”).

4. Anote cada resposta à medida que avança para um nível mais profundo de compreensão.

5. Após a sessão, aplique as informações recém-descobertas, consolidadas na causa raiz desvendada, na elaboração do curso de ação necessário para a solução do problema ou comportamento definido no passo 1.