Gestão de Problemas
Tabela 1: tabela de acrônimos.
Acrônimo | Significado |
---|---|
CoE QO | Coe de Qualidade e Operações |
RCA | Root Cause Analysis (Análise de Causa Raiz) |
ITIL | Information Technology Infrastructure Library (Biblioteca de Infraestrutura de Tecnologia da Informação) |
Quando a infraestrutura ou os sistemas falham ou sofrem interrupções inesperadamente, o tempo de inatividade de TI pode ter um impacto direto nos resultados financeiros e nas operações de negócio. De acordo com o Gartner, o custo médio do tempo de inatividade de TI pode chegar a US $5.600 por minuto em operações complexas onde a TI é extremamente crítica (ex: operadoras de cartão, e-commerce, redes sociais, etc). Embora a prática de gestão de incidentes contribua para uma resposta rápida e eficiente às falhas de TI, é no gerenciamento de problemas que existe uma oportunidade de reduzir significativamente a recorrência de incidentes ou até mesmo evitar que eles aconteçam.
O gerenciamento de problemas (também conhecido como gestão de problemas) é uma das práticas descritas pelo ITIL e consiste em uma abordagem sistemática para identificar a causa de incidentes de TI atuais ou potenciais. Trata-se de um processo padronizado para gerenciar problemas e erros conhecidos, identificando a causa raiz do problema e descobrindo uma ou mais soluções alternativa e permanente.
Como define o ITIL, um problema é “uma causa ou potencial causa de um ou mais incidentes”.
Os objetivos deste processo podem ser resumidos em:
Identificar soluções alternativas para incidentes;
Executar RCA e identificar correções permanentes para incidentes recorrentes;
Estabelecer e manter uma base de dados de erros conhecidos (KEDB - Know Errors Data Base);
Funcionar como próximo nível de escala da gestão de incidentes para problemas não resolvidos.
Neste sentido, foi elaborado o seguinte processo para a gestão dos problemas do Perímetro Central:
Cada uma das etapas deste processo estão mais detalhadamente descritas a seguir.
1. Detecção do problema
O processo de gestão de problemas apresenta gatilhos que podem ser disparados a partir de diversas fontes, sendo algumas delas:
A gestão proativa de problemas: se ocorre a identificação da necessidade de uma análise de problema a partir da investigação de eventos, de incidentes, de indisponibilidades, de falhas de capacidade entre outros que podem ser encarados como vulnerabilidades do ecossistema;
Incidentes não resolvidos: se a gestão de incidentes não encontra uma solução de contorno ou permanente para o incidente e este carece de uma análise mais minuciosa, sobretudo acerca da causa raiz, a fim de se solucionar permanentemente o incidente;
Alertas: se o CoE QO julgar pertinente a abertura de um problema em decorrência do recebimento de alertas que indiquem, por exemplo, a recorrência de indisponibilidades que onerem a operação.
2. Registro inicial do problema
O CoE QO deve tomar o registro do problema detectado, sobretudo, para garantir o devido acompanhamento do atendimento ao problema, da sua resolução pelo time mais pertinente e da rolagem precisa de todo o processo. Este registro deve incluir informações relevantes sobre o problema a fim de garantir que este seja investigado e mitigado no menor tempo possível levando em conta seus sintomas, os detalhes do ocorrido e todos os incidentes ligados a este problema.
3. Categorização e priorização
O CoE QO deve categorizar o problema detectado a fim de garantir o devido relacionamento entre este e todos os erros já conhecidos da mesma categoria. A partir de então, deve haver a priorização do problema com base na urgência e no impacto do incidente associado. Desta forma, o problema deve ser atribuído ao time pertinente e seu status, atualizado conforme execução do processo.
4. Investigação e diagnóstico
O CoE QO junto ao respectivo fornecedor devem investigar as causas subjacentes do problema e o melhor curso de ação para o alcance da remediação. Considera-se a condução de uma RCA que leve em conta os seguintes parâmetros:
Origem do problema, cuja busca pode se dar através da Técnica dos 5 porquês (Gestão de Problemas | Técnica dos 5 porquês);
Sintomas;
Detalhes do impacto;
Quaisquer dependências afetadas.
É válido ressaltar que a partir da RCA podem ser reveladas uma ou mais possíveis soluções. Desde que necessária e encontrada uma solução paliativa de contorno, faz-se importante aplicá-la ao problema visando a rápida resolução do incidente e o reestabelecimento do serviço, além de apontá-la no registro inicial do problema (KEDB). Soluções paliativas não são ideais, mas colaboram para a redução do impacto sofrido pelo negócio e para a manutenção da qualidade da experiência do usuário do sistema afetado.
Se nenhuma resolução for encontrada ou se a resolução encontrada não apresentar relação custo-benefício viável para a organização, o CoE QO junto ao respectivo fornecedor devem alinhar o melhor curso de ação em face do problema considerado.
Se a implementação da solução encontrada exigir alguma mudança, deve ser acionado o https://openfinancebrasil.atlassian.net/l/cp/Mr3qcP95; se não, a implementação deve se dar de maneira direta.
Toda e qualquer implementação em ambiente produtivo exige o acionamento do processo para envio de mudanças.
Após a aplicação da resolução, o KEDB deve ser atualizado com o registro dos detalhes, da discussão e do procedimento de resolução do problema.
5. Encerramento do problema
Uma vez que o problema foi solucionado, ele deve ser encerrado e seu status deve ser atualizado para “resolvido”.
Técnica dos 5 porquês
O que é?
Uma maneira simples de obter uma compreensão mais profunda que leva a insights significativos. Perguntar “Por quê?” cinco vezes é uma técnica simples para remover as camadas externas do entendimento e descobrir as verdadeiras causas, suposições, motivações e emoções por trás de um problema ou comportamento.
Por que fazer?
É comumente utilizada quando se precisa chegar à raiz de um problema ou comportamento. É útil durante workshops, entrevistas, análise de causa raiz entre outros.
Como fazer?
1. Antes da sessão:
Defina o problema ou comportamento que você deseja investigar;
Identifique a pessoa ou o grupo de pessoas que podem contribuir no aprofundamento da compreensão.
2. Comece fazendo uma pergunta ampla sobre o problema ou comportamento.
3. Pergunte “por que” para suas respostas até chegar à resposta real. Perguntar cinco vezes é um parâmetro comum, mas pode ser menos ou mais. Seja paciente e continue cavando até encontrar as raízes da causa.
Dica: evite fazer perguntas horizontais (por exemplo, “Por que mais você não entregou o relatório?”). Em vez disso, concentre-se em ir mais fundo (por exemplo, “Por que você não tinha todos os dados?”).
4. Anote cada resposta à medida que avança para um nível mais profundo de compreensão.
5. Após a sessão, aplique as informações recém-descobertas, consolidadas na causa raiz desvendada, na elaboração do curso de ação necessário para a solução do problema ou comportamento definido no passo 1.