5 osvědčených postupů pro automatizaci správy závažných incidentů

Autor: Roger Morrison
Datum Vytvoření: 27 Září 2021
Datum Aktualizace: 21 Červen 2024
Anonim
5 osvědčených postupů pro automatizaci správy závažných incidentů - Technologie
5 osvědčených postupů pro automatizaci správy závažných incidentů - Technologie

Obsah



Zdroj: Pixtum / iStockphoto

Odnést:

Díky inteligentní strategii automatizace můžete rychlejší a snadnější reakci na incidenty než kdykoli předtím - minimalizovat prostoje a potenciální narušení bezpečnosti.

K významným incidentům v oblasti IT dochází ve společnostech každý den. Přestože jen několik málo titulků, události, jako jsou výpadky a narušení bezpečnosti, mohou vážně ochromit produktivitu zaměstnanců, negativně ovlivnit vnímání zákazníků a co je nejdůležitější, vést ke ztrátě příjmů.

Pokud jde o řízení závažných incidentů v oblasti IT, je nejlepší se zaměřit na dopad na podnikání a na konečný výsledek. Podle institutu Ponemon Institute byly průměrné náklady na prostoje v roce 2016 8 851 dolarů za minutu - to je více než 500 000 USD za hodinu a typické prostoje průměrně více než 90 minut. A to jsou jen okamžité náklady! Dlouhodobější dopad, jako je poškození pověsti a opotřebení zákazníků, je nepředvídatelný a potenciálně katastrofický.


I když se nemůžete úplně vyhnout všem závažným incidentům, můžete svou organizaci vyzbrojit, aby byla připravena co nejrychleji na jejich řešení, až k ní dojde. A hlavní součástí vaší strategie by mělo být začlenění automatizace. Organizace, které maximalizují využití automatizace ve svých hlavních procesech řešení incidentů, dosahují rychlejšího obnovení služby a mnohem méně chyb způsobených lidskými chybami. Je to proto, že automatizace přímo ovlivňuje vaši schopnost zkrátit dobu trvání dopadu na podnikání - nebo to nákladné období, ve kterém vaši uživatelé a obchodní operace skutečně cítí dopad nehody. (Další informace o automatizaci naleznete v části Automatizace: Budoucnost vědy o datech a strojové učení?)

Abyste maximalizovali výhody automatizace, měli byste prozkoumat, jaké činnosti je třeba provést během okna dopadu, a zjistit, jak přesunout všechny ostatní činnosti před zahájením incidentu nebo po návratu podniku k běžným provozům. Zde je pět užitečných způsobů, jak začít.


1. Vyvinout a definovat proces

Definování procesu správy závažných incidentů je o určení toho, co lze během incidentu naplánovat, koordinovat nebo provést. To může znamenat například identifikaci klíčových členů podpůrného týmu podle dovedností a harmonogramu, aby je vaše servisní oddělení mohlo zapojit co nejrychleji a nejefektivněji. Znamená to také zjistit, jak předáte relevantní informace svému týmu, aby mohli začít problém okamžitě řešit, a také informovat a aktualizovat správné zúčastněné strany.

Automatizace je rozhodující pro klíčové aspekty tohoto procesu. Můžete například automatizovat zahrnutí relevantních informací z vašich monitorovacích nástrojů do vstupenek do servisního pultu, nebo zahrnout informace z servisního pultu do oznámení adresovaných řešitelům incidentů. Celý incident můžete také dokumentovat do jediného zdroje komplexní pravdy, který je přístupný všem. Nezapomeňte, že tento proces můžete procvičit, abyste to napravili - nemusíte čekat na incident v reálném světě, který otestuje váš přístup.

2. Získejte správnou infrastrukturu

V dnešní a únavové únavě je důležité, abyste nepřestávali bombardovat své týmy irelevantními oznámeními a informacemi, které se na ně nevztahují. Použití filtrů na vaše monitorovací výstrahy umožní vašim týmům snáze zapadnout do jehly v sena rutinního hluku. To je klíč k tomu, aby všechny vaše statistiky a údaje byly skutečně proveditelné, a ne jen přidávání k přetížení informací.

Mezi dobré způsoby automatizace patří použití řešení APM k procházení všech vašich aplikací a systémů, aby bylo možné aktivně identifikovat kořenové příčiny v okamžiku jakéhokoli zhoršení výkonu, před tím, než dojde k závažným výpadkům služeb. Můžete také integrovat své monitorovací, servisní oddělení, aplikace pro spolupráci a chatovací nástroje pro sdílení společných informací v reálném čase.

Žádné chyby, žádný stres - Váš průvodce krok za krokem k vytváření softwaru pro změnu života, aniž by došlo ke zničení vašeho života

Nemůžete zlepšit své programovací schopnosti, když se nikdo nestará o kvalitu softwaru.

3. Přesně změřte MTTR

Jak změříte průměrný čas na opravu (MTTR)? Zakládáte to na celkovém čase, kdy jsou zapojeny týmy IT, nebo na celkovém čase, na který je podnikání skutečně ovlivněno? Pokud je vaše odpověď první, měli byste přehodnotit měření dopadu pomocí obchodní perspektivy. Toto je mnohem přesnější řešení pro vaše snahy o optimalizaci, protože vaším cílem je minimalizovat dopad incidentů, a nejen předložit lepší přehledy odpovědí vaší desce. (Chcete-li se dozvědět více o prostojích a o tom, jak se s nimi pracuje, podívejte se, jaký je průměrný čas mezi poruchami ve skutečnosti.)

Můžete automatizovat tím, že poskytnete plnou viditelnost aplikacím, abyste v případě potřeby mohli retrospektivně „zahájit hodiny“, a uchovat si úplné záznamy o vašich aktivitách v oblasti řešení problémů a komunikaci pro účely analýzy a auditu za účelem zlepšení vašich procesů.

4. Informujte zúčastněné strany - ale bez přerušení řešení

Zúčastněné strany očekávají účinnou a včasnou komunikaci a zároveň očekávají, že odborníci na předmět zůstanou laserově zaměřeni na řešení problémů. I když byste mohli určit komunikační kontaktní místo pro monitorování a zapojení firemních uživatelů, efektivnější strategií by bylo vytvoření samoobslužné webové stránky s aktualizacemi stavu. To zmocňuje zúčastněné strany, aby se zkontrolovaly, aniž by bombardovaly váš tým dalším hovorem. Nezapomeňte pravidelně aktualizovat své zúčastněné strany, aby vždy dostávaly a věděly, že očekávají nejnovější zprávu o stavu. Nezapomeňte, že komunikace by se neměla zastavit jen proto, že je služba obnovena! Důležité zúčastněné strany získají shrnutí toho, co se stalo, co se dozvědělo a jak lze situaci v budoucnu zabránit.

Automatizace v tomto případě může být implementována tak, aby vytvořila automatickou stránku stavu v reálném čase pro zúčastněné strany, jakož i vytvořila příkazy lomítka do vašeho chatovacího nástroje pro aktualizaci této stránky.

5. Shromažďujte data pro podporu řešení problémů

Obnovení služby nepředstavuje konec správy incidentů! Ve skutečnosti se některé z nejcennějších činností vyskytují v důsledku rozhodnutí. Shromážděním diagnostických údajů a údajů o dopadech a provedením analýzy příčin můžete provést úplný audit závažných incidentů, včetně zavedení preventivních opatření, aby se podobným incidentům v budoucnu zabránilo. Kromě toho, i když se znovu objeví rozpoznatelný incident, můžete vytvořit definovaný postup pro to, jaké druhy dat je třeba shromažďovat a kroky, které je třeba provést, aby se dosáhlo rozlišení. Tímto způsobem váš tým prostě musí odkazovat na kontrolní seznam a zaměřit se na svůj hlavní cíl obnovení služby, spíše než se starat o to, co potřebují a kdy.

Automatizace zde může zachytit a zachovat činnosti řešení, včetně věcí, jako jsou transkripty chatu, v jediném systému záznamu pro analýzu. Kromě toho vám pomůže sestavit katalog známých incidentů nebo problémů, upevnit osvědčené postupy pro každý z nich, a zvýšit tak v budoucnu rychlost řešení.

Na závěr: Automatizujte chytřejší, ne více

Buďte opatrní, že větší automatizace nemusí nutně znamenat lepší přístup! Je důležitější, abyste pochopili, kdy, kde a jak propojit své IT systémy k podpoře správy incidentů. Nechcete přidávat zbytečnou komplikovanost kvůli zvyšujícím se automatizovaným procesům. Nezapomeňte, že cílem je co nejvíce zjednodušit a konsolidovat operace, aby se vaše týmy cítily zmocněny efektivně řešit problémy. Jde o inteligentní implementaci automatizace s cílem usnadnit dobře koordinovanou sadu procesů, dobře informovaný personál a efektivní komunikaci se zúčastněnými stranami, aby se minimalizoval celkový dopad velkých incidentů na podnikání.