Artificial Intelligence (AI) gehört zu den aufstrebenden Technologien, welche die Digitalisierung der Geschäftsprozesse beflügeln. AI wird sich in allen Bereichen unseres Lebens einnisten und unsere Vorstellung von Arbeiten in Zukunft komplett auf den Kopf stellen. Und die Zukunft klopft nicht an – sie tritt ein und ist schneller da, als man sich das vielleicht wünscht.
Auch für den Bereich IT Operations zeichnet sich ein grosser Umbruch ab. Der bereits mit der DevOps-Bewegung stark unter Druck geratene IT Betrieb zur Automatisierung der Bereitstellungsabläufe wird noch viel stärker der Veränderung unterworfen sein, als dies auf den ersten Blick vermuten liess. Die Komplexität der dynamischen Multicloud-Infrastrukturen zusammen mit den immensen Daten generierenden digitalen IoT-Prozessen sind mit traditionellen IT Management Techniken aber auch mit Automatisierung alleine nicht unter Kontrolle zu halten. Hierzu braucht es künstliche Intelligenz auf Basis von Machine Learning und Big Data, um mit Hilfe von Rechenpower die verschiedenen Daten, Logfiles, Service Management Tickets in Realtime zu aggregieren, zu verarbeiten und damit schnell reagieren zu können.
Gartner hat dazu AIOps (Artificial Intelligence for IT Operation) als künftige Plattform deklariert:
«AIOps bezieht sich auf mehrschichtige Technologieplattformen, die den IT-Betrieb automatisieren und verbessern, indem sie mithilfe von Analysen und maschinellem Lernen große Datenmengen (Big Data) aus verschiedenen IT-Betriebstools und -geräten analysieren, um Probleme automatisch in Echtzeit zu erkennen und darauf zu reagieren.»
Die AIOps-Plattform gemäss Gartner besteht aus den zwei wesentlichen Komponenten Big Data und Machine Learning (siehe dazu meinen letzten Blog Beitrag: Ist Machine Learning der Schlüssel für Smart-ITSM?) und umfasst die Daten- und Funktionsbereiche IT Service Management, Performance Monitoring und Automatisierung. Heute sind diese Funktionen und zugrundeliegenden Werkzeuge vielfach getrennt und in der Regel nicht in aggregierter Form sichtbar. Das ist oft auch ein weiterer Grund dafür, dass Silos entstehen, da hier oft spezialisiertes KnowHow benötigt wird und für Personen ausserhalb des Bereiches nur schwer nachvollziehbar ist. Die heute eher isolierten Datenquellen und Systeme sowie die laufend zunehmenden Echtzeitdaten von Events aus Monitoring- und Ticketing-Systemen gilt es nun zusammen zu tragen und mittels Artificial Intelligence basierten «Big Data»-Analyse und «Machine Learning»-Techniken kontinuierlich zu prüfen und zu optimieren.
Reine Roboter-Automatisierung reicht dabei in der Regel nicht mehr aus. Das konkrete Verhalten der Applikationen und Systeme sowie sich dynamisch verändernde Umgebungsvariablen (Anzahl Nutzer, anfallendes Datenvolumen, aktuelle Cloud Angebote ect.) müssen in Zukunft vorausgesagt und die Lösung in der Bereitstellung jeweils berücksichtigt werden, welche sich direkt auf die Leistung und Verfügbarkeit der End-to-End Services auswirken. Auch können bei auftretenden Problemen automatisiert Root-Cause Analysen mithilfe von Machine Learning und Realtime Log-Analysen erstellt und so viel rascher und teils ohne menschliches Dazutun gelöst werden. Wenn vielleicht heute für eine durchschnittliche Lösungsanalyse in einer relativ statischen IT Umgebung 4-6 Stunden aufgewendet werden muss, wird dies in einem dynamischen Umfeld mit Cloud, Containern und Microservices noch um einiges länger dauern, bis man sich nur schon durch all die betroffenen Logfiles und Event-Stürme durchgearbeitet hat. AIOps-Lösungsraten zeigen in so einem komplexen Umfeld Ergebnisse und gar Lösungen innert weniger Minuten auf. Das Potential ist enorm.
Gartner hat hierzu auch einen Leitfaden für den AIOps-Markt erstellt (link). Dabei hat Gartner 11 Capabilities identifiziert, nach welchen Tool-Hersteller kategorisiert und allenfalls evaluiert werden können.
DevOps wird also nicht zu NoOps – sondern zu AIOps. Es ist die nächste Generation von IT Operations und kann als solche ein wesentlicher Bestandteil einer agilen DevOps Organisation werden. Hier bietet sich auch die spannende Gelegenheit für IT Operations Spezialisten, mit Hilfe von solchen neuen Technologien die IT Operations Prozesse völlig neu auszurichten. So können Anwendungen AI gestützt analysiert und im automatisierten CI/CD Prozess das passende Infrastruktur-Mapping bezogen werden. Das ermöglicht beispielsweise Orchestrierung im Up-Scaling oder Down-Scaling Umeld – oder das Operations Management von Microservices über verteilte Infrastrukturen hinweg in einem Hybriden Umfeld. Ein echter Mehrwert in einer agilen IT Umgebung.
Die grundlegenden Architekturkomponenten einer AIOps-Plattform sind die offene Datenaufnahme, automatische Erkennung, Korrelation, Visualisierung, maschinelles Lernen und Automatisierung. Es sei aber davor gewarnt, hier einfach eine weitere Technologie-Initiative zu starten und AI als reine Tool-Implementierung zu positionieren. AIOps ist eine völlig neue Dimension und hat ein enormes Potential, welches über die Effizienz-Optimierung im IT Operations hinausgeht. Die Anforderungen an IT Operations Experten ändern sich fundamental. Wenn heute IT Spezialisten die IT Operations Tasks selber abarbeiten, Probleme analysieren und Infrastrukturen bereitstellen, dann wird diese Arbeit in Zukunft vollständig von AIOps-Werkzeugen erledigt.
AIOps verwendet Big Data, Algorithmen und Machine Learning, um das Profil von IT- und Geschäftsdaten zu analysieren. Dabei werden alle Daten einschliesslich Monitoring und ITSM-Daten berücksichtigt. Durch die Kombination von Daten aus mehreren Quellen liefert AIOps hochwertige Einblicke, die in einem einzigen Datensatz nicht verfügbar sind. So kann erkannt werden , wie ein «normaler»-Betrieb aussieht, respektive welche Faktoren kausal und korrelativ sind, wenn es nicht normal ist. Um dann automatisch eine Lösung zu empfehlen oder gleich umzusetzen. Dies geschieht unglaublich schnell und bei exponentiell steigenden Datenmengen. Hier kann ein IT Operations-Mitarbeiter nie effizienter sein, da er weder das gesamte KnowHow noch die Kapazitäten dazu hat. Daher wird dies zwangsweise auf Ebene der Prozesse, Architektur und Kultur in der gesamten Organisation Auswirkungen haben. Entsprechend muss sich die Organisation dessen bewusst werden und eine darauf ausgerichtete Vision und Strategie erstellen.
Der Fokus der verbleibenden Tätigkeiten im AIOps-Umfeld konzentriert sich auf die Überwachung und Adjustierung der Ergebnisse der AIOps-Werkzeuge. Machine Learning ist dabei eine wesentliche Komponente. Man unterscheidet grundsätzlich zwischen «überwachtem» und «unbeaufsichtigtem» Lernen. Überwachtes Lernen ist, wenn man ein System mit Stichproben (historischen) Daten trainiert. Wenn das AIOps-System die erwarteten Ergebnisse liefert, gilt es als «trainiert» und kann auf neue, produktive Daten angewendet werden. Beim «unbeaufsichtigten» Lernen werden keine Trainingsdaten zur Verfügung gestellt, und das System muss Daten ohne externe Unterstützung organisieren und analysieren.
AIOps-Systeme basieren in den meisten Fällen auf «überwachtem» Machine Learning. IT-Operations Experten benötigen ein gutes Verständnis der Algorithmen, die hinter der AIOps-Verarbeitung stehen, um das System zu trainieren und zu validieren. Sie erarbeiten sogenannte Knowledge-Items und stellen diese dem Prozess-Automaten zur Verfügung. Sie müssen keine Datenwissenschaftler sein oder komplexe mathematische Berechnungen durchführen, aber sie müssen sehr gut verstehen, wie die maschinellen Lernalgorithmen funktionieren und wie sie Analysen auf die Daten anwenden. Ziel ist es, das «Warum» der maschinell erzeugten Ergebnisse zu verstehen, damit sie akzeptiert, abgelehnt oder angepasst werden können.
AIOps-Spezialisten müssen nun lernen, wie Entwickler zu denken und zu sprechen. Es geht um APIs und um Continuous Delivery, Microservices und Containers. Es gilt die richtigen Methoden zur Messung der Auswirkungen auf das integrierte IT-Ökosystem zu bestimmen, um dann richtig reagieren zu können, falls etwas schiefläuft. So müssen im DevOps-Team Antworten gegeben werden können auf Fragen, wie beispielsweise ob Datenprobleme vorliegen, welche Teile des gelieferten Codes Probleme verursachen; ob APIs von integrierten Thirdparty-Diensten funktionieren oder bei welchem Cloud Provider zu welchem Preis skaliert werden soll und vieles mehr. Gerade bei Cloud-Diensten muss IT-Operations ein gutes Auge darauf werfen können, welche Ressourcen tatsächlich gebraucht werden und welche wieder freigegeben werden sollen um damit die Kosten im Griff zu behalten.
Gerade auch im Security Bereich bietet AIOps enormes Potential in der Früherkennung von Anomalien und im rechtzeitigen Reagieren. Eine «Denial of Service»-Attacke kann viel früher als solche erkannt und abgewehrt werden, als wenn dies durch die Security Experten in den Logfiles erst ausfindig machen müssen.
Letztlich gewinnt das AIOps System mit dem Machine Learning auch kontinuierliche Einblicke in das sich laufend verändernde IT-Ökosystem und IT Operations kann viel proaktiver und effiztienter für das Unternehmen arbeiten und letztendlich die gesamte Organisation produktiv und auf dem neuesten Stand halten.
Fazit: AIOps ist nicht mehr bloss eine Option, sondern eine Notwendigkeit und Voraussetzung für Unternehmen mit dynamischen und komplexen IT-Umgebungen. Mit dem Aufkommen von Cloud, verteilten Architekturen, Containern und Microservices ist eine Zunahme der zu bewirtschaftenden Datenmenge (Big Data) klar voraussagbar. Mit der DevOps Bewegung einhergehenden Integration der IT Operations Prozesse müssen sämtliche manuelle Abläufe automatisiert werden. AIOps wird dabei die grundlegende Plattform bilden.
Pingback: Services sind digitale Produkte | Disruptive agile Service Management
I think one of the greatest advantages of AI systems is that they enable humans to be more efficient. AI can be leveraged to perform small, repetitive tasks faster, or it can be used to complete much larger, more complex tasks. Thanks for sharing this useful article.