Uptime der EquipmentCloud® in 2020: 100% verfügbar!
Die Kontron AIS konnte im Jahr 2020 allen Anwendern der EquipmentCloud® eine Verfügbarkeit von 100% (exkl. <1 % geplanter Wartung) gewährleisten und hat damit 0 Stunden ungeplanter Stillstände erreicht. Warum dies allerdings Selbstverständlichkeit sein sollte und eben kein Zufall ist, wollen wir mit einem Blick hinter die Kulissen der IIoT-Service-Lösung EquipmentCloud® aufzeigen. Das Zusammenwirken verschiedener aufeinander abgestimmter Faktoren haben hier einen wesentlichen Anteil.
1. Die Oracle Cloud Infrastructure (OCI) der zweiten Generation als Backbone
Oracle ist seit über 30 Jahren spezialisiert auf Datenbanken und Ausfallsicherheit. In drei Rechenzentren rund um Frankfurt a.M. erfolgt die Datenspeicherung und das Backup der Kundensysteme der EquipmentCloud®, die auf der Oracle Cloud Infrastructure (OCI) basieren. Die drei Standorte dienen der Spiegelung, Redundanz und gehärteten Sicherheit der Daten und sorgen so für eine hohe Verlässlichkeit und Verfügbarkeit auch bei möglichen Ausfällen. Oracle stellt dabei die Netzverbindung und die CPUs exklusiv zur Verfügung, so kann es zu keiner Überbuchung kommen. Als Oracle Partner besteht ein langjähriger Kontakt auf Entwicklungsebene zu Oracle, der für regelmäßigen Austausch zu neusten und sicherheitsrelevanten Themen gepflegt wird. Dabei setzt die Kontron AIS auch immer auf die neuesten Frontend APEX-Updates oder System Patches, die von Oracle zur Verfügung gestellt werden und wofür rechtzeitig Downtimes eingeplant werden können.
2. Kontinuierliche Performanceanalyse
Die Kontron AIS setzt als weiteren Baustein für eine hohe Ausfallsicherheit auf kontinuierliche Performanceanalysen des Systems im Betrieb oder während der Rollouts. Grundsätzlich sind die Frontend- und Backend-Welten voneinander entkoppelt. Darüber hinaus ist der Zugang zum System stark limitiert, indem nur Systemadministratoren des Cloud-OPS-Teams Zugriff haben. Der Zugang ist aktuell durch einen SSH-Schlüssel und ein Passwort geschützt und unterliegt einer kontinuierlichen Überwachung. Zu den wichtigsten Systemparametern gehören z.B. die Auslastung des Arbeitsspeichers, Renderzeiten von Webseiten oder Reaktionszeiten des Systems, die mit statistischen Methoden und einem Logging von Systemaktionen ohne Nutzerbezug ermittelt werden. Außerdem wird der Support 24/7 automatisch bei schwerwiegenden Systemfehlern informiert um frühzeitig Gegenmaßnahmen ergreifen zu können.
3. Vorbeugende Trainingsmaßnahmen
Um für den Ernstfall gewappnet zu sein werden mögliche Einsatzfälle mit dem gesamten Team simuliert. So werden einerseits ungeplante Downtimes minimiert, andererseits Maßnahmen und Wartungsroutinen je nach Szenario vorbeugend trainiert. Darunter fallen z.B.: der komplette Ausfall des Systems, das parallele Reparieren des neuen Systems auf dem Backup Container, die Frontend-Überwachung der Systemlast, die Identifizierung von Frontend-Fehlern, das Hochfahren der Datenbanken, das Durchspielen des Vorgehens bei dringend notwendigen Updates, das Klonen des Produktivsystems oder das vollautomatische Herstellen und Ausrollen des Frontends.
4. Automatischer Test- und automatisierter Rolloutprozess
Die Kontron AIS setzt bei der Produktentwicklung auf automatische Build-Prozesse (Continuous Integration) und automatisches Testen um, Updates innerhalb eines dreiwöchigen Sprints fertigzustellen. Der Test- und Rolloutprozess ist dabei mehrstufig aufgebaut. Dies ermöglicht einen schrittweisen aber automatisierten Rollout neuer Versionen auf allen Staging-Systemen vom Test-Server über das Spiegelsystem bis hin zum Produktivsystem, sofern die Tests erfolgreich verlaufen sind. In Entwicklerkreisen spricht man bei solchen mehrstufigen Rollout-Strategien von einem sogenannten Code-Freeze. Dessen Basis dessen ist eine skriptbasierte Infrastruktur und Regressionstests mit Risikobewertung. Die Verfolgung und Registrierung von Updates sowie die komplette Übersicht aller installierten Versionen gehört ebenfalls dazu. Dabei verfolgt die Kontron AIS auch dem Credo, dass vor Feiertagen oder Wochenende keine Updates ausgerollt werden, um mögliche Störungen nicht zu provozieren.
Vier Gründe, wie wir bei der Kontron AIS eine hohe Verfügbarkeit der SAAS IIoT-Service-Lösung EquipmentCloud® über das ganze Jahr hinweg gewährleisteten. Möchten Sie noch mehr zum Thema erfahren?
Quellen:
https://www.pwc.de/de/prozessoptimierung/assets/cloudcomputing-studie.pdf