Want to talk?

Want to talk?

Wissen

Es ist unausweichlich! Ihre Maschine wird ausfallen!

Eine gewagte Aussage, die eher eine persönliche Meinung ist als eine durch Daten gestützte, wissenschaftliche Tatsache. Also würde ich Ihnen nicht raten, den Rest Ihres Nachmittags damit zu verbringen, mich vom Gegenteil zu überzeugen – denn ich bin auch mit dieser Ansicht einverstanden. Es ist lediglich meine Meinung, basierend auf meinen persönlichen und beruflichen Erfahrungen. Aber ich schreibe heute nicht, um diese Aussage mit statistischen Daten, Fallstudien und Forschungsergebnissen zu untermauern. Vielmehr möchte ich meine Erfahrung und die von T60 teilen, wie wir ein Überwachungs- und Wiederherstellungssystem konzipiert und entwickelt haben. Ein System, das den Auswirkungen, die Schwere und die Ausfallzeit einer großen Industriemaschine verringert, indem es automatisierte und manuelle Wiederherstellungslösungen kombiniert.

…ein Überwachungs- und Wiederherstellungssystem, das die Auswirkung, die Schwere und die Ausfallzeit einer großen Industriemaschine durch die Kombination von automatisierten und manuellen Wiederherstellungslösungen verringern würde.

In diesem Artikel möchte ich Ihnen einen Überblick über unseren technologieunabhängigen Ansatz geben, in dem wir die Hauptelemente skizzieren, die in jedem Überwachungs- und Wiederherstellungssystem implementiert werden sollten, unabhängig von der Branche, der eingesetzten Art der Maschine oder der zugrundeliegenden Technologie..

Doch beginnen wir mit den Grundlagen…

Was ist Maschinenausfall?

Ein Maschinenausfall tritt auf, wenn eine Maschine unterdurchschnittlich funktioniert, aufhört zu arbeiten oder von ihrem normalen Betriebszustand abweicht. Der Ausfall kann verschiedene Schweregrade haben und teilweise oder vollständig sein. Für unsere Zwecke wird jede Funktionsstörung als Maschinenausfall betrachtet.

Um es klarzustellen: Ich beziehe mich hier auf Industriemaschinen, bei denen jede Störung des normalen Betriebs den Produktionsprozess unterbrechen und zu Umsatzverlusten und einem Reputationsschaden führen kann.

Als Unternehmensinhaber, Werks- oder Fabrikleiter oder Stakeholder in einem maschinenbetriebenen Unternehmen ist es in Ihrem besten Interesse, Unterbrechungen und Ausfallzeiten Ihrer Maschinen zu minimieren. Dies kann durch ein Überwachungs- und Wiederherstellungssystem erreicht werden

Kommen wir nun zum Kern des Artikels…

Die 5 Hauptkomponenten eines Überwachungs- und Wiederherstellungssystems

Der Überwachungsteil (nennen wir ihn zum Vereinfachen „Überwachungsmotor“) besteht aus:

  • Fehlerüberwachung: Beobachtet Ereignisse, um mögliche Fehler zu erkennen und entsprechend einen Triage-Prozess auszulösen.
  • Regeldatenbank: Speichert Ereignisdefinitionen, Grenzwerte, normale und Fehlerzustände sowie mögliche Wiederherstellungsmaßnahmen, die ergriffen werden sollen, wenn das Ereignis als Ausnahme erkannt wird.

Der Wiederherstellungsteil (nennen wir ihn “Wiederherstellungsmotor“) besteht aus:

  • Der Triage: Warteschlange und Analyse von Fehlern, Priorisierung der Ausführung und Auslösung des geeignetsten Wiederherstellungsszenarios (automatisch oder manuell).
  • Automatisierte Wiederherstellung: Führt vordefinierte Aktionen automatisch aus, basierend auf Art, Schwere und Fehlerart.
  • Manuelle Wiederherstellung: Stellt detaillierte Statusberichte, Anweisungen zur manuellen Wiederherstellung und Handlungsaufforderungen für die Maschinenbediener bereit.

Lassen Sie uns über die Funktion und Rolle der einzelnen Komponenten sprechen …

Komponente 1: Fehlerbeobachter

Der Fehlerbeobachter macht genau das: er hört zu, hört zu und hört zu … und dann hört er weiterhin ununterbrochen auf Ereignisse, die ständig in den verschiedenen Subsystemen Ihrer Maschine stattfinden, um eine Abweichung vom standardmäßigen Ablauf zu erkennen. Sobald eine Ausnahme erkannt wird, informiert der Fehlerbeobachter sofort den Recovery-Manager; in diesem Fall wird die Triage-Komponente ausgelöst, um die notwendigen Aktionen zu starten.

Der Fehlerbeobachter macht genau das; er hört, hört und hört … und dann hört er immer wieder kontinuierlich auf Ereignisse, die ständig in den verschiedenen Teilsystemen Ihrer Maschine stattfinden.

Aber welche Art von Ereignissen sollte der Hund, ich meine der Fehlerbeobachter, beobachten und überwachen? Zu jedem Zeitpunkt könnten Millionen von Transaktionen, Ereignissen und Vorgängen ausgeführt werden! Wie weiß der Beobachter, ob ein Ereignis als Fehler eingestuft wird? Gibt es einen Schwellenwert, der von einem Sensor beispielsweise nicht überschritten werden sollte? Ist eine Warnung anders als ein Fehler? Was macht eine Warnung zu einer Warnung und einen Fehler zu einem Fehler? Die Antworten auf all diese Fragen finden sich in Komponente 2…der Regel-DB.

Komponente 2: Regel-DB

Dies ist die einzige Wahrheitsquelle eines Überwachungs- und Wiederherstellungssystems. Die Regel-DB speichert alle Details aller Ereignisse, die wir überwachen möchten, deren Werte innerhalb eines bestimmten Bereichs gehalten werden sollten und deren Schwellenwerte, wenn überschritten, eine Störung des normalen Betriebs der Maschine verursachen würden. Diese Ereignisse sind diejenigen, auf die sich der Fehlerbeobachter abonnieren und die er ständig im Auge behalten sollte. Die Regel-DB ist eine konfigurierbare Komponente, die eine kontinuierliche, aktuelle Bearbeitung von Ereignissen und den erforderlichen Maßnahmen zur Wiederherstellung einer Störung ermöglicht.

Ein Ereignis wird in der Regel mit den folgenden Hauptattributen gespeichert:

  1. Name und eindeutige ID
  2. Werte für normale, Warn- und Fehlermodi
  3. Wiederherstellungsaktion (z.B. automatische Neustartmethode oder manuelle Anweisungen zur Wiederherstellung des Maschinenstatus)

Die Regel-DB bietet einen schnellen Überblick über die verschiedenen zu überwachenden Ereignisse und ermöglicht dem Triage-Manager einen einfachen Zugriff auf die zur Lösung des Problems erforderlichen Aktionen und Verfahren.

Komponente 3: Die Triage

Erinnern Sie sich an das letzte Mal, als Sie schmerzerfüllt in die Notaufnahme eilten, in der Erwartung, sofort behandelt zu werden, nur um zu Ihrem völligen Schock und Überraschung herauszufinden, dass Sie noch einige Stunden warten mussten, bevor Sie untersucht wurden. Sie waren sich sicher, dass Sie Ihre Situation klar dargelegt und den Schmerzgrad deutlich kommuniziert hatten! Nun … geben Sie der Triage die Schuld.

Nach derselben Analogie sitzt die Triage-Komponente im Kern eines Überwachungs- und Wiederherstellungssystems und ist dafür verantwortlich, die Ausnahmen in eine Warteschlange zu setzen und zu entscheiden, welche zuerst behandelt werden sollten, basierend auf einer Kombination von Faktoren wie Warteposition, Schweregrad, Auswirkung, Lösungszeit usw.

… die Triage ist das Herz eines Überwachungs- und Wiederherstellungssystems …

Die Triage-Komponente hat drei kritische Aufgaben:

  • Einreihen von Fehlern/Ausnahmen, um sicherzustellen, dass die Informationsbeschaffung und die Standardausführung sequenziell erfolgen.
  • Sammeln von Informationen über Art, Zeit, Schweregrad, Wiederherstellungsschritte des Fehlers und den aktuellen Zustand der Maschine, bevor Maßnahmen ergriffen werden können.
  • Auslösen von Wiederherstellungsaktionen, die in der Regeldatenbank (Rules DB) definiert sind; dies könnte eine automatische Wiederherstellung oder eine manuelle Wiederherstellung sein, bei der ein Eingriff eines Mitglieds des Betriebsteams erforderlich ist.

Komponente 4: Automatisierte Wiederherstellung

Hier findet die eigentliche Aktion statt.

Sobald ein Ausfall bestätigt ist, werden vordefinierte Wiederherstellungsaktionen ausgeführt, die in der Regeldatenbank (Rules DB) definiert sind. Ziel ist es, die Maschine so schnell wie möglich in einen Zustand normalen Betriebs und Produktivität zurückzubringen. Die automatische Wiederherstellung entscheidet auch, wann die Wiederherstellungsaktivität durchgeführt wird und ob die Maschine ausgesetzt oder der aktuelle Betrieb abgebrochen werden muss, bevor der Fehler behoben werden kann.

Beispiele für Wiederherstellungsaktionen könnten sein: Abschalten des Temperaturventils, Schließen der Wasserflusstore, Zurücksetzen einer Produktionsdatenbank bei fehlgeschlagener Datenbankmigration usw.

Aber was, wenn dennoch etwas schief geht und die Maschine nicht automatisch von einem Ausfall erholt werden kann? Es sollte immer einen Notfallplan geben, wenn Ihre automatisierte Lösung/Methode nicht ausreicht, was oft aus unzähligen Gründen passieren wird. In unserem Fall ist der Notfallplan die manuelle Wiederherstellung.

„Es sollte immer einen Notfallplan geben, wenn Ihre automatisierte Methode nicht ausreicht, was oft aus unzähligen Gründen der Fall sein wird. In diesem Fall tritt die manuelle Wiederherstellung ein.“

Komponente 5: Manuelle Wiederherstellung

Erinnern Sie sich an das Mal, als Sie mitten in der Nacht durch einen Anruf Ihres Betriebsteams geweckt wurden, das schrie, dass alles in Flammen steht und eine manuelle Zurücksetzung der Produktionsdatenbank sofort erforderlich ist, weil Ihre Automatisierungswerkzeuge das Problem nicht lösen konnten!

Oft übersehen, ist die manuelle Wiederherstellungskomponente genauso wichtig wie die automatisierte. Es ist unser Notfallplan, wenn die Dinge schief gehen (und ich habe bewusst „wann“ und nicht „ob“ verwendet, weil ein Fehler schließlich auftreten wird) oder wenn eine automatische Wiederherstellungsaktion noch nicht definiert ist.

Das ist der Fall, wenn eine Maschine sich nicht selbst erholen kann und manuelle Intervention benötigt (jemand muss sie wieder umdrehen), um in ihren normalen Betriebsmodus zurückzukehren und wieder produktiv zu werden.

Die manuelle Wiederherstellung ist dafür verantwortlich, detaillierte Statusberichte, Anweisungen zur manuellen Wiederherstellung und Handlungsaufforderungen für die Maschinenbediener bereitzustellen, um ihnen zu helfen, schnell informierte Entscheidungen zu treffen und die Fehler zu beheben; dies könnte in Form einer E-Mail-Benachrichtigung oder einer Benutzeroberfläche sein, in der das Betriebsteam nach ähnlichen Fehlern suchen, detaillierte Anweisungen zum Beheben eines Fehlers lesen oder manchmal das Problem sogar an ein 3rd-Level-Supportteam weiterleiten kann.

Fazit

Schließlich ist es wichtig zu verstehen, dass jede Maschine letztendlich ausfallen wird! Mein persönlicher Standpunkt! Fehler sind unvermeidlich und sollten auch so behandelt werden. Es liegt in unserer Verantwortung sicherzustellen, dass wir die richtigen Maßnahmen getroffen haben, um uns schnell von kostspieligen Ausfallzeiten zu erholen.

Frohes Wiederherstellen! In diesen stressigen Zeiten brauchen wir das alle!