Die totale Überwachung

Checkliste: Hilfreiche Tipps für erfolgreiches Monitoring

André Schindler

© Shutterstock / Graphic farm

Überwachung des Gerätezustands, Kontrolle von Laufwerken und Anwendungen, grundlegende Sicherheitsüberwachung, Netzwerk-Monitoring – all das sind Themen, die in der IT-Branche, insb. im DevOps-Bereich großen Stellen wert haben. Da fällt es mitunter schwer, den Überblick zu behalten. Die Checkliste von André Schindler, General Manager EMEA bei NinjaRMM, hilft dabei.

Monitoring soll Unternehmen helfen, Produkte und Dienstleistungen zu verbessern. Besonders für Systemhäuser und MSPs ist es wichtig, Produkte zu optimieren und flexibel auf Kundenbedürfnisse zu reagieren. Denn das birgt ein enormes Potential, um neue Einnahmequellen zu erschließen und Kundenbedürfnisse zu identifizieren. Für die Verantwortlichen ist es allerdings eine große Herausforderung, zu erkennen, wann sie in automatisierte Prozesse eingreifen sollten und wann nicht. Durch wachsende Ansprüche an komplexe Monitoring-Prozesse ist es ratsam, sich zuerst einen Überblick über Monitoring-Bereiche zu verschaffen, die unbedingt überwacht werden sollten.

Dazu hat André Schindler, General Manager EMEA von NinjaRMM, eine Liste mit Empfehlungen für zu beachtende Bedingungen zusammengestellt. Die Liste zeigt (ohne Anspruch auf Vollständigkeit), welche Möglichkeiten Verantwortliche haben, um auf Veränderungen in verschiedenen Monitoring-Bereichen zu reagieren. Diese Empfehlungen basieren auf Partner-Expertisen und gesammelten Erfahrungen im Aufbau effizienter Monitoring-Prozesse.

Richtige Anwendung der Checklisten

Die nachstehende Liste zeigt genaue Beschreibungen von Bedingungen, die Verantwortliche jederzeit überwachen und kontrollieren sollten. Sie stellt dar, auf welche Maßnahmen IT-Experten in der Praxis zurückgreifen können, um Monitoring-Prozesse zu optimieren.

Überwachung des Gerätezustands

1. Überwachung von Auffälligkeiten bei kritischen Ereignissen

  • Bedingung: Kritische Ereignisse
  • Schwellenwert: 80 kritische Ereignisse innerhalb von 5 Minuten
  • Maßnahme: Ticket und Fehlersuche

2. Feststellung unbeabsichtigter Neustarts von Geräten

  • Bedingung: Windows-Ereignis
  • Ereignis-Quelle: Microsoft-Windows-Kernel-Power
  • Ereignis-ID: 41
  • Anmerkung: Die Bedingung eignet sich besser für Server, da dieses Ereignis auf Workstations und Laptops durch Handlungen der Benutzer ausgelöst werden kann.
  • Maßnahme: Ticket und Fehlersuche

3. Identifikation fehlerhafter Geräte

  • Bedingung: System-Aktivitätszeit
  • Empfohlener Schwellenwert: 30 oder 60 Tage
  • Maßnahme: Starten Sie das Gerät während eines geeigneten Zeitfensters neu. Für Workstations kann eine Automatisierung eingerichtet werden.

Kontrolle von Laufwerken

1. Überwachung möglicher Festplattenfehler

  • Bedingung: Windows S.M.A.R.T. Status verschlechtert
    und/oder
  • Bedingung: Windows Ereignis
  • Ereignis-Quelle: Festplatte
  • Ereignis-ID’s: 7, 11, 29, 41, 51, 153
  • Maßnahmen: Ticket und Nachforschungen

2. Überwachung der Festplattenkapazitäten

  • Bedingung: Freier Speicherplatz auf Festplatten
  • Schwellenwert: jeweils bei 20% und 10%
  • Maßnahmen: Festplattenbereinigung und Löschen temporärer Dateien

3. Überwachung eventueller RAID-Fehler

  • Bedingung: RAID-Integritätsstatus
  • Schwellenwerte: kritisch und unkritisch bei allen Attributen
  • Maßnahmen: Ticket and Nachforschungen

Kontrolle von Anwendungen

1. Sind alle relevanten Anwendungen auf einem Endpunkt vorhanden?

  • Bedingung: Software
  • Verwendung für:
    • Kundenspezifische Geschäftsanwendungen (Beispiele: AutoCAD, SAP, Photoshop)
    • Kundenspezifische Produktivitätsanwendungen (Beispiele: Zoom, Microsoft Teams, DropBox, Slack, Office, Acrobat)
    • Werkzeuge für den Kundensupport (Beispiele: TeamViewer, CCleaner, AutoElevate, BleachBit)
  • Maßnahmen: Automatisierte Installation von erforderlichen Anwendungen, falls sie nicht vorhanden sind

2. Überwachung kritischer Anwendungen (insbesondere für Server)

  • Bedingung: Prozess / Service
  • Schwellenwert: Ausfallzeit mindestens 3 Minuten
  • Beispielhafte Prozesse:
    • Für Workstations: TeamViewer, RDP, DLP
    • Für Exchange Server: MSExchangeServiceHost, MSExchangeIMAP4, MSExchangePOP3, etc
    • Für einen Active Directory Server: Netlogon, dnscache, rpcss, etc
    • For einen SQL Server: mssqlserver, sqlbrowser, sqlwriter, etc
  • Maßnahmen: Service oder Prozess neustarten

3. Überwachung der performance-relevanten Ressourcen

  • Bedingung: Prozessressource
  • Schwellenwert: über 90% für mindestens 5 Minuten
  • Beispielhafte Prozesse: Outlook, Chrome und TeamViewer
  • Maßnahmen:
    • Ticket and Nachforschungen
    • Ausführen bei Systemstart sperren

Grundlegende Sicherheitsüberwachung

1. Benachrichtigungen, wenn Windows-Firewall deaktiviert wird

  • Bedingung: Windows-Ereignis
  • Ereignis-Quelle: System
  • Ereignis-ID: 5025
  • Maßnahmen: Aktivierung der Windows-Firewall

2. Feststellen, ob Sicherheitswerkzeuge installiert sind und ausgeführt werden

  • Bedingung: Software
  • Anwesenheit: existiert nicht
  • Software (Beispiele): Huntress, Cylance, Threatlocker, Sophos
  • Maßnahme: Automatisierte Installation der fehlenden Sicherheits- und Antivirus-Software
  • Bedingung: Prozess / Service
  • Zustand: läuft nicht
  • Prozess (Beispiele): threatlockerservice.exe, EPUpdateService.exe
  • Maßnahme: Prozess neustarten/li>

3. Überwachung nicht nativ integrierter AV / durch EDR erkannter Gefährdungen

  • Bedingung: Windows-Ereignis
  • Beispiel: (Sophos)
  • Ereignis-Quelle: Sophos Anti-Virus
  • Ereignis-IDs: 6, 16, 32, 42

 Überprüfung des Netzwerk-Monitoring

1. Überwachung der Bandbreitenauslastung

  • Bedingung: Netzwerkauslastung
  • Richtung: Out
  • Schwellenwerte: Die Schwellenwerte richten sich nach der Art des Endpunkts und der Netzwerkkapazität
    • Für jeden Server sollten angepasste Schwellenwerte festgelegt werden
    • Die Schwellenwerte der Netzwerk-Überwachung für Workstations sollten hoch genug liegen, so dass Benachrichtigungen erst ausgelöst werden, wenn ein Kundennetzwerk gefährdet ist
  • Maßnahmen: Ticket and Nachforschungen

2. Sicherstellen, dass Netzwerkgeräte immer nutzbar sind

  • Bedingung: Gerät reagiert nicht
  • Dauer: 3 Minuten

3. Überwachung offener Ports

  • Bedingung: Cloud-Monitor
  • Ports: 80 (HTTP), 443 (HTTPS), 25 (SMTP), 21 (FTP)

Fazit

Monitoring bietet für Unternehmen enormes Potential, um Wertschöpfungsprozesse zu optimieren. Damit Monitoring unabhängig von internen Prozessen funktionieren kann, sollte jedes Unternehmen eine Vorlage zur Überwachung der jeweiligen Systeme haben. Sonst drohen Verantwortliche den Überblick über Zuständigkeiten für automatisierte und manuelle Prozesse zu verlieren.

Darüber hinaus ist es wichtig, den Dialog zum Kunden zu suchen, denn aus diesen Gesprächen können neue Erkenntnisse für Produktoptimierungen entstehen. Nur wenn die Verantwortlichen die Kundenbedürfnisse genau verstehen und auf sie eingehen, können Learnings aus IT-Problemen und anderen Herausforderungen zum langfristigen Erfolg beitragen.

Verwandte Themen:

Geschrieben von
André Schindler

André Schindler gründete als General Manager EMEA bei NinjaRMM die Niederlassung in Berlin und baute Vertrieb & Service in Europa auf. Vor seinem Einstieg bei NinjaRMM wirkte André Schindler viele Jahre in leitenden Funktionen für TeamViewer.

Kommentare

Hinterlasse einen Kommentar

avatar
4000
  Subscribe  
Benachrichtige mich zu: