Hohe Verfügbarkeit und Oracle-Umgebungen: Leistungs- und Resilienzoptimierung

04 Juni 2011

Im zweiten Teil unseres Dossiers Hochverfügbarkeit und Oracle-Umgebungen haben wir die Bedeutung der Verfügbarkeit und die Kosten von Produktionsausfällen untersucht.

Dies ist der dritte Teil unseres Dossiers, in dem wir uns mit den Ursachen von Produktionsausfällen beschäftigen.

Vorheriger Artikel : High Availability and Oracle Environments - Part 2: The Importance of Availability and the Costs of Production Shutdowns..

Geplante und ungeplante Stillstände

Eine der Herausforderungen beim Entwurf einer Hochverfügbarkeitslösung besteht darin, alle möglichen Ursachen für Stillstände in der Produktion zu untersuchen und zu behandeln. Es ist wichtig, sowohl geplante als auch ungeplante Ausfallzeiten zu untersuchen. Geplante Produktionsausfälle können genauso störend sein wie ungeplante, insbesondere bei internationalen Unternehmen mit weltweit verteilten Nutzern.

Ursachen für ungeplante Abbrüche
 

  1. Standortausfall: Er kann die gesamte Verarbeitung in einem Rechenzentrum oder eine Teilmenge der Anwerdunger, die in diesem Rechenzentrum unterstützt werden, beeinträchtigen...
    • Stromausfall am gesamten Standort
    • Naturkatastrophe, die den Computerstandort außer Betrieb setzt
    • Terroristicher oder böswilliger Angriff auf die Anwendunger oder den Standort
       
  2. Cluster-Ausfall: Der gesamte Cluster, der eine Oracle RAC-Datenbank beherbergt, ist nicht verfügbar oder ausgefallen.
    • Der letzte überlebende Knoten eines Oracle RAC-Clusters fährt herunter und kann nicht neu gestartet werden

    • Beide redundanten INTERCONNECT-Verbindungen sind unbrauchbar oder der gesamte Cluster ist unbrauchbar

    • Eine Datenbankbeschädigung ist so schwerwiegend, dass eine Fortführung auf dem aktuellen Oracle-Server nicht möglich ist

    • Fehler beim Zugriff auf Festplatten
       

  3. Computerausfall: Wenn das System, auf dem die Datenbank ausgeführt wird, nicht mehr verfügbar ist, weil es ausgefallen oder nicht erreichbar ist.
    • Hardware-Ausfall des Datenbankservers
    • Ausfall des Betriebssystems
    • Ausfall der Oracle-Instanz
    • Ausfall der Netzwerkschnittstelle
       
  4. Ausfall des Datenspeichers: Wenn auf die Speicherelemente der gesamten oder eines Teils der Datenbank nicht mehr zugegriffen werden kann.
    • Festplattenausfall
    • Festplattencontroller-Ausfall
    • SAN-Array-Ausfall
       
  5. Datenkorruption: Ein korrupter Block ist ein Block, der so verändert wurde, dass er anders ist als das, was Oracle zu finden erwartet.

    Es gibt logische und physische Korruption. Man kann auch von blockinterner und blockübergreifender Korruption sprechen.

    Ein Ausfall aufgrund von Datenkorruption tritt auf, wenn Hardware, Software oder eine Netzwerkkomponente dazu führt, dass Daten beim Lesen oder Schreiben korrumpiert werden. Die Auswirkungen auf den Servicelevel nach einer Datenkorruption können unterschiedlich sein, mit möglicherweise geringen Auswirkungen im Fall von einem oder mehreren korrupten Blöcken in der Datenbank oder einem Blockieren der Datenbank im Fall von größeren Korruptionen.

    Hier sind einige Dinge, die zu einer Korruption führen können:
    • Fehler im Betriebssystem oder im Disk-Treiber
    • Defekter Busadapter
    • Fehler in einem Disk-Controller
    • Fehler im Disk-Volume-Manager, der einen Lese- oder Schreibfehler der Disk verursacht
    • Software-Fehler
       
  6. Menschliches Versagen: Ein Benutzer hat unbeabsichtigt Daten in einer Datenbank geändert oder gelöscht oder jemand hat betrügerische Datenänderungen vorgenommen; je nach Art des Fehlers sind die Folgen mehr oder weniger schwerwiegend.
    • Löschen von Datendateien aus einer Datenbank
    • Löschen von Objekten in einer Datenbank (Tabellen usw.)
    • Unbeabsichtigtes Ändern von Daten
    • Betrügerische Änderung von Daten
       
  7. Fehlende Schriftzüge: Ein fehlender Schriftzug ist eine weitere Form der Datenkorruption, aber es ist viel schwieriger, ihn schnell zu entdecken und zu reparieren. Ein verlegter oder fehlender Datenblock tritt auf, wenn :
    • Im Falle eines fehlenden Schreibvorgangs (lost write) hat das I/O-Subsystem das Schreiben eines Blocks freigegeben, obwohl er noch nicht auf die Festplatte geschrieben wurde; daher wird beim nächsten Lesen dieses Blocks eine alte Version des Blocks zurückgegeben, was zu einer Kaskade von Fehlern in der Verarbeitung und in der Datenbank führt

    • Im Falle eines verirrten Schreibvorgangs (stray write) wird zwar geschrieben, aber an einer falschen Stelle; Infolgedessen gibt das nächste Lesen dieses Blocks eine alte Version des Blocks zurück, was zu einer Kaskade von Verarbeitungs- und Datenbankfehlern führt

    • In einer Oracle RAC-Datenbank gibt das Lesen eines Blocks von einem Knoten veraltete Daten zurück, wenn ein anderer Knoten diesen Block gerade auf die Festplatte geschrieben hat (lost write). Dies kann passieren, wenn NFS ohne die Option „noac“ verwendet wird.
       

  8. Blockierung oder Verlangsamung: Eine Blockierung oder Verlangsamung tritt auf, wenn die Datenbank oder die Anwendung aufgrund eines Ressourcenkonflikts oder einer Sperre nicht in der Lage ist, Transaktionen zu verarbeiten. Die Wahrnehmung eines Blocks kann durch einen Mangel an Systemressourcen verursacht werden.
    • Anwendungs- oder Datenbank-Deadlocks
    • „Außer Kontrolle geratene“ Prozesse, die Systemressourcen verbrauchen

    • Massiver „Sturm“ von Verbindungen oder Systemfehlern

    • Situation von Anwendungslastspitzen mit einem Mangel an System- oder Datenbankressourcen

    • Platzmangel am Zielort der ARCHIVE LOGS-Dateien oder FRA-Speicherplatz (Flash Recovery Area)

Ursachen für geplante Abschaltungen
 

  1. Aktualisierung von Systemsoftware oder Datenbanken: Eine geplante Abschaltung erfolgt entweder regelmäßig (für Wartungsaufgaben) oder gelegentlich (für Aufgaben zur Weiterentwicklung von Systemsoftware oder Datenbanken oder der Infrastruktur). Die Dauer der Abschaltung hängt von vielen Faktoren ab. Hier einige Beispiele:
    • Hinzufügen oder Entfernen eines Prozessors auf einem SMP-Server
    • Hinzufügen oder Entfernen von Knoten zu einem Cluster
    • Hinzufügen oder Entfernen von Festplatten oder SAN-Arrays
    • Ändern von Konfigurationseinstellungen
    • Aktualisieren oder Patchen des Servers oder Betriebssystems
    • Aktualisieren oder Patchen der Oracle-Software
    • Aktualisieren oder Patchen der Anwendungssoftware
    • Migrieren der verwendeten Hardwareplattform
    • Verschieben der Datenbank
    • Von 32 auf 64 Bit umstellen
    • Auf eine Cluster-Architektur umstellen
    • Auf neuen Speicher umstellen
       
  2. Änderung an den Daten: Dies ist der Fall, wenn die logische Struktur oder die physische Organisation von Oracle-Datenbankobjekten geändert wird. Diese Änderungen dienen häufig dazu, die Leistung oder die Handhabbarkeit zu verbessern. Hier einige Beispiele:
    • Änderung an der Tabellendefinition
    • Implementierung der Tabellenpartitionierung
    • Erstellung oder Rekonstruktion von Indizes
       
  3. Änderungen an Anwendungen: Diese Änderungen an Anwendungen können einerseits Änderungen an den Daten und dem Schema der Datenbank und andererseits Änderungen an den Programmen umfassen.

Oracle bietet verschiedene Lösungen an, um sowohl geplante als auch ungeplante Ausfallzeiten zu vermeiden und um mit den verschiedenen möglichen Ausfällen umgehen zu können. Auf diese Lösungen wird in zukünftigen Artikeln näher eingegangen.

Weitere Artikel aus der Kategorie Data & AI

Föderierte Governance: Eine zentrale Säule für den Erfolg von Data Mesh

Erfahren Sie, warum föderierte Governance eine entscheidende organisatorische Säule in einer Data-Mesh-Architektur ist. Ein strategisches Thema für datengetriebene Unternehmen.

Artikel lesen

Veröffentlicht am

12 Dezember 2023

Top 10 Datenbanken 2020: Beliebtheitsranking

Erkunden Sie das Ranking der 10 beliebtesten Datenbanken im Jahr 2020 laut DB-Engines, einschließlich Oracle, MySQL und Microsoft SQL Server.

Artikel lesen

Veröffentlicht am

14 November 2023

Unsere Experten beantworten Ihre Fragen

Sie haben Fragen zu einem der Artikel? Sie brauchen Beratung, um die richtige Lösung für Ihre ICT-Probleme zu finden?

Haben Sie weitere Fragen?

Kontaktieren Sie uns kostenlos unter 8002 4000 oder +352 2424 8004 von Montag bis Freitag von 8:00 bis 18:00 Uhr.

Was spricht für DEEP?

Entdecken Sie DEEP, Ihren einzigartigen Partner für Ihre digitale Transformation.