Hohe Verfügbarkeit und Oracle-Umgebungen: Leistungs- und Resilienzoptimierung

04 Juni 2011

Im zweiten Teil unseres Dossiers Hochverfügbarkeit und Oracle-Umgebungen haben wir die Bedeutung der Verfügbarkeit und die Kosten von Produktionsausfällen untersucht.

Dies ist der dritte Teil unseres Dossiers, in dem wir uns mit den Ursachen von Produktionsausfällen beschäftigen.

Vorheriger Artikel : High Availability and Oracle Environments - Part 2: The Importance of Availability and the Costs of Production Shutdowns..

Geplante und ungeplante Stillstände

Eine der Herausforderungen beim Entwurf einer Hochverfügbarkeitslösung besteht darin, alle möglichen Ursachen für Stillstände in der Produktion zu untersuchen und zu behandeln. Es ist wichtig, sowohl geplante als auch ungeplante Ausfallzeiten zu untersuchen. Geplante Produktionsausfälle können genauso störend sein wie ungeplante, insbesondere bei internationalen Unternehmen mit weltweit verteilten Nutzern.

Ursachen für ungeplante Abbrüche

Standortausfall: Er kann die gesamte Verarbeitung in einem Rechenzentrum oder eine Teilmenge der Anwerdunger, die in diesem Rechenzentrum unterstützt werden, beeinträchtigen...
- Stromausfall am gesamten Standort
- Naturkatastrophe, die den Computerstandort außer Betrieb setzt
- Terroristicher oder böswilliger Angriff auf die Anwendunger oder den Standort
Cluster-Ausfall: Der gesamte Cluster, der eine Oracle RAC-Datenbank beherbergt, ist nicht verfügbar oder ausgefallen.
- Der letzte überlebende Knoten eines Oracle RAC-Clusters fährt herunter und kann nicht neu gestartet werden
- Beide redundanten INTERCONNECT-Verbindungen sind unbrauchbar oder der gesamte Cluster ist unbrauchbar
- Eine Datenbankbeschädigung ist so schwerwiegend, dass eine Fortführung auf dem aktuellen Oracle-Server nicht möglich ist
- Fehler beim Zugriff auf Festplatten
Computerausfall: Wenn das System, auf dem die Datenbank ausgeführt wird, nicht mehr verfügbar ist, weil es ausgefallen oder nicht erreichbar ist.
- Hardware-Ausfall des Datenbankservers
- Ausfall des Betriebssystems
- Ausfall der Oracle-Instanz
- Ausfall der Netzwerkschnittstelle
Ausfall des Datenspeichers: Wenn auf die Speicherelemente der gesamten oder eines Teils der Datenbank nicht mehr zugegriffen werden kann.
- Festplattenausfall
- Festplattencontroller-Ausfall
- SAN-Array-Ausfall
Datenkorruption: Ein korrupter Block ist ein Block, der so verändert wurde, dass er anders ist als das, was Oracle zu finden erwartet.

Es gibt logische und physische Korruption. Man kann auch von blockinterner und blockübergreifender Korruption sprechen.

Ein Ausfall aufgrund von Datenkorruption tritt auf, wenn Hardware, Software oder eine Netzwerkkomponente dazu führt, dass Daten beim Lesen oder Schreiben korrumpiert werden. Die Auswirkungen auf den Servicelevel nach einer Datenkorruption können unterschiedlich sein, mit möglicherweise geringen Auswirkungen im Fall von einem oder mehreren korrupten Blöcken in der Datenbank oder einem Blockieren der Datenbank im Fall von größeren Korruptionen.

Hier sind einige Dinge, die zu einer Korruption führen können:
- Fehler im Betriebssystem oder im Disk-Treiber
- Defekter Busadapter
- Fehler in einem Disk-Controller
- Fehler im Disk-Volume-Manager, der einen Lese- oder Schreibfehler der Disk verursacht
- Software-Fehler
Menschliches Versagen: Ein Benutzer hat unbeabsichtigt Daten in einer Datenbank geändert oder gelöscht oder jemand hat betrügerische Datenänderungen vorgenommen; je nach Art des Fehlers sind die Folgen mehr oder weniger schwerwiegend.
- Löschen von Datendateien aus einer Datenbank
- Löschen von Objekten in einer Datenbank (Tabellen usw.)
- Unbeabsichtigtes Ändern von Daten
- Betrügerische Änderung von Daten
Fehlende Schriftzüge: Ein fehlender Schriftzug ist eine weitere Form der Datenkorruption, aber es ist viel schwieriger, ihn schnell zu entdecken und zu reparieren. Ein verlegter oder fehlender Datenblock tritt auf, wenn :
- Im Falle eines fehlenden Schreibvorgangs (lost write) hat das I/O-Subsystem das Schreiben eines Blocks freigegeben, obwohl er noch nicht auf die Festplatte geschrieben wurde; daher wird beim nächsten Lesen dieses Blocks eine alte Version des Blocks zurückgegeben, was zu einer Kaskade von Fehlern in der Verarbeitung und in der Datenbank führt
- Im Falle eines verirrten Schreibvorgangs (stray write) wird zwar geschrieben, aber an einer falschen Stelle; Infolgedessen gibt das nächste Lesen dieses Blocks eine alte Version des Blocks zurück, was zu einer Kaskade von Verarbeitungs- und Datenbankfehlern führt
- In einer Oracle RAC-Datenbank gibt das Lesen eines Blocks von einem Knoten veraltete Daten zurück, wenn ein anderer Knoten diesen Block gerade auf die Festplatte geschrieben hat (lost write). Dies kann passieren, wenn NFS ohne die Option „noac“ verwendet wird.
Blockierung oder Verlangsamung: Eine Blockierung oder Verlangsamung tritt auf, wenn die Datenbank oder die Anwendung aufgrund eines Ressourcenkonflikts oder einer Sperre nicht in der Lage ist, Transaktionen zu verarbeiten. Die Wahrnehmung eines Blocks kann durch einen Mangel an Systemressourcen verursacht werden.
- Anwendungs- oder Datenbank-Deadlocks
- „Außer Kontrolle geratene“ Prozesse, die Systemressourcen verbrauchen
- Massiver „Sturm“ von Verbindungen oder Systemfehlern
- Situation von Anwendungslastspitzen mit einem Mangel an System- oder Datenbankressourcen
- Platzmangel am Zielort der ARCHIVE LOGS-Dateien oder FRA-Speicherplatz (Flash Recovery Area)

Ursachen für geplante Abschaltungen

Aktualisierung von Systemsoftware oder Datenbanken: Eine geplante Abschaltung erfolgt entweder regelmäßig (für Wartungsaufgaben) oder gelegentlich (für Aufgaben zur Weiterentwicklung von Systemsoftware oder Datenbanken oder der Infrastruktur). Die Dauer der Abschaltung hängt von vielen Faktoren ab. Hier einige Beispiele:
- Hinzufügen oder Entfernen eines Prozessors auf einem SMP-Server
- Hinzufügen oder Entfernen von Knoten zu einem Cluster
- Hinzufügen oder Entfernen von Festplatten oder SAN-Arrays
- Ändern von Konfigurationseinstellungen
- Aktualisieren oder Patchen des Servers oder Betriebssystems
- Aktualisieren oder Patchen der Oracle-Software
- Aktualisieren oder Patchen der Anwendungssoftware
- Migrieren der verwendeten Hardwareplattform
- Verschieben der Datenbank
- Von 32 auf 64 Bit umstellen
- Auf eine Cluster-Architektur umstellen
- Auf neuen Speicher umstellen
Änderung an den Daten: Dies ist der Fall, wenn die logische Struktur oder die physische Organisation von Oracle-Datenbankobjekten geändert wird. Diese Änderungen dienen häufig dazu, die Leistung oder die Handhabbarkeit zu verbessern. Hier einige Beispiele:
- Änderung an der Tabellendefinition
- Implementierung der Tabellenpartitionierung
- Erstellung oder Rekonstruktion von Indizes
Änderungen an Anwendungen: Diese Änderungen an Anwendungen können einerseits Änderungen an den Daten und dem Schema der Datenbank und andererseits Änderungen an den Programmen umfassen.

Oracle bietet verschiedene Lösungen an, um sowohl geplante als auch ungeplante Ausfallzeiten zu vermeiden und um mit den verschiedenen möglichen Ausfällen umgehen zu können. Auf diese Lösungen wird in zukünftigen Artikeln näher eingegangen.

Kontakt

Sie haben Fragen zu einem der Artikel? Sie brauchen Beratung, um die richtige Lösung für Ihre ICT-Probleme zu finden?

Einen Experten kontaktieren

Der „erweiterte“ Entwickler: Welchen Platz nimmt der Mensch im Zeitalter des „Vibe Coding“ ein?

Was ist Vibe Coding? Erfahren Sie, wie KI-Agenten und generative KI die Softwareentwicklung, Produktivität und Rolle des Menschen verändern.

Artikel lesen

Veröffentlicht am

07 Juli 2026

Data & AI Tendances

Verbundene Objekte als neue Quellen nutzbarer Intelligenz

Erfahren Sie, wie IoT- und M2M-Daten durch eine integrierte Kombination aus Konnektivität, Cloud, KI und Cybersicherheit zur Steigerung der Effizienz genutzt werden.

Artikel lesen

Veröffentlicht am

21 Juli 2025

Data & AI Gouvernance

Digitale Transformation der Kommunen: Herausforderungen

Erfahren Sie die wichtigsten Herausforderungen und Erfolgsfaktoren der digitalen Transformation von Kommunen: Budgets, Kompetenzen, Cybersicherheit, Inklusion, Datensouveränität und Nachhaltigkeit.

Artikel lesen

Veröffentlicht am

13 Mai 2025