Deciphering the datalake: databases, datawarehouses... - DEEP

Das in den 2000er Jahren aufgekommene Datalake wirft immer noch viele Fragen auf. Deshalb haben wir sie im Folgenden zusammengestellt, um Ihnen Verständnisschlüssel zu seinen Verwendungszwecken, dem Unterschied zu einem DataWarehouse, on Premise oder in der Cloud zu geben?
Was kann man mit einem Datalake machen?
Ein Datalake ist der Ort, an dem alle Daten einer Organisation gespeichert werden können. Es unterliegt den für Daten geltenden Vorschriften, insbesondere der DSGVO und der CNIL.
Es dient als Datenquelle oder -speicher. Daten können dort für eine spätere Verwendung aufbewahrt werden. Vor der Einrichtung ist es wichtig zu entscheiden, wofür sie verwendet werden soll, denn die Datalake kann relational sein oder nicht. Dann stellt sich die Frage, ob eine SQL- oder eine NoSQL-Datenbank verwendet werden soll.
Welche Datenbank soll ich verwenden: SQL oder NoSQL?
NoSQL-Datenbanken haben normalerweise keine vordefinierte Struktur und keinen vordefinierten Zweck, im Gegensatz zu SQL-Datenbanken, die in der Regel relationale Datenbanken sind und von Benutzern durchsucht werden können. Die bekanntesten SQL-Datenbanken sind MySQL oder PostgreSQL, aber es gibt auch andere... Diese Datenbanken ermöglichen das Speichern von Daten nach einem vordefinierten Schema. Sie haben auch den Vorteil, dass sie vertikal und horizontal skalierbar sind, um sich an das Datenvolumen anzupassen.
NoSQL-Datenbanken, die in der Regel nicht-relational sind, verknüpfen Daten mit Attributen (oder Feldern), die auf Anfrage in Echtzeit platziert werden und anschließend durch Abfragen nutzbar sind. Hierzu gehören Datenbanken wie Mongo Database, Apache Cassandra, Redis, Apache, Neo4j oder Amazon Dynamo Database. Da die Wahl nicht immer leichtfällt, kann es sinnvoll sein, sich bei der Auswahl einer Datenbanklösung begleiten zu lassen.
Welche Daten sind von Datalake betroffen?
Man kann nicht von einer Datalake sprechen, ohne von strukturierten und unstrukturierten Daten zu sprechen. Die Datalake ist in der Lage, alle Daten zu speichern, unabhängig davon, ob sie strukturiert oder unstrukturiert sind, im Gegensatz zu einem Datawarehouse, das seinerseits strukturierte Daten benötigt.
Strukturierte Daten
Strukturierte Daten sind qualifizierte und qualitativ hochwertige Daten, sie sind vordefiniert und formatiert, d. h. man weiß im Voraus, was sich darin befindet. Es kann sich z. B. um eine PDF-Datei handeln, die einer vorgegebenen Struktur entspricht und die Felder Nachname, Vorname und Adresse enthält. Diese Daten werden in ihrem ursprünglichen Format gespeichert und nicht verarbeitet. Sie können leicht abgefragt werden. Der Satz von Schemata, mit denen diese Daten gefunden werden können, ist sehr oft im Voraus auf der Ebene des Datawarehouse vordefiniert.
Unstrukturierte Daten.
Hierbei handelt es sich um Rohdaten in ihrem ursprünglichen Format, die in das Datalake geschüttet und nicht bezeichnet werden. Dabei kann es sich z. B. um E-Mails, Posts in sozialen Netzwerken oder Bilder handeln. Die Verarbeitung dieser Daten erfordert den Einsatz von Experten, um ihre Nutzung entsprechend den geschäftlichen Anforderungen vorzubereiten. In diesem Fall müssen die verschiedenen Berufszweige vorab festlegen, welche wichtigen Elemente analysiert werden sollen.
Was ist der Unterschied zwischen einem Datalake und einem Datawarehouse?
Wenn man in seinem Unternehmen Werkzeuge zur Datenverwaltung einführen möchte, empfehlen wir die Verwendung von Datalake und Datawarehouse. In jedem Fall handelt es sich in erster Linie um eine strategische Entscheidung der Organisationen. Jede Lösung hat sowohl Vor- als auch Nachteile. Sie dienen jeweils unterschiedlichen Bedürfnissen und Verwendungszwecken.
Die Datalake ist ein Speicher für strukturierte und unstrukturierte Daten, während das Datawarehouse nur strukturierte Daten aufnehmen kann. Die Datalake nimmt Daten schnell auf und verteilt sie „on the fly“. Es ist agil und kann mit strukturierten und unstrukturierten Daten umgehen, aber die Daten sind nicht unbedingt von hoher Qualität. Es ist ein Datenfundament, das die Vorverarbeitung von Daten ermöglicht. Die Daten werden dort gespeichert und insbesondere für die Verwendung von Tags vorbereitet. Es ermöglicht auch den Abgleich von Daten aus verschiedenen Quellen, um die Datenqualität zu verbessern.
In einem Datawarehouse sind die Daten nach Berufen geordnet und von guter Qualität. Man hat sich im Vorfeld im Data Warehouse von der Qualität überzeugt. Das Datawarehouse enthält sorgfältig im Voraus aufbereitete Daten und ist daher weniger agil. Die Nachbearbeitung der Infos kostet Zeit, aber die Daten sind qualitativ hochwertig und zuverlässiger als die im Datalake.
Eine Einschränkung unserer obigen Ausführungen besteht darin, dass es möglich ist, einen Entwurf des Datawarehouse im Datalab zu erstellen. Dies wirkt sich jedoch auf die Verfügbarkeitszeit aus und erhöht den Aufwand, da die Daten klassifiziert werden müssen. Dieses Datawarehouse wird jedoch nur eine erste Ebene des Repositoriums sein: Ein wenig Bereinigung, Vorbereitung der Daten entsprechend den Repositories, bevor sie in das Datawarehouse oder das Repository (MDM) übertragen werden.
Wo soll eine Datalake entstehen: On Premise oder in der Cloud?
Auch hier handelt es sich hauptsächlich um eine Entscheidung der Organisationen, die sich nach ihren Bedürfnissen, aber auch nach den intern vorhandenen Kompetenzen richtet.
On Premise
Bei dieser Option wird es vor allem darauf ankommen, ob die Organisationen über die Fähigkeiten verfügen, die Infrastruktur aufzubauen, zu warten und zu erweitern. Wenn dies nicht der Fall ist, und insbesondere, wenn die internen Kompetenzen fehlen, um die Infrastruktur zu warten, kann sich diese Wahl als kompliziert erweisen. Die Risiken sind insbesondere Datenverlust, Verfügbarkeit, technische Schulden und die Unmöglichkeit, neue datenbezogene Dienstleistungen zu entwickeln.
Cloud
Wenn die SaaS-Option gewählt wird, ist die Wartung der Infrastruktur inbegriffen und das Unternehmen muss nur noch die Daten hochladen, verarbeiten und abfragen. Obwohl diese Option manchmal teurer ist, ermöglicht sie es, sich auf den Teil mit Mehrwert zu konzentrieren. Bei Iaas und in geringerem Maße bei PaaS wird man ähnliche Probleme wie bei On Premise vorfinden.
Je nach Größe des Unternehmens kann es sich lohnen, eine eigene On-Premise-Infrastruktur aufzubauen und in einen Kompetenzaufbau der Mitarbeiter zu investieren, die diese Infrastruktur warten sollen.
Die oben genannten Fragen müssen vor dem Start eines Datenprojekts beantwortet werden. Zögern Sie nicht, sich von Experten begleiten zu lassen, die Ihnen bei der Definition Ihrer Datenstrategie oder ihrer Umsetzung helfen können.
Kontakt
Sie haben Fragen zu einem der Artikel? Sie brauchen Beratung, um die richtige Lösung für Ihre ICT-Probleme zu finden?
Einen Experten kontaktieren







Unsere Experten beantworten Ihre Fragen
Sie haben Fragen zu einem der Artikel? Sie brauchen Beratung, um die richtige Lösung für Ihre ICT-Probleme zu finden?
Weitere Artikel aus der Kategorie Data & AI
Veröffentlicht am
01 Januar 2025
Föderierte Governance: Eine zentrale Säule für den Erfolg von Data Mesh
Erfahren Sie, warum föderierte Governance eine entscheidende organisatorische Säule in einer Data-Mesh-Architektur ist. Ein strategisches Thema für datengetriebene Unternehmen.
Veröffentlicht am
12 Dezember 2023
Top 10 Datenbanken 2020: Beliebtheitsranking
Erkunden Sie das Ranking der 10 beliebtesten Datenbanken im Jahr 2020 laut DB-Engines, einschließlich Oracle, MySQL und Microsoft SQL Server.
Veröffentlicht am
14 November 2023
Haben Sie weitere Fragen?
Kontaktieren Sie uns kostenlos unter 8002 4000 oder +352 2424 8004 von Montag bis Freitag von 8:00 bis 18:00 Uhr.
Was spricht für DEEP?
Entdecken Sie DEEP, Ihren einzigartigen Partner für Ihre digitale Transformation.