Der Begriff Data Lake (dt. „Datensee“)
steht für einen sehr großen und unstrukturierten
Datenspeicher.
Er beinhaltet Daten im ursprünglichen
Rohformat.
Das hat den Vorteil, dass diese
Rohdaten vor der Speicherung nicht
geprüft oder formatiert werden müssen.
Der Data Lake muss in der Lage sein
beliebige Datenformate aufzunehmen, egal ob
strukturiert oder unstrukturiert.
Dadurch werden verteilte Datensilos vermieden.
Data Lakes benötigen deswegen viel mehr
Speicherkapazität als Data Warehouses.
D.h. erst wenn bestimmte Informationen benötigt werden,
erfolgt die Aufbereitung der betroffenen Daten. Diese
unverarbeiteten Rohdaten lassen sich
für unterschiedlichste Zwecke analysieren und sind
ideal für maschinelles Lernen.
Dazu benötigen Rohdaten zusätzliche META-Daten.
Das sind übergeordnete und strukturierte Informationen,
um Rohdaten nutzbar zu machen.
Um diese riesigen Informationsmengen mit vertretbaren
Antwortzeiten zu verarbeiten, benötigt man dann
allerdings leistungsstarke und intelligente
Mechanismen.
Es handelt sich hierbei um eine typische BIG DATA
Anwendung.
Der Nutzen entsteht erst, wenn durch Data
Mining aus diesen Rohdaten Smart
Data gemacht werden,
ansonsten verkommt der Data Lake zum
Datensumpf (Data
Swamp).
Ebenso entsteht ein Datensumpf, wenn
die Zuordnung der META-Daten zu den Rohdaten verloren
geht.
Mit geeigneten Data-Governance-Maßnahmen
muss jede Firma für sich den Data
Swamp verhindern.