Der Begriff Data Lake (dt. „Datensee“)
            steht für einen sehr großen und unstrukturierten
            Datenspeicher.
            Er beinhaltet Daten im ursprünglichen
            Rohformat.
            Das hat den Vorteil, dass diese
            Rohdaten vor der Speicherung nicht
            geprüft oder formatiert werden müssen.
            Der Data Lake muss in der Lage sein
            beliebige Datenformate aufzunehmen, egal ob
            strukturiert oder unstrukturiert.
            Dadurch werden verteilte Datensilos vermieden.
            Data Lakes benötigen deswegen viel mehr
            Speicherkapazität als Data Warehouses.
            D.h. erst wenn bestimmte Informationen benötigt werden,
            erfolgt die Aufbereitung der betroffenen Daten. Diese
            unverarbeiteten Rohdaten lassen sich
            für unterschiedlichste Zwecke analysieren und sind
            ideal für maschinelles Lernen.
            Dazu benötigen Rohdaten zusätzliche META-Daten.
            Das sind übergeordnete und strukturierte Informationen,
            um Rohdaten nutzbar zu machen.
            Um diese riesigen Informationsmengen mit vertretbaren
            Antwortzeiten zu verarbeiten, benötigt man dann
            allerdings leistungsstarke und intelligente
            Mechanismen.
            Es handelt sich hierbei um eine typische BIG DATA
            Anwendung.
            Der Nutzen entsteht erst, wenn durch Data
            Mining aus diesen Rohdaten Smart
            Data gemacht werden,
            ansonsten verkommt der Data Lake zum
            Datensumpf (Data
            Swamp). 
            Ebenso entsteht ein Datensumpf, wenn
            die Zuordnung der META-Daten zu den Rohdaten verloren
            geht. 
            Mit geeigneten Data-Governance-Maßnahmen
            muss jede Firma für sich den Data
            Swamp verhindern.
        


