Ihr KEYNOTE SPEAKER und EXPERTE
für INDUSTRIE 4.0 und DIGITALISIERUNG

INDUSTRIE 4.0 - Data Lake

 ◾ Data Lake und ◾ Rohdaten sind im Ordnungsrahmen ein Unterbegriff und gehören zu: ◼️ Big Data

  • Der Begriff Data Lake (dt. „Datensee“) steht für einen sehr großen und unstrukturierten Datenspeicher.
    Er beinhaltet Daten im ursprünglichen Rohformat.
    Das hat den Vorteil, dass diese Rohdaten vor der Speicherung nicht geprüft oder formatiert werden müssen.
    Der Data Lake muss in der Lage sein beliebige Datenformate aufzunehmen, egal ob strukturiert oder unstrukturiert.
    Dadurch werden verteilte Datensilos vermieden.
    Data Lakes benötigen deswegen viel mehr Speicherkapazität als Data Warehouses.
    D.h. erst wenn bestimmte Informationen benötigt werden, erfolgt die Aufbereitung der betroffenen Daten. Diese unverarbeiteten Rohdaten lassen sich für unterschiedlichste Zwecke analysieren und sind ideal für maschinelles Lernen.
    Dazu benötigen Rohdaten zusätzliche META-Daten. Das sind übergeordnete und strukturierte Informationen, um Rohdaten nutzbar zu machen.
    Um diese riesigen Informationsmengen mit vertretbaren Antwortzeiten zu verarbeiten, benötigt man dann allerdings leistungsstarke und intelligente Mechanismen.
    Es handelt sich hierbei um eine typische BIG DATA Anwendung.
    Der Nutzen entsteht erst, wenn durch Data Mining aus diesen Rohdaten Smart Data gemacht werden,
    ansonsten verkommt der Data Lake zum Datensumpf (Data Swamp). 
    Ebenso entsteht ein Datensumpf, wenn die Zuordnung der META-Daten zu den Rohdaten verloren geht. 
    Mit geeigneten Data-Governance-Maßnahmen muss jede Firma für sich den Data Swamp verhindern.

Dala Lake
Bildquelle: ©rolffimages - Fotolia.com

In meiner DIGITALISIERUNGS – KEYNOTE erkläre ich die Grundlagen von INDUSTRIE 4.0 für jedermann verständlich und unterhaltsam:

Mein INDUSTRIE 4.0 - Workshop hilft Ihnen nicht die gleichen Fehler zu machen, die fast alle machen: