Schnelle Daten: Der nächste Schritt nach Big Data

Big Data wird durch einen konstanten Strom eingehender Daten groß. In Umgebungen mit hohem Datenvolumen kommen diese Daten mit unglaublichen Raten an, müssen jedoch noch analysiert und gespeichert werden.

John Hugg, Softwarearchitekt bei VoltDB, schlägt vor, dass wir die Daten, die später analysiert werden sollen, nicht nur speichern, sondern auch analysieren können, während sie aufgenommen werden, während mit Tools wie Apache Kafka immer noch extrem hohe Aufnahmeraten beibehalten werden.

- Paul Venezia

Vor weniger als einem Dutzend Jahren war es kaum vorstellbar, Petabyte historischer Daten mit Standardhardware zu analysieren. Heutzutage sind Hadoop-Cluster, die aus Tausenden von Knoten aufgebaut sind, fast alltäglich. Open-Source-Technologien wie Hadoop haben sich neu vorgestellt, wie Petabytes auf Petabytes an Daten mithilfe von Standard- und virtualisierter Hardware effizient verarbeitet werden können, sodass Entwickler diese Funktion überall kostengünstig zur Verfügung stellen können. Infolgedessen entstand das Feld der Big Data.

Eine ähnliche Revolution findet mit sogenannten schnellen Daten statt. Definieren wir zunächst schnelle Daten. Big Data wird häufig durch Daten erstellt, die mit unglaublicher Geschwindigkeit generiert werden, z. B. Click-Stream-Daten, Finanzticker-Daten, Protokollaggregation oder Sensordaten. Oft treten diese Ereignisse tausende bis zehntausende Male pro Sekunde auf. Kein Wunder, dass diese Art von Daten allgemein als "Feuerwehrschlauch" bezeichnet wird.

Wenn wir über Feuerwehrschläuche in Big Data sprechen, messen wir das Volumen nicht in den typischen Gigabyte, Terabyte und Petabyte, die Data Warehouses bekannt sind. Wir messen das Volumen in Bezug auf die Zeit: die Anzahl der Megabyte pro Sekunde, Gigabyte pro Stunde oder Terabyte pro Tag. Wir sprechen sowohl von Geschwindigkeit als auch von Volumen, was den Unterschied zwischen Big Data und Data Warehouse ausmacht. Big Data ist nicht nur groß. es ist auch schnell.

Die Vorteile von Big Data gehen verloren, wenn frische, sich schnell bewegende Daten aus dem Feuerwehrschlauch in HDFS, ein analytisches RDBMS oder sogar flache Dateien gespeichert werden, da die Fähigkeit, im Moment zu handeln oder zu alarmieren , während die Dinge geschehen , verloren geht. Der Feuerwehrschlauch repräsentiert aktive Daten, den unmittelbaren Status oder Daten mit laufendem Zweck. Im Gegensatz dazu ist das Data Warehouse eine Möglichkeit, historische Daten zu durchsuchen, um die Vergangenheit zu verstehen und die Zukunft vorherzusagen.

Das Eingreifen in Daten bei deren Eingang wurde als kostspielig und unpraktisch, wenn nicht unmöglich angesehen, insbesondere bei Standardhardware. Genau wie der Wert in Big Data wird der Wert in schnellen Daten durch die überarbeitete Implementierung von Nachrichtenwarteschlangen und Streaming-Systemen wie Open Source Kafka und Storm sowie durch die überarbeitete Implementierung von Datenbanken mit der Einführung von Open Source NoSQL- und NewSQL-Angeboten freigeschaltet .

Wert in schnellen Daten erfassen

Um Daten zu verarbeiten, die bei Zehntausenden bis Millionen von Ereignissen pro Sekunde eintreffen, benötigen Sie zwei Technologien: Erstens ein Streaming-System, das Ereignisse so schnell liefern kann, wie sie eingehen; und zweitens einen Datenspeicher, der in der Lage ist, jedes Element so schnell zu verarbeiten, wie es ankommt.

Lieferung der schnellen Daten

Kafka wurde als Nachrichtenwarteschlange konzipiert und soll die wahrgenommenen Probleme bestehender Technologien lösen. Es ist eine Art Überwarteschlange mit unbegrenzter Skalierbarkeit, verteilten Bereitstellungen, Mandantenfähigkeit und starker Persistenz. Eine Organisation könnte einen Kafka-Cluster bereitstellen, um alle Anforderungen an die Nachrichtenwarteschlange zu erfüllen. Trotzdem liefert Kafka im Kern Nachrichten. Es unterstützt keinerlei Verarbeitung oder Abfrage.