Apache Eagle behält die Nutzung von Big Data im Auge

Apache Eagle, ursprünglich bei eBay entwickelt und dann an die Apache Software Foundation gespendet, füllt eine Big-Data-Sicherheitslücke, die dünn besiedelt, wenn nicht gar leer ist: Mögliche Sicherheits- und Leistungsprobleme mit Big-Data-Frameworks werden aufgespürt.

Zu diesem Zweck verwendet Eagle andere Open-Source-Komponenten von Apache wie Kafka, Spark und Storm, um Modelle für maschinelles Lernen aus den Verhaltensdaten von Big-Data-Clustern zu generieren und zu analysieren.

Von innen hineinschauen

Daten für Eagle können aus Aktivitätsprotokollen für verschiedene Datenquellen (HDFS, Hive, MapR FS, Cassandra) oder aus Leistungsmetriken stammen, die direkt aus Frameworks wie Spark stammen. Die Daten können dann vom Kafka-Streaming-Framework in ein Echtzeit-Erkennungssystem geleitet werden, das mit Apache Storm erstellt wurde, oder in ein Modell-Trainingssystem, das auf Apache Spark basiert. Ersteres zum Generieren von Warnungen und Berichten basierend auf vorhandenen Richtlinien; Letzteres dient zur Erstellung von Modellen für maschinelles Lernen, um neue Richtlinien voranzutreiben.

Diese Betonung des Echtzeitverhaltens führt die Liste der "Schlüsselqualitäten" in der Dokumentation für Eagle an. Es folgen "Skalierbarkeit", "metadatengesteuert" (dh Änderungen an Richtlinien werden automatisch bereitgestellt, wenn ihre Metadaten geändert werden) und "Erweiterbarkeit". Letzteres bedeutet, dass die von Eagle verwendeten Datenquellen, Warnsysteme und Richtlinien-Engines von Plugins bereitgestellt werden und nicht auf das beschränkt sind, was in der Box enthalten ist.

Da Eagle aus bestehenden Teilen der Hadoop-Welt zusammengesetzt wurde, hat es zwei theoretische Vorteile. Erstens gibt es weniger Neuerfindungen des Rades. Zweitens haben diejenigen, die bereits Erfahrung mit den fraglichen Stücken haben, ein Bein hoch.

Was haben meine Leute vor?

Neben den oben genannten Anwendungsfällen wie der Analyse der Arbeitsleistung und der Überwachung auf anomales Verhalten kann Eagle auch das Benutzerverhalten analysieren. Hier geht es beispielsweise nicht darum, Daten aus einer Webanwendung zu analysieren, um mehr über die öffentlichen Benutzer der App zu erfahren, sondern um die Benutzer des Big-Data-Frameworks selbst - die Leute, die das Hadoop- oder Spark-Backend erstellen und verwalten. Ein Beispiel für die Ausführung einer solchen Analyse ist enthalten und kann unverändert bereitgestellt oder geändert werden.

Mit Eagle kann der Zugriff auf Anwendungsdaten auch nach Empfindlichkeitsstufen klassifiziert werden. Derzeit können nur HDFS-, Hive- und HBase-Anwendungen diese Funktion nutzen. Die Interaktion mit ihnen bietet jedoch ein Modell dafür, wie auch andere Datenquellen klassifiziert werden können.

Lassen Sie uns dies unter Kontrolle halten

Da es sich bei Big-Data-Frameworks um schnelllebige Kreationen handelt, war es schwierig, um sie herum zuverlässige Sicherheit zu schaffen. Eagle geht davon aus, dass es richtlinienbasierte Analysen und Warnungen als mögliche Ergänzung zu anderen Projekten wie Apache Ranger bereitstellen kann. Ranger bietet Authentifizierung und Zugriffskontrolle für Hadoop und die zugehörigen Technologien. Eagle gibt Ihnen eine Vorstellung davon, was die Leute tun, wenn sie hineingelassen werden.

Die größte Frage, die über Adlers Zukunft schwebt - ja, schon so früh - ist, inwieweit Hadoop-Anbieter sie elegant in ihre bestehenden Distributionen integrieren oder ihre eigenen Sicherheitsangebote nutzen werden. Datensicherheit und Governance sind seit langem eines der fehlenden Elemente, mit denen kommerzielle Angebote konkurrieren könnten.