Was ist Big Data Analytics? Schnelle Antworten aus verschiedenen Datensätzen

Es gibt Daten und dann Big Data. Also, was ist der Unterschied?

Big Data definiert

Eine klare Definition von Big Data kann schwierig zu bestimmen sein, da Big Data eine Vielzahl von Anwendungsfällen abdecken kann. Im Allgemeinen bezieht sich der Begriff jedoch auf Datensätze, deren Volumen so groß und so komplex ist, dass herkömmliche Datenverarbeitungssoftwareprodukte nicht in der Lage sind, die Daten innerhalb eines angemessenen Zeitraums zu erfassen, zu verwalten und zu verarbeiten.

Diese großen Datenmengen können strukturierte, unstrukturierte und semistrukturierte Daten enthalten, von denen jede für Erkenntnisse gewonnen werden kann.

Wie viele Daten tatsächlich „groß“ sind, kann diskutiert werden, kann jedoch in der Regel in Vielfachen von Petabyte erfolgen - und für die größten Projekte im Exabyte-Bereich.

Big Data ist häufig durch die drei Vs gekennzeichnet:

  • eine extreme Volumendaten
  • eine Vielzahl von Datentypen
  • die Geschwindigkeit, mit der die Daten verarbeitet und analysiert werden müssen

Die Daten, aus denen Big Data Stores bestehen, können aus Quellen stammen, zu denen Websites, soziale Medien, Desktop- und mobile Apps, wissenschaftliche Experimente und - zunehmend - Sensoren und andere Geräte im Internet der Dinge (IoT) gehören.

Das Konzept von Big Data umfasst eine Reihe verwandter Komponenten, mit denen Unternehmen die Daten in die Praxis umsetzen und eine Reihe von Geschäftsproblemen lösen können. Dazu gehören die zur Unterstützung von Big-Data-Technologien erforderliche IT-Infrastruktur sowie die auf die Daten angewendeten Analysen. die für Projekte benötigten Big-Data-Plattformen, die damit verbundenen Fähigkeiten und die tatsächlichen Anwendungsfälle, die für Big Data sinnvoll sind.

Was ist Datenanalyse?

Was wirklich Wert aus allen Big-Data-Organisationen liefert, ist die Analyse, die auf die Daten angewendet wird. Ohne Analyse, bei der die Daten untersucht werden, um Muster, Korrelationen, Erkenntnisse und Trends zu ermitteln, handelt es sich bei den Daten nur um eine Reihe von Einsen und Nullen mit eingeschränkter geschäftlicher Nutzung.

Durch die Anwendung von Analysen auf Big Data können Unternehmen Vorteile wie Umsatzsteigerung, verbesserten Kundenservice, höhere Effizienz und eine allgemeine Steigerung der Wettbewerbsfähigkeit erkennen.

Bei der Datenanalyse werden Datensätze untersucht, um Erkenntnisse zu gewinnen oder Schlussfolgerungen darüber zu ziehen, was sie enthalten, z. B. Trends und Vorhersagen über zukünftige Aktivitäten.

Durch die Analyse von Informationen mithilfe von Big-Data-Analysetools können Unternehmen fundiertere Geschäftsentscheidungen treffen, z. B. wann und wo eine Marketingkampagne durchgeführt oder ein neues Produkt oder eine neue Dienstleistung eingeführt werden soll.

Analytics kann sich auf grundlegende Business Intelligence-Anwendungen oder fortgeschrittenere prädiktive Analytics beziehen, wie sie beispielsweise von wissenschaftlichen Organisationen verwendet werden. Zu den fortschrittlichsten Arten der Datenanalyse gehört das Data Mining, bei dem Analysten große Datenmengen auswerten, um Beziehungen, Muster und Trends zu identifizieren.

Die Datenanalyse kann eine explorative Datenanalyse (um Muster und Beziehungen in Daten zu identifizieren) und eine bestätigende Datenanalyse (um statistische Techniken anzuwenden, um herauszufinden, ob eine Annahme über einen bestimmten Datensatz wahr ist) umfassen.

Eine weitere Unterscheidung ist die quantitative Datenanalyse (oder die Analyse numerischer Daten mit quantifizierbaren Variablen, die statistisch verglichen werden können) gegenüber der qualitativen Datenanalyse (die sich auf nicht numerische Daten wie Video, Bilder und Text konzentriert).

IT-Infrastruktur zur Unterstützung von Big Data

Damit das Konzept von Big Data funktioniert, müssen Unternehmen über die Infrastruktur verfügen, um die Daten zu sammeln und zu speichern, Zugriff darauf zu gewähren und die Informationen zu sichern, während sie gespeichert und übertragen werden. Dies erfordert die Bereitstellung von Big-Data-Analysetools.

Auf hoher Ebene gehören dazu Speichersysteme und Server für Big Data, Datenverwaltungs- und Integrationssoftware, Business Intelligence- und Datenanalysesoftware sowie Big Data-Anwendungen.

Ein Großteil dieser Infrastruktur wird wahrscheinlich vor Ort sein, da Unternehmen weiterhin versuchen, ihre Investitionen in Rechenzentren zu nutzen. Unternehmen verlassen sich jedoch zunehmend auf Cloud-Computing-Dienste, um einen Großteil ihrer Big-Data-Anforderungen zu erfüllen.

Für die Datenerfassung sind Quellen erforderlich, um die Daten zu erfassen. Viele davon - wie Webanwendungen, Social Media-Kanäle, mobile Apps und E-Mail-Archive - sind bereits vorhanden. Mit zunehmender Verankerung des Internet der Dinge müssen Unternehmen möglicherweise Sensoren auf allen Arten von Geräten, Fahrzeugen und Produkten einsetzen, um Daten zu erfassen, sowie neue Anwendungen, die Benutzerdaten generieren. (IoT-orientierte Big-Data-Analyse verfügt über eigene spezialisierte Techniken und Tools.)

Um alle eingehenden Daten zu speichern, müssen Unternehmen über eine angemessene Datenspeicherung verfügen. Zu den Speicheroptionen gehören herkömmliche Data Warehouses, Data Lakes und Cloud-basierter Speicher.

Zu den Tools für die Sicherheitsinfrastruktur gehören möglicherweise Datenverschlüsselung, Benutzerauthentifizierung und andere Zugriffskontrollen, Überwachungssysteme, Firewalls, Mobilitätsmanagement für Unternehmen und andere Produkte zum Schutz von Systemen und Daten.

Big Data-Technologien

Zusätzlich zu der oben genannten IT-Infrastruktur, die allgemein für Daten verwendet wird. Es gibt verschiedene Technologien für Big Data, die Ihre IT-Infrastruktur unterstützen sollte.

Hadoop-Ökosystem

Hadoop ist eine der Technologien, die am engsten mit Big Data verbunden sind. Das Apache Hadoop-Projekt entwickelt Open Source-Software für skalierbares, verteiltes Computing.

Die Hadoop-Softwarebibliothek ist ein Framework, das die verteilte Verarbeitung großer Datenmengen über Computercluster mithilfe einfacher Programmiermodelle ermöglicht. Es wurde entwickelt, um von einem einzelnen Server auf Tausende zu skalieren, von denen jeder lokale Berechnungen und Speicher bietet.

Das Projekt umfasst mehrere Module:

  • Hadoop Common, die allgemeinen Dienstprogramme, die andere Hadoop-Module unterstützen
  • Hadoop Distributed File System, das Zugriff auf Anwendungsdaten mit hohem Durchsatz bietet
  • Hadoop YARN, ein Framework für die Jobplanung und das Clusterressourcenmanagement
  • Hadoop MapReduce, ein YARN-basiertes System zur parallelen Verarbeitung großer Datenmengen.

Apache Spark

Apache Spark ist Teil des Hadoop-Ökosystems und ein Open-Source-Cluster-Computing-Framework, das als Engine für die Verarbeitung von Big Data in Hadoop dient. Spark hat sich zu einem der wichtigsten Frameworks für die verteilte Verarbeitung großer Datenmengen entwickelt und kann auf verschiedene Arten bereitgestellt werden. Es bietet native Bindungen für die Programmiersprachen Java, Scala, Python (insbesondere die Anaconda Python-Distribution) und R (R ist besonders gut für Big Data geeignet) und unterstützt SQL, Streaming-Daten, maschinelles Lernen und Grafikverarbeitung.

Datenseen

Data Lakes sind Speicher-Repositorys, die extrem große Rohdatenmengen in ihrem nativen Format enthalten, bis die Daten von Geschäftsbenutzern benötigt werden. Initiativen zur digitalen Transformation und das Wachstum des Internet der Dinge tragen dazu bei, das Wachstum von Datenseen voranzutreiben. Data Lakes sollen es Benutzern erleichtern, bei Bedarf auf große Datenmengen zuzugreifen.

NoSQL-Datenbanken

Herkömmliche SQL-Datenbanken sind für zuverlässige Transaktionen und Ad-hoc-Abfragen konzipiert, unterliegen jedoch Einschränkungen wie einem starren Schema, die sie für einige Arten von Anwendungen weniger geeignet machen. NoSQL-Datenbanken beheben diese Einschränkungen und speichern und verwalten Daten auf eine Weise, die eine hohe Betriebsgeschwindigkeit und große Flexibilität ermöglicht. Viele wurden von Unternehmen entwickelt, die nach besseren Möglichkeiten suchten, Inhalte zu speichern oder Daten für massive Websites zu verarbeiten. Im Gegensatz zu SQL-Datenbanken können viele NoSQL-Datenbanken horizontal über Hunderte oder Tausende von Servern skaliert werden.

In-Memory-Datenbanken

Eine In-Memory-Datenbank (IMDB) ist ein Datenbankverwaltungssystem, das sich bei der Datenspeicherung hauptsächlich auf den Hauptspeicher und nicht auf die Festplatte stützt. In-Memory-Datenbanken sind schneller als festplattenoptimierte Datenbanken. Dies ist ein wichtiger Gesichtspunkt für die Verwendung von Big Data-Analysen und die Erstellung von Data Warehouses und Data Marts.

Big-Data-Kenntnisse

Big Data und Big Data Analytics erfordern spezifische Fähigkeiten, unabhängig davon, ob sie von innerhalb des Unternehmens oder von externen Experten stammen.

Viele dieser Fähigkeiten beziehen sich auf die wichtigsten Komponenten der Big-Data-Technologie wie Hadoop, Spark, NoSQL-Datenbanken, In-Memory-Datenbanken und Analysesoftware.

Andere sind spezifisch für Disziplinen wie Data Science, Data Mining, statistische und quantitative Analyse, Datenvisualisierung, Allzweckprogrammierung sowie Datenstruktur und Algorithmen. Es besteht auch ein Bedarf an Personen mit allgemeinen Managementfähigkeiten, um Big-Data-Projekte bis zum Abschluss zu verfolgen.

Angesichts der Verbreitung von Big-Data-Analyseprojekten und des Mangels an Mitarbeitern mit solchen Fähigkeiten könnte die Suche nach erfahrenen Fachleuten eine der größten Herausforderungen für Unternehmen sein.

Anwendungsfälle für die Big-Data-Analyse

Big Data und Analytics können auf viele geschäftliche Probleme und Anwendungsfälle angewendet werden. Hier einige Beispiele:

  • Kundenanalyse. Unternehmen können Kundendaten untersuchen, um das Kundenerlebnis zu verbessern, die Conversion-Raten zu verbessern und die Kundenbindung zu erhöhen.
  • Betriebsanalyse. Die Verbesserung der Betriebsleistung und die bessere Nutzung des Unternehmensvermögens sind die Ziele vieler Unternehmen. Mithilfe von Big-Data-Analysetools können Unternehmen Wege finden, effizienter zu arbeiten und die Leistung zu verbessern.
  • Betrugsprävention. Mithilfe von Big-Data-Tools und -Analysen können Unternehmen verdächtige Aktivitäten und Muster identifizieren, die auf betrügerisches Verhalten hinweisen und Risiken mindern können.
  • Preisoptimierung. Unternehmen können mithilfe von Big-Data-Analysen die Preise für Produkte und Dienstleistungen optimieren und so den Umsatz steigern.