4 Gründe, warum Big-Data-Projekte scheitern - und 4 Wege zum Erfolg

Big-Data-Projekte sind groß und umfangreich, oft sehr ehrgeizig und allzu oft vollständig gescheitert. Im Jahr 2016 schätzte Gartner, dass 60 Prozent der Big-Data-Projekte gescheitert sind. Ein Jahr später sagte der Gartner-Analyst Nick Heudecker, sein Unternehmen sei mit seiner Schätzung von 60 Prozent "zu konservativ" und bewerte die Ausfallrate näher bei 85 Prozent. Heute sagt er, nichts habe sich geändert.

Gartner ist mit dieser Einschätzung nicht allein. Bob Muglia, langjähriger Microsoft-Manager und (bis vor kurzem) CEO von Snowflake Computing, sagte gegenüber der Analytics-Website Datanami: „Ich kann keinen zufriedenen Hadoop-Kunden finden. So einfach ist das. … Die Anzahl der Kunden, die Hadoop tatsächlich erfolgreich gezähmt haben, beträgt wahrscheinlich weniger als 20 und möglicherweise weniger als zehn. Das ist nur verrückt, wenn man bedenkt, wie lange dieses Produkt, diese Technologie auf dem Markt ist und wie viel Energie der allgemeinen Industrie in das Produkt geflossen ist. “ Hadoop ist natürlich die Engine, die den Big-Data-Wahnsinn ausgelöst hat.

Andere Leute, die mit Big Data vertraut sind, sagen auch, dass das Problem real, schwerwiegend und nicht ausschließlich technologischer Natur ist. Tatsächlich ist Technologie eine geringfügige Fehlerursache im Vergleich zu den tatsächlichen Schuldigen. Hier sind die vier Hauptgründe, warum Big-Data-Projekte fehlschlagen - und vier Hauptgründe, wie Sie erfolgreich sein können.

Big-Data-Problem Nr. 1: Schlechte Integration

Heudecker sagte, dass es ein großes technologisches Problem hinter Big-Data-Fehlern gibt, nämlich die Integration von isolierten Daten aus mehreren Quellen, um die von Unternehmen gewünschten Erkenntnisse zu erhalten. Der Aufbau von Verbindungen zu isolierten Legacy-Systemen ist einfach nicht einfach. Die Integrationskosten seien fünf- bis zehnmal so hoch wie die Kosten für Software. „Das größte Problem ist die einfache Integration: Wie verknüpfen Sie mehrere Datenquellen miteinander, um ein Ergebnis zu erzielen? Viele gehen die Route des Datensees und denken, wenn ich alles mit etwas Magischem verbinde, wird es passieren. Das ist nicht der Fall “, sagte er.

Silierte Daten sind Teil des Problems. Kunden haben ihm mitgeteilt, dass sie Daten aus Aufzeichnungssystemen in eine gemeinsame Umgebung wie einen Datensee gezogen haben und nicht herausfinden konnten, was die Werte bedeuten. "Woher wissen Sie, was diese Nummer 3 bedeutet, wenn Sie Daten in einen Datensee ziehen?" Fragte Heudecker.

Weil sie in Silos arbeiten oder Datenseen schaffen, die nur Datensümpfe sind, kratzen sie nur an der Oberfläche dessen, was sie erreichen könnten, sagte Alan Morrison, Senior Research Fellow bei PwC. „Sie verstehen nicht alle Beziehungen in Daten, die abgebaut oder abgeleitet und explizit angegeben werden müssen, damit Maschinen diese Daten angemessen interpretieren können. Sie müssen eine Wissensdiagrammebene erstellen, damit Maschinen alle darunter zugeordneten Instanzdaten interpretieren können. Ansonsten haben Sie nur einen Datensee, der ein Datensumpf ist “, sagte er.

Big Data Problem Nr. 2: Undefinierte Ziele

Sie würden denken, dass die meisten Leute, die ein Big-Data-Projekt durchführen, tatsächlich ein Ziel vor Augen haben, aber eine überraschende Zahl nicht. Sie starten das Projekt nur mit dem Ziel als nachträglicher Einfall.

„Man muss das Problem gut erfassen. Die Leute denken, sie können strukturierte und unstrukturierte Daten verbinden und den Einblick erhalten, den Sie benötigen. Sie müssen das Problem im Voraus definieren. Welche Einsicht möchten Sie erhalten? Es geht darum, das Problem klar zu definieren und es von vornherein zu definieren “, sagte Ray Christopher, Produktmarketing-Manager bei Talend, einem Unternehmen für Datenintegrationssoftware.

Joshua Greenbaum, Principal Analyst bei Enterprise Application Consulting, sagte, dass ein Teil dessen, was sowohl Big Data- als auch Data Warehousing-Projekte belastet hat, das Hauptkriterium ist, in der Regel die Anhäufung großer Datenmengen und nicht die Lösung diskreter Geschäftsprobleme.

„Wenn Sie große Datenmengen zusammenführen, erhalten Sie einen Datendump. Ich nenne es eine Mülldeponie. Dumps sind kein guter Ort, um Lösungen zu finden “, sagte Greenbaum. „Ich sage den Kunden immer, dass sie entscheiden müssen, welches diskrete Geschäftsproblem zuerst gelöst werden muss, und dann die Qualität der verfügbaren Daten prüfen und das Datenproblem lösen, sobald das Geschäftsproblem identifiziert wurde.“

„Warum scheitern die meisten Big-Data-Projekte? Für den Anfang fehlt den meisten Projektleitern für Big Data die Vision “, sagte Morrison von PwC. „Unternehmen sind verwirrt über Big Data. Die meisten denken nur an numerische Daten oder Black-Box-NLP- und Erkennungs-Engines, die einfaches Text-Mining und andere Arten der Mustererkennung durchführen. “

Big-Data-Problem Nr. 3: Die Qualifikationslücke

Zu oft glauben Unternehmen, dass die internen Fähigkeiten, die sie für Data Warehousing erworben haben, sich auf Big Data übertragen lassen, wenn dies eindeutig nicht der Fall ist. Für den Anfang behandeln Data Warehousing und Big Data Daten auf völlig entgegengesetzte Weise: Data Warehousing führt beim Schreiben ein Schema aus, dh die Daten werden bereinigt, verarbeitet, strukturiert und organisiert, bevor sie jemals in das Data Warehouse gelangen.

In Big Data werden Daten akkumuliert und das Schema beim Lesen angewendet, wobei die Daten beim Lesen verarbeitet werden. Wenn die Datenverarbeitung von einer Methode zur anderen zurückgeht, können Sie darauf wetten, dass auch Fähigkeiten und Werkzeuge vorhanden sind. Und das ist nur ein Beispiel.

„Fähigkeiten werden immer eine Herausforderung sein. Wenn wir in 30 Jahren über Big Data sprechen, wird es immer noch eine Herausforderung geben “, sagte Heudecker. „Viele Leute hängen ihren Hut an Hadoop. Meine Kunden sind gefordert, Hadoop-Ressourcen zu finden. Spark ist etwas besser, weil dieser Stack kleiner und leichter zu trainieren ist. Hadoop besteht aus Dutzenden von Softwarekomponenten. “

Big-Data-Problem Nr. 4: Die Lücke bei der Technologiegenerierung

Big-Data-Projekte greifen häufig auf ältere Datensilos zurück und versuchen, diese mit neuen Datenquellen wie Sensoren, Webdatenverkehr oder sozialen Medien zusammenzuführen. Das ist nicht ganz die Schuld des Unternehmens, das diese Daten in einer Zeit vor der Idee der Big-Data-Analyse gesammelt hat, aber es ist dennoch ein Problem.

"Fast die größte fehlende Fähigkeit ist die Fähigkeit zu verstehen, wie diese beiden Stakeholder zusammengeführt werden können, damit sie zusammenarbeiten, um komplexe Probleme zu lösen", sagte Berater Greenbaum. „Datensilos können ein Hindernis für Big-Data-Projekte sein, da es keinen Standard gibt. Wenn sie sich also mit der Planung befassen, stellen sie fest, dass diese Systeme nicht so implementiert wurden, dass diese Daten wiederverwendet werden “, sagte er.

"Bei verschiedenen Architekturen muss die Verarbeitung unterschiedlich sein", sagte Christopher von Talend. „Technische Fähigkeiten und Architekturunterschiede waren ein häufiger Grund, warum Sie aktuelle Tools für ein lokales Data Warehouse nicht in ein Big-Data-Projekt integrieren können, da diese Technologien für die Verarbeitung neuer Daten zu teuer werden. Sie brauchen also Hadoopand Spark und müssen neue Sprachen lernen. “

Big Data-Lösung Nr. 1: Planen Sie voraus

Es ist ein altes Klischee, aber hier anwendbar: Wenn Sie nicht planen, planen Sie nicht. "Erfolgreiche Unternehmen haben ein Ergebnis", sagte Heudecker von Gartner. „Wählen Sie etwas Kleines, Erreichbares und Neues. Nehmen Sie keinen alten Anwendungsfall, weil Sie Einschränkungen haben. “

"Sie müssen zuerst über die Daten nachdenken und ihre Organisationen maschinenlesbar modellieren, damit die Daten dieser Organisation dienen", sagte Morrison von PwC.

Big Data-Lösung Nr. 2: Zusammenarbeiten

Nur allzu oft werden Stakeholder von Big-Data-Projekten ausgeschlossen - genau die Personen, die die Ergebnisse nutzen würden. Wenn alle Beteiligten zusammenarbeiten, können sie viele Hindernisse überwinden, sagte Heudecker. "Wenn die Fachkräfte zusammenarbeiten und mit der Unternehmensseite zusammenarbeiten, um umsetzbare Ergebnisse zu erzielen, kann dies helfen", sagte er.

Heudecker stellte fest, dass die Unternehmen, die mit Big Data erfolgreich sind, stark in die erforderlichen Fähigkeiten investieren. Er sieht dies am meisten in datengesteuerten Unternehmen wie Finanzdienstleistungen, Uber, Lyft und Netflix, in denen das Vermögen des Unternehmens auf guten, verwertbaren Daten beruht.

„Machen Sie es zu einem Mannschaftssport, um Daten zu kuratieren, zu sammeln und zu bereinigen. Dadurch kann auch die Integrität der Daten erhöht werden “, sagte Christopher von Talend.

Big-Data-Lösung Nr. 3: Fokus

Die Menschen scheinen der Meinung zu sein, dass ein Big-Data-Projekt massiv und ehrgeizig sein muss. Wie alles, was Sie zum ersten Mal lernen, besteht der beste Weg zum Erfolg darin, klein anzufangen und dann schrittweise an Ehrgeiz und Umfang zu erweitern.

"Sie sollten sehr eng definieren, was sie tun", sagte Heudecker. "Sie sollten sich eine Problemdomäne aussuchen und diese besitzen, z. B. Betrugserkennung, Mikrosegmentierung von Kunden oder herausfinden, welches neue Produkt auf einem Millennial-Markt eingeführt werden soll."

"Letztendlich müssen Sie nach den gewünschten Erkenntnissen oder dem zu digitalisierenden Geschäftsprozess fragen", sagte Christopher. „Man wirft nicht nur Technologie auf ein Geschäftsproblem. Sie müssen es im Voraus definieren. Der Datensee ist eine Notwendigkeit, aber Sie möchten keine Daten sammeln, wenn sie von niemandem im Geschäft verwendet werden sollen. “

In vielen Fällen bedeutet dies auch, dass Sie Ihr eigenes Unternehmen nicht übermäßig aufblasen. „In jedem Unternehmen, das ich jemals studiert habe, gibt es nur wenige hundert Schlüsselkonzepte und -beziehungen, auf denen das gesamte Unternehmen basiert. Sobald Sie das verstanden haben, stellen Sie fest, dass all diese Millionen von Unterscheidungen nur geringfügige Variationen dieser wenigen hundert wichtigen Dinge sind “, sagte Morrison von PwC. „Tatsächlich stellt man fest, dass viele der geringfügigen Abweichungen überhaupt keine Abweichungen sind. Es sind wirklich die gleichen Dinge mit unterschiedlichen Namen, unterschiedlichen Strukturen oder unterschiedlichen Bezeichnungen “, fügte er hinzu.

Big-Data-Lösung Nr. 4: Werfen Sie das Erbe weg

Während Sie möglicherweise diese Terabyte an Daten verwenden möchten, die in Ihrem Data Warehouse gesammelt und gespeichert wurden, ist es möglicherweise besser, wenn Sie sich nur auf neu gesammelte Daten in Speichersystemen konzentrieren, die für Big Data ausgelegt sind und nicht siliert werden sollen.

"Ich würde definitiv raten, nicht unbedingt an eine vorhandene Technologieinfrastruktur gebunden zu sein, nur weil Ihr Unternehmen eine Lizenz dafür hat", sagte Berater Greenbaum. „Oft erfordern neue komplexe Probleme neue komplexe Lösungen. Ein Jahrzehnt lang auf alte Tools im Unternehmen zurückzugreifen, ist nicht der richtige Weg. Viele Unternehmen verwenden alte Tools, was das Projekt zum Erliegen bringt. “

Morrison bemerkte: "Unternehmen müssen aufhören, ihre Füße in ihrer eigenen Unterwäsche zu verheddern, und einfach die alte Architektur über Bord werfen, die mehr Silos schafft." Er sagte auch, dass sie aufhören müssen, von Anbietern zu erwarten, dass sie ihre komplexen Systemprobleme für sie lösen. „Viele scheinen jahrzehntelang davon auszugehen, dass sie sich aus einem Big-Data-Problem herauskaufen können. Jedes Big-Data-Problem ist ein systemisches Problem. Wenn es um komplexe Systemänderungen geht, muss man sich einen Ausweg bahnen “, sagte er.