So wählen Sie eine Datenanalyseplattform aus

Unabhängig davon, ob Sie in den Bereichen Softwareentwicklung, Entwicklung, Systeme, Clouds, Testautomatisierung, Standortzuverlässigkeit, Führung von Scrum-Teams, Infosec oder anderen Bereichen der Informationstechnologie verantwortlich sind, haben Sie zunehmend Möglichkeiten und Anforderungen, mit Daten, Analysen und maschinellem Lernen zu arbeiten .

Tech Spotlight: Analytics

  • So wählen Sie eine Datenanalyseplattform aus ()
  • 6 Best Practices für die Visualisierung von Geschäftsdaten (Computerworld)
  • Healthcare Analytics: 4 Erfolgsgeschichten (CIO)
  • SD-WAN und Analytics: Eine Ehe für die neue Normalität (Network World)
  • So schützen Sie Algorithmen als geistiges Eigentum (CSO)

Ihr Kontakt mit Analysen kann durch IT-Daten erfolgen, z. B. durch die Entwicklung von Metriken und Erkenntnissen aus agilen Metriken, Entwicklern oder Website-Metriken. Es gibt keinen besseren Weg, um die grundlegenden Fähigkeiten und Werkzeuge rund um Daten, Analysen und maschinelles Lernen zu erlernen, als sie auf Daten anzuwenden, die Sie kennen und die Sie nach Erkenntnissen durchsuchen können, um Aktionen voranzutreiben.

Die Dinge werden etwas komplexer, wenn Sie sich von der Welt der IT-Daten lösen und Dienstleistungen für Datenwissenschaftlerteams, Bürgerdatenwissenschaftler und andere Geschäftsanalysten erbringen, die Datenvisualisierungen, Analysen und maschinelles Lernen durchführen.

Zunächst müssen Daten geladen und bereinigt werden. Abhängig von der Menge, Vielfalt und Geschwindigkeit der Daten werden Sie dann wahrscheinlich auf mehrere Back-End-Datenbanken und Cloud-Datentechnologien stoßen. In den letzten Jahren hat sich die Wahl zwischen Business Intelligence- und Datenvisualisierungstools zu einer komplexen Matrix von Plattformen für die Analyse des gesamten Lebenszyklus und Plattformen für maschinelles Lernen entwickelt.

Die Bedeutung von Analytik und maschinellem Lernen erhöht die Verantwortung der IT in mehreren Bereichen. Zum Beispiel:

  • Die IT bietet häufig Services für alle Datenintegrationen, Back-End-Datenbanken und Analyseplattformen.
  • Devops-Teams stellen häufig die Dateninfrastruktur bereit und skalieren sie, um Experimente mit Modellen für maschinelles Lernen zu ermöglichen und anschließend die Verarbeitung von Produktionsdaten zu unterstützen.
  • Netzwerkbetriebsteams stellen sichere Verbindungen zwischen SaaS-Analysetools, Multiclouds und Rechenzentren her.
  • IT-Service-Management-Teams reagieren auf Daten- und Analysedienstanfragen und -vorfälle.
  • Infosec überwacht die Governance und Implementierung der Datensicherheit.
  • Entwickler integrieren Analyse- und maschinelle Lernmodelle in Anwendungen.

Angesichts der Explosion von Analysen, Cloud-Datenplattformen und Funktionen für maschinelles Lernen ist hier eine Einführung, um den Lebenszyklus von Analysen besser zu verstehen, von der Datenintegration und -bereinigung über Dataops und Modelops bis hin zu Datenbanken, Datenplattformen und Analytics-Angeboten.

Analytics beginnt mit der Datenintegration und Datenbereinigung

Bevor Analysten, Bürgerdatenwissenschaftler oder Data Science-Teams Analysen durchführen können, müssen ihnen die erforderlichen Datenquellen auf ihren Datenvisualisierungs- und Analyseplattformen zugänglich sein.

Zu Beginn kann es geschäftliche Anforderungen geben, Daten aus mehreren Unternehmenssystemen zu integrieren, Daten aus SaaS-Anwendungen zu extrahieren oder Daten von IoT-Sensoren und anderen Echtzeitdatenquellen zu streamen.

Dies sind alle Schritte zum Sammeln, Laden und Integrieren von Daten für Analysen und maschinelles Lernen. Abhängig von der Komplexität der Daten- und Datenqualitätsprobleme gibt es Möglichkeiten, sich an Dataops, Datenkatalogisierung, Stammdatenverwaltung und anderen Data Governance-Initiativen zu beteiligen.

Wir alle kennen den Satz "Müll rein, Müll raus". Analysten müssen sich um die Qualität ihrer Daten sorgen, und Datenwissenschaftler müssen sich um Verzerrungen in ihren Modellen für maschinelles Lernen sorgen. Darüber hinaus ist die Aktualität der Integration neuer Daten von entscheidender Bedeutung für Unternehmen, die datengesteuerter in Echtzeit arbeiten möchten. Aus diesen Gründen sind die Pipelines, die Daten laden und verarbeiten, für die Analyse und das maschinelle Lernen von entscheidender Bedeutung.

Datenbanken und Datenplattformen für alle Arten von Datenverwaltungsherausforderungen

Das Laden und Verarbeiten von Daten ist ein notwendiger erster Schritt, aber dann wird es bei der Auswahl der optimalen Datenbanken komplizierter. Zu den heutigen Optionen gehören Enterprise Data Warehouses, Data Lakes, Big Data-Verarbeitungsplattformen sowie spezialisierte NoSQL-, Grafik-, Schlüsselwert-, Dokument- und Säulendatenbanken. Zur Unterstützung von Data Warehousing und Analytics in großem Maßstab gibt es Plattformen wie Snowflake, Redshift, BigQuery, Vertica und Greenplum. Schließlich gibt es die Big-Data-Plattformen, einschließlich Spark und Hadoop.

Große Unternehmen verfügen wahrscheinlich über mehrere Datenrepositorys und verwenden Cloud-Datenplattformen wie Cloudera Data Platform oder MapR Data Platform oder Data Orchestration-Plattformen wie InfoWorks DataFoundy, um alle diese Repositorys für Analysen zugänglich zu machen.

Die wichtigsten öffentlichen Clouds, einschließlich AWS, GCP und Azure, verfügen alle über Datenverwaltungsplattformen und -dienste, die durchsucht werden müssen. Azure Synapse Analytics ist beispielsweise das SQL Data Warehouse von Microsoft in der Cloud, während Azure Cosmos DB Schnittstellen zu vielen NoSQL-Datenspeichern bereitstellt, darunter Cassandra (Säulendaten), MongoDB (Schlüsselwert- und Dokumentdaten) und Gremlin (Diagrammdaten). .

Data Lakes sind beliebte Ladedocks, um unstrukturierte Daten für eine schnelle Analyse zu zentralisieren. Zu diesem Zweck können Sie zwischen Azure Data Lake, Amazon S3 oder Google Cloud Storage wählen. Für die Verarbeitung von Big Data bieten die AWS-, GCP- und Azure-Clouds ebenfalls Spark- und Hadoop-Angebote.

Analytics-Plattformen zielen auf maschinelles Lernen und Zusammenarbeit ab

Mit geladenen, bereinigten und gespeicherten Daten können Datenwissenschaftler und Analysten mit der Durchführung von Analysen und maschinellem Lernen beginnen. Unternehmen haben viele Optionen, abhängig von den Analysetypen, den Fähigkeiten des Analyseteams, das die Arbeit ausführt, und der Struktur der zugrunde liegenden Daten.

Die Analyse kann in Self-Service-Datenvisualisierungstools wie Tableau und Microsoft Power BI durchgeführt werden. Beide Tools richten sich an Bürgerdatenwissenschaftler und stellen Visualisierungen, Berechnungen und grundlegende Analysen zur Verfügung. Diese Tools unterstützen die grundlegende Datenintegration und Datenumstrukturierung. Komplexere Datenprobleme treten jedoch häufig vor den Analyseschritten auf. Tableau Data Prep und Azure Data Factory sind die begleitenden Tools zur Integration und Transformation von Daten.

Analytics-Teams, die mehr als nur Datenintegration und -vorbereitung automatisieren möchten, können auf Plattformen wie Alteryx Analytics Process Automation zurückgreifen. Diese durchgängige, kollaborative Plattform verbindet Entwickler, Analysten, Bürgerdatenwissenschaftler und Datenwissenschaftler mit Funktionen zur Automatisierung von Workflows und zur Self-Service-Datenverarbeitung, Analyse und Verarbeitung von maschinellem Lernen.

Alan Jacobson, Chief Analytics and Data Officer bei Alteryx, erklärt: „Das Aufkommen der analytischen Prozessautomatisierung (APA) als Kategorie unterstreicht die neue Erwartung, dass jeder Mitarbeiter in einem Unternehmen ein Datenarbeiter ist. IT-Entwickler sind keine Ausnahme, und die Erweiterbarkeit der Alteryx APA-Plattform ist für diese Wissensarbeiter besonders nützlich. “

Es gibt verschiedene Tools und Plattformen für Datenwissenschaftler, die darauf abzielen, sie mit Technologien wie Python und R produktiver zu machen und gleichzeitig viele der Betriebs- und Infrastrukturschritte zu vereinfachen. Beispielsweise ist Databricks eine Data Science-Betriebsplattform, die die Bereitstellung von Algorithmen für Apache Spark und TensorFlow ermöglicht, während die Computercluster in der AWS- oder Azure-Cloud selbst verwaltet werden. 

Einige Plattformen wie SAS Viya kombinieren jetzt Datenaufbereitung, Analyse, Prognose, maschinelles Lernen, Textanalyse und Modellverwaltung für maschinelles Lernen in einer einzigen Modellplattform. SAS operationalisiert Analysen und richtet sich mit einer durchgängigen Plattform für die Zusammenarbeit an Datenwissenschaftler, Geschäftsanalysten, Entwickler und Führungskräfte.

David Duling, Direktor für Forschung und Entwicklung im Bereich Entscheidungsmanagement bei SAS, sagt: „Wir sehen Modelops als die Praxis, eine wiederholbare, überprüfbare Pipeline von Operationen zu erstellen, um alle Analysen, einschließlich KI- und ML-Modelle, in Betriebssystemen bereitzustellen. Als Teil von modelops können wir moderne Entwicklungspraktiken für die Codeverwaltung, das Testen und die Überwachung verwenden. Dies trägt zur Verbesserung der Häufigkeit und Zuverlässigkeit der Modellbereitstellung bei, was wiederum die Flexibilität der auf diesen Modellen basierenden Geschäftsprozesse erhöht. “

Dataiku ist eine weitere Plattform, die darauf abzielt, wachsenden Data Science-Teams und ihren Mitarbeitern Datenvorbereitung, Analyse und maschinelles Lernen zu bieten. Dataiku verfügt über ein visuelles Programmiermodell, das Collaboration- und Code-Notebooks für fortgeschrittenere SQL- und Python-Entwickler ermöglicht.

Andere Analyse- und maschinelle Lernplattformen führender Anbieter von Unternehmenssoftware zielen darauf ab, Analysefunktionen für Rechenzentrums- und Cloud-Datenquellen bereitzustellen. Beispielsweise zielen Oracle Analytics Cloud und SAP Analytics Cloud darauf ab, Informationen zu zentralisieren und Erkenntnisse zu automatisieren, um End-to-End-Entscheidungen zu ermöglichen.

Auswahl einer Datenanalyseplattform

Die Auswahl von Datenintegrations-, Warehousing- und Analysetools war früher einfacher, bevor Big Data, maschinelles Lernen und Data Governance aufkamen. Heutzutage gibt es eine Mischung aus Terminologie, Plattformfunktionen, Betriebsanforderungen, Governance-Anforderungen und gezielten Benutzerpersönlichkeiten, die die Auswahl von Plattformen komplexer machen, zumal viele Anbieter mehrere Nutzungsparadigmen unterstützen. 

Unternehmen unterscheiden sich in den Analyseanforderungen und -anforderungen, sollten jedoch aus der Sicht der bereits vorhandenen nach neuen Plattformen suchen. Zum Beispiel:

  • Unternehmen, die mit Citizen Data Science-Programmen erfolgreich waren und bereits über Datenvisualisierungstools verfügen, möchten dieses Programm möglicherweise um Technologien zur Automatisierung von Analyseprozessen oder zur Datenvorbereitung erweitern.
  • Unternehmen, die eine Toolchain wünschen, mit der Datenwissenschaftler in verschiedenen Geschäftsbereichen arbeiten können, können End-to-End-Analyseplattformen mit Modelops-Funktionen in Betracht ziehen.
  • Unternehmen mit mehreren unterschiedlichen Back-End-Datenplattformen können von Cloud-Datenplattformen profitieren, um diese zu katalogisieren und zentral zu verwalten.
  • Unternehmen, die alle oder die meisten Datenfunktionen in einem einzigen öffentlichen Cloud-Anbieter standardisieren, sollten die angebotenen Plattformen für Datenintegration, Datenverwaltung und Datenanalyse untersuchen.

Da Analytik und maschinelles Lernen zu einer wichtigen Kernkompetenz werden, sollten Technologen erwägen, ihr Verständnis für die verfügbaren Plattformen und ihre Fähigkeiten zu vertiefen. Die Leistungsfähigkeit und der Wert von Analyseplattformen werden ebenso zunehmen wie ihr Einfluss im gesamten Unternehmen.