Die heutigen datenwissenschaftlichen Rollen werden in 10 Jahren nicht mehr existieren

In den kommenden zehn Jahren wird die Rolle des Datenwissenschaftlers, wie wir sie kennen, ganz anders aussehen als heute. Aber keine Sorge, niemand sagt verlorene Jobs voraus, nur geänderte Jobs.

Datenwissenschaftler werden in Ordnung sein - nach Angaben des Bureau of Labour Statistics wird die Rolle bis 2029 voraussichtlich immer noch überdurchschnittlich wachsen. Fortschritte in der Technologie werden jedoch den Anstoß für eine enorme Verschiebung der Verantwortlichkeiten eines Datenwissenschaftlers und des Unternehmens geben Art und Weise, wie Unternehmen die Analytik als Ganzes angehen. AutoML-Tools, mit denen die Pipeline für maschinelles Lernen von Rohdaten zu einem verwendbaren Modell automatisiert werden kann, werden diese Revolution anführen.

In 10 Jahren werden Datenwissenschaftler über völlig unterschiedliche Fähigkeiten und Werkzeuge verfügen, aber ihre Funktion wird dieselbe bleiben: Sie sollen als selbstbewusste und kompetente Technologieführer dienen, die komplexe Daten zur Lösung geschäftlicher Probleme sinnvoll nutzen können.

AutoML demokratisiert die Datenwissenschaft

Bis vor kurzem waren Algorithmen und Prozesse für maschinelles Lernen fast ausschließlich die Domäne traditionellerer datenwissenschaftlicher Rollen - solche mit formaler Ausbildung und fortgeschrittenem Abschluss oder bei großen Technologieunternehmen. Datenwissenschaftler haben in jedem Teil des Entwicklungsspektrums des maschinellen Lernens eine unschätzbare Rolle gespielt. Mit der Zeit wird ihre Rolle jedoch kollaborativer und strategischer. Mit Tools wie AutoML zur Automatisierung einiger ihrer akademischeren Fähigkeiten können sich Datenwissenschaftler darauf konzentrieren, Organisationen über Daten zu Lösungen für geschäftliche Probleme zu führen.

Dies liegt in vielerlei Hinsicht daran, dass AutoML die Bemühungen zur Umsetzung des maschinellen Lernens in die Praxis demokratisiert. Anbieter von Startups bis hin zu Cloud-Hyperskalierern haben Lösungen auf den Markt gebracht, mit denen Entwickler problemlos arbeiten und experimentieren können, ohne dass eine große pädagogische oder experimentelle Eintrittsbarriere besteht. In ähnlicher Weise sind einige AutoML-Anwendungen intuitiv und einfach genug, damit nicht-technische Mitarbeiter versuchen können, Lösungen für Probleme in ihren eigenen Abteilungen zu finden - eine Art „Citizen Data Scientist“ innerhalb von Organisationen.

Um die Möglichkeiten zu erkunden, die diese Arten von Tools sowohl für Entwickler als auch für Datenwissenschaftler bieten, müssen wir zunächst den aktuellen Stand der Datenwissenschaft in Bezug auf die Entwicklung des maschinellen Lernens verstehen. Es ist am einfachsten zu verstehen, wenn es auf einer Reifeskala platziert wird.

Kleinere Organisationen und Unternehmen mit traditionelleren Rollen, die für die digitale Transformation zuständig sind (dh keine klassisch ausgebildeten Datenwissenschaftler), fallen normalerweise in dieses Ausmaß. Derzeit sind sie die größten Kunden für sofort einsatzbereite Anwendungen für maschinelles Lernen, die sich eher an ein Publikum richten, das mit den Feinheiten des maschinellen Lernens nicht vertraut ist.

  • Vorteile: Diese schlüsselfertigen Anwendungen sind in der Regel einfach zu implementieren und relativ billig und einfach bereitzustellen. Für kleinere Unternehmen mit einem sehr spezifischen Prozess zur Automatisierung oder Verbesserung gibt es wahrscheinlich mehrere realisierbare Optionen auf dem Markt. Die niedrige Eintrittsbarriere macht diese Anwendungen perfekt für Datenwissenschaftler, die zum ersten Mal in maschinelles Lernen einsteigen. Da einige der Anwendungen so intuitiv sind, können nicht-technische Mitarbeiter sogar mit Automatisierung und erweiterten Datenfunktionen experimentieren und so möglicherweise eine wertvolle Sandbox in ein Unternehmen einführen.
  • Nachteile: Diese Klasse von Anwendungen für maschinelles Lernen ist notorisch unflexibel. Sie können zwar einfach implementiert werden, sind jedoch nicht einfach anzupassen. Daher können bestimmte Genauigkeitsstufen für bestimmte Anwendungen unmöglich sein. Darüber hinaus können diese Anwendungen durch ihre Abhängigkeit von vorab trainierten Modellen und Daten stark eingeschränkt sein. 

Beispiele für diese Anwendungen sind Amazon Comprehend, Amazon Lex und Amazon Forecast von Amazon Web Services sowie Azure Speech Services und Azure Language Understanding (LUIS) von Microsoft Azure. Diese Tools reichen oft aus, damit aufstrebende Datenwissenschaftler die ersten Schritte des maschinellen Lernens unternehmen und ihre Organisationen weiter in das Reifespektrum einführen können.

Anpassbare Lösungen mit AutoML

Unternehmen mit großen, aber relativ häufigen Datenmengen - beispielsweise Kundentransaktionsdaten oder Marketing-E-Mail-Metriken - benötigen mehr Flexibilität bei der Verwendung von maschinellem Lernen zur Lösung von Problemen. Geben Sie AutoML ein. AutoML führt die Schritte eines manuellen Workflows für maschinelles Lernen (Datenerkennung, explorative Datenanalyse, Optimierung von Hyperparametern usw.) aus und komprimiert sie zu einem konfigurierbaren Stapel.

  • Vorteile : Mit AutoML-Anwendungen können mehr Experimente mit Daten auf einem größeren Raum ausgeführt werden. Die wahre Supermacht von AutoML ist jedoch die Barrierefreiheit - benutzerdefinierte Konfigurationen können erstellt und Eingaben relativ einfach verfeinert werden. Darüber hinaus wird AutoML nicht ausschließlich mit Datenwissenschaftlern als Publikum erstellt. Entwickler können auch problemlos in der Sandbox basteln, um maschinelle Lernelemente in ihre eigenen Produkte oder Projekte zu integrieren.
  • Nachteile: Die Einschränkungen von AutoML führen dazu, dass die Genauigkeit der Ausgaben nur schwer zu perfektionieren ist. Aus diesem Grund blicken Wissenschaftler, die Daten mit Karten besitzen, häufig auf Anwendungen zurück, die mit Hilfe von AutoML erstellt wurden - auch wenn das Ergebnis genau genug ist, um das vorliegende Problem zu lösen.

Beispiele für diese Anwendungen sind Amazon SageMaker AutoPilot oder Google Cloud AutoML. Datenwissenschaftler müssen in einem Jahrzehnt zweifellos mit solchen Tools vertraut sein. Wie ein Entwickler, der mehrere Programmiersprachen beherrscht, müssen Datenwissenschaftler über Kenntnisse in mehreren AutoML-Umgebungen verfügen, um als Top-Talent zu gelten.

Handgerollte und selbst entwickelte Lösungen für maschinelles Lernen 

In den größten Unternehmen und Fortune 500-Unternehmen werden derzeit die meisten fortschrittlichen und proprietären Anwendungen für maschinelles Lernen entwickelt. Datenwissenschaftler in diesen Organisationen sind Teil großer Teams, die Algorithmen für maschinelles Lernen unter Verwendung historischer Unternehmensdaten perfektionieren und diese Anwendungen von Grund auf neu erstellen. Benutzerdefinierte Anwendungen wie diese sind nur mit erheblichen Ressourcen und Talenten möglich, weshalb sich die Auszahlung und die Risiken so groß sind.

  • Vorteile: Wie jede von Grund auf neu erstellte Anwendung ist auch das benutzerdefinierte maschinelle Lernen auf dem neuesten Stand der Technik und basiert auf einem tiefen Verständnis des vorliegenden Problems. Es ist auch genauer - wenn auch nur mit geringen Gewinnspannen - als AutoML- und Out-of-the-Box-Lösungen für maschinelles Lernen.
  • Nachteile: Es kann äußerst schwierig sein, eine benutzerdefinierte Anwendung für maschinelles Lernen zum Erreichen bestimmter Genauigkeitsschwellen zu erhalten, und erfordert häufig ein schweres Heben durch Teams von Datenwissenschaftlern. Darüber hinaus sind benutzerdefinierte Optionen für maschinelles Lernen am zeitaufwändigsten und teuersten in der Entwicklung.

Ein Beispiel für eine handgerollte Lösung für maschinelles Lernen beginnt mit einem leeren Jupyter-Notizbuch, importiert Daten manuell und führt dann jeden Schritt von der explorativen Datenanalyse bis zur Modelloptimierung von Hand durch. Dies wird häufig durch das Schreiben von benutzerdefiniertem Code unter Verwendung von Open-Source-Frameworks für maschinelles Lernen wie Scikit-learn, TensorFlow, PyTorch und vielen anderen erreicht. Dieser Ansatz erfordert ein hohes Maß an Erfahrung und Intuition, kann jedoch zu Ergebnissen führen, die häufig sowohl schlüsselfertige maschinelle Lerndienste als auch AutoML übertreffen.

Tools wie AutoML werden die Rollen und Verantwortlichkeiten von Data Science in den nächsten 10 Jahren verschieben. AutoML übernimmt die Last der Entwicklung des maschinellen Lernens von Grund auf für Datenwissenschaftler und legt stattdessen die Möglichkeiten der Technologie des maschinellen Lernens direkt in die Hände anderer Problemlöser. Mit der Zeit, sich auf das zu konzentrieren, was sie wissen - die Daten und die Eingaben selbst -, werden Datenwissenschaftler in einem Jahrzehnt als noch wertvollere Leitfäden für ihre Organisationen dienen.

Eric Miller fungiert als Senior Director für technische Strategie bei Rackspace, wo er der strategischen Beratungsleitung eine nachgewiesene Erfolgsbilanz beim Aufbau von Praktiken im Ökosystem des Amazon Partner Network (APN) zur Verfügung stellt. Eric ist ein erfahrener Technologieführer mit 20 Jahren nachweislichem Erfolg in der Unternehmens-IT. Er hat mehrere Initiativen zur AWS- und Lösungsarchitektur geleitet, darunter das WAF-Bewertungspartnerprogramm (AWS Well Architected Framework), das AWS Service Delivery-Programm von Amazon EC2 für Windows Server und eine breite Palette von AWS schreibt für Milliarden-Dollar-Organisationen um.

- -

Das New Tech Forum bietet einen Ort, an dem Sie neue Unternehmenstechnologien in beispielloser Tiefe und Breite erkunden und diskutieren können. Die Auswahl ist subjektiv, basierend auf unserer Auswahl der Technologien, die wir für wichtig und für die Leser von größtem Interesse halten. akzeptiert keine Marketingmaterialien zur Veröffentlichung und behält sich das Recht vor, alle eingebrachten Inhalte zu bearbeiten. Senden Sie alle Anfragen an [email protected]