Data Scientists brauchen vor allem die Fähigkeit, sich schnell in neue Fachthemen hineinzudenken
Es ist wie bei der Renovierung eines Badezimmers: Der Fliesenleger kommt erst, wenn der Installateur da war und die Wände vorgeschliffen sind. Ähnlich verhält es sich mit Daten: Sind die Vorarbeiten nicht ordentlich verrichtet, kann der Data Scientist auf kein solides Datenfundament aufbauen. Stefan Balke, neuer Lehrgangsleiter des Certified Business Data Scientist und Teamlead Data Science bei pmOne im Gespräch.
Controller Institut: Was sind aktuell die größten Trends im Bereich Data für Unternehmen?
Stefan Balke: Ein großes Trendthema ist die Frage der Datenethik. Fragen wie: Was darf ich an Daten erfassen? Oder, wenn ich es darf: Ist die Auswertung ethisch vertretbar?. Ganz eng mit dieser Fragestellung ist das Streben nach einem genaueren Verständnis der inneren Abläufe der Algorithmen verknüpft, die für die Auswertungen verwendet werden. Neben den sogenannten White-Box-Modellen (z.B. Entscheidungsbäumen), bei denen abgelesen werden kann, wie eine Entscheidung zu Stande gekommen ist, gehören heute Ensembleverfahren wie Gradient Boosting Trees zum Standard. Bei diesen ist die Interpretierbarkeit bereits wesentlich schwieriger und Gegenstand aktueller, industrienaher Forschung (z.B. im Forschungsprojekt DAIKIRI, www.daikiri-projekt.de).
Als Dauerthema zeichnet sich die Verfügbarmachung von Machine-Learning-Verfahren ab. So ist es heute in vielen BI-Analysetools bereits möglich, einfache Regressionen, Klassifikationen oder Segmentierungen vorzunehmen. Die Anwendung der Algorithmik verschiebt sich also immer mehr zum Endanwender. Wie bei jedem Werkzeug ist es aber auch bei Algorithmen notwendig, die wesentlichen Grundparameter und Zusammenhänge zu verstehen, bevor diese angewendet werden. Eine fundierte Ausbildung der Mitarbeitenden ist in diesem Bereich ist für die erfolgreiche Anwendung dieser Verfahren für die Zukunft digitalisierter Unternehmungen unerlässlich.
CI: Die Qualität und die Verfügbarkeit von Daten war bisher oftmals ein großes Problem – ist hier schon Licht am Ende des Tunnels in Sicht?
Balke: Viele Firmen setzen heutzutage auf moderne, skalierbare Cloud-Architekturen, um beispielsweise ihre Endsysteme in einem gemeinsamen Datenlager (z.B. Data Lake) unterzubringen und für die Analyse vorzuhalten. Das Ziel zu erreichen bedarf aber nach wie vor jeder Menge handwerklichen Geschicks. Die hiesigen Cloudanbieter geben sich zwar alle Mühe, Prozesse der Datenintegration so einfach wie möglich zu gestalten, am Ende des Tages braucht es aber gute Handwerker, die diese Daten zusammenführen. Natürlich ist das Zusammenführen nur die halbe Miete. In unseren Kundenprojekten zeigt sich immer wieder, dass die Zeit, die für die Datenvalidierung viel zu knapp eingeschätzt wird und von den Kunden unterschätzt wird. Ist das Ziel am Ende mithilfe von Machine-Learning-Verfahren Prognosen auf den Daten zu vollführen, ist es unabdingbar die Datenqualität zu maximieren, denn wir reden hier nicht von schwarzer Magie, die aus schlechten Daten gute Prognosen zaubert, sondern von mathematischen Optimierungsverfahren, die auf Korrelationen in den Daten angewiesen sind. Werden diese Korrelationen zerstört, indem zum Beispiel ein Sensor falsche Messwerte funkt oder Altersangaben in Kundendatensätzen falsch sind, wird das Machine-Learning-Verfahren keine brauchbaren Ergebnisse liefern.
Die Reihenfolge für Data-Science-Projekte sollte immer nach der Datenintegration die sorgfältige Sichtung der Daten sein. Fordern Sie als Domänenexperten ihre Data Scientisten mit einfachen Hypothesen heraus, die sich „eigentlich“ visuell von den Daten ablesen lassen sollten. Nur so finden Sie die Fehler in den Datenbeständen und aus meiner Projekterfahrung kann ich nur sagen, dass es keinen Datensatz ohne Fehler gibt.
CI: Wann braucht ein Unternehmen eigene Data Scienctists?
Balke: Das hängt stark vom Unternehmen ab. Im E-Commerce beispielsweise ist die Verwendung von Data Science Verfahren gängige Praxis und können den Umsatz stark beeinflussen. Ein eigenes Data Science Team ist hier ggf. sinnvoll. Andere Unternehmen können diese Bedarfe mit externer Hilfe realisieren. Dabei ist wichtig, dass es innerhalb des Unternehmens Ansprechpartner:innen gibt, die sich mit Daten und den grundsätzlichen Analysemöglichkeiten auskennen. Wenn dann Data Scientists als Expert:innen herangezogen werden, können diese möglichst schnell mit Daten und Domänenwissen versorgt werden, damit diese effiziente erste Analysen durchführen können.
CI: Welche Skills brauchen Data Scientists?
Balke: Data Scientists brauchen – neben den technischen Fähigkeiten mit großen Datenmengen umzugehen und einer fundierten mathematischen Ausbildung – vor allen Dingen die Fähigkeit sich schnell in neue Fachthemen hineinzudenken und die wesentlichen Fachaspekte auf die Daten projizieren zu können. Es gibt Data Scientists, die stärker in der Implementierung sind oder wiederum welche, die ihre Stärke im mathematischen Modellieren eines Problems haben. Je größer das Team, desto mehr kann es spezialisierte Profile geben. Im Normalfall sind Data Science Teams aber eher klein und somit fallen viele unterschiedliche Aufgaben in den Verantwortungsbereich von Data Scientists. Am wichtigsten ist jedoch, sich nicht von technisch komplexen Systemen abschrecken zu lassen, Dinge erst einmal pragmatisch anzugehen, um abschätzen zu können, ob eine weitere Arbeit an einer Problemstellung überhaupt zielführend ist.
CI: Wie sehen die größten Probleme aus, die sich ein Data Scientist stellen muss?
Balke: Oftmals sind die Erwartungen der Fachbereiche enorm. Viele Firmen brüsten sich mit erfolgreichen Data-Science-Projekten. Ein Blick hinter die Fassade relativiert diese Aussagen häufig oder Verfahren funktionieren nur unter gewissen Annahmen etc.
All dies verfälscht die Sicht und damit die Erwartung an Data-Science-
Projekte und die ausführenden Data Scientisten. Eine gute Strategie ist hier mit absoluter Offenheit das Projekt zu führen und damit den Fachbereich mitzunehmen. In vielen Fällen ist diesem nämlich bereits klar welche Datenqualität vorliegt und was in der Vergangenheit mit den Daten machbar war. Auch die „neuen“ statistischen Verfahren des Maschinellen Lernens kochen am Ende nur mit Wasser.
Eine zweite große Herausforderung ist die Schnelllebigkeit der wissenschaftlichen Forschung. Kaum jemand schafft es, den neuen Methoden und Erkenntnissen zu folgen, geschweige denn deren Validität zu prüfen. Oftmals sind die neuen Verfahren aber gar nicht die, die nachher in der Praxis eingesetzt werden. Klar klingt es in der Projektbeschreibung herausragend, wenn ein Problem mit einem State-of-the-Art-Verfahren gelöst wurde, allerdings ist das nur in Ausnahmen der Fall. Gewisse Grundtechniken ändern sich allerdings nicht und es gibt Verfahren (z.B. Random Forests), die eine gewisse Bodenständigkeit mitbringen und viele alltägliche Problemstellungen schon zu einem zufriedenen Maße lösen.
CI: Im Lehrgang Certified Business Data Scientist werden zahlreiche Fragestellungen für Fach- und Führungskräfte herausgearbeitet und praxisnah bearbeitet. Wem empfehlen Sie den Lehrgang und warum?
Balke: Genauso wie wir unseren Kindern im Umgang mit dem Internet beibringen müssen, verschiedene Quellen miteinander zu vergleichen, um sich ein finales Urteil bilden zu können (Medienkompetenz), brauchen wir in den zukünftig immer stärker digitalisierten Unternehmen Mitarbeitende, die mit Daten umgehen können (Datenkompetenz). Dies sind nicht nur diejenigen, die mit diesen Daten tagtäglich umgehen und beispielsweise Berichte erstellen, sondern auch jene, die diese konsumieren (z.B. Bereichsleiter oder das gehobene Management). Sie wollen datengetriebene Entscheidungen treffen? Dann tun Sie gut daran nicht direkt alles zu glauben, was in irgendeinem Report angezeigt wird. Nur wie entscheidet man, welchem Report man trauen kann? Hier kommt das Handwerkszeug ins Spiel, dass Sie im CBDS Lehrgang erlernen können. Wir steigern Ihre Datenkompetenz und zeigen Ihnen, wie die Verfahren, die ganze Unternehmen oder Fertigungsprozesse steuern, im Innersten funktionieren. Neben den theoretischen Betrachtungen steht aber vor allen Dingen die Praxis im Vordergrund. Mithilfe praxisnaher Beispiele lernen Sie die Stärken und Schwächen dieser Verfahren kennen und entwickeln ein Gefühl dafür, wie belastbar zum Beispiel Vorhersagen in einem Umsatzforecastreport eigentlich sein können.
Weiterbildungstipp:
Besuchen Sie den Lehrgang Certified Business Data Scientist des Controller Instituts. Info und Anmeldung
Dein Kommentar
An Diskussion beteiligen?Hinterlassen Sie uns Ihren Kommentar!