Datendribble: Die Bedeutung von Daten und Machine Learning im Sport
Mit schweißnassen Fingern huscht der Fußballcoach an der Seitenlinie über sein Tablet. Sein Topstürmer wurde gerade gefoult und liegt zur medizinischen Behandlung an der Seitenlinie. Soll er wechseln? Wenn ja, wen? Die gegnerische Mannschaft verhält sich völlig anders, als von seinem Taktikalgorithmus vorhergesagt! „Kann ich dem Algorithmus in dieser Situation noch trauen? Schließlich hat er uns bis ins Finale der nationalen Liga gebracht und lag mit seinen Vorhersagen und Empfehlungen immer richtig.“ Nun schlägt der Algorithmus vor, den Topstürmer zu wechseln und einen defensiveren Teamkollegen einzuwechseln. Dieser soll über den rechten Flügel spielen, dort hat der Algorithmus eine gehäufte Anzahl von Fehlpässen in diesem Spiel erkannt, auch die Antritte und Laufwege der Abwehrspieler scheinen heute etwas fahrig. Er sieht gute Chancen, dort zum Tor durchzukommen …
Dichtung oder Wahrheit? Sieht so die Arbeit eines Trainers der Zukunft aus oder ist es gar schon Realität? Sicherlich ein bisschen von beidem. Daten spielen in beinahe all unseren Lebensbereichen eine zunehmend wichtige Rolle. Auch der Sport macht sich die Daten über SpielerInnen zunutze und versucht, immer ein möglichst perfekt abgestimmtes Team auf den Platz zu bringen.
Daten im Sport haben eine weitreichende Tradition und sind in den Sportarten unterschiedlich weit vertreten. Historisches und durch Hollywood weltweit bekanntgemachtes Beispiel ist der Aufstieg der Baseballmannschaft Oakland Athletics unter dem Manager Billy Beane (Michael Lewis: Moneyball). Durch die Auswahl geeigneter statistischer Merkmale, die er von Spielern erhob, konnten unterschätzte Spieler günstig eingekauft werden, die ihm am Ende eine Serie von 20 gewonnen Spielen einbrachte. Heute ist Baseball eine der am meisten durch Daten geprägte Sportart. Andere Sportarten folgen wie zum Beispiel Basketball: Dort werden SpielerInnen dahin konditioniert, eher einen riskanteren Drei-Punkte-Wurf zu versuchen als einen sicheren Zwei-Punkte-Wurf. Warum? Die Daten zeigen, dass, obwohl der Drei-Punkte-Wurf öfter danebengeht, am Ende in Summe mehr Punkte dabei herauskommen.
Im Fußball sind Daten und die zugehörigen Analysen ebenfalls auf dem Vormarsch. Durch Liveauswertung von Kamerabildern und weiteren Sensoren (zB in den Trikots und Schuhen angebrachte Gyrometer) während des Trainings und der Spiele ist es nun möglich, die Leistung von SpielerInnen zu erfassen und ligaübergreifend auszuwerten. Neben gewonnenen und verlorenen Zweikämpfen, Passgenauigkeiten oder kumulierter Laufwege finden auch immer mehr angepasste Merkmale den Weg in die Analysen. Sichtbar wurde dies beispielsweise durch den Packing©-Faktor, der in Analysen während der Europameisterschaft 2016 Erwähnung fand. Dieser Faktor zählt, wie viele GegenspielerInnen durch einen Spielzug aus dem Spiel genommen wurden, zB durch einen langen Pass überspielt wurden.
Datengetriebene Analysen im Sport können auf unterschiedlichen Ebenen getätigt werden, zB bezogen auf ein Spiel, eine Saison, eine Mannschaft oder einen individuellen Spieler. Letzteres ist insbesondere im Scouting interessant und hat beispielsweise Billy Beanes Team im Baseball erfolgreich gemacht. Grundlage für diese Analysen sind immer Daten. Viele Fußballvereine erheben heutzutage selbst Daten und haben Analysten, die diese tagesaktuell auswerten, zB die Laktatwerte der SpielerInnen. Daneben existieren hier Firmen, die sich auf das Erheben von Sportdaten spezialisieren und diese als Service anbieten.
Im Folgenden analysieren wir beispielhaft einen frei verfügbaren Datensatz der Firma Stats-Bomb . Dieser umfasst Daten von 890 Fußballpartien, wovon der Großteil sich auf Spiele innerhalb der spanischen Liga „La Liga“ beziehen und dort vor allen Dingen auf die Spiele von Barcelona. Innerhalb des Datensatzes werden drei Millionen „Events“ hinterlegt. Ein Event ist beispielsweise ein Pass oder Schuss.
In einem ersten Schritt werden diese Daten mit Hilfe geeigneter Visualisierungsverfahren dargestellt und deskriptiv analysiert. Normalerweise werden für diese Zwecke im ersten Schritt vor allen Dingen Histogramme herangezogen, die einen Aufschluss auf die zu Grunde liegenden statistischen Verteilungen der Daten geben können. Für Fußballdaten bietet sich eine Visualisierung auf einem Fußballfeld an. Hierzu verwenden wir das Paket mplsoccer .
Abbildung 1 zeigt ein sogenanntes Passnetzwerk für ein Spiel zwischen dem FC Barcelona und dem CA Osasuna. Das Passnetzwerk zeigt die unterschiedlichen Spieltypen der Mannschaft, zB GK für Goalkeeper oder RB für Right Back. Die Dicke des Balkens zwischen den Positionen repräsentiert die Anzahl der Pässe zwischen den Spielenden. In unserem Beispiel steht hinter RB Dani Alves und hinter RCF Lionel Messi. Die Visualisierung zeigt, dass viele Pässe zwischen diesen beiden Spielern stattfinden. Dies unterstützt die Meinung, dass diese beiden Spieler einen hohen Beitrag zum Spiel des FC Barcelona leisten. Auch wenn das keine allzu neue Information darstellt, können wir mit solch einfachen Visualisierungen und Tests überprüfen, ob sich unser sog Domänenwissen in den Daten widerspiegelt. Ziel dieser ersten Visualisierungsphase ist es, einen intuitiven Zugang zu den Daten Seite 71 zu bekommen. In einem nächsten Schritt können diese Daten in einem interaktiven Visualisierungstool dargestellt werden (zB Power BI, Tableau oder Qlik). Ein beispielhaftes interaktives Dashboard in Microsoft Power BI kann unter der folgenden URL abgerufen werden.
Abb 1: Passnetzwerk einer Partie von FC Barcelona und CA Osasuna. Augenscheinlich liegt die Passachse zwischen RB (Dani Alves) und RCF (Lionel Messi).
Neben der Plausibilitätsprüfung geben uns die Visualisierungen auch einen Eindruck über die Datenqualität. Aus der Erfahrung heraus scheitern viele Modellierungsversuche am Ende an einer unzureichenden Datenqualität. Fast jede Störung in den Daten hat einen negativen Einfluss auf das spätere Modell, so können sich beispielsweise Ausreißer negativ auf die spätere Modellgüte auswirken. Dies ist nicht nur für dieses Sportbeispiel der Fall, sondern generell in allen Bereichen: Wenn die Datenqualität nicht stimmt, so wird auch das beste Lernverfahren keine Wunder vollbringen. Bestes Beispiel sind hier sicherlich Neuronale Netzwerke, denen durch ihre schwere Interpretierbarkeit Wunderkräfte zugesprochen werden. Auch diese mächtigen, neuronalen Modellierungswerkzeuge werden bei einer unzureichenden Datenqualität (und insbesondere im Fall von neuronalen Netzen der Menge der Daten) keine dieser Wunder vollbringen.
Nach der deskriptiven Analyse der Daten erfolgt die weitere Extraktion von Merkmalen über die SpielerInnen. Aus den Basisevents des Datensets lassen sich Merkmale mit mehr semantischer Information ableiten. Hierzu werden beispielsweise die Anzahl der Fehlpässe ( pass_accuracy) gezählt oder die Laufwege mit dem Ball ( total_carry_distance) analysiert. Je nach Merkmal sind die Berechnungen unterschiedlich komplex. Der Packing©-Faktor könnte ein weiteres Merkmal sein, das in diesem Schritt berechnet wird. In Abbildung 2 sind 13 beispielhafte Merkmale exemplarisch für Alves und Messi dargestellt. An den Visualisierungen ist ersichtlich, dass Alves laut den Daten tendenziell stärker in der Verteidigung bzw Balleroberung ist, hingegen Messi seine Stärke vor allen Dingen in den offensiveren Merkmalen wie Torschüssen und Toren hat.
Abb 2: Darstellung von 13 extrahierten Merkmalen für Dani Alves und Lionel Messi. Die Merkmale sind in die Gruppen Attacking, Passing, Defending und Possession unterteilt.
Diese Reduktion von SpielerInnen auf 13 Merkmale kann im Weiteren dafür verwendet werden, den Teamkader zu optimieren. Programmatisch können diese Spieler-Score-Cards auch für automatische Segmentierungen verwendet werden. Bei einer Segmentierung mit Hilfe des Maschinellen Lernens ist das Ziel, ähnliche Typen von SpielerInnen in Gruppen zusammenzufassen. Interessant werden die Ergebnisse dann, wenn SpielerInnen in nicht erwarteten Gruppen auftauchen, zB sollte Manuel Neuer als Torwart in der Nähe von der Segmentierungsgruppe der Torwarte eingeordnet werden, auf Grund seiner offenen Spielweise aber auch in die Nähe der Feldspieler gerückt werden. Diese Segmentierungsverfahren sind auf alle möglichen Arten von Daten anwendbar, zB Verkaufsdaten im Einzelhandel. Durch Kundenbindungsprogramme, wie zB Kundenkarten, kann das Einkaufsverhalten der KundInnen über einen längeren Zeitraum verfolgt und analysiert werden. Oft werden in der Analyse Segmentierungsverfahren eingesetzt, um Kundengruppen datengetrieben zu definieren. Auf Seite 72 Grundlage dieser Kundengruppen können dann im Anschluss beispielsweise gezielte Marketingkampagnen ausgesteuert werden.
Neben dem großen Feld der Segmentierungsaufgaben kommen wir nun zur Königsaufgabe im Fußball: Vorhersagen, ob ein Tor fällt oder nicht oder der Traum eines jeden Sportwettenaficionado! Trainiert werden kann ein sog Expected-Goal-Modell, indem historische Schussdaten verwendet werden, bei denen der Ausgang nun, da er in der Vergangenheit liegt, klar ist. Nachdem genügend Beispiele gesammelt wurden und auch hier wiederum die richtigen Merkmale extrahiert wurden, kann das Training beginnen.
Als Merkmale kommen hier, anders als bei der Spielersegmentierung, Merkmale wie der Abstand vom oder der Winkel zum Tor zum Zuge. Ist das statistische Modell erst trainiert, können neue Situationen von dem Modell bewertet werden, es kann also dazu verwendet werden, auch während eines laufenden Spiels, die Trefferwahrscheinlichkeit zu berechnen. In Abbildung 3 sind die Torschusspositionen aus dem UEFA-Champions-League-Finale 2012 zwischen dem FC Bayern München und dem FC Chelsea dargestellt.
Abb 3: Schusspositionen im UEFA-Champions-League-Finale 2012 zwischen FC Bayern München (links) und FC Chelsea (rechts). Die Größe der Markierungen zeigt die Torwahrscheinlichkeit aus der angezeigten Position.
Die Größe der Punkte zeigt die Wahrscheinlichkeit, dass ein Schuss aus der Position zu einem Tor verwandelt wird. In der Abbildung sieht man klar, dass Bayern mehr Torschüsse hatte und insgesamt die Wahrscheinlichkeiten für ein Tor höher waren (linke Seite), als bei Chelsea (rechts). Jeder Bayern-Fan weiß aber, dass die Partie 1:1 in der regulären Spielzeit ausging und im Elfmeterschießen am Ende Chelsea gewonnen hat, was also dem Analyseergebnis etwas widerspricht. Die Frage „Warum das Modell nicht mit dem Endergebnis übereinstimmt?“ ist vielfältig und stellt sich täglich bei der Arbeit mit statistischen Modellen. Haben wir alle Einflussfaktoren im Modell berücksichtigt? Haben wir genügend Daten? Sind die Daten fehlerfrei? Kann das Modell auf neue Situationen reagieren? Führt man die Fragen weiter, so gelangt man schnell zur Frage, ob das Modell eine Intelligenz hat. An dieser Stelle bewegen wir uns aber nicht mehr zwingend im analytischen, sondern eher im philosophischen Terrain.
In diesen beiden Beispielanalysen wurde verdeutlicht, was es heißt mit Daten zu arbeiten. Auch wenn das Fußballbeispiel vor allen aus didaktischen Gründen gewählt wurde, zeigt es viele Problemstellungen auf, die in der täglichen Arbeit mit Unternehmensdaten auftreten. Datenanalyse und -modellierung ist ein Handwerk, das es zu lernen gilt. Viele Mitarbeitende, gerade im Bereich des Controllings, wenden sich immer mehr den modernen Methoden zu, die über ein deskriptives Reporting hinausgehen. Mithilfe von Onlineseminaren und frei verfügbaren Lernmaterialien ist es heute möglich, sich das Wissen hierzu anzueignen. Mit dem Kurs des Certified Business Data Scientist (CBDS) bietet das Controller Institut in Wien einen strukturierten Kurs an, der die Teilnehmenden mit den mathematischen Grundlagen dieser Analysetechniken vertraut macht. Zudem wird aber auch der kaufmännische Aspekt vergessen: Die Analysen dürfen nicht dem Selbstzweck dienen, sondern stellen auch immer ein Investment dar. Wichtigstes Element des CBDS (und auch der vielen Onlineressourcen) sind immer die praktischen Übungen. Wie in jedem guten Handwerksberuf lernt man nicht nur aus Büchern, sondern am besten aus dem direkten praktischen Anwenden.
Viele Firmen bieten ihren Mitarbeitenden die Möglichkeit der Weiterbildung in diesem Bereich an. Eine gute Ergänzung zu den strukturierten Kursen ist ein anschließendes Coaching. Wie im Fußball kann ein Coach wesentlich zum Spielerfolg beitragen. Die Erfahrung zeigt, dass viele „Anfängerfehler“ mit einem erfahrenen Coach umspielt werden können und die Erfolgswahrscheinlichkeit von Data-Science-Projekten erhöhen kann.
Im Sport ist die Datenanalyse voll angekommen. Die Zukunft wird zeigen, wie stark sie sich gerade im Fußball in den Vordergrund stellen wird und ob es am Ende, ähnlich wie im Baseball, sehr weit verbreitet auch in der Berichterstattung ist. Die hohe Dynamik des Spiels wird es aber weiterhin schwierig bis unmöglich machen, alle Spielverläufe mit großer Sicherheit vorherzusagen – ansonsten würden wir auch schnell den Spaß am Spiel verlieren!
Der Beitrag erschien zunächst in CFOaktuell (Heft 2/2022). Mehr Infos unter: www.cfoaktuell.at
Dein Kommentar
An Diskussion beteiligen?Hinterlassen Sie uns Ihren Kommentar!