Data Sience Use Case: Forecasting & Zeitreihenanalyse

Forecasting, also die Vorhersage zukünftiger Entwicklungen, ist im breiteren Sinn der gesamte Prozess der Planung. Im engeren Sinn, also im Rahmen der Zeitreihenanalyse, bedeutet Forecasting die Schätzung der zukünftigen Werte auf Basis der vergangenen Werte. Letzteres ist ein rein quantitativer Ansatz: man verwendet historische Daten, sogenannte Zeitreihen, um mithilfe mathematischer und statistischer Verfahren Muster zu erkennen, um zu einer Vorhersage zu gelangen.


Datengrundlage sind also historische Daten, und man setzt voraus, dass die Muster auch in Zukunft aufrecht bleiben. Warum boomen datengetriebene Prognosemodelle derzeit so? Hier ein paar Antworten darauf:

  1. Es gibt mittlerweile zu vielen Unternehmensgrößen Daten, die standardisiert in fixen Perioden (Wochen, Monate, Quartale) erfasst wurden: genau das sind Zeitreihen.
  2. Die Implementierung der Prognosemodelle in Standard-Software schreitet immer weiter voran: in Excel ist etwa das „Prognoseblatt“ erschienen, womit das Erstellen und Validieren von Forecasts mit einigen wenigen Klicks erledigt ist.
  3. Die mathematischen Modelle sind hoch effizient, automatisierbar, zu 100% objektiv, und – last but not least – sie sind überprüfbar, und das bereits vor dem Einsatz in der Praxis!
  4. Die statistischen Verfahren quantifizieren immer, wie genau bzw. ungenau die Vorhersage ist. Man sagt also voraus, was die Zukunft bringt, aber immer unter Angabe der Unsicherheit dabei.

Nun, wie läuft Forecasting also technisch ab? Schematisch betrachtet kann der Prozess wie folgt veranschaulicht werden:

Historische Daten –> Modellanpassung –> Modellvalidierung –> Prognose –> Handlungsempfehlung

Am Ausgangspunkt steht also die historische Zeitreihe, hier dazu ein Beispiel mit monatlichen Werten zu Umsatz, Kosten und Deckungsbeitrag:

Die Entwicklung der Kosten ist schon mit freiem Auge erkennbar: ein leicht steigender Trend mit regelmäßigen Spitzen nach oben. Über die Regressionsformeln im Excel lässt sich berechnen, was das in Zahlen bedeutet: die Kosten steigen monatlich konstant um rund 200 Euro an, und alle 6 Monate kommen rund 10.000 zusätzlich dazu. Über die Trendformel kann dann berechnet werden, wie sich die Kosten weiter entwickeln, und über die Trendlinie lässt sich das im Diagramm grafisch darstellen. Dabei hat jede Zeitreihe ihre eigene Trendlinie, da sie ja unterschiedlich stark steigen:

Die lineare Regression hat aber Grenzen, sie ist meist kein besonders gutes Prognosemodell. Daher vollziehen wir nun den Quantensprung in die neue Funktionalität von Excel: das Prognoseblatt. Beim Umsatz und Deckungsbeitrag ist nämlich nicht mehr mit freiem Auge erkennbar, ob es repetitive Muster gibt. Exponential Triple Smoothing (ETS) nennt sich das  Modell dazu, klingt sexy, ist aber auch nur ein mathematisches Modell. Und das bedeutet in der Praxis:  man kann damit die zukünftigen Werte berechnen, und zwar mit wenig Aufwand. Markieren Sie die Zeitreihe und klicken im Registerblatt „Daten“ auf „Prognoseblatt erstellen“.

Es öffnet sich ein pop-up, in dem gleich eine Vorhersage bis Ende 2019 vorgeschlagen wird. Das ist ein guter Horizont: die historischen Daten gehen 7 Jahre zurück, also kann die Prognose ruhig 2 Jahre nach vorne gehen. Es wird ein neues sheet erzeugt, das die Grafik mit der Prognose enthält, aber auch die gesamte Berechnung dazu:

Man erkennt schnell, was der Unterschied zur einfachen linearen Trendlinie ist. Dieses Modell berücksichtigt nämlich nicht nur den linearen Trend, sondern zusätzlich auch noch saisonale Schwankungen und zyklische Schwankungen. Zur Begriffsklärung:

Der lineare Trend ist eine gerade Linie, ganz ohne ohne Schwankungen.

Saisonalitäten sind Schwankungen, die auf einzelne Monate oder Saisonen zurückzuführen sind, wie z.B. schwache Sommermonate von Juni bis August.

Zyklen sind Schwankungen, die nicht auf Saisonen oder einzelne Kalendermonate zurückzuführen sind, die aber dennoch periodisch wiederholend auftretet wie z.B. ein starker Monat immer nach einem schwachen Monat oder umgekehrt.

Aus diesen drei Komponenten setzt sich der Schätzer, also die Prognose zusammen. Im Hintergrund berechnet Excel hier ein komplexes Modell, um die gesamte Information der Daten optimal auzunutzen. Nichtsdestotrotz ist ein mathematisches Modell ist immer bloß eine vereinfachte Darstellung der Realität. Daher gibt es sogenannte Konfidenzintervalle, oder Konfidenzgrenzen. Diese Grenzen beruhen auf statistischen Annahmen, sind jedoch einfach zu interpretieren: mit 95%iger Wahrscheinlichkeit liegt der Umsatz innerhalb der unteren und oberen Grenze.

Lesebeispiel: Im Jänner 2018 ist die wahrscheinlichste Höhe für den Umsatz bei 191.552,35 (Schätzer). Im schlechtesten Fall liegt er bei 178.281,81 und im besten Fall bei 204.762,90 (untere / obere Konfidenzgrenze).

Lesebeispiel: Im Jänner 2018 ist die wahrscheinlichste Höhe für den Umsatz bei 191.552,35 (Schätzer). Im schlechtesten Fall liegt er bei 178.281,81 und im besten Fall bei 204.762,90 (untere / obere Konfidenzgrenze).

Nun aber der wichtigste Schritt im Forecasting: das Modell muss validiert werden. Dazu überprüft man, ob das Modell in der Vergangenheit richtig gelegen wäre, also z.B. wenn wir es bereits im Vorjahr eingesetzt  hätten. Das ist der größte Vorteil datenbasierter Methoden, sie lassen sich vor dem Einsatz in der Praxis genau überprüfen Das geht in Excel wieder nur mit einigen Klicks: Man erstellt ein neues Prognoseblatt, allerdings mit geändertem Prognosehorizont:

In der Grafik lässt sich erkennen, wie die echten Werte des Vorjahres zur Prognose gepasst haben: Die blaue Linie ist fast immer innerhalb des Konfidenzbereichs. Das Modell hätte also gut funktioniert und ist für den live Einsatz also bereit. Man sieht allerdings auch, dass die Konfidenzbänder immer breiter werden, je weiter der Prognosehorizont voranschreitet. Das ist aber klar: die Umsätze in ferner Zukunft sind mit größerer Unsicherheit behaftet als die in naher Zukunft.

Hier spielt das Verhältnis der Datenmengen eine Rolle: Vergangenheit zu Zukunft sollte in der Größenordnung von 3 zu 1 stehen. Das heißt: aus 3 Jahren Vergangenheit kann 1 Jahr Prognose generiert werden, aber natürlich keine 30 Jahre. Zur Erinnerung: die mathematischen Modelle suchen nach Mustern im zeitlichen Verlauf der Werte, je mehr Daten also vorhanden sind, desto besser.

Hiermit ist eigentlich schon der gesamte Prognoseprozess skizziert: ausgehend von der historischen Zeitreihe wird das Modell berechnet, und das wird wiederum an der jüngsten Historie validiert, um zu entschieden, ob es für den Einsatz in der Praxis taugt. Nun noch einige Erweiterungen, wie z.B. die Time Series Decomposition, also die Zelrlegung der Zeitreihe in Trend und saisonale Schwankungen, Hier am  Beispiel der Ölpreise von 1992 bis 2010 illustriert:

Die erste Reihe sind die echten Ölpreise (observed), darunter wird sie zerlegt in einen Trend (trend) und saisonalen Schwankungen (seasonal). Die letzte Reihe (random) ist der Zufallsfehler, einfach die Abweichung zwischen dem Modell (Trend + Seasonal) und den echten Werten. Die Grafik wurde im statistical software tool „R“ erstellt, wo eine ganze Fülle an Prognosemodellen implementiert ist. Das software tool besticht ist kostenlos und v.a. durch die einfache Handhabung und grafische Aufbereitung von Prognosen:

Die Konfidenzbänder in der letzten Grafik sind sehr groß, d.h. es kann zu einem starken Preisrückgang kommen, aber auch zu einem starken Anstieg. Nun, das ist ein typisches Beispiel für ein Modell, das zu ungenau ist: Rohstoffpreise können erfahrungsgemäß nicht sehr gut vorhergesagt werden, da sie keinen klaren Mustern folgen.

Es gibt allerdings über die klassischen Modelle hinaus eine sehr einfache Technik, um einen Aufwärtstrend bzw. Abwärtstrend zu beschreiben: der Moving Average, auch Gleitendes Mittel genannt. In der folgenden Grafik ist die Währungsentwicklung des Euros gegenüber dem US-Dollar im Zeitraum von 2010 bis 2017 dargestellt. Die fein eingezeichneten bunten Linien sind die Moving Averages, nichts anderes als die Mittelwerte der letzten 50, 100 und 200 Tage. Wenn der Wechselkurs (weiße Linie) unter die Moving Averages fällt, befindet man sich in einem Abwärtstrend. Überschreitet hingegen der Wechselkurs die Moving Averages, dann geht es in einen Aufwärtstrend.

Das ist keine rocket science, oft aber ein zuverlässiger Indikator für die zukünftige Entwicklung der Fremdwährungskurse. Die Evaluierung solcher Modelle erfolgt über ein sogenanntes Backtesting, also eine historische Simulation: man startet 2010 mit 10.000 Euro und wechselt dieses Kapital in US-Dollar, sobald der Wechselkurs unter den Moving Average fällt, und umgekehrt. Sobald der Euro fällt, liegt das Kapital am USD-Konto und umgekehrt. Sie würden staunen, welche Erträge man damit erwirtschaften kann! Für ein Unternehmen kann so ein Indikator die Entscheidungsbasis liefern, wann genau die besten Wechselkurse zu erzielen sind.

Zusammenfassung

Die Zeitreihenanalyse ist ein weites Feld, v.a. was den breiten Einsatz in der Praxis betrifft. Die zum Teil komplexen mathematischen Modelle sind in Standardsoftware bereits so gut implementiert, dass Prognosen heutzutage einfach und schnell durchzuführen sind. Die Datenbasis dafür bilden historische Zeitreihen, die nun auch zu vielen Unternehmensgrößen vorhanden sind. Es lohnt sich sicher ein Blick darauf, um den Planungs- und Steuerungsprozess durch validiertes Forecasting eine Stufe höher zu heben.

0 Antworten

Hinterlassen Sie einen Kommentar

Wollen Sie an der Diskussion teilnehmen?
Wir freuen uns über Ihren Beitrag!

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.