Predictive Analytics im Risikomanagement

Daten als Rohstoff für den Erkenntnisprozess

Zukunftsprognosen sind so alt wie die Menschheit und haben bis heute nichts von ihrer Faszination verloren. Wenn in der Antike die Römer, Griechen, Chinesen oder Ägypter eine Vorhersage über mögliche Ereignisse von Morgen suchten, berieten sie sich nicht mit ihrem Risikomanager, sondern wandten sich an ihre Orakel. Die modernen Orakel unserer digitalen und vernetzten Zeit heißen Big Data, Datenanalyse und Predictive Analytics. Helfen uns diese Werkzeuge, in einem Heuhaufen aus unstrukturierten Daten relevante Stecknadeln – etwa zukünftige Risiken – zu finden?

Von modernen Orakeln und dem Öl der Zukunft

Es wird berichtet, dass Krösus, der letzte König von Lydien (geboren um 591/590 vor Christus, gestorben um 541 vor Christus), ein großer Anhänger der transzendenten Offenbarung der Orakelstätten war, um so Unterstützung bei der Beantwortung von Zukunfts- oder Entscheidungsfragen zu erhalten. Krösus überließ hierbei nichts dem Zufall, sondern unterzog die damals bekannten Orakelstätten (Abai, Delphi, Dodona, Amphiaraos, Ammon) einem Qualitätstest. Die von ihm ausgesandten Boten stellten genau am hundertsten Tag nach ihrer Abreise die Frage, womit sich Krösus gerade beschäftigt. Nur die Pythia zu Delphi lieferte die richtige Antwort: Krösus bereite sich gerade eine Schildkröte und Lammfleisch in einem Kessel zu. Der eigentliche Hintergrund der Prüfung lag für den Lyderkönig in einer strategischen Frage: Wie hoch war die Wahrscheinlichkeit eines Sieges für den Fall eines Krieges gegen das Perserreich. Die Pythia orakelte, ein großes Reich werde versinken, wenn Krösus den Grenzfluss Halys überquere. Diese Prophezeiung soll der Lyderkönig in einem für ihn positiven Sinn aufgefasst haben und zog wohlgemut in den Krieg.1 In der heutigen Zeit würde Krösus wohl kaum ein Orakel befragen, sondern seinen Risikomanager oder Datenanalysten um Rat fragen. Der Hintergrund: Die modernen Orakel unserer digitalen und vernetzten Zeit heißen Big Data, Datenanalyse, Predictive Analytics und Prescriptive Analytics. Datensammler wie Google und Amazon vermessen die Welt, erstellen Persönlichkeitsprofile und durchforsten blitzschnell riesige Datenmengen auf Muster und Korrelationen, um Voraussagen in Echtzeit zu ermöglichen. Die neuen Methoden zur Datenanalyse versprechen einen gezielten Blick in die Kristallkugel. Davon erhoffen sich Staaten, Forschungseinrichtungen und Wirtschaftsunternehmen exakte Prognosen zukünftiger Entwicklungen, um die Risiken des eigenen Tuns zu minimieren und Chancen des zukünftigen Handelns besser einschätzen zu können. Insgesamt surfen rund 3,2 Mrd Menschen im Internet und hinterlassen permanent Daten über ihre Mobiltelefone, Fitnessbänder, smarte Uhren, vernetzte Navigationsgeräte und Autos. Provokant könnte man formulieren, dass Online-Versandhändler, Marketing-und Verkaufsstrategen sowie staatliche Stellen unsere geheimen Wünsche besser kennen als wir selbst. So lassen sich aus Twitter-Nachrichten politische Einstellungen ableiten. Aus Daten und Algorithmen lassen sich potenzielle Straftaten antizipieren, bevor sie überhaupt geplant oder begangen wurden.2 Mit Unterstützung von Predictive Analytics hat der Streaming-Dienst Netflix ziemlich treffsicher prognostiziert, wie die richtige Mischung aus Drama, Witz und Liebe in einer Geschichte aussehen muss, damit ein Film erfolgreich ist. Die Grundlage hierfür bildeten die Daten über das Zuschauerverhalten. Bereits seit einiger Zeit schätzen Kreditinstitute mithilfe eines Kredit-Scorings das Risiko ab, mit dem eine Person oder ein Unternehmen die zukünftigen Ratenzahlungen eines Kredits nicht leisten könne. Auch Erst- und Rückversicherungen prognostizieren über Data Mining und Predictive Analytics zukünftige Schäden. Und der Datentsunami nimmt weiter zu und damit auch die Möglichkeiten, hieraus Muster abzuleiten. Möglicherweise werden wir schon bald erkennen, dass Milliarden von Informationen unterschiedlicher Qualität sinnvoller sind als wenige, dafür aber akkurate Daten.

Experten schätzen, dass das weltweite Datenvolumen von heute rund 9.000 Exabyte bis zum Jahr 2020 auf 40.000 Exabyte ansteigen wird. Ein Exabyte steht dabei für eine Trillion (1.018) Bytes, eine Milliarde Gigabyte, eine Million Terabyte, tausend Petabyte. Das Datenvolumen soll in den kommenden fünf Jahren um 800 % zunehmen und gleichzeitig sind 90 % der heute verfügbaren Daten weniger als zwei Jahre alt. Da wundert es nicht, dass Daten als das neue Öl, Gold oder gar die Diamanten unserer Zeit beschrieben werden.

Wie aus Korrelationen Prognosen werden

Einen Mehrwert aus den Exabytes an Daten wird erst dann generiert, wenn daraus neue Erkenntnisse abgeleitet oder Entscheidungsprozess optimiert werden. In diesem Kontext sind Datenanalysten davon überzeugt, dass Predictive Analytics einer der wichtigsten Big-Data-Trends ist, insbesondere im Bereich des Risikomanagements. Eine gute Orientierung liefert hierbei das Analytics-Reifegradmodell von Gartner. Hierbei werden vier Reifegradstufen

unterschieden (vgl Abb 1).

Bei Descriptive Analytics geht es um die Frage „Was ist passiert?“, dh eine Analyse von Daten aus der Vergangenheit, um potenzielle Auswirkungen auf die Gegenwart zu verstehen (siehe Business Intelligence).
Bei Diagnostic Analytics geht es um die Frage „Warum ist etwas passiert?“, dh eine Analyse der Ursache-Wirkungs-Beziehungen, Wechselwirkungen oder Folgen von Ereignissen (siehe Business Analytics).
Bei Predictive Analytics geht es um die Frage „Was wird passieren?“, dh eine Analyse potenzieller Zukunftsszenarien sowie eine Generierung von Frühwarninformationen.

Basierend auf Technologien des Data Minings, statistischer Methoden und Operations-Research erfolgt eine Berechnung von Wahrscheinlichkeiten zukünftiger Ereignisse.

Bei Prescriptive Analytics geht es um die Frage „Wie müssen wir handeln, damit ein zukünftiges Ereignis (nicht) eintritt?“, dh im Kern werden – basierend auf den Ergebnissen von Predictive Analytics – Maßnahmen simuliert, etwa basierend auf stochastischen Szenarioanalysen sowie Sensitivitätsanalysen.

Die Internet-Suchmaschine Google hat mit Google Flu Trends bereits im Jahr 2008 gezeigt, wie mithilfe von Algorithmen und Big Data die jährlichen Grippewellen besser prognostiziert werden können. Die Idee von Google war, die Suchanfragen seiner Nutzer zu analysieren und hieraus Frühwarninformationen für eine Grippewelle abzuleiten. Der Datenanalysten von Google verglichen über einen fünfjährigen Zeitraum die 50 Mio am häufigsten von US-Bürgern eingegebenen Suchbegriffe mit den realen Krankheitsdaten, wie sie von der Seuchenschutzbehörde Centers for Disease Control and Prevention (CDC) archiviert werden. Die Google-Analysten fanden aus 50 Mio Suchbegriffen und 450 Mio Begriffskombinationen 45 Begriffe, die stark mit dem Auftreten einer Grippe korrelierten. Anfangs präsentierte Google Flu Trends sehr gute Prognosen. Im Jahr 2013 prognostizierte das Unternehmen jedoch doppelt so viele Fälle, wie tatsächlich auftraten. Auch die Pandemie H1N1 2009/10 (Schweinegrippe) wurde von Google nicht als Szenario erkannt. Die Gründe hierfür sind vielfältig: Erstens schlossen die Datenanalysten aus historischen Korrelationen auf zukünftige Veränderungen. Diese gemessene Korrelation muss jedoch nicht für die Zukunft gelten. Wird beispielsweise viel über Grippeepidemien berichtet, suchen die Nutzer auch verstärkt nach Informationen im Netz. Ein weiterer Grund lag darin, dass Epidemiologen eine Grippe anderes definierten als der Laie, der vielleicht nur eine leichte Erkältung hat und im Netz aber nach „Grippe“ sucht. Kurzum: Die zugrunde liegenden Daten waren unscharf und lieferten daher auch fehlerhafte Prognosen.

Frühwarnung mit Predictive Analytics

Parallel zum Datentsunami steigen die Anforderungen, die dahinter liegenden Logiken, Gesetzmäßigkeiten und Ursache-Wirkungs-Beziehungen zu verstehen und korrekt zu interpretieren. Klaus Mainzer, deutscher Philosoph und Wissenschaftstheoretiker, weist in seinem Buch „Die Berechnung der Welt“ darauf hin, dass Isaac Newton die Idee des Schwerkraftgesetzes nicht kam, weil er unentwegt Äpfel von Bäumen fallen ließ.4 Mit anderen Worten: Zu Bits und Bytes muss die Fähigkeit kommen, die anfallenden Daten nicht nur auszuwerten, sondern auch zu interpretieren. Und exakt hier scheitern viele Experten in der Praxis. Denn die Tatsache, dass ein Muster existiert, setzt voraus, dass dieses in der Vergangenheit entstanden ist. Dies wiederum heißt nicht zwangsläufig, dass eine Schlussfolgerung aufgrund dieses Musters auch für die Zukunft Gültigkeit besitzt (siehe Google Flu Trends). Risikomanager und auch Big-Data-Analysten tappen nicht selten in die Falle, wenn sie den Unterschied zwischen Korrelationen und Kausalitäten (Cum hoc ergo propter hoc) nicht auf dem Radar haben und in der Konsequenz Informationen falsch interpretieren und die falschen Schlussfolgerungen ziehen. Denn eine mathematisch berechnete Korrelation zwischen zwei Variablen – die nur lineare Abhängigkeiten messen kann – bedeutet nicht, dass die beiden Variablen kausal miteinander zusammenhängen. Dies wird auch als Scheinkorrelation („spurious relationship“) bezeichnet. Der Klassiker: Zwischen der Storchenpopulation und der Geburtenrate kann statistisch eine hohe Korrelation berechnet werden. Grundsätzlich könnte es sich (theoretisch) bei der Beziehung der beiden Variablen um eine Ursache-Wirkungs-Beziehung handeln. Variable A kann Ursache von B sein, oder B kann Ursache von A sein. Möglich ist aber auch, dass keines von beidem Ursache von rgendwas ist. Stattdessen existiert möglicherweise eine dritte Variable, die A und B beeinflusst hat. Dies ist in dem konkreten Beispiel die Industrialisierung, die sowohl zu einem Absinken der Geburtenrate als auch zu einer verringerten Storchenpopulation geführt hat. Nicht selten werden die sogenannten konfundierenden Variablen (also die gemeinsame Ursachen der untersuchten Variablen) nicht berücksichtigt. In großen Datensätzen mit vielen Faktoren können recht einfach zufällige Korrelation abgeleitet werden. Das bedeutet aber nicht, dass zwischen den Faktoren auch ein kausaler Zusammenhang existiert. Big-Data-Protagonisten erwidern, dass in der Welt von Big Data die Korrelation die Kausalität ersetzt. Big-Data-Methoden erweisen sich vor allem bei Fragestellungen erfolgreich, die sich aufgrund extrem hoher Komplexität nicht mehr durch einfache Gesetze beschreiben lassen. Folgt man dieser Argumentation, dann geht es bei Big Data und Predictive Analytics gar nicht um große Datenmengen, sondern um eine Veränderung des Denkansatzes zur Gewinnung von Erkenntnissen. Übertragen auf die Gravitationsgesetze: Newton suchte die Ursache für das Fallen des Apfels. In der Welt von Big Data spielt die Kausalität keine Rolle – sie erklärt damit im besten Fall, was passiert, nicht aber warum. Somit kann Big Data helfen, „die Stecknadel der Erkenntnis im Heuhaufen der Daten für die Ursachenforschung zu finden“.

Somit sollten wir auf dem Radar haben, dass Entwicklungen und Gesetzmäßigkeiten der Vergangenheit nicht einfach in die Zukunft fortgeschrieben werden. Für Unternehmen heißt das: Die eingesetzten Analysetechniken mit Maß, Intelligenz, Ziel und Sorgfalt zu verfolgen. Am Ende kommt es nicht auf die Masse der Daten und Algorithmen an, sondern auf die sinnstiftende Verknüpfung.

Hoffnungen und viele offene Fragen

Mit Big Data wird die Hoffnung verknüpft, dass wir zukünftig die Welt besser verstehen und beispielsweise die Treiber für Risikoeintritte über schwache Signale rechtzeitig erkennen und gegensteuern können. Dahinter liegt die Erwartung, dass eine Zunahme der Quantität an Daten auch zu einer neuen Qualität führt. Denn wir müssen uns nicht auf Stichproben konzentrieren, die immer nur einen kleinen Teil der Wahrheit abbilden werden, um unsere zuvor definierten Hypothesen zu falsifizieren oder zu bestätigen. In der neuen Datenwelt können wir uns von der Datenflut inspirieren lassen, um völlig neue Hypothesen zu analysieren oder Fragen zu stellen, von denen wir in der Vergangenheit gar nicht gedacht hatten, dass wir sie stellen sollten. Risikomanager erkennen möglicherweise Muster, die schwache Signale und Frühwarninformationen für Risiken darstellen (etwa im Bereich Geopolitik oder Rohstoffpreise), die sie zuvor in einfachen Ursache-Wirkungs-Kausalmustern nicht kannten. Im Kern geht es bei Predictive Analytics um die Vorhersage der Zukunft aus Daten der Gegenwart und der Vergangenheit mit Mitteln der Wahrscheinlichkeitsrechnung. Und wenn man ein wenig Licht in die dunklen Seitengänge einer für uns unbekannten Zukunft bringt, so macht man Zukunft vorhersehbarer und reduziert Überraschungen und damit auch Risiken. Soweit die Hoffnungen. Analog zu den Orakeln im Altertum ist auch in der heutigen Datenwelt von Predictive Analytics eine korrekte Interpretation der Ergebnisse wichtig, denn Big Data läutet zunächst einmal das Ende des Ursachen-Monopols ein. Das ist für Risikomanager und auch andere Entscheider nur schwer zu verstehen, weil wir in der Regel immer nach Ursachen (Stromausfall für die Betriebsunterbrechung oder die schlechte Bonität für den Kreditausfall) oder Wirkungen (Reputationsverlust nach Betriebsunterbrechung oder Schadensersatzzahlung nach Insolvenz) suchen. Die Big-Data-Analyse ermöglicht eine alternative Analyse von komplexen Datenbeständen. Doch kommen wir zurück zu Krösus: Er überquerte nach der Weissagung des Orakels den Grenzfluss Halys und fiel in Kappadokien ein. Die militärische Auseinandersetzung zwischen dem Perserkönig Kyros II. und Krösus wurde in der Schlacht bei Pteria beendet – zu Ungunsten von Krösus. Was er nicht geahnt hatte: Durch den Krieg zerstörte er schließlich nicht das große Reich seines Gegners, sondern sein eigenes. Damals wie heute gilt: Wenn die Zusammenhänge und Hypothesen (die möglicherweise auch aus Predictive Analytics neu generiert werden) nicht verstanden werden, bleiben die Muster und Korrelationen von Big Data weitgehend zufällig. Wir sollten uns davor hüten, in jeder statistischen Korrelation sofort eine Kausalität zu identifizieren. Basierend auf Immanuel Kants „Kritik der Urteilskraft“ existieren eine bestimmende und eine reflektierende Urteilskraft. Die bestimmende Urteilskraft subsumiert etwas Besonderes unter ein gegebenes Gesetz bzw eine Regel, während die reflektierende zum gegebenen Besonderen das Allgemeine finden soll. Übertragen auf die Welt von Big Data und Predictive Analytics bedeutet das, dass wir die massive Datenflut mit Theorien und Gesetzen verknüpfen müssen.

Auf den Punkt gebracht

Wir müssen uns als Menschen und Gesellschaft mit der Frage beschäftigen, wie viel (vermeintliche) Sicherheit und Vorhersehbarkeit auf der einen Seite sowie Freiheit und Risiko auf der anderen Seite gewünscht ist. Sprich, zwischen „auf der Bremse stehen“ und permanent die Überholspur nutzen gibt es viele Analyse-Geschwindigkeiten. Diese gilt es auszuloten. Eine wichtige Kernfrage in diesem Zusammenhang: Wollen wir uns einer Diktatur der Daten ausliefern und in einer Welt leben, in der Big Data mehr über unsere Risiken, unsere Vergangenheit, Gegenwart und Zukunft weiß, als wir uns selbst daran erinnern können? In diesem Kontext führen vor allem auch der Missbrauch von Big-Data-Korrelationen und die Konzentration in Datenmonopolen zu gesamtgesellschaftlich und individuell negativen Folgen. Diese Schattenseiten von Big Data sollten zu transparenten und verbindlichen Regeln sowie zu einer breiten Diskussion über die Chancen und Grenzen der neuen schönen Datenwelt führen. Gerade auch im Risikomanagement!

Ähnliche Beiträge

Dein Kommentar

Schreiben Sie einen Kommentar Antworten abbrechen

Links

Rechtliches

Kontakt