Beschreibung Modellverfahren




Die North Atlantic Oscillation (NAO) hat einen sehr großen Einfluss auf das Wetter und die Witterung in Mitteleuropa. Die Luftdruckverhältnisse im isländischen Gebiet und Azorenraum stellen die Intensität der NAO dar. Untersuchungen ergaben, dass zwischen den Luftdruckverteilungen (genauer: den Druckanomalien gegenüber langjährigen Mittelwert) im nordatlantischen Sektor und der Temperatur Mitteleuropas in den nachfolgenden Monaten gewisse statistische Beziehungen bestehen.

Daraus entwickelte sich die Idee, die Luftdruckanomalien im nordatlantischen Raum zur langfristigen Monatsprognose anzuwenden. Da jedoch nicht immer hoch signifikante Beziehungen in jenem Sektor existieren und meteorologische Parameter global miteinander verknüpft sind (Telekonnektion), musste das Forschungsgebiet auf andere Regionen, wie dem Nordpazifik, Eurasien, Nordamerika und zuletzt sogar auf die gesamte nördliche Hemisphäre erweitert werden. Diese Untersuchungen zeigten vor allem, dass auch die meteorologischen Gegebenheiten in anderen Regionen des Erdballs einen großen Einfluss auf unsere Witterung haben und nicht vernachlässigt werden sollten.

Logo
Basierend auf dieser Grundlage wurde ein statistisches Verfahren (LRFS → Long Range Forecast System) aufgebaut, welches 2004 schrittweise automatisiert und 2013, 2015 bzw. 2019 nochmals überarbeitet wurde. Damit konnte einerseits der Beobachtungszeitraum von ursprünglich 1963 - 2000 auf 1975 - 2018 geändert und andererseits als weitere Parameter der 500hPa-Zonalindex, sowie in jüngster Zeit auch das 200 hPa-Geopotential und die Wassertemperatur als Einflussgrößen eingeführt werden. Dadurch werden die Verhältnisse in verschiedenen atmosphärischen / maritimen Schichten besser abgebildet und mögliches Prognosepotential stärker herausgefiltert. Mit der automatischen Verarbeitung war eine Steigerung der Effektivität der Prognosen verbunden und der zeitlich bisher große Aufwand wurde deutlich verringert, so dass jetzt auch Prognosen für andere Regionen problemlos möglich sind.


Verlauf der Methodik




Der Verlauf der Berechnungen des LRFS untergliedert sich in 4 Teilbereiche:


1. Korrelation der Datensätze

2. Variablenextraktion

3. Hauptkomponentenanalyse

4. PLS-Regression

Logo

1. Korrelation der Datensätze

  • Korrelation monatlicher Luftdruckdaten (Prediktoren) an jedem 5°x5°- Gitterpunkt der Nordhemisphäre mit vier klimatischen Indices (Prediktand) im atlantisch-europäischen Raum eines Folgemonats für den Untersuchungszeitraum 1975 bis 2018
  • Die zu prognostizierenden vier Indices (u.a. NAO) sollen die großräumige Zirkulation in der genannten Region gut repräsentieren und dienen als Ausgangsgröße für die weiteren Berechnungen hinsichtlich Druck- und Temperaturabweichung für Europa
  • Für die prediktorielle Druckdaten bedeutet dies zunächst ca. 592 Datensätze pro Vormonat → dieser Vorgang wird von einem Programm automatisch durchgeführt
  • Nicht berücksichtigt wurden bei der Analyse der Bereich Himalaja/Tibet (fehlerbehaftete Angaben bei der Reduktion der Daten auf Normalnull), sowie die Gebiete südlich des Äquators, da hier mögliches Vorhersagepotential für Regionen der Nordhemisphäre umstritten ist
  • Durchführung des genannten Schrittes mit den jeweils letzten 6 Monaten
  • gesamte Prozedur wird auch mit monatlichen Zonalindex- bzw. Geopotentialdaten der 500 hPa- und 200 hPa-Schicht, sowie den Wassertemperaturen der Weltmeere als Prediktoren vorgenommen


Was ist der Korrelationskoeffizient?

Der Korrelationskoeffizient (KK) ist ein Maß für die Stärke des linearen Zusammenhanges zweier Datenreihen.
Der Wert dieses Koeffizienten ist eine dimensionslose Zahl und liegt immer zwischen 1 und -1. Dabei bedeutet ein Wert von 1, dass ein perfekter linearer Zusammenhang zwischen beiden Reihen vorliegt (je größer A, desto größer B). Gleiches gilt bei -1, jedoch im umgekehrten Sinne (je größer A, desto kleiner B). Ist überhaupt kein linearer Zusammenhang zwischen den Datenreihen vorhanden, beträgt der Wert 0 (siehe Grafiken).

Der KK ist eine Maßzahl, die sich ausschließlich auf lineare Zusammenhänge bezieht. Selbst wenn der Koeffizient niedrig bis null ist, kann dennoch ein (nichtlinearer) Zusammenhang zwischen zwei Datensätzen vorhanden sein. Obwohl atmosphärische Vorgänge in der Regel nicht linear sind, eignet sich der KK dennoch um zumindest gewisse Beziehungen der Parameter untereinander aufzudecken.

Um die Güte einer Korrelation zu überprüfen, reicht die alleinige Kenntnis des KK nicht aus, da dessen Aussagewert auch vom Umfang der Datenreihen abhängig ist. Ein hoher KK bei einer geringen Anzahl von Fällen könnte auch zufälliger Natur sein und eine sogenannte Scheinkorrelation vortäuschen. Um herauszufinden, ob ein KK tatsächlich signifikant ist, d.h. ob der gefundene Zusammenhang nicht nur in der Stichprobe existiert, sondern sich auch verallgemeinern lässt, führt man einen Signifikanztest durch.


Signifikanz eines Korrelationskoeffizienten

Auf die exakte Durchführung eines Signifikanztests soll nicht weiter eingegangen werden, da hierfür standardisierende Transformationen vollzogen werden müssen, die den Rahmen jetzt sprengen würden.
Als sehr vereinfachtes Beispiel sei hier auf der rechten Seite der Auszug einer signifikanten Beziehung dargestellt. Die zweite Spalte gibt dabei die Luftdruckanomalie am Gitterpunkt 65°N 110°O (Zentral-Sibirien) im Oktober an, während Spalte drei die Temperaturabweichung des darauffolgenden Januars in Leipzig kennzeichnet. Rechts unten ist der daraus resultierende KK der Periode 1949 - 2008 eingeblendet.

Nur soviel sei gesagt: Dass dieser Betrag von  0,375 übersignifikant ist, wird dadurch nachgewiesen, dass der Koeffizient seinen mittleren Fehler bei einer Anzahl von 60 Jahren um das 2,97-fache (siehe Fehlerberechnung eines KK) übersteigt, die übliche Signifikanzgrenze aber beim Zweifachen des mittleren Fehlers liegt. Dies bedeutet, dass der betreffende Zusammenhang zu mehr als 95% physikalischer Natur ist und somit nicht als rein zufällige Erscheinung gedeutet werden darf. Oder anders ausgedrückt: Mit einer Wahrscheinlichkeit von mehr 95% wird das Vorzeichen dieser Korrelation ( - ) auch in einem anderen Zeitraum mit dem hiesigen identisch sein. Für europäische Verhältnisse ist der gezeigte Betrag bereits ein recht hoher Wert, in den Tropen hingegen sind weitaus höhere Koeffizienten nicht ungewöhnlich.

Es ist von großer Bedeutung, dass lediglich solche Variablen als Prediktoren herangezogen werden, die einen bestimmten KK-Betrag überschreiten, da nur jene einen Informationsgehalt besitzen, die für eine Prognose dienlich sein können.


2. Variablenextraktion

  • Extraktion sämtlicher Druck-Prediktoren, die mit den Prediktanden um mindestens |0.30| korrelieren (willkürliche Festlegung), was immerhin einer Erfüllung des 95%-Signifikanz-Levels im definierten Zeitraum entspricht
  • Extraktion der Prediktoren für den 500 hPa-Zonalindex, das 200 hPa-Geopotential und der Wassertemperatur unter identischen Bedingungen
  • Speicherung der extrahierten Prediktoren in einer Datei zur weiteren Bearbeitung → auch hier programmgesteuerte Durchführung


3. Hauptkomponentenanalyse

  • Durchführung einer Hauptkomponentenanalyse (PCA) für jeden der 6 Vormonate - dabei werden die Informationen aus einer Vielzahl von extrahierten Variablen (Prediktoren) komprimiert und in Form neuer und deutlich weniger Variablen - den Hauptkomponenten - ausgedrückt
  • Überbetonung eines zusammengehörigen Variablenkomplexes wird hierdurch vermieden
  • starke Beeinflussung von nur einzelnen, ursprünglichen Variablen auf die Berechnung (Instabilität) wird unterdrückt
  • Informationsgehalt der ursprünglichen Variablen bleibt überwiegend erhalten
  • entstandene 1. Hauptkomponente korreliert i.d.R. wesentlich stärker mit der Zielgröße als die Ausgangsvariablen → Vorhersagepotential


4. PLS - Regression / Multivariate Regression

  • konstruierte Hauptkomponenten werden wiederum als Prediktoren für ein Regressionsmodell verwendet
  • PLS-Regression (Partial Least Squares) hat sich unter den Regressionstechniken als die Überlegenste erwiesen
  • Auswertung ist so angelegt, dass jeweils eine Hauptkomponente pro Vormonat gebildet wird, die mit den Prediktanden hoch korreliert
  • Hauptkomponenten werden vollzählig ins Regressionsmodell aufgenommen
  • Anzahl der für jede Prognose verwendeten Hauptkomponenten ist somit einheitlich
  • Ermittlung der zugehörigen Koeffizienten über das PLS-Regressionsmodell
  • Berechnung der Indices-Anomailen mittels Regressionskoeffizienten
  • Indices dienen nun als Vorlage für die Prognose der Druck -und Temperaturverteilung des jeweiligen Monats
  • Berechnung erfolgt hierbei für jeden Gitterpunkt im Abstand 5°x5° mittles multivariater Regression
  • Einteilung der Prognosen für Deutschland in Klassen als letzter Schritt
  • im Falle der Temperatur in die Klassen "sehr kalt", "kalt", "normal, "mild" und "sehr mild"
  • für den Niederschlag in die drei Klassen "trocken", "normal" und "nass"


Die Modellgleichung des Regressionmodells der PLS ist gegeben als: 

 

Th / C'h.....durch PLS erzeugte Matrizen mit Koeefizienten
X.............Matrix der Prediktoren

Eh............Matrix der Residuen


Eine weitere Abhandlung des beschriebenen Verfahrens ist als pdf-Datei abrufbar (aktualisiert).


Vor- und Nachteile




  liefert nachweißlich mit eine der stabilsten und günstigsten Werte im Bereich Langfristprognose
  weiter ausbaufähig durch Hinzuziehen anderer Parameter, z.B. Eis- und Schneebedeckungsgrad, stratosphärischen Parametern usw.
  durch primäre Prognose der Indices sind Vorhersagen für größere Areale möglich 
  Prognosen klar definiert und dadurch problemlos verifizierbar
  aus Art der prognostizierten Klasse lassen sich andere Größen, wie z. B. Anzahl der Sommer- oder Frosttage berechnen

  größerer Arbeitsaufwand für die Prognose anderer Regionen
  homogene, langjährige Datenreihen sind für ein Prognosegebiet notwendig
  Signifikanzgebiete physikalisch oftmals nicht erklärbar → daher Scheinkorrelationen (unechte Zusammenhänge) nicht auszuschließen
  eventuelle Instabilität bei den Prognosen d.h. Änderungen einer Prognose im Verlauf der Monate nicht selten → wird durch die
        Hauptkomponentenanalyse aber soweit wie möglich reduziert

Für weitere Fragen steht Ihnen der Autor per Mail oder Formular gern zur Verfügung.


Name:                 

E-Mail Adresse:  

Anliegen:



© by Lars Thieme and Langfristwetter.com