Beschreibung Modellverfahren




Die North Atlantic Oscillation (NAO) hat einen sehr großen Einfluss auf das Wetter und die Witterung in Mitteleuropa. Die Luftdruckverhältnisse im isländischen Gebiet und Azorenraum stellen die Intensität der NAO dar. Untersuchungen ergaben, dass zwischen den Luftdruckverteilungen (genauer: den Druckanomalien gegenüber langjährigen Mittelwert) im nordatlantischen Sektor und der Temperatur Mitteleuropas in den nachfolgenden Monaten gewisse statistische Beziehungen bestehen.

Daraus entwickelte sich die Idee, die Luftdruckanomalien im nordatlantischen Raum zur langfristigen Monatsprognose anzuwenden. Da jedoch nicht immer hoch signifikante Beziehungen in jenem Sektor existieren und meteorologische Parameter global miteinander verknüpft sind (Telekonnektion), musste das Forschungsgebiet auf andere Regionen, wie dem Nordpazifik, Eurasien, Nordamerika und zuletzt sogar auf die gesamte nördliche Hemisphäre erweitert werden. Diese Untersuchungen zeigten vor allem, dass auch die meteorologischen Gegebenheiten in anderen Regionen des Erdballs einen großen Einfluss auf unsere Witterung haben und nicht vernachlässigt werden sollten.

Logo
Basierend auf dieser Grundlage wurde ein statistisches Verfahren (LRFS → Long Range Forecast System) aufgebaut, welches 2004 schrittweise automatisiert und 2013 bzw. 2015 nochmals überarbeitet wurde. Damit konnte einerseits der Beobachtungszeitraum von ursprünglich 1961 - 2000 auf 1963 - 2013 erweitert und andererseits als weitere Parameter der 500hPa-Zonalindex, sowie in jüngster Zeit auch das 200 hPa-Geopotential als Einflussgröße eingeführt werden. Dadurch werden die Verhältnisse in verschiedenen atmosphärischen Schichten besser abgebildet und mögliches Prognosepotential stärker herausgefiltert. Mit der automatischen Verarbeitung war eine Steigerung der Effektivität der Prognosen verbunden und der zeitlich bisher große Aufwand wurde deutlich verringert, so dass jetzt auch Prognosen für andere Regionen problemlos möglich sind.


Verlauf der Methodik




Der Verlauf der Berechnungen des LRFS untergliedert sich in 4 Teilbereiche:


1. Korrelation der Datensätze

2. Variablenextraktion

3. Hauptkomponentenanalyse

4. Multiple Regression / Logistische Regression

Logo

1. Korrelation der Datensätze

  • Korrelation monatlicher Luftdruckdaten (Prediktoren) an jedem 5°x5°- Gitterpunkt der Nordhemisphäre mit der Temperatur (Prediktand) in Mitteleuropa eines Folgemonats im Untersuchungszeitraum 1963 bis 2013
  • Für die Druckdaten bedeutet dies ca. 592 Datensätze (potentielle Prediktoren) pro Vormonat → dieser Vorgang wird von einem Programm automatisch durchgeführt
  • Nicht berücksichtigt wurden bei der Analyse der Bereich Himalaja/Tibet (fehlerbehaftete Angaben bei der Reduktion der Daten auf Normalnull), sowie die Gebiete südlich des Äquators, da hier mögliches Vorhersagepotential für Regionen der Nordhemisphäre umstritten ist
  • Durchführung des genannten Schrittes mit den jeweils letzten 6 Monaten
  • gesamte Prozedur wird auch mit monatlichen Zonalindex- bzw. Geopotentialdaten der 500 hPa- und 200 hPa-Schicht als Prediktoren vorgenommen


Was ist der Korrelationskoeffizient?

Der Korrelationskoeffizient (KK) ist ein Maß für die Stärke des linearen Zusammenhanges zweier Datenreihen.
Der Wert dieses Koeffizienten ist eine dimensionslose Zahl und liegt immer zwischen 1 und -1. Dabei bedeutet ein Wert von 1, dass ein perfekter linearer Zusammenhang zwischen beiden Reihen vorliegt (je größer A, desto größer B). Gleiches gilt bei -1, jedoch im umgekehrten Sinne (je größer A, desto kleiner B). Ist überhaupt kein linearer Zusammenhang zwischen den Datenreihen vorhanden, beträgt der Wert 0 (siehe Grafiken).

Der KK ist eine Maßzahl, die sich ausschließlich auf lineare Zusammenhänge bezieht. Selbst wenn der Koeffizient niedrig bis null ist, kann dennoch ein (nichtlinearer) Zusammenhang zwischen zwei Datensätzen vorhanden sein. Obwohl atmosphärische Vorgänge in der Regel nicht linear sind, eignet sich der KK dennoch um zumindest gewisse Beziehungen der Parameter untereinander aufzudecken.

Um die Güte einer Korrelation zu überprüfen, reicht die alleinige Kenntnis des KK nicht aus, da dessen Aussagewert auch vom Umfang der Datenreihen abhängig ist. Ein hoher KK bei einer geringen Anzahl von Fällen könnte auch zufälliger Natur sein und eine sogenannte Scheinkorrelation vortäuschen. Um herauszufinden, ob ein KK tatsächlich signifikant ist, d.h. ob der gefundene Zusammenhang nicht nur in der Stichprobe existiert, sondern sich auch verallgemeinern lässt, führt man einen Signifikanztest durch.


Signifikanz eines Korrelationskoeffizienten

Auf die exakte Durchführung eines Signifikanztests soll nicht weiter eingegangen werden, da hierfür standardisierende Transformationen vollzogen werden müssen, die den Rahmen jetzt sprengen würden.
Als sehr vereinfachtes Beispiel sei hier auf der rechten Seite der Auszug einer signifikanten Beziehung dargestellt. Die zweite Spalte gibt dabei die Luftdruckanomalie am Gitterpunkt 65°N 110°O (Zentral-Sibirien) im Oktober an, während Spalte drei die Temperaturabweichung des darauffolgenden Januars in Leipzig kennzeichnet. Rechts unten ist der daraus resultierende KK der Periode 1949 - 2008 eingeblendet.

Nur soviel sei gesagt: Dass dieser Betrag von  0,375 übersignifikant ist, wird dadurch nachgewiesen, dass der Koeffizient seinen mittleren Fehler bei einer Anzahl von 60 Jahren um das 2,97-fache (siehe Fehlerberechnung eines KK) übersteigt, die übliche Signifikanzgrenze aber beim Zweifachen des mittleren Fehlers liegt. Dies bedeutet, dass der betreffende Zusammenhang zu mehr als 95% physikalischer Natur ist und somit nicht als rein zufällige Erscheinung gedeutet werden darf. Oder anders ausgedrückt: Mit einer Wahrscheinlichkeit von mehr 95% wird das Vorzeichen dieser Korrelation ( - ) auch in einem anderen Zeitraum mit dem hiesigen identisch sein. Für europäische Verhältnisse ist der gezeigte Betrag bereits ein recht hoher Wert, in den Tropen hingegen sind weitaus höhere Koeffizienten nicht ungewöhnlich.

Es ist von großer Bedeutung, dass lediglich solche Variablen als Prediktoren herangezogen werden, die einen bestimmten KK-Betrag überschreiten, da nur jene einen Informationsgehalt besitzen, die für eine Prognose dienlich sein können.


2. Variablenextraktion

  • Extraktion sämtlicher Druck-Prediktoren, die mit dem Prediktanden um mindestens |0.285| korrelieren (willkürliche Festlegung), was immerhin einer Erfüllung des 95%-Signifikanz-Levels im definierten Zeitraum entspricht
  • Extraktion der Prediktoren für den 500 hPa-Zonalindex und das 200 hPa-Geopotential unter identischen Bedingungen
  • Speicherung der extrahierten Prediktoren in einer Datei zur weiteren Bearbeitung → auch hier programmgesteuerte Durchführung


3. Hauptkomponentenanalyse

  • Durchführung einer Hauptkomponentenanalyse (PCA) für jeden der 6 Vormonate - dabei werden die Informationen aus einer Vielzahl von extrahierten Variablen (Prediktoren) komprimiert und in Form neuer und deutlich weniger Variablen - den Hauptkomponenten - ausgedrückt
  • Überbetonung eines zusammengehörigen Variablenkomplexes wird dadurch vermieden
  • starke Beeinflussung von nur einzelnen, ursprünglichen Variablen auf die Berechnung (Instabilität) wird unterdrückt
  • Informationsgehalt der ursprünglichen Variablen bleibt überwiegend erhalten
  • entstandene 1. Hauptkomponente korreliert i.d.R. wesentlich stärker mit der Zielgröße als die Ausgangsvariablen → Vorhersagepotential


4. Multiple Regression / Logistische Regression

  • konstruierte Hauptkomponenten werden als Prediktoren für das Regressionsmodell verwendet
  • Prediktand wird in Gruppen klassiert; im Falle der Temperatur in die Klassen "sehr kalt", "kalt", "normal, "mild" und "sehr mild"
  • Auswertung ist so angelegt, dass jeweils eine Hauptkomponente pro Vormonat gebildet wird, die mit dem unklassierten Prediktanden hoch korreliert
  • Hauptkomponenten werden vollzählig ins Regressionsmodell aufgenommen
  • Anzahl der für jede Prognose verwendeten Hauptkomponenten ist somit einheitlich
  • Ermittlung der zugehörigen Koeffizienten über ein logistisches Regressionsmodell
  • Berechnung der wahrscheinlichsten Klasse über die Regression mittels Koeffizienten
  • für die Ermittlung der Niederschlagsprognose wird analog verfahren, allerdings mit nur drei Klassen ("trocken", "normal" und "nass")
  • Berechnung der Wahrscheinlichkeit der übrigen Klassen
  • zur endgültigen Prognose wird eine Kombinationstechnik aus mehreren Berechnungen mit unterschiedlichen Eingangsparametern angewandt, um eine Prognosestabilität über längere Zeiträume zu gewährleisten, was jedoch nicht immer gelingt


Anmerkung: Das logistische Regressionsverfahren hat das Modell der linearen Regression ersetzt, mit dem frühere Prognosen erstellt wurden.

Die wahrscheinlichste Klasse des betreffenden Parameters wird über ein Statistikprogramm berechnet und ergibt sich aus folgender Formel: 

logit (p) = β0+ β1 *X1 +...+ βn*Xn + uk

β0.......Konstante
X........Beobachtungsdaten der Hauptkomponente

uk.......Fehlerterm


Eine weitere Abhandlung des beschriebenen Verfahrens ist als pdf-Datei abrufbar (noch im Aufbau).


Vor- und Nachteile




  liefert nachweißlich mit eine der stabilsten und günstigsten Werte im Bereich Langfristprognose
  weiter ausbaufähig durch Hinzuziehen anderer Parameter, z.B. Meerestemperaturen, Eis- und Schneebedeckungsgrad usw.
  zumindest teilweise unabhängig von vorgegebener Linearität der Statistik, da logistisches Wahrscheinlichkeitsmodell
  Prognosen klar definiert und dadurch problemlos verifizierbar
  aus Art der prognostizierten Klasse lassen sich andere Größen, wie z. B. Anzahl der Sommer- oder Frosttage berechnen

  größerer Arbeitsaufwand für die Prognose anderer Regionen
  homogene, langjährige Datenreihen sind für ein Prognosegebiet notwendig
  Signifikanzgebiete physikalisch oftmals nicht erklärbar → daher Scheinkorrelationen (unechte Zusammenhänge) nicht auszuschließen
  eventuelle Instabilität bei den Prognosen d.h. Änderungen einer Prognose im Verlauf der Monate nicht selten → wird durch die
        Hauptkomponentenanalyse aber soweit wie möglich reduziert

Für weitere Fragen steht Ihnen der Autor per Mail oder Formular gern zur Verfügung.


Name:                 

E-Mail Adresse:  

Anliegen:



© by Lars Thieme and Langfristwetter.com