Die North Atlantic Oscillation
(NAO) hat einen sehr großen Einfluss auf das Wetter
und die Witterung in Mitteleuropa. Die
Luftdruckverhältnisse im isländischen Gebiet und
Azorenraum stellen die Intensität der NAO dar.
Untersuchungen ergaben, dass zwischen den
Luftdruckverteilungen (genauer: den Druckanomalien
gegenüber langjährigen Mittelwert) im
nordatlantischen Sektor und der Temperatur
Mitteleuropas in den nachfolgenden Monaten gewisse
statistische Beziehungen bestehen.
Daraus entwickelte sich die Idee, die
Luftdruckanomalien im nordatlantischen Raum zur
langfristigen Monatsprognose anzuwenden. Da jedoch
nicht immer hoch signifikante Beziehungen in jenem
Sektor existieren und meteorologische Parameter
global miteinander verknüpft sind (Telekonnektion),
musste das Forschungsgebiet auf andere Regionen, wie
dem Nordpazifik, Eurasien, Nordamerika und zuletzt
sogar auf die gesamte nördliche Hemisphäre erweitert
werden. Diese Untersuchungen zeigten vor allem, dass
auch die meteorologischen Gegebenheiten in anderen
Regionen des Erdballs einen großen Einfluss auf
unsere Witterung haben und nicht vernachlässigt
werden sollten.
Basierend auf dieser Grundlage
wurde ein statistisches Verfahren (LRFS → Long Range
Forecast System) aufgebaut, welches 2004
schrittweise automatisiert und 2013, 2015 bzw. 2019
nochmals überarbeitet wurde. Damit konnte einerseits
der Beobachtungszeitraum von ursprünglich 1963 -
2000 auf 1975 - 2018 geändert und andererseits als
weitere Parameter der 500hPa-Zonalindex, sowie in
jüngster Zeit auch das 200 hPa-Geopotential und die
Wassertemperatur als
Einflussgrößen eingeführt werden. Dadurch werden die
Verhältnisse in verschiedenen atmosphärischen
/ maritimen Schichten besser abgebildet und mögliches
Prognosepotential stärker herausgefiltert. Mit der
automatischen Verarbeitung war eine Steigerung der
Effektivität der Prognosen verbunden und der
zeitlich bisher große Aufwand wurde deutlich
verringert, so dass jetzt auch Prognosen für andere
Regionen problemlos möglich sind.
Verlauf der Methodik
Der Verlauf der Berechnungen
des LRFS untergliedert sich in 4 Teilbereiche:
1. Korrelation der Datensätze
2. Variablenextraktion
3. Hauptkomponentenanalyse
4. PLS-Regression
1. Korrelation der
Datensätze
Korrelation monatlicher Luftdruckdaten (Prediktoren)
an jedem 5°x5°- Gitterpunkt der Nordhemisphäre mit
vier klimatischen Indices (Prediktand) im
atlantisch-europäischen Raum eines
Folgemonats für den Untersuchungszeitraum 1975 bis
2018
Die zu prognostizierenden vier Indices (u.a. NAO) sollen die großräumige Zirkulation in der genannten Region gut repräsentieren
und dienen als Ausgangsgröße für die weiteren Berechnungen
hinsichtlich Druck- und Temperaturabweichung für Europa
Für die prediktorielle Druckdaten bedeutet dies zunächst ca. 592 Datensätze pro Vormonat → dieser Vorgang wird von einem Programm
automatisch durchgeführt
Nicht berücksichtigt wurden bei der
Analyse der Bereich Himalaja/Tibet (fehlerbehaftete Angaben bei der
Reduktion der Daten auf Normalnull), sowie die Gebiete südlich des
Äquators, da hier mögliches Vorhersagepotential für Regionen der
Nordhemisphäre umstritten ist
Durchführung des genannten Schrittes mit den
jeweils letzten 6 Monaten
gesamte Prozedur wird auch mit monatlichen
Zonalindex- bzw. Geopotentialdaten der 500 hPa- und 200 hPa-Schicht, sowie
den Wassertemperaturen der Weltmeere als
Prediktoren vorgenommen
Was ist der
Korrelationskoeffizient?
Der Korrelationskoeffizient (KK) ist ein Maß für die Stärke des linearen
Zusammenhanges zweier Datenreihen.
Der Wert dieses Koeffizienten ist eine dimensionslose Zahl und liegt immer
zwischen 1 und -1. Dabei bedeutet ein Wert von 1, dass ein perfekter
linearer Zusammenhang zwischen beiden Reihen vorliegt (je größer A, desto
größer B). Gleiches gilt bei -1, jedoch im umgekehrten Sinne (je größer A,
desto kleiner B). Ist überhaupt kein linearer Zusammenhang zwischen den
Datenreihen vorhanden, beträgt der Wert 0 (siehe Grafiken).
Der KK ist eine Maßzahl, die sich ausschließlich auf lineare Zusammenhänge
bezieht. Selbst wenn der Koeffizient niedrig bis null ist, kann dennoch
ein (nichtlinearer) Zusammenhang zwischen zwei Datensätzen vorhanden sein.
Obwohl atmosphärische Vorgänge in der Regel nicht linear sind, eignet sich
der KK dennoch um zumindest gewisse Beziehungen der Parameter
untereinander aufzudecken.
Um die Güte einer
Korrelation zu überprüfen, reicht die alleinige Kenntnis des KK nicht aus,
da dessen Aussagewert auch vom Umfang der Datenreihen abhängig ist. Ein
hoher KK bei einer geringen Anzahl von Fällen könnte auch zufälliger Natur
sein und eine sogenannte Scheinkorrelation vortäuschen. Um herauszufinden,
ob ein KK tatsächlich signifikant ist, d.h. ob der gefundene Zusammenhang
nicht nur in der Stichprobe existiert, sondern sich auch verallgemeinern
lässt, führt man einen Signifikanztest durch.
Signifikanz eines Korrelationskoeffizienten
Auf die exakte Durchführung
eines Signifikanztests soll nicht weiter eingegangen werden, da hierfür
standardisierende Transformationen vollzogen werden müssen, die den Rahmen
jetzt sprengen würden.
Als sehr vereinfachtes Beispiel sei hier auf der rechten Seite der Auszug
einer signifikanten Beziehung dargestellt. Die zweite Spalte gibt dabei
die Luftdruckanomalie am Gitterpunkt 65°N 110°O (Zentral-Sibirien) im
Oktober an, während Spalte drei die Temperaturabweichung des
darauffolgenden Januars in Leipzig kennzeichnet. Rechts unten ist der
daraus resultierende KK der Periode 1949 - 2008 eingeblendet.
Nur soviel sei gesagt: Dass dieser Betrag von 0,375 übersignifikant
ist, wird dadurch nachgewiesen, dass der Koeffizient seinen mittleren
Fehler bei einer Anzahl von 60 Jahren um das 2,97-fache (siehe
Fehlerberechnung eines KK) übersteigt, die übliche Signifikanzgrenze aber
beim Zweifachen des mittleren Fehlers liegt. Dies bedeutet, dass der
betreffende Zusammenhang zu mehr als 95% physikalischer Natur ist und
somit nicht als rein zufällige Erscheinung gedeutet werden darf. Oder
anders ausgedrückt: Mit einer Wahrscheinlichkeit von mehr 95% wird das
Vorzeichen dieser Korrelation ( - ) auch in einem anderen Zeitraum mit dem
hiesigen identisch sein. Für europäische Verhältnisse ist der gezeigte
Betrag bereits ein recht hoher Wert, in den Tropen hingegen sind weitaus
höhere Koeffizienten nicht ungewöhnlich.
Es ist von großer Bedeutung, dass lediglich solche Variablen als
Prediktoren herangezogen werden, die einen bestimmten KK-Betrag
überschreiten, da nur jene einen Informationsgehalt besitzen, die für eine
Prognose dienlich sein können.
2. Variablenextraktion
Extraktion sämtlicher Druck-Prediktoren, die mit den Prediktanden um
mindestens |0.30| korrelieren (willkürliche Festlegung), was immerhin
einer Erfüllung des 95%-Signifikanz-Levels im definierten Zeitraum
entspricht
Extraktion der Prediktoren für den 500
hPa-Zonalindex, das 200 hPa-Geopotential und der Wassertemperatur unter identischen
Bedingungen
Speicherung der extrahierten Prediktoren
in einer Datei zur weiteren Bearbeitung → auch hier programmgesteuerte
Durchführung
3.
Hauptkomponentenanalyse
Durchführung einer Hauptkomponentenanalyse (PCA) für
jeden der 6 Vormonate - dabei werden die
Informationen aus einer Vielzahl von extrahierten
Variablen (Prediktoren) komprimiert und in Form
neuer und deutlich weniger Variablen - den
Hauptkomponenten - ausgedrückt
Überbetonung eines zusammengehörigen Variablenkomplexes wird hierdurch
vermieden
starke Beeinflussung von nur einzelnen,
ursprünglichen Variablen auf die Berechnung (Instabilität) wird
unterdrückt
Informationsgehalt der ursprünglichen
Variablen bleibt überwiegend erhalten
entstandene 1. Hauptkomponente
korreliert i.d.R. wesentlich stärker mit der Zielgröße als die
Ausgangsvariablen → Vorhersagepotential
4. PLS - Regression /
Multivariate Regression
konstruierte Hauptkomponenten werden wiederum als Prediktoren
für ein Regressionsmodell verwendet
PLS-Regression (Partial Least Squares) hat sich
unter den Regressionstechniken als die Überlegenste
erwiesen
Auswertung ist so angelegt, dass jeweils eine
Hauptkomponente pro Vormonat gebildet wird, die mit
den Prediktanden hoch korreliert
Hauptkomponenten werden vollzählig ins Regressionsmodell aufgenommen
Anzahl der für jede Prognose verwendeten
Hauptkomponenten ist somit einheitlich
Ermittlung der zugehörigen Koeffizienten über das PLS-Regressionsmodell
Berechnung der
Indices-Anomailen mittels Regressionskoeffizienten
Indices dienen nun als Vorlage für die Prognose der Druck -und
Temperaturverteilung des jeweiligen Monats
Berechnung erfolgt hierbei für jeden
Gitterpunkt im Abstand 5°x5° mittles multivariater Regression
Einteilung der Prognosen für Deutschland in
Klassen als letzter Schritt
im Falle der Temperatur in die Klassen "sehr kalt", "kalt", "normal, "mild" und "sehr mild"
für den Niederschlag in die drei Klassen
"trocken", "normal" und "nass"
Die Modellgleichung des Regressionmodells der PLS ist gegeben als:
Th / C'h.....durch
PLS erzeugte Matrizen mit Koeefizienten
X.............Matrix der Prediktoren
Eh............Matrix der Residuen
Eine weitere Abhandlung des beschriebenen Verfahrens
ist als pdf-Datei
abrufbar (aktualisiert).
Vor- und Nachteile
liefert nachweißlich mit eine der stabilsten und
günstigsten Werte im Bereich Langfristprognose
weiter ausbaufähig durch Hinzuziehen anderer
Parameter, z.B. Eis- und
Schneebedeckungsgrad, stratosphärischen Parametern usw.
durch primäre Prognose der Indices sind Vorhersagen
für größere Areale möglich
Prognosen klar definiert und dadurch problemlos
verifizierbar
aus Art der prognostizierten Klasse lassen sich
andere Größen, wie z. B. Anzahl der Sommer- oder
Frosttage berechnen
größerer Arbeitsaufwand für die Prognose anderer
Regionen
homogene, langjährige Datenreihen sind für ein
Prognosegebiet notwendig
Signifikanzgebiete physikalisch oftmals nicht
erklärbar → daher Scheinkorrelationen (unechte
Zusammenhänge) nicht auszuschließen
eventuelle Instabilität bei den Prognosen d.h.
Änderungen einer Prognose im Verlauf der Monate
nicht selten → wird durch die
Hauptkomponentenanalyse aber soweit wie
möglich reduziert
Für weitere Fragen steht Ihnen der Autor per
Mail
oder Formular gern zur Verfügung.