Zahlreiche Auktionen bei
|
2.3 Neurometrie - ein synthetischer Ansatz
In Abschnitt 2.1 wurden neuronale Netzwerke als Systeme dargestellt, die sich aus relativ wenig verschiedenen, aber vielfältig kombinierbaren Bestandteilen zusammensetzen. Die sich ergebende Flexibilität in Struktur und Arbeitsweise legt nahe, sie nicht nach allgemeingültigen Prinzipien, sondern problemspezifisch zu konstruieren. Die Approximation unbekannter (funktionaler) Zusammenhänge zwischen Variablen wurde in Abschnitt 2.2 als das Hauptproblem der Ökonometrie herausgestellt. Ob sich neben den beschriebenen statistischen Methoden auch neuronale Netzwerke für die Approximation einsetzen lassen, wird im folgenden Abschnitt untersucht.
2.3.1 Approximation mit neuronalen Netzwerken
Durch die wissenschaftlichen Literatur wurde die Fähigkeiten neuronaler Netzwerke
zur Approximation von beliebigen Funktionen mathematisch etabliert. Gallant/White (1988)
demonstrierten, daß vorwärtsgekoppelte neuronale Netzwerke mit einer
versteckten Schicht und einer Cosinus-Aktivierungsfunktion in der Lage sind, zu jeder
Funktion den Wert der zugehörigen Fourierreihe als Ausgabesignal zu liefern.
Eine Verallgemeinerung dieses Ansatzes gelang Hornik et al. (1989): Sie ordneten
vorwärtsgekoppelte neuronale Netzwerke mit einer versteckten Schicht und sigmoider
Aktivierungsfunktion in die Klasse der universellen Approximatoren ein, indem sie
bewiesen, daß sich bei Verwendung unendlich vieler versteckter Neuronen jede
beliebige Funktion mit der gewünschten Genauigkeit abbilden läßt.
Die Ähnlichkeit zwischen Nadaraya-Watson-Kernschätzungs-Modellen und
neuronalen Netzwerken, die eine radiale Basisfunktion wie zum Beispiel die Gauss’sche
Glockenkurve als Aktivierungsfunktion verwenden, wurde von Poggio/Girosi (1990)
dargelegt. Auch Sarle (1994a) und Kuan/White (1994) zeigten, daß verschiede
statistische Methoden zur Approximation von unbekannten Zusammenhängen zwischen
Variablen ebenso als neuronale Netzwerke implementiert werden können.
Die allgemeine Verwandtschaft zwischen neuronalen Netzwerken und statistischen Methoden
wird in der wissenschaftlichen Literatur immer wieder auch durch Arbeiten mit
interdisziplinärem Charakter verdeutlicht. Gish (1992) trainierte beispielsweise
die Gewichte seines neuronalen Netzwerks mit Hilfe der in Abschnitt 3.2.3 beschriebenen
Maximum-Likelihood-Methode, um ein binäres Klassifizierungsproblem zu bearbeiten.
Das in der Statistik bekannte und hier im folgenden erläuterte Bias-Varianz-Dilemma
wurde von Geman et al. (1992) im Zusammenhang mit neuronalen Netzwerken diskutiert.
Azoff (1994) beschrieb neuronale Netzwerke im Kontext herkömmlicher statistischer
Methoden kurz als multivariate nichtlineare nichtparametrische Inferenztechniken, die
sich insbesondere zur Analyse von Zeitreihen eignen. Eine deutschsprachige
Einführung in die Statistik neuronaler Netzwerke wurde von Arminger (1994)
gegeben. Kuan/White (1994) haben einen Literaturüberblick über aktuelle
Forschungsergebnisse zusammengestellt. Auch von Cheng/Titterington (1994) werden
neuronale Netzwerke aus einer statistischen Perspektive betrachtet und diskutiert.
Die Veröffentlichungen von Anders (1995) sowie Anders/Korn (1996) beschreiben
schließlich die theoretischen Grundlagen und potentiellen
Einsatzmöglichkeiten von neuronalen Netzwerken zur Approximation unbekannter
Zusammenhänge zwischen Variablen unter statistischen Gesichtspunkten in einer
Weise, an die die vorliegende Arbeit direkt anknüpfen kann.
|
Neuronales Netzwerk |
(Nicht-)Parametrisches Modell |
|
Topologie |
Spezifikation |
|
Ungeeignete Topologie |
Über- oder Unterparametrisierung |
|
Aktivierungsfunktion |
Transformationsfunktion |
|
Muster |
Beobachtung |
|
Inputs |
Unabhängige (erklärende) Variablen |
|
Output |
Abhängige (zu erklärende) Variablen |
|
Gewichte |
Parameter (Regressionskoeffizienten) |
|
Training |
Schätzung |
|
Trainingsmenge |
in sample- Menge |
|
Validierungsmenge |
out of sample -Menge |
|
Konvergenz |
in sample -Qualität |
|
Generalisierung |
out of sample -Qualität |
|
Klassifizierung |
Diskriminanzanalyse |
|
Überwachte Lernverfahren |
Regression, Approximation |
|
Soll-Ist-Abweichung |
Residuen |
|
Rauschen |
Unsystematischer Fehler |
|
Epoche |
Numerischer Iterationsprozeß |
Tabelle 2.1: Vergleich der Terminologien. Quelle: Angelehnt an Sarle (1994b).
Ohne an dieser Stelle die Begriffe der Tabelle 2.1 erläutern zu können, wird durch die Gegenüberstellung deutlich, daß die Verwandtschaft zwischen neuronalen Netzwerken und statistischen Methoden zum Teil nur durch die Verwendung einer unterschiedlichen Terminologie verschleiert wird. Die von de Groot (1993) geäußerte Kritik an der aktuellen Forschung bleibt jedoch trotz Kenntnis dieses Sachverhalts bestehen: "However, the method is still under development, being more like a heuristic framework rather than a statistical theory [...]"
2.3.2 Regressionsmodelle und neuronale Netzwerke
Es wurde in Abschnitt 2.2 bereits angedeutet, daß Regressionsmodelle das derzeit gebräuchlichste Instrument der Ökonometrie sind, um Beziehungen zwischen Variablen aufdecken und darstellen zu können. Wie oben beschrieben wurde, hat die Forschung inzwischen formal bewiesen, daß mehrschichtige, vorwärtsgekoppelte neuronale Netzwerken mit sigmoiden Aktivierungsfunktionen ebenfalls für diese Aufgabe heranziehbar sind. Dies legt einen Vergleich der beiden Vorgehensweisen nahe.
Ein Regressionsmodell liefert Ergebnisse zurück, die es ermöglichen, die
Abhängigkeiten zwischen Variablen in mathematischer Form zu beschreiben. Im Modell
der Einfachregression wird zum Beispiel angenommen, daß eine Variable Y
von einer zweiten Variable X abhängig ist. Mit Hilfe der durch die
Regression ermittelten Regressionsfunktion können aus den Werten der
unabhängigen Variablen X Aussagen über die zugehörigen Werte der abhängigen Variable Y abgeleitet werden. Der Verlauf der Regressionsfunktion ist durch ihre Parameter (Korrelationskoeffizienten) determiniert, die die Beobachtungen der Eingabevariablen in spezifischer Weise gewichten. In den herkömmlichen Regressionsmodellen werden diese Parameter durch die Methode der kleinsten Quadrate bestimmt, indem die Summe der quadrierten Abweichungen zwischen den Werten der Regressionsfunktion und den Werten der Y-Variable minimiert wird. Durch Streuungs-Diagramme, bei denen die Beobachtungen der Variable X und die Beobachtungen der Variable Y als Wertepaare in das kanonische Koordinatensystem eingetragen werden, kann dieser Sachverhalt grafisch dargestellt werden (vergleiche Abbildung 2.6 und Abbildung 2.7).

|
(a) Alternative Regressionsgeraden |
(b) Nach der Methode der kleinsten Quadrate entwickelte Regressionsgerade |
Abbildung 2.6: XY-Streuungs-Diagramme mit Regressionsgerade(n) durch eine Punktewolke. Quelle: Angelehnt an Bleymüller et al. (1988), S. 140.

(a) Kein Zusammenhang zwischen X und Y

(b) Linearer Zusammenhang zwischen X und Y

(c) Nichtlinearer Zusammenhang zwischen X und Y
Abbildung 2.7: XY-Streuungs-Diagramme mit Regressionsfunktion. Quelle: Angelehnt an Bleymüller (1988), S. 139.
Wie man anhand der obigen Beispiele erkennen kann, erfaßt die Regressionsfunktion nicht unbedingt alle beobachteten Wertepaare, sondern gibt nur die Grundtendenz des Zusammenhangs wieder. Eine Regressionsgerade ohne Steigung läßt vermuten, daß kein Zusammenhang zwischen den betrachteten Variablen besteht (Abbildung 2.7a). Abbildung 2.7b weist dagegen auf einen linearen Zusammenhang zwischen den Variablen hin: Je größer X ist, desto größer ist auch Y. In Abbildung 2.7c ist ein Beispiel für einen nichtlinearen Zusammenhang zwischen X und Y gegeben.
Im folgenden wird die Stellung neuronaler Netzwerke im Kontext der herkömmlichen statistischen Modelle erörtert. Dieser Teil der Arbeit stützt sich - wie in der Einleitung erwähnt - auf die theoretischen Untersuchungen von Anders (1995). Hier erfolgt die Darstellung jedoch in stärker verbalisierter und visualisierten Form, um die Intention hinter dieser Analyse für das Verständnis von Kapitel 3 hervorzuheben.
Man bezeichnet die Abweichungen zwischen den Beobachtungspunkten und den zugehörigen Regressionspunkten als Residuen, die quadrierte Summe aller Residuen als Sum of Squared Errors (SSE) und die gemittelte Summe aller quadrierten Residuen als Mean Squared Error (MSE). Durch mathematische Umformungen läßt sich der MSE in zwei Komponenten zerlegen, die als systematischer Fehler (Approximationsfehler) und als unsystematischer Fehler (Störterm) bezeichnet werden. Abbildung 2.8 zeigt die Zerlegung der zu erklärenden Einzelabweichungen, die sich durch Anwendung der Methode der kleinesten Quadrate ergibt, wobei xi die i-te Beobachtung der unabhängigen Variable, yi die i-te Beobachtung der abhängigen Variable, ymu das arithmetische Mittel von y und yhi den durch die Regressionsfunktion ermittelten Schätzwert für yi darstellt.

Abbildung 2.8: Zerlegung der zu erklärenden Einzelabweichungen. Quelle: Angelehnt an Greene (1993), S. 148.
Die Güte einer Regression wird alleine mit dem Approximationsfehler gemessen, denn der Störterm ist rein zufälliger Natur und damit durch kein (Regressions-)Modell zu erklären. Interpretiert man darüberhinaus die abhängige Variablen als Zufallsvariable und die Regressionsfunktion als Schätzfunktion für die wahre Funktion, dann kann der Approximationsfehler dahingehend aufgeschlüsselt werden, daß er sich aus der Summe des quadrierten Bias und der Varianz der Schätzfunktion zusammensetzt. Abbildung 2.9 verdeutlicht diesen Zusammenhang: Eine optimale Schätzfunktion würde die wahre Funktion ohne Bias und mit der kleinst möglichen Varianz approximieren.

Abbildung 2.9: Bias und Standardabweichung einer Schätzfunktion. Quelle: Angelehnt an Anders (1995), S. 7.
Eine Theorie der statistischen Forschung besagt, daß unterparametrisierte Modelle
generell keine erwartungstreuen Schätzfunktionen liefern können.
Nichtparametrische Modelle hingegen bringen zwar biasfreie, aber mit hoher Varianz
behaftete Schätzfunktionen hervor. Daraus läßt sich ableiten,
daß man den Approximationsfehler der statistischen Modelle niemals
bezüglich des Bias als auch der Varianz a priori ausschließen kann.
Geman et al. (1992) nennen dieses Dilemma das Bias-Varianz-Dilemma. Durch Vorgabe
der zu modellierenden Struktur des gesuchten Zusammenhangs wird daher immer ein
Kompromiß zwischen den beiden Komponenten des Approximationsfehlers getroffen.
Die in Abbildung 2.10a gezeigte Schätzfunktion besitzt beispielsweise einen kleineren Bias, aber eine größere Varianz als die in Abbildung 2.10b gezeigte Schätzfunktion, wobei sich die jeweils zugrundeliegenden linearen Regressionsmodelle in der Anzahl ihrer Eingabevariablen (und damit auch in der Anzahl ihrer Parameter) unterscheiden.

(a) Schätzfunktion mit Bias und Varianz

(b) Schätzfunktion mit etwas größerem Bias,
aber deutlich kleinerer Varianz als (a)
Abbildung 2.10: Kompromiß zwischen Bias und Varianz. Die Grafiken wurden mit Neurometricus (vergleiche Abschnitt 3.1) erstellt.
Herkömmliche Regressionsmodelle sind parametrisch, d.h zur Bildung einer Regressionsfunktion muß dem gesuchten Zusammenhang zwischen den Variablen eine bestimmte funktionale Form unterstellt werden. In der Praxis bedeutet das, daß der Anwender die nötige Struktur der Regressionsfunktion im voraus "erahnen" muß. Wird zum Beispiel eine nichtlineare Abhängigkeit zwischen den Variablen vermutet, dann kann man auf ein Polynom höherer Ordnung als mögliche Regressionsfunktion zurückgreifen. Nicht jedes nichtlineare Problem ist jedoch polynomialer Natur. Wendet man dennoch diese Klasse von Funktionen an, so sind in der Regel übermäßig viele Parameter zu allokieren, was - wie oben gezeigt wurde - eine Steigerung der Varianz der Schätzfunktion zur Folge hat.
Neuronale Netzwerke können, da sie der Klasse der universellen Approximatoren angehören, im Prinzip als nichtparametrische Modelle interpretiert werden. Nach Spezifizierung ihrer Modellparameter sind sie jedoch formal als parametrische Modelle anzusehen, denn ihnen wird implizit unterstellt, daß sie in der Lage sind, den gesuchten Zusammenhang zu approximieren. Neuronale Netzwerke präsentieren sich demnach als eine neuartige Klasse von statistischen Methoden, die sich im Gegensatz zu parametrischen und nichtparametrischen Modellen frei auf dem in Abbildung 2.11 gezeigten Kontinuum bewegen können.

Abbildung 2.11: Kontinuum zwischen parametrischen und nichtparametrischen Modellen. Quelle: Angelehnt an Anders (1995), S. 8.
Aus den oben gemachten Ausführungen läßt sich - obgleich nur intuitiv - ableiten, daß mit neuronalen Netzwerken Regressionsmodelle grundsätzlich simuliert werden können. Auf einen formalen Beweis dieser Behauptung sei an dieser Stelle verzichtet. In Abbildung 2.12 findet der Leser stattdessen einige neuronale Netzwerkarchitekturen, unter denen jeweils die mathematische Gleichung der zugehörigen Regressionsfunktion angegeben ist.

y=x1×
w1+x2×
w2
(a) Lineares Modell

y=g(x1×
w1+x2×
w3)×
w5+g(x1×
w2+x2×
w4)×
w6
(b) Nichtlineares Modell

y=g(x1×
w1+x2×
w2)×
w3+x1×
w4+x2×
w5
(c) Erweitertes Modell
Abbildung 2.12: Neuronale Regressionsmodelle. Das g in den mathematischen
Gleichungen steht für eine beliebige nichtlineare Aktivierungsfunktion.
Quelle: Angelehnt an Anders (1995), S. 11.
Die Fähigkeiten und Grenzen dessen, was Regressionsmodelle zu leisten vermögen, sind gut erforscht. Jedoch sind nicht alle statistischen Methoden, die für parametrische Modelle gelten, auch auf neuronale Netzwerke anwendbar. Wie in Kapitel 3 anhand praktischer Beispiele demonstriert wird, liefert die Statistik dennoch eine Fülle von neuen Werkzeugen, die bei der Konstruktion und der Diagnose der Ergebnisse von neuronalen Netzwerken bisher keine oder nur eine formal unbegründete Verwendung gefunden haben. Im übrigen wird der Einsatz von statistischen Methoden durch wohlbekannten Annahmenkataloge reglementiert, die asymptotisch gültige Ergebnisse garantieren. So können zum Beispiel alle Regressionsfunktionen, die auf der Methode der kleinsten Quadrate basieren, nur dann Gültigkeit für sich beanspruchen, wenn die im folgenden aufgeführten Modellannahmen gelten.
- Das Modell kann den gesuchten Zusammenhang zwischen den Variablen zumindestens theoretisch approximieren.
- Der Störterm besitzt einen Erwartungswert von Null.
- Der Störterm ist homoskedastisch, d.h. seine Varianz ist für alle Beobachtungen konstant.
- Der Störterm ist nicht autokorreliert, d.h. es herrscht keine Kovarianz zwischen den Beobachtungen.
- Der Störterm korreliert nicht mit den unabhängigen Variablen.
- Der Störterm ist normalverteilt.
Zusammenfassend läßt sich festhalten, daß neuronale Netzwerke im
Kontext ökonometrischer Methoden gesehen werden können und deren Potential
nicht unbeträchtlicht erweitern. Anders (1995) attributiert diese Perspektive mit
neurometrisch. Durch diese Sichtweise wird auch deutlich, daß jener Ansatz nicht
länger haltbar ist, der neuronale Netzwerke generell als Black-Boxes
begreift, in die bedenkenlos Daten eingespeist werden dürfen, da sie die
Qualität der Daten aufgrund ihrer "Intelligenz" eigenständig
beurteilen könnten. Solchen Ansprüchen können sie nicht gerecht werden,
aber es weckt beim Laien überzogene Hoffnungen, die zu der vielfach kritisierten
Mythologisierung der Fähigkeit von neuronalen Netzwerken beigetragen haben.
2.3.3 Beispiele
Nachdem deutlich geworden ist, daß neuronale Netzwerke theoretisch gesehen nichts anderes sind als eine Oberklasse der Regressionsmodelle, wird dieser Anspruch noch anhand einiger Beispiele aus der Praxis erhärtet, die in den letzten Jahren in der wissenschaftlichen Literatur vorgestellt wurden.
Eine der ersten Untersuchungen, die neuronale Netzwerke zur Analyse von nichtlinearen
Prozessen verwendete, wurde von Lapedes/Farber (1987) veröffentlicht. Eine
tiefergehende statistische Analyse der Ergebnisse fehlte hier aber. Das beobachtete
Chaos in der Entwicklung der Marktpreise regte gleich vier Forscher zu einer
neurometrischen Schätzung an: Casdagli (1989), Vaga (1990), Larrain (1991) und
Peters (1991). In der Dissertationsschrift von de Groot (1993) wurden die Ergebnisse
einer Zeitreihenanalyse mit Hilfe der in Abschnitt 2.2 vorgestellten statistischen
Methoden diagnostiziert. Geliefert wurden sie von einem dreischichtigen,
vorwärtsgekoppelten neuronalem Netzwerk mit einer Tangens hyperbolicus-Aktivierungsfunktion, die auch die in dieser Arbeit favorisierte Aktivierungsfunktion ist (vergleiche Kapitel 3). Zuletzt sei noch eine Untersuchung von Refenes (1993) erwähnt, der ein neuronales Netzwerk mit 35 Neuronen über ein Jahr lang mit den stündlichen Wechselkursen trainierte, um auf diese Weise ökonomisch interessante Prognosedaten zu gewinnen.
Die obige Liste ist keineswegs vollständig. Es ließen sich leicht Beispiele finden, in denen neuronale Netzwerke zur Approximation von Funktionen herangezogen wurden. Aber die meisten Veröffentlichungen behandeln ausschließlich binäre Probleme, während in der Ökonometrie auch realwertige Zeitreihen relevant sind. Teilaspekte der aufgezeigten Zusammenhänge zwischen neuronalen Netzwerken und statistischen Methoden werden ebenfalls relativ häufig aufgeführt, meist aber nur theoretisch und nicht praktisch bedacht. Eine neurometrische Analyse von empirischen Daten in einer ähnlich umfassenden Form wie sie in Abschnitt 3.3 durchgeführt wird, hat der Verfasser nicht gefunden.
|