Implizite Funktionen
Ein lineares Gleichungssystem
A x = y, A ∈ ℝm × m, x, y ∈ ℝm,
hat bei vorgegebenem y genau dann eine eindeutige Lösung x, wenn A invertierbar ist. Sie ist durch x = A−1 y definiert. Allgemeiner können wir das System
A x + B y = 0, A ∈ ℝm × m, B ∈ ℝm × d, x ∈ ℝm, y ∈ ℝd
betrachten. Das Gleichungssystem „Ax = y“ ist äquivalent zu „Ax − E y = 0“, entspricht also dem Fall d = m und B = − E mit der Einheitsmatrix E ∈ ℝm × m. Bei vorgegebenem y hat das allgemeine System genau dann eine eindeutige Lösung x, wenn A invertierbar ist, und diese Lösung ist gegeben durch
x = − A−1 B y.
Definieren wir also g : ℝd → ℝm durch
g(y) = − A−1 B y für alle y ∈ ℝd,
so ist die Lösungsfunktion g eine lineare Abbildung mit
A g(y) + B y = 0 für alle y ∈ ℝd.
Wir sagen auch, dass g durch „A x + B y = 0“ implizit definiert wird.
Wir betrachten nun noch allgemeinere Gleichungssysteme der Form
f(x, y) = 0
mit einer Funktion f : ℝm × ℝd → ℝm. Ziel ist wieder, das System nach x ∈ ℝm aufzulösen, sodass wir eine Lösungsfunktion g in der Variablen y ∈ ℝd erhalten. Natürlich können wir die Rollen von x und y vertauschen, aber Lösungsfunktionen in y entsprechen der obigen Betrachtung von linearen Systemen und weiter dem Problem, die Umkehrfunktion einer Funktion „y = f (x)“ zu bestimmen. Ein Beispiel mit m = d = 1 ist
y5 − x4 + 2 x3 − 3 y + x = 0.
Offenbar ist (a, b) = (0, 0) ∈ ℝ2 eine Lösung. Andere Lösungen zeigt das Diagramm. Wir erkennen, dass wir die Lösungen als Funktion g in y darstellen können, wenn wir uns auf eine hinreichend kleine Umgebung der Lösung (a, b) beschränken. Die Lösungsfunktion g können wir nicht mehr durch einen einfachen Term in der Form „x = g(y)“ definieren, aber sie existiert dennoch und ist zudem für die gewählte Umgebung eindeutig bestimmt. Die Existenz- und Eindeutigkeit lokaler Lösungsfunktionen ist gerade das Thema der folgenden Untersuchungen.
Um den allgemeinen Fall an den linearen Fall zu knüpfen, nehmen wir an, dass f stetig differenzierbar ist, sodass wir die Funktion f in jedem Punkt durch ihre Linearisierung ersetzen können. Die Jacobi-Matrix von f im Punkt p hat die Form
Jf(p) = (A | B) ∈ ℝm × (m + d), mit
A = (aij) ∈ ℝm × m, B = (bij) ∈ ℝm × d, | |
aij = Jf(p)i j für 1 ≤ i, j ≤ m, bij = Jf(p)i, j + m für 1 ≤ i ≤ m, 1 ≤ j ≤ d. |
Anschaulich erhalten wir die Matrizen A und B, wenn wir die Matrix Jf(p) nach der m-ten Spalte durchschneiden. Wir nennen A auch den quadratischen Teil von Jf(p). Für alle (x, y) ∈ ℝm × ℝd gilt
Jf(p) (x, y) = (A | B) (x, y) = A x + B y ∈ ℝm.
Wir betrachten nun eine Nullstelle (a, b) ∈ ℝm × ℝd von f (also eine spezielle Lösung) und die Gleichung
f(x, y) = 0
in der Nähe von (a, b). Ersetzen wir f durch ihre Linearisierung
f(a, b) + Jf(a, b) (x − a, y − b) = Jf(a, b) (x − a, y − b), x ∈ ℝm, y ∈ ℝd
im Punkt (a, b), so wird „f(x, y) = 0“ zum linearen Gleichungssystem
A (x − a) + B (y − b) = 0, wobei Jf(a, b) = (A, B).
Dieses Gleichungssystem ist im Fall der Invertierbarkeit der (m × m)-Matrix A eindeutig nach x auflösbar mit
x = a − A−1 B (y − b).
Da f durch seine Linearisierung bis auf einen Fehler erster Ordnung dargestellt wird, darf man vermuten, dass im Fall der Invertierbarkeit von A auch „f(x, y) = 0“ in einer Umgebung von (a, b) eindeutig nach x auflösbar ist, d. h., zu gegebenem y nahe bei b existiert ein eindeutig bestimmtes x = g(y) nahe bei a, sodass
f(g(y), y) = 0.
Der folgende Satz besagt, dass diese Vermutung korrekt ist und dass die durch „f(x, y) = 0“ implizit definierte lokale Lösungsfunktion g stetig differenzierbar ist und im Punkt b die nach unseren Überlegungen zu erwartende Linearisierung besitzt, nämlich
g(b) + Jg(b) (y − b) = a − A−1 B (y − b).
Satz (Hauptsatz über implizite Funktionen)
Sei f : P → ℝm, P ⊆ ℝm × ℝd stetig differenzierbar, und sei (a, b) ∈ P mit f (a, b) = 0. Weiter sei
Jf(a, b) = (A | B) mit A ∈ ℝm × m, B ∈ ℝm × d,
und A sei invertierbar. Dann existieren eine offene Umgebung U ⊆ ℝm von a, eine offene Umgebung V ⊆ ℝd von b mit U × V ⊆ P und ein stetig differenzierbares g : V → U, sodass für alle y ∈ V gilt:
(a) | g(y) = „das eindeutige x ∈ U mit f(x, y) = 0“, |
(b) | Jg(y) = − Ay−1 By, wobei Jf(g(y), y) = (Ay | By). |
Der Leser findet im folgenden Ausblick einen vollständigen Beweis dieses fundamentalen Ergebnisses.
Wir wollen uns die Aussage des Satzes noch einmal verdeutlichen. Unter den Voraussetzungen an f gilt, dass das durch (a, b) ∈ ℝm × ℝd gelöste Gleichungssystem
f1(x1, …, xm, y1, …, yd) = 0
f2(x1, …, xm, y1, …, yd) = 0
…
fm(x1, …, xm, y1, …, yd) = 0
in einer Umgebung V von b nach x1, …, xm aufgelöst werden kann: Für alle Vorgaben y = (y1, …, yd) ∈ V gibt es eine Lösung x = (x1, …, xm) des Systems, und in einer Umgebung U von a sind diese Lösungen zudem eindeutig bestimmt.
Eine Paradeanwendung des Hauptsatzes über implizite Funktionen ist:
Korollar (Ableitung der Umkehrfunktion)
Sei f : P → ℝn, P ⊆ ℝn, stetig differenzierbar, und sei p ∈ P derart, dass Jf(p)−1 existiert. Dann gibt es eine offene Umgebung U ⊆ P von p mit:
(a) | f : U → f[ U ] ist bijektiv und f[ U ] ist offen, |
(b) | g = f −1 : f[ U ] → U ist stetig differenzierbar, |
(c) | Jg(f (x)) = Jf(x)−1 für alle x ∈ U. |
Beweis
Sei f* : P × ℝn → ℝn definiert durch
f*(x, y) = f (x) − y für alle (x, y) ∈ P × ℝn.
Für (a, b) = (p, f (p)) gilt f*(a, b) = 0. Der Hauptsatz (mit m = d = n) liefert also ein stetig differenzierbares g : V → U mit offenen Umgebungen U ⊆ P von p und V ⊆ ℝn von f (p) derart, dass
g(y) = „das eindeutige x ∈ U mit f (x) = y“,
Jg(f (x)) = − Jf(x)−1 (− E) = Jf(x)−1 für alle x ∈ U.
Also ist g die Umkehrfunktion von f auf U und f injektiv auf U. Wir können zudem U = g[ V ] annehmen (durch evtl. Verkleinerung von U), da g [ V ] = f −1 [ V ] aufgrund der Stetigkeit von f offen ist.
Die Formel für die Jacobi-Matrix der Umkehrfunktion können wir wie im Eindimensionalen aus der Kettenregel gewinnen, wenn wir wissen, dass g differenzierbar ist. Denn mit der Einheitsmatrix E ∈ ℝn × n gilt
E = Jg ∘ f(x) = Jg(f (x)) Jf(x),
sodass die Matrix Jg(f (p)) invers zu Jf(p) ist.
Wie oben können wir das Ergebnis so lesen: Unter den Voraussetzungen des Satzes ist das Gleichungssystem
f1(x1, …, xn) = y1
…
fn(x1, …, xn) = yn,
das durch (p, f (p)) ∈ P × ℝn gelöst wird, in einer Umgebung von y = f (p) nach den Variablen x1, …, xn auflösbar und in einer hinreichend kleinen Umgebung von x = p sind die Lösungen eindeutig.
Aus dem topologischen Anteil des Korollars erhalten wir ein weiteres bemerkenswertes Ergebnis:
Korollar (Offenheitssatz)
Sei f : P → ℝn stetig differenzierbar, und Jf(p)−1 existiere für alle p ∈ P. Dann ist f [ U ] offen für alle offenen U ⊆ P.
Beweis
Sei U ⊆ P offen. Dann gibt es für jedes x ∈ U eine Bijektion
fx : Ux → f[ Ux ]
mit einer offenen Umgebung Ux ⊆ U von x und einer offenen Menge f [ Ux ]. Dann ist aber f [ U ] offen, denn
f[ U ] = ⋃x ∈ U f[ Ux ].
Die Stetigkeit einer Funktion ist durch offene Urbilder offener Mengen charakterisiert. Ist f stetig differenzierbar und sind alle Ableitungen invertierbar, so bleibt die Eigenschaft „offen“ auch für Bilder erhalten.
Beispiel
Wir betrachten ein einfaches Beispiel mit m = d = 1, sodass ℝm × ℝd = ℝ2. Sei f : ℝm × ℝd → ℝ mit
f(x, y) = x2 + y2 − 1 für alle (x, y) ∈ ℝ2.
Die Nullstellenmenge von f ist der Einheitskreis:
{ (x, y) ∈ ℝm × ℝd | f(x, y) = 0 } = { (x, y) ∈ ℝ2 | x2 + y2 = 1 } = K1.
Für alle (x, y) ∈ ℝm × ℝd gilt
Jf(x, y) = (2x 2y) ∈ ℝ1 × 2.
Sei nun (a, b) ∈ K1 eine Nullstelle von f. Dann gilt
Jf(a, b) = (A | B) mit den (1 × 1)-Matrizen A = (2a), B = (2b).
Die Matrix A ist genau dann invertierbar, wenn a ≠ 0, d. h., der Punkt (a, b) des Kreises liegt nicht auf der y-Achse. Dann gilt b ∈ ] −1, 1 [.
Im Fall a > 0 erhalten wir die durch f implizit definierte differenzierbare Funktion g : V → U mit V = ] −1, 1 [ , U = ] 0, ∞ [ , (a, b) ∈ U × V derart, dass für alle y ∈ V gilt:
g(y) = = „das eindeutige x ∈ U mit f(x, y) = 0“,
Jg(y) = − Ay−1 By = − () (2 y) = (), wobei
(Ay | By) = Jf(g(y), y) = (2g(y) 2y) = (2 , 2y).
Im Fall a < 0 ist analog V = ] −1, 1 [ , U = ] −∞, 0 [ und
g(y) = − ∈ U, Jg(y) = ()
Das Ergebnis entspricht der Auflösung von „x2 + y2 − 1 = 0“ nach x:
x = ± .
Sie führt zu zwei möglichen differenzierbaren Funktionen
g(y) = > 0 | (rechte offene Kreishälfte) bzw. |
g(y) = − < 0 | (linke offene Kreishälfte) |
mit einem für die Differenzierbarkeit maximalen offenen Definitionsintervall ] −1, 1 [. Die Kreislinie lässt sich in einer Umgebung von (0, ±1) nicht als Funktion in y darstellen.