27. Vorlesung Partielle Ableitungen
1. Mehrdimensionale Definitionsbereiche
Im Folgenden sei n ≥ 1, P ⊆ ℝn und f : P → ℝ. Im Fall n = 2 ist P eine Teilmenge der Ebene, im Fall n = 3 eine Teilmenge des dreidimensionalen Raumes. Die Funktionswerte sind Skalare. Ein Standardbeispiel ist die Funktion f : ℝn → ℝ, die jedem Vektor x = (x1, …, xn) einer gegebenen Dimension n seine Euklidische Länge f (x) = ∥ x ∥ zuweist.
Im Fall n = 2 verwenden wir oft auch die Variablen x, y und im Fall n = 3 die Variablen x, y, z, sodass die Funktionswerte die Form f(x, y) bzw. f(x, y, z) annehmen.
Definition (Niveau-Menge, Höhenlinie)
Sei f : P → ℝ. Für alle c ∈ ℝ setzen wir
nivf(c) = { v ∈ P | f (v) = c }.
Die Teilmenge nivf(c) von P ⊆ ℝn heißt die Niveaumenge von f zum Wert c. Im Fall n = 2 nennen wir eine Niveaumenge auch eine Höhenlinie.
Für die Dimension n = 2 stehen uns verschiedene Visualisierungsmöglichkeiten zur Verfügung.
Visualisierung durch Höhenlandschaften (3-D-Plots)
Wir tragen f(x, y) für alle (x, y) ∈ P in eine dreidimensionale Graphik ein, d. h., wir visualisieren den dreidimensionalen Graphen von f.
Visualisierung durch Höhenliniendiagramme (Kontur-Plots)
Wir tragen die Niveaumengen nivf(c) für einige Werte c in ein zweidimensionales Diagramm ein und versehen sie mit dem Wert c. Zusätzlich können die Bereiche zwischen den Höhnenlinien eingefärbt werden.
Die Stetigkeit lässt sich für eine beliebige Dimension n wieder in zwei äquivalenten Versionen definieren:
Definition (Stetigkeit für mehrdimensionale Definitionsbereiche)
Sei f : P → ℝ, und sei p ∈ P. Dann heißt f ε-δ-stetig oder umgebungsstetig an der Stelle p, falls gilt:
∀ε > 0 ∃δ > 0 ∀x ∈ P (∥ x − p ∥ < δ → |f (x) − f (p)| < ε).
Weiter heißt f folgenstetig an der Stelle p, falls für jede gegen p konvergente Folge (xn)n ∈ ℕ in P gilt, dass limn f (xn) = f (p).
Ist f umgebungs- bzw. folgenstetig an allen Stellen p ∈ P, so heißt f umgebungsstetig bzw. folgenstetig.
2. Richtungsableitung und partielle Differenzierbarkeit
Definition (Richtungsableitung)
Sei f : P → ℝ. Weiter sei w ∈ ℝn mit ∥ w ∥ = 1. Für jedes p ∈ P heißt, im Fall der Existenz, die reelle Zahl
∂wf (p) = limh → 0 f (p + hw) − f (p)h
die Ableitung von f an der Stelle p in Richtung w. Existiert ∂wf (p), so heißt f an der Stelle p in Richtung w differenzierbar.
Definition (Ableitung in Achsenrichtung, partielle Differenzierbarkeit)
Sei f : P → ℝ. Für jedes p ∈ P und j = 1, …, n heißt, im Fall der Existenz,
∂jf (p) = ∂ejf (p) = limh → 0 f (p + hej) − f (p)h
die j-te partielle Ableitung von f an der Stelle p. Existieren alle Ableitungen ∂1f (p), …, ∂nf (p), so heißt f partiell differenzierbar an der Stelle p.
Ist f an allen Stellen p ∈ P partiell differenzierbar, so heißt f partiell differenzierbar. Sind zudem alle Ableitungsfunktionen ∂jf : P → ℝ stetig, so heißt f stetig partiell differenzierbar oder kurz stetig differenzierbar.
Notation
Ist f (x) = f(x1, …, xn) so schreiben wir auch
∂xj f (x), ∂f (x)∂xj oder ∂∂xj f (x) anstelle von ∂j f (x).
Ist f (x) = f(x1, …, xn) durch einen Term definiert, so können wir f partiell nach einer Variable xj ableiten, indem wir alle anderen Variablen wie Konstanten behandeln und die eindimensionalen Ableitungsregeln auf xj anwenden.
Beispiel
Sei n ≥ 1 und f : ℝn → ℝ definiert durch
f (x) = ∥ x ∥2 = x12 + … + xn2 für alle x = (x1, …, xn) ∈ ℝn.
Dann gilt für alle 1 ≤ j ≤ n und alle x ∈ ℝn
∂jf (x) = ∂∂xj f (x) = ∂∂xj (x12 + … + xn2) = 2xj.
Satz (Satz von Schwarz)
Sei f : P → ℝ zweimal stetig differenzierbar. Dann gilt ∂i ∂j f = ∂j ∂i f für alle i, j ∈ { 1, …, n }.
3. Gradienten
Definition (Gradient)
Seien n ≥ 1, P ⊆ ℝn und f : P → ℝ partiell differenzierbar an der Stelle p ∈ P. Dann heißt der Vektor
grad f (p) = (∂1f (p), …, ∂nf (p)) ∈ ℝn
der Gradient von f an der Stelle p.
Beispiel
Sei f : ℝ2 → ℝ definiert durch f(x, y) = x2 + y2 für alle (x, y) ∈ ℝ2. Dann gilt
grad f(x, y) = (2x, 2y) = 2(x, y) für alle (x, y) ∈ ℝ2.
Definition (Tangentialebene)
Seien P ⊆ ℝ2 und f : P → ℝ partiell differenzierbar an der Stelle p = (x0, y0) ∈ P. Dann heißt die Funktion g : ℝ2 → ℝ mit
g(x, y) = f (p) + ∂1f (p) (x − x0) + ∂2f (p) (y − y0) für alle (x, y) ∈ P
die Tangentialebene von f an der Stelle p.
Die Tangentialebene können wir mit Hilfe des Skalarprodukts in der Form
g(x, y) | = f (p) + ∂1f (p) (x − x0) + ∂2f (p) (y − y0) |
= f (p) + 〈 grad f (p), (x, y) − (x0, y0) 〉 = f (p) + 〈 grad f (p), (x, y) − p 〉 |
schreiben. Aus den geometrischen Eigenschaften des Skalarprodukts ergibt sich:
Geometrische Bedeutung des Gradienten
Der Gradient grad f (p) zeigt in die Richtung des stärksten Abstiegs von f an der Stelle p. Er steht senkrecht auf der Niveau-Linie nivf(c) für c = f (p).
4. Anwendungen
Satz (Gradient und Richtungsableitung)
Sei f : P → ℝ partiell differenzierbar an der Stelle p ∈ P. Dann gilt für alle normierten w = (w1, …, wn) ∈ ℝn, dass
∂w f (p) = 〈 grad f (p), w 〉 = ∑1 ≤ j ≤ n ∂jf (p) wj.
Zur Begründung betrachten wir wieder den Spezialfall n = 2. Hier ergibt sich die Formel aus folgenden Beobachtungen:
(1) | Sei g die Tangentialebene von f an der Stelle p. Dann stimmt die Ableitung von f an der Stelle p in Richtung w mit der Ableitung von g an der Stelle p in Richtung w überein. |
(2) | Für eine Tangentialebene g : ℝ2 → ℝ gilt ∂w g (p) = 〈 grad g (p), w 〉. |
Definition (lokale Extremalstelle)
Sei f : P → ℝ. Dann heißt ein p ∈ P eine lokale Maximalstelle von f, falls gilt:
∃ε > 0 ∀x ∈ P (∥ x − p ∥ < ε → f (x) ≤ f (p)).
Gilt stärker
∃ε > 0 ∀x ∈ P (∥ x − p ∥ < ε ∧ x ≠ p → f (x) < f (p)),
so heißt p eine strikte lokale Maximalstelle. Analog ist eine (strikte) lokale Minimalstelle definiert. Ist p eine (strikte) lokale Minimal- oder Maximalstelle, so heißt p eine (strikte) lokale Extremalstelle und f (p) ein zugehöriger lokaler Extremwert von f.
Satz (notwendige Bedingung für ein lokales Extremum)
Sei f : P → ℝ partiell differenzierbar an der lokalen Extremalstelle p ∈ P. Dann gilt grad f (p) = 0.
Ein hinreichendes Kriterium für ein striktes lokales Minimum einer reellen Funktion an einer kritischen Stelle p (d. h. f ′(p) = 0) ist, dass f ″(p) > 0. Um ein mehrdimensionales Analogon dieses Kriteriums formulieren zu können, brauchen wir eine mehrdimensionale Version einer „zweiten Ableitung“:
Definition (Hesse-Matrix)
Sei f : P → ℝ zweimal partiell differenzierbar, und sei p ∈ P. Dann ist die Hesse-Matrix Hf(p) von f an der Stelle p definiert durch
Hf(p) = (∂i ∂jf (p))1 ≤ i, j ≤ n.
Satz (hinreichende Bedingung für ein lokales Extremum)
Sei f : P → ℝ zweimal stetig differenzierbar, und sei p ∈ P mit grad f (p) = 0.
Weiter sei die Hesse-Matrix H = Hf(p) positiv definit, d. h. es gelte
〈 x, H x 〉 > 0 für alle x ∈ ℝn mit x ≠ 0.
Dann ist p eine strikte lokale Minimalstelle von f.
An die Stelle von f ″(p) > 0 tritt also positive Definitheit der Hesse-Matrix H = Hf(p). Um letztere festzustellen, stehen verschiedene Möglichkeiten zur Verfügung. Für den Fall n = 2 sind zum Beispiel äquivalent:
(a) | H ist positiv definit, d. h. 〈 (x, y), H(x, y) 〉 > 0 für alle (x, y) ≠ 0. |
(b) | H(1, 1) = ∂11f (p) > 0 und det(H) = ∂11f (p) ∂22f (p) − 2∂12f (p) > 0. |
(c) | Alle Eigenwerte von H sind positiv. |
Strikte lokale Maximalstellen können wir durch Übergang zu −f untersuchen oder analoge Ergebnisse mit „die Hess-Matrix H ist negativ definit“ formulieren (d. h. 〈 x, H x 〉 < 0 für alle x ∈ ℝn mit x ≠ 0).
5. Allgemeine mehrdimensionale Funktionen
Wir betrachten nun Funktionen der Form f : ℝn → ℝm bzw. f : P → ℝm mit n, m ≥ 1 und einem Definitionsbereich P ⊆ ℝn. Erneut existieren zwei äquivalente Formulierungen der Stetigkeit:
Definition (Stetigkeit für mehrdimensionale Definitionsbereiche)
Sei f : P → ℝm mit P ⊆ ℝn, und sei p ∈ P. Dann heißt f ε-δ-stetig oder umgebungsstetig an der Stelle p, falls gilt:
∀ε > 0 ∃δ > 0 ∀x ∈ P (∥ x − p ∥ < δ → ∥ f (x) − f (p) ∥ < ε).
Weiter heißt f folgenstetig an der Stelle p, falls für jede gegen p konvergente Folge (xn)n ∈ ℕ in P ⊆ ℝn gilt, dass limn f (xn) = f (p) in ℝm.
Ist f umgebungs- bzw. folgenstetig an allen Stellen p ∈ P, so heißt f umgebungsstetig bzw. folgenstetig.
Wie bei einer Kurve können wir eine Funktion f : P → ℝm, P ⊆ ℝn, in die reellwertigen Komponenten f1, …, fm : P → ℝ zerlegen, sodass
f (x) = f(x1, …, xn) = (f1(x1, …, xn), …, fm(x1, …, xn)) ∈ ℝm für alle x ∈ P.
Die Funktion f ist genau dann stetig in p, wenn alle Komponentenfunktionen f1, …, fm stetig in p sind. Im Fall der Existenz können wir für alle Komponentenfunktionen die n-dimensionalen Gradienten bilden:
grad f1(p) = (∂1f1(p), …, ∂nf1(p))
grad f2(p) = (∂1f2(p), …, ∂nf2(p))
…
grad fm(p) = (∂1fm(p), …, ∂nfm(p))
Alle Gradienten sind Vektoren des ℝn. Schreiben wir die Gradienten als Zeilen in eine Matrix mit m Zeilen und n Spalten, so erhalten wir die sog. Jakobi-Matrix
Jf(p) = ∂i fj(p))1 ≤ i ≤ m, 1 ≤ j ≤ n =
von f an der Stelle p ∈ P.
Definition (stetige Differenzierbarkeit)
Eine Funktion f : P → ℝm, P ⊆ ℝn, heißt (stetig) partiell differenzierbar, falls alle Komponenten f1, …, fm : P → ℝ dies sind. Analog ist die mehrfache (stetige) partielle Differenzierbarkeit definiert.
Statt „stetig partiell differenzierbar“ sagen wir auch kurz „stetig differenzierbar“. Für eine stetig differenzierbare Funktion lässt sich das folgende Analogon zum Linearen Approximationssatz der eindimensionalen Differentialrechnung beweisen:
(+) f (x) = f (p) + Jf(p) (x − p) + o(∥ x − p ∥) für x → p,
wobei o(∥ x − p ∥) für eine Funktion r : P → ℝm steht mit
limx → p ∥ r(x) ∥∥ x − p ∥ = 0.
Bemerkung
Es stellt sich heraus, dass die Gültigkeit von (+) etwas stärker ist als die partielle Differenzierbarkeit, aber auch etwas schwächer als die stetige partielle Differenzierbarkeit von f an der Stelle p ist. In der Analysis wird deswegen ein weiterer Differenzierbarkeitsbegriff eingeführt, die sog. totale Differenzierbarkeit einer Funktion f : P → ℝm an einer Stelle p. Sie bedeutet genau, dass sich f in der Form (+) schreiben lässt.
6. Vektorfelder und Differentialoperatoren
Definition (Vektorfeld)
Seien n ≥ 1 und P ⊆ ℝn. Dann heißt eine Funktion f : P → ℝn ein n-dimensionales (reelles) Vektorfeld.
Ein zweidimensionales Vektorfeld f : P → ℝ2 können wir visualisieren, indem wir an jeden Punkt p des Definitionsbereichs P von f den Vektor f (p) der Ebene anheften. Analoges gilt für dreidimensionale Vektorfelder.
Definition (Gradientenfeld)
Seien n ≥ 1, P ⊆ ℝn und f : P → ℝ differenzierbar. Dann heißt das n-dimensionale Vektorfeld grad f : P → ℝn mit
grad f (x) = (∂1f (x), … , ∂nf (x)) für alle x = (x1, …, xn) ∈ P
das Gradientenfeld von f.
Wir stellen nun noch einige wichtige Operatoren für skalar- und vektorwertige Funktionen im Überblick vor. Diese Operatoren sind vor allem in der Physik von Bedeutung.
Definition (Divergenz)
Sei g : P → ℝn ein differenzierbares Vektorfeld. Dann definieren wir die Divergenz div g : P → ℝ des Vektorfeldes g durch
div g (x) = ∑1 ≤ j ≤ n ∂j gj(x) = ∂1 g1(x) + … + ∂n gn(x) für alle x ∈ P.
Ist p ∈ P und gilt div g (p) > 0 bzw. div g (p) < 0, so heißt p eine Quelle bzw. Senke von g. Gilt div(g)(p) = 0, so heißt g quellfrei an der Stelle p.
Definition (Rotation)
Sei P ⊆ ℝ3 und g : P → ℝ3 ein dreidimensionales differenzierbares Vektorfeld. Dann definieren wir die Rotation oder das Wirbelfeld rot g : P → ℝ3 von g durch
rot g (x) = (∂2 g3(x) − ∂3 g2(x), ∂3 g1(x) − ∂1 g3(x), ∂1 g2(x) − ∂2 g1(x))
für alle x ∈ P. Ist p ∈ P mit rot g (p) = 0, so heißt g wirbelfrei an der Stelle p.
Das Rechnen mit Gradient, Divergenz und Rotation wird oft übersichtlicher, wenn wir den n-dimensionalen Nabla-Operator
∇ = (∂1, …, ∂n) = (∂∂x1, …, ∂∂xn)
verwenden. Wir setzen
∇ f = (∂1f, …, ∂nf) = grad f,
〈 ∇, g 〉 = 〈 (∂1, …, ∂n), (g1, …, gn) 〉 = div g,
∇ × g = (∂1, ∂2, ∂3) × (g1, g2, g3) = rot g, falls n = 3.
Dabei ist f : P → ℝ mit P ⊆ ℝn eine partiell differenzierbare skalarwertige Funktion, während g : P → ℝn, P ⊆ ℝn ein differenzierbares Vektorfeld ist. Die Rotation ∇ × g ist nur für die Dimension 3 erklärt.
Definition (Laplace-Operator)
Seien n ≥ 1, P ⊆ ℝn und f : P → ℝ zweimal differenzierbar. Dann ist der Laplace-Operator (angewendet auf f) definiert durch
∆ f = ∇2f = div grad f = 〈 ∇, ∇ f 〉.
Angewendet auf eine skalarwertige Funktion erzeugt der Laplace-Operator eine skalarwertige Funktion (über den „Umweg“ des Gradientenfeldes). Es gilt
∆ f = ∑1 ≤ j ≤ n ∂j ∂j f = ∂1 ∂1 f + … + ∂n ∂n f,
sodass ∆ f (p) = spur(Hf(p)). Die Quadrat-Notation ∇2 ist motiviert durch
∆f = 〈 (∂1∂1, …, ∂n∂n), f 〉 = 〈 (∂1, …, ∂n), (∂1, …, ∂n) 〉 f = 〈 ∇, ∇ 〉 f.