Hesse-mátrix

A Wikipédiából, a szabad enciklopédiából

\begin{bmatrix}
\frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1\,\partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_1\,\partial x_n} \\  \\
\frac{\partial^2 f}{\partial x_2\,\partial x_1} & \frac{\partial^2 f}{\partial x_2^2} & \cdots & \frac{\partial^2 f}{\partial x_2\,\partial x_n} \\  \\
\vdots & \vdots & \ddots & \vdots \\  \\
\frac{\partial^2 f}{\partial x_n\,\partial x_1} & \frac{\partial^2 f}{\partial x_n\,\partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_n^2}
\end{bmatrix}

n változós függvény Hesse-mátrixa

A matematikában, közelebbről a matematikai analízisben Hesse-féle mátrixnak egy többváltozós valós függvény másodrendű parciális deriváltjaiból alkotott négyzetes mátrixát nevezzük.

Legyen

f(x_1, x_2, \dots, x_n),\,\!

n-változós valós függvény. Ha mindegyik másodrendű parciális deriváltja létezik az f értelmezés tartományának egy x belső pontjában, akkor a Hesse-mátrix mátrixelemei a

[\mathbf{H}^f(x)]_{ij} = \partial^2_{ij} f(x)\,\!

számok, ahol x = (x1, x2, …, xn), i, j tetszőleges számok 1-től n-ig, ∂2ij pedig a másodrendű parciális deriválás jele.[1]

A Hesse-féle mátrix determinánsa a Hesse-determináns. A Hesse-determináns elnevezést először James Joseph Sylvester használta, Ludwig Otto Hesse tiszteletére, aki először vezette be és „függvénydeterminánsnak” nevezte.[2]

Hesse-mátrix szimmetrikussága[szerkesztés | forrásszöveg szerkesztése]

A Hesse-mátrix főátlóján kívüli elemei a vegyes másodrendű parciális deriváltak. Young tétele értelmében ha az f függvény az u pont egy környezetében mindenütt kétszer parciálisan differenciálható és az u pontban a második deriváltak folytonosak, akkor a parciális deriválás nem függ a deriválás sorrendjétől, azaz a vegyes deriváltak egyenlők. Ez pontosan azt jelenti, hogy a Hesse-mátrix szimmetrikus. Például kétváltozós f függvénynél (u-ban f kétszer folytonosan differenciálható)

[\mathbf{H}^f(u)]_{21}=\frac {\partial^2 f(u)}{\partial y\partial x} = \frac {\partial^2 f(u)}{\partial x\partial y} =[\mathbf{H}^f(u)]_{12}

A Hesse-mátrix mint a deriválttenzor mátrixa[szerkesztés | forrásszöveg szerkesztése]

Ha az f függvény az U halmazon értelmezett n-változós valós függvény és az U halmazon létezik az f gradiense, és a grad(f) : U \to Rn leképezés totálisan differenciálható az uU pontban, akkor a gradiensfüggvény differenciáljának mátrixa a sztenderd bázisra vonatkozólag éppen a Hesse-mátrix:

[\mathrm{d\,(grad\,}f)(u)]=\mathbf{H}^f(u)\,

A d (grad f)(u) tenzor tekinthető úgy, mint az f másodrendű differenciálja az u-ban és teljesül rá, hogy minden xU-ra :

f(x)=f(u)+\mathrm{grad}\,f(u)\cdot(x-u)+\frac{1}{2}(x-u)\mathrm{H}^f(u)(x-u)+\varepsilon(x)||x-u||^2

ahol ε folytonos u-ban és ott eltűnik.

Stacionárius pont és szélsőérték létezése[szerkesztés | forrásszöveg szerkesztése]

Ha a többváltozós valós f kétszer folytonosan differenciálható, és \mathrm{grad}\,f(u)=0, akkor értelmezési tartományának u pontját stacionárius pontnak nevezzük. Ha a Hesse-determináns u-ban nulla, akkor ez degenerált kritikus pont.

A Hesse-mátrix segítségével megfogalmazható a többváltozós valós értékű függvények másodikderivált-próbája. Tegyük fel, hogy az u pontban az f-nek stacionárius pontja és legyen

Q^f_u(\mathbf{v})=\mathbf{v}\mathrm{H}^f(u)\mathbf{v}\,

a Hf(u)-hoz asszociált kvadratikus leképezés.

Ha a Qfu(v) kifejezés pozitív minden nemnulla v vektorra, azaz ha Qfu pozitív definit, akkor f-nek u-ban lokális minimuma van. Ez a tulajdonság Sylvester tétele alapján azt jelenti, hogy Hf(u) mátrixának bal felső kvadratikus aldeterminánsai csupa pozitív értékeket felvevő sorozatot alkotnak:

\partial_{11}f(u)>0,\quad \underset{\scriptstyle{1=i,j\leq 2}}{\det}[\partial_{ij}f(u)]>0,\quad  \dots \quad \det\,\mathrm{H}^f(u)>0

Ha a Qfu(v) kifejezés negatív minden nemnulla v vektorra, azaz ha Qfu negatív definit, akkor f-nek u-ban lokális maximuma van. Ekkor az aldeterminánsok előjelváltóak:

\partial_{11}f(u)<0,\quad \underset{\scriptstyle{1=i,j\leq 2}}{\det}[\partial_{ij}f(u)]>0,\quad  \underset{\scriptstyle{1=i,j\leq 3}}{\det}[\partial_{ij}f(u)]<0,\quad \dots \quad \det\,\mathrm{H}^f(u)\underset{>}{<}0

Indefinit esetben vagyis amikor Q felvesz pozitív és negatív értékeket is, a próba állítása szerint biztosan nincs szélsőérték. Szemidefinit esetben, amikor van olyan nemnulla v, amire Qfu(v)=0, a próba nem jár sikerrel.[3]

Kétváltozós függvény szélsőértékei[szerkesztés | forrásszöveg szerkesztése]

Speciálisan kétváltozós függvények esetén a próba konkrétan a következők ellenőrzését jelenti:

  1. ha det Hf(u) > 0 és ∂11f(u) > 0, akkor u-ban lokális minimum van,
  2. ha det Hf(u) > 0 és ∂11f(u) < 0, akkor u-ban lokális maximum van,
  3. ha det Hf(u) < 0, akkor u nincs lokális szélsőérték (valamilyen típusú nyeregpontról beszélünk)
  4. ha det Hf(u) = 0, akkor a próba nem járt sikerrel.[4]

Megjegyzés. Ha a Hesse-mátrix elemei

\mathrm{H}^{f}(u)=\begin{pmatrix}
 A & B \\
 B & C
\end{pmatrix}

akkor a Hesse-determinánsa D = AC - B2 és így olyan eset nincs, hogy ∂11f(u) = 0 lenne, miközben D > 0.

Példák[szerkesztés | forrásszöveg szerkesztése]

Az f(x,y) = x2 + xy + y2 leképezés szélsőértékének keresése esetén célravezető a Hesse-féle determináns vizsgálata.

Definit eset[szerkesztés | forrásszöveg szerkesztése]

Legyen

f(x,y)=x^2+xy+y^2\,

Ekkor grad f = ( 2x + y , 2y + x ), vagyis az elsőderivált próba szerint a

2x + y = 0
2y + x = 0

egyenletrendszer megoldásai közül kerülhetnek ki a szélsőértékek. A megoldás: (x,y) = (0,0).

A második parciális deriváltakat kiszámítva, a Hesse-mátrix minden pontban

\mathrm{H}^{f}(x,y)=\begin{pmatrix}
 2 & 1 \\
 1 & 2
\end{pmatrix}

azaz det Hf = 4 - 1 = 3 > 0 és ∂11f = 2 > 0 miatt (0,0) szélsőértékhely és minimumpont.

Indefinit eset[szerkesztés | forrásszöveg szerkesztése]

Az f(x,y) = x2 + xy - y2 leképezés szélsőértékének keresése esetén célravezet a Hesse-féle determináns vizsgálata.

Legyen

f(x,y)=x^2+xy-y^2\,

Ekkor grad f = ( 2x + y , -2y + x ), melynek zérushelye a (0,0) pont.

A Hesse-mátrix minden pontban

\mathrm{H}^{f}(x,y)=\begin{pmatrix}
 2 & 1 \\
 1 & -2
\end{pmatrix}

innen det Hf = -4 - 1 = -5 < 0, így a próba megint sikeres, éspedig állíthatjuk, hogy (0,0) biztosan nem szélsőértékhely. Ebben a pontban a függvények úgynevezett nemdegenerált nyeregpontja van. Egy stacionárius pont nem degenerált, ha abban a pontban a Hesse-féle detremináns nem nulla értékű.

Szemidefinit eset[szerkesztés | forrásszöveg szerkesztése]

Az f(x,y) = x2 + 2xy + y2 leképezés esetén a Hesse-féle determináns vizsgálata nem vezet célra.

Legyen

f(x,y)=x^2+2xy+y^2\,

Ekkor grad f = ( 2x + 2y , 2y + 2x ), így a gradiens zérushelye minden olyan (x,y) pont, amire x = - y. Ezekben a pontokban a Hesse-mátrix:

\mathrm{H}^{f}(x,y)=\begin{pmatrix}
 2 & 2 \\
 2 & 2
\end{pmatrix}

azaz det Hf = 4 - 4 = 0, azaz a próba nem járt sikerrel. De tudjuk, hogy

f(x,y)=x^2+2xy+y^2=(x+y)^2\,

ami pontosan akkor minimális, ha x + y = 0, és ezeken a helyeken valóban szélsőértéke van, mert itt a függvény a lehető legkisebb, azaz 0 értéket veszi föl.

Implicit módon megadott görbe szinguláris pontjai[szerkesztés | forrásszöveg szerkesztése]

Azt mondjuk, hogy az

F(x,y)=0\,

egyenlettek megadott görbének szinguláris pontja az (x_0,y_0) pont, ha ebben a pontban az F függvénynek nincs intervallumon értelmezett differenciálható implicit függvénye egyik változóra vonatkozólag sem (azaz egyik változó sem fejezhető ki lokálisan a másikkal). Szinguláris pont szükséges feltétele az

F(x_0,y_0)=0,\qquad \partial_1F(x_0,y_0)=0,\qquad \partial _2F(x_0,y_0)=0\qquad

egyenletek egyidejű fennállása.

Ha F kétszer folytonosan differenciálható függvény és az origóra a fenti egyenlőségek teljesülnek, akkor az F függvény (0,0)-beli Hesse-determinánsa vizsgálatával a görbe néhány jellegzetes vonására következtethetünk.[5] Az F-et másodrenden közelítő kvadratikus leképezés számára a D = AC - B2 Hesse-determináns ellentettje egyfajta diszkriminánsként működik. Három eset lehet. D < 0 esetén a kvadratikus leképezéshez nincs olyan irány, amely mentén az mindenhol nulla lenne. D = 0 esetén egy ilyen irány van, D > 0 esetén két különböző ilyen irány van.

  1. Ha det HF(0,0) > 0, akkor (0,0) izolált pontja a görbének (pl.: (x2 + y2)(1 – y) = 0 az origóban). Ez azzal indokolható, hogy ekkor az F leképezésnek (0,0)-ban szigorú lokális szélsőértéke van, így annak egy környezetében az F függvény az (0,0)-t kivéve sehol sem nulla. Így az (0,0)-beli implicit függvény egyedül az egyelemű {x0} halmazon értelmezett y (x0) = y0 függvény.
  2. Ha det HF(0,0) < 0, akkor (0,0)-ban a görbe átmetsző (pl.: az x3 + y3 – 3xy = 0 Descartes-féle levélnél). Hiszen ekkor a (0,0) pont nyeregpont, így a felület biztosan legalább két különböző irányban átmetszi az [xy] síkot.
  3. Ha det HF(0,0) = 0, akkor a görbe számos módon viselkedhet; az egyik például, hogy saját magával érintkezik első rendben, azaz két ágának ugyanaz az érintőegyenese (pl.: x2y4 = 0). De átmetsző is lehet, például az x2y2 = 0 egyenletnél.

Feltételes szélsőértékprobléma Hesse-mátrixa[szerkesztés | forrásszöveg szerkesztése]

Ha az

f(x_1, x_2, \dots, x_n),

függvény

g(x_1, x_2, \dots, x_n) = c,

korlátozásnak alávetett megszorításának szélsőértékeit keressük, akkor ezt az

f+\lambda(g-c)\,

függvény szabad szélsőértékeinél kell keresnünk. Ha elégségességi vizsgálatokat is szándékozunk végezni, akkor felírhatjuk az f + λg feladat Hesse-mátrixát, a λ új változóval kiegészítve:

H^{f+\lambda g}(x_1, x_2, \dots, x_n,\lambda) = \begin{bmatrix}
 \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1\,\partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_1\,\partial x_n} &\frac{\partial g}{\partial x_1} \\  \\
\frac{\partial^2 f}{\partial x_2\,\partial x_1} & \frac{\partial^2 f}{\partial x_2^2} & \cdots & \frac{\partial^2 f}{\partial x_2\,\partial x_n} & \frac{\partial g}{\partial x_2} \\  \\
\vdots & \vdots & \ddots & \vdots  &\vdots\\  \\
\frac{\partial^2 f}{\partial x_n\,\partial x_1} & \frac{\partial^2 f}{\partial x_n\,\partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_n^2}& \frac{\partial g}{\partial x_n}\\  \\
\frac{\partial g}{\partial x_1} & \frac{\partial g}{\partial x_2} & \cdots & \frac{\partial g}{\partial x_n} & 0  
\end{bmatrix}

Világos, hogy ez a mátrix soha sem lesz definit, mert a (0,0,…,1) nemnulla vektoron a z \mapsto z'Hz leképezés a 0-t veszi föl. Ám ha már az n × n-es bal felső blokk definit, akkor már kijelenthetjük, hogy szigorú, lokális szélsőértékről beszélhetünk (pozitív definit esetben minimumról, negatív esetben maximumról).

Ez amiatt van, hogy a z'Hz kvadratikus leképezést a feltételi egyenletnek megfelelő alakban kell felírni, azaz ha (z_1, z_2,…, z_n) tetszőleges vektorok, akkor a

z'H^fz\,

kvadratikus alakot a feltételi egyenlet differenciálásával adódó

\frac{\partial g}{\partial x_1}z_1+\frac{\partial g}{\partial x_2}z_2+\dots+\frac{\partial g}{\partial x_n}z_n=0

egyenletben szereplő valamely alkalmas változót kell kifejezni a többi függvényében és az így adódó z'Hz kvadratikus leképezést kell tovább vizsgálni.

Lábjegyzetek[szerkesztés | forrásszöveg szerkesztése]

  1. Serge Lang, Undergraduate calculus p 486, Springer 2nd ed 1997
  2. Jeff Miller & all Earliest Known Uses of Some of the Words of Mathematics
  3. Kristóf János, Az analízis elemei. II. ELTE jegyzet. 175. o. pdf
  4. Balázs Márton – Kolumbán József,Matematikai analízis 205. o., Ed. Dacia, Cluj-Napoca 1979.
  5. A. F. Bermant, Matematikai analízis II., Tankönyvkiadó, Bp. 1951., 93. o.,

Külső hivatkozások[szerkesztés | forrásszöveg szerkesztése]