Hesse-mátrix

A lap ellenőrzött változata (ellenőrizve: 2020. július 2.) ezen a változaton alapul.

${\begin{bmatrix}{\frac {\partial ^{2}f}{\partial x_{1}^{2}}}&{\frac {\partial ^{2}f}{\partial x_{1}\,\partial x_{2}}}&\cdots &{\frac {\partial ^{2}f}{\partial x_{1}\,\partial x_{n}}}\\\\{\frac {\partial ^{2}f}{\partial x_{2}\,\partial x_{1}}}&{\frac {\partial ^{2}f}{\partial x_{2}^{2}}}&\cdots &{\frac {\partial ^{2}f}{\partial x_{2}\,\partial x_{n}}}\\\\\vdots &\vdots &\ddots &\vdots \\\\{\frac {\partial ^{2}f}{\partial x_{n}\,\partial x_{1}}}&{\frac {\partial ^{2}f}{\partial x_{n}\,\partial x_{2}}}&\cdots &{\frac {\partial ^{2}f}{\partial x_{n}^{2}}}\end{bmatrix}}$

Egy n-változós függvény Hesse-mátrixa

A matematikában, közelebbről a matematikai analízisben Hesse-féle mátrixnak (ejtsd: hessze) egy többváltozós valós függvény másodrendű parciális deriváltjaiból alkotott négyzetes mátrixát nevezzük.

Legyen

f(x_{1},x_{2},\dots ,x_{n}),\,\!

n-változós valós függvény. Ha mindegyik másodrendű parciális deriváltja létezik az f értelmezés tartományának egy x belső pontjában, akkor a Hesse-mátrix mátrixelemei a

[\mathbf {H} ^{f}(x)]_{ij}=\partial _{ij}^{2}f(x)\,\!

számok, ahol x = (x₁, x₂, …, x_n), i, j tetszőleges számok 1-től n-ig, ∂²_ij pedig a másodrendű parciális deriválás jele.^[1]

A Hesse-féle mátrix determinánsa a Hesse-determináns. A Hesse-determináns elnevezést először James Joseph Sylvester használta, Ludwig Otto Hesse tiszteletére, aki először vezette be és „függvénydeterminánsnak” nevezte.^[2]

Hesse-mátrix szimmetrikussága

A Hesse-mátrix főátlóján kívüli elemei a vegyes másodrendű parciális deriváltak. Young tétele értelmében ha az f függvény az u pont egy környezetében mindenütt kétszer parciálisan differenciálható és az u pontban a második deriváltak folytonosak, akkor a parciális deriválás nem függ a deriválás sorrendjétől, azaz a vegyes deriváltak egyenlők. Ez pontosan azt jelenti, hogy a Hesse-mátrix szimmetrikus. Például kétváltozós f függvénynél (u-ban f kétszer folytonosan differenciálható)

[\mathbf {H} ^{f}(u)]_{21}={\frac {\partial ^{2}f(u)}{\partial y\partial x}}={\frac {\partial ^{2}f(u)}{\partial x\partial y}}=[\mathbf {H} ^{f}(u)]_{12}

.

A Hesse-mátrix mint a deriválttenzor mátrixa

Ha az f függvény az U halmazon értelmezett n-változós valós függvény és az U halmazon létezik az f gradiense, és a grad(f) : U $\to$ Rⁿ leképezés totálisan differenciálható az u∈ U pontban, akkor a gradiensfüggvény differenciáljának mátrixa a sztenderd bázisra vonatkozólag éppen a Hesse-mátrix:

[\mathrm {d\,(grad\,} f)(u)]=\mathbf {H} ^{f}(u)\,

A d (grad f)(u) tenzor tekinthető úgy, mint az f másodrendű differenciálja az u-ban és teljesül rá, hogy minden x ∈ U-ra :

f(x)=f(u)+\mathrm {grad} \,f(u)\cdot (x-u)+{\frac {1}{2}}(x-u)\mathrm {H} ^{f}(u)(x-u)+\varepsilon (x)||x-u||^{2}

ahol ε folytonos u-ban és ott eltűnik.

Stacionárius pont és szélsőérték létezése

Ha a többváltozós valós f kétszer folytonosan differenciálható, és $\mathrm {grad} \,f(u)=0$ , akkor értelmezési tartományának u pontját stacionárius pontnak nevezzük. Ha a Hesse-determináns u-ban nulla, akkor ez degenerált kritikus pont.

A Hesse-mátrix segítségével megfogalmazható a többváltozós valós értékű függvények másodikderivált-próbája. Tegyük fel, hogy az u pontban az f-nek stacionárius pontja és legyen

Q_{u}^{f}(\mathbf {v} )=\mathbf {v} \mathrm {H} ^{f}(u)\mathbf {v} \,

a H^f(u)-hoz asszociált kvadratikus leképezés.

Ha a Q^f_u(v) kifejezés pozitív minden nemnulla v vektorra, azaz ha Q^f_u pozitív definit, akkor f-nek u-ban lokális minimuma van. Ez a tulajdonság Sylvester tétele alapján azt jelenti, hogy H^f(u) mátrixának bal felső kvadratikus aldeterminánsai csupa pozitív értékeket felvevő sorozatot alkotnak:

\partial _{11}f(u)>0,\quad {\underset {\scriptstyle {1=i,j\leq 2}}{\det }}[\partial _{ij}f(u)]>0,\quad \dots \quad \det \,\mathrm {H} ^{f}(u)>0

Ha a Q^f_u(v) kifejezés negatív minden nemnulla v vektorra, azaz ha Q^f_u negatív definit, akkor f-nek u-ban lokális maximuma van. Ekkor az aldeterminánsok előjelváltóak:

\partial _{11}f(u)<0,\quad {\underset {\scriptstyle {1=i,j\leq 2}}{\det }}[\partial _{ij}f(u)]>0,\quad {\underset {\scriptstyle {1=i,j\leq 3}}{\det }}[\partial _{ij}f(u)]<0,\quad \dots \quad \det \,\mathrm {H} ^{f}(u){\underset {>}{<}}0

Indefinit esetben vagyis amikor Q felvesz pozitív és negatív értékeket is, a próba állítása szerint biztosan nincs szélsőérték. Szemidefinit esetben, amikor van olyan nemnulla v, amire Q^f_u(v)=0, a próba nem jár sikerrel.^[3]

Kétváltozós függvény szélsőértékei

Speciálisan kétváltozós függvények esetén a próba konkrétan a következők ellenőrzését jelenti:

ha det H^f(u) > 0 és ∂₁₁f(u) > 0, akkor u-ban lokális minimum van,
ha det H^f(u) > 0 és ∂₁₁f(u) < 0, akkor u-ban lokális maximum van,
ha det H^f(u) < 0, akkor u-ban nincs lokális szélsőérték (valamilyen típusú nyeregpontról beszélünk)
ha det H^f(u) = 0, akkor a próba nem járt sikerrel.^[4]

Megjegyzés. Ha a Hesse-mátrix elemei

\mathrm {H} ^{f}(u)={\begin{pmatrix}A&B\\B&C\end{pmatrix}}

akkor a Hesse-determinánsa D = AC – B² és így olyan eset nincs, hogy ∂₁₁f(u) = 0 lenne, miközben D > 0.

Példák

Az f(x,y) = x² + xy + y² leképezés szélsőértékének keresése esetén célravezető a Hesse-féle determináns vizsgálata.

Definit eset

Legyen

f(x,y)=x^{2}+xy+y^{2}\,

Ekkor grad f = ( 2x + y , 2y + x ), vagyis az elsőderivált próba szerint a

2x + y = 0

2y + x = 0

egyenletrendszer megoldásai közül kerülhetnek ki a szélsőértékek. A megoldás: (x, y) = (0, 0).

A második parciális deriváltakat kiszámítva, a Hesse-mátrix minden pontban

\mathrm {H} ^{f}(x,y)={\begin{pmatrix}2&1\\1&2\end{pmatrix}}

azaz det H^f = 4 - 1 = 3 > 0 és ∂₁₁f = 2 > 0 miatt (0, 0) szélsőértékhely és minimumpont.

Indefinit eset

Az f(x,y) = x² + xy - y² leképezés szélsőértékének keresése esetén célravezet a Hesse-féle determináns vizsgálata.

Legyen

f(x,y)=x^{2}+xy-y^{2}\,

Ekkor grad f = ( 2x + y , -2y + x ), melynek zérushelye a (0, 0) pont.

A Hesse-mátrix minden pontban

\mathrm {H} ^{f}(x,y)={\begin{pmatrix}2&1\\1&-2\end{pmatrix}}

innen det H^f = -4 – 1 = -5 < 0, így a próba megint sikeres, éspedig állíthatjuk, hogy (0, 0) biztosan nem szélsőértékhely. Ebben a pontban a függvények úgynevezett nemdegenerált nyeregpontja van. Egy stacionárius pont nem degenerált, ha abban a pontban a Hesse-féle determináns nem nulla értékű.

Szemidefinit eset

Az f(x,y) = x² + 2xy + y² leképezés esetén a Hesse-féle determináns vizsgálata nem vezet célra

Legyen

f(x,y)=x^{2}+2xy+y^{2}\,

Ekkor grad f = ( 2x + 2y , 2y + 2x ), így a gradiens zérushelye minden olyan (x, y) pont, amire x = - y. Ezekben a pontokban a Hesse-mátrix:

\mathrm {H} ^{f}(x,y)={\begin{pmatrix}2&2\\2&2\end{pmatrix}}

azaz det H^f = 4 – 4 = 0, azaz a próba nem járt sikerrel. De tudjuk, hogy

f(x,y)=x^{2}+2xy+y^{2}=(x+y)^{2}\,

ami pontosan akkor minimális, ha x + y = 0, és ezeken a helyeken valóban szélsőértéke van, mert itt a függvény a lehető legkisebb, azaz 0 értéket veszi föl.

Implicit módon megadott görbe szinguláris pontjai

Azt mondjuk, hogy az

F(x,y)=0\,

egyenlettel megadott görbének szinguláris pontja az ( $x_{0}$ , $y_{0}$ ) pont, ha ebben a pontban az F függvénynek nincs intervallumon értelmezett differenciálható implicit függvénye egyik változóra vonatkozólag sem (azaz egyik változó sem fejezhető ki lokálisan a másikkal). Szinguláris pont szükséges feltétele az

F(x_{0},y_{0})=0,\qquad \partial _{1}F(x_{0},y_{0})=0,\qquad \partial _{2}F(x_{0},y_{0})=0\qquad

egyenletek egyidejű fennállása.

Ha F kétszer folytonosan differenciálható függvény és az origóra a fenti egyenlőségek teljesülnek, akkor az F függvény (0, 0)-beli Hesse-determinánsa vizsgálatával a görbe néhány jellegzetes vonására következtethetünk.^[5] Az F-et másodrenden közelítő kvadratikus leképezés számára a D = AC - B² Hesse-determináns ellentettje egyfajta diszkriminánsként működik. Három eset lehet. D < 0 esetén a kvadratikus leképezéshez nincs olyan irány, amely mentén az mindenhol nulla lenne. D = 0 esetén egy ilyen irány van, D > 0 esetén két különböző ilyen irány van.

Ha det H^F(0, 0) > 0, akkor (0, 0) izolált pontja a görbének (pl.: (x² + y²)(1 – y) = 0 az origóban). Ez azzal indokolható, hogy ekkor az F leképezésnek (0, 0)-ban szigorú lokális szélsőértéke van, így annak egy környezetében az F függvény az (0, 0)-t kivéve sehol sem nulla. Így az (0, 0)-beli implicit függvény egyedül az egyelemű {x₀} halmazon értelmezett y (x₀) = y₀ függvény.
Ha det H^F(0, 0) < 0, akkor (0, 0)-ban a görbe átmetsző (pl.: az x³ + y³ – 3xy = 0 Descartes-féle levélnél). Hiszen ekkor a (0, 0) pont nyeregpont, így a felület biztosan legalább két különböző irányban átmetszi az [xy] síkot.
Ha det H^F(0, 0) = 0, akkor a görbe számos módon viselkedhet; az egyik például, hogy saját magával érintkezik első rendben, azaz két ágának ugyanaz az érintőegyenese (pl.: x² – y⁴ = 0). De átmetsző is lehet, például az x²y² = 0 egyenletnél.

A feltételes szélsőérték-probléma Hesse-mátrixa

Ha az

f(x_{1},x_{2},\dots ,x_{n}),

függvény

g(x_{1},x_{2},\dots ,x_{n})=c,

korlátozásnak alávetett megszorításának szélsőértékeit keressük, akkor ezt az

f+\lambda (g-c)\,

függvény szabad szélsőértékeinél kell keresnünk. Ha elégségességi vizsgálatokat is szándékozunk végezni, akkor felírhatjuk az f + λg feladat Hesse-mátrixát, a λ új változóval kiegészítve:

H^{f+\lambda g}(x_{1},x_{2},\dots ,x_{n},\lambda )={\begin{bmatrix}{\frac {\partial ^{2}f}{\partial x_{1}^{2}}}&{\frac {\partial ^{2}f}{\partial x_{1}\,\partial x_{2}}}&\cdots &{\frac {\partial ^{2}f}{\partial x_{1}\,\partial x_{n}}}&{\frac {\partial g}{\partial x_{1}}}\\\\{\frac {\partial ^{2}f}{\partial x_{2}\,\partial x_{1}}}&{\frac {\partial ^{2}f}{\partial x_{2}^{2}}}&\cdots &{\frac {\partial ^{2}f}{\partial x_{2}\,\partial x_{n}}}&{\frac {\partial g}{\partial x_{2}}}\\\\\vdots &\vdots &\ddots &\vdots &\vdots \\\\{\frac {\partial ^{2}f}{\partial x_{n}\,\partial x_{1}}}&{\frac {\partial ^{2}f}{\partial x_{n}\,\partial x_{2}}}&\cdots &{\frac {\partial ^{2}f}{\partial x_{n}^{2}}}&{\frac {\partial g}{\partial x_{n}}}\\\\{\frac {\partial g}{\partial x_{1}}}&{\frac {\partial g}{\partial x_{2}}}&\cdots &{\frac {\partial g}{\partial x_{n}}}&0\end{bmatrix}}

Világos, hogy ez a mátrix soha sem lesz definit, mert a (0, 0, …, 1) nemnulla vektoron a z $\mapsto$ z'Hz leképezés a 0-t veszi föl. Ám ha már az n × n-es bal felső blokk definit, akkor már kijelenthetjük, hogy szigorú, lokális szélsőértékről beszélhetünk (pozitív definit esetben minimumról, negatív esetben maximumról).

Ez amiatt van, hogy a z'Hz kvadratikus leképezést a feltételi egyenletnek megfelelő alakban kell felírni, azaz ha ( $z_{1}$ , $z_{2}$ , …, $z_{n}$ ) tetszőleges vektorok, akkor a

z'H^{f}z\,

kvadratikus alakot a feltételi egyenlet differenciálásával adódó

{\frac {\partial g}{\partial x_{1}}}z_{1}+{\frac {\partial g}{\partial x_{2}}}z_{2}+\dots +{\frac {\partial g}{\partial x_{n}}}z_{n}=0

egyenletben szereplő valamely alkalmas változót kell kifejezni a többi függvényében és az így adódó z'Hz kvadratikus leképezést kell tovább vizsgálni.

Jegyzetek

↑ Serge Lang, Undergraduate calculus p 486, Springer 2nd ed 1997
↑ Jeff Miller & all Earliest Known Uses of Some of the Words of Mathematics
↑ Kristóf János, Az analízis elemei. II. ELTE jegyzet. 175. o. pdf Archiválva 2004. október 13-i dátummal a Wayback Machine-ben
↑ Balázs Márton – Kolumbán József,Matematikai analízis^{[halott link]} 205. o., Ed. Dacia, Cluj-Napoca 1979.
↑ A. F. Bermant, Matematikai analízis II.^{[halott link]}, Tankönyvkiadó, Bp. 1951., 93. o.

Külső hivatkozások

Hessian matrix a PlanetMath lapon

Matematikaportál • összefoglaló, színes tartalomajánló lap

[1] Serge Lang, Undergraduate calculus p 486, Springer 2nd ed 1997

[2] Jeff Miller & all Earliest Known Uses of Some of the Words of Mathematics

[3] Kristóf János, Az analízis elemei. II. ELTE jegyzet. 175. o. pdf Archiválva 2004. október 13-i dátummal a Wayback Machine-ben

[4] Balázs Márton – Kolumbán József,Matematikai analízis^{[halott link]} 205. o., Ed. Dacia, Cluj-Napoca 1979.

[5] A. F. Bermant, Matematikai analízis II.^{[halott link]}, Tankönyvkiadó, Bp. 1951., 93. o.

[1]

[2]

[3]

[4]

[5]