你是否還記得中學數學里那個熟悉的拋物線y=ax2+bx+c?它的開口方向由a決定,與x軸的交點由判別式Δ決定。這就引出了一個核心問題:如何判斷一個多項式的值是恒正、恒負還是有正有負?
本文正是從這個簡單的中學問題出發,將視野拓展到更廣闊的領域。它展示了如何用矩陣語言來描述多變量的二次函數,并利用特征值、行列式和合同變換等線性代數工具,來解決更復雜維度的“開口方向”和“正負性”問題。
撰文|朱慧堅(廣州南方學院數學與統計學院副教授)、丁玖(廣州南方學院數學與統計學院教授)
從一元二次函數說起
讀過中學的人對實系數二次多項式 = 2 + 2 + 是最熟悉不過的了。 這個函數的圖像是站立的拋物線,開口朝上或朝下依二次項系數 大于或小于零 而定。另外,這根拋物線是否完全不碰 -軸,又和另一數有關系:如果 ? 2 大于零,則拋物線不碰橫坐標軸,這時上述方程沒有實數根;如果 ? 2 小于 零,則拋物線非穿過 -軸兩次不可,兩個交點的 坐標分別等于一元二次方程 2 + 2 + = 0 的相異實數根。剩下的情形是 ? 2 等于零,此時光滑曲線與 -軸像戀人般“相擁而吻”。看來 2 + 2 + 中三個常數字母構成的表達式 ? 2 ,決定了多項式的不同行為;它的相反數被叫做“判別式 ”。注意,在通常初等代數教科書里, (2) 2 ? 4 稱為判別式 ,但它與這里的判別式僅差正 數因子 4 ,故它們本質上無異。
這些簡單的初等知識可以引導人們走向更加寬廣的數學世界,幫助理解一系列屬于不同學科的新概念,而它們的源頭依然是我們最近一直在談論的線性代數。首先,將上面單變量函數中的一次冪 乘上一個因子 ,然后在常數 后 面乘上 的平方,得到兩個變元的齊次二次多項式 2 + 2 + 2 。說它是 “齊次”是因為所有項的次數(各因子變元的冪次數之和)都一樣;對于n次齊次多項式,如果你把其中的每一個變元都同時放大k倍,那么整個多項式就會放大kn倍。
為什么要引進如上兩個變量的齊次多項式?原因是它可以很自然地用矩陣乘法的語言重新表達。讀者馬上就能驗證如下的恒等式
![]()
如果將上式中的二階方陣用 表示,二維列向量記為 ,則 2 + 2 + 2 變 成 ,其中上標 代表矩陣和向量的轉置運算。
模仿中學代數所問“單變量二次多項式何時恒正,何時恒負,或者有正有 負?”我們問大學代數中的類似問題:“在什么情況下,雙變量二次多項式 2 + 2 + 2 的值對所有不全為零的 和 都為正、都為負或有正有負?”
二元二次型的符號判別
下面分別用中學生的方法和大學生的方法求解上述問題。先用初等代數。將二次函數進行恒等變形:
![]()
由上可見,要想左式恒大于零或恒小于零, 必須大于零或小于零。在這個必要 條件下,假設 ? 2 > 0 。如果 不為零,那么無論 取什么實數,上面最后一個等號后面方括號內那個表達式大于或等于正數 ( ? 2 ) 2 / 2 。此時 2 +2 + 2 在 > 0 時總大于零,在 < 0 時總小于零。若 = 0 ,則對所有的非零數 ,都有 2 + 2 + 2 = 2 全大于零或全小于零,依 > 0 或 < 0 而定。所以,若 > 0 和 ? 2 > 0 ,則 2 + 2 + 2 的值除了當 = = 0 外都大于零;若 < 0 和 ? 2 > 0 ,則該多項式的值對所有不全為零的 和 都小于零。由于 和 在多項式中的對稱性,同理可知, 2 + 2 + 2 > 0 或 < 0 對所有不全為零的 和 都為真的另一個充分條件是 > 0 和 ? 2 > 0 或 < 0 和 ? 2 > 0 。反過來易見, > 0 , > 0 和 ? 2 > 0 或 < 0 , < 0 和 ? 2 > 0 也是函數值恒大于零或小于零的必要條件。此外不難看出, 2 + 2 + 2 的值可正可負的充要條件是 ? 2 < 0 。
下面用矩陣手段證明同一結論,走一條與本文主題相關的道路,即采用筆者在之前文章中介紹過的“特征值”概念。計算 的特征多項式
![]()
它的兩個實數根是
![]()
分別求解齊次線性方程 ( ? ) = 0 和 ( ? ) = 0 ,算出對應于各自特征值 和 的特征向量(假定 ≠ 0 )
![]()
顯見這兩個特征向量相互正交,即 = 0 ,這也是上篇文章《》里命題“實對稱矩陣對應于相異特征值的特征向量必定正交”的直接應用。設 = 0 ,則 有特征值 和 。無論 和 是否相等,都有正交特征向量
![]()
避開 = 0 這一特殊情形,令
![]()
其中 ‖ ‖ 和 ‖ ‖ 分別為 和 的歐幾里得 2 -范數(所有分量平方和的平方根 ) ,則 是正交矩陣,因而它是可逆矩陣且逆矩陣等于它的轉置矩陣。由于 / ‖ ‖ 和/ ‖ ‖ 是 分別對應于 和 的特征向量,有 = ,其中對角矩陣
![]()
由此得到正交相似關系 = = ?1 。令
![]()
它建立了從 2 到自身的一個雙射(即單射和滿射 ) 。進行變量替換:
![]()
現考慮第一種情形 > 0 (或 < 0 )和 ? 2 > 0 ,即 的第一行第一列元素大于零(或小于零 ) ,且它的行列式大于零。這時,由于 > 2 ≥ 0 ,系數 > 0 (或 < 0 ) 。由特征值 和 的表達式 ( 1 ) ,它們均為正 (或均為負 ) 。故對不全為零的 和 ? ,有 2 + ? 2 > 0 (或 < 0 ) 。所以對全部不全為零的數 和 ,都有
2 + 2 + 2 > 0 (或 < 0 )。
反過來,如果上式對所有非零向量 [ , ] 都滿足,即
![]()
![]()
類似地,代入 [ , ] = [ 0 , 1] 給出 > 0 ( 或 < 0 ) 。由 的特征值 和 的表達式(1)可知,它們均為實數。設 ( = 或 )是 的一個特征值, 為其對應的實 特征向量。將 左乘 = ,得 = ,故 = / 。既然 為正, 便與 同號。所以 的兩個特征值(包括重數) 同號。因為它們的積等于 的行列式,故有 ? 2 = | | > 0 。
上面的推理過程也讓我們明白,第二種假設 ? 2 < 0 等價于 和 一正一負,因而 2 + 2 + 2 = 2 + ? 2 對某些 [ , ] 為正,對別的 [ , ] 為負。
一般二次型與合同變換
熟悉了二階實對稱矩陣給出的雙變量二次型的值域特征,就可對任意階實 對稱矩陣進行一般性的理論探討。設 = [ ] 為一 階實對稱矩陣,即它所有元素都是實數,且關于主對角線對稱分布,即對所有行列指標 和 都有 = 。 下文中的 均為實對稱矩陣,不再每次都交代。我們將表達式 稱為由 確定的關于 的 矩 陣二次型 ,簡稱 二次型 ,其中列向量 的分量記作x?, x?, … , 。所有這樣的 維列向量的全體,按照通常的向量加法和數乘向量運算,構成了歐幾 里得空間 ,其中任意兩個向量 和 的內積由表達式 ? ? + ? + 定義。向量 的歐幾里得 2 -范數 ‖ ‖ 定義為 與 的內積之平方根。如果兩個向量的內積等于零,則說它們是相互 正交 的。
之所以將 稱為二次型,是因為乘出后它的代數表達式
![]()
是變量 ? , … , 的齊次二次多項式。二次型的用途多種多樣,至今仍吸引著研 究者們為之鉆研。
“變量替換”是數學中常見的一種把戲,目的不外乎是化繁為簡,便于計算。初等微積分里的定積分變量替換法就是眾所皆知的一例。對于二次型,這也是獲取“標準型”的一條途徑。此法的基本思想已經體現在本文前面的二元 例子中。如果讓 ∈ 被替換成 ∈ ,當然需要這種替換不僅“簡單易行”, 而且“來去自由”。滿足這兩個要求的非“線性可逆變換”莫屬,“線性”使得 運算簡單,“可逆”保證往返都行。故令 = ,其中 為一可逆矩陣,然后
= ( ) = ( ) 。
記 = ,則 繼承了 的對稱性。與矩陣 相關的二次型 變成了與矩陣 相關的二次型 。這時我們說 與 合同 。所有同階矩陣之間的合同關系是 個 等價關系 ,即:方陣 與自己合同(因為 = ,其中 是單位矩陣 ) ;若 與 合同 , 則 與 合同(因為 = 推出 = ( ? 1 ) ? 1 ) ; 條件 與 合同及 與 合同隱含 與 合同(因為 = 及 = 隱含 = = ( ) ( ) ) 。
由于在上述可逆線性變換關系下, 同 雙雙可以窮盡它們所在的基本空間 中的所有向量,所以多元二次函數 與多元二次函數 具有同樣的值域,找到其中的一個,也就獲得了另外的一個。如果變換 取得特別好,以至于 矩陣 成了一個對角矩陣,那么人們“化簡二次型中嵌入的矩陣”之希望就完全實現了。問題是,這個希望有可能落空嗎?
答案是“不必擔心”,因為實對稱矩陣具有與生俱來的優秀性質:它們正交 相似于實對角矩陣。再次回憶矩陣相似的意思:兩個同階方陣 和 稱為彼此相似 ,如果存在非奇異矩陣 使得 = ?1 。與合同一樣,所有同階矩陣之間 的相似關系也是一個等價關系。
與實對稱矩陣常常形影不離的一類實矩陣是“正交矩陣”,它們的每一列都 是單位向量,即歐幾里得 2 -范數為 1 ,并且所有列兩兩正交。或言之,方陣 為 正交矩陣意指 = 。正交矩陣是可逆矩陣,逆矩陣就是其轉置矩陣。這樣就有此類矩陣的特色雙等式: = = 。第二個等式說明正交矩陣的所有行向量也像所有列向量那樣構成了 的一個標準正交基。
在相似性等式 = ?1 內,如果非奇異矩陣 更上了一層樓升格為正交矩陣 ,那么這個相似關系同時又是合同關系 = !妙就妙在,正如線性代 數教科書中都會擺出來展示的那樣,正交矩陣可以出馬使得相應的合同關系中的 成為形式最為簡單的對角矩陣,其主對角元恰好是 的全部特征值。
現在我們采取拿來主義的方針,將上一篇文章《》中的一個主要結果借來,作為下面繼續討論的出發點。這個結果對更一般的復數域上的埃爾米特矩陣(也叫厄米矩陣,即其共軛轉置等于自己的那些矩陣)成立,自然對本文的主角實對稱矩陣也情有獨鐘,因此我們只對實矩陣列出如下的預備知識:
引理.存在正交矩陣 使得
其中 為實對角矩陣,它的 個主對角元均為 的特征值,且相同特征值出現的次數等于該特征值的代數重數(這時等于幾何重數,可以簡稱 重數 了 ) 。
等式 = 的等價形式 = 告訴我們,正交矩陣 的每一列都是 的特征向量,它所屬的特征值就位于 的主對角線相對應的那個位置上。如果將 的所有相異特征值排列成 ? , ? , … , ,則可相應重排 的各列,使得在上述引理中, 可以將與 正交相似的實對角矩陣 的主對角元按照特征值的重數如下排列:
? , … , ? , ? , … , ? , … , , … , 。
這樣, = 的分塊矩陣寫法就是
![]()
或可按塊寫成
= , = 1 , … , 。
我們早已知道,彼此相似的矩陣具有完全一樣的特征值,即不僅它們的數值一樣,而且其代數重數和幾何重數也一樣。從正交相似于 的對角矩陣 ,一 眼就可看出 有幾個正特征值、幾個負特征值、幾個零特征值,全部把重數考慮在內。只要知道了正特征值的個數,負特征值的個數就可隨即得知,因為這兩個非負整數之和等于 的秩。而特征值零的個數則等于 的階數減去秩。我們繼而說明,從 出發,一步就可構造出某個非奇異矩陣 ,使得 = Σ ,其中 Σ 為一特殊對角矩陣,特殊性表現為其主對角元頂多包含三個數 + 1 , ? 1 , 0 ,而它們在主對角線上出現的次數恰好是 的正特征值、負特征值、零特征值的個數(重數包括在內 ) 。 的構造如下:
任一實數都可寫成它的符號( +1 或 ? 1 )乘以它的絕對值的形式。據此,將引理中正交相似等式 = 內的對角矩陣 做進一步的因子分解:
= Σ = Σ ,
其中三因子均為對角矩陣,它們的主對角元如下指定:對 = 1 , … , ,若 的第 個主對角元為非零數,則 的第 個主對角元取為該數絕對值的平方根,而 Σ 的第 個主對角元為 +1 或 ?1 ,全依 主對角線上的那個數是正數或負數而定;若 的第 個主對角元為零,則將 的第 個主對角元取為 1 ,而將 Σ 的第 個主對角元取為零。這樣就保證了矩陣 可逆。如此的分解給出
= = Σ = ( )Σ() 。
定義 = ,則 = Σ ,同時我們完成了下一個命題的證明。
命題1. 任一 階矩陣 與某個對角矩陣 Σ 合同,其中 Σ 的主對角元組成 {+1 , ? 1,0} 的子集,且主對角元中 +1 和 ?1 各自出現的次數分別等于 的正特征值重數之和和負特征值重數之和,而 0 出現的次數等于特征值 0 的重數。
命題 1 中出現的 +1 的次數和 ?1 的次數(即 的正特征值和負特征值的各自 總重數 ) ,被分別稱為 的 正 慣性指數 和 負慣性指數 ,而 0 出現的次數則等于 的 階數減去這兩個慣性指數之和,它也恰好是 的零空間 () 的維數(有時叫做 的 零度 ) 。上述結果表明,實對稱矩陣合同于某個主對角元只可能是 +1 , ? 1 和 0 的一個對角矩陣。
西爾維斯特慣性定律
下面問題來了:如果同一個 經過另一個非奇異矩陣 而合同于一個新的對 角矩陣 Σ ,其主對角元只可能包含 +1 , ? 1 和 0 ,那么所得的正慣性指數和負慣性 指數會有變化嗎?如果有變化,則上一段中所說的“ 的正負慣性指數”就不盡合理,因為這兩個指數不能由 唯一確定。
令人放心的是,“ 的正慣性指數和負慣性指數”是定義合理的,因為早在1852 年,“矩陣”一詞的創造者、英國數學家西爾維斯特 ( James Joseph Sylvester , 1814 - 1897 )證明了現以他名字命名的“西爾維斯特慣性定律”( Sylvester’s law of i n e r t i a ):
定理1. 的正慣性指數和負慣性指數是 的 不 變量 。換言之,所有與 合同的主對角元只可能包含 +1 , ? 1 和 0 的對角矩陣中的 +1 , ? 1 和 0 之各自個數保持不變。
定理 1 的證明需要向量子空間直和維數加法關系的一個等式,我們先復習 一下這個等式。如果向量子空間 和 只有零向量彼此共享,則它們的“和向 量空間” + = { + | ∈ , ∈ } 的維數等于 的維數加上 的維數。此時 + 稱為 直和 ,記為 ⊕ 。
現在開始證明慣性定律。假設存在兩個非奇異矩陣 和 ,使得 = Σ 和 = ,其中兩個對角矩陣 Σ 和 的主對角元依次分別為 ? 個 +1 , 個 ?1 以及 ? ? ? 個 0 和 個 +1 , 個 ?1 以及 ? ? 個 0 。注意到因為在合同變換下,矩陣的秩不會改變,故 ? + = + 。我們先證明 ? ≤ 。
定義 的兩個子空間如下:
既然 : → 是雙射,它保持 的任何子空間的維數不變,而子空間 { ∈ | ?+1 = ? = = 0} 的維數等于 ? ,所以 的維數為 ? 。因為 : → 也是 雙射,同理可證 的維數是 ? 。
任一非零向量 ∈ 可以寫成 = ,其中 的后 ? ? 個分量為 0 。這樣,
= ( ) = = Σ > 0 。
類似地,任一向量 ∈ 可以寫成 = ,其中 的前 個分量為 0 。這樣,
= ( ) = = ≤ 0 。
上面兩個不等式的直接推論是 ∩ = {0} 。
根據前述的子空間直和的維數關系, 的維數 ? 加上 的維數 ? 等于 ⊕ 的維數。因為 ⊕ 的維數總是小于或等于母空間 的維數 ,故有不等式 ? + ( ? ) ≤ ,即 ? ≤ 。同法可證 ≤ ? 。所以 ? = ,并直接推出 = 。這就完成了對這一經典定理的論證。
的正慣性指數和負慣性指數之差被稱為 及其對應的二次型的 符號差 。俄羅斯數學家阿諾德( Vladimir Arnold , 1937 - 2010 )講過這樣一個故事,他曾面 試一位法國應用數學家,問道:“ 的符號差是什么?”這位就數值計算二次 型已發表了數十篇研究論文的專家答不出,嘟噥道:“我編寫的電腦程序可以很 快算出隨便多大矩陣的符號差,但我的頭腦不能像電腦算得那么快。”其實這個 二次型是由矩陣
![]()
確定的。阿諾德想通過這個真實故事來嘲弄一番他眼里的“法國布爾巴基主義 數學家”。我們邀請本文讀者替這個倒霉的法國人解答俄國人阿諾德的試題,順 便向這位已故 15 年的世界著名數學家展示一下中國人的數學思維能力。
如用特征值的術語,上述西爾維斯特慣性定律的等價說法是: 兩個同 階的實對稱矩陣具有相同數量的正特征值 、 負特 征 值和零特征值 , 當且 僅當它們是 合同的 。
正定性的判別法:特征值與主子式
回想起在本文開始,我們不厭其煩地討論了一個初等代數問題 :“ 2 + 2 + 2 在何種條件下,對所有不全為零的 和 值保持為正、為負或正負相 間?”現在,我們已經儲備了足夠的知識,可進一步對多元齊次二次多項式探討同一類型的“值域”問題。
一個 階矩陣 如果滿足條件:對所有的非零向量 ∈ ,不等式 > 0(或 < 0 )都成立,則稱它為 正定 (或 負定 ) 的;如果對所有的向量 ∈ 都有 ≥ 0 ( 或 ≤ 0 ) ,則稱 為 半正定 (或 半 負定 )的;若存在 中的兩個向量 和 ,使得 > 0 和 < 0 ,則說 為 不定 的。如下結果清楚表明, 的 特征值的符號可以刻畫它的正定(或負定)性和半正定(或半負定)性。
命題2.正定(或負定)矩陣的所有特征值均為正數(或負數 ) ;半正定(或半 負定)矩陣的所有特征值均為非負數(或非正數 ) 。反之亦然。
證明. 首先 的所有特征值都是實數,設 為其中之一, 為對應的實特征向 量。則 = 隱含 = 。若 正定(或負定 ) ,則 = / > 0(或 < 0 ) ,若 半正定(或半負定 ) ,則 = / ≥ 0 (或 ≤ 0 ) 。
反之,設 的所有特征值 1 , … , 為正,則由正交相似關系 = 可知,對角矩陣 的所有主對角元 1 , … , 都是正數。任給非零向量 ∈ ,令 = ,則有
即 是正定矩陣。若 的所有特征值為負、非負或非正,同理可證相應結論。 上述命題的一個直接結果是: 是不定的當且僅當 有正負特征值。此外,正定或負定矩陣因為無零特征值,必定是非奇異的。
在本文前部,我們證明了二階實對稱矩陣是正定(或負定)的充要條件是它的首行首列元素為正(或為負)及它的行列式為正。首行首列元素既是方陣的一階子方陣,也是它所對應的行列式,而方陣的行列式則是它的第一行第二行以及第一列第二列元素構成的二階子方陣所對應的行列式。這兩個行列式的行和列在方陣中的指標分別從 1 連續增加到 1 或 2 ,因此分別被叫做它的一階或二階前導主子式。這樣,我們已知的結果用新的術語來敘述就是:二階實對稱矩陣是正定(或負定)的,當且僅當它的一階前導主子式大于(或小于)零及二階前導主子式大于零。
這個結論可以推廣到 階矩陣 。對于 = 1 , … , ,由 的第 1 行至第 行與第 1 列至第 列相交處的元素構成的 階子方陣所對應的行列式稱為 的 階 前 導主子式 。下面的定理 2 用行列式刻畫了 的正定性,和上面的定理 1 一樣都是 由西爾維斯特發現的;它被稱為關于正定矩陣的“西爾維斯特判別法”。
定理2 . 一個實對稱矩陣是正定的,當且僅當它的所有前導主子式均為正數。
證明 . 先證必要性。設 為正定矩陣,并令 為 的第 1 行至第 行與第 1 列至第 列相交處的元素構成的 階子方陣,它顯然也是對稱矩陣。任給一 維非零向量 ∈ ,在 的所有分量后面添加 ? 個 0 ,所得的 維非零向量記為 ,則有
即 是正定矩陣。命題 2 保證 的所有特征值均是正數。另一方面,由于方陣的行列式等于它的全部特征值之積,故有 | | > 0 ,也就是說, 的 階前導主 子式大于零。
現證充分性。我們用數學歸納法證明:如果 的所有 個前導主子式都大于 零,則 是正定的。對 = 1 ,二次型為二次單項式函數 2 ,顯然當 > 0 時,一階矩陣 [ ] 是正定的。 = 2 的情形本文最前面已經得證。假若定理 2 對 為真,并設分塊寫出的 + 1 階實對稱矩陣
![]()
的所有 + 1 個前導主子式都大于零;特別地, 階實對稱矩陣 的所有 個前導主子式都是正數,故根據歸納假設, 為正定矩陣。相應地,將非零向量 ∈ +1 寫成分塊形式
![]()
![]()
將 +1 -1 記為 ,則上式便可寫成
![]()
若 +1 = 0 ,則 = 0 ,但因這時 ≠ 0 ,故由于歸納假設, = > 0 。若 +1 ≠ 0 ,則由在下一段里將補充證明的不等式 > -1 ,有
![]()
為了讓證明完善,我們用分塊高斯消元法證實 ? ?1 > 0 :用 ? ?1
左乘分塊矩陣(2) 中的第一行,再將結果加到第二行,就得到形如
![]()
的因子分解。兩邊取行列式,得
![]()
因為 | | 和 || 均為正數, ? ?1 也應是正數。這就完成了定理 2 的證明。
如果讀者想“舉一反三”,可能會受命題 2 的“誤導”,猜測半正定矩陣 的一個等價說法是“ 的所有前導主子式均為非負數。”這個說法其實是錯的, 因為下面的三階實對稱矩陣
![]()
提供了一個反例:這個簡單矩陣的三個前導主子式分別是非負數 0 , 0 , 1 ,然而
![]()
上例說明,僅僅要求所有的前導主子式均為非負數,不足以保證矩陣的半正定性,比之更強的條件是所論方陣的全部主子式都是非負數。一般主子式與前導主子式的區別在于,后者的行和列在原矩陣中的指標必須窮盡從 1 到某個 的所有自然數,而前者只需要子矩陣所有行和列在母矩陣中的原先行列指標是全然相同的正整數。下面是用全部主子式表達出的半正定性質之等價條件,因 為它的證明依賴于定理 2 ,我們將它列為一個直接推論:
系1. 實對稱矩陣為半正定的充分必要條件是它所有的主子式都是 非負數。
證明. 必要性的證明與定理 2 證明中必要性的論證過程大同小異,我們就省略不寫了。現證充分性。假設 的所有主子式都大于或等于零。令 為一正數,考慮攝 動后的實對稱矩陣 + 。下面我們用定理 2 證明它是正定的。
任取 + 的一個 階前導主子式,它對應的子矩陣為 + ,其中 是 的對應子矩陣。由假設條件知, || ≥ 0 。通過展開行列式,我們有
![]()
其中 () 為 中所有的 階主子式之和。由于 的所有主子式也是 的主子式, 故都是非負數,因此 ( ) ≥ 0 。又因為 > 0 ,所以上面 | + | 的表達式說明| + | ≥ > 0 。定理 2 則保證了 + 對任一正數 都是正定矩陣,即對所有的非零向量 ∈ ,
![]()
對上面不等式的兩端取 → 0 的極限,得到 ≥ 0 。這證明了 是半正定的。
對于負定矩陣和半負定矩陣,分別有與定理2和系1相似的結果。因為是負定(或半負定)矩陣當且僅當-是正定(或半正定)矩陣,從上述定理2和系1出發就能毫無困難地分別推出對矩陣負定性(或半負定性)的判別法:
系2 . 一個實對稱矩陣是負定的,當且僅當它的所有偶數階前導主子式均為正 數,所有奇數階前導主子式均為負數。
系3.一個實對稱矩陣是半負定的,當且僅當它的所有偶數階主子式均為非負數,所有奇數階主子式均為非正數。
應用掠影:最優化問題與動力系統
到目前為止,我們學到了實對稱矩陣及其子類——正定或半正定矩陣的基本性質,讀者肯定想知道這些知識在其他學科中有哪些重要應用。老實說,它們的應用例子多如牛毛,尤其在當今的大數據時代。作為一個范例,讓我們瞧一瞧正定矩陣的二次型性質怎樣用于在機器學習中大放異彩的最優化理論。
在最優化這 門學科,一個函數 : Ω ? → 的 局部極小點? ∈ Ω意指,在?的一個小鄰域中,(?)的值最小,即存在 > 0,使得只要 ∈ Ω滿足不等式‖ ? ?‖ < ,就有(?) ≤ ()。局部極大點的定義與此類似,它們統稱為極值點。如果上述不等式對 ≠ ?是嚴格的,則可在相應術語前加上“嚴格”二字。若對所有的∈ Ω都有(?) ≤ (),則稱?為全局極小點或最小值點。同理可定義全局極大點或最大值點。
當目標函數 在極值點可求導時,極值點 ? 的必要條件是它為 的臨界點 ,即 ′ ( ? ) = 0 。這由導數和極值點的定義立即可得,也從拋物線 = 2 在其頂點(對應于極小點)的切線為水平線的幾何直觀可見。如果 不可導,恐怕要借用其他分析手段如“凸分析”來獲取一個有價值的必要條件了;這里按下不表。
我們更感興趣的是在可微性條件下極值點的充分條件。上述最優性必要條件提示我們,極值點屬于臨界點集合。那么,何種性質能確保一個臨界點擔當起極值點的角色?這時,二次型的理論派上了用處。
我們還是以本文最開始的一元二次多項式函數作先導。令 ( ) = 2 + 2 + 。眾所周知,該函數的拋物線圖像之頂點坐標為(?, (?)),其中? =?/ 。在頂點處曲線的切線是水平的,即′(?) = 0。若 > 0,(?)是所有 函數值()中的最小值,而當 < 0時,(?)則是函數的最大值。這是連中學生都知道的事實。如果我們用微積分中的導數概念,就會發現,由于的二階導數′′() = 2,在的臨界點?處,′′(?) = 2當 > 0時大于0,當< 0時小于0。改用矩陣二次型的語言重述之,就是說,在臨界點?,當函數的二階導數值被看成是一階矩陣時,若它是正定的,則?是的全局極小點,若它是負定的,則?是的全局極大點。
現在,我們將上面一元情形直觀的事實推廣到 元二次多項式
![]()
其中 為 階實對稱矩陣, ∈ , 為一實數。這是非線性規劃子領域“二次 規劃”中的基本函數,也是逼近一般非線性目標函數的基本工具。簡單計算給出′() = + 和′′() = 。這里我們僅給出當為正定或負定時關于極值問題的確切結論。這時,有唯一的臨界點? = ?-1。令 ∈ ,計算函 數值的差
![]()
![]()
然后,前面所得到的二次型性質引出如下的結論:
系4 . 若 正定,則(3)式定義的二次函數 有最小值(?),其中? = ?-1是嚴格全局極小點。若 負定,則 在嚴格全局極大點 ? 處達到最大值。
更進一步,當 是半正定的,只要 屬于 的值域,滿足等式? = ?的任一個向量?都是的最小值點,在 是半負定的時候,這樣的 ? 則是 的一個最大 值點。證明完全與上面如同一轍,不再復述。然而需要強調的是,與正定或負定矩陣情形嚴格全局極值點是唯一的事實相反,矩陣為半正定或半負定的二次型最優化問題的解一般不唯一,甚至無最優解。此外,讀者自然也會明白,倘 若 是不定矩陣,對應的最優化問題則無解,因為此時對某些 ∈ 有 ( ) > ( ? ) ,而對其他 出現 ( ) < ( ? ) 。這是最優化界人士不愿看到的現象,然而 卻是另一門覆蓋面廣泛的學科“動力系統”的專家們津津樂道的話題。
我們就對這個話題以一個二維梯度向量場為例再說幾句。二次型 ( , ) = 2 ? 2 對應于不定矩陣
![]()
考慮平面上的線性常微分方程組
![]()
在連續動力系統領域,這個梯度向量場 ? ( , ) 的零點 ( , ) = (0 , 0) 稱為向量場的平衡點或解 曲線族的不動點 ,它也是函數 的臨界點。由于 ′′(0 , 0) 是不定矩陣, (0 , 0) 既不 是局部極小值也不是局部極大值。事實上, = 2 ? 2 在 -直角坐標系中的圖像是雙曲拋物面,其形狀像一副馬鞍,如下圖所示:
![]()
圖片來源 :Nicoguaro/wikipedia
雙曲拋物面與坐標平面 = 0 的交集是開口向上的拋物線 = 2 ( 故(0 , 0) 是 ( , 0) 的最小值 ) ,而與坐標平面 = 0 的交集是開口向下的拋物線 = ? 2 (故 (0 , 0) 是 (0 , ) 的最大值 ) 。正因如此,不動點 (0 , 0) 被幾何形象地 賦予“鞍點 ”之名。
這個鞍點對所論微分方程的解有何意義呢?它意味著所謂“穩定流形”和 “不穩定流形”的共同存在性;對此例,穩定流形是 -軸,不穩定流形是 -軸,意思是初始點屬于 -軸的解曲線最終將收斂于平衡點 (0 , 0 ) ,而初始點位于 -軸的解曲線將遠離平衡點 (0 , 0) 。如下對此加以證明:直接求解初值問題
![]()
其唯一解是
![]()
顯然,對 -軸上的任一初始點 (0 , 0 ) ,解 ( ( ) , ( ) ) = (0 , 0 ?2 ) 當 → ∞ 時收斂到平衡點 (0 , 0) ,而對 -軸上的任一初始點 ( 0 , 0) ,解 ( ( ) , ( ) ) = ( 0 2 , 0)當 → ∞ 時發散到無窮遠。
我們只對多元二次函數的臨界點分類小試了二次型理論,此時,函數的二階導數是個實對稱常數矩陣。對一般的非線性可微多元函數的同樣問題,人們面臨的現實是二階導數矩陣依賴于函數定義域中點的位置而成為多變量矩陣函數,然而,借助于在臨界點處二階導數矩陣的二次型性質,正定(半正定 ) 、負定(半負定)及不定矩陣仍然是解決問題的關鍵概念。
上述兩例只是浮光掠影地簡述了二次型理論在最優化和動力系統中的個別應用,其他領域如控制理論、最優傳輸、計算幾何等,都是一般埃爾米特矩陣譜理論的用兵之處,讀者們不妨多留個心眼,說不定哪天你調試的機器學習模型、規劃的物流最優路線,甚至手機里信號的精準過濾,背后都藏著二次型悄悄“發力”的身影,這數學世界的小秘密,還等著大家慢慢發掘呢!
完稿于從化溫泉鎮廣州南方學院
版權說明:歡迎個人轉發,任何形式的媒體或機構未經授權,不得轉載和摘編。轉載授權請在「返樸」微信公眾號內聯系后臺。
往期推薦閱讀
1、
2、
3、
4、
5、
微信公眾號:考研競賽數學(ID: xwmath)大學數學公共基礎課程分享交流平臺!支持咱號請點贊分享!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.