![]()
你是否還記得中學數學里那個熟悉的拋物線y=ax^2+bx+c?它的開口方向由a決定,與x軸的交點由判別式Δ決定。這就引出了一個核心問題:如何判斷一個多項式的值是恒正、恒負還是有正有負?
本文正是從這個簡單的中學問題出發,將視野拓展到更廣闊的領域。它展示了如何用矩陣語言來描述多變量的二次函數,并利用特征值、行列式和合同變換等線性代數工具,來解決更復雜維度的“開口方向”和“正負性”問題。
撰文 | 朱慧堅(廣州南方學院數學與統計學院副教授)、丁玖(廣州南方學院數學與統計學院教授)
從一元二次函數說起
讀過中學的人對實系數二次多項式 = ^2 + 2 + 是最熟悉不過的了。這個函數的圖像是站立的拋物線,開口朝上或朝下依二次項系數大于或小于零而定。另外,這根拋物線是否完全不碰-軸,又和另一數有關系:如果 ? 2大于零,則拋物線不碰橫坐標軸,這時上述方程沒有實數根;如果 ? ^2小于零,則拋物線非穿過-軸兩次不可,兩個交點的坐標分別等于一元二次方程^2 + 2 + = 0的相異實數根。剩下的情形是 ? ^2等于零,此時光滑曲線與-軸像戀人般“相擁而吻”。看來^2 + 2 + 中三個常數字母構成的表達式 ? ^2,決定了多項式的不同行為;它的相反數被叫做“判別式”。注意,在通常初等代數教科書里,(2)^2 ? 4稱為判別式,但它與這里的判別式僅差正數因子4,故它們本質上無異。
這些簡單的初等知識可以引導人們走向更加寬廣的數學世界,幫助理解一系列屬于不同學科的新概念,而它們的源頭依然是我們最近一直在談論的線性代數。首先,將上面單變量函數中的一次冪乘上一個因子,然后在常數后面乘上的平方,得到兩個變元的齊次二次多項式^2 + 2 + ^2。說它是 “齊次”是因為所有項的次數(各因子變元的冪次數之和)都一樣;對于n次齊次多項式,如果你把其中的每一個變元都同時放大k倍,那么整個多項式就會放大kn倍。
為什么要引進如上兩個變量的齊次多項式?原因是它可以很自然地用矩陣乘法的語言重新表達。讀者馬上就能驗證如下的恒等式
![]()
如果將上式中的二階方陣用表示,二維列向量記為,則^2 + 2 + ^2變成,其中上標代表矩陣和向量的轉置運算。
模仿中學代數所問“單變量二次多項式何時恒正,何時恒負,或者有正有負?”我們問大學代數中的類似問題:“在什么情況下,雙變量二次多項式^2 + 2 + ^2的值對所有不全為零的和都為正、都為負或有正有負?”
二元二次型的符號判別
下面分別用中學生的方法和大學生的方法求解上述問題。先用初等代數。將二次函數進行恒等變形:
![]()
由上可見,要想左式恒大于零或恒小于零,必須大于零或小于零。在這個必要條件下,假設 ? ^2 > 0。如果不為零,那么無論取什么實數,上面最后一個等號后面方括號內那個表達式大于或等于正數( ? ^2)^2/^2。此時^2 +2 + ^2在 > 0時總大于零,在 < 0時總小于零。若 = 0,則對所有的非零數,都有^2 + 2 + ^2 = ^2全大于零或全小于零,依 > 0或 < 0而定。所以,若 > 0和 ? ^2 > 0,則^2 + 2 + ^2的值除了當 = = 0外都大于零;若 < 0和 ? ^2 > 0,則該多項式的值對所有不全為零的和都小于零。由于和在多項式中的對稱性,同理可知,^2 + 2 + ^2 > 0或< 0對所有不全為零的和都為真的另一個充分條件是 > 0和 ? ^2 > 0或 < 0和 ? ^2 > 0。反過來易見, > 0, > 0和 ? ^2 > 0或 < 0, < 0和 ? ^2 > 0也是函數值恒大于零或小于零的必要條件。此外不難看出,^2 + 2 + ^2的值可正可負的充要條件是 ? ^2 < 0。
下面用矩陣手段證明同一結論,走一條與本文主題相關的道路,即采用筆者在之前文章中介紹過的“特征值”概念。計算的特征多項式
![]()
它的兩個實數根是
![]()
分別求解齊次線性方程( ? ) = 0和( ? ) = 0,算出對應于各自特征值和的特征向量(假定 ≠ 0)
![]()
顯見這兩個特征向量相互正交,即^ = 0,這也是上篇文章《正規矩陣有哪些特色?》里命題“實對稱矩陣對應于相異特征值的特征向量必定正交”的直接應用。設 = 0,則有特征值和。無論和是否相等,都有正交特征向量
![]()
避開 = 0這一特殊情形,令
![]()
其中‖‖和‖‖分別為和的歐幾里得2-范數(所有分量平方和的平方根),則是正交矩陣,因而它是可逆矩陣且逆矩陣等于它的轉置矩陣。由于/‖‖和/‖‖是分別對應于和的特征向量,有 = ,其中對角矩陣
![]()
由此得到正交相似關系 = ^ = ^(?1)。令
![]()
它建立了從^2到自身的一個雙射(即單射和滿射)。進行變量替換:
![]()
現考慮第一種情形 > 0(或 < 0)和 ? ^2 > 0,即的第一行第一列元素大于零(或小于零),且它的行列式大于零。這時,由于 > ^2 ≥ 0,系數 > 0(或 < 0)。由特征值和的表達式(1),它們均為正(或均為負)。故對不全為零的和?,有^2 + ?^2 > 0(或< 0)。所以對全部不全為零的數和,都有
^2 + 2 + ^2 > 0(或< 0)。
反過來,如果上式對所有非零向量[, ]都滿足,即
![]()
![]()
類似地,代入[, ] = [0, 1]給出 > 0(或 < 0)。由的特征值和的表達式(1)可知,它們均為實數。設(= 或)是的一個特征值,為其對應的實特征向量。將^左乘 = ,得^ = ^,故 = ^/^。既然^為正,便與^同號。所以的兩個特征值(包括重數)同號。因為它們的積等于的行列式,故有 ? ^2 = ||> 0。
上面的推理過程也讓我們明白,第二種假設 ? ^2 < 0等價于和一正一負,因而^2 + 2 + ^2 = ^2 + ?^2對某些[, ]為正,對別的[, ]為負。
一般二次型與合同變換
熟悉了二階實對稱矩陣給出的雙變量二次型的值域特征,就可對任意階實對稱矩陣進行一
![]()
“變量替換”是數學中常見的一種把戲,目的不外乎是化繁為簡,便于計算。初等微積分里的定積分變量替換法就是眾所皆知的一例。對于二次型,這也是獲取“標準型”的一條途徑。此法的基本思想已經體現在本文前面的二元例子中。如果讓 ∈ ^被替換成 ∈ ^,當然需要這種替換不僅“簡單易行”,而且“來去自由”。滿足這兩個要求的非“線性可逆變換”莫屬,“線性”使得運算簡單,“可逆”保證往返都行。故令 = ,其中為一可逆矩陣,然后
^ = ()^ = ^(^)。
![]()
由于在上述可逆線性變換關系下,同雙雙可以窮盡它們所在的基本空間^中的所有向量,所以多元二次函數^與多元二次函數^具有同樣的值域,找到其中的一個,也就獲得了另外的一個。如果變換取得特別好,以至于矩陣成了一個對角矩陣,那么人們“化簡二次型中嵌入的矩陣”之希望就完全實現了。問題是,這個希望有可能落空嗎?
答案是“不必擔心”,因為實對稱矩陣具有與生俱來的優秀性質:它們正交相似于實對角矩陣。再次回憶矩陣相似的意思:兩個同階方陣和稱為彼此相似,如果存在非奇異矩陣使得 = ^(?1)。與合同一樣,所有同階矩陣之間的相似關系也是一個等價關系。
與實對稱矩陣常常形影不離的一類實矩陣是“正交矩陣”,它們的每一列都是單位向量,即歐幾里得2-范數為1,并且所有列兩兩正交。或言之,方陣為正交矩陣意指^ = 。正交矩陣是可逆矩陣,逆矩陣就是其轉置矩陣。這樣就有此類矩陣的特色雙等式:^ = ^ = 。第二個等式說明正交矩陣的所有行向量也像所有列向量那樣構成了^的一個標準正交基。
在相似性等式 = ^(-1)內,如果非奇異矩陣更上了一層樓升格為正交矩陣,那么這個相似關系同時又是合同關系 = ^!妙就妙在,正如線性代數教科書中都會擺出來展示的那樣,正交矩陣可以出馬使得相應的合同關系中的成為形式最為簡單的對角矩陣,其主對角元恰好是的全部特征值。
現在我們采取拿來主義的方針,將上一篇文章《正規矩陣有哪些特色?》中的一個主要結果借來,作為下面繼續討論的出發點。這個結果對更一般的復數域上的埃爾米特矩陣(也叫厄米矩陣,即其共軛轉置等于自己的那些矩陣)成立,自然對本文的主角實對稱矩陣也情有獨鐘,因此我們只對實矩陣列出如下的預備知識:
引理.存在正交矩陣使得
![]()
![]()
![]()
命題 1. 任一階矩陣與某個對角矩陣Σ合同,其中Σ的主對角元組成{+1, ?1,0}的子集,且主對角元中+1和?1各自出現的次數分別等于的正特征值重數之和和負特征值重數之和,而0出現的次數等于特征值0的重數。
命題 1 中出現的+1的次數和?1的次數(即的正特征值和負特征值的各自總重數),被分別稱為的正慣性指數和負慣性指數,而0出現的次數則等于的階數減去這兩個慣性指數之和,它也恰好是的零空間()的維數(有時叫做的零度)。上述結果表明,實對稱矩陣合同于某個主對角元只可能是+1, ?1和0的一個對角矩陣。
西爾維斯特慣性定律
下面問題來了:如果同一個經過另一個非奇異矩陣而合同于一個新的對角矩陣Σ,其主對角元只可能包含+1, ?1和0,那么所得的正慣性指數和負慣性指數會有變化嗎?如果有變化,則上一段中所說的“的正負慣性指數”就不盡合理,因為這兩個指數不能由唯一確定。
令人放心的是,“的正慣性指數和負慣性指數”是定義合理的,因為早在1852 年,“矩陣”一詞的創造者、英國數學家西爾維斯特(James Joseph Sylvester,1814-1897)證明了現以他名字命名的“西爾維斯特慣性定律”(Sylvester’s law of inertia):
定理1.的正慣性指數和負慣性指數是的不變量。換言之,所有與合同的主對角元只可能包含+1, ?1和0的對角矩陣中的+1, ?1和0之各自個數保持不變。
定理 1 的證明需要向量子空間直和維數加法關系的一個等式,我們先復習一下這個等式。如果向量子空間和只有零向量彼此共享,則它們的“和向量空間” + = { + | ∈ , ∈ }的維數等于的維數加上的維數。此時 + 稱為直和,記為 ⊕ 。
![]()
![]()
的正慣性指數和負慣性指數之差被稱為及其對應的二次型的符號差。俄羅斯數學家阿諾德(Vladimir Arnold,1937-2010)講過這樣一個故事,他曾面試一位法國應用數學家,問道:“的符號差是什么?”這位就數值計算二次型已發表了數十篇研究論文的專家答不出,嘟噥道:“我編寫的電腦程序可以很快算出隨便多大矩陣的符號差,但我的頭腦不能像電腦算得那么快。”其實這個二次型是由矩陣
![]()
確定的。阿諾德想通過這個真實故事來嘲弄一番他眼里的“法國布爾巴基主義數學家”。我們邀請本文讀者替這個倒霉的法國人解答俄國人阿諾德的試題,順便向這位已故 15 年的世界著名數學家展示一下中國人的數學思維能力。
如用特征值的術語,上述西爾維斯特慣性定律的等價說法是:兩個同階的實對稱矩陣具有相同數量的正特征值、負特征值和零特征值,當且僅當它們是合同的。
正定性的判別法:特征值與主子式
回想起在本文開始,我們不厭其煩地討論了一個初等代數問題:“^2+ 2 + ^2在何種條件下,對所有不全為零的和值保持為正、為負或正負相間?”現在,我們已經儲備了足夠的知識,可進一步對多元齊次二次多項式探討同一類型的“值域”問題。
![]()
即是正定矩陣。若的所有特征值為負、非負或非正,同理可證相應結論。上述命題的一個直接結果是:是不定的當且僅當有正負特征值。此外,正定或負定矩陣因為無零特征值,必定是非奇異的。
在本文前部,我們證明了二階實對稱矩陣是正定(或負定)的充要條件是它的首行首列元素為正(或為負)及它的行列式為正。首行首列元素既是方陣的一階子方陣,也是它所對應的行列式,而方陣的行列式則是它的第一行第二行以及第一列第二列元素構成的二階子方陣所對應的行列式。這兩個行列式的行和列在方陣中的指標分別從1連續增加到1或2,因此分別被叫做它的一階或二階前導主子式。這樣,我們已知的結果用新的術語來敘述就是:二階實對稱矩陣是正定(或負定)的,當且僅當它的一階前導主子式大于(或小于)零及二階前導主子式大于零。
這個結論可以推廣到階矩陣。對于 = 1, … , ,由的第1行至第行與第1列至第列相交處的元素構成的階子方陣所對應的行列式稱為的階前導主子式。下面的定理 2用行列式刻畫了的正定性,和上面的定理 1 一樣都是由西爾維斯特發現的;它被稱為關于正定矩陣的“西爾維斯特判別法”。
定理2. 一個實對稱矩陣是正定的,當且僅當它的所有前導主子式均為正數。
![]()
![]()
![]()
![]()
上例說明,僅僅要求所有的前導主子式均為非負數,不足以保證矩陣的半正定性,比之更強的條件是所論方陣的全部主子式都是非負數。一般主子式與前導主子式的區別在于,后者的行和列在原矩陣中的指標必須窮盡從1到某個的所有自然數,而前者只需要子矩陣所有行和列在母矩陣中的原先行列指標是全然相同的正整數。下面是用全部主子式表達出的半正定性質之等價條件,因為它的證明依賴于定理 2,我們將它列為一個直接推論:
系1. 實對稱矩陣為半正定的充分必要條件是它所有的主子式都是非負數。
證明. 必要性的證明與定理 2 證明中必要性的論證過程大同小異,我們就省略不寫了。現證充分性。假設的所有主子式都大于或等于零。令為一正數,考慮攝動后的實對稱矩陣 + 。下面我們用定理 2 證明它是正定的。
任取 + 的一個階前導主子式,它對應的子矩陣為 + ,其中是的對應子矩陣。由假設條件知,|| ≥ 0。通過展開行列式,我們有
![]()
對于負定矩陣和半負定矩陣,分別有與定理2和系1相似的結果。因為是負定(或半負定)矩陣當且僅當-是正定(或半正定)矩陣,從上述定理2和系1出發就能毫無困難地分別推出對矩陣負定性(或半負定性)的判別法:
系2. 一個實對稱矩陣是負定的,當且僅當它的所有偶數階前導主子式均為正數,所有奇數階前導主子式均為負數。
系3.一個實對稱矩陣是半負定的,當且僅當它的所有偶數階主子式均為非負數,所有奇數階主子式均為非正數。
應用掠影:最優化問題與動力系統
到目前為止,我們學到了實對稱矩陣及其子類——正定或半正定矩陣的基本性質,讀者肯定想知道這些知識在其他學科中有哪些重要應用。老實說,它們的應用例子多如牛毛,尤其在當今的大數據時代。作為一個范例,讓我們瞧一瞧正定矩陣的二次型性質怎樣用于在機器學習中大放異彩的最優化理論。
![]()
為水平線的幾何直觀可見。如果不可導,恐怕要借用其他分析手段如“凸分析”來獲取一個有價值的必要條件了;這里按下不表。
我們更感興趣的是在可微性條件下極值點的充分條件。上述最優性必要條件提示我們,極值點屬于臨界點集合。那么,何種性質能確保一個臨界點擔當起極值點的角色?這時,二次型的理論派上了用處。
![]()
![]()
![]()
![]()
圖片來源:Nicoguaro/wikipedia
![]()
我們只對多元二次函數的臨界點分類小試了二次型理論,此時,函數的二階導數是個實對稱常數矩陣。對一般的非線性可微多元函數的同樣問題,人們面臨的現實是二階導數矩陣依賴于函數定義域中點的位置而成為多變量矩陣函數,然而,借助于在臨界點處二階導數矩陣的二次型性質,正定(半正定)、負定(半負定)及不定矩陣仍然是解決問題的關鍵概念。
上述兩例只是浮光掠影地簡述了二次型理論在最優化和動力系統中的個別應用,其他領域如控制理論、最優傳輸、計算幾何等,都是一般埃爾米特矩陣譜理論的用兵之處,讀者們不妨多留個心眼,說不定哪天你調試的機器學習模型、規劃的物流最優路線,甚至手機里信號的精準過濾,背后都藏著二次型悄悄“發力”的身影,這數學世界的小秘密,還等著大家慢慢發掘呢!
完稿于從化溫泉鎮廣州南方學院
注:本文封面圖片來自版權圖庫,轉載使用可能引發版權糾紛。
![]()
特 別 提 示
1. 進入『返樸』微信公眾號底部菜單“精品專欄“,可查閱不同主題系列科普文章。
2. 『返樸』提供按月檢索文章功能。關注公眾號,回復四位數組成的年份+月份,如“1903”,可獲取2019年3月的文章索引,以此類推。
版權說明:歡迎個人轉發,任何形式的媒體或機構未經授權,不得轉載和摘編。轉載授權請在「返樸」微信公眾號內聯系后臺。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.