中文:城主
![]()
前言
李飛飛教授的自傳《The Worlds I See 我所見的世界》英文版11月出版了, 目前還沒看到中文版。
此前對(duì)李飛飛教授了解并不多,除了知道她是大名鼎鼎的ImageNet發(fā)起人,以及斯坦福SAIL人工智能實(shí)驗(yàn)室第一位女性主任。這次讀了教授的自傳,實(shí)話說,超出預(yù)期。
沒想到一位大科學(xué)家的文筆如此之好,教授以女性特有的細(xì)膩筆觸,將自己事業(yè)和生活上的故事娓娓道來,行文之間流露著大學(xué)者的淡然,同時(shí)又把真實(shí)的工作生活經(jīng)歷講得引人入勝。在閱讀過程中,城主不止一次感覺到教授的行文敘事有一種強(qiáng)烈的電影蒙太奇感,工作和生活的線索交織前行,節(jié)奏非常好。
更不用多強(qiáng)調(diào)的是,這是一位AI大佬親身講述的自身科研經(jīng)歷和生活思考,不說文學(xué)性,其信息本身就有巨大的價(jià)值。
整部自傳一共十二章,這里和大家分享一下本城自行翻譯整理的三章,講述了李飛飛踏入研究生直至助理教授階段,克服種種困難完成ImageNet壯舉的那段經(jīng)歷,非常打動(dòng)人,推薦,脫帽致敬。
最后也是最重要的,聽說這本書中文版快要出版了,喜歡的朋友請(qǐng)一定購買正版紙質(zhì)書支持。
分享的三章是:
第五章:第一道光
第六章:北極星
第七章:一個(gè)假設(shè)
第五章:第一道光
想象一種存在,它缺乏的感覺如此之多,以至于甚至不能被描述為“黑暗”,因?yàn)榕c之相對(duì)應(yīng)的光的概念尚未被構(gòu)思出來。想象一個(gè)世界,在這個(gè)世界里,沒有視覺,沒有聽覺,沒有觸覺,使得活著的概念不過是一種代謝上的區(qū)別。想象一個(gè)生物體連最基本的自我意識(shí)都缺乏,除了一些機(jī)械無情的本能去覓食和繁殖,更不用說更復(fù)雜的概念,如身份、社群或更廣闊的現(xiàn)實(shí)。現(xiàn)在想象所有這些發(fā)生在全球范圍內(nèi)——一個(gè)充滿生物的星球,但尚未意識(shí)到自己的存在。
這就是5億4300萬年前覆蓋地球大部分地區(qū)的原始海洋中生命的本質(zhì)。按照今天的標(biāo)準(zhǔn),每一個(gè)清醒的時(shí)刻都沐浴在感官之中,激發(fā)智慧,這些生物如此原始,以至于幾乎接近抽象,它們的生活可能被蘇格拉底描述為完全未經(jīng)審視。這是一個(gè)真正未被看見的世界,以深水和淺薄的本能為特征。
當(dāng)然,我們這些遙遠(yuǎn)祖先的簡(jiǎn)單性質(zhì),鑒于他們所處時(shí)代的環(huán)境,是自然而然的。他們居住在一個(gè)稀疏的水生空間中,即使是對(duì)食物的競(jìng)爭(zhēng)也是一種被動(dòng)的事務(wù)。在三葉蟲出現(xiàn)之前的生物,幾乎只能依靠偶然來偶遇它們的獵物,而獵物采取同樣漫無目的的措施來避開它們的捕食者——盲目的運(yùn)氣——只有當(dāng)下一頓飯如此接近以至于吃掉它幾乎是不由自主的。然而,這種感官剝奪的影響是深遠(yuǎn)的。沒有東西可以看,聽,或觸摸,反過來,這些早期生命形式也就沒有什么可以思考的。由于與我們?cè)谌粘I钪姓J(rèn)為理所當(dāng)然的外部現(xiàn)實(shí)沒有聯(lián)系,它們被如此徹底地剝奪了刺激,以至于它們根本沒有大腦。畢竟,大腦不過是一種有機(jī)信息處理系統(tǒng)——在一個(gè)缺乏感官輸入的生物體中,因而無法收集關(guān)于那個(gè)世界的信息,這幾乎是不必要的。
真正想象這樣一個(gè)生物的內(nèi)在生活幾乎是不可能的,但嘗試這樣做可以有所啟發(fā)。這提醒我們,我們從未知曉過沒有某種感官連接到外部世界的存在,即使是在子宮中,我們也不能簡(jiǎn)單地從這種意識(shí)中退后來思考另一種可能性。畢竟,思想不就是對(duì)刺激的反應(yīng),無論是直接的還是間接的嗎?即使是我們最抽象的思考——即使是像心算這樣短暫的事情——不也是建立在通過多年體驗(yàn)在物理空間中導(dǎo)航所獲得的推理基礎(chǔ)上的嗎?不管我們的思想有多復(fù)雜,其中的大部分都可以最終追溯到來自它們邊界之外的某種干擾。
然后,在一個(gè)如此短暫而又如此變革性的時(shí)期,以至于進(jìn)化生物學(xué)家至今仍對(duì)其感到困惑,世界顛倒了。生命的復(fù)雜性爆炸性增長(zhǎng)——據(jù)估計(jì),進(jìn)化速度加快到所有后續(xù)時(shí)代的四倍——激發(fā)了前所未有的競(jìng)爭(zhēng)氛圍。這是一場(chǎng)持續(xù)的爭(zhēng)奪統(tǒng)治權(quán)的戰(zhàn)斗,每一代新生命都在生存挑戰(zhàn)加劇的壓力下被迫進(jìn)行微小的適應(yīng)。在日益敵對(duì)的世界中,身體變得堅(jiān)硬,以脆弱的防御性外骨骼加固軟組織,并發(fā)展出攻擊性特征,如牙齒、下顎和爪子。
現(xiàn)在被稱為寒武紀(jì)大爆發(fā)的這一事件,是進(jìn)化秩序的猛烈洗牌。盡管它構(gòu)成了地球生命史上一個(gè)關(guān)鍵的篇章——也許是最重要的篇章——但其確切原因尚未確定。有些人認(rèn)為它是由氣候的突然變化觸發(fā)的,而其他人則推測(cè)是海洋酸度的歷史性轉(zhuǎn)變。然而,動(dòng)物學(xué)家安德魯·帕克(Andrew Parker)看到了不同的東西,盡管許多生物學(xué)家對(duì)他的假設(shè)持懷疑態(tài)度,但它深刻影響了我對(duì)人工智能的思考。根據(jù)帕克的說法,引發(fā)寒武紀(jì)大爆發(fā)的導(dǎo)火索不是外來力量,而是內(nèi)在力量,他認(rèn)為是單一能力的出現(xiàn):光敏感性,或現(xiàn)代眼睛的基礎(chǔ)。
這種新興感官的核心是一類蛋白質(zhì),稱為“視蛋白”,它們展現(xiàn)出獨(dú)特的特性,例如在吸收光子時(shí)改變形狀——本質(zhì)上是對(duì)光照的物理反應(yīng)——并以“離子通道”的形式連接在一起,將該反應(yīng)轉(zhuǎn)化為生物電信號(hào),可以在身體其他部位傳輸。
與今天眼睛的驚人復(fù)雜性相比,這些早期的發(fā)展雖然簡(jiǎn)單,但它們提供了一個(gè)進(jìn)化的立足點(diǎn),激發(fā)了快速的上升。下一步是在光敏感區(qū)域周圍形成一個(gè)淺凹槽,使得不僅能夠辨別附近光源的亮度,還能辨別其方向。進(jìn)一步的進(jìn)化迭代使這個(gè)凹槽的深度和狹窄度增加,最終形成了一個(gè)類似針孔相機(jī)的孔徑。
最早在公元前400年左右的中國哲學(xué)家墨子的著作中描述,后來亞里士多德也獨(dú)立觀察到的針孔相機(jī),是對(duì)暗箱效應(yīng)的簡(jiǎn)單利用,這是一種自然現(xiàn)象,在這種現(xiàn)象中,通過一個(gè)小孔過濾的光在室內(nèi)投射出外部世界的清晰圖像。孔徑顯著增加了光敏感性,將視覺體驗(yàn)從簡(jiǎn)單的光感知擴(kuò)展到整個(gè)場(chǎng)景的吸收。
最后,隨著透鏡的出現(xiàn),現(xiàn)代視覺的基礎(chǔ)就完成了,透鏡增加了進(jìn)入眼睛的光線的數(shù)量和清晰度。透鏡究竟是如何形成的仍然是一個(gè)有爭(zhēng)議的話題。
關(guān)于透鏡的起源有許多猜測(cè),其中許多假設(shè)都集中在這樣一個(gè)觀點(diǎn)上:它是從一個(gè)原本與視覺無關(guān)的純粹保護(hù)性結(jié)構(gòu)演化而來的。不過,無論其確切起源如何,透鏡在進(jìn)化記錄中一次又一次地出現(xiàn),獨(dú)立地在所有生物門類中發(fā)展。它很快就形成了一個(gè)精致透明的表面,在世代間靈活適應(yīng),探索了極其廣泛的光學(xué)特性,從而迅速加速了眼睛的進(jìn)化。
感光性是地球生命史上的一個(gè)轉(zhuǎn)折點(diǎn)。通過簡(jiǎn)單地讓光線進(jìn)入——無論多么微弱或無形——我們的進(jìn)化祖先首次認(rèn)識(shí)到,存在著超越自身之外的東西。更緊迫的是,他們看到自己正處于一場(chǎng)生存斗爭(zhēng)中,而且可能有不止一種結(jié)果。他們開始覺醒于一個(gè)充滿威脅和機(jī)遇的惡劣環(huán)境中,資源競(jìng)爭(zhēng)日益激烈,他們自己的行動(dòng)意味著吃或被吃之間的差別。
光的感知是進(jìn)化軍備競(jìng)賽中的第一槍,即使是最微小的優(yōu)勢(shì)——一點(diǎn)點(diǎn)深度的提升或幾乎察覺不到的視敏度增加——都能將幸運(yùn)的擁有者及其后代推向永恒尋找食物、庇護(hù)所和合適伴侶的競(jìng)爭(zhēng)前列。這些微小的競(jìng)爭(zhēng)優(yōu)勢(shì)是進(jìn)化壓力的游樂場(chǎng),通過變異后變異不斷迭代,過程中對(duì)生態(tài)系統(tǒng)產(chǎn)生了近乎即時(shí)的影響。
當(dāng)然,這些變化中的大多數(shù)沒有任何作用,有些甚至是有害的。但那些即使是微小優(yōu)勢(shì)的變化,可以成為破壞性變化的引擎,顛覆自然秩序,在一陣動(dòng)蕩中定下新的基線,更大的能力將很快在此基礎(chǔ)上建立起來。隨著世代的流逝,這一過程加快了,在只有大約一千萬年的時(shí)間里——帕克諷刺地稱之為進(jìn)化的“一眨眼”——地球上的生命煥然一新。
在這種競(jìng)爭(zhēng)動(dòng)態(tài)中起到調(diào)節(jié)作用的是感官意識(shí)與行動(dòng)能力之間的關(guān)系。即使是最早期的視覺形式也傳達(dá)了關(guān)于生物周圍環(huán)境的信息,這些信息不僅指導(dǎo)了它的行為,而且以前所未有的緊迫性驅(qū)動(dòng)了它。越來越多,饑餓的捕食者被賦予了定位食物的能力,而不僅僅是等待食物的到來,甚至采取主動(dòng)步驟去追逐它。反過來,潛在的獵物利用自己初步的意識(shí)進(jìn)行回避動(dòng)作。
很快,這些生物創(chuàng)新的火花綻放成一場(chǎng)集體舞蹈,隨著生命分類的擴(kuò)展,權(quán)力的平衡在新紀(jì)元的戰(zhàn)斗中來回?fù)u擺。今天,化石記錄清楚地展示了這一狂熱時(shí)期自然選擇的成果;證據(jù)表明,僅三葉蟲的進(jìn)化就在寒武紀(jì)末期達(dá)到頂峰,數(shù)以萬計(jì)的物種遍布十個(gè)目。
進(jìn)一步復(fù)雜化這一畫面的是觸覺的同時(shí)出現(xiàn),它很快與不斷發(fā)展的視覺感覺形成了互補(bǔ)的平衡。與早期的光敏感性一樣,原始神經(jīng)末梢在生物體表面掃過,也傳遞了觸覺信號(hào)。
這些神經(jīng)細(xì)胞增長(zhǎng)并相互連接,形成了所謂的“神經(jīng)網(wǎng)”,這是中央神經(jīng)系統(tǒng)的分散前身,最終將特征更高級(jí)生命形式。神經(jīng)網(wǎng)簡(jiǎn)單但強(qiáng)大,是生物電系統(tǒng),將運(yùn)動(dòng)和感官功能融合為一個(gè)適合基本任務(wù)的單一反應(yīng)設(shè)計(jì),如響應(yīng)物理攻擊和尋找食物。盡管原始,但神經(jīng)網(wǎng)是一種進(jìn)化上便捷的方式,以跟上競(jìng)爭(zhēng)日益激烈的世界,甚至在今天,特別是在某些水生生物如某些水母中仍然可以找到。
但僅僅連接眼睛、神經(jīng)末梢和肢體是不夠的,特別是當(dāng)這些眼睛進(jìn)化出更廣泛、更細(xì)膩的世界觀,而這些肢體發(fā)展出新的自由度和更深層次的表達(dá)能力時(shí)。在復(fù)雜環(huán)境中的有效行動(dòng)需要的不僅僅是反射,這又提出了另一個(gè)適應(yīng)挑戰(zhàn),促進(jìn)了在生物看到和感覺到的東西與它如何反應(yīng)之間的日益復(fù)雜的中間步驟的發(fā)展。
隨著感官提供的信息深度和數(shù)量的增長(zhǎng),生物處理這些信息的工具也受到了增長(zhǎng)的壓力——類似于今天對(duì)越來越復(fù)雜的計(jì)算設(shè)備的需求,以管理現(xiàn)代世界中發(fā)現(xiàn)的數(shù)據(jù)過剩。結(jié)果是一個(gè)中央處理樞紐,用于處理日益增長(zhǎng)的神經(jīng)系統(tǒng)的復(fù)雜進(jìn)出,其組件被壓縮得越來越密集,形成了我們現(xiàn)在稱為大腦的器官。
因此,大腦不是來自內(nèi)在某種神秘智慧火花的產(chǎn)物,而是對(duì)外部世界越來越清晰、越來越混亂的圖像的反應(yīng),通過感官向內(nèi)部延伸。感知我們周圍的環(huán)境鼓勵(lì)我們發(fā)展一種整合、分析并最終理解那種感知的機(jī)制。而視覺無疑是其最生動(dòng)的組成部分。
這場(chǎng)戲劇在這些新覺醒的生物中的第一批走上旱地時(shí)達(dá)到了更高的高度,它們從波濤中出現(xiàn),發(fā)現(xiàn)了一個(gè)陌生的景觀,在這里,移動(dòng)的基本原理是不熟悉的,需要一個(gè)全新的范式。例如,移動(dòng)不再是毫不費(fèi)力和全方位的,而是受限于平面表面,并受到重力和摩擦等物理力的干擾。
另一方面,視野的范圍被極大地?cái)U(kuò)展了,因?yàn)楹Q蟊砻嫔戏轿词茏璧K的大氣允許了比深海的幽閉黑暗更廣闊的視野。世界不再是一個(gè)模糊的液體球體,而是一個(gè)開闊的視野,從海岸線的邊緣到山峰的頂峰,甚至更遠(yuǎn)的地方,都洋溢著明亮和清晰。地平線已經(jīng)從幾英寸增長(zhǎng)到數(shù)英里,這些早期陸地居民的思想被挑戰(zhàn)著相應(yīng)地?cái)U(kuò)展。這對(duì)規(guī)劃的概念產(chǎn)生了特別深遠(yuǎn)的影響,因?yàn)樾袆?dòng)現(xiàn)在可以在更廣闊的范圍內(nèi)展開,同時(shí)還要處理更多的不確定性。隨著視野的范圍和深度的擴(kuò)展,思維不得不適應(yīng),發(fā)展出更強(qiáng)的智力能力,逐漸融入了因果關(guān)系的意識(shí)、時(shí)間的流逝,甚至是操縱環(huán)境本身的效應(yīng)。這不僅為強(qiáng)大的捕食者和敏捷的獵物鋪平了道路,也為真正的智慧——以及我們今天所知的人類的基礎(chǔ)——奠定了基石。
數(shù)億年后的今天,我們不禁對(duì)這一進(jìn)化轉(zhuǎn)折點(diǎn)所產(chǎn)生的世界印象深刻。數(shù)千年的文明見證了我們的物種從靈長(zhǎng)類動(dòng)物發(fā)展到游牧部落,再到農(nóng)業(yè)社區(qū),工業(yè)化城市,最終成為技術(shù)、信息處理的超級(jí)大國。
即使到現(xiàn)在,這一驚人的進(jìn)程仍然與我們對(duì)世界的感官連接密不可分。盡管在很大程度上得到了技術(shù)的幫助,從我們口袋里的移動(dòng)設(shè)備到地球軌道上的衛(wèi)星,我們?nèi)匀灰蕾囉谂c日常現(xiàn)實(shí)的連接來導(dǎo)航我們的生活。
恰當(dāng)?shù)氖牵加诨涗浀臇|西已經(jīng)影響到我們自己的文化記錄。藝術(shù)史見證了視覺的首要性——以及我們?cè)趲讉€(gè)世紀(jì)的過程中對(duì)其細(xì)微差別日益增長(zhǎng)的欣賞,從預(yù)示著新交流形式黎明的洞穴壁畫,到文藝復(fù)興期間創(chuàng)意的爆發(fā),再到今天的攝影、電影、電視,甚至是視頻游戲。
我們可以在卡拉瓦喬的強(qiáng)烈對(duì)比和弗美爾與佐恩的柔和陰影之間,看到視覺理解的齒輪轉(zhuǎn)動(dòng)。我們可以超越現(xiàn)實(shí)主義,用梵高的圖標(biāo)學(xué)和卡洛的風(fēng)格化肖像畫提煉日常生活。我們甚至可以在像奧基夫和抽象表現(xiàn)主義者母威爾和羅斯科這樣的現(xiàn)代主義者相對(duì)晦澀的陳述中感受到它的存在。無論是現(xiàn)實(shí)主義還是概念主義,感傷或政治,藝術(shù)利用那數(shù)億年來艱難進(jìn)化的成果,停留在通過個(gè)體的眼睛——因此,是個(gè)體的感性——解讀世界的純粹喜悅上。
“所以,飛飛!成為大學(xué)畢業(yè)生的感覺怎么樣?嗯,差不多了。”
珍已經(jīng)清理了我們的晚餐盤子,并切開了她放在柜臺(tái)上冷卻的一盤布朗尼。這個(gè)甜點(diǎn)在我近四年前第一次訪問薩貝拉家時(shí)成了一個(gè)儀式;那是我第一次難忘的接觸到美國甜點(diǎn),我嘗了一口后臉上的表情讓珍非常高興,她堅(jiān)持每次我回來都要提供布朗尼。事實(shí)上它是一個(gè)簡(jiǎn)單的商店買的混合物并不重要。就我而言,她的布朗尼是奢侈的頂峰。
“非常令人興奮。但我沒想到接下來要做的選擇會(huì)這么難。”
“你有沒有再考慮我們談過的那些選項(xiàng)?研究生院?工作?或許先旅行一下?”薩貝拉先生問道。
“給她一點(diǎn)時(shí)間,鮑勃!”珍一邊笑著一邊端上我們的甜點(diǎn)。
“不,不,沒關(guān)系。實(shí)際上,這是我一直在思考的。”
那是1999年,我在普林斯頓的時(shí)光即將結(jié)束。我再次面臨著科學(xué)抱負(fù)和生活現(xiàn)實(shí)之間的選擇,隨著研究生院的誘惑與開始職業(yè)生涯的壓力相沖突。而且隨著互聯(lián)網(wǎng)熱潮的全面興起,這確實(shí)是一個(gè)真正的難題:金融界急于招募任何具有數(shù)字頭腦和來自正確學(xué)校的高級(jí)學(xué)位的人,甚至像我這樣的物理書呆子也成了華爾街各家公司輪番招募的對(duì)象。我被高盛、美林和其他可以想象其名字刻在莊嚴(yán)大理石板上的公司所追求。他們提供了一切:福利、領(lǐng)導(dǎo)機(jī)會(huì)、令人瞠目結(jié)舌的起薪,當(dāng)然還有真正的健康保險(xiǎn)。他們承諾解除我們的債務(wù),結(jié)束干洗的辛勞,并在我母親健康狀況惡化的情況下為我的家庭提供安全保障。作為回報(bào),他們要求的只是我放棄科學(xué)。
在反復(fù)思考了將近一個(gè)星期后,我終于在干洗店的一個(gè)安靜時(shí)刻向母親提起了這個(gè)話題。我們處于通常的位置:她坐在縫紉機(jī)前,幾根別針夾在嘴唇間,一只眼睛專注地審視著她的工作,而我就在她旁邊,扮演著裁縫助手的角色,拆開她正準(zhǔn)備加長(zhǎng)的一條褲子的縫線。
“媽媽,我在考慮我的選擇。我接受了這些……‘公司’的面試,我想你叫他們這個(gè)?大華爾街的類型。我必須承認(rèn),他們很誘人。”
“大……華爾街的類型?”
我意識(shí)到我已經(jīng)超出了她對(duì)美國文化行話的熟悉范圍。
“你知道的,股票和交易。投資。那種事情。顯然我有很多要學(xué),但我認(rèn)為如果我真的下定決心,這是我能做的。”
“嗯,”她平淡地回答。“那是你想要的嗎?”
“嗯,我的意思是……光是薪水就會(huì)改變我們的生活,而且——”
“飛飛,那是你想要的嗎?”
“你知道我想要什么,媽媽。我想成為一名科學(xué)家。”
“那我們還在談什么?”我的母親總有辦法迅速切斷我含糊其辭的話,快到我需要一秒鐘才能意識(shí)到。僅僅三步就將我困住。我要去讀研究生了。
普林斯頓的教授們常說,研究生學(xué)習(xí)不僅僅是另一個(gè)學(xué)術(shù)里程碑,而是一個(gè)轉(zhuǎn)折點(diǎn),代表著從學(xué)生到像真正的科學(xué)家的第一次過渡,將激情轉(zhuǎn)化為旅程,將親和力轉(zhuǎn)化為身份,將教育錘煉成職業(yè)、聲譽(yù)和生活的基礎(chǔ)。這是一個(gè)鼓舞人心的想法,它澄清了我面臨的問題,但也使問題變得更加令人困擾。我知道我想成為一名科學(xué)家,但是什么樣的科學(xué)家?確切的目的是什么?我怎么知道?
我在加州大學(xué)伯克利分校的經(jīng)歷讓智能的神秘性變得生動(dòng)起來,并向我展示了對(duì)視覺的更深入理解可能是解開它的關(guān)鍵。然而,從這個(gè)認(rèn)識(shí)中延伸出兩條道路:一條是神經(jīng)科學(xué)的,承諾對(duì)大腦能力的更深入洞察;另一條是計(jì)算機(jī)的,在這條道路上,工程學(xué)的基礎(chǔ)可以應(yīng)用于建模,甚至可能復(fù)制那些能力。
我決定追求兩者。
神經(jīng)科學(xué)和計(jì)算研究的結(jié)合,在當(dāng)時(shí)的碩士項(xiàng)目中至少是不尋常的搭配。盡管需要一些腳本工作來追蹤它們,但還是有少數(shù)機(jī)構(gòu)可以容納它。事實(shí)上,幸運(yùn)的是,世界上排名最高的兩所學(xué)校正好提供了我所尋找的項(xiàng)目。
第一個(gè)是斯坦福的雙軌項(xiàng)目,將神經(jīng)科學(xué)與電氣工程相結(jié)合,由在這兩個(gè)領(lǐng)域都有豐富經(jīng)驗(yàn)的罕見學(xué)者大衛(wèi)·希格教授領(lǐng)導(dǎo)。希格的課程每一個(gè)細(xì)節(jié)似乎都為我量身定做,只有一個(gè)不便的例外:他已經(jīng)完成了在學(xué)校的最后一年,沒有他,項(xiàng)目將不會(huì)繼續(xù)。將斯坦福從列表中劃掉,我轉(zhuǎn)向了麻省理工學(xué)院的另一個(gè)項(xiàng)目,這個(gè)項(xiàng)目與我的興趣更加吻合。它是托馬索·波吉奧博士的心血之作,他是一個(gè)相對(duì)晦澀的領(lǐng)域“計(jì)算機(jī)視覺”第一代研究者之一。即使在那時(shí),波吉奧的工作對(duì)我來說也是令人印象深刻的,而且隨著我意識(shí)到它的前瞻性,我的欽佩之情只增不減。他直接從大腦的架構(gòu)中汲取靈感,構(gòu)建了一系列被稱為“連接主義模型”的算法——與神經(jīng)網(wǎng)絡(luò)類似的密集交織信息處理系統(tǒng)——來識(shí)別圖像的內(nèi)容。
然而,我還有另一個(gè)選擇需要考慮:加州理工學(xué)院,更常被稱為Caltech。盡管這所學(xué)校有著自己的悠久歷史和與NASA的輝煌聯(lián)系,通過其世界著名的噴氣推進(jìn)實(shí)驗(yàn)室,但不可否認(rèn)的是,在排名方面它是弱者。斯坦福和麻省理工學(xué)院是世界上最負(fù)盛名的學(xué)術(shù)機(jī)構(gòu)之一,很難想象拒絕它們中的任何一個(gè)——更不用說兩個(gè)——的錄取通知。但是,當(dāng)談到與我的英雄們的聯(lián)系時(shí),Caltech的表現(xiàn)遠(yuǎn)遠(yuǎn)超出了它的重量級(jí),費(fèi)曼、米利肯,甚至愛因斯坦本人都曾在那里講課多年。至少,我無法抗拒去參觀的機(jī)會(huì)。
從我踏上帕薩迪納的那一刻起,很明顯Caltech在氣候方面占有優(yōu)勢(shì)。這是我第一次去南加州,那里的天氣名副其實(shí)的陽光明媚,干燥的熱氣感覺像是從新澤西的潮濕中立即找到了避難所。我也被它的上鏡魅力所打動(dòng),從四面八方盛開的花朵到慵懶曬太陽的烏龜池塘。麻省理工學(xué)院和斯坦福在學(xué)術(shù)上無可挑剔,但這個(gè)地方感覺像天堂。
盡管校園很小——甚至比本身就被認(rèn)為很小的普林斯頓還要小——但我被Caltech的活力所淹沒。五彩繽紛、通風(fēng)的西班牙殖民地建筑在我在母校那些類似大教堂的沉重建筑中度過多年之后,感覺像是另一個(gè)世界。而與物理相關(guān)的觀光機(jī)會(huì)無窮無盡。我立刻發(fā)現(xiàn)了愛因斯坦騎自行車被著名拍照的地點(diǎn),隨意地經(jīng)過了米利肯圖書館,偶然發(fā)現(xiàn)了費(fèi)曼傳奇講座的會(huì)場(chǎng)。
我在Caltech的參觀中看到和感受到的一切都表明這是我應(yīng)該去的地方。雖然這聽起來可能微不足道,但我不能假裝逃離東北雪暴多年的顫抖不是一個(gè)賣點(diǎn)。但是,當(dāng)我遇到我將要向他們學(xué)習(xí)的人時(shí),作為在那里學(xué)習(xí)的傾向變成了確定。
我的第一個(gè)未來導(dǎo)師是皮特羅·佩羅納,他散發(fā)著意大利魅力,對(duì)跨學(xué)科研究沒有界限感;他位于電氣工程系,但熱愛認(rèn)知科學(xué),并與我分享將兩者融合的愿望。即使是在交談中,他的興趣也讓我覺得從我們第一次互動(dòng)起就異常全面。
“出于好奇,飛飛,你覺得墻上的那幅畫作怎么樣?”
皮特羅指向一個(gè)裝裱著大膽原色的海報(bào),上面被不規(guī)則間隔的正交線分成方塊和矩形。我在普林斯頓上了幾堂藝術(shù)課,很興奮地認(rèn)出它是蒙德里安的作品。
“我一直喜歡他的作品,”皮特羅繼續(xù)說。“幾何圖形的簡(jiǎn)潔總是讓我停下來思考。”
“具體思考什么?”我問。
“是否有一些規(guī)則在指導(dǎo)它。或者至少有能力解釋它。”
“規(guī)則?你是說……像是算法?”他微笑著,然后繼續(xù)說:“你不好奇嗎?如果你測(cè)量蒙德里安的每一幅畫作的比例,可能會(huì)發(fā)現(xiàn)某種模式出現(xiàn),那不是很有趣嗎?”
我回以微笑。我說不準(zhǔn)他有多認(rèn)真——我?guī)缀蹩梢钥隙ㄋ窃诤臀议_玩笑——但我喜歡他甚至花時(shí)間去構(gòu)思這樣的想法。聰明、愛冒險(xiǎn),又有點(diǎn)傻氣,三者兼具。我覺得我這輩子都在等待遇見這樣的思考者。
第二個(gè)人是計(jì)算神經(jīng)科學(xué)家克里斯托夫·科赫。就像我和皮特羅一樣,我在第一天就看到了克里斯托夫身上每個(gè)優(yōu)秀科學(xué)家的標(biāo)志:無限的想象力,以及面對(duì)這種想象力自然尋求的挑戰(zhàn)時(shí)的無畏。他在生物物理學(xué)方面成就卓越,但他不斷自我革新的記錄給我留下了深刻印象。像佩羅納一樣,他渴望模糊學(xué)科之間的界限,并鼓勵(lì)我也這樣做。他來自物理學(xué)背景,這是我們共同的經(jīng)歷,也是波焦的前學(xué)生。但我在第一次會(huì)面中了解到,一種深刻的哲學(xué)熱情已經(jīng)纏繞在他的思維周圍,并主導(dǎo)了我們的第一次對(duì)話。
“飛飛,你有沒有想過如何向一個(gè)色盲患者解釋顏色?你會(huì)如何用言語描述看到紅色的體驗(yàn)?”
嗯……我還沒有。
“我們對(duì)顏色的熟悉似乎并沒有轉(zhuǎn)化為描述它的能力,這不是很奇怪嗎?我們真的只能提及它;當(dāng)我說‘藍(lán)色’或‘紅色’時(shí),你可能知道我的意思,但那只是因?yàn)槟阕约阂呀?jīng)見過這些顏色。我的話只是在喚起你的記憶;它們并沒有傳達(dá)新的信息。”
這確實(shí)很發(fā)人深省。
“所以,當(dāng)你想象某個(gè)未來的一代人完全理解視覺是如何工作的,你認(rèn)為他們的掌握會(huì)包括能夠,比如說,從基本原理描述紅色的質(zhì)感嗎?”我思考了一會(huì)兒才回答。
“嗯……嗯,如果你真的指的是‘完全’理解的話,那不是必須的嗎?”
“這是一個(gè)完全合理的回答。但它預(yù)設(shè)了可以在還原主義的解釋中找到這種體驗(yàn)的解釋。如果,不知怎的,沒有呢?那又該怎么辦?我們?cè)撊绾翁幚磉@種矛盾?視覺可能是一個(gè)復(fù)雜的現(xiàn)象——也許是最復(fù)雜的之一——但它仍然是一個(gè)物理過程:物質(zhì)按照物理定律行為。然而,主觀上,我們的體驗(yàn)不是感覺非物質(zhì)的嗎?為什么看到紅色會(huì)有任何主觀的感覺?”
這些問題我以前都沒有考慮過,他對(duì)它們的固執(zhí)告訴了我一切我需要知道的關(guān)于他挑戰(zhàn)我的能力。
他們倆是一對(duì)有趣的搭檔。他們都很高,看起來年齡相仿——我估計(jì)他們都在四十多歲——但體型對(duì)比鮮明,皮特羅更結(jié)實(shí)一些,克里斯托夫相當(dāng)瘦長(zhǎng)。兩人都有濃重的口音——分別是意大利和德國口音——但他們說話時(shí)的幽默感和隨和的自信緩和了他們的強(qiáng)度。盡管皮特羅看起來像學(xué)者,穿著塞進(jìn)褲子的紐扣襯衫和米色的多克斯褲,克里斯托夫卻以一身極具沖擊力的華麗服飾為傲,從鮮艷的熒光襯衫到染成漫畫書顏色的頭發(fā),如綠色和紫色。
然而,他們共有的——而且是以驚人的程度——是一種只能用歡快來形容的好奇心,他們所說的一切都充滿了感染力的活力。他們毫不猶豫,甚至沒有一絲自我意識(shí)地提出關(guān)于復(fù)雜主題的深入問題,仿佛生命中最深刻的奧秘不過是一次對(duì)話之遙。特別是克里斯托夫,他經(jīng)常被自己的思想所吸引,以至于他更喜歡在獨(dú)白中探索它們,而不是和我交談,即使是一對(duì)一的對(duì)話。但他的全神貫注來自于一種天真,而不是疏遠(yuǎn),就像一個(gè)孩子無法自拔地被白日夢(mèng)分心。這讓我想起了我父親的心不在焉,我覺得這很迷人。
在經(jīng)歷了多年的自我懷疑,努力學(xué)習(xí)第二語言,并因此變得有些戒備之后,我會(huì)被這樣強(qiáng)烈的個(gè)性所吸引,這真是奇怪。但正如我和薩貝拉先生發(fā)現(xiàn)的那樣,對(duì)科學(xué)的共同熱愛可以讓我感覺自己是任何人的同行,即使只是在一次友好的聊天中。當(dāng)我發(fā)現(xiàn)自己與像皮特羅和克里斯托夫這樣的人對(duì)話時(shí),我所知道的世界幾乎變得寂靜無聲,仿佛我們的想法本身就在交談,不受我們的語言、地位或年齡的阻礙。他們是一種新型的榜樣:不僅成功移民,而且作為科學(xué)家取得了成功。
我訪問加州理工學(xué)院是我一生中最難忘的下午之一。他們是智力巨人,能夠簡(jiǎn)單地與他們交談幾個(gè)小時(shí)就是一種榮幸,更不用說考慮成為他們的學(xué)生的機(jī)會(huì)了。在我的返程航班起飛之前,我的決定就已經(jīng)做出了。
鑒于其演變的范圍和復(fù)雜性,人類視覺能力已經(jīng)挑戰(zhàn)了幾十年的自動(dòng)化嘗試。但如果這一切改變了呢?如果我們能夠與我們的機(jī)器分享類似人類的世界意識(shí),擁有它們的自動(dòng)化速度和不知疲倦的精確性呢?想象一下,無人機(jī)甚至衛(wèi)星飛越森林、冰川和海岸線,對(duì)環(huán)境健康進(jìn)行全球范圍內(nèi)的專家評(píng)估。想象一下,智能非人類助手幫助視力受損者應(yīng)對(duì)任何復(fù)雜的環(huán)境,就像人類助手一樣。想象一下,通過機(jī)器人第一響應(yīng)者使搜救更安全,它們將急救醫(yī)療技術(shù)人員或消防員的判斷與機(jī)器的耐力和韌性相結(jié)合,或者自動(dòng)化醫(yī)療診斷將專家的洞察力通過移動(dòng)設(shè)備帶給全世界的患者。
數(shù)字世界中也充滿了機(jī)會(huì)。經(jīng)過一百多年的視覺媒體發(fā)展,包括攝影、電影、新聞和電視,圖像消費(fèi)已成為現(xiàn)代生活的一個(gè)固定部分。但與文本和數(shù)字?jǐn)?shù)據(jù)不同,后者自計(jì)算機(jī)問世之初就可以被搜索,即使是對(duì)圖像進(jìn)行粗略的搜索也仍然是一項(xiàng)手動(dòng)工作,需要耗費(fèi)人力的時(shí)間——往往還有工資。視覺智能機(jī)器如何幫助我們理解早已超出手動(dòng)整理希望的集體數(shù)據(jù)負(fù)擔(dān)?這樣的可能性自該領(lǐng)域最早期以來就一直吸引著人工智能研究者。然而他們很快意識(shí)到的是——而且每一代人都只是確認(rèn)了這一點(diǎn)——視覺理解是一個(gè)驚人復(fù)雜性的挑戰(zhàn),從數(shù)據(jù)本身開始。因?yàn)閿?shù)字圖像以像素的形式存儲(chǔ)——即以數(shù)字編碼的單個(gè)顏色點(diǎn)——在機(jī)器看來,它不過是一個(gè)長(zhǎng)長(zhǎng)的整數(shù)列表。要像人類那樣看到圖像,以人、地點(diǎn)和事物等有意義的概念,算法必須篩選這個(gè)列表并識(shí)別出某種相對(duì)應(yīng)的數(shù)字模式。
不幸的是,即使是為簡(jiǎn)單的概念如直線或幾何形狀定義這些模式也是困難的。對(duì)于像人臉這樣有機(jī)和多變的東西——在其所有顏色和比例中,以及在無限范圍的角度、光照條件和背景下——要做到這一點(diǎn)就更加復(fù)雜了。
而且這個(gè)難題從那里只會(huì)變得更深。例如,究竟在哪里劃定界限,將被動(dòng)的看的行為與更深層次的理解的行為區(qū)分開來?純粹的感知體驗(yàn)——由邊緣和紋理賦予形態(tài)的色塊——多久會(huì)被我們賦予這些形狀意義的能力所理解,甚至在我們有時(shí)間意識(shí)到我們所看到的東西之前?很快就變得明確,兩者是無法分離的;看就是理解,使得這個(gè)挑戰(zhàn)既是智力上的,也是感官上的。因此,視覺不僅僅是我們智力的一種應(yīng)用。實(shí)際上,它與我們的智力同義。
這就是視覺的魔力。它是一種如此精細(xì)調(diào)校的技能,盡管我們通過僅僅落在我們眼睛表面的光來看世界,但我們從這光中得到的東西擴(kuò)展到填滿我們整個(gè)體驗(yàn)的全部。這種從感官輸入到健全、可行知識(shí)的幾乎是奇跡般的轉(zhuǎn)換,是我們大腦最令人印象深刻的能力之一。僅這項(xiàng)任務(wù)的計(jì)算成本就遠(yuǎn)遠(yuǎn)超出了即使是倉庫大小的超級(jí)計(jì)算機(jī)所能承擔(dān)的,所有這些都是由一個(gè)濕潤(rùn)的、有機(jī)的、直徑大約五英寸的肉塊提供的。而它的概念深度繼續(xù)讓學(xué)術(shù)界的杰出人物感到謙卑。
視覺之謎遠(yuǎn)不止于理解我們?nèi)绾慰词澜纭K粌H僅是關(guān)于顏色或形狀的問題,也不僅僅是在越來越大的規(guī)模上進(jìn)行數(shù)字運(yùn)算的問題。它是對(duì)我們認(rèn)知核心的現(xiàn)象的調(diào)查,我們是誰以及我們是什么,從生物學(xué)上、人際關(guān)系上和文化上涌現(xiàn)出來。它是通往我們體驗(yàn)最基礎(chǔ)層面的旅程。很多時(shí)候,看就是知道。因此,理解我們?nèi)绾慰矗褪抢斫馕覀冏约骸?/p>
我的研究生生涯始于購買一本特別大的教科書。它在我入學(xué)前一年出版,使得其內(nèi)容幾乎和它的裝訂一樣新鮮。它又重又尖銳,第一次打開時(shí)清晰地發(fā)出了裂開的聲音。每次看到它的封面,我都很興奮,它將我學(xué)術(shù)旅程的每一線索編織成一個(gè)單一的實(shí)物。
它的標(biāo)題是《視覺科學(xué)》,這兩個(gè)詞似乎是專門挑選來描述我自從加州大學(xué)伯克利分校的實(shí)驗(yàn)以來一直試圖追隨的道路。稍低一些的地方,用斜體字,它的副標(biāo)題進(jìn)一步預(yù)見了我的好奇心:從光子到現(xiàn)象學(xué)。在這兩者之上,梵高的《星夜》的全幅插圖幾乎占據(jù)了其表面的三分之二。這是一部密集而全面的作品,注定要成為未來幾十年的標(biāo)準(zhǔn)。我想學(xué)習(xí)它所能教給我的一切。
自那個(gè)在黑暗實(shí)驗(yàn)室中改變生活的時(shí)刻以來已經(jīng)過去了兩年——那些噼里啪啦和呼嘯的聲音讓我首次瞥見了除了我自己之外的其他心靈的內(nèi)在運(yùn)作。兩年的追求才剛剛開始。我對(duì)工程學(xué)的藝術(shù)感到好奇和挑戰(zhàn),但我不想成為一名工程師。盡管我被神經(jīng)科學(xué)的奧秘所吸引,但我不想成為一名神經(jīng)科學(xué)家。我想在不受這兩者限制的同時(shí)借鑒它們。
我的時(shí)機(jī)再好不過了,即使這不過是偶然。我還不知道,但視覺研究是人工智能本身的一個(gè)分支——在流亡中的眾多社區(qū)之一,分裂并被迫離開曾經(jīng)團(tuán)結(jié)他們的旗幟,現(xiàn)在已經(jīng)進(jìn)入另一個(gè)低迷期的十年。像神經(jīng)網(wǎng)絡(luò)和專家系統(tǒng)這樣曾經(jīng)令人興奮的前景的消退帶來了另一輪的疏遠(yuǎn),隨著初創(chuàng)公司關(guān)閉大門和學(xué)術(shù)興趣的消退。這是另一個(gè)人工智能的寒冬,我正處于其中。但解凍正在迅速到來。
第六章 北極星
帕薩迪納的黎明微光正悄然爬升至地平線,投射出一幅我已經(jīng)開始辨認(rèn)為獨(dú)特加州風(fēng)格的溫暖色彩調(diào)。它呼喚著人們走出戶外,忽視一天的義務(wù),這是多么誘人,但沒有任何天空的藍(lán)色足以與發(fā)現(xiàn)的承諾競(jìng)爭(zhēng)。今天是我準(zhǔn)備了數(shù)月的新實(shí)驗(yàn)的第一天,它在地下等待著我。
我們的工作將在科赫實(shí)驗(yàn)室的心理物理學(xué)部分進(jìn)行,這是一個(gè)隱藏在加州理工學(xué)院日曬草坪和自行車道下方的陰暗地下世界。這里沒有自然光線,通常也被剝奪了人造光線,是一個(gè)近乎完美的隔離之地:三個(gè)相同的隔間,由遮光簾分隔,每個(gè)足夠大以隔絕單個(gè)坐著的占用者的感官。
一旦進(jìn)入,我們的受試者將一只手放在鼠標(biāo)上,另一只手放在鍵盤上,凝視著黑暗。經(jīng)過一段短暫的平靜后,顯示器會(huì)亮起,顯示一系列如此無序的圖像,它們似乎是由達(dá)達(dá)主義者策劃的:字母排列得像字母湯;隨機(jī)、不連貫場(chǎng)景的照片;突然的彩色噪聲閃光,所有這些都精確到毫秒,并精確地引發(fā)點(diǎn)擊和按鍵的反應(yīng)。然后,在幾秒鐘內(nèi),黑暗會(huì)再次回歸。另一個(gè)靜止的時(shí)刻將在空氣中懸掛,然后序列會(huì)重復(fù)。一次又一次,再一次。盡管這看起來必須是混亂的,但沒有一個(gè)細(xì)節(jié)是隨意的。這一切都是為了嘗試讀懂一個(gè)心靈——或至少推斷出它的某些片段。受試者幾秒鐘的狂亂手指、淺呼吸和瞳孔擴(kuò)張,在數(shù)據(jù)叢中被捕捉,可能需要數(shù)天、數(shù)周甚至數(shù)月的時(shí)間才能完全理清。感官的秘密深藏不露;即使是瞬間將它們引入光明,也可能是一件奇怪的事情。
進(jìn)化在一個(gè)光敏蛋白上持續(xù)了五億年,不懈地推動(dòng)著它隨著時(shí)間的推移而綻放成一個(gè)如此精致的裝置,幾乎難以理解。現(xiàn)在,在加州理工學(xué)院,那勞動(dòng)的成果將成為我們的老師——整個(gè)視覺皮層,從眼睛的玻璃表面延伸到心靈的最深處。就我的導(dǎo)師而言,朝著機(jī)器智能的承諾邁出的一個(gè)基本第一步是更好地理解人類的智能。
我并不確切知道我希望從我的研究生年代中得到什么,除了有機(jī)會(huì)沉浸在那個(gè)俘獲了我的心的領(lǐng)域。但我希望在這個(gè)過程中的某個(gè)地方,我能找到一個(gè)我可以像我的榜樣那樣熱情追隨的追求——那種驅(qū)使埃里克·魏斯豪斯將對(duì)果蠅異常的迷戀轉(zhuǎn)化為諾貝爾獎(jiǎng),或尼爾·德格拉斯·泰森將宇宙轉(zhuǎn)化為數(shù)字詩歌的精神。我想要屬于我自己的北極星。但在我找到它之前,我滿足于圍繞這個(gè)問題繞圈子:視覺的難以言喻的體驗(yàn)究竟是如何運(yùn)作的——或者,用我教科書副標(biāo)題中頑皮的話來說,光子是如何變成現(xiàn)象學(xué)的。
朝著這種理解邁出的早期步驟來自我的教科書《視覺科學(xué)》,介紹了普林斯頓心理學(xué)家安妮·特里斯曼。作為實(shí)驗(yàn)的神童和二十世紀(jì)認(rèn)知科學(xué)的巨人,她結(jié)合了迷人的簡(jiǎn)單工具和原始的創(chuàng)造力來探索人類的感知,這是在數(shù)十年前,遠(yuǎn)在數(shù)字技術(shù)大幅加速她的研究之前。特里斯曼的“注意力特征整合理論”成為了理解視覺意識(shí)本質(zhì)的幾乎普遍基礎(chǔ)。通過向受試者短暫展示一個(gè)抽象排列的閃光——比如,一個(gè)紅色圓圈混雜在一堆綠色和紅色方塊中——她能夠分離出他們?cè)诓煌疃葘哟紊侠斫鈭D像所需的時(shí)間。她發(fā)現(xiàn),人們幾乎能夠瞬間識(shí)別出紅色的存在——僅僅知道顏色在圖像中的某處——但他們需要更長(zhǎng)的時(shí)間來特別找到紅色圓圈,因?yàn)樗纳矸菔莾蓚€(gè)不同特征的結(jié)合:顏色和形狀,在同一地點(diǎn)重合。換句話說,整合紅色感知和圓形感知的能力不僅需要更長(zhǎng)的時(shí)間,而且似乎包含了一個(gè)完全獨(dú)立的、更加密集的視覺處理階段。
特里斯曼的工作在其范圍上是宏大的,在其解釋上是密集的,但它是由這樣一個(gè)想法統(tǒng)一起來的,即人類視覺開始于識(shí)別小細(xì)節(jié),然后建立它們之間的關(guān)系,直到它們揭示出一個(gè)完整的畫面。這是一個(gè)直觀的論點(diǎn),它提出了一個(gè)度量工作中視覺的標(biāo)準(zhǔn):由少數(shù)特征定義的簡(jiǎn)單對(duì)象可以被迅速識(shí)別——例如,灰色人行道上的橙色球——而更復(fù)雜的場(chǎng)景,如蜿蜒的森林小徑或朋友面部的細(xì)節(jié),需要更多的時(shí)間。
這是一個(gè)范例,我看到它在計(jì)算機(jī)視覺研究中重復(fù)出現(xiàn),研究人員編寫和完善了能夠識(shí)別照片和其他圖像中的基本細(xì)節(jié)的算法——銳利的邊緣、光線和顏色的變化、紋理或圖案的片段——然后構(gòu)建更高級(jí)別的算法來識(shí)別它們之間的聯(lián)系,并將它們與更有意義的事物,如人和物體,聯(lián)系起來。我對(duì)視覺所知甚少,但這幅圖很快就會(huì)變得更加復(fù)雜。
“我有一些東西要加到你的閱讀清單上,F(xiàn)ei-Fei,”皮特羅說,把一篇文章的副本扔在我面前的桌子上。
“這個(gè)?”我拿起它翻了翻,注意到它的長(zhǎng)度不到大多數(shù)已發(fā)表論文的四分之一。皮特羅會(huì)心地笑了。
“相信我,你會(huì)想讀這個(gè)的。”
他不是在開玩笑。
這篇文章由神經(jīng)科學(xué)家西蒙·索普提交到1996年《自然》雜志的信件欄目,文章很短——只有三頁——但其發(fā)現(xiàn)的影響卻是驚人的。即使是它那平實(shí)無華的標(biāo)題,“人類視覺系統(tǒng)的處理速度”,也低估了它對(duì)整個(gè)領(lǐng)域接受的正統(tǒng)觀念提出質(zhì)疑的影響。這是科學(xué)中最偉大傳統(tǒng)的一個(gè)例子——通過更復(fù)雜的現(xiàn)實(shí),打破那些直觀且熟悉的既定觀念。
索普使用腦電圖(EEG)測(cè)量了觀察電腦屏幕上圖像的人類受試者大腦表面的電信號(hào)。當(dāng)一張照片在屏幕上僅閃現(xiàn)27毫秒——蜜蜂拍動(dòng)翅膀幾次的時(shí)間——他的受試者就能以驚人的準(zhǔn)確度識(shí)別出其內(nèi)容。但他更深入地探究了他們大腦中識(shí)別的時(shí)刻:圖片出現(xiàn)后僅150毫秒,或者大致是眨眼的時(shí)間。這是有史以來對(duì)人類視覺處理速度調(diào)查最精確的一次,而且數(shù)字遠(yuǎn)遠(yuǎn)小于特里斯曼理論所預(yù)測(cè)的。
索普的受試者正在處理充滿細(xì)節(jié)、透視、微妙光線和意義的整張照片——而這一切都在特里斯曼的受試者識(shí)別基本顏色和形狀所需的時(shí)間內(nèi)完成。每個(gè)讀過這篇文章的人心中都燃起了一個(gè)問題:怎么做到的?我能理解為什么皮特羅如此急切地希望我也讀它,以及為什么在它發(fā)表三年多后,它仍然是他和克里斯托夫討論和辯論的持續(xù)話題。我立刻也分享了他們的迷戀。
對(duì)我來說,這項(xiàng)工作之所以更加超現(xiàn)實(shí),是因?yàn)樗l(fā)表的時(shí)間離我到加州理工學(xué)院的時(shí)間只有幾年。我們很容易忘記現(xiàn)代人類視覺研究實(shí)際上是多么年輕,即使在今天,它的最早出版物也只能追溯到幾十年前。與物理學(xué)相比,物理學(xué)有著橫跨幾個(gè)世紀(jì)的悠久歷史,由伽利略、牛頓到玻爾等傳奇人物填充,視覺學(xué)——現(xiàn)在仍然是——大體上是未知領(lǐng)域。計(jì)算機(jī)視覺的研究甚至更年輕。感覺就像是在我手中繪制地圖,它激發(fā)了我作為研究生早期的日子。我忍不住在每周給薩貝拉先生的電話中滔滔不絕地談?wù)撍@種通話從帕薩迪納繼續(xù)進(jìn)行。
“我從未見過這樣的東西,”我說。“這個(gè)領(lǐng)域如此復(fù)雜,如此令人興奮,然而……它幾乎是全新的!大多數(shù)最重要的貢獻(xiàn)者仍然在我們說話的時(shí)候進(jìn)行積極的研究!”
我與皮特羅和克里斯托夫共度的時(shí)光越多,我就越能欣賞到定義他們作為學(xué)者職業(yè)生涯的冒險(xiǎn)精神。盡管他們來自物理學(xué)和工程學(xué),但他們對(duì)心理學(xué)、認(rèn)知科學(xué)和神經(jīng)科學(xué)等領(lǐng)域的熱愛卻表露無遺。他們像系里的其他人一樣定期閱讀計(jì)算機(jī)科學(xué)期刊,但他們同樣專注地研讀《心理學(xué)評(píng)論》、《美國國家科學(xué)院院刊》以及特別有聲望的《自然》等出版物。
這種迷戀轉(zhuǎn)化為強(qiáng)烈的觀點(diǎn)和推進(jìn)知識(shí)前沿的渴望,這意味著要直面索普和特里斯曼發(fā)現(xiàn)之間的差異。有力的證據(jù)表明,至少視覺的某些方面——即識(shí)別現(xiàn)實(shí)世界場(chǎng)景的能力——幾乎是不費(fèi)吹灰之力的。但是,是什么讓它變得毫不費(fèi)力?能以某種方式量化嗎?這對(duì)我們對(duì)大腦整體的理解有什么影響?這些都是值得尋找答案的問題,而且,對(duì)于我的導(dǎo)師來說,試圖這樣做將是足夠的工作,可以讓他們特別堅(jiān)持不懈的新研究生忙上一陣子。
如何閱讀一個(gè)心靈?在實(shí)驗(yàn)室中,準(zhǔn)確捕捉測(cè)試受試者的感知、期望甚至決策是司空見慣的。然而,設(shè)計(jì)一種實(shí)驗(yàn)方法來做到這一點(diǎn),需要結(jié)合工程學(xué)、心理學(xué)、人體工程學(xué),甚至類似于戲法的東西。具有諷刺意味的是,雖然我們的實(shí)驗(yàn)看起來與許多其他實(shí)驗(yàn)室的實(shí)驗(yàn)沒有什么不同——測(cè)試受試者裝飾著電極,助手們處理著大量數(shù)據(jù)等等——但設(shè)計(jì)它們卻是一種藝術(shù)形式。
我們的目標(biāo)非常模糊:確定測(cè)試受試者是否能準(zhǔn)確識(shí)別僅顯示了一小部分秒的照片內(nèi)容,但又不集中他們的注意力在上面。索普已經(jīng)確定了這項(xiàng)任務(wù)的速度,但他沒有探索意識(shí)注意力所起的作用。有意識(shí)的專注是必需的嗎?或者我們識(shí)別的能力是持續(xù)和無意識(shí)的,無論我們是否注意到周圍的世界?我們懷疑是后者,但我們想證明它。
關(guān)于如何進(jìn)行的想法來自于克里斯托夫?qū)嶒?yàn)室的訪問博士后阿希姆·布勞恩。布勞恩正在研究一個(gè)類似的假設(shè)——我們的大腦在沒有我們意識(shí)到的情況下處理大量的視覺細(xì)節(jié)——使用他所稱的“雙重測(cè)試方法”,在這種方法中,他通過一個(gè)中心任務(wù)吸引受試者的注意力,該任務(wù)需要有意識(shí)的專注,同時(shí)呈現(xiàn)一個(gè)只需要被動(dòng)觀察的外圍任務(wù),第一個(gè)任務(wù)所需的高度注意力確保第二個(gè)任務(wù)不會(huì)被有意識(shí)地處理。
這種方法的巧妙之處在于它揭示了受試者感官的焦點(diǎn)所在。因?yàn)橹行娜蝿?wù)有一個(gè)需要努力產(chǎn)生的客觀反應(yīng),所以可以在多輪測(cè)試中高度確定用戶是否完全參與其中。盡管比較簡(jiǎn)單,外圍任務(wù)也有一個(gè)正確的反應(yīng),使得可以可靠地測(cè)量受試者的次要意識(shí)。因?yàn)閮蓚€(gè)任務(wù)都是在大約兩百毫秒的時(shí)間內(nèi)呈現(xiàn)的(只比眨眼的時(shí)間稍長(zhǎng)一些),所以可以排除有意識(shí)地一個(gè)接一個(gè)地完成它們的可能性。我們的實(shí)驗(yàn)利用了對(duì)受試者注意力的精確控制來提出一個(gè)簡(jiǎn)單的問題:在觀看了一個(gè)隨機(jī)選擇的戶外風(fēng)景照片——我們確信他們只是從側(cè)面看過——后,照片中是否包含了動(dòng)物的描繪?他們的回答將深刻揭示注意力的本質(zhì)及其與視覺感知的關(guān)系。
對(duì)受試者來說,實(shí)驗(yàn)的節(jié)奏是令人屏息的快速,充滿了對(duì)圖像和圖案的閃電般的瞥見,需要幾乎即時(shí)的反應(yīng)。但是,管理這項(xiàng)任務(wù)的工作卻相對(duì)緩慢得多。從一天到另一天,這更像是照看孩子而不是科學(xué)探究,因?yàn)槲覀兊却恢苣┝阌缅X的承諾所吸引的昏昏欲睡的本科生從他們的隔間中出現(xiàn)。由于愿意參與的受試者從來沒有像我們希望的那樣充足,我們不得不受制于他們的時(shí)間表。不止一次,我一天的主要責(zé)任就是在早上六點(diǎn)在實(shí)驗(yàn)室入口處迎接一個(gè)陌生人。但我甚至喜歡這一點(diǎn)。以它自己的方式,這也是科學(xué)的一部分。
盡管我們的實(shí)驗(yàn)很重要,但皮特羅和克里斯托夫也明確表示,一個(gè)好的科學(xué)家同樣需要跟上文獻(xiàn)。而且我越讀越意識(shí)到,索普并不是特里斯曼的第一個(gè)挑戰(zhàn)者。一條類似面包屑的線索在我面前展現(xiàn)出來,隱藏在幾十年的文章中,暗示著對(duì)她的觀點(diǎn)越來越多的例外。
也許最明顯不一致的發(fā)現(xiàn)來自一位名叫歐文·比德曼的視覺研究者。他和他的同事安排了一個(gè)實(shí)驗(yàn),在這個(gè)實(shí)驗(yàn)中,受試者被展示了快速瞥見的照片而不是抽象的形狀和顏色,然后被要求識(shí)別他們所看到的。盡管刺激的復(fù)雜性顯著增加,而且曝光時(shí)間極短,受試者的答案卻始終準(zhǔn)確。在特里斯曼的受試者識(shí)別出一個(gè)單獨(dú)的A字母與一片多彩的B字母中的時(shí)間內(nèi),比德曼的受試者能夠從一張照片中吸收足夠的細(xì)節(jié),以判斷它是一個(gè)購物廣場(chǎng)的停車場(chǎng)還是一個(gè)家庭廚房的圖片。
下一個(gè)難題來自一位名叫莫莉·波特的心理學(xué)家。使用一臺(tái)早期的計(jì)算機(jī)顯示器,她向受試者展示了文本段落,以大字體在屏幕中央一次閃現(xiàn)一個(gè)單詞。即使單詞以每秒十二個(gè)的速度出現(xiàn)——是普通大學(xué)生在正常條件下閱讀速度的兩倍——他們的理解能力也非常高。盡管特里斯曼的演示非常有說服力,表明視覺感知是從小細(xì)節(jié)層面逐步構(gòu)建起來的,閱讀似乎代表了一個(gè)強(qiáng)大的例外。
考慮到所使用的相對(duì)原始的工具,這些研究更加令人印象深刻。由于缺乏直接觀察受試者認(rèn)知的途徑,像特里斯曼、比德曼和波特這樣的思想家通過在嚴(yán)格控制的環(huán)境下巧妙使用行為觀察,提取了幾十年的有趣線索。但這種方法有其局限性;歸根結(jié)底,從外部只能推斷出關(guān)于大腦的有限信息。要從內(nèi)部理解這些現(xiàn)象,需要新一代的技術(shù)。
這種技術(shù)最終以神經(jīng)科學(xué)工具的形式到來,如腦電圖(EEG)和功能性磁共振成像(fMRI),為研究人員提供了前所未有的臨床精確度。索普的論文是最引人注目的之一,但遠(yuǎn)非唯一。同樣重要的是麻省理工學(xué)院認(rèn)知神經(jīng)科學(xué)家南希·坎維舍及其學(xué)生的工作,他們使用fMRI分析識(shí)別了與處理必要的快速、準(zhǔn)確的感知成就相關(guān)的多個(gè)大腦區(qū)域,這些成就是像索普和比德曼這樣的研究人員所揭示的。EEG測(cè)量的是大腦表面廣泛分布的電脈沖,這些脈沖極其快速,而fMRI測(cè)量的是特定神經(jīng)元群體被激活時(shí)血液氧氣水平的變化。一個(gè)早期的突破是發(fā)現(xiàn)了“顳葉內(nèi)側(cè)的腦回面區(qū)”,這是一個(gè)不超過一立方厘米大小的皮層區(qū)域,似乎是為識(shí)別人臉量身定做的。接下來是附近的“海馬旁回地區(qū)”,它在識(shí)別熟悉的地點(diǎn),如自己的廚房或經(jīng)常旅行的道路方面發(fā)揮類似的作用。另一個(gè)發(fā)現(xiàn)是“外紋狀體區(qū)”,它通過對(duì)手臂、腿等的存在反應(yīng),幫助我們感知周圍人的身體方向。
這些結(jié)構(gòu),被稱為視覺的“神經(jīng)相關(guān)性”,有些特別之處:它們似乎是專門設(shè)計(jì)的。每一個(gè)都識(shí)別一個(gè)單一的事物類別,且僅限于那個(gè)事物——面孔、熟悉的地點(diǎn)、身體姿勢(shì)等——從而解釋了我們?cè)谔囟ㄗR(shí)別任務(wù)中感知速度之快。我們的神經(jīng)解剖學(xué)中有一個(gè)專門的特征,不是從頭開始一點(diǎn)一點(diǎn)地解碼,而是幾乎立即就能識(shí)別它們。從我們的角度來看,這感覺是毫不費(fèi)力的。
從生物學(xué)上講,努力在一個(gè)過程中的作用說明了很多。進(jìn)化是極端節(jié)儉的,只對(duì)那些如此極端的環(huán)境壓力做出響應(yīng),以至于不適應(yīng)就意味著滅絕。對(duì)于一項(xiàng)能力來說,要被精煉到如此程度——使得如此復(fù)雜的事情幾乎變得自動(dòng)化——它必須具有根本的、甚至是獨(dú)一無二的重要性。因此,視覺不僅僅是我們所看到的細(xì)節(jié)問題。雖然像特里斯曼這樣的研究人員提出的,在嚴(yán)格控制的實(shí)驗(yàn)室條件下,圖像可以被分解并以細(xì)粒度的術(shù)語進(jìn)行檢查,但我們依賴于在混亂世界中生存的視覺處理的是事物——物體、人和地點(diǎn)。實(shí)際上,從處理的最早階段開始,我們就不是將周圍環(huán)境感知為顏色和輪廓的集合,而是以類別的形式感知。
這些發(fā)現(xiàn)本身就令人興奮,但它們之間的聯(lián)系感覺更加深刻,就像一個(gè)未被發(fā)現(xiàn)大陸的海岸線。每一個(gè)新的想法都指向著某些重大的——也許是歷史性的——東西,正等待著被發(fā)現(xiàn)。畢竟,它似乎對(duì)我們?nèi)祟惼鹆俗饔谩N椰F(xiàn)在相信它也能對(duì)我們的機(jī)器起作用。
我想到了我的榜樣,從物理學(xué)的傳奇人物到我自己的教授們。多年來,我一直欽佩那些激勵(lì)他們成為科學(xué)家的強(qiáng)大思想,以及這些思想對(duì)他們領(lǐng)域產(chǎn)生的激勵(lì)效應(yīng)。
現(xiàn)在,只是我研究生教育的頭幾年,我相信我在自己的地平線上看到了一線曙光——雖然遙遠(yuǎn)而模糊,但足夠明亮,照亮了我前進(jìn)的道路。無論如何,我們都將使視覺世界對(duì)機(jī)器變得熟悉。超越了易于固執(zhí)的生活標(biāo)準(zhǔn),我培養(yǎng)了一種比我以往任何時(shí)候都更為強(qiáng)烈的癡迷。
我找到了自己的北極星。
屏幕上出現(xiàn)了一架噴氣式飛機(jī)的圖像,算法開始了它的任務(wù)。這是一個(gè)連小孩都能應(yīng)對(duì)的挑戰(zhàn):在照片中任何地方找到一架飛機(jī)的存在。但在2003年,這仍然是一個(gè)問題,機(jī)器只有在吸收了大量的示例材料后才能回答。即便如此,它們成功的幾率也是適中的。那個(gè)下午,Pietro和我正在測(cè)試一個(gè)我們希望可能改變這些幾率的想法,也許是戲劇性的。我仔細(xì)觀察,渴望看到算法會(huì)做什么。
屏幕上開始出現(xiàn)粉紅色的點(diǎn),這是旨在突出照片中引起算法“注意”的細(xì)節(jié)的視覺輔助工具。當(dāng)?shù)谝粋€(gè)點(diǎn)在停機(jī)坪旁的一片草地上出現(xiàn)時(shí),我有點(diǎn)皺眉。算法看錯(cuò)了地方。但這種趨勢(shì)很快就逆轉(zhuǎn)了,因?yàn)榻酉聛淼膬蓚€(gè)點(diǎn)出現(xiàn)在飛機(jī)的翼上。然后是機(jī)尾的另一個(gè)點(diǎn)。接著是駕駛艙附近的三個(gè)點(diǎn)。最后是最后一個(gè)點(diǎn)。起落架。我想,這算數(shù),它技術(shù)上是飛機(jī)的一部分!
我興奮地呼了口氣。到目前為止,一切都很好。接下來是真正困難的部分。由于每個(gè)突出的特征只占幾個(gè)像素,算法被設(shè)計(jì)為將它們分組成代表它所要識(shí)別的對(duì)象的更大部分。換句話說,代表了一種模糊的視覺理解形式。每個(gè)部分都會(huì)被畫上彩色的圈——藍(lán)色和藍(lán)綠色代表機(jī)身的不同部分,紅色代表垂直穩(wěn)定器,綠色代表兩者相遇的區(qū)域。果不其然,算法幾乎精確地將它們放在了它們所屬的位置。
飛機(jī)被識(shí)別了。
這是一個(gè)激動(dòng)人心的時(shí)刻,但不是因?yàn)樗鹱饔昧恕且驗(yàn)樗侨绾纹鹱饔玫摹N覀儧]有讓機(jī)器沉浸在數(shù)百張盡可能涵蓋顏色、風(fēng)格、視角和照明條件等多種變化的飛機(jī)照片中,而是只向它展示了一張。然而,我們確實(shí)向它展示了數(shù)百張完全無關(guān)的主題圖像——斑點(diǎn)叢林貓、摩托車、我們微笑的實(shí)驗(yàn)室同事和Pietro的高級(jí)新數(shù)碼相機(jī)拍攝的人臉,以及我們從谷歌圖片下載的一些隨機(jī)選擇。我們的假設(shè)是,通過首先讓算法接觸到視覺世界的廣泛橫截面,它將更好地裝備自己學(xué)習(xí)一些特定的東西。所以雖然它接受了各種事物的訓(xùn)練,但它剛剛識(shí)別的飛機(jī)只是它見過的第二架。永遠(yuǎn)。
我們的創(chuàng)造只是一個(gè)概念證明,仍然有它的錯(cuò)誤份額。但我們的目標(biāo)是證明,像人類一樣,算法從看到更多的視覺世界中廣泛受益。北極星現(xiàn)在是我地平線上的一個(gè)固定物,我們已經(jīng)朝著它的方向邁出了真正的一步。
我們稱這種技術(shù)為“一次性學(xué)習(xí)”。這是一個(gè)與圖像識(shí)別現(xiàn)狀顯著不同的技術(shù),但激發(fā)我們的能力是眾所周知的。作為人類,我們天生就擅長(zhǎng)在甚至只看一眼之后識(shí)別事物:一種新型的樂器、我們從未見過的動(dòng)物、一位新當(dāng)選的政治家的面孔。可以引用許多解釋這種能力的原因,但其中最簡(jiǎn)單也是最有力的事實(shí)是,即使我們看到的是新事物,我們也在將一生的先前經(jīng)驗(yàn)應(yīng)用于它。無論多么新穎,我們所看到的幾乎所有東西都如此嚴(yán)重地依賴于過去的經(jīng)驗(yàn)——熟悉的細(xì)節(jié),如輪廓、光影、紋理和圖案——以至于很難想象在真正的孤立中看到任何東西。
我們的技術(shù)將這一概念帶給了機(jī)器,而且似乎正在起作用。如果結(jié)果是一個(gè)驚喜,然而,我們的論文收到的反響卻是壓倒性的。它不僅被接受參加在法國尼斯舉行的國際計(jì)算機(jī)視覺會(huì)議(ICCV),而且還為我們贏得了少數(shù)幾個(gè)口頭報(bào)告的位置。盡管這篇論文是與Pietro和名叫Rob Fergus的研究員合著的,但我是主要作者。這意味著旅行的榮譽(yù)和責(zé)任都是我的。
在ICCV上發(fā)言是一個(gè)難得的機(jī)會(huì),特別是對(duì)于一個(gè)研究生來說,而我在這樣一個(gè)重要的聽眾面前幾乎沒有任何經(jīng)驗(yàn)的演講,這在我的腦海中壓力很大。更糟糕的是,Pietro不能和我一起去。他和他的妻子正在期待他們的第一個(gè)孩子的出生,他們的預(yù)產(chǎn)期正在臨近。這是我的第一個(gè)學(xué)術(shù)會(huì)議,也是我的第一個(gè)舞臺(tái)演講。而且我要獨(dú)自一人去。
如果沒有我面前的任務(wù),我可能會(huì)在飛往尼斯的航班上感到緊張。我在加州理工學(xué)院的職責(zé)讓我處于不停忙碌的狀態(tài),而三萬英尺高空的十三個(gè)安靜小時(shí)最終成為我唯一的空閑窗口,以便整理我將要發(fā)表的演講。我在大部分旅程中都低著頭,盡快地寫下大綱并拼湊幻燈片。
然而,到達(dá)后,我深切地感受到了Pietro的缺席。通常情況下,導(dǎo)師會(huì)陪同學(xué)生參加他們的第一次會(huì)議,無論他們是否在發(fā)表演講,以示支持并幫助建立網(wǎng)絡(luò)。我開始意識(shí)到,我被留下來獨(dú)自在一個(gè)充滿數(shù)百名陌生人的活動(dòng)大廳中應(yīng)對(duì)。如果我要緊張,現(xiàn)在是時(shí)候了。"飛飛?"一個(gè)聲音在我身后叫道。我轉(zhuǎn)過身,看到一個(gè)陌生的面孔俯視著我。
"……是的?"我小心翼翼地回答。
"終于見到你真是太好了!我是吉滕德拉。"
"吉滕……哦!吉滕德拉……馬利克?你是——"
"我想你認(rèn)識(shí)我是作為皮特羅的前導(dǎo)師,是的,"他笑著說。"他讓我來陪陪你。你沒想到我們會(huì)讓你一個(gè)人做這件事,是吧?"
雖然我知道吉滕德拉的名字,當(dāng)然也知道他的聲譽(yù),但這是我們第一次面對(duì)面地見面。我傾向于用家族術(shù)語來思考學(xué)術(shù)關(guān)系,所以我認(rèn)為他——我的導(dǎo)師的導(dǎo)師——是我的"學(xué)術(shù)祖父"。他名副其實(shí),既平靜又鼓舞人心。在我的演講之后,當(dāng)我被一群渴望了解更多的研究人員圍攻時(shí),他成了我的救星。僅僅有他在我身邊,就把一個(gè)壓倒性的日子變成了可控的,這也開啟了我們之間持久的聯(lián)系。
盡管在我的演講之后有一陣激烈的討論,但我意識(shí)到了一些微妙的事情——每個(gè)問我的問題都是關(guān)于算法本身的。你是如何設(shè)置貝葉斯方程來估計(jì)后驗(yàn)概率的?你是如何估計(jì)圖像的先驗(yàn)分布的?你提到使用了一個(gè)最近提出的變分推斷算法來優(yōu)化模型參數(shù)——你能多談?wù)勀莻€(gè)嗎?你計(jì)劃在未來的修訂中如何擴(kuò)展它?在不同的情況下它可能會(huì)有怎樣的表現(xiàn)?
我們一次又一次地被問到我們選擇的機(jī)器學(xué)習(xí)算法的數(shù)學(xué)核心——一種稱為"貝葉斯網(wǎng)絡(luò)"的概率技術(shù)——但沒有一個(gè)問題是關(guān)于我們訓(xùn)練它的數(shù)據(jù)的。雖然這并不罕見——數(shù)據(jù)被不那么微妙地視為一種惰性商品,只在算法需要它的程度上才重要——但我開始意識(shí)到我們低估了一些重要的東西。我們算法的定義特征——它能夠從一次接觸中學(xué)習(xí)新的物體類別的能力——在很大程度上依賴于數(shù)據(jù)。最終,是我們算法所見過的其他事物的多樣性,給了它一種感知經(jīng)驗(yàn),并允許它在面對(duì)新事物時(shí)表現(xiàn)得如此出色。
事實(shí)上,我越想越覺得,為什么這個(gè)話題——數(shù)據(jù)的微妙但引人入勝的力量——沒有得到任何關(guān)注。畢竟,我們從絕對(duì)缺乏這種東西——僅僅是幾百幅圖像散布在幾個(gè)隨機(jī)選擇的類別中——取得了相當(dāng)驚人的結(jié)果。這引發(fā)了一個(gè)問題,每次我的思維回到它時(shí)都顯得更具挑釁性:如果這么少的數(shù)據(jù)就能使如此強(qiáng)大的能力成為可能,那么更多的數(shù)據(jù)可能會(huì)使什么成為可能?
如果是大量的更多數(shù)據(jù)呢?
"快完成了……再等一秒……"又是在紅門咖啡館的午餐,又是浪費(fèi)了幾分鐘完美的吃飯時(shí)間,因?yàn)槠ぬ亓_正在把我們的盤子排列成他系列霍克尼拼貼畫中的下一個(gè)。
"好了!"
"嗯。很好看,"我說。我甚至不再假裝看了。
皮特羅對(duì)著他的作品微笑,顯然注意到了我的不耐煩,顯然也不在乎。我從他手中奪回我的托盤,開始吃飯。
"我一直在想我們的一次性學(xué)習(xí)論文,"他說,話題一轉(zhuǎn)。"我為我們所取得的成就感到自豪,但我們都知道數(shù)據(jù)才是真正的明星。"
我點(diǎn)點(diǎn)頭,還在咀嚼。
"那么,如果我們創(chuàng)建一個(gè)全新的數(shù)據(jù)集呢?一個(gè)更大的。我認(rèn)為我們可以完全自己從頭開始做。"我繼續(xù)點(diǎn)頭。
"我的意思是,如果所有這些新數(shù)據(jù)——完全獨(dú)立地——是達(dá)到下一個(gè)水平的關(guān)鍵呢?"
這是一個(gè)大膽的想法,也足夠成為一個(gè)長(zhǎng)期的目標(biāo),以保持事情的有趣。
"那么,讓我們從最明顯的問題開始:我們的這個(gè)新數(shù)據(jù)集應(yīng)該包括多少個(gè)圖像類別?"
我放下叉子,沉思了一會(huì)兒。知道加州理工學(xué)院曾經(jīng)組織的最大的收藏提供了七個(gè)相當(dāng)隨機(jī)選擇的類別,四舍五入似乎是一個(gè)明智的起點(diǎn)。
"嗯……十個(gè)怎么樣?"我提議。
皮特羅皺了皺眉頭。
"那會(huì)是一個(gè)進(jìn)步,我想,但我懷疑我們是不是太漸進(jìn)了。"
我喜歡他的建議精神,但我也不得不考慮現(xiàn)實(shí)。知道收集、標(biāo)記和組織圖像的實(shí)際工作將落在我身上,我盡力平衡我們研究的需求和日常生活的實(shí)際考慮。
"好吧。嗯……那十五個(gè)怎么樣?"
皮特羅狡猾地笑了。
"好吧。二十個(gè)!"
他沒有動(dòng)。真的嗎?
皮特羅后來告訴我我接近了——他認(rèn)為大約三十個(gè)類別就足夠了。但注意到……隨著對(duì)話似乎退化成一場(chǎng)談判——而且是一場(chǎng)相當(dāng)謹(jǐn)慎的談判——他感到有必要采取進(jìn)攻態(tài)度。
“我們來做一百個(gè),飛飛。”
皮埃特羅后來會(huì)這樣說,我看起來就像他判了我死刑一樣。
考慮到這無疑需要的工作量,我很可能會(huì)失去一些理智,更不用說在接下來的幾個(gè)月里我可能渴望擁有的任何社交生活的影子(誠然,損失較小)。但他是對(duì)的,我無法否認(rèn)一想到我們的模型在這樣的資源下會(huì)有怎樣的表現(xiàn),我就感到興奮。
然而,為了不讓他滿意,我盡力保持鎮(zhèn)定,接受這個(gè)想法。提高我的撲克臉將是一個(gè)長(zhǎng)期的努力。
隨著對(duì)話中的邊緣政策逐漸淡出記憶,我開始對(duì)計(jì)劃有了不同的看法。是的,策劃一百個(gè)類別的圖像——每個(gè)類別都包含各種各樣的例子——將是我一生中嘗試過的最辛苦的工作,包括周末在干洗店的工作。但這正是我想要的。我的北極星在地平線上閃爍,比以往任何時(shí)候都要亮。
“嗨,飛飛。”
“嗨,媽媽。爸爸怎么樣?店里怎么樣?”
“有個(gè)顧客要求修改,但他一直在用一個(gè)我不熟悉的術(shù)語。我想那是一種合身的類型,但是……”
接著是一段奇怪的停頓。
“飛飛,我……”
她的呼吸變得更加困難。我能聽到她在電話那頭,但她似乎無法作出回應(yīng)。“媽媽?媽媽?你還好嗎?”
沒有一個(gè)好時(shí)機(jī)去了解你的母親患上了充血性心力衰竭。但在一個(gè)已經(jīng)將你的堅(jiān)韌推到極限的研究生項(xiàng)目中兩年后,這種感覺很難用言語表達(dá)。
事后看來,幾周來她感覺不舒服已經(jīng)很明顯了。考慮到她幾乎獨(dú)自一人經(jīng)營(yíng)店鋪的巨大壓力,我以為她只是需要休息,我邀請(qǐng)她來拜訪。但當(dāng)她到達(dá)機(jī)場(chǎng),呼吸困難,臉色比我見過的任何時(shí)候都蒼白時(shí),我能告訴有更嚴(yán)重的事情發(fā)生了。
這無疑是一個(gè)緊急情況,但我父母缺乏健康保險(xiǎn)讓我不確定該如何反應(yīng)。我驚慌失措地打電話給我能想到的每個(gè)人,并被推薦到歐文的一家私人診所的一位講中文的醫(yī)生。那是將近兩小時(shí)的車程,但她是唯一愿意以自費(fèi)的方式接見我們的醫(yī)生,幸運(yùn)的是費(fèi)用也有所折扣。她的診斷很快:我母親的心臟健康狀況很糟糕。
薩貝拉先生仍然是我尋求安慰的首選來源。“你媽媽怎么樣,飛飛?”他問。
“醫(yī)生說她會(huì)活下來。我們及時(shí)發(fā)現(xiàn)了。”
“謝天謝地。你自己怎么樣?”
我嘆了口氣,所有的事情都涌了出來。我們最新的,也是最絕望的計(jì)劃。經(jīng)營(yíng)干洗店七年后,我們別無選擇,只能賣掉它。當(dāng)所有其他選擇似乎都超出我們的能力時(shí),它一直是我們的生命線,但我的母親已經(jīng)病得太重,即使有我父親的幫助也無法繼續(xù)下去。盡管生意是有盈利的,但我們?nèi)匀贿h(yuǎn)遠(yuǎn)沒有達(dá)到能夠雇傭員工的利潤(rùn)率。是時(shí)候繼續(xù)前進(jìn)了。
更激烈的是我決定讓我的父母搬到國家的另一邊,和我一起在帕薩迪納,我們可以再次面對(duì)作為一個(gè)家庭生存的挑戰(zhàn)。我的宿舍甚至比我們?cè)谂廖髋聊岬牡胤竭€小,但目前這是我們唯一的選擇。
薩貝拉先生在電話那頭沉默了一會(huì)兒,他全都接受了。
“你會(huì)繼續(xù)你的學(xué)業(yè),對(duì)吧?”他似乎感覺到了即使我還沒有完全面對(duì)的事情。
“我不知道。”
又是一段沉默,直到我用笑聲打破了它。
“你覺得我至少可以宣布我的父母為我的依賴人嗎?”
一個(gè)新的現(xiàn)實(shí)正在出現(xiàn),如此復(fù)雜,以至于它動(dòng)搖了我自從走進(jìn)普林斯頓那個(gè)講堂成為物理專業(yè)的那一天以來所做的每一個(gè)決定。一生的好奇心引領(lǐng)我進(jìn)入一個(gè)以激烈競(jìng)爭(zhēng)、低薪和沒有持久職業(yè)保障著稱的領(lǐng)域,而我的父母需要我無法提供的支持水平。我每天追求夢(mèng)想的時(shí)間感覺在最好的情況下是自私的,最糟糕的情況下是魯莽的。我越是思考我自己的家庭和實(shí)驗(yàn)室同事們的家庭之間的差異——他們中的大多數(shù)至少是中產(chǎn)階級(jí),如果不是富有的話——否認(rèn)真相就越困難:我沒有成為科學(xué)家的奢侈。
但故事還沒有結(jié)束。
幾周過去了,一位同學(xué)提到,麥肯錫的一位合伙人,這是一家世界知名的管理咨詢公司,來鎮(zhèn)上招聘。他們正在尋找一個(gè)實(shí)習(xí)級(jí)別的分析師職位,這意味著承諾有廣泛的在職經(jīng)驗(yàn),這意味著即使是與數(shù)學(xué)和計(jì)算機(jī)科學(xué)有微弱聯(lián)系的常春藤聯(lián)盟學(xué)校的研究人員也是理想的候選人。在一個(gè)真正絕望的時(shí)刻,這感覺像是一個(gè)值得考慮的機(jī)會(huì)。
當(dāng)然,我以前也遇到過這種情況,很容易將其視為我學(xué)術(shù)目標(biāo)和現(xiàn)實(shí)世界生活之間長(zhǎng)期激烈沖突的最新沖突。但我的內(nèi)心科學(xué)家的聲音這次不同了。我母親健康狀況的最新打擊讓我震驚,那種堅(jiān)持的心態(tài)也變得不那么強(qiáng)烈了,好像就連我內(nèi)心那個(gè)特別、被保護(hù)的部分也開始屈服于一個(gè)我知道我不能永遠(yuǎn)忽視的現(xiàn)實(shí)。我把猶豫推到一邊——這個(gè)行為現(xiàn)在我發(fā)現(xiàn)出奇地容易——我買了一套遠(yuǎn)超預(yù)算的衣服,小心地把標(biāo)簽藏在領(lǐng)子下面,預(yù)計(jì)活動(dòng)結(jié)束后立即退回,并安排了一次面試。這一切感覺和我預(yù)期的一樣不自然,但我不能忽視一個(gè)事實(shí),那就是命運(yùn)似乎從一開始就站在我的這一邊。這或許是我第一次有機(jī)會(huì)在學(xué)術(shù)世界之外呈現(xiàn)自己作為一個(gè)完整的人,這讓我充滿了一種我通常不具備的信念。當(dāng)然,我毫不掩飾地書呆子,但我不僅僅是那樣:多年的奮斗鍛煉了我,培養(yǎng)了我同行候選人從未有過的機(jī)敏,以及我現(xiàn)在才意識(shí)到讓我與眾不同的實(shí)用主義本能。
然后,一個(gè)幾乎是滑稽的同步事件發(fā)生了。
“我們喜歡圍繞一個(gè)假設(shè)的商業(yè)場(chǎng)景來組織我們的面試,”麥肯錫的代表開始說。“當(dāng)然,沒有人期望你真的了解這個(gè)行業(yè),所以把這看作是一個(gè)創(chuàng)意練習(xí)比什么都重要。我們只是想了解一下你的直覺。你知道的,分析推理之類的。”
聽起來很簡(jiǎn)單,我想。
“我想讓你想象你是……比如說……服裝行業(yè)的一個(gè)經(jīng)理。”
哇。
一個(gè)開始只是例行公事的評(píng)估,突然變成了一場(chǎng)出乎意料的豐富對(duì)話,從我對(duì)物理的熱愛和我對(duì)智力之謎的迷戀,到洗衣供應(yīng)商的世界,以及我作為干洗行業(yè)業(yè)余經(jīng)理的職業(yè)生涯。出乎所有人意料的是,事情似乎真的……進(jìn)行得不錯(cuò)。招聘人員顯然也同意了。回應(yīng)是立即而強(qiáng)烈的,消息是麥肯錫決定將實(shí)習(xí)轉(zhuǎn)變?yōu)檎降挠谰寐毼坏奶嶙h。
我的感覺如此復(fù)雜,我甚至不確定它們是否真的有所體現(xiàn)。一方面,一想到要拋棄這么多東西——加州理工學(xué)院、皮特羅、克里斯托夫、吉滕德拉、我的同學(xué)們,實(shí)際上是我所知道的一切,最糟糕的是,放棄一個(gè)追求一個(gè)感覺具有歷史意義的想法的絕對(duì)宇宙機(jī)會(huì)。我的北極星。另一方面,在看到我的父母多年來生活在邊緣,越來越感覺他們之所以處于那種狀態(tài)是因?yàn)槲遥曳路鸾K于被解除了一個(gè)我從未完全意識(shí)到其重量的沉重負(fù)擔(dān)。我母親為了我能來到這里付出了一切,現(xiàn)在,當(dāng)我知道她最需要我的時(shí)候,我終于可以回報(bào)她了。我直接回家,準(zhǔn)備分享我認(rèn)為的好消息。
“這是你穿去實(shí)驗(yàn)室的衣服嗎,飛飛?”
我低頭看了看自己。我忘了我還穿著面試的衣服。
“哦,對(duì),”我?guī)е胄陌胍獾男β曊f。“別擔(dān)心,我買它的時(shí)候拿到了很好的交易,”我補(bǔ)充說,展示了仍然完好無損的標(biāo)簽。
“發(fā)生了什么事?”她問,現(xiàn)在更加困惑了。生活一直如此匆忙,我還沒有向我的父母提及我的任何計(jì)劃。
“媽媽,我們需要談?wù)劇!?/p>
我解釋了面試、工作邀請(qǐng)以及其他一切。我告訴她關(guān)于福利待遇,起薪,以及他們?cè)谖疑踔劣袡C(jī)會(huì)回應(yīng)之前就已經(jīng)增加了優(yōu)惠。我解釋說,這實(shí)際上是通往每個(gè)移民母親為其孩子想象的那種職業(yè)生涯的快車道。她禮貌地聽著,但在我說完之前,我就在她臉上看到了一個(gè)熟悉的表情。
“我們真的要再次進(jìn)行這個(gè)對(duì)話嗎?”“媽媽,我知道,但聽我說——”
“我知道我的女兒。她不是什么管理顧問,或者你說的那個(gè)。她是一個(gè)科學(xué)家。”
“想想你的健康,媽媽!想想我們即將面臨的費(fèi)用。學(xué)術(shù)生涯怎么能幫助我們——”
“飛飛。我們走這么遠(yuǎn),不是為了讓你現(xiàn)在放棄。”
“這不是放棄!這是一個(gè)夢(mèng)想的工作——一份職業(yè)——它可以讓我們擺脫這一切。我的意思是,看看周圍!我們?nèi)齻€(gè)成年人住在一個(gè)宿舍里!”
我不確定我是否相信我嘴里說出的話,但它們似乎是正確的事情。無論我母親對(duì)它們有什么看法,她都暫停了一會(huì)兒,也許是為了思考它們,然后回答。
“飛飛,你一直在談?wù)撨@個(gè)‘自私的’旅程。好像科學(xué)是你從我們這里拿走的東西。”
“我怎么能不這么感覺?我現(xiàn)在就可以為我們所有人賺錢,而且——”
“你沒有聽我說。這從來都不是你的旅程。從一開始,這就是我們的旅程。無論你是注定成為一個(gè)科學(xué)家、研究員,還是我甚至無法想象的其他什么,無論你是否會(huì)因此賺到一大筆錢,我們一家人從飛機(jī)離開上海的跑道那一刻起就一直在為此努力。”
我不知道該說什么。
“我要最后說一次:我們走這么遠(yuǎn),不是為了讓你現(xiàn)在放棄。”
她是對(duì)的。她總是對(duì)的。這一次,不知為何,我終于聽到了她的話。我再也不會(huì)質(zhì)疑我的道路。
“嘿,那種狗的品種叫什么來著?”我在幾乎空無一人的實(shí)驗(yàn)室里吃午餐時(shí),問了一個(gè)同學(xué)。
“哪一種?”
“你知道的,棕色和白色的……還有黑色,我想……它有一對(duì)非常可愛的垂耳朵。天啊,我完全忘了它的英文名字。”
我們?cè)谒伎寄切┲挥醒芯可鸥颐鎸?duì)的宇宙級(jí)問題。
“我知道它以B開頭……實(shí)際上,別告訴我……”
我伸手拿起我桌上一直放著的英文詞典。在美國生活了將近十年,即使互聯(lián)網(wǎng)取代了我們生活中的許多物品,它偶爾還是我的救命稻草。我翻過幾頁,然后往下掃描,直到我看到……
“啊!是的!比格犬!”
“好吧,那么比格犬怎么了?”
我停下來,回頭看了看那一頁。我甚至忘了我為什么要提起這個(gè),但這并不重要。我意識(shí)到了另一件完全不同的事情。
皮特羅和我正計(jì)劃得到一個(gè)包含一百個(gè)圖像類別的數(shù)據(jù)集,但我們一直在努力想出一個(gè)好方法來決定究竟包括哪些類別。我們擔(dān)心,如果我們自己選擇,可能會(huì)有偏見——即使是下意識(shí)地,我們也會(huì)傾向于選擇我們的算法更有可能成功識(shí)別的圖像類別。我瞇起眼睛,更仔細(xì)地看。詞典對(duì)某些詞的插圖方式有種優(yōu)雅之感。大多數(shù)都是名詞,強(qiáng)調(diào)的是有形的、可視的東西——換句話說,是物體,或者在比格犬的情況下,是動(dòng)物。它們看起來正是我們想要的那種類別。而且它們似乎在每個(gè)字母中或多或少都均勻分布,這在我看來聽起來相當(dāng)公正。我想知道:如果我們讓詞典為我們做選擇怎么樣?
這太完美了。我拖了好幾年的那本大書變成了我作為一名有抱負(fù)的計(jì)算機(jī)視覺研究員世界中最有用的工具。偶爾,成為移民也有好處。
撇開早期的啟示不談,策劃完整的數(shù)據(jù)集是一個(gè)漫長(zhǎng)、緩慢、不起眼的過程。我們花了幾個(gè)月的時(shí)間手動(dòng)查詢圖像搜索引擎,挑選出最好的結(jié)果,然后裁剪和調(diào)整它們的尺寸以保持一致。一小隊(duì)本科生標(biāo)注員加入了我們,總共三四個(gè)人,甚至我現(xiàn)在是當(dāng)?shù)厝说哪赣H也找到了幫忙的方法。盡管這個(gè)過程可能很艱苦,但它有一種啟發(fā)性。在深入思考視覺世界的多樣性之后,我以前所未有的方式看待它:作為一個(gè)包含手風(fēng)琴、攪拌機(jī)、手機(jī)、小龍蝦、龍蝦、比薩、停車標(biāo)志、雨傘以及許多其他東西的單一現(xiàn)實(shí)。這里面有一種詩意;它讓我欣賞到世界是多么的豐富和不可預(yù)測(cè),以及我們注意到的細(xì)節(jié)是多么的少。
最終,它完成了。在2004年完成時(shí),它是為機(jī)器學(xué)習(xí)而組裝的最大的圖像集合:超過九千張,分布在一百個(gè)類別中。這是前所未有的,我迫不及待地想看看它會(huì)解鎖什么。我們感到前所未有的強(qiáng)大,就好像我們突然擁有了一個(gè)超自然的神器,準(zhǔn)備賦予我們的創(chuàng)造物比我們想象的更大的能力。但還有一個(gè)細(xì)節(jié)我無法抗拒:獨(dú)自工作時(shí),我以一種調(diào)皮的方式加入了另一個(gè)類別,以此對(duì)我的導(dǎo)師表示不滿,盡管這是我自己的代價(jià)。如果皮特羅想要100個(gè),我就給他101個(gè)。
我們立即發(fā)表了我們的單次學(xué)習(xí)論文的后續(xù)研究,現(xiàn)在展示了一個(gè)由驚人多樣化的訓(xùn)練圖像集合驅(qū)動(dòng)的模型——現(xiàn)在正式被稱為“Caltech 101”——并且取得了顯著的性能提升。由于它的確是漸進(jìn)性質(zhì)的,它并不是第一篇論文那樣的突破性成功,至少最初不是。但它確立了一個(gè)更持久的遺產(chǎn),作為其他人效仿的模范。我們繪制的性能曲線成為了一個(gè)基準(zhǔn);在六個(gè)月內(nèi),來自世界各地的研究人員都在引用我們的論文作為要擊敗的標(biāo)準(zhǔn)——他們中的許多人都做到了。發(fā)表我們自己的研究是令人興奮的,感覺就好像我們?cè)跒樗说南敕ㄗ龀鲐暙I(xiàn)——并且在推動(dòng)這個(gè)領(lǐng)域向前發(fā)展的過程中扮演即使是小角色——這是一種更大的快感。
很明顯,Caltech的生活永遠(yuǎn)不會(huì)容易,但我對(duì)僅僅在那里的感激之情比以往任何時(shí)候都深。我們?cè)O(shè)法賣掉了干洗店,給了我母親自從我們來到這個(gè)國家以來首次真正休息的機(jī)會(huì)。(我也不能假裝對(duì)再也不用接一個(gè)關(guān)于襯衫過度淀洗的長(zhǎng)途電話感到高興。)最重要的是,我對(duì)我的學(xué)習(xí)充滿熱情,幾乎每天都感到筋疲力盡。
幸運(yùn)的是,Caltech是一個(gè)容易找到其他癡迷者的地方。我在皮特羅辦公室外遇到了一個(gè)特別的人,當(dāng)我聽到似乎是兩個(gè)明顯的意大利聲音,而不是我習(xí)慣的一個(gè)。我很快就知道,第二個(gè)聲音屬于一個(gè)我還沒見過的研究生。他很高,口音如此難以穿透,以至于讓皮特羅的口音在比較中幾乎消失了,而且他那頭狂野卷曲的頭發(fā)在房間對(duì)面就很顯眼。那天他也很匆忙,即使皮特羅介紹了我們,這也是一次難忘的初次見面。但這讓我能夠給那個(gè)聲音取個(gè)名字:西爾維奧。
西爾維奧很快就在我們的實(shí)驗(yàn)室會(huì)議中引起了我的注意。像我一樣,他經(jīng)常以討論藝術(shù)品開始他的演講。他被像埃舍爾的《手與反射球》和維梅爾的《戴珍珠耳環(huán)的少女》這樣的作品所吸引。珍珠耳環(huán),這兩者都在他通過研究探索的視覺世界的方方面面上徘徊不去——彎曲反射的扭曲輪廓、金屬表面的光澤,以及日常物體的三維特性。當(dāng)然,這些眼前的糖果很快就讓位給了成堆的方程式。我們?cè)谝黄鸬臅r(shí)間越長(zhǎng),我就越意識(shí)到我們有著相似之處:無論在什么情況下,我們都無法關(guān)閉我們的好奇心。
“看!看那輛摩托車!”他興奮得足以完全打亂原本是在校園里放松散步的計(jì)劃。
“它有什么特別的?”
“好吧,看那個(gè)鉻合金排氣管?看到反射了嗎?它們包含了如此多的信息。你看到了嗎?它們是如何彎曲和扭曲的?”
“是的,我明白你的意思。”
“但問題在這里——反射到底是什么呢?它只是周圍世界在表面上的一個(gè)扭曲圖像!這幾乎是一個(gè)矛盾,然而它告訴我們足夠多關(guān)于那個(gè)摩托車部件的形狀,我們可以在腦海中毫不費(fèi)力地想象它。這就是我們?cè)噲D設(shè)計(jì)的那種算法。”
我的天,這家伙真是個(gè)書呆子,我想。但他和我是同一類書呆子。
我是兩個(gè)實(shí)驗(yàn)室的學(xué)生——與皮特羅一起的電氣工程實(shí)驗(yàn)室,以及與克里斯托夫一起的計(jì)算神經(jīng)科學(xué)實(shí)驗(yàn)室。我每周與他們各見一次,參加期刊俱樂部,審閱神經(jīng)科學(xué)和計(jì)算機(jī)科學(xué)的最新文獻(xiàn),而且,因?yàn)閮蓚€(gè)實(shí)驗(yàn)室都提供免費(fèi)食物,我的飲食比我預(yù)期的要好。然后還有西爾維奧。只要時(shí)間允許——考慮到我們的日程安排,這并不經(jīng)常發(fā)生,尤其是按照新關(guān)系的興奮標(biāo)準(zhǔn)來看——我們就有彼此。但隨著我在加州理工學(xué)院的歲月流逝,我內(nèi)心深處開始生根發(fā)芽。
我反思了我們所做的一切:我們的心理物理學(xué)實(shí)驗(yàn)、我們對(duì)一次性學(xué)習(xí)算法的研究、我們展示加州理工101數(shù)據(jù)集的力量,以及我們研究了幾十年的文獻(xiàn)。盡管我受教育的道路不同尋常,被兩位導(dǎo)師分開,我開始欣賞我們工作的優(yōu)雅。這并非偶然——我們做了所有這些事情;我比以往任何時(shí)候都更加確信,分類是連接它們的想法,它在理解視覺——甚至可能是整個(gè)人類智能——中的作用很快將被證明是至關(guān)重要的。
那么為什么進(jìn)展還是這么慢呢?
用一個(gè)詞來說,我們的算法是“過擬合”,正如數(shù)據(jù)科學(xué)中所說的那樣。也就是說,無論設(shè)計(jì)得多么巧妙——我們探索了我們能找到的每一種類型——即使在測(cè)試期間表現(xiàn)最好的算法也會(huì)在面對(duì)新刺激時(shí)迅速失效。一次又一次,看似經(jīng)過有效訓(xùn)練的算法缺乏將它們所學(xué)的——或者應(yīng)該學(xué)到的——應(yīng)用于現(xiàn)實(shí)世界的能力。本質(zhì)上,這與人類感知相反,后者的特點(diǎn)是其概括能力。概括使我們靈活、適應(yīng)性強(qiáng),甚至具有創(chuàng)造力,隨時(shí)準(zhǔn)備利用新想法的力量,而不是在過去經(jīng)驗(yàn)的局限中苦苦掙扎。任何缺乏這種能力的生物都會(huì)很快被自然界的不可預(yù)測(cè)性所淹沒,這是生物進(jìn)化心智的一個(gè)關(guān)鍵特征。但對(duì)于機(jī)器來說,這仍然基本上是遙不可及的。
在我們?cè)噲D解開過擬合之謎的過程中,算法本身是一個(gè)自然的起點(diǎn)——特別是它從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)的方式。我們探索的大多數(shù)算法都非常復(fù)雜——用更技術(shù)性的語言來說就是“計(jì)算上不可解”——它們無法手動(dòng)配置。它們無數(shù)參數(shù)的排列組合范圍實(shí)在太廣,就像一排排旋鈕和開關(guān)延伸到地平線之外的控制面板。相反,自動(dòng)化技術(shù)允許它們通過長(zhǎng)時(shí)間的、反復(fù)的試錯(cuò)過程來近似地平衡這些參數(shù)。多年來,這種技術(shù)的完善一直是計(jì)算機(jī)視覺研究的支柱。
但加州理工101鼓勵(lì)我們更深入地思考數(shù)據(jù)本身,這反過來又促使我們思考這方面的問題可能如何導(dǎo)致過擬合。畢竟,沒有數(shù)據(jù),機(jī)器學(xué)習(xí)中的“學(xué)習(xí)”指的是什么?盡管它的重要性顯而易見,但這個(gè)話題缺乏我們?cè)谖锢韺W(xué)、數(shù)學(xué)或統(tǒng)計(jì)學(xué)中所期望的精確性。像皮特羅和吉滕德拉這樣的研究人員是為數(shù)不多的深入探索過這個(gè)問題的人,我覺得他們對(duì)于理解它有著最好的直覺。我們的出版物似乎表明,隨著我們的數(shù)據(jù)集變得更大,我們的算法的能力也在增長(zhǎng)——相對(duì)來說,無論如何。即便如此,數(shù)據(jù)的策劃更像是一門黑暗藝術(shù)而不是一門科學(xué)。
我開始懷疑我們可能做錯(cuò)了什么。訓(xùn)練圖像應(yīng)該有不同的方向嗎?我們需要更多的多樣性嗎?這是分辨率或相機(jī)質(zhì)量的問題嗎?或者可能——我?guī)缀醪桓胰タ紤]這個(gè)想法,更不用說大聲說出來了——101個(gè)類別還不夠嗎?我越考慮這些問題,它們就顯得越明顯,甚至越迫切。但據(jù)我所知,我們社區(qū)中沒有其他人在問這些問題。
即使是數(shù)量問題——我們的專長(zhǎng)——也似乎是個(gè)謎。我不得不承認(rèn),懷疑像101這樣的數(shù)字有什么特別之處是合理的。它不是一個(gè)經(jīng)過實(shí)證驗(yàn)證的結(jié)果,甚至也不是從理論中推導(dǎo)出的某種原則估計(jì)。它是我在午餐托盤上像霍克尼畫作一樣排列的一場(chǎng)與我的導(dǎo)師的博弈的結(jié)果。真的很令人驚訝,這不是突破的前奏嗎?我又一次回到了文獻(xiàn)中,這次帶著復(fù)仇的心情。如果不是101,那是多少?200?500?1000?拜托,不要是1000,我想。我決心要找到一個(gè)線索,不管怎樣,不管在哪里。
我費(fèi)了一番功夫,但最終找到了一些東西。它甚至來自一個(gè)熟悉的來源——一篇由歐文·比德曼撰寫的論文,他是我們現(xiàn)代視覺理解的核心貢獻(xiàn)者之一,發(fā)表于很久以前——回到1983年。自從我讀過它以來已經(jīng)過去了好幾年,毫無疑問是在凌晨?jī)牲c(diǎn)與一堆其他文獻(xiàn)一起瀏覽的。現(xiàn)在,在我們從一次性學(xué)習(xí)的冒險(xiǎn)中學(xué)到了所有東西之后,以及我們實(shí)現(xiàn)真正的視覺分類的夢(mèng)想,我以一種新的方式看待它。
這篇論文探討了一個(gè)有趣但不直接相關(guān)的話題:我們?nèi)绾卫脤?duì)基本幾何形狀的了解來識(shí)別復(fù)雜的物體。在構(gòu)建他的結(jié)論的過程中,Biederman試圖回答一個(gè)看似簡(jiǎn)單的問題:大致有多少獨(dú)特的“事物”類別存在于世界上?也就是說,如果你把它們?nèi)考悠饋怼皳u椅”、“企鵝”、“跑車”、“拉布拉多犬”、“山脈”以及其他所有東西——總數(shù)會(huì)是多少?
這聽起來更像是一個(gè)謎語而不是一個(gè)科學(xué)挑戰(zhàn)。但我對(duì)Biederman的方法印象深刻,他的方法基于對(duì)英語的分析。詞語在幫助我們對(duì)所見進(jìn)行分類中扮演了基礎(chǔ)性的角色,他認(rèn)為,我們專門用于描述獨(dú)立、可量化事物的詞語——稱為“可數(shù)名詞”——的總數(shù)將是一個(gè)很好的起點(diǎn)。然后他想象了每個(gè)這樣的名詞存在多少真正不同的變體,就像“杯子”這一類物體可能包括帶有精美手柄的白色茶具、色彩鮮艷的咖啡杯和透明無特征的玻璃杯。因?yàn)橛行╊悇e比其他類別有更多的變化,他通過假設(shè)一個(gè)合理的平均值來簡(jiǎn)化問題。從那里開始,計(jì)算總數(shù)只是簡(jiǎn)單的乘法。
邏輯足夠直接,但是他想法的規(guī)模使它如此具有顛覆性。它立即揭示了我們的研究有多么有限——我們的想象力有多么有限——以及超出這兩者的世界實(shí)際上有多么廣闊。這篇論文是一份模糊的、復(fù)印的文物,但感覺就好像Biederman直接對(duì)我說話:你想要突破?這就是代價(jià)。這就是所需的一切。
盡管如此,Biederman的數(shù)字——我們作為研究人員的雄心所需的潛在藍(lán)圖——是巨大的。真的很大。它不是1,000,2,000,甚至不是5,000。它當(dāng)然也不是我們花了幾個(gè)月時(shí)間編目的101。
它是30,000。
我不知道該如何處理這個(gè)數(shù)字。創(chuàng)建Caltech 101感覺像是一項(xiàng)艱巨的努力,而現(xiàn)在我面臨的估計(jì)數(shù)字比那大了整整兩個(gè)數(shù)量級(jí)。但現(xiàn)在我無法回避它。那里有一些東西——真正的洞察力——它的熱量幾乎穿過頁面上印刷的數(shù)字。更重要的是,我知道無論這個(gè)數(shù)字注定要帶我去哪里,我都將獨(dú)自前行。我的領(lǐng)域?qū)W⒂谒惴ǎ瑑H此而已。但我越是思考數(shù)據(jù)——尤其是大規(guī)模,甚至是巨大規(guī)模的數(shù)據(jù)——我越意識(shí)到這是一個(gè)完全未被探索的前沿。世界已經(jīng)選擇了它的方向。但我的北極星正引導(dǎo)我走向另一個(gè)方向。
第七章 一個(gè)假設(shè)
陽光的珠子,穿透而白,通過綠色植物閃爍,當(dāng)我的車沿著206號(hào)公路飛馳時(shí)。這條雙車道路是一條容易駕駛的路,它在樹木的樹冠中切割出溫和的曲線,時(shí)不時(shí)地?cái)嚅_以揭示地平線上小鎮(zhèn)的一瞥。我?guī)缀鯖]有看到任何東西。我的思維在世界之外,雖然我可以集中足夠的注意力保持在車道標(biāo)記之間,但僅此而已。
盡管我從Caltech畢業(yè)獲得博士學(xué)位只有一年,但我生活中的幾乎一切都發(fā)生了變化。我的母親又病了。事實(shí)上,比以往任何時(shí)候都嚴(yán)重,然后突然穩(wěn)定下來。我也得到了我的第一份真正的工作——伊利諾伊大學(xué)厄巴納-香檳分校的初級(jí)教職工作——以及隨之而來的健康保險(xiǎn)。Silvio和我結(jié)婚了。然后他也找到了工作……在密歇根州。我有很多事情要感激,但我是早期學(xué)術(shù)生涯中常見的動(dòng)蕩的活生生的象征。我不知怎的同時(shí)結(jié)了婚,獨(dú)自一人,又和我的父母住在一起。
盡管如此,我對(duì)視覺分類本質(zhì)的研究仍然是我的世界中心,我應(yīng)邀回到普林斯頓向計(jì)算機(jī)科學(xué)系展示我的最新工作。到這個(gè)時(shí)候,我已經(jīng)習(xí)慣了發(fā)表演講,但我捕捉到一些暗示,這次邀請(qǐng)可能意味著更多——招聘過程的第一步,可能是一個(gè)教職職位。這些風(fēng)險(xiǎn)比我習(xí)慣的要高,我很感激我有一個(gè)習(xí)慣,那就是從新澤西州的旅行開始。拜訪薩貝拉家。從他們的社區(qū)到我的母校的蜿蜒路線給了我充足的時(shí)間去深思。
然而,困擾我的并不是講座,甚至也不是我的職業(yè)生涯。自從我偶然發(fā)現(xiàn)了比德曼的數(shù)字——他估計(jì)大約有30,000個(gè)獨(dú)特的概念可能為理解視覺世界提供一個(gè)完整的基礎(chǔ)——我的生活就再也沒有一樣過。這五個(gè)不起眼的數(shù)字已經(jīng)成為我心中的黑洞,幾乎在我每一個(gè)清醒的時(shí)刻都在吞噬我的思緒。
一方面,我的直覺與比德曼的觀點(diǎn)一致。他的數(shù)字看起來很對(duì),我能從直覺上感覺到。它有證據(jù)的外表,一個(gè)我不知怎么能夠利用的數(shù)據(jù)。同時(shí),很明顯他從未打算將其作為一個(gè)特別的經(jīng)驗(yàn)量。這是一個(gè)典型的信封背面計(jì)算,更多的是作為一個(gè)示例而不是一個(gè)假設(shè)。然而,出于某種原因,多年后我最初看到它時(shí),我就無法放手。
它激發(fā)了我思考的轉(zhuǎn)變,讓我有了一種我以前從未想象過的規(guī)模感,但除此之外幾乎沒有提供任何洞見。數(shù)字30,000當(dāng)然很有趣,但究竟是30,000個(gè)什么?我確信答案不會(huì)像創(chuàng)建一個(gè)新的數(shù)據(jù)集那樣簡(jiǎn)單,隨機(jī)選擇30,000個(gè)類別而不是101個(gè)。當(dāng)然,這樣的集合將遠(yuǎn)遠(yuǎn)超出桌面詞典中的一組插圖概念。它甚至可能開始全面地模擬世界,而不僅僅是描述其特征,逐個(gè)追蹤地球上生活的完整畫面,并暗示它們之間的關(guān)系。真正的意義。但我仍然只是在猜測(cè)。
隨著時(shí)間的流逝,我開始做白日夢(mèng)。一個(gè)Sunoco加油站的黃色和藍(lán)色標(biāo)志引起了我的注意,觸發(fā)了一連串的回憶:沿著這條路以前駕駛的印象派閃回。顏色和情緒。這里一個(gè)銳利的細(xì)節(jié),那里一個(gè)模糊的細(xì)節(jié),都被半記憶中的陰影所包圍,豐富而引人入勝,但永遠(yuǎn)都是模糊的。當(dāng)我的思維鏈到達(dá)一個(gè)具體的事物時(shí),我不由自主地微笑了:薩貝拉先生談?wù)撍刻鞆陌偷潞募业脚廖髋聊岣咧械耐ㄇ诼肪€,以及他如何精心跟蹤油價(jià)以盡量減少它對(duì)他公立學(xué)校教師薪水的影響。
這可能看起來微不足道,但正是這些時(shí)刻激發(fā)了我的迷戀。這才是視覺真正的意義。它不僅僅是一個(gè)“感覺”,至少不是像溫度計(jì)或蓋革計(jì)數(shù)器那樣的“感覺”,而是一種體驗(yàn)的催化劑。一股信息和情感的洪流,由以五十英里每小時(shí)的速度飛馳而過的加油站標(biāo)志的顏色所釋放。這是定義一個(gè)最為人性化的頭腦的能力之一——一個(gè)通往整個(gè)記憶、聯(lián)想、概念和推理宇宙的入口,所有這些都編織在我們與周圍世界的視覺聯(lián)系中。
我的思緒回到了普林斯頓的演講。至少那是一個(gè)我有機(jī)會(huì)解決的問題。
“我不知道一個(gè)語言學(xué)家是怎么出現(xiàn)在一個(gè)計(jì)算機(jī)視覺講座上的,F(xiàn)ei-Fei,但我很高興他來了。”
坐在我對(duì)面的是Christiane Fellbaum,一位計(jì)算語言學(xué)家,也是我在演講后幾天遇到的許多普林斯頓教職員工之一。她自己沒有參加,但她的一個(gè)同事出現(xiàn)在聽眾中,并且感覺她會(huì)欣賞我的工作,于是在之后立即將我們聯(lián)系起來。
Christiane在語言學(xué)方面的工作與我的只有最微弱的聯(lián)系,但我們共享的是至關(guān)重要的:強(qiáng)烈的認(rèn)知科學(xué)影響和對(duì)理解甚至繪制心智如何概念化其世界的特殊興趣。在我自己研究人類視覺期間深深吸引我的概念,我們?nèi)绾螌?duì)我們感知的內(nèi)容進(jìn)行分類,對(duì)她的工作至關(guān)重要,而且在很多類似于我的方式上。我們倆都相信,類別是視覺(我們看到的東西)和語言(我們描述它們的方式)之間的交點(diǎn)。在談話進(jìn)行了二十分鐘后,我突然意識(shí)到我甚至不知道我們是否應(yīng)該討論工作機(jī)會(huì)。不管怎樣,這是我腦海中的最后一件事,因?yàn)樗磳⑻岢鲆粋€(gè)問題,將永遠(yuǎn)改變我的職業(yè)生涯和我的生活。
“你聽說過一個(gè)叫WordNet的項(xiàng)目嗎?”
WordNet,正如我即將了解到的,是喬治·阿米蒂奇·米勒的心血之作,他是心理學(xué)和認(rèn)知科學(xué)的傳奇人物。他出生于1920年,是一代心理學(xué)家中最有影響力的人之一,他們不滿足于僅僅觀察人類行為的表面,試圖建立驅(qū)動(dòng)它的心理過程的模型。因此,他自然而然地被語言的結(jié)構(gòu)和它在思維中的作用所吸引。通過WordNet,他試圖以驚人的規(guī)模來繪制它。
兩個(gè)同樣雄心勃勃的問題激發(fā)了這個(gè)項(xiàng)目:如果通過語言可以表達(dá)的每一個(gè)人類概念都被組織在一個(gè)單一的、龐大的詞匯數(shù)據(jù)庫中會(huì)怎樣?如果與字典的字母順序組織不同,這些詞匯是基于它們的含義相互連接的會(huì)怎樣?例如,不是因?yàn)槠磳懙呐既恍远鴮ⅰ疤O果”與“家電”配對(duì),而是將“蘋果”與一整簇相關(guān)詞匯配對(duì)——“食物”、“水果”、“樹”等等。這將像是一個(gè)地圖,展示了人類所珍視的一切——我們用一個(gè)詞來描述的一切——在一個(gè)連接的空間中排列。簡(jiǎn)而言之,這就是WordNet。
自1985年成立以來,該項(xiàng)目已經(jīng)發(fā)展到幾乎難以理解的規(guī)模,包括超過140,000個(gè)英語單詞,并迅速擴(kuò)展到新的語言。對(duì)于Christiane來說,她作為已經(jīng)被稱為全球WordNet協(xié)會(huì)的主席,這幾乎是一份全職工作。我對(duì)它的范圍、持久性以及必須精確指導(dǎo)其如此多年的精確增長(zhǎng)所需的協(xié)調(diào)感到敬畏。當(dāng)我想起為了收集足夠的圖像用于Caltech 101數(shù)據(jù)集而費(fèi)力地管理幾個(gè)本科生幾個(gè)月的努力時(shí),我?guī)缀跄樇t了——它自己的類別深度比WordNet小了一千倍以上。但我也被激勵(lì)到了我很長(zhǎng)時(shí)間沒有感受到的程度。WordNet是一個(gè)啟示。它提供了一個(gè)答案,或者至少是一個(gè)暗示,對(duì)于那些在近四年的清醒生活中消耗了我大量時(shí)間的問題,自從偶然發(fā)現(xiàn)Biederman的數(shù)字以來。它是人類意義本身的地圖,無論是其覆蓋范圍的廣度還是其內(nèi)容的真實(shí)性,都毫不妥協(xié)。我還不知道計(jì)算機(jī)視覺將如何實(shí)現(xiàn)Biederman想象的規(guī)模,但現(xiàn)在,至少,我有了這樣一種努力是可想象的證據(jù)。這是我第一次面前的一條道路,我能看到下一步。
然后,仿佛是為了進(jìn)一步強(qiáng)調(diào)這一點(diǎn),Christiane提到了一個(gè)相關(guān)項(xiàng)目,該項(xiàng)目試圖用一個(gè)單一的視覺示例,比如一張照片或圖表,來說明WordNet包含的每一個(gè)概念。盡管這項(xiàng)計(jì)劃已經(jīng)被放棄,但我感到很好奇。甚至它的名字——ImageNet——幾乎是完美的暗示。又一個(gè)推動(dòng),而且不是一個(gè)特別微妙的。
在我離開校園的那天之前,點(diǎn)點(diǎn)滴滴開始連接起來。首先,有WordNet:一個(gè)幾乎難以形容野心的詞匯數(shù)據(jù)庫,似乎捕捉了世界上所有概念的整體,按照人類意義的自然層次組織起來。然后有ImageNet:試圖為每個(gè)概念分配一張圖片。這兩個(gè)項(xiàng)目看起來像是對(duì)Biederman數(shù)字在我的思想中創(chuàng)造的巨大、神秘空間的回應(yīng)。
我問自己一個(gè)既荒謬又顯而易見的問題:如果像Caltech 101這樣的數(shù)據(jù)集是按照WordNet的規(guī)模創(chuàng)建的呢?忽略這樣一個(gè)任務(wù)的不可能的后勤——事實(shí)上,“不可能”是我腦海中浮現(xiàn)的唯一詞匯——不可否認(rèn)這個(gè)想法的力量。而且這不僅僅是一個(gè)規(guī)模問題;盡管數(shù)據(jù)集將會(huì)天文數(shù)字般巨大,當(dāng)然,它的數(shù)字將是某些更深層次的東西的副作用:前所未有的規(guī)模多樣性,就像它所反映的世界一樣混亂和不可預(yù)測(cè)。
在我沉浸在這個(gè)領(lǐng)域的這些年里,以及我與Pietro和Christof一起研究的幾十年歷史,這感覺像是真正的新穎。發(fā)散的,甚至是顛覆性的。追求一個(gè)困擾我的日子并讓我夜不能寐的謎團(tuán)的下一步。如果這甚至有一個(gè)名義上的機(jī)會(huì)讓我更接近發(fā)現(xiàn)——任何發(fā)現(xiàn)——我必須考慮它。
當(dāng)我想象一個(gè)在這樣一個(gè)數(shù)據(jù)集上訓(xùn)練的算法可能內(nèi)化的豐富視覺線索時(shí),我的思緒飛速。塑料的硬邊,漆木的光澤,動(dòng)物毛皮的質(zhì)地,眼睛表面的反射,以及其他許多東西—...
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.