今年,AI頂會CIKM的時間檢驗獎頒給了京東何曉冬博士創立的DSSM雙塔模型,而這是他10年前的一個研究成果,也是今天智能推薦技術的基石模式之一。
DSSM并不是本文討論的焦點,但它是一個窗口,它可以透視在10年前和今天,人們是如何用不同的方式去對待AI的創新,以及由此帶來的截然不同的效果。
——導語
01
經得住時間檢驗的技術
老友何曉冬最近又拿一新獎,向來低調的他,也十分歡喜。我和他特意多談了幾句,引發了這次對他的訪問和一些思考。
這個獎關系到一篇10年前發表的論文,論文的主題是關于DSSM 模型(也就是雙塔模型)的提出(論文名為:基于點擊數據學習用于網絡搜索的深度結構化語義模型)。
所謂善戰者無赫赫之名,在網上搜索DSSM模型+何曉冬,結果并不太多。
其中,大部分搜索結果只是提及,DSSM是2013年由微軟在CIKM上發表的一個貢獻。
CIKM,就是信息檢索和數據挖掘國際學術會議 CIKM (International Conference on Information and Knowledge Management) ,是AI領域的“頂會”之一。
較少有人曾經由雙塔模型而注意到何曉冬,可能和這樣一個事實有關——就是這篇論文,當時過于超前,也十分的精短。
“2013年的時候,學界對這個(雙塔模型)的工作,是有懷疑的。包括論文寫出來后都還有些懷疑。我們論文最開始投是一個全的長文,最后審稿人給的意見是覺得選題很一般,建議我們要不投個短文試試,所以我們就改成短文投出去。可能因為是這個原因,投出去當時沒有引發廣泛關注,后面也陸續第一時間應用到我們在微軟的工作里”,何曉冬回憶說。
但是,站在2024年這個角度再看過去,結果就完全不同了,無論在哪個AI開發者社區,你都可以讀到類似以下的一段話——
DSSM在業界搜索引擎廣告推薦方面的影響力,目前來說是超過其它幾乎任何一個模型,基本上統治了召回/粗排階段。在大模型領域,它更是無人不知。
![]()
十年窗下無人問,一舉成名天下知。
而此刻的何曉冬,早已經從大洋彼岸的微軟研究員,變成了今天的京東探索研究院院長、京東科技人工智能業務負責人。
目前波瀾壯闊的數字化、智能化的熱浪,使我們產生一種錯覺——那就是只要是新的、好的技術發明,很快就能用于實踐,很快就能夠從實驗室走向產品化、從產品化走向商業化。
這種認知是謬誤的,或者至少是有偏差的。
一方面,經受得住時間和實踐雙重檢驗的論文,并不是那么多。
另一方面,即使一篇論文或一個科技成果,有很重要的理論價值和應用價值,但它能夠被應用起來,也需要天時地利人和。
給大家講兩個小故事。
一個是我們現在每臺智能手機、每臺筆記本電腦里都裝著的SSD(俗稱閃存盤),給人的印象是這幾年才推廣的。但事實上,閃存盤這個發明的理論基礎,1967年就有了。但時間流轉到20年后,才由日本東芝的一位研發人員——舛岡富士雄發明了NOR FLASH,一種劃時代的產品。
結果呈報上去,東芝根本就不重視,因為東芝當時的注意力都在DRAM方向上(一種內存)。
結果這位科學家又不屈不撓的搞出了NAND FLASH閃存,這就是我們今天所用的固態硬盤的基礎介質。
沒想到,這次東芝倒是有所表示了:獎勵了他幾百美元獎金,然后可能是覺得他有些刺頭,把他調到了一個邊緣崗位上,又是若干年。
直到在東芝度過了23年,從28歲變成51歲之后,舛岡富士雄選擇了辭職。這時候閃存已經是一個千億美金市場。
舛岡富士雄在2006年起訴了東芝,并索賠10億日元。但結果很糟糕,他只拿到了8700萬日元的和解金,折合下來只有幾十萬美元,而這本來是一個可以問鼎諾獎的發明,可以為發明者帶來無窮的財富和榮譽。
其實,科學家的優秀科研成果轉化,靠個人努力從來是艱難的。
我們可以看看剛剛獲得2024年諾貝爾物理學獎的“深度學習之父”辛頓的例子,辛頓在2006年在深度學習方向的研究取得重要成果后,其實對如何推廣這項技術也感到茫然。
于是,直到2012年,他才成立了一間小公司,但卻對如何后續發展,并無做好準備。
辛頓的幸運是,由于當時人工智能產業的勢頭已經開始明顯的抬頭,很多企業都在密切關注能推動人工智能技術重大突破的新理論,這使得辛頓的公司在幾乎沒有任何實際業務的情況下,就得到了來自百度、谷歌的競買。
這其中,最關鍵的時刻并不是辛頓在2006年做出的研究,而是谷歌決定請辛頓加入。如果沒有谷歌平臺上諸多場景對辛頓的成果的驗證、實踐和孵化,深度學習是否還有今天這么高的地位,谷歌是否能拿出一系列基于這個理論的產品,都很難說。
辛頓的戲劇性經歷說明了,在技術轉向應用的過程中,充滿了種種的不確定性。即使在商業體系、技術體系更為成熟的地方,科研人員在推廣自身研究并付諸于產業應用的路徑,也仍然是不平坦和充滿隨機性的。
這也說明了,刨除純粹的底層理論性研究外,檢驗一個技術是否是真正有價值的技術,時間只是表征,實際上還是真正在工業化場景里的應用價值,是對現實世界的變革的推動。
而這,可能才是何曉冬辭別美國的首席研究員、教授、博導等赫赫頭銜,愿意回國來到京東的原因,因為這里有他想要的轉化環境和條件。
“對于科研工作,而我不喜歡這種‘發完就不管’的做法,我希望看到它在真實世界里創造出價值”,何曉冬說:“而京東一開始就有這種氛圍”。
02
范式轉換:從科學創新到產業創新
何曉冬的履歷其實比較簡單,清華本科、中科院碩士、密蘇里大學哥倫比亞分校博士,然后加入微軟,一直從事語音識別、語言理解、圖像與語言多模態信息處理等領域的研究,然后于2018年加入京東,擔任副總裁,主管人工智能方向的技術和產品研發。
學術界的評價是,何曉冬是本領域世界級科學家之一,吳文俊人工智能杰出貢獻獎獲得者。他發表了200多篇論文,引用5萬余次,并多次獲得ACL杰出論文獎、IEEE SPS Best Paper等獎項。
![]()
這好像是一條從學霸到頂級學者,再從頂級學者到產業創新的重要人物的必經之路。
但是,我認識的太多AI牛人,走通了從學霸到頂級學者的路,卻沒有走通從頂級學者到產業創新的重要推動者的路。
這里面有太多的干擾項,但我覺得主要因素就是兩個——個人意愿和工作氛圍。
從個人意愿來講,何曉冬選擇來到京東,就是希望做出一些改變,對真實世界的改變——他在微軟研究資源和環境寬松,整體上偏于純研究,離應用比較遠。“來京東是真正的上一線了”,他興奮的說:“而且這里有非常豐富的場景,是能夠做出一番成果的。”
從企業環境來講,我見過的一些科學家進入企業后,往往不樂于帶團隊、背業績,還是希望有一個相對簡單的研究環境。
但何曉冬相反,他和我講過,一開始就要帶團隊,而且要背業績,雖然最開始也是如履薄冰,但“心里是歡喜的,因為你知道你所研究的技術有可能真正改變這個行業”;他說這話時,是由衷的歡喜——因為他在以前的環境里的任何研究,很多時候基本走不到能聽到真實用戶反饋的那一步。
被稱為科技大佬必讀書的托馬斯·庫恩的名著《科學革命的結構》里,非常清楚的描繪了這樣一種場景,他認為——科學技術的突飛猛進催生了一系列的理論與技術創新,促使科學技術日益整體化,學科間相互交叉滲透的趨勢大大增強,預示著人類文明史和認識史進入一個重要的時期——以往的科學更多地表現為個體勞動;現代科學技術的發展,促使這種勞動方式發生改變,它需要一群人一起努力,讓科學制度化、專業化和集約化的程度大大提高。
而我也非常清楚的記得,何曉冬和我說過一番意思完全相近的話:“現在的AI研究,已經不是幾位科學家在實驗室就可以完成的了,而需要許許多多的人的跨界協作。技術在不同場景會產生不同價值,所以研究技術也需要許許多多的業務場景,這都是單純在學術界得不到的,這也是吸引我以及類似技術工作者來京東檢驗我們的成果,甚至是檢驗真理的原因”。
03
ai加速落地,場景成關鍵因素
而讓他在京東堅持下來的一個原因是,這里的研究和應用場景的聯動,實在是太快了。
前面說到的雙塔模型,何曉冬在做出理論設計、發表論文后,非常渴望得到在真實環境中的檢驗, “當年,經過一個全球副總裁的推動,才把這個技術呈現給了業務部門,中間歷時一年。應用了之后產生效果”,何曉冬說:“這也是我來京東的原因。”
在京東,何曉冬的團隊是一群更年輕、但更有欲望做出變革的年輕人。
何曉冬團隊有很多80、90后,他們有的進入京東后,依舊聚焦自然語言處理(NLP)、語音識別(ASR)等AI技術的研究和產品研發;也曾有一段時間,這幫年輕人一邊開發,一邊仍執著于拿著自己研發的算法和論文,在各種排行榜上打榜。
![]()
然而,當他們拿著沖榜成績以及國際會議和期刊論文,打算說服業務買單時,“無力感撲面而來”。再厲害的學術成績,也要證明自己有應用價值。令他們印象深刻的是,當時業務反問的一句話:“可以為用戶帶來什么好處?”
后來,這個年輕的NLP團隊開始對當時的“發現好貨”頻道進行技術攻堅,這是一個需要大量優質文案的板塊,內容的好壞會直接影響用戶種草下單的欲望。
幸運的是,在他們技術攻堅的過程中,不僅有極大的算力支持,還有海量、高質量的真實用戶反饋信息,這是形成研發閉環的至關重要的環節。
同時,更重要的是,大半年的項目周期,技術上有幾十個卡點,上下游涉及的成員從不做甩手掌柜,每周一次的例會,更像是密集攻堅的學術研討。
不到一年時間,這個團隊就率先攻克了多個技術難關。靠“發現好貨”項目,團隊還拿到了京東的技術金獎。
![]()
04
應用推動創新是AI發展的第一性原則嗎?
目前,AI究竟該用什么路徑發展,已經成為行業里一個爭論的焦點。
一部分人認為,要想做出核心突破,就應該專攻底層技術,因為只有底層技術的積累,才能有上層應用突破的可能。
但這種路徑的弊端是,AI發展太快了,以至于沒有人能夠說清AI現在的“底層技術”到底是什么,方向到底是什么。
“ChatGpt4出現,ChatGpt3.5就被人拋棄了。如果只是押寶某個技術方向、某個模型,在強手如云的行業里,隨時會出局。除非你是頂級巨頭,能同時去賭多個方向。但即便如此,這也不能保證你就是贏家。Chatgpt不是由擁有數萬研發人員的谷歌做出來的,而是由只有150人的openAI團隊做出來的,這個案例還不夠深刻嗎?”,一位AI的資深大咖這樣對筆者說。
另一種觀念認為,AI業者,一方面要保持對底層技術的敏感性,另一方面主要是關注應用方向,比如京東,結合自身的產業場景做各種AI+,反而收獲累累。
任何業務的成功,都體現在是否遵循了符合自身規律的第一性原則。
比如特斯拉,在推動電動汽車的時候,遠遠沒有今天如此發達的供應鏈,也沒有一套現成的規律可以摸索。
但他們就是選擇了自主建廠、自行研發電池系統、拿掉激光雷達……換言之,特斯拉成長背后遵循的第一性原理,就是用技術降本,將產品賣給更多人,獲得更多利潤,繼續投入技術研發。
而京東AI的第一性原則就是問題導向、痛點導向, 跳出純技術、純學術的固有思維,針對現存矛盾突出的問題,探索本質,思考解決之道。
從挑戰來看,自然語言處理是目前AI最成熟的領域之一,要想在強敵環伺之下殺出重圍并不是一件簡單的問題。
而從真實結果來看,這幾年京東在AI上的進展,是肉眼可見的,他們在智能客服、智能外呼、數字人、AIGC營銷等方面的進展都是巨大的。得到了用戶用真金白銀買單的認可、也拿到了中國AI最高獎——吳文俊獎。
沒有什么比這個更能證明,京東的AI研究走在一條以應用反饋式創新驅動技術研究,再通過大量的實戰積累理論高度的閉環之路。
“在解決AI應用落地的過程中,京東成為了AI大規模落地應用的一個很好的土壤。技術文化既有導向性又寬容度,這種氛圍可以吸引更多的科技人才,京東也會成為AI前沿技術落地創新的策源地”,何曉冬說。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.