每經記者:可楊 每經編輯:陳旭
當人工智能開始從屏幕走向現實世界,人機交互正經歷一次升級時刻。
無論是手機、汽車,還是正在加速落地的機器人與可穿戴設備,過往以你問我答為核心的回合制交互,正逐漸暴露出響應遲緩、感知割裂、上下文中斷等問題。這種交互方式的先天缺陷,正在成為AI進入物理世界的關鍵瓶頸。
2月2日,面壁智能聯合創始人兼CEO李大海接受包括《每日經濟新聞》記者在內的媒體采訪時表示,新一代人機交互的方向已經出現曙光,但真正的躍遷不會一蹴而就,而是伴隨著云端與端側模型能力的持續提升逐步發生。在這一過程中,全模態模型是否能夠成為連接數字智能與物理世界的具身大腦,正在成為產業關注的核心問題。
![]()
圖片來源:面壁智能
全模態不是功能疊加,而是交互范式變化
隨著AI開始進入物理世界,當其驅動機器人或可穿戴設備時,傳統的人機交互模式開始顯現弊端。
清華大學計算機系長聘教授、面壁智能聯合創始人兼首席科學家劉知遠認為,對人類而言,聽、說、看本身是多通道并行的,人可以在說話的同時繼續聽、繼續看,這些過程并不會彼此阻礙。但在人機交互層面,此前的大多數模型都很難具備這種能力,“一旦你開始說,就沒有辦法看了,有這樣那樣的問題。”
這種交互方式的缺陷,限制了AI走向具身智能的深度。在劉知遠看來,擬人化、高度自然的交互能力,是讓機器人、智能終端更像人的關鍵一步。“它(全模態模型)和讓我們未來的機器人、智能終端能夠像人一樣去進行自然交互,可能離得更近。”
依照這一判斷,具身智能并不是一個獨立分支,而是對模型交互能力提出了更高要求的應用場景。劉知遠強調,在具身、智能終端等場景中,其實同樣需要類似的模型,才可能讓它更好地服務人類。劉知遠在采訪中判斷,具身智能在能力層面的快速迭代,可能并不遙遠。“如果說還有多久,我估計可能也就是這兩三年時間。”
落到產業層面,端側模型與AI硬件的結合,正在成為一個現實而復雜的命題。
在李大海看來,隨著大廠下場、智能體進入手機等終端形態,新一代人機交互的形態已經看到曙光,但這也并不意味著拐點已經到來。他判斷,這一躍遷不會是一次性完成的,“大家會在這個方向上不斷地探索,這個要伴隨著云端模型和端側模型的持續提升。”
即便在當前被廣泛討論的手機場景中,技術本身仍存在明顯約束。李大海表示,像豆包手機背后依托的是目前行業里最優秀的模型之一,但它對人類復雜任務的完成率其實也沒有完全達到可用的理想狀態。
李大海進一步分析稱,一方面,純云端方案難以繞開隱私問題;另一方面,端側資源的算力等消耗,使得全模態能力在手機上的落地需要更長時間。李大海直言,模態越多,資源消耗越大,這決定了不同終端形態的節奏差異。
手機目前的交互仍主要以語音和觸控為主,模態相對受限。李大海介紹,以豆包手機為例,其核心突破是讓智能體可以像人一樣操作手機,代替用戶完成復雜任務,這相當于解決了像人一樣輸出的問題。而下一個重要的演進方向,則在于輸入方式的變革。
“目前手機與人的上下文同步,依賴人在屏幕上的主動操作。如果未來手機能直接聆聽、觀看真實世界,它就能更好地與主人同步、共享上下文。”李大海認為,這是手機邁向真正智能體的關鍵一步,但也將直面功耗與隱私保護的雙重挑戰,對產品設計提出了更高要求。
相比之下,汽車、機器人等場景,由于資源條件更寬松,也被李大海認為是全模態模型更具潛力的落地方向。而在具身智能領域,他認為,當前的瓶頸不在本體,而在大腦,一旦模型能力出現突破性進展,具身智能很可能迎來類似“ChatGPT時刻”的躍遷。
行業將快速見證模型專業能力與交互能力爆發
在這種判斷下,面壁智能對自身的定位并不著重關注某一個產品或硬件形態,而在于是否能夠持續產出高質量模型。
在AI領域,Scaling Law(規模定律)曾是公認的鐵律,但關于其是否會碰壁的爭論從未停止。面壁智能曾經提出另一個視角:Densing Law(密度法則),即大模型的保鮮期極短,能力密度每100天左右提升一倍。這意味著,重要的不是開發出一個優秀的模型,而是具備持續開發優秀模型的能力。
面壁智能將自己定位為“做大模型的光刻機”。李大海解釋說,這個光刻機指的是不斷訓練出更高能力密度的大模型。
劉知遠補充表示,密度法則的邏輯與芯片行業相類似:大模型未來的趨勢是尺寸越來越小、密度越來越高。進而極致地降低模型成本,同時用更小的尺寸讓其更有可能在距離用戶更近的終端上運行。
李大海強調,端側模型的商業化,本身也是能力驗證和數據飛輪的一部分。單純依靠商業化的路徑銷售模型,來實現將模型部署到百億臺設備的目標可能比較困難,更現實的路徑是通過生態和開發者,共同推進這一過程。
關于與大廠之間的競爭,在李大海看來,創業公司的機會并未因為大廠入場而消失。AI仍然是一個產業級機會,創業公司面臨的考驗是,選擇在一個非常廣闊的賽道上占領比較小的份額,還是在比較小的市場去爭取頭部,“我相信還有很大的空間給大家去發揮。”
對于未來的技術趨勢,劉知遠提出了兩大主旋律:一是智能能力的持續增強;二是智能的使用持續高效。他認為,接下來一兩年,行業將快速見證模型專業能力越來越強,以及與世界交互能力的爆發。“它(指模型)作為一個智能體,具備了更強的自主學習能力,這是接下來一兩年非常重要的發展趨勢。當它具備了自主探索、學習成長的能力之后,再下一步的突破,其實就是多智能體的協同。”
劉知遠表示,在未來的五到十年,全球一定會進入多智能體互聯互通、高度協作,并涌現出群體智能的狀態。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.