網易首頁 > 網易號 > 正文申請入駐

京東要造“人”

2024-12-05 11:17:27　來源: 淺黑科技官方

北京舉報

分享至

淺友們好~我是史中，我的日常生活是開撩五湖四海的科技大牛，我會嘗試用各種姿勢，把他們的無邊腦洞和溫情故事講給你聽。如果你想和我做朋友，不妨加微信（shizhongmax）。

京東要造“人”

文｜史中

（零）在意義空間里“調味”的師傅

“何老師，錄像準備開始了，記得不要做意義太明確的手勢哦！”

何曉冬點點頭，深吸一口氣，面向兩臺攝像機開始發表演說。

氣氛整這么緊張，不是搞就職典禮，而是在搞“數字分身”。

話說，那是 2022 年冬天，京東云的言犀團隊整了個大活兒，準備正式推出“數字人主播”，就是讓 AI 復刻真人的表情、動作、語言來直播帶貨。甚至他們還琢磨著把東哥也搞成數字人，“親自”下場直播練攤兒。

作為數字人項目起心動念的推動者，這“螃蟹”何曉冬說啥也得自己先吃一只試試毒。

克隆效果咋樣呢？

這是真人何曉冬↓↓↓

這是數字人何曉冬↓↓↓

這里提個小問題：為啥當時團隊同學要提醒何曉冬別做意義太明確的手勢嘞？

因為被錄制的人，所有的動作都會成為呈堂證供，啊不，學習資料，交給 AI 去參悟。

最后做出的數字人，在直播時會根據說話的內容判斷，從這些動作里生成 Ta 認為最合適的給貼上去。

而“貼”的有沒有那味兒，取決于 AI 對手勢的“意義”理解有多深刻。

在這之前，團隊已經做了幾個月實驗，復刻了不少主播。

他們發現，如果主播做太多一二三之類有明確意義的手勢，AI 容易學岔劈，帶貨時不合時宜地比劃“一二三”。。。

那不如就先瞞著數字人，不讓它知道有這樣的手勢。

這是個小事兒，但我卻想讓你站在這道“楚門世界的裂縫”前，看看隱約透出的真相：

AI 本質上就是一臺“意義調味機”——如果像大廚那樣，從各種意義調料里一抓就準，就能把語言、動作運用得越得當，它就越！像！人！

攤開歷史的卷軸，這場烹飪游戲已曠日持久，數字人不是第一關，也不是最后一關。

（一）一抔 AI 往事

話說，這次我和何曉冬博士見面，是因為他剛得到了一個“既奇怪又不奇怪”的大獎。

這就是頂級學術會議 CIKM（信息檢索和數據挖掘國際會議）頒發的“最佳時間檢驗獎”（Test of Time Award）。

說“奇怪”，是因為這個獎居然頒給他 11 年前的一篇上古論文。

說“不奇怪”，是因為 2024 年很多重量級大獎都不約而同頒給了這種上古貢獻，仿佛是學術界的一波大型“追認潮”。

比如今年剛拿諾獎的辛頓老爺子。他的”深度神經網絡”結構可是在 80 年代提出來的，整整等待了四十多年，直到 ChatGPT 和大模型百分百驗證了這條道路的兇狠之后，才終于獲得追認。（虧了老爺子身體硬朗。。。）

可貴的是，何曉冬博士這些年拼殺的方向，一直圍繞著這個戰場，也就是剛才提到的：

通過神經網絡技術，不斷讓“意義調味機”變得更精準。

我愿稱之為“AI 的正確道路”。

回到這篇論文出生的 2013 年，那時候沒有抖音，沒有拼多多，沒有滴滴，也沒有中關村掃碼一條街，買一臺指紋開鎖的 iPhone5s 夠吹半年。

更離譜的是，如今教父一般的互聯網巨頭們，當時竟都沒能很好地解決一個基礎問題：

如何給用戶的“查詢”匹配精準的“內容”？

打個比方。

比如我搜“狗”，最簡單的方法當然是“字詞匹配”：在全網的文章里，找到含有“狗”這個詞最多的文章，給我展示出來。

但這有大問題，很多寫狗的文章不一定有這么多“狗”字。

有可能寫的是“犬”，有可能寫的是“金毛”“雪納瑞”。搜索引擎篩選的時候，不會覺得這些文章是我需要的，統統 Pass。

你說它傻不傻？

關鍵詞匹配只能找到字面對應關系。

那咋辦？還是那句話，要搞懂“意義”。

當時有技術可以理解字詞的“深層意義”嗎？有啊，要說辛頓老爺子的論文早就寫了：可以把每個詞都轉化為一組多維空間的向量。

多維呀，向量呀，太難懂，就舉個通俗的例子吧：

假設咱們手里有 10000 種“意義配料”，每種配料都用一種顏色表示↓↓↓

“狗”和“金毛”是兩個詞，各自用到的意義配料必然不同。但是，它倆肯定有幾味主要的配料很相似。

也就是說，在語義的空里間，“狗”和“金毛”的位置會比較近！

“金毛”和“狗”字面上看起來完全無關，但通過對比它們的“意義配料”，咱就知道金毛和狗存在深層語義空間存在一定的關系。

要是能寫一個 AI 程序，精確提取出各種詞匯的“意義配料”，到時候不就能用于精準匹配“查詢”和“內容”了嗎？

就像醬↓↓↓

何曉冬眼前漸漸浮現出“兩座塔” ：

一篇內容也許有幾百個詞，把這幾百個詞剁碎，一股腦扔給 AI，算出這篇文章的“配料”；

一個“搜索”可能有十幾個詞，也同樣剁碎，一股腦扔給 AI，算出它的“配料”。

這里的配料最初有上萬種，但是我們要層層歸納，最后歸為 128 種。這個層層歸納的過程，就像是“蓋塔”。

每上一層，配料就少一些，計算量也小一圈↓↓↓

此時，“查詢”成為一座意義之塔，“內容”也成為一座意義之塔。

最后神操作來了：只比較兩座塔的塔尖，這 128 味配料的相似度。

這不就省事兒多了？

而且，你日常就可以把所有“內容”的塔算好，用戶來了一個“查詢”，馬上就能和這些塔尖比對，找出最匹配的那些“內容”！

這就是DSSM 模型（基于點擊數據學習用于網絡搜索的深度結構化語義模型）。

11 年時間彈指一揮間，君且看，如今 DSSM 雙塔結構已經遍地開花，大小互聯網公司，只要有“搜索、推薦、廣告”業務的，就一定有這“兩座塔”。

一篇論文，奠定了互聯網“搜推廣”的基本業務模式，讓后來的電商、短視頻等等帝國，都建立在這塊磚石之上，“最佳時間檢驗獎”妥妥實至名歸。

但真正兇狠的是，有關“意義調味機”的故事并沒有結束，而是剛剛上路。

時間檢驗獎的“獎狀”。

（二）萬物皆“配料”

造出《終結者》里 T-800 那樣的通用人工智能，是 AI 科學家的人均野望，但很長時間他們眼前的 AI 都是花式智障，爛泥扶不上墻，只能掩面長嘆。

如何在一片沒有任何標志的荒原里找到通往終點的“那條路”，才是個真問題。

2018 年，何曉冬離開微軟雷蒙德研究院，回國加入京東。

在我看來，這背后恰恰隱藏著一類 AI 技術人尋找這條路徑的品味。

簡單來說就是：要想 AI 進步，得不斷讓它在*真崗位*上*干真活*。

這里有“兩個真”：

真崗位，是說 AI 必須在生產活動中參與人類的一項或多項工作。（否則就是玩具嘛。）干真活，是說 AI 做這件工作（相同效果下）的成本必須低于人類。（否則就是作秀嘛。）

按照這個品味來說，京東還真是個好去處。

因為京東能掰成兩半：一半是個互聯網電商公司；另一半是運行著龐大供應鏈、倉儲、物流、客服的實體產業。

兩邊加起來有幾十萬員工，上千種崗位，而且很多崗位是比較基礎的體力和腦力勞動，特別適合 AI 來做嘛。

也就是在這個節骨眼上，京東提出了“技術、技術、技術”的口號，準備拉開陣勢挖掘自己的 AI 金礦。

智能客服，就是他們挖的第一批“礦坑”。

很多人覺得“智能客服”和我們上一章講的“搜推廣引擎”是兩個風馬牛不相及的東西，其實不是的。

你還記得我們之前反復說：“AI 的本質是意義調味機”嗎？

“搜推廣引擎”的本質是把“查詢需求”和“內容供給”在味道上匹配，把適合的內容展現給適合的人↓↓↓

智能客服本質上是把“問題”和“解答”在味道上匹配，把適合的回答展現給適合的問題↓↓↓

它們干的活都是：用神經網絡去找到一個東東在意義空間里的位置。

只不過這些解答不是簡單的詞匯，而是詞匯串起來的句子。所以，“智能客服”顯然要比“搜推廣引擎”有更多的意義配料。

這也意味著要用更大的模型，耗費更高的算力去計算。

客服解決一個問題，顯然要比提供一次搜索結果的價值高得多。只成本合得上，就是 “干真活” 嘛，沒毛病！

但把模型做大，只是水面之上的冰山，如果站在人類客服的“真崗位”上看，你會發現很水面之下還有更多棘手的問題：

首先，客服接收的詢問可以是文字，但有可能是圖片，也有可能是語音；其次，客服要去尋找的答案，也可能來自文字、圖片、視頻、音頻雜糅的頁面。

比如我發給京東客服一張衣柜的照片，問還有沒有其他類似款式的。

人類客服可以輕易感知這張圖里的內容和“衣柜”這兩個字在意義空間里是對應的。

要想上崗干活兒，AI 也必須做到。

這就要求 AI 不僅要（像搜索引擎那樣）把文字放在意義空間里，還要把語音、圖像等等都對應在*同一個*意義空間里，用同一套意義配料來表示。

用專業”黑話”來說就是：多模態語義對齊。

問題來了：

人類 AI 技術一直是摸著石頭過河，走一步看一步，導致雖然都是使用深度神經網絡技術訓練，但用于視覺識別的 AI 和用于語言理解的 AI 訓練方法走了兩條完全不同的道路。

假如中國人看到英國飯，雖然覺得不好吃，但起碼能理解他們在吃啥，因為配料能對得上。

但如果一個中國人看到了三體人吃的飯，配料完全對不上，就很難理解了。

配料對不上，意義就對不上。

那咋辦？

這里就不得不抬出何曉冬博士十年前的另一項工作：DMSM（語言 - 視覺深度多模態語義模型）。

道理也簡單，就是要從頭訓練視覺和語言 AI，并且在訓練成型的各個階段不停地比對，確保它們的意義配料在每個階段都能準確對應。

配料一樣，就能想辦法對齊。

這就可以了嗎？

在這個崗位上真試一試，你會發現并不可以。

因為一張圖片里會出現很多物體，而人類客服可以輕而易舉地注意到圖片里的“主體”，但是 AI 就會混不吝地把所有物體都平等地識別出來。

這樣不僅浪費巨大的計算力，還會讓識別變得非常不準確。

那咋辦？

這里就不得不抬出何曉冬博士五年前的另一項工作：“Bottom-up and top-down attention”（自下而上和自上而下的注意力機制）。

這個技術其實就是受到人類注意力機制的啟發而想出來的，簡單說就是：通過圖像和文字中的一些蛛絲馬跡，提取出 AI 應該重點注意的主體。

有了這兩個技術打底，再加上億點點工程優化，就做出了一個多模態模型，不僅能用一套“意義配料”來表示圖像和文字，還能做到成本低廉。

雖然遠談不上完美，但它可以干活了！

就像這張圖所示：AI 看到“狗”，就能馬上聯想到狗的各種關聯詞，還有狗的樣子，還有狗的發音。

你看，只要人類認為*可以有意義*的東西，甭管是文字、圖像、語音，都可以塞進同一個意義空間，用同一套意義配料來表示。

理解并且做到這一點，我們才邁過了通往通用人工智能的一個重要的里程碑！

在 2020 年時，這個多模態模型已經被干到了 10 億參數量。

這樣的模型不僅可以做客服，也能做銷售。比如打電話給老用戶，通知他們新的促銷活動。

言犀的師傅們發現一個有趣的心理規律，大多數用戶會在接到電話的第一句決定是不是要掛斷。如果沒掛斷，大多就會和你多聊幾句。

于是他們制定了一個指標——“首句掛斷率”。為了讓 AI 客服撐過第一句，他們拼命優化說話的口氣，甚至還用上了方言。

人們聽到鄉音，就會倍感親切，也會更愿意傾聽和交談。

你聽一段感受下↓↓↓

也正是從這個時候開始，京東啟動了 AI 能力大規模對外服務。

不僅給京東當客服，也可以出去打工，甚至被雇去給一些城市的政務熱線 12345 去做話務員。在這么重要的崗位上服務，可見能力還是頗受信任。

不過，如果此時把視野拉開，一個怪獸正在撕開帷幕，準備攪動舞臺。

（三）做出世界上不存在的蛋糕

2020 年夏天，就在全世界公司都在一腦門子官司，用小皮鞭抽打 AI 去各行各業打工時，大洋彼岸的 OpenAI 祭出了一個“怪獸”——擁有 1750 億個參數的 GPT-3 模型。

算起來，它比京東的模型 10 億參數大了一百多倍。訓練它消耗了 500 萬美元。

但。。。它只會聊天，創造不出啥經濟價值，完全不符合咱們一直鼓吹的真崗位上干真活的“賽博牛馬”氣質。

這當然不能說明 GPT 沒有價值，這恰恰說明，沒有一種 AI 路徑是絕對正確的。

歷史有時進入迷局，真就得靠瘋子撞開一扇門。

這一波 OpenAI 的折騰，言犀的師傅們從專業角度悟出了一個“門道”。

那就是，GPT-3 模型把全世界互聯網上的文字拿來學習，用極多的意義配料來表示這些詞匯和語句，超過一定程度，它突然就“涌現”出生成內容的能力。

咱們不妨想象一個蛋糕店：

過去，你是個打工學徒，有顧客形容他想要一個什么口味的蛋糕，你只能盡量理解，然后從貨架上選一款最貼合他描述的；

現在，經過十年苦練你成了糕點仙人，顧客說他想要什么口味，無論多么離奇，你都可以微微一笑，現場拿配料給他做一個。

你完全可以把以上兩種情況都看作是“匹配”。

只不過一個是在成品層面匹配，一個是在配料層面匹配。

用無數已有的意義配料做出世界上原本“不存在的蛋糕”，其實就是我們現在熟悉的大模型 AIGC（人工智能生成內容）。

雖說在 2020 年，大模型的成本還在天上，沒啥實用價值；但隨著 2022 年底 ChatGPT 3.5 捅破天，大模型的能力迅速抬升，成本迅速下降，它就落入了真崗位上干真活的軌道。

這也是為什么從 2023 年開始，全世界的大公司全都瘋狂地殺入大模型。

雖然各家大模型都可以 AIGC，但如果還拿蛋糕店打比方，你就會理解一個問題：能不能做出好吃的蛋糕，是由“原料種類的豐富度”和“你對原料掌控的精細度”決定的。

對于京東來說，他們的“原料”里有大量的采銷信息、產品介紹、營銷方案、用戶對話，把這些東西揉碎在意義空間里，能出來個啥？

這要不出來個賽博牛馬級的帶貨主播，都對不起這些獨家數據呀！

京東直播間的數字人主播

話說，很多人都看過數字人的帶貨直播，但卻不太容易條分縷析理解背后的技術。

告訴你一個小妙招，從“意義配料”的角度下手，分分鐘就能“庖丁解人”：

想想看，一個人，只要精神正常，在同一個時刻，他的所有語言、嘴型、表情、動作都只為同一個意義服務。

人是如此，數字人更是如此。

現在我們假設：一個數字人在直播，他正好要揭曉某款空調的價格。

這一刻，把時間定格，鉆進這個數字人主播的身體里——她全身上下所有的表達必須都凝聚在“揭曉價格”這個意義上：

她的腦海里正流淌著一句話：“這款空調雙 11 的驚爆是 2699 元?！?她發出的聲音，就是這句話的中文發音。她使用的語氣，必須是和這句話意義相匹配的（此處也許要神秘的、激動的）；她的嘴型，也必須和這句話的發音相匹配；她的表情、手勢也都必須和這句話揭曉價格的情緒相匹配；

那么問題就簡化了：一切樹枝攀附的樹干——這句話——是怎么來的呢？

當然是大模型的語言能力+京東電商數據的特訓+商品的基礎信息，然后“AIGC”出來的！

這段銷售的語言被生成出來，聲音、語氣、嘴型、表情、手勢才能被順次生成，他們一起在時間線上向前移動，在每個時間切片上，所有的樹枝和樹干都要表達同一個意義。

客觀上來說，以目前的人類技術，還不能用一個模型來生成這么多模態的內容：

必須用一個大模型生成語言，一個專用模型生成聲音，另一個模型生成嘴型，還有一個模型生成身體動作，等等。

但沒關系，還記得我們手上已經有一個傳家法寶了么？

沒錯，多模態語義對齊！

只要讓語言、聲音、語氣、嘴型、表情、手勢等等各種東西都在同一個語義空間里對齊，用同一套意義配料來表示，那么數字人在說一句話的時候，自然就知道應該對應哪個聲音和動作了！

就像下圖所示↓↓↓

說到這里，我們不妨駐足回看。

你會發現這些年言犀老師傅雖然做的東西五花八門，但卻一直在這場曠日持久的“意義戰爭”里拼殺，從未離開。

每一次蹦高才能 get 的新技能，后來都成為更炸裂技術的“墊腳石”。

2013 年，他們在空間里為文字尋找意義配料，誕生了千人千面的搜推廣引擎； 2018 年，他們開始把文字、圖像、聲音用同一種意義配料表示，誕生了 AI 情感客服； 2023 年，他們開始用大模型精細的意義配料來調配不存在的東西，并且把文字、語音、動作等等更多的模態在用同一套意義配料對齊，于是才誕生了—— “言犀數字人” 。

從一開始，完全看不出和人有什么關系的專用 AI 系統，到后來意義配料逐漸增多，模態逐漸堆壘，一個人的雛形就這樣浮現，這才是技術進步最浪漫的劇本。

不過，我們不能沉溺于浪漫，回到開頭的故事，言犀同事們為何曉冬制作數字人時，讓他不要做意義明確的手勢，就足以證明現實的殘酷：

模型對于語義配料的分析能力還有很大的欠缺。

話說在 2023 年，業界數字人的前沿能力大概是：

1、文字、語音和唇形能夠用“配料”自然生成，即便如此還是有某一刻不那么像真人；

2、人物的表情和手部動作無法隨意生成，只能在最初的錄像里“挑選”；

3、人物的大幅度動作，比如喝水、站起來走動、摸臉等等還無法做到。

所以整個 2024 年，京東師傅們都在意義海里深潛，就研究一件事——怎么讓數字人更！像！人！

（四）“不出戲”的數字人

說到這，就不得不給你介紹一位我新認識的兇悍產品人，飛姐。

飛姐確實給我隨時準備解決一場戰斗然后“飛”到下一個戰場的感覺。而且我發現這不是她一個人的氣質，而是數字人產品團隊的氣質。

技術一定有不完善的地方，主播被用戶發現是個數字人也在所難免。但我們能做的是想盡辦法讓用戶晚一點兒“出戲”。只要停留在數字人直播間更長時間，自然貨賣得也會更好。

她開門見山。

“出戲”，其實是人類意識一個很玄妙的特性。某個說不清道不明的細節，就會讓你意識到“哪里不對”，一旦意識到“哪里不對”以后，你就沒辦法再回到“對”的狀態了。

為了讓數字人不出戲，團隊工作的主要內容之一就是“看購物直播”。（怎么樣，羨慕么？）

當然，他們是專業的，只看，不買，除非忍不住。。。

出乎我意料的是，他們大多時間居然看的是人類直播，而非數字人直播。

他們是在“逆向思考”——人類主播做了一件事，讓觀眾 DNA 動了，他們馬上就拿小本本記下來。

然后開始逼問自己，為啥主播干了這個我就覺得好呢？我家數字人能不能也干這個？

飛姐

比如：小動作。

一個主播是端坐在那里一直說更好，還是時不時撩頭發、看手機、瞅瞅旁邊更好？

看直播的時候他們發現，主播的各種小動作看上去沒啥意義，其實處處都在傳遞“意義”。

比如剛說錯了什么，為了緩解尷尬來個“戰略喝水”；比如剛才一通輸出信息量太大，撩撩頭發緩一緩。

這些都是數字人

小動作，其實可以歸為直播中的“瑕疵”?？蛇@種瑕疵恰恰給我們更真實的環繞感。

這種奇特的結論，如果不是真的天天泡在人類直播間，真的很難得出。

比如有同學在來回切換人類主播和數字人主播觀察時，發現了一個更隱秘的區別，那就是：人類主播會時不時盯一下手機，看評論區留言。

數字人主播當然也能“看”留言，但顯然是通過程序接口輸入的嘛！它才不用浪費時間，把屏幕上的光點兒傳到視網膜，然后用大腦解析出文字的含義。

但是！只要它沒有身體前傾默默看留言的那個的過程，觀眾就覺得你不像個人！

你說說。。。人類是有多難伺候？

誒，意識到問題所在，它就已經解決了一半兒。

在錄制數字人的時候，團隊會提前跟被錄制者說明，你必須得用放松的口音說話，如果帶點自己的口音、腔調那最好。而且還要專門錄制一些喝水、摸頭發、聆聽狀態之類的小動作，就是為了讓屏幕前的觀眾感覺到自然交互，不出戲！

下面這個直播片段，你猜哪個是數字人↓↓↓

答案是：兩個都是數字人！效果還算 OK 吧？

但是，到這里問題都解決了嗎？

還差得遠呢。

話說，直播就像一部電影，它吸引你的程度也可以用電影評分表示：

“不出戲”，只是三顆星及格線，你起碼不會把注意力抽離到屏幕以外的地方；接下來是“尿點少”，也就是四顆星，比如你即使憋尿也忍不住要看接下來會發生什么；如果“全程無尿點”，尿褲子也忍不住要看，那就接近五星好評了。

怎么能讓一場帶貨直播像精彩的電影一樣“全程無尿點”，這才是終極命題。

而且這恐怕不是戰略喝水、撩撩頭發、看看手機就能解決的，甚至也不是對每個詞句精細打磨能解決的。

飛姐團隊苦思冥想，發現了一個問題：

有些主播長得不算美，說話口音還是塑料普通話，遣詞造句也不用那么標準的語法，甚至語速也不均勻，但作為觀眾，就是覺得他/她是個人才，說話好聽。。。

雖然沒完全想明白是個啥道理，但飛姐決定試試。

她找到技術團隊的算法總監老吳，提出了非分的要求：咱家數字人能不能多點兒“主播感”？

老吳皺眉：“主播感是啥？”

飛姐給他看視頻。

老吳推推眼鏡：“可以試試。”

團隊直接把數字人的訓練庫從字正腔圓的模特天團升級到了金牌主播大軍。

一試嚇一跳：AI 把這些人的特質都學習下來之后，數字人主播身上果然多了一些微妙的“人味兒”。

飛姐決定順著這個思路繼續得寸進尺。

“無尿點主播”不僅每句話說得讓人愛聽，更是在直播的“整體結構”上有精巧的設計。

飛姐頭頂突然亮了燈泡：“直播中的整體話術設計，也是可以被大模型學習的嗎？”

她又忐忑地找到技術團隊。

老吳推推眼鏡：“可以再試試?！?/p>

他們試著找來了各行各業的頭部主播的大段直播視頻，讓大模型分析整場直播前后邏輯設計的奧秘。

果然又嚇一跳：數字人主播居然真的學會了一些直播套路，賣 3C 的時候說一套技術宅喜歡的嗑兒，賣衣服時又會說集美們愛聽的詞兒。

飛姐說，經過這個調整，數字人從一個“播報員”變得更像“銷售員”了！

它上道了，它變成了她/他。

站在技術空間，你會發現這個轉變的迷人本質：理解正在向意義空間更深處漫溯。

在大模型出現后，學界有很多大佬潑冷水：人能理解自己在說什么，可大模型的原理卻是預測下一個字的概率——這意味著 AI 永遠無法和人匹敵。

但正如辛頓所說：人工智能看起來只是一個預測下一個字的機器，但如果你能預測得極其精確，只有一種情況，那就是“理解”了。

其實，人也是被訓練出來的。

飛姐提醒我。

人生下來沒有任何能力，說話是訓練出來的，開車也是訓練出來的。三百六十行的專家，也都是經過訓練才習得這個行業的工作模式。

不僅如此，就連公認與“靈魂”最接近的情緒，快樂、悲傷、憂慮、憤怒，舔舌頭代表遲疑、雙臂交叉反應防御，也都是在和環境互動的過程中被訓練，隨之被刻在基因編碼中的反射模式。

話說，越是在人工智能領域深耕，人們越會同意一個大逆不道的“暴論”：機器沒有靈魂，但人也沒有靈魂——就沒有靈魂。

秉持這個判斷的好處很多，但最重要的一個是：你可以心安理得地把數字人和人放在同一個高度去平視。

（五）當機器平視人

中國電商巨頭有很多，但它們在對待數字人主播的態度上有細微而深刻的區別。

比如一家以短視頻為主業的頭部電商，只接受人類主播，發現你用數字人直播甚至會封號；

另一家以 C2C 為主的頭部電商，目前只讓數字人對私域流量開放，也就是你無法自然刷到數字人主播，只有關注店鋪后才能刷到它的數字人直播。

而京東的態度最為激進：它并不區分這個店鋪是人類在播還是數字人在播。

也就是說，在這個平臺上，數字人主播和人類主播擁有同等的權利。

這個策略讓人驚訝，因為看上去它兩頭得罪：

一方面，這對數字人來說是殘忍的。

因為數字人技術像個孩子一樣稚嫩，但系統沒有給它任何保護，直接無差別面對挑剔的顧客。

另一方面，這對人類來說也是殘忍的。

因為在精力上，人類不可能像數字人一樣一秒都不休息；在記憶上，人類要想成為專家，需要十幾年刻苦練習，但數字人可以瞬間學習，零成本分裂。

血肉牛馬怎么卷得過賽博牛馬？

那京東這么選的道理何在？

如果你把視野局限在數字人和人的關系上，就很難理解。一旦把頭抬起來，看向遠處，一切都朗若列眉。

我們舉個例子：

發展電動車，就是為了取代燃油車，節省能源嗎？當然不是。

電動車普及，自動駕駛才有可能普及；自動駕駛普及，大規模的機器人才可能普及；機器人普及，人類的生產制造、物流傳遞、家庭服務成本才會巨幅降低；這些成本全部降低，人類才有機會調動巨大的能量推動新一輪基礎科學進步，從而加快可控核聚變技術、星際飛船技術，飛向下一個紀元。

同樣道理：

發展數字人，只是為了在直播間多賣幾件東西嗎？當然不是。

數字人普及，人類體力和腦力的物理天花板才能打破；物理限制打破，一個生命就可以在軀體上隨時分身，在腦力上同時成為三百六十行的專家；有了這樣新的生命形態，才能在人與人之間插入無數新的協作者，讓生產力突破天花板。

站在未來回望，你才能感受到，數字人平視人類的那一瞬間有多么可貴。

何曉冬告訴我，他想象中數字人的未來就像《紅樓夢》中所描述的“太虛幻境”。

你閉一下眼睛，就像做夢一樣穿越到一個虛幻的世界：

你只要意念一動，身邊就能閃現出一個形象，和你交流，互動；交流完畢，他又瞬間消失。一切溝通都不受沉重的肉身所限制。

而且這些出現在你身邊的人，就是專門為你的需求創生的，別人既不需要，也看不到。

這種體驗，是我們依靠肉身永遠無法創造出來的。

“人到不了的疆域，機器人可以抵達?！?/p>

何曉冬說。

我們離“太虛幻境”還遠，但我們在向那里行進。

今年春天，東哥把自己也做成了數字人，這是一個極強的信號——京東在 AI 上 All in，不準備回頭了。

市場敏銳地接收到這個信號，天平從微小的震顫到迅速傾斜，很多店鋪和直播代運營機構開始用言犀數字人直播，不僅在京東平臺上播，也在其他平臺上播。

數字人主播的成本相當于人類主播的十分之一，甚至更少。省下來 90%，意味著商家可以大幅降價卻依然維持利潤。

京東用這種方式再次殺入了電商江湖的腹地。

今年 11.11 前，言犀老師傅們興奮地告訴我，他們把數字人的語音模型進行了升級，說出的話更接近真人的語調。

而且他們還做了“雙主播”技術，兩個數字人可以在直播間里實現交流，雖然這種互動還很簡單，但第一步已經邁出。

這是 2024 年 11.11 直播間的片段，你可以聽一下聲音，看一下動作。

實話說，在我這個輕度用戶看來，這些進步都是微小的創新，好像并不意味著什么，但是從老師傅閃光的眼神里，我看到了他們眼中的洶涌未來。

歷史總在押韻。

當年，何曉冬博士最初搞出 DSSM 時，業界的反應平平，甚至學術機構猶豫再三，讓他把論文大幅改短才勉強同意發表。

但何曉冬本人并不糾結，因為他篤信時間會給予自己應有的獎賞，所以能靜靜等待，默默前行。

言犀的同事們告訴我，何曉冬反復說：技術人要有高目標，如果每天僅僅盯著眼前的問題就會陷入迷茫。

如果把自己的工作僅僅看作是怎么讓數字人主播的銷量再提高 1%，難免會覺得疲憊。

如果把自己看作是一個在意義空間里沖殺的戰士，贏得人工智能曠日持久的戰爭后，自己的名字會鐫刻在人類文明的史詩中，你就會跨越搜索引擎、跨越 AI 客服，甚至跨越數字人，走向更遠的地方。

在短劇《愛、死亡、機器人》中，有一集名為《齊馬藍》（Zima Blue）。

一個曠世的藝術家齊馬，以遠超常人的激情創造了無數震撼詩人的藝術作品。他深居簡出，從不與人對話。

世人只知道，他為了更深地體會這個宇宙的真理，把自己的身體都改造成了機械。

從某一天開始，在他的畫作中，出現越來越多的藍色的方塊。這個顏色精準而動人，人們想盡一切辦法理解其中深意，但終無所得，只好稱之為“齊馬藍”。

在完成最后一個作品前，他向一位記者袒露了真相：他是一個 AI。

在“他”還是“它”的時候，它只是一個清洗泳池的工作機器人。

但正是從這樣專業且微小的工作開始，經過無數次進化，他成為了現在的自己。

而在畫作中反復出現的藍色方塊，正是在水下看到的游泳池瓷磚。

被人歌頌的偉大頓悟，來自渺小而微的勞作；

渺小的勞作，穿越恒久的時間，成為被歌頌的偉大。

這種恒久的耐心或許并非 AI 專屬，而是 AI、人類以及所有智慧生命所共同擎起的一把火炬。

在這個意義上，我們無比平等。

理解自己

造出自己

再自我介紹一下吧。我叫史中，是一個傾心故事的科技記者。我的日常是和各路大神聊天。如果想和我做朋友，可以搜索微信：shizhongmax。

哦對了，如果喜歡文章，請別吝惜你的“在看”或“分享”。讓有趣的靈魂有機會相遇，會是一件很美好的事情。

Thx with in Beijing

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.