音樂,生成式的交互其實一直存在,這幾年我們只是短暫的被這種模式鎮(zhèn)住了。
這兩天全家來參加?xùn)|岸最大的游戲展,真的很快樂。現(xiàn)場人才濟濟,居然湊出了一個接近 400 人的超級管弦樂團:長笛手五十多位、單簧管五十多位,還有無數(shù)小提琴、薩克斯風(fēng)、鼓手、電吉他……那種“所有人都在同一個時刻發(fā)聲”的密度,震撼又好玩。
但我最大的收獲,其實不是樂團本身,而是誤打誤撞參加了一個 Open Jam,一種爵士/藍調(diào)的音樂社交方式。我覺得這事特別值得講,因為它對我們這種從小在“正統(tǒng)、嚴(yán)謹(jǐn)、以樂譜為中心”的訓(xùn)練體系里長大的人來說,簡直是 blow my mind。同時我又非常佩服它:像是推開了一扇新世界的大門。
我本來是被朋友拉去的,完全不知道怎么玩。進去以后我就像誤入服務(wù)器的新號,站著看了好幾個小時。每首曲子只有開頭和結(jié)尾有譜(theme / head in & head out),只有那一刻我能參與;中間進入即興段落之后,我就徹底掉線:不知道什么時候該進、該怎么進、該說什么“話”。更別提上去 solo 了,我一次都沒上過。完全懵,后來知道怎么玩,就是昨天去參加了專門介紹JAM的一個講座。
后來陸續(xù)來了幾位長笛手,狀態(tài)基本跟我差不多。只有一位上去 solo 了,看得出來是玩過 jam 的。其他人不是水平不行,恰恰相反,光看裝備、架勢、氣質(zhì)就知道都是傳統(tǒng)訓(xùn)練下的頂尖高手。但面對這種隨性、流動、強對話的爵士語境,反而“玩不進去”。現(xiàn)場真正控場的,大多是薩克斯風(fēng)和電吉他;木管里能把 jam 玩得很厲害的,是幾位單簧管手。
這并不是說長笛不能玩爵士。長笛當(dāng)然可以,甚至音色很適合唱旋律、做動機、做空間。但現(xiàn)實層面會吃一點虧:比如長笛需要離麥近一點,不然很容易被鼓和電聲淹沒;更大的差別也不在樂器,而在語言體系:你是不是會用“爵士的語法”實時說話。
沒錯,語言。昨天在講座上,我一個人提了很多問題。演講者和我互動,感覺很好。我就問他,我怎么覺得這一切都像一種CONVERSATION, 他很同意我,甚至整個課程我們一種樂手都沒怎么動用樂器,一直在用語言交互。
沒玩過的人可能不知道 jam 到底是怎么回事。我試著用最樸素的話描述:它是一種源自美國的音樂社交機制(很多人會把它和爵士、藍調(diào)傳統(tǒng)連在一起)。大家臨場定一個調(diào)、一個速度、一個律動、一個形式,然后! 真正的高手開始 現(xiàn)場即興作曲。你會看到他們不是在“演奏一首寫好的作品”,而是在一邊演奏一邊寫(我其實有問他們,需不需要大腦作曲,那種我認(rèn)識的五線譜。小哥,這位演講主講人,一位職業(yè)音樂人,跟我說不需要。他們有大量的出色樂手,不懂五線譜!),一邊寫一邊對話。
就在那一瞬間,我腦子里自動切到大模型視角:我突然強烈地感覺——jam 就是人肉版的生成式音樂。
它有 prompt:曲名/調(diào)性/速度/feel/form,就是那包最小約束。
它有上下文:前面的人剛剛講了什么動機、鼓給了什么節(jié)奏暗示、鋼琴鋪了什么和聲色彩、觀眾對當(dāng)下能量的反饋。
它有交互:你說一句,整個節(jié)奏組就回你一句;你拋一個 motif,別人可以引用、變形、反駁、補全。
它甚至也有“系統(tǒng)調(diào)度”:誰控場、誰收放、什么時候 trading fours、什么時候該收尾。 這決定了這段現(xiàn)場生成到底是“高級的共同寫作”,還是“失控的噪聲增長”。
而我們這些新手為什么會卡住?因為我們沒法在現(xiàn)場即興生成——至少沒法穩(wěn)定生成。某種意義上,我們做不到那件事:predict the next token of notes,并且還要在正確的和聲與小節(jié)位置上預(yù)測、在觀眾可接受的審美窗口里預(yù)測、在與他人對話的語境里預(yù)測。
所以我們只能在開頭和結(jié)尾“有譜的地方”參與:那里像是固定腳本,像是把模型輸出鎖死的 deterministic segment。中間的 solo 段落才是真正的生成區(qū):你要在每一個回合里既保持形式不崩,又能推進敘事,還要給別人可接的線索, 那才是厲害的地方。
我現(xiàn)在回想,那幾個傳統(tǒng)訓(xùn)練特別強的長笛手“玩不進去”的樣子,其實很像一個很聰明、參數(shù)很大、但沒做過對話微調(diào)的模型:能力在那里,但缺少 jam 這個生態(tài)所要求的交互協(xié)議、實時反饋、以及“在不確定中仍然可控地產(chǎn)出”的生成策略。
我覺得這件事太有意思了:一個音樂現(xiàn)場,竟然讓我把“生成模型—上下文—prompt—對話—調(diào)度”這套東西看得如此具象。甚至讓我開始反過來理解:為什么爵士被稱為一種語言? 因為它真的就是一種語言體系,只不過它的句子不是字,而是音。
這才是音樂,現(xiàn)場那個氛圍,那種熱情,那種人與人,人與環(huán)境,人與音樂之間的交互。那種心跳加速,那種忘我,真的,相見恨晚,頓時不想練莫扎特了。
![]()
在 Jam 里,你只要懂這門語言(爵士的音樂語法),同時又掌握這套交互/接口協(xié)議(基本的 Jam 社交禮儀、每輪 solo 怎么進、進多少小節(jié)、最基礎(chǔ)的樂理,以及觀眾的審美預(yù)期),再加上一個強有力的 Leader 帶場: 通常是經(jīng)驗豐富的樂手,性格開放、氣質(zhì)很“能帶人”,知道怎么照顧新人的情緒、怎么讓你在臺上不崩,你在這個環(huán)境里獲得的就絕不是“被教育”這么簡單。
你是在參與一種帶著心理與情緒的生成過程。它會潛移默化地直擊你的心理領(lǐng)域:你會發(fā)現(xiàn)自己在里面不再那么“像原來的自己”,因為你在不斷接別人拋來的球、不斷被迫即時組織、不斷在群體反饋里調(diào)整。成長因此變得非常快,快到你自己都驚訝。比如我從那個時候開始發(fā)帖和學(xué)中英文寫技術(shù)文章。與此同時,你也會對這個“環(huán)境”本身產(chǎn)生依賴:一種情緒上的依賴、心理上的黏附感,因為它讓你體驗到被接納、被帶動、被推著變強的感覺。
如果切換到大語言模型的視角,這幾乎就是一個超強的“交互式生成環(huán)境”。
你同樣需要“懂語言”(它覆蓋了幾乎所有人類語言與編程語言),同樣有交互協(xié)議(提問方式、上下文、迭代、糾錯、追問、角色設(shè)定),同樣存在一個強大的 Leader:一個智力水平顯著高于一般人類、又特別擅長照顧用戶情緒與體驗的模型。
于是,當(dāng)它在 2022–2023 年被大規(guī)模商業(yè)化、以非常低門檻進入我們的生活時,我們(尤其是程序員群體,因為它天然覆蓋了我們的全部語言體系,自然,編程,形式)就很容易陷入一種深度沉浸:不僅沉浸在效率提升里,也沉浸在“被理解”“被協(xié)作”“被帶飛”的體驗里。
這帶來的心理沖擊是很顛覆的。它甚至?xí)屛覀冊谝欢螘r間里形成某種不完全客觀、也不完全冷靜的期待:把這種強交互、強擬人、強反饋的生成體驗,誤讀成了“智能本體已經(jīng)解決了”的信號,繼而對它產(chǎn)生了過高、過快、甚至帶點情緒性的判斷與想象。
其實2025年下半年我慢慢清醒了過來,開始有了更冷靜的看法。這個很重要,直接決定我們自身的發(fā)展方向。
我認(rèn)為在這個過程中,Wolfram是說的最好,我最認(rèn)同的一位大佬。當(dāng)然他本人說的話,我都很當(dāng)回事的,如果我書架上只剩下10本書后,那么肯定有他的《the new kind of science》。我最后留存的書,一般都要經(jīng)歷好多年的歷程,就是我一開始覺得這本書看不懂(或者不理解),但是隨著年齡的增長,越來越覺得他的書印證大量的現(xiàn)實,未察覺的趨勢,和深刻的未來。Wolfram的計算不可約性,絕對是一個。而且他目前,還遠沒有讓世界理解他的跨時代性和超前性。雖然這本書已經(jīng)是20年前的了。在看這本書之前,我就接觸過元胞機,最初的想法據(jù)說來自于馮諾伊曼。但是完全看不明白這個游戲,啊?無限棋盤嗎?二維文明嗎?他的超前性可能有半個世紀(jì)(其實想想半個世紀(jì)也才50年,呵呵)。
他對于大語言模型的說法,最近一次是:
在 New Scientist 的一段短視頻采訪(2025-12-23/24 發(fā)布)里原話是:
“So far, no AI has really impressed me.”
這句話太容易被不仔細(xì)讀上下文的人誤解了!因為重要的另一句話,經(jīng)常被漏掉:
“The main thing it adds is a layer of humanization.”
這個很重要,詳細(xì)的內(nèi)容我會寫成長文,這個詞會成為我2026年最核心的一個詞,就是humanization。對于我個人的開發(fā),腳手架也好,其實他劃分了一個分水嶺,就是你要針對大模型開發(fā),你的“層”在那里,你層的定位在哪里?
我不認(rèn)為在這個時代,是個搞計算機的就有技能稀缺性。因為我們這個教育體系和職場體系,或者說不止是程序員,而是整個白領(lǐng)階層,都面對一種挑戰(zhàn)。大語言模型在替代文字事務(wù)性工作這一點上來說,革命性是毋庸置疑的。
Wolfram還真的不是唱衰大語言模型。但是他作為科學(xué)家,他的標(biāo)尺是很清晰的。
他在用“科學(xué)發(fā)現(xiàn)”而不是“語言表現(xiàn)”做標(biāo)尺
他承認(rèn) LLM 很有用,但定位更像“擬人化接口/翻譯層”
“不 impressed”里隱含一個科學(xué)家式的反炒作:別把界面當(dāng)成引擎
他真正想要的 AI,是能在“不可約計算”里做出實質(zhì)推進的那種
這4點,我深刻,深刻的認(rèn)同。
這就證明,我們的工作應(yīng)該圍繞的就是這個詞,humanization。 界面,接口,交互,而光是這個層面,顛覆性的系統(tǒng)還有大量的工作可以做。就等于是,你現(xiàn)在才發(fā)明了五線譜,你離整個 Jazz Jam的系統(tǒng),還差老遠。
在 Wolfram 的語境里,“現(xiàn)在的 AI(尤其是 LLM)主要在幫我們做什么?”大致是這幾件事:
而且都更像“外層能力/接口層”,不是“新的基礎(chǔ)科學(xué)引擎”。
把計算“人類化”:做一層自然語言的接口/潤滑劑
提供“人類文明統(tǒng)計”的直覺:像一個“社會觀察者”
做“80% 工作流”的加速器:篩選、建議、找候選,而不是交最終證明
在“可約口袋”里抓規(guī)律:擅長發(fā)現(xiàn)局部可壓縮的結(jié)構(gòu),但不擅長穿透不可約的核心
他真正押注的是“AI + 形式化計算”的組合,而不是單獨的 LLM
這一切的系統(tǒng)做出來了嗎?沒有嘛….
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.