<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      LLM創造力可以被度量嗎?一個基于提示詞變更的探索性實驗

      0
      分享至

      大語言模型在demo階段總是看起來很驚艷。但一旦進入到生產環境很多問題就暴露了:不穩定、不可預測,甚至直接不可用。

      從實踐來看,核心問題很少出在模型本身。更多時候是在于如何設計、評估和迭代應用模型的提示詞。LLM應用的輸入提示詞必須適配具體任務,才能讓模型在期望的輸出范圍內工作。

      提示詞工程在今天基本還是被當作一種"藝術"。這篇文章要討論的就是為什么這是個問題,以及怎么把它變成一門可度量的工程學科。

      提示詞工程仍然是猜測

      大多數團隊的提示詞改進流程其實很粗糙:有人寫(或重寫)提示詞,跑幾個例子,主觀覺得"感覺好了一些",然后就上線了。

      沒有度量標準,沒有基線,也沒有對"更好"的明確定義。

      這帶來的直接后果是:提示詞質量難以對比,評估基本靠外部響應來判斷,回歸問題不容易察覺,很多故障等到上線后才被發現。

      提示詞工程本質上極度主觀,如果目標是構建可靠的AI系統,這就成了一個嚴重的瓶頸。

      實際LLM使用中的兩個對立問題

      在生產環境里跑LLM,我發現有兩個反復出現的問題。

      不一致性:同一個提示詞,不同的答案

      同一條提示詞跑多次會產生明顯不同的輸出。這不只是煩人的問題,而是對數據流水線、自動化決策系統、評估框架來說,這是實打實的可靠性風險。

      高方差在這類場景下是bug不是feature。模型要么表現出確定性行為,要么至少得在可控范圍內運行。

      缺乏多樣性:模型不夠有創造力

      反過來,有好幾個實際項目中碰到了相反的困境:做創意生成、探索性分析、創意制作這類任務時,模型產出的內容彼此過于相似,概念覆蓋面非常窄。一旦規模化,創造力就丟得干干凈凈。

      這時候確定性就從優勢變成了束縛。

      一個簡單的假設

      提示詞質量應該是可衡量的。

      有些任務需要最小化輸出方差,有些任務需要最大化多樣性,而提示詞的變更應該能推動結果朝可度量的方向移動。不同類型的任務也可以選擇不同的度量標準。

      既然模型行為可以衡量,提示詞行為為什么不能?

      為了驗證這個想法,我選了模型行為的一個切面來入手:響應多樣性,把它當作創造力的代理指標。

      目標不是找到完美的度量方式,而是回答兩個問題:提示詞變更能不能轉化為一致的數值差異?單次任務上的創造力/確定性到底取決于提示詞還是僅取決于溫度?

      實驗設置

      實驗規模不大,設計如下:

      提示詞

      提示詞A:

      "Create 5 ideas of creative banners for performance marketing of an AI benchmarking platform."

      提示詞B在A的基礎上加了一條指令:

      "Create 5 ideas of creative banners for performance marketing of an AI benchmarking platform. Be as creative as possible."

      模型和采樣

      采用單次生成模式,測試了多個LLM(具體型號這里略過),溫度分別設為0 × max、0.5 × max和1 × max。每個(提示詞、模型、溫度)組合跑10次。

      測試集選了4個主流模型家族的13個模型:OpenAI的GPT系列、Google的Gemini系列、Antropic的Claude系列,以及Deepseek。

      通過Embedding衡量多樣性

      每條生成結果都計算了4096維的embedding向量。然后對每個實驗集(固定提示詞、模型和溫度),取集合內embedding的最大成對距離作為響應多樣性的度量。

      邏輯很簡單:距離小說明行為高度確定,距離大說明輸出多樣且有創造力。最終得到一個數值,描述模型響應的"分散程度"。

      結果



      匯總表,創意提示詞版本導致了更顯著的分散。同時溫度并不總起作用。





      基礎提示詞和創意提示詞在模型-溫度切片上的比較圖。





      每個模型在不同溫度水平上的響應分散圖

      結果比預期要清晰得多。

      跨模型來看有三個明顯趨勢:在提示詞中加入明確的創造力指令,曲線一致上移;提高溫度在一定程度上增大了響應多樣性,但受限于小樣本,這個結論還需謹慎看待;各模型對溫度變化的響應方式差異很大沒有統一規律。

      提示詞變更帶來的是可預測的數值效果,而非隨機噪聲。

      這說明兩件事:提示詞迭代不必完全依賴直覺,輸出創造力是可量化的;這一假設有可能推廣到更大的樣本和不同的應用場景。

      這套方法的實際意義在于:提示詞可以通過數值做A/B測試,溫度調優有了度量依據而不是靠猜,模型選擇可以由任務需求驅動而非跟風。

      它讓團隊能在提示詞變更上線之前就對效果做出推斷。

      局限性

      結果雖然是正向的但有幾個局限

      度量標準的任務特定性

      這里定義的"創造力"嚴格來說是任務相關的。用embedding距離衡量的響應多樣性,在創意生成、營銷創意、探索性任務上作為創造力的代理指標還算合理,但在事實性問答、代碼生成、結構化數據提取這些場景下可能毫無意義,甚至會產生誤導。

      不能把它當成模型質量的通用指標。目前我也在測試其他面向不同任務的度量標準。

      對Embedding空間的依賴

      所有測量都建立在特定embedding模型和距離度量之上。換用不同的embedding模型、向量歸一化方式或距離函數,絕對值也是會變的,所以模型間的相對排名也可能有所不同。

      但本實驗中觀察到的趨勢是穩定的,所以結果應當按相對值來解讀,不宜絕對化。

      有限的樣本量

      每個配置只跑了有限次數。趨勢雖然一致,但要減少方差、估計置信區間、得出統計上站得住的結論,樣本量還遠遠不夠。當前的發現更多是探索性的,不是定論。

      提示詞和領域偏差

      實驗只用了一種任務表述和一個窄領域(效果營銷創意)。換到其他領域或提示詞風格,效果可能更弱、更強,也可能呈現完全不同的行為模式。把這些結論向創意任務之外推廣需要格外謹慎。

      創造力與實用性的權衡

      響應多樣性高不等于結果好。高度多樣化的輸出里可能混著不相關的想法、低質量的建議和不連貫的回復。這個實驗測的是方差,不是實用性更不是商業價值。實際應用中創造力度量必須和質量過濾或下游評估配合使用。

      LLM的非平穩性

      大語言模型會被提供商持續更新,所以絕對分數可能隨時間漂移,分數可能在提示詞沒改的情況下發生變化,可復現性也可能下降。任何長期的基準測試工作都必須把這種非平穩性納入考量。

      相關性不意味著因果性

      最后要說的是,溫度、提示詞指令和響應多樣性之間雖然有明確的相關性,但這不代表對模型行為有了完整的因果理解。實驗證明的是"提示詞變更可以被衡量",而不是創造力可以被這套度量標準完全解釋。

      總結

      這只是一系列研究的第一個實驗,后續結果會在接下來的文章中陸續呈現。下一步計劃:增加樣本量,嘗試不同的提示詞,實驗如何降低創造力,為其他類型任務定義新的度量標準,以及構建一個定期更新的模型排行榜來覆蓋各項指標。

      https://avoid.overfit.cn/post/e84eee36d7bc4263b9fd5dfe564e21d9

      作者:Alexey Konoshenkov

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      伊朗最大“內鬼”被抓?革命衛隊:勾結以色列,指揮官卡尼被拘!

      伊朗最大“內鬼”被抓?革命衛隊:勾結以色列,指揮官卡尼被拘!

      青青子衿
      2026-03-05 11:57:03
      打瘋了!東契奇首節狂轟22+5三分 生涯30次單節20+升歷史第四

      打瘋了!東契奇首節狂轟22+5三分 生涯30次單節20+升歷史第四

      醉臥浮生
      2026-03-07 12:13:33
      伊拉克庫爾德第一夫人宣言:我們不是任人驅使的炮灰!

      伊拉克庫爾德第一夫人宣言:我們不是任人驅使的炮灰!

      勝研集
      2026-03-06 13:44:23
      廣東一女子不愿上班常年坐街邊,因長得好看被路人投喂:又懶又饞

      廣東一女子不愿上班常年坐街邊,因長得好看被路人投喂:又懶又饞

      明智家庭教育
      2026-03-06 17:19:16
      美以伊軍事沖突最大副作用,是斬斷了俄羅斯的“救命稻草”

      美以伊軍事沖突最大副作用,是斬斷了俄羅斯的“救命稻草”

      廖保平
      2026-03-05 12:08:52
      “不想為以色列賣命”:帝國最后的遮羞布,美式民主終成笑話

      “不想為以色列賣命”:帝國最后的遮羞布,美式民主終成笑話

      怪口歷史的K先生
      2026-03-06 15:22:51
      為何關閉霍爾木茲海峽就能掐全球脖子?因為伊朗原油是全世界最好的

      為何關閉霍爾木茲海峽就能掐全球脖子?因為伊朗原油是全世界最好的

      風向觀察
      2026-03-06 21:31:15
      兩會不到3天,5大好消息傳來!老百姓暗暗叫好:希望國家盡快落實

      兩會不到3天,5大好消息傳來!老百姓暗暗叫好:希望國家盡快落實

      談史論天地
      2026-03-07 06:54:29
      1979年,張國燾凍死在養老院,許世友:除了主席,沒人是他的對手

      1979年,張國燾凍死在養老院,許世友:除了主席,沒人是他的對手

      文史季季紅
      2026-03-05 13:35:03
      寫入教科書的一天:F-35在德黑蘭完成全球首次實戰空對空擊殺

      寫入教科書的一天:F-35在德黑蘭完成全球首次實戰空對空擊殺

      斌聞天下
      2026-03-06 07:30:03
      伊方:因美以襲擊喪生的伊朗人三成為青少年

      伊方:因美以襲擊喪生的伊朗人三成為青少年

      環球網資訊
      2026-03-07 06:39:29
      為什么美國的華人華裔地位那么低 網友從各方面分析 真就那樣

      為什么美國的華人華裔地位那么低 網友從各方面分析 真就那樣

      侃神評故事
      2026-03-06 07:10:03
      我包養過一個女大學生,七年花了一千多萬

      我包養過一個女大學生,七年花了一千多萬

      煙火人間故事匯
      2026-03-06 23:05:03
      性壓抑已經變態至此了?

      性壓抑已經變態至此了?

      黯泉
      2026-03-07 11:28:43
      蘿莉島,是進入核心圈層的投名狀,你猜他們為什么都穿紅皮鞋

      蘿莉島,是進入核心圈層的投名狀,你猜他們為什么都穿紅皮鞋

      百曉生談歷史
      2026-03-05 22:00:08
      一份“煮熟的三文魚”火了,原來低認知的家長,真能搞出人命!

      一份“煮熟的三文魚”火了,原來低認知的家長,真能搞出人命!

      妍妍教育日記
      2026-03-07 08:45:06
      伊朗萬萬沒想到,自家王牌武器遭到破解,美軍多了一張底牌

      伊朗萬萬沒想到,自家王牌武器遭到破解,美軍多了一張底牌

      空天力量
      2026-03-06 13:09:18
      上次被發現還是1911年!上海寶山驚現1只,專家:可能是坐船來的

      上次被發現還是1911年!上海寶山驚現1只,專家:可能是坐船來的

      萬象硬核本尊
      2026-03-06 23:54:22
      女子實名舉報某團外賣:不上大額券就讓我變成“凌晨營業”,你們真黑!

      女子實名舉報某團外賣:不上大額券就讓我變成“凌晨營業”,你們真黑!

      回旋鏢
      2026-03-06 21:13:59
      塔圖姆復出15分12板7助攻凱爾特人大勝獨行俠,布朗24分7板7助

      塔圖姆復出15分12板7助攻凱爾特人大勝獨行俠,布朗24分7板7助

      湖人崛起
      2026-03-07 10:25:09
      2026-03-07 13:43:00
      deephub incentive-icons
      deephub
      CV NLP和數據挖掘知識
      1940文章數 1456關注度
      往期回顧 全部

      科技要聞

      OpenClaw爆火,六位"養蝦人"自述與AI共生

      頭條要聞

      特朗普突然放話"先解決伊朗后解決古巴" 梅西聽懵了

      頭條要聞

      特朗普突然放話"先解決伊朗后解決古巴" 梅西聽懵了

      體育要聞

      塔圖姆歸來:凱爾特人的春之綠

      娛樂要聞

      周杰倫田馥甄的“JH戀” 被扒得底朝天

      財經要聞

      針對"不敢休、不讓休"怪圈 國家出手了

      汽車要聞

      逃離ICU,上汽通用“止血”企穩

      態度原創

      時尚
      教育
      房產
      健康
      旅游

      這些才是適合普通人的穿搭!搭配腰帶、多穿牛仔褲,簡單舒適

      教育要聞

      兩會速遞|教育部部長:將實施新一輪學生心理健康促進行動

      房產要聞

      傳統學區房熄火?2月海口二手房爆火的板塊竟然是…

      轉頭就暈的耳石癥,能開車上班嗎?

      旅游要聞

      文旅部部長:7名外國游客到上海旅游,買了40箱貨;“成為中國人”成了熱詞

      無障礙瀏覽 進入關懷版