大語言模型在demo階段總是看起來很驚艷。但一旦進入到生產環境很多問題就暴露了:不穩定、不可預測,甚至直接不可用。
從實踐來看,核心問題很少出在模型本身。更多時候是在于如何設計、評估和迭代應用模型的提示詞。LLM應用的輸入提示詞必須適配具體任務,才能讓模型在期望的輸出范圍內工作。
提示詞工程在今天基本還是被當作一種"藝術"。這篇文章要討論的就是為什么這是個問題,以及怎么把它變成一門可度量的工程學科。
提示詞工程仍然是猜測
大多數團隊的提示詞改進流程其實很粗糙:有人寫(或重寫)提示詞,跑幾個例子,主觀覺得"感覺好了一些",然后就上線了。
沒有度量標準,沒有基線,也沒有對"更好"的明確定義。
這帶來的直接后果是:提示詞質量難以對比,評估基本靠外部響應來判斷,回歸問題不容易察覺,很多故障等到上線后才被發現。
提示詞工程本質上極度主觀,如果目標是構建可靠的AI系統,這就成了一個嚴重的瓶頸。
實際LLM使用中的兩個對立問題
在生產環境里跑LLM,我發現有兩個反復出現的問題。
不一致性:同一個提示詞,不同的答案
同一條提示詞跑多次會產生明顯不同的輸出。這不只是煩人的問題,而是對數據流水線、自動化決策系統、評估框架來說,這是實打實的可靠性風險。
高方差在這類場景下是bug不是feature。模型要么表現出確定性行為,要么至少得在可控范圍內運行。
缺乏多樣性:模型不夠有創造力
反過來,有好幾個實際項目中碰到了相反的困境:做創意生成、探索性分析、創意制作這類任務時,模型產出的內容彼此過于相似,概念覆蓋面非常窄。一旦規模化,創造力就丟得干干凈凈。
這時候確定性就從優勢變成了束縛。
一個簡單的假設
提示詞質量應該是可衡量的。
有些任務需要最小化輸出方差,有些任務需要最大化多樣性,而提示詞的變更應該能推動結果朝可度量的方向移動。不同類型的任務也可以選擇不同的度量標準。
既然模型行為可以衡量,提示詞行為為什么不能?
為了驗證這個想法,我選了模型行為的一個切面來入手:響應多樣性,把它當作創造力的代理指標。
目標不是找到完美的度量方式,而是回答兩個問題:提示詞變更能不能轉化為一致的數值差異?單次任務上的創造力/確定性到底取決于提示詞還是僅取決于溫度?
實驗設置
實驗規模不大,設計如下:
提示詞
提示詞A:
"Create 5 ideas of creative banners for performance marketing of an AI benchmarking platform."
提示詞B在A的基礎上加了一條指令:
"Create 5 ideas of creative banners for performance marketing of an AI benchmarking platform. Be as creative as possible."
模型和采樣
采用單次生成模式,測試了多個LLM(具體型號這里略過),溫度分別設為0 × max、0.5 × max和1 × max。每個(提示詞、模型、溫度)組合跑10次。
測試集選了4個主流模型家族的13個模型:OpenAI的GPT系列、Google的Gemini系列、Antropic的Claude系列,以及Deepseek。
通過Embedding衡量多樣性
每條生成結果都計算了4096維的embedding向量。然后對每個實驗集(固定提示詞、模型和溫度),取集合內embedding的最大成對距離作為響應多樣性的度量。
邏輯很簡單:距離小說明行為高度確定,距離大說明輸出多樣且有創造力。最終得到一個數值,描述模型響應的"分散程度"。
結果
![]()
匯總表,創意提示詞版本導致了更顯著的分散。同時溫度并不總起作用。
![]()
![]()
基礎提示詞和創意提示詞在模型-溫度切片上的比較圖。
![]()
![]()
每個模型在不同溫度水平上的響應分散圖
結果比預期要清晰得多。
跨模型來看有三個明顯趨勢:在提示詞中加入明確的創造力指令,曲線一致上移;提高溫度在一定程度上增大了響應多樣性,但受限于小樣本,這個結論還需謹慎看待;各模型對溫度變化的響應方式差異很大沒有統一規律。
提示詞變更帶來的是可預測的數值效果,而非隨機噪聲。
這說明兩件事:提示詞迭代不必完全依賴直覺,輸出創造力是可量化的;這一假設有可能推廣到更大的樣本和不同的應用場景。
這套方法的實際意義在于:提示詞可以通過數值做A/B測試,溫度調優有了度量依據而不是靠猜,模型選擇可以由任務需求驅動而非跟風。
它讓團隊能在提示詞變更上線之前就對效果做出推斷。
局限性
結果雖然是正向的但有幾個局限
度量標準的任務特定性
這里定義的"創造力"嚴格來說是任務相關的。用embedding距離衡量的響應多樣性,在創意生成、營銷創意、探索性任務上作為創造力的代理指標還算合理,但在事實性問答、代碼生成、結構化數據提取這些場景下可能毫無意義,甚至會產生誤導。
不能把它當成模型質量的通用指標。目前我也在測試其他面向不同任務的度量標準。
對Embedding空間的依賴
所有測量都建立在特定embedding模型和距離度量之上。換用不同的embedding模型、向量歸一化方式或距離函數,絕對值也是會變的,所以模型間的相對排名也可能有所不同。
但本實驗中觀察到的趨勢是穩定的,所以結果應當按相對值來解讀,不宜絕對化。
有限的樣本量
每個配置只跑了有限次數。趨勢雖然一致,但要減少方差、估計置信區間、得出統計上站得住的結論,樣本量還遠遠不夠。當前的發現更多是探索性的,不是定論。
提示詞和領域偏差
實驗只用了一種任務表述和一個窄領域(效果營銷創意)。換到其他領域或提示詞風格,效果可能更弱、更強,也可能呈現完全不同的行為模式。把這些結論向創意任務之外推廣需要格外謹慎。
創造力與實用性的權衡
響應多樣性高不等于結果好。高度多樣化的輸出里可能混著不相關的想法、低質量的建議和不連貫的回復。這個實驗測的是方差,不是實用性更不是商業價值。實際應用中創造力度量必須和質量過濾或下游評估配合使用。
LLM的非平穩性
大語言模型會被提供商持續更新,所以絕對分數可能隨時間漂移,分數可能在提示詞沒改的情況下發生變化,可復現性也可能下降。任何長期的基準測試工作都必須把這種非平穩性納入考量。
相關性不意味著因果性
最后要說的是,溫度、提示詞指令和響應多樣性之間雖然有明確的相關性,但這不代表對模型行為有了完整的因果理解。實驗證明的是"提示詞變更可以被衡量",而不是創造力可以被這套度量標準完全解釋。
總結
這只是一系列研究的第一個實驗,后續結果會在接下來的文章中陸續呈現。下一步計劃:增加樣本量,嘗試不同的提示詞,實驗如何降低創造力,為其他類型任務定義新的度量標準,以及構建一個定期更新的模型排行榜來覆蓋各項指標。
https://avoid.overfit.cn/post/e84eee36d7bc4263b9fd5dfe564e21d9
作者:Alexey Konoshenkov
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.