![]()
AI 搜索引擎正逐漸取代傳統搜索入口,「問 AI」已經成為日常習慣。隨著 OpenAI 宣布在 ChatGPT 中引入商業推薦,搜索與內容分發的邊界正在被重新定義。在這樣的環境下,你的內容能否在 AI 搜索中成為「爆款」,不再只取決于標題和流量,而是更大程度取決于 AI 本身的引用偏好。
你不只是和其他網頁爭排名,而是在爭奪被AI「采納進答案」的份額。被引用的網頁未必最權威、也未必最早發布,它往往只是有更「適合被拼進回答」的寫法。
卡內基梅隆大學的研究團隊發表在 ICLR 2026 的這篇論文把這種新流量密碼解碼得很直白。
論文、代碼、模型參數、試用 Demo 見
Github。
![]()
- 論文標題:What Generative Search Engines Like and How to Optimize Web Content Cooperatively
- https://github.com/cxcscmu/AutoGEO
- Github:
01 GEO:從 ranking 變成
「visibility in answers」
傳統搜索的基本動作是「檢索 + 排序」:給你一串鏈接,用戶自己點擊閱讀。
生成式搜索引擎(Generative Engines,GE),例如 Google AI Overview、ChatGPT,正在形成新的流量規則。這類引擎的基本動作通常是「檢索 + 綜合 + 生成」,先檢索候選文檔,再讓 LLM 把內容整合成一段答案,順帶附上引用來源。
這帶來一個結構性變化:內容的曝光不再等于「排第幾」,而是等于在答案中被寫進多少、寫在多靠前的位置、以怎樣的方式被引用。也因此,過去那種「寫得更 SEO」未必等于「更容易被生成式引擎吸收」。
于是出現了Generative Engine Optimization(GEO),優化網頁內容以提高被 AI「采納進答案」的份額。但現有的 GEO 多靠人工啟發,比如加統計、關鍵詞策略、強調流暢等,依靠直覺和經驗。
更麻煩的是:如果你為了被引用而改寫,可能會傷害生成式引擎輸出的可靠性與效用。這就是論文不斷強調的「合作式(Cooperative)」立場:優化可見性,不能以犧牲引擎效用為代價。
02 AutoGEO:用最大反差樣本,
把偏好從玄學變成規則集
這篇論文的核心貢獻是提出 AutoGEO:先從大量「可見性有差異」的對比證據里,自動抽取生成式引擎偏好規則;再用這些規則去改寫網頁,并且把對引擎效用(Generative engine utility,GEU)的影響納入評估。他們還訓練出一個小模型 AutoGEO Mini,推理成本只有 API 方案的 ~0.0071x。
![]()
AutoGEO:規則發現 -> 規則驅動改寫(API / 小模型)的整體框架。
AutoGEO 的第一步不是改寫網頁,而是學習「口味」。作者把生成式引擎抽象為:對每個 query,引擎檢索候選網頁集合,再用 LLM 生成答案。隨后計算每個候選網頁在答案中的可見性分數。可見性分數沿用 GEO 系列客觀指標衡量:不僅看引用字數(Word),還看引用位置權重(Pos),以及綜合指標(Overall)。
關鍵設計在于「證據選擇」:對每個 query,他們不做平均對比,而是挑一對可見性差距最大的網頁。使用這樣一對一個被大量吸收、一個幾乎沒被用的文檔,也就最容易看出偏好差異的「判別特征」。
接下來是四段式 LLM 處理步驟,把海量對比樣本壓縮成可執行規則:
- Explainer:對比兩篇文檔與最終答案,生成自然語言解釋(它們哪里不同、為何可能導致引用差異)。
- Extractor:把解釋提煉成結構化 insights(偏好因素的要點化表達)。
- Merger:把成千上萬條 insights 合并成候選規則。為了可擴展性,論文設計了 Hierarchical merging,解決「上萬樣本 -> 穩定規則」的合并瓶頸。
- Filter:過濾掉噪聲、歧義與不穩定規則,得到最終規則集。
03 怎么用:
即插即用與超低成本可部署
AutoGEO 的第二步才是改寫:讓網頁更符合規則,從而更可能被生成式引擎引用。
路線 A:AutoGEO API(Prompt-based,即插即用)
把規則集直接嵌入 prompt 的「Quality Guidelines」,調用強 LLM API 如 Gemini、GPT 完成重寫。優點是無需訓練、部署快;缺點是成本和吞吐受 API 限制。
![]()
路線 B:AutoGEO Mini(RL-based 小模型,超低成本可部署)
作者微調小模型做同樣的改寫,并用強化學習把「可見性提升」與「合作式約束」綁定在一起。
- Cold start:先用 AutoGEO API 做 Teacher 生成改寫數據,對小模型做 SFT,避免 RL 初期發散。
- GRPO 強化學習:同一文檔采樣一組候選改寫,按獎勵學習。獎勵由三部分組成:Outcome reward(改寫是否提升可見性)、Rule reward(是否滿足抽取到的規則)以及Semantic reward(語義是否忠實原文)。
04 怎么評估「有效且不作惡」
這篇論文的評估不只刷可見性指標,還顯式評估引擎效用(Utility)是否被破壞。論文實驗涵蓋三個數據集GEO-Bench、Researchy-GEO、E-commerce,分別測試 AutoGEO 在不同領域、不同意圖環境中的性能。
同時,實驗考慮基于多種前沿 LLM的 generative engine,包含 Gemini、GPT、Claude。
實驗指標主要分兩類:
- GEO:度量網頁在答案中的可見性,沿用 GEO 的三類指標 Word / Pos / Overall;
- GEU:衡量合作程度,也即答案質量,度量生成式引擎答案與真實答案的相關性、忠實性與質量。
實驗結果表明,AutoGEO API 與 AutoGEO Mini 在多個設置下顯著提升可見性指標,尤其 AutoGEO API 的提升幅度很大,比最強的基線模型高 50.99%。
![]()
三大數據集上的總體對比:AutoGEO API / AutoGEO Mini 顯著優于基線。
論文把合作式的承諾落在 GEU 指標上:在大幅提升 GEO 指標的同時,GEU 多數情況下與 Vanilla 接近。
這點很關鍵:GEO 如果只看「我被引用了多少」,會不可避免把互聯網推向噪聲與操縱;但如果把 GEU 納入硬指標,至少為「優化的邊界」提供了可討論的標準。
![]()
不同引擎下,可見性(GEO)與效用(GEU)并列對比。
05 發現:規則并不通用
規則既有共識,也有碎片化風險。
如下圖 (a),論文顯示不同 LLM 引擎之間偏好規則重疊度不低,說明存在「通用型好寫法」;但仍有 engine-specific 的獨特規則。更劇烈的是圖 (b) domain shift:從開放域數據集遷移到電商意圖,規則重疊顯著下降;并且電商更偏好 actionable guidance(可操作步驟、建議),研究類更偏好 in-depth explanation(機制、原因、背景的解釋深度)。
![]()
不同領域 / 任務下的共通規則與獨特規則示例:一套寫法可能跨域失靈。
這對內容生態是一個直接的信號:未來可能出現「同一頁面多版本」,分別迎合不同引擎,甚至按領域意圖維護不同寫作模板。
06 小結
AutoGEO 給內容方打開了一扇門:偏好可以被抽取、規則可以被更新、改寫可以被訓練、成本可以被壓到極低。
生成式搜索時代的一個新現實是:你寫給人看的網頁,可能首先要通過「答案機器的消化系統」。下一步怎么走,決定互聯網會更透明,還是更像一場模型與模型之間的軍備競賽。接下來真正的競爭不僅在內容方,也在引擎與生態治理:
- 當大量網頁開始「為引用而寫」,引擎還能否區分「更有信息量」與「更像會被引用的信息」?
- 如果平臺開始頻繁更新偏好以對抗被規模化迎合,是否會出現一場持續的「規則 - 反規則」軍備競賽?
AutoGEO 把 GEO 從玄學推進到工程,也把生成式搜索的下一輪博弈,提前公開了。
作者簡介
本文作者來自于卡內基梅隆大學計算機學院語言技術研究所 CX Research Group,指導老師是 Chenyan Xiong 教授。組內研究聚焦于語言模型,主要包括基礎模型訓練,與深度研究、RAG 有關的信息檢索和生成,以及語言模型的應用。團隊主頁:https://www.cs.cmu.edu/~cxcscmu/。歡迎大家關注我們團隊的最新研究成果!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.