![]()
新智元報道
編輯:傾傾
【新智元導讀】互聯網上,越來越多的句子有一股「AI味」。風景永遠驚艷,事件永遠關鍵,語言被磨成光滑的模板。于是,Wikipedia在成千上萬次巡查里最先察覺,并悄悄發起一場清理行動。
現在互聯網上的句子,好像都是一個師傅教的。
風景總是breathtaking,建筑永遠modern,隨便一個事件都「標志著一個關鍵時刻」。
這些話聽著完美,卻輕得像飄在空中。讀多了,人會感到恍惚。
Wikipedia的編輯們也受夠了這種「廣告腔」,開始了一場清理行動。
他們校對大量新增內容后發現,最愛說場面話的,竟然不是人,而是AI。
于是,一本奇怪又實用的《識別AI文風手冊》,就在無數次刪刪改改里被寫出來。
同一個模板寫出來的互聯網
互聯網的語言越來越整齊劃一,Wikipedia最早察覺到「味道不對」。
每天都有成千上萬的新內容被塞進條目里,編輯們一邊巡查一邊發現:不少新增段落看起來順滑,但讀起來像是套話。
編輯們越看越覺得奇怪。等他們把這些可疑段落攢在一起,真相也浮出水面:
來源模糊、論據空洞、表達統一得異常。這一切都指向同一個可能——越來越多的內容,是AI生成的。
![]()
為了避免百科被這種空心句子掏空,一群志愿者在2023年發起了WikiProject AI Cleanup。
![]()
傳送門:https://en.wikipedia.org/wiki/Wikipedia:WikiProject_AI_Cleanup
他們系統地記錄這些異常寫法,想弄清楚AI到底在什么地方露出痕跡,哪些句子看似正常,但經不起查證。
維基編輯最先發現「不對勁」
清理行動一開始,編輯們就發現:檢測器根本不靠譜。
正管用的,是他們在多年巡查中練出來的「語感」
AI寫出來的段落,表面都挺正常,但細看會有三種特別明顯的痕跡。
第一種,反復強調「重要性」,卻不給現實中的例子。
AI 生成的段落常常會把主題寫得很宏大,比如「a pivotal moment」「a broader movement」。
但落到細節時,沒有年份、不提來源,也沒有可查證的材料。這種寫法在百科語境里非常異常。
第二種,句尾掛著體面的現在分詞
這種emphasizing… reflecting… highlighting… 的尾句,是目前最明顯「AI痕跡」。
TechCrunch的作者也在報道中指出:
這類present participle是區分AI文風的關鍵線索之一
第三種,是頻繁使用互聯網式的「營銷形容詞」。 breathtaking、modern、renowned、scenic這些詞在廣告里正常,但在百科里使用很不恰當。
維基編輯碰到這種描述時,會立即查來源,結果常常找不到對應證據。
后來,這些規律都被整理進了《Signs of AI writing》。
![]()
https://en.wikipedia.org/wiki/Wikipedia%3ASigns_of_AI_writing?utm_source
比起技術指南,它更像一份經驗冊。記錄著編輯們踩過的坑、看到的怪句式,方便更多人一起清理。
AI為什么總寫成這樣?真相在語料里
當編輯們把可疑句式整理出來后,一個問題也變得清晰了:AI之所以寫成這樣,根本原因是人類語料。
也就是說,它從哪里學來的語言,就會說出什么樣的語言。
因為大型模型訓練時吃的是整個互聯網的語料。新聞稿、SEO軟文、宣傳冊、社交平臺的內容都會混在一起。
而這些地方最常見的表達,就是宏大但空泛、形容詞夸張但沒事實、評價多于證據的寫法。
![]()
Wikipedia在把這類現象稱為:Vague praise和Marketing language。
換句話說,AI不是故意用「公關腔」,而是這類語料最容易在互聯網上抓取。
這也解釋了為什么「重要性夸大」「-ing 尾巴」「廣告式形容詞」會頻繁出現——這些是模型在大語料里看到得最多、最容易復制、也最缺乏上下文約束的句式。
![]()
Wikipedia的解決方式非常務實。他們知道無法杜絕AI生成內容,于是把重點放在「證據鏈」上。
他們要求注明來源、核查鏈接、追溯出處。
這一點在《WikiProject AI Cleanup》的流程說明里寫得很清楚:
凡是出現評價性語言、缺乏具體事實,或看上去「像模型寫的」,編輯可以先貼上「需要引用」的模板。
如果作者無法補充來源,這段內容就會被移動到討論頁,必要時進入快速刪除程序。
這一整套流程相當于「免疫系統」:去掉評價形容詞,讓句子必須基于事實。
凡是經不起查證的部分,就會被自動攔截。這對于一個完全依賴可驗證性運作的百科來說,百利無一害。
真實的句子有骨頭,AI的句子一戳就空
維基編輯在清理中發現,最能一眼看出「AI味」的地方,是句子到底有沒有「事實」。
AI喜歡用形容詞和評價支撐文章結構,而百科寫作靠的是年份、數量、地點、報道來源這種能查到的事實。
為了讓更多編輯能看懂這種差別,《Signs of AI writing》里特地列出了多類典型句式。
看下面這一組改寫,就能感受到兩種語言的「骨骼」完全不同:
AI腔寫法:
The conference was a pivotal moment, highlighting the continued relevance of the field.
這類句子在指南里被稱作“Importance inflation + present participle tail”。
「關鍵」「持續重要」這些判斷沒有來源,尾巴的 highlighting… 屬于典型AI的空轉分詞。
維基會寫成:
The 2023 conference in X City drew about 1,200 attendees. Coverage in Y Newspaper and the Z Journal discussed A and B policy proposals.
年份、人數、媒體報道,全是可以查證的事實。評價不需要說,材料會自己說明事情的重要性。
再看另一個例子,也是編輯們最常遇到的那類廣告腔:
The park offers breathtaking views and modern facilities, emphasizing its status as a renowned attraction.
指南把這種叫做「Vague praise / marketing tone」:breathtaking、modern、renowned這些詞在廣告里再合適不過,但在百科里毫無信息含量。
維基會寫成:
The park has two viewing platforms and a 5-km walkway. It recorded about 450,000 visits in 2019 and completed accessible restroom and visitor-center upgrades in 2021.
不夸人、不定性,也不判斷價值。只列設施、列年份、列客流量——所有內容都有來源可查。
在維基的世界里,沒有來源的評價就是不存在的評價。
當越來越多內容由模型生成,我們讀到的語言難免會被模板化的腔調包圍。
Wikipedia的做法提醒我們,判斷一段文字是否可靠,并不靠某種神奇的檢測器,而是靠這句話能否查證、這個判斷能否追溯、這條信息是否站得住。
AI也許會寫出更流暢的句子,但百科在意的不是好看,而是可信。
當空心句被刪掉、廣告腔被濾掉、無出處的判斷被請出頁面,百科頁面留下的,就只剩下事實本身。
互聯網的未來,大概也會沿著這條路走下去——越是模型生成的時代,越需要人類替語言把關。
參考資料:
https://techcrunch.com/2025/11/20/the-best-guide-to-spotting-ai-writing-comes-from-wikipedia/
https://www.theverge.com/report/756810/wikipedia-ai-slop-policies-community-speedy-deletion?utm_source
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.