網易首頁 > 網易號 > 正文申請入駐

南通大學首篇Nature被質疑數據問題，作者回應后仍無法使人信服

2026-03-18 13:09:03　來源: 雙鏈生信

四川舉報

分享至

2025年2月19日，南通大學附屬醫院胃腸外科副主任醫師、副教授支小飛作為唯一第一作者，在國際頂級期刊《 Nature 》上發表了題為《Nociceptive neurons promote gastric tumour progression via a CGRP–RAMP1 axis》的研究論文。

該研究揭示了感覺神經元通過CGRP-RAMP1軸促進胃癌發展的機制。這是南通大學及其附屬醫院首次以唯一第一作者身份在CNS正刊上發表研究型論文。該研究由南通大學附屬醫院與南通大學及美國哥倫比亞大學共同完成，標志著其在胃癌基礎與臨床研究領域達到國際領先水平。

近日，該文章在pubpeer遭受質疑：

Cosmospora meliopsicola

在擴展圖8（面板f，i）中，兩種小鼠基因型的報告值高度重疊。具體來說，兩組的數值幾乎相同——一組中的五個值中有四個（0.02、0.03、0.07、0.08）也出現在另一組，僅差一個額外值（0.06 對 0.09）。如果每個值代表獨立的生物學測量（例如，某一細胞類型在個體小鼠中的比例），那么這種重復程度在統計上非常不可能發生。

對于面板f，數值四舍五入到小數點后兩位（即最接近的0.01），范圍在0.00到0.50之間，面板f的51個箱子中概率大致相等： P（=4個重疊）≈0.0000979。

對于面板i，數值被四舍五入到1個小數點（即最接近的0.1），并且在26個箱子中，概率大致相等，范圍在面板i中大致相等： P（=3個重疊）≈0.0319。

在同一篇論文中觀察到這兩種重合的聯合概率： P（=面板f中4次重疊，=面板i中3次重疊） = 0.0000979 × 0.0319 ≈ 0.00000312

即使在極為保守的假設下，面板f的測量范圍非常狹窄（0.00–0.10,11個bin），對于面板f： P（=4個重疊）≈0.0649。

在同一篇論文中觀察到這兩種重合的聯合概率： P（=面板f中4次重疊，=面板i中3次重疊） = 0.0649 × 0.0319 ≈ 0.002

通用公式為：對于兩個獨立樣本，大小為 n n從中抽取，無需替換 m m離散箱，概率恰好 k k價值觀重疊為：

P ( o v e r l a p = k ) = ( n k ) ( m ? n n ? k ) ( m n ) P（overla p=k)=(nm)(kn)(n?km?n)

從不同動物中獨立測量通常得出唯一且連續的比例，即使兩組均值相似。因此，組間幾乎相同的數值重復出現，暗示數據可能存在重復、樣本分配錯誤或數據記錄錯誤。作者能否澄清這兩組是否是獨立測量的，并確認是否有數據被重復使用、四舍五入或以其他方式處理，以解釋重復的數值？這種重疊的概率有多大？

Flaveria cronquistii

值得注意的是，本文中許多其他圖表中也出現了類似的重疊數值模式。例如：

Timothy C. Wang作者回應

我們衷心感謝讀者們的評論。我們希望澄清涉及的數據處理步驟。這些數值是通過使用圖像J進行測量分析免疫組化和免疫熒光結果，計算密度或百分比值。這些數值隨后被輸入模板，模板中數值格式設置為四舍五入至小數點后一到兩位。由于這些對照組的陽性比率非常低且范圍狹窄，這一四舍五入步驟導致某些基因型在四舍五入后得出一些相同的數值。然而，當我們調整模板以顯示四舍五入到小數點的數值時，就很明顯原始的測量值是不同的。對于四舍五入過程中造成的任何混淆，我們深表歉意。

Stenochironomus hilaris

非常感謝你的解釋。感謝作者們的參與。然而，四舍五入的解釋不足以解釋觀察到的具體數值模式。我想恭敬地提出幾個要點以供澄清：

四舍五入無法解釋獨立實驗中相同數值序列的重復出現相同的序列——例如： 0.02， 0.03， 0.07， 0.08 （+ 一個修改后的值） 0.5、1.0、1.7、2.2（+ 一個變更值） 0.19， 0.20， 0.30， 0.35（+ 一個修改后的數值）出現在多個獨立面板中，涉及不同的標記物、不同的小鼠組和不同的實驗環境。如果是四舍五入導致的，人們會預期隨機四舍五入的巧合，而不是在面板上反復出現4個相同值+1個略有不同的值。作者能否解釋一下，舍入如何在不同實驗中生成相同的序列？
IHC/IF定量中的生物變異通常超過四舍五入噪聲：

根據基于ImageJ的典型ROI量化，小鼠間的原始變異通常遠大于許多數值歸結為同一四舍五入數所需的±0.005區間。

“4個相同數值+1個不同數值”的主題在各格中反復出現這一高度具體的主題在以下作品中反復出現：

擴展圖8f。
擴展圖8i
圖1g
圖3f
圖1b
以及許多其他作品

即使采用四舍五入，這種模式在統計學上極不可能來自獨立的生物學測量。作者能否談談為何這一主題反復出現？

承認不確定性：

在此階段，由于無法獲得原始數值，很難判斷是否：

這確實是四舍五入的偽造物，
或者是否發生了其他問題。

再次感謝作者的回復。然而，鑒于本《自然》論文中許多面板和圖表中出現相同的數值集，這可能是《自然》編輯部介入并審查以幫助澄清基礎數據的問題。

Encephalartos ituriensis

作為觀察者，我想指出，最初的分析已經仔細考慮了偽影四舍五入的可能性以及數值落在非常狹窄范圍內的影響。此外，新發現的多個圖表（包括圖1和圖3）中重疊的數值模式進一步降低了這些數值來自獨立實驗測量的可能性。此外，相同的數值集的重復出現——包括同一集合在多個不同面板/圖形上的重新排序版本——仍然難以與舍入噪聲進行調和。

Timothy C. Wang作者回應

我們感謝后續評論，也完全理解您的觀點：沒有原始數值，很難評估四舍五入解釋。為了直接解決這個問題，我們提供下面精確且未四舍五入的測量值。接下來我們將討論針對稿件中具體案例的四舍五入過程。

擴展圖8f顯示了小鼠肝臟中CGRP陽性神經的密度。在兩個對照組中，CGRP陽性神經的密度都極低。四舍五入到小數點后兩位，這些數值落在0.02到0.09之間的狹窄區間內。這意味著只有8種可能的數值結果（0.02、0.03、0.04、0.05、0.06、0.07、0.08和0.09）。因此，這兩個對照組之間出現重疊值的可能性很高。

擴展圖8i顯示了小鼠肝臟中SMA陽性成纖維細胞的密度。同樣，在兩個對照組中，SMA陽性成纖維細胞較為稀少，數值大致在1到2之間。因此，當四舍五入到小數點后一位時，可能得到的數值也非常有限。我們還想澄清的是，本實驗的樣本分兩批收集，數據記錄時采用了兩種不同的四舍五入模板（四舍五入為整數，四舍五入至小數位）。例如，1.323將四舍五入為1,0.947也四舍五入為1，使得原本不同的數值被相同的四舍五入表示。

對于圖1g和圖3f中的對照組，以及圖1b中的TH組，大多數數值均落在0.2至0.3的狹窄范圍內。因此，當這些數值被四舍五入到小數點后一位時，會出現大量相同的數字。也就是說，這些值只能在四舍五入后（藍色顯示）報告為0.2或0.3。這種現象偶爾也會出現在其他數量范圍同樣狹窄的群體中。

我們對四舍五入過程造成的混淆深表歉意。我們想解釋為什么要在 IHC 和 IF 分析中應用四舍五入。鑒于這些測定的半定量性質，采用了四舍五入簡化分析過程。我們承認這種方法本可以更標準化——理想情況下，應始終采用一致的四舍五入模板。但我們需要澄清的是，由于對照組和腫瘤組的結果相差超過10倍，這不會影響結論，也不影響各組的平均值。通過比較原始值計算的均值和方差與四舍五入值計算的均值和方差，這一點得到了證實，后者沒有顯著差異。

我們再次感謝讀者們的評論。我們相信，提供如此詳盡的補充信息后，希望能澄清這些擔憂。如果還有其他問題，歡迎直接給作者發郵件，以便更高效地交流。我們樂意如有需要提供進一步說明。

Rhododendron amanoi

感謝你提供了額外的數值表。這個回答顯然比最初簡短的解釋更為詳細。然而，即使有了新信息，仍有幾個關鍵問題未解。

“原始值”的處理層級。顯示的數字（如0.024、0.028、1.323、2.180、0.196、0.337等）似乎是已處理的百分比（即經過至少一輪歸一化和計算的數值），而非主要的ImageJ輸出，如像素數、積分密度或投資回報率面積。作為外部讀者，我們無法區分以下內容：

（i）直接導出原始分析文件的表，

（ii）事后可能重建以符合已公布四舍五入數值的表格。實驗室輸入或重建的電子表格本身無法解決數據處理的疑慮。

需要可驗證的初級測量文件。為了實際證明已發布的數值來自獨立的實驗測量，需要提供：

原始的ImageJ（或等效）測量表，涵蓋所有動物及相關組（包括所有共享這些數值圖案的面板），
以 原生格式 （例如從ImageJ導出的.csv / .xls），帶有 時間戳 和 所有測量的投資回報率（ROI ），以及
將這些測量轉換為圖中百分比的 具體計算步驟或腳本 。如果無法訪問這些主要文件，讀者無法獨立驗證當前顯示的序列確實是原始分析流程的直接輸出。

人物間反復出現的數字圖案仍難以調和。新提供的表格證實，非常狹窄的范圍結合粗略四舍五入可以在單一實驗中產生重疊的四舍五入值。然而，最初的擔憂不僅僅是單一面板中的孤立重疊。同樣高度具體的模式——“四個相同值+一個略有不同的值”，基于離散的數集（例如0.02/0.03/0.07/0.08加0.09;0.19/0.20/0.30/0.35加上一個變化的值）——在多個獨立實驗、標記和小鼠組中反復出現。即使考慮了聚類和四舍五入，在不同的生物學環境中重復出現基本相同的圓潤序列，在統計學上仍然極不可能，且在沒有完全透明底層測量文件的情況下難以調和。
澄清范圍。目前的響應僅涵蓋部分面板（擴展圖8f、8i、圖1g、3f、1b及相關控制）。然而，類似的重疊模式最初也在本文的“許多其他圖表”中被注意到。如果四舍五入和狹窄區間確實是唯一解釋，那么提供所有出現這些圖案面板的對應主要測量導出和處理步驟應該很簡單。
數據可靠性的啟示。目前，“從狹窄范圍四舍五入”完全解釋了反復出現的數值動機的解釋尚不夠有力。這里呈現的部分處理表無法獨立驗證從初級測量到已發布數據的數據軌跡。因此，關于這些定量數據的完整性和處理方式仍存在重大不確定性。在我看來，解決這些問題的唯一方法是：

將原始的ImageJ（或同等）測量文件和完整的分析流程存入公共倉庫，并由期刊/編輯辦公室獨立審查這些材料。

我想強調，我沒有資格評估意圖。這里的問題在于，已公布圖表中的數值模式是否能夠完全且透明地追溯到獨立的實驗測量。在主要測量文件和分析步驟公開并獨立核查之前，關于數據可靠性的問題將保持懸而未決。

Satsuma kanoi

作為一名獨立觀察者，我還想補充幾點關于新提供的表格。

首先，雖然這些表格確實比原始數據更詳細，但它們本身并不能證明這些數字是真正的主要測量數據。從外部看，它們仍像是經過篩選的百分比，且被選中以符合已公布的四舍五入數值。事實上，由于唯一的硬性限制是四舍五入的數值必須與數字相符，一個有經驗的人原則上可以在很短時間內構建出類似的“原始”表格。這正是為什么手工制作的電子表格無法替代可驗證的初步測量文件。

其次，從統計角度看，群體間在眾多面板和圖表上的重疊程度仍然極為罕見。即使考慮狹窄范圍和粗略四舍五入，在多個獨立實驗中反復出現幾乎相同的數值序列，也比通常對噪聲生物測量的預期更接近“彩票中獎”。很難僅靠四舍五入就能合理解釋所有這些巧合。

基于這些原因，我同意并堅信，解決剩余問題的唯一方法是作者將所有帶有時間戳的原始數據文件提供給期刊進行獨立審計。到目前為止，我甚至對這篇《自然》論文中許多主要定量結果的可靠性產生了嚴重懷疑。作為同一領域的研究者，我看不出在《自然》編輯部公開并獨立審查帶時間戳的原始數據和完整分析流程之前，我無法對這篇《自然》論文中的關鍵發現抱有信心。

Satsuma kanoi

作者寫道：

“我們想解釋IHC和IF分析中應用四舍五入的原因。鑒于這些測驗的半定量性質，四舍五入被用來簡化分析過程。”

這一解釋使情況更加令人困惑和嚴重。如果IHC/IF檢測確實是半定量且本質上存在噪聲，那么個體動物和實驗之間會存在較大的變異性。在這種情況下，粗略四舍五入應能模糊細微差異，但不應系統地在多個名義上獨立的面板和圖形中產生同樣高度特定的圓角序列。

換句話說，（i）噪聲較大的半定量測定法和（ii）四舍五入后重復出現“4個相同值+1個略有不同”的模式組合，難以與普通的生物學和技術變異相協調。觀察到的數值正規性更像是受限電子表格的輸出，而非僅僅為了方便而四舍五入的真正噪聲測量結果。

Synalpheus carpenteri

作者發布的“原始”表格中還包含一個額外的巧合，雖然并非不可能，但在當前語境下難以忽視：精確的0.316出現在圖3f（Ngf蛋白）和圖1g（Ramp1蛋白）中。對于兩個大小為n的獨立樣本，從m個離散化值中抽取，匹配概率為：

P ( = 1 m a t c h ) = ( m ? n n ? 1 ) ( n 1 ) ( m n ) P（=1match)=(nm)(n?1m?n)(1n),

當 m = 500（離散值為 0.001，< 0.5 以內）且 n = 5 時，這得到 P（=1 匹配） = 0.048。

0.048的概率已足夠低，需要謹慎對不同蛋白質進行小n次量化。因此，存在額外的精確匹配（例如“原始”表格中不同蛋白/面板間的0.316個匹配），以及之前提到的重復圓角模式，會增加擔憂。

Silene acaulis

我今天看到了這篇論文。讓我覺得非常奇怪但沒人提到的是，特定配對序列之間的四舍五入/格式行為匹配。

更具體地說，數字格式化/四舍五入在畫格/圖形內部似乎也非常隨機（整數、小數點數1、小數2），但在不同畫格和圖形中重復的圖案對中，相同的圓入/格式模式卻完全相同。這似乎很難與獨立報道協調。

Silene acaulis

我對擴展數據圖7d中呈現的原始數據也有一些擔憂。我強調了幾個反復出現的價值觀：

在所有108個數字中，只有28個值恰好出現一次。

0.149：8次

0.153,0.169：5次

0.155：4次

0.147、0.151、0.158、0.163、0.172、0.173、0.178、0.18、0.189、0.19：3次

0.148、0.152、0.156、0.159、0.16、0.161、0.165、0.168、0.175、0.179、0.185、0.208、0.213、0.236：兩次

表中很大比例（>74%）的數值在不同天、重復和處理組間重復出現。甚至在108個數值中觀測到0.149的概率也接近零，更不用說其他數值了。

在閱讀了這里其他評論并與一位擁有統計學博士學位的朋友討論后，我們對重復值進行了簡單的二項驗證。如果高亮（“黃色”）區域范圍為0.139到0.164，且數值以0.001為單位記錄，則有m=26種可能的離散結果（含），因此在零假設下，每個結果的可能性相等，對于任意特定值（即0.149）p=1/26。當n=27次總測量，且觀測0.149恰好k=8次時，概率為0.000005（本質為零）。

所用公式如下：

這是一個保守派檢驗，限制在高亮區間，僅關注0.149的重復。在同一零值下，展開到完整表（更多可能報告的值）會減少任意特定值的p，從而進一步降低概率。此外，如果將更多不太可能的重復合并考慮，合并的可能性將更小。

[主持人：感謝您的計算。它會是k=7（任何數字都可能重復），而且你選擇的區域中存在一些隱藏的多重比較。]

Silene acaulis

我對擴展數據圖4a中呈現的原始數據還有另一個擔憂。在小樣本量（n=10）中，0.036 值出現了三次：

報告的十項“測量”范圍從0.019到0.039，值以0.001為單位記錄，可能的離散結果有m=21種（含），因此在零值下，每個結果概率相等的情況下，任一特定值p=1/21（即0.036）。

當n=10次總測量，且觀測0.039恰好k=3次時，概率為0.009。對于10個獨立測量來說，這種情況極不可能發生。

所用公式與上文相同：

這篇《自然》論文包含了許多在多個面板上具有極其特殊數字圖案的圖形。這些模式的一致性引發了關于論文中數據是否反映實驗測量的擔憂。

Anarta odontites

我想就表格中呈現的數據分布（及相關數據點）提出一些觀點。雖然實驗結果顯示出明顯的趨勢，但一些統計特征對于單個小鼠的生物學測量來看似乎不尋常：

特殊線性與低方差在擴展圖4a中，JNC和DRG（T7-T13）基因型的數據以驚人的精度遵循所提供的公式。

比值在所有10個樣本中保持在0.59到0.65之間極為穩定。
在涉及活體受試者（小鼠）的生物系統中，通常預期個體間差異更高（生物噪聲）。這里觀察到的近乎完美的線性相關性對于獨立生物復制體來說出奇地一致。

類似的模式也出現在擴展圖4g中：

作者能否說明這些數值是否代表單個小鼠的原始數據，還是在統計前是否進行了任何歸一化/轉換？此外，提供原始儀器輸出有助于理解這種高度一致性的來源。

Silene acaulis

受到“Anarta odontites”觀察的啟發，我仔細觀察圖3a，發現了非常相似的模式。數據似乎遵循相同的變換---，尤其是縮放與噪聲疊加以及隨之而來的洗牌。

這種模式的一致性難以與獨立獲得的實驗測量結果進行調和。目前，這引發了人們擔憂，即本《自然》論文中許多圖表背后的數據集可能并非直接實驗獲取，而是人工構建或操作的。

[主持人：對這種一致性的概率進行建模會很有用。]

Silene acaulis

我對圖3中數據還有另一個擔憂，數據似乎采用了相同的變換---，尤其是縮放加上噪聲增加和隨之而來的洗牌。

這兩組數據共享的CV非常小，僅為10.7%。我有個擁有統計學博士學位的朋友教我用置換檢驗來量化這種可能性的低。

置換過程：為了確定觀察到的10.7%波動是否僅僅是“運氣”的結果，我們進行了以下模擬：

數據池：A組和B組的所有10個數值合并到一個池中。
隨機重新分配：每次迭代隨機抽取5個值組成“新組A”，剩余5個組組成“新組B”。
單調排序：兩組隨機分組按升序排序，以復制你對原始數據的手動處理。
度量計算：計算了新配對值之間比值的變異系數（CV）。
迭代：整個過程重復了10萬次，以構建一個穩健的空分布。

結果與p值：

模擬CV范圍：在10萬種排列中，最終的比率CV通常在50%到200%之間。這種寬大的方差是由于原始值在隨機配對時存在巨大大小差異而產生的。
最終p值：計算出的p值為0.00398。

結論與“確鑿證據”： 0.00398 的結果在統計學上被認為極不可能。這得出以下結論：

拒絕獨立性：如果A組和B組是真正獨立的實驗（測量不同的生物現象），即使經過排序，達到穩定到10.7%的比率一致性概率也只有0.00398。這些比率的極度穩定表明這兩個數據集在數學上是耦合的（數據是手動構建的：縮放與噪聲疊加，隨后的洗牌）。在自然實驗環境中，獨立的隨機噪聲會導致比值波動比這里觀察到的更劇烈。

Silene acaulis

我在圖3中發現了另一個異常：所有數據點的比率幾乎相同。

我朋友今天教了我一種新的方法，用來量化數據是否是隨機生成的。

使用排序相關檢驗檢測非自然線性變換：該方法評估兩個獨立且樣本較小的數據集（例如 N = 5）在兩個數據集按升序排序的情況下，純偶然表現出異常高的線性相關性的概率。

第一步：定義原假設：

建立虛無假設：A組和B組是完全獨立的實驗。它們各自的數據點是從兩個不同正態分布獨立抽取的隨機樣本。

第二步：提取經驗參數：

利用出版物提供的原始數據，獨立計算兩組的樣本均值和標準差。

A組：計算平均值（A）和標準值（sd）。
B組：計算均值（B）和標準值（b）。
在兩組按升序排序后，計算觀察到的皮爾遜相關系數。

第三步：隨機抽樣：

要構建零分布，在下模擬獨立抽樣。

從由均值（A）和sd（A）定義的正態分布中隨機生成一個大小為N（例如5）的樣本。
從由平均值（B）和sd（B）定義的正態分布中隨機生成另一個大小為N的樣本。

第四步：單調分類：

分別從小到大對兩個模擬樣本進行排序。

注意：排序本質上會引入任意兩個隨機變量之間的基線正相關。這一步確保模擬準確反映有序數據的自然對齊。

步驟5：計算模擬相關性：

計算兩個排序后的模擬樣本之間的皮爾遜相關系數。

步驟6：迭代和p值計算：

重復步驟3至5，以穩健的迭代次數（例如10萬次）生成模擬相關系數的全面分布。
通過確定模擬相關系數大于或等于實際觀測相關系數（此處為0.9947）的迭代比例來計算經驗p值。

結果解釋：如果所得的經驗p值極低（例如p < 0.05），我們拒絕原假設。這表明觀察到的線性關系在獨立實驗間自然發生的可能性在統計上極低，強烈表明數據可能是通過線性變換人工生成的。

此時推導概率為0.0215。

Silene acaulis

我今天在《自然》雜志的論文中發現了圖3a中的另一個異常：

推導的p值為0.01586

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.