本文整理自《The Transmitter》的獨家報道:“Exclusive: Springer Nature retracts, removes nearly 40 publications that trained neural networks on ‘bonkers’ dataset”。
據《The Transmitter》報道,出版商Springer Nature開始撤回數十篇論文,這些論文所依賴的數據集存在倫理與可靠性問題。該出版商的科研誠信部門負責人Tim Kersjes表示:自11月16日起,已有5篇論文被撤回,另有33篇計劃撤回。
這些論文使用的數據集包含兒童面部照片,嘗試訓練神經網絡以區分自閉癥與非自閉癥兒童。
數據集存在倫理與可靠性問題
根據數據集的相關描述,是已退休工程師Gerald Piosenka于2019年創建了該數據集。他從一些“自閉癥主題網站”下載兒童照片,并將其上傳至谷歌旗下的機器學習公共數據集平臺Kaggle。數據集中包含2900多張兒童面部照片,其中一半被標注為自閉癥,另一半被標注為非自閉癥。
在閱讀了一篇使用該數據集的論文后,牛津大學發育神經心理學榮譽教授Dorothy Bishop去下載了數據集,看完之后表示:“我極度震驚,尤其是看到該數據集的創建方式時,第一反應是荒謬。”
Dorothy Bishop表示,在未確認每個孩子身份的情況下,根本無法核實這些兒童是否患有自閉癥。這些照片的光照條件、拍攝角度與表情都不一樣,會給數據集引入過多干擾因素。“即便自閉癥與非自閉癥存在面部特征差異,依靠這些照片也很難將其識別出來,因為存在太多與病情無關的變量”。
澳大利亞兒童研究所首席研究員Gail Alvares認為,圖片是從不同網站下載的,這些兒童及其家庭是否同意將其用于研究值得懷疑。“將圖片上傳至互聯網,并不意味著授權其用于科研目的”。
一位Kaggle用戶曾在評論區提出相同的質疑,Gerald Piosenka回應稱未侵犯隱私,所有圖片均屬公開資源,他表示“還有比'促進兒童自閉癥早期檢測與治療'更符合倫理的嗎?”。
就其數據集影響到多篇論文導致撤稿一事,Gerald Piosenka并未予以回應。
該數據集已引起多個出版商關注
Tim Kersjes透露,Springer Nature在上個月針對兩篇論文的獨立調查中,首次注意到這個數據集。
當時,科研誠信團隊正著手調查一篇“特別關注”的論文,收到圖盧茲大學計算機科學教授Guillaume Cabanac的提醒,要關注另一篇包含“扭曲短語”的論文,可能是由AI生成的。
調查團隊注意到,這兩篇論文均使用了上文提及的這個數據集,并認為該數據集可靠性存疑,且圖片收集未獲倫理審批或知情同意。Tim Kersjes指出:“這一重大方法學缺陷,動搖了已發表成果的結論有效性”。
2022年5月10日,該數據集的創建者Gerald Piosenka在Kaggle上留言,稱因違反平臺服務條款,刪除了數據集。但隨后,他又將數據集文件存至Google Drive。Springer Nature團隊還發現了兩個由其他Kaggle用戶上傳的數據集,疑似原始數據集的復制版本。
《The Transmitter》聯系了Gerald Piosenka和谷歌后,其他用戶上傳的數據集從Kaggle上消失了,Piosenka分享數據集鏈接的評論也被刪除了。
Tim Kersjes及其團隊系統審查了Springer Nature的出版物,以發現是否有其他文章使用了該數據集。最終計劃撤稿38篇論文、會議論文集和書籍章節,并下架其中的37篇(這些下架出版物可保留撤稿聲明、論文標題、作者、DOI等信息,但論文本身無法訪問)。
除了自查,Springer Nature還聯系了其他出版商就該數據集問題提出預警。
《The Transmitter》通過谷歌學術搜索,發現至少90篇出版物引用了該數據集,其中25篇發表于IEEE(電氣電子工程師學會)旗下期刊。IEEE發言人回應:“已知悉該問題,正在調查中”。
Wiley曾于2023年撤回了兩篇使用該數據集的論文。其發言人表示:“這兩篇論文是因其他原因被撤稿。我們近期關注到針對該數據集的質疑,正在核查旗下其他論文”。
上文提出質疑的兩位學者Dorothy Bishop和Gail Alvares都強調,面部特征不能用于診斷自閉癥。自閉癥是復雜且具異質性的病癥,臨床行為特征評估才是診斷金標準。
Gail Alvares指出,“面部特征與自閉癥診斷的關聯性”曾經是研究熱點,五年前關注度最高。有人提出了“面部特征的差異可能反映了大腦發育的差異”的假設。此類研究需要獲得知情同意、經過臨床確診的大規模嚴格對照圖像樣本,而這個數據集“完全不符合可用于科研的數據庫的準確性標準”。
文章整理自:https://www.thetransmitter.org/retraction/exclusive-springer-nature-retracts-removes-nearly-40-publications-that-trained-neural-networks-on-bonkers-dataset/
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.