<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      邁向可靠的領(lǐng)域泛化:來自PF2HC基準(zhǔn)與動態(tài)評估的啟示

      0
      分享至

      Towards reliable domain generalization: Insights from the PF2HC benchmark and dynamic evaluations

      邁向可靠的領(lǐng)域泛化:來自 PF2HC 基準(zhǔn)測試和動態(tài)評估的啟示

      https://www.sciencedirect.com/science/article/pii/S0031320324006770



      摘要
      深度神經(jīng)網(wǎng)絡(luò)(DNNs)容易對訓(xùn)練集產(chǎn)生偏差,這導(dǎo)致其在分布外數(shù)據(jù)上的性能大幅下降。在領(lǐng)域泛化(DG)的文獻(xiàn)中,許多方法被研究以在各種分布偏移下實(shí)現(xiàn)泛化。為了促進(jìn)實(shí)際的DG研究,我們構(gòu)建了一個大規(guī)模的非獨(dú)立同分布中文字符數(shù)據(jù)集,稱為PaHCC(印刷和手寫中文字符),用于DG方法的真實(shí)應(yīng)用場景(從印刷字體到手寫字符的泛化,PF2HC)。我們在提出的PaHCC數(shù)據(jù)集上評估了18種DG方法,并證明當(dāng)前算法在該數(shù)據(jù)集上的性能仍然不足。為了提高性能,我們提出了一種基于部首的多標(biāo)簽學(xué)習(xí)方法,通過將結(jié)構(gòu)學(xué)習(xí)整合到統(tǒng)計方法中。此外,在動態(tài)評估設(shè)置中,我們發(fā)現(xiàn)了DG方法的額外屬性,并證明許多算法存在性能不穩(wěn)定的問題。我們主張DG研究者在未來的研究中不僅要關(guān)注在固定留一法協(xié)議下的準(zhǔn)確性,還要關(guān)注在可變訓(xùn)練域中的算法穩(wěn)定性。我們的數(shù)據(jù)集、方法和評估為DG社區(qū)帶來了寶貴的見解,并可能促進(jìn)現(xiàn)實(shí)和穩(wěn)定算法的發(fā)展。

      關(guān)鍵詞:分布偏移、結(jié)構(gòu)學(xué)習(xí)、數(shù)據(jù)集、評估

      1. 引言
      深度神經(jīng)網(wǎng)絡(luò)在許多經(jīng)典數(shù)據(jù)集上取得了顯著的性能,但在現(xiàn)實(shí)世界的應(yīng)用中可能會經(jīng)歷顯著的性能下降。原因之一是數(shù)據(jù)分布偏移。具體來說,在開放世界中,由于不可預(yù)測的環(huán)境變化以及數(shù)據(jù)收集過程中引入的偏差,測試數(shù)據(jù)的分布通常與訓(xùn)練數(shù)據(jù)的分布不一致。解決訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)之間的分布偏移問題,即領(lǐng)域泛化(DG)或分布外泛化(OODG),仍然是一個開放性問題。
      在過去十年中,DG社區(qū)的研究者們從不同角度提出了許多方法來提高模型的泛化能力[1,2]。然而,DomainBed [3]基準(zhǔn)測試表明,在相同的實(shí)驗(yàn)條件下,測試的十四種方法中沒有任何一種同時超過了基線模型(ERM,經(jīng)驗(yàn)風(fēng)險最小化[4])。這反映了當(dāng)前算法評估標(biāo)準(zhǔn)的不足,迫切需要努力發(fā)現(xiàn)潛在問題并增強(qiáng)這些標(biāo)準(zhǔn)。此外,目前社區(qū)廣泛使用的數(shù)據(jù)集在實(shí)際部署中的分布偏移代表性不足[5]?,F(xiàn)有的基準(zhǔn)測試通常以明確定義的域變化組織,例如PACS數(shù)據(jù)集中的“照片、卡通、藝術(shù)繪畫和素描”域。此外,其中大部分只包含少量類別,例如VLCS數(shù)據(jù)集中的五個對象。這些基準(zhǔn)測試作為開發(fā)方法和進(jìn)行分析的重要試驗(yàn)場。然而,它們通常無法描繪出實(shí)際應(yīng)用中遇到的真實(shí)場景,這些場景以復(fù)雜的分布偏移和大量類別為特征。為了促進(jìn)適用于實(shí)際應(yīng)用的DG研究,我們需要補(bǔ)充能夠捕捉真實(shí)世界偏移的數(shù)據(jù)集。

      為了促進(jìn)DG研究的實(shí)用性和通用性,我們構(gòu)建了一個新的非獨(dú)立同分布(Non-I.I.D.)圖像數(shù)據(jù)集,用于中文字符識別場景,這一領(lǐng)域在之前的基準(zhǔn)研究中尚未涉及[3,5]。與英文字母相比,中文字符具有龐大的詞匯量和復(fù)雜的結(jié)構(gòu)。對于傳統(tǒng)的手寫中文字符識別任務(wù),需要收集大量的手寫數(shù)據(jù)來訓(xùn)練模型,這需要耗費(fèi)大量的人力和物力資源。此外,由于不同書寫者書寫風(fēng)格的不一致性,不同書寫者之間的泛化問題通常被認(rèn)為是之前研究中的一個問題[6,7]。鑒于我們可以利用字體庫輕松生成大量的合成印刷數(shù)據(jù),如果能夠僅使用合成印刷數(shù)據(jù)訓(xùn)練一個在不同書寫者的手寫字符上表現(xiàn)良好的魯棒識別模型,這將具有極大的價值。基于此,我們提出了從印刷字體到手寫字符的泛化任務(wù)(PF2HC),并構(gòu)建了一個名為PaHCC(印刷和手寫中文字符)的非獨(dú)立同分布圖像數(shù)據(jù)集,其中包含996478個樣本和1000個類別。我們將合成印刷數(shù)據(jù)根據(jù)字體類型劃分為三個域,并將所有掃描的手寫數(shù)據(jù)視為測試域。
      在提出的PaHCC數(shù)據(jù)集上,我們進(jìn)行了廣泛的評估實(shí)驗(yàn)。通過測試DomainBed [3]中包含的多種DG方法,我們表明,所有測試方法都不可避免地會學(xué)習(xí)中文字符像素值的統(tǒng)計信息。在本文中,我們提出通過整合結(jié)構(gòu)學(xué)習(xí)來增強(qiáng)模型的泛化能力。具體來說,根據(jù)PaHCC數(shù)據(jù)集的特征,我們通過引入基于部首的多標(biāo)簽學(xué)習(xí)(RBML)為現(xiàn)有方法帶來了顯著且一致的性能提升。此外,我們通過改變訓(xùn)練域來探索現(xiàn)有評估標(biāo)準(zhǔn)的潛在問題。我們在PaHCC、PACS和DomainNet數(shù)據(jù)集上的動態(tài)評估實(shí)驗(yàn)揭示了許多DG方法存在性能不穩(wěn)定的問題,并建議我們除了在常用的留一法協(xié)議下的準(zhǔn)確性外,還應(yīng)更多關(guān)注在可變訓(xùn)練域下的穩(wěn)定性。
      總之,我們的貢獻(xiàn)如下:
      ? 為了補(bǔ)充現(xiàn)有的基準(zhǔn)測試,用能夠捕捉真實(shí)世界分布偏移的數(shù)據(jù)集,我們構(gòu)建了一個大規(guī)模的非獨(dú)立同分布中文字符數(shù)據(jù)集,用于實(shí)際的印刷到手寫識別任務(wù)。
      ? 在PaHCC數(shù)據(jù)集上的廣泛實(shí)驗(yàn)表明,現(xiàn)有的DG方法無法很好地處理這一任務(wù)。提出的RBML方法可以通過引入結(jié)構(gòu)學(xué)習(xí)來實(shí)現(xiàn)更好的性能。
      ? 通過對PaHCC、PACS和DomainNet基準(zhǔn)測試上的十八種DG方法進(jìn)行動態(tài)評估,我們發(fā)現(xiàn)了DG方法的額外屬性,這促使我們除了在留一法協(xié)議下的準(zhǔn)確性外,還應(yīng)更多關(guān)注算法的穩(wěn)定性。
      本文的其余部分安排如下。第2節(jié)回顧DG社區(qū)中現(xiàn)有的方法、公共數(shù)據(jù)集和評估標(biāo)準(zhǔn)。第3節(jié)介紹所提出的數(shù)據(jù)集。第4節(jié)描述所提出方法的細(xì)節(jié)。第5節(jié)展示實(shí)驗(yàn)結(jié)果,第6節(jié)總結(jié)。

      2. 領(lǐng)域泛化
      在本節(jié)中,我們對DG社區(qū)中現(xiàn)有的方法進(jìn)行分類和綜述。在我們的實(shí)驗(yàn)中,我們評估并分析了所選的十八種算法。為了全面把握,我們還簡要介紹在領(lǐng)域泛化研究中常用的公共數(shù)據(jù)集和評估標(biāo)準(zhǔn)。

      2.1 方法
      近年來,研究者們從不同角度提出了大量的領(lǐng)域泛化方法,這些方法大致可以分為三類:數(shù)據(jù)操作、表示學(xué)習(xí)和學(xué)習(xí)策略[2]。
      在過度參數(shù)化的深度神經(jīng)網(wǎng)絡(luò)(DNNs)中,數(shù)據(jù)增強(qiáng)通常被用作數(shù)據(jù)級正則化,以緩解模型的過擬合并提高泛化能力。由于其對數(shù)據(jù)驅(qū)動的DNNs性能有顯著影響,許多研究集中在通過各種數(shù)據(jù)操作豐富訓(xùn)練數(shù)據(jù)的多樣性,以利于領(lǐng)域泛化。早期的工作通過分類損失的梯度擾動輸入樣本[24,25],或借助生成模型合成新的訓(xùn)練樣本[26,27]。最近,由于操作簡單且計算成本低,原始數(shù)據(jù)在特征空間中的特征增強(qiáng)[28–30]越來越受到關(guān)注。此外,一些方法[31,32]通過在頻域中解耦和混合不同樣本的內(nèi)容和上下文信息,然后將其轉(zhuǎn)換回空間域來增強(qiáng)數(shù)據(jù)。
      表示學(xué)習(xí)主要通過學(xué)習(xí)領(lǐng)域無關(guān)的表示來應(yīng)對分布偏移。領(lǐng)域?qū)R是一種常見方法,它對齊源領(lǐng)域的邊緣分布[19,33]或跨源領(lǐng)域的類別條件分布[8,34],并希望在源領(lǐng)域之間學(xué)到的不變性能夠擴(kuò)展到未見的測試領(lǐng)域。學(xué)習(xí)解耦表示[35,36]也是一種選擇,可以看作是領(lǐng)域?qū)R的放松,允許部分特征是領(lǐng)域特定的,而其他特征是領(lǐng)域無關(guān)的。此外,一些工作從其他角度提出了理論或?qū)嶒?yàn)觀點(diǎn)。Arjovsky等人[10]不是直接匹配源領(lǐng)域之間的表示分布,而是強(qiáng)制特征空間上的分類器對所有訓(xùn)練環(huán)境都是最優(yōu)的,即不變風(fēng)險最小化(IRM)。SagNet[23]通過調(diào)整模型對風(fēng)格和內(nèi)容的偏差來學(xué)習(xí)更具語義相關(guān)性的表示,從而減少領(lǐng)域差距。

      除了數(shù)據(jù)操作和表示學(xué)習(xí),許多研究還從模型優(yōu)化的角度考慮領(lǐng)域泛化問題。一些方法通過結(jié)合通用的魯棒機(jī)器學(xué)習(xí)算法來提高模型的魯棒性,包括元學(xué)習(xí)[37]、集成學(xué)習(xí)[38,39]、對抗學(xué)習(xí)[8,9]和自監(jiān)督學(xué)習(xí)[14]。此外,一些工作基于直覺設(shè)計了正則化策略。RSC[21]通過掩蓋對應(yīng)于大梯度的特征組件來避免學(xué)習(xí)錯誤的低級特征,從而增加模型訓(xùn)練的難度。GroupDRO[13]交錯更新模型參數(shù)和每個組的權(quán)重。在更新模型參數(shù)時,損失更高的組貢獻(xiàn)更大。AND-mask[20]在基于梯度下降的模型訓(xùn)練中,基于不同環(huán)境中梯度符號的不一致性,將參數(shù)梯度組件置零。
      選定的方法。在本文中,我們遵循DOMAINBED基準(zhǔn)測試[3],并納入了一些近期的工作,包括十八種算法,這些算法是根據(jù)多年來的影響、已發(fā)布的性能以及包含上述各種DG策略的愿望而選擇的。詳細(xì)列表如表1所示。具體來說,Mixup[17]和SagNet[23]涉及數(shù)據(jù)操作,CORAL[22]、DANN[9]、CDANN[8]、MMD[19]、IRM[10]、VREx[12]、IB-ERM[18]、IB-IRM[18]、SelfReg[14]和SagNet[23]與表示學(xué)習(xí)相關(guān)。RSC[21]、GroupDRO[13]、SelfReg[14]、AND-mask[20]、SAND-mask[16]、SD[15]和Fish[11]涉及模型優(yōu)化中的特殊考慮。


      2.2 常用數(shù)據(jù)集
      這里簡要介紹DG社區(qū)中常用的六個公共數(shù)據(jù)集(PACS[40]、VLCS[41]、彩色MNIST[10]、DomainNet[42]和NICO[43])。這些數(shù)據(jù)集通常被人為劃分為幾個領(lǐng)域,每個領(lǐng)域內(nèi)的數(shù)據(jù)在視覺形態(tài)上具有一致性。通常,所有領(lǐng)域共享相同的類別集。
      PACS[40]包含7個類別(狗、大象、長頸鹿、吉他、馬、房子、人),分布在四個不同領(lǐng)域(照片、藝術(shù)繪畫、卡通、素描)中,共有9991張圖像。它是一個簡單且平衡的多領(lǐng)域數(shù)據(jù)集。所有圖像的大小均為227×227。圖1給出了一些數(shù)據(jù)集的示例。


      Office-Home [44] 包含65個類別,共有15588張圖像,分為四個領(lǐng)域(藝術(shù)、剪貼畫、產(chǎn)品、現(xiàn)實(shí)世界)。特別是,藝術(shù)領(lǐng)域由素描、繪畫、裝飾等形式的藝術(shù)圖像組成。該數(shù)據(jù)集包含通常出現(xiàn)在辦公和家庭環(huán)境中的對象,是一個具有更微妙的領(lǐng)域變化、更多類別以及每個類別樣本數(shù)量更少的具有挑戰(zhàn)性的數(shù)據(jù)集,與PACS相比,其圖像大小并不統(tǒng)一。圖2給出了該數(shù)據(jù)集不同領(lǐng)域中的一些示例。


      VLCS [41] 包含五個類別,共有10729張圖像。它包括來自Caltech-101(C)數(shù)據(jù)集的以物體為中心的圖像,以及來自PASCAL VOC2007(V)、LabelMe(L)和SUN09(S)數(shù)據(jù)集的以場景為中心的圖像,每個數(shù)據(jù)集都被視為一個領(lǐng)域。所有圖像的大小均為227×227。圖3給出了一些VLCS數(shù)據(jù)集的示例。


      彩色MNIST [10] 是一個合成的二元分類數(shù)據(jù)集(對于數(shù)字0-4,預(yù)測標(biāo)簽 ? = 0;對于數(shù)字5-9,預(yù)測標(biāo)簽 ? = 1),源自MNIST [45]。它在訓(xùn)練集中將類別標(biāo)簽與紅色或綠色關(guān)聯(lián)起來,并在測試集中反轉(zhuǎn)這種相關(guān)性。該數(shù)據(jù)集旨在研究學(xué)習(xí)算法是否能夠避免使用對泛化有害的虛假相關(guān)特征(在此例中為顏色)進(jìn)行分類。圖4給出了該數(shù)據(jù)集的一些示例。


      DomainNet [42] 包含 345 個類別和 6 個域(剪貼畫、信息圖、繪畫、速繪、真實(shí)圖像、素描)。該數(shù)據(jù)集是一個大規(guī)模數(shù)據(jù)集,總計包含 586,575 張圖像。其中,信息圖域內(nèi)圖像尺寸差異顯著,而其他域內(nèi)圖像尺寸差異較小。圖5展示了該數(shù)據(jù)集的一些示例。


      NICO [43] 包含來自動物和交通工具兩個超類的共19個類別,總計近25,000張圖像。在每個類別內(nèi)部,圖像被進(jìn)一步劃分為不同的情境(context),例如“在雪地里”、“在草地上”、“與人相伴”、“行走中”以及“躺臥中”。每種情境被視為一個域(domain)。圖像尺寸并不統(tǒng)一。圖6展示了該數(shù)據(jù)集的一些示例。


      局限性:常用的公開數(shù)據(jù)集通常類別數(shù)量較少(如表2所示),這使其難以反映現(xiàn)實(shí)世界中的應(yīng)用需求。當(dāng)數(shù)據(jù)集類別數(shù)量較少時,建模域間差異相對容易;而類別數(shù)量較大時,域間差異與類內(nèi)差異將共同影響模型性能,因而更能體現(xiàn)不同領(lǐng)域泛化(DG)方法的優(yōu)勢與不足。此外,公開數(shù)據(jù)集中的域偏移(domain shift)往往被清晰界定,而這在現(xiàn)實(shí)場景部署中未必總能成立。例如,許多研究工作探討了由合成變換(如改變MNIST數(shù)字的顏色 [10])或由異構(gòu)數(shù)據(jù)劃分(如在真實(shí)照片、藝術(shù)繪畫、卡通與素描之間進(jìn)行泛化 [40])所引發(fā)的分布偏移。此類數(shù)據(jù)集為系統(tǒng)性研究提供了關(guān)鍵試驗(yàn)平臺;但為推動方法在實(shí)際應(yīng)用中的發(fā)展,我們?nèi)孕柩a(bǔ)充那些能捕捉真實(shí)世界中“野外”(in-the-wild)分布偏移的數(shù)據(jù)集。

      2.3 設(shè)置與評估
      領(lǐng)域泛化旨在提升模型對分布外(out-of-distribution)數(shù)據(jù)的泛化能力?,F(xiàn)有領(lǐng)域泛化方法通常采用「留一域交叉驗(yàn)證」(leave-one-domain-out)協(xié)議進(jìn)行評估:具體而言,對于一個包含 n 個域的數(shù)據(jù)集,選取其中 n ? 1
      個域作為源域(source domains),余下1個作為測試域(target domain);如此共可形成 n 種劃分方案。在所有方案下所得的測試準(zhǔn)確率及其平均值,被用作性能評估指標(biāo)。表3提供了更直觀的說明。


      1. 新數(shù)據(jù)集:PaHCC如前文所述,目前已涌現(xiàn)大量專門的領(lǐng)域泛化方法,旨在通過在多個可用的訓(xùn)練域(通常稱為源域)上訓(xùn)練,提升深度模型在未知域上的泛化能力。然而,研究者通常僅在物體識別任務(wù)上評估所提出的領(lǐng)域泛化(DG)方法。常用的基準(zhǔn)數(shù)據(jù)集往往是人為設(shè)計的,具有清晰的特性且類別數(shù)量較少,而這類設(shè)定在現(xiàn)實(shí)部署中并不總能成立。為實(shí)現(xiàn)更全面的評估,亟需補(bǔ)充更多能反映現(xiàn)實(shí)世界中自然出現(xiàn)的分布偏移的數(shù)據(jù)集。基于這一考慮,WILDS [5] 的作者整理了十個反映現(xiàn)實(shí)應(yīng)用場景中自然分布偏移的數(shù)據(jù)集。然而,中文字符識別任務(wù)——其分布偏移與上述十項(xiàng)任務(wù)不同,且常導(dǎo)致模型性能顯著下降——迄今尚未被納入其中。

      3.1 PF2HC任務(wù)

      本文提出一項(xiàng)貼近實(shí)際的中文字符識別任務(wù),即從印刷字體到手寫字符的泛化(Printed Fonts to Handwritten Characters, PF2HC),以促進(jìn)領(lǐng)域泛化研究。

      在傳統(tǒng)手寫中文字符識別任務(wù)中,研究者通常需收集大量手寫數(shù)據(jù)來訓(xùn)練模型;這種做法既與人類認(rèn)知過程相悖,又帶來高昂的數(shù)據(jù)采集成本。回顧中國人學(xué)習(xí)新漢字的過程:我們首先在教師指導(dǎo)下通過分析漢字筆畫結(jié)構(gòu)來認(rèn)識印刷體字形,隨后幾乎無需額外練習(xí),便能自然識別不同人書寫的手寫體。這表明人類具備出色的從印刷體到手寫體的領(lǐng)域泛化能力。而對于基于深度學(xué)習(xí)的模型而言,為達(dá)成特定手寫中文字符識別目標(biāo),往往需投入大量資源采集海量獨(dú)立同分布(i.i.d.)手寫數(shù)據(jù)??紤]到利用字體庫可便捷生成大量合成印刷數(shù)據(jù),僅憑合成印刷數(shù)據(jù)訓(xùn)練出穩(wěn)健的識別模型,并使其在不同書寫者的手寫字符上表現(xiàn)良好,具有重要現(xiàn)實(shí)價值。

      本文所提出的從印刷字體到手寫字符的泛化任務(wù)(PF2HC),不僅能顯著推動手寫中文字符識別研究,同時也為領(lǐng)域泛化領(lǐng)域帶來一種真實(shí)而具挑戰(zhàn)性的問題設(shè)定。

      3.2 數(shù)據(jù)庫構(gòu)建過程

      針對上述兼具挑戰(zhàn)性與實(shí)用性的PF2HC任務(wù),我們構(gòu)建了一個大規(guī)模“印刷與手寫中文字符”(Printed and Handwritten Chinese Characters, PaHCC)分類數(shù)據(jù)集。我們選取GB2312-80標(biāo)準(zhǔn)中1000個常用漢字作為類別。得益于字符識別領(lǐng)域已有的積累,我們重組并整合了兩個現(xiàn)有數(shù)據(jù)庫的數(shù)據(jù),構(gòu)建出PaHCC數(shù)據(jù)集:

      • SCUT-SPCCI數(shù)據(jù)庫2 包含由280種不同字體生成的合成印刷漢字圖像,數(shù)據(jù)以 .ccb 格式文件存儲;

      • CASIA-HWDB1.0–1.13 [46] 包含從掃描手寫文檔頁面中分割并標(biāo)注的灰度圖像,數(shù)據(jù)以 .gnt 格式文件存儲。

      我們依據(jù)各自格式說明,從兩個數(shù)據(jù)庫中解析出所選類別的數(shù)據(jù),并將全部數(shù)據(jù)無損轉(zhuǎn)換為.png格式圖像保存,未對原始數(shù)據(jù)做任何修改。

      對于合成印刷漢字圖像,所有圖像均為64 × 64尺寸的灰度圖,圖7(a)–7(c)展示了部分代表性樣例;對于手寫漢字圖像,所有圖像為灰度圖,背景像素值設(shè)為0,圖像尺寸不一,圖7(d)展示了若干樣例。


      3.3 數(shù)據(jù)結(jié)構(gòu)與統(tǒng)計
      PaHCC 是我們的完整數(shù)據(jù)集,包含1000個類別、共計996,478個樣本。其中,印刷體數(shù)據(jù)包含280,647張由約280種印刷字體生成的合成漢字圖像。我們根據(jù)字體類型將其劃分為三個域:標(biāo)準(zhǔn)印刷字體(域0)、變形印刷字體(域1)以及手寫風(fēng)格印刷字體(域2),分別如圖7(a)–7(c)所示。我們將這三個域的印刷體數(shù)據(jù)作為訓(xùn)練域,并在第3.4節(jié)中分析它們之間的分布偏移。手寫體數(shù)據(jù)包含來自720位書寫者的715,831張掃描手寫漢字圖像;我們將全部手寫數(shù)據(jù)視為測試數(shù)據(jù),并在第3.4節(jié)中分析從印刷體到手寫體的泛化挑戰(zhàn)(即所提出的PF2HC任務(wù))。圖7直觀展示了我們的數(shù)據(jù)劃分方式。數(shù)據(jù)集的目錄結(jié)構(gòu)為:/domains/classes/samples,其中提供了作為真實(shí)標(biāo)簽(ground truth)的類別標(biāo)簽和域標(biāo)簽。表4給出了本數(shù)據(jù)集的細(xì)粒度統(tǒng)計信息。


      考慮到完整數(shù)據(jù)集(PaHCC)規(guī)模龐大,我們還構(gòu)建了一個含100個類別的小型版本(mini-PaHCC),以降低研究中的計算開銷。我們的主要實(shí)驗(yàn)也基于該小型數(shù)據(jù)集展開。表5展示了mini-PaHCC數(shù)據(jù)集的細(xì)粒度統(tǒng)計信息。

      3.4 數(shù)據(jù)集中的分布偏移
      為反映本數(shù)據(jù)集中存在的分布偏移,我們參照WILDS基準(zhǔn)測試 [5] 的做法,考察在PaHCC數(shù)據(jù)集上采用經(jīng)驗(yàn)風(fēng)險最小化(ERM, empirical risk minimization [4])訓(xùn)練所得模型的域內(nèi)(in-distribution, ID)與域外(out-of-distribution, OOD)性能差距。為全面比較,我們還對三個常用公開數(shù)據(jù)集進(jìn)行了相同測量。實(shí)驗(yàn)中,所有數(shù)據(jù)集均使用同一骨干網(wǎng)絡(luò)(在ImageNet [48]上預(yù)訓(xùn)練的ResNet-18 [47]),且除將物體圖像統(tǒng)一縮放至224 × 224、文本圖像統(tǒng)一縮放至64 × 64(以適配任務(wù)需求)外,不使用任何數(shù)據(jù)增強(qiáng)。我們從訓(xùn)練域中隨機(jī)抽取10%的數(shù)據(jù)用于評估ID性能,并預(yù)留一個未參與訓(xùn)練的域用于評估OOD性能。

      根據(jù)表6的實(shí)驗(yàn)結(jié)果,除“D1, D2 → D0”設(shè)定外,OOD性能普遍低于ID性能——該異常情況源于其OOD測試數(shù)據(jù)相比訓(xùn)練數(shù)據(jù)更為簡單(PACS數(shù)據(jù)集中的照片域和VLCS數(shù)據(jù)集中的CALTECH域也存在類似現(xiàn)象)。其中,ID性能表示來自與訓(xùn)練數(shù)據(jù)相同域的測試數(shù)據(jù)的準(zhǔn)確率,而OOD性能則表示來自與訓(xùn)練域不同域的測試數(shù)據(jù)的準(zhǔn)確率。ID與OOD性能之間的差異,反映出數(shù)據(jù)集內(nèi)不同域之間存在的分布偏移,此類偏移會導(dǎo)致模型在未見域上的性能下降。


      我們的數(shù)據(jù)集展現(xiàn)出更高的ID性能,表明在滿足獨(dú)立同分布(i.i.d.)假設(shè)的前提下,中文字符識別任務(wù)相較于通用物體識別任務(wù)相對簡單。這一現(xiàn)象源于文本圖像在顏色、背景、細(xì)節(jié)等方面相較于物體圖像具有更簡潔的模式結(jié)構(gòu)。然而,這并不削弱本數(shù)據(jù)集中泛化挑戰(zhàn)的重要性。與利用字體庫生成的印刷體數(shù)據(jù)相比,掃描獲取的手寫體數(shù)據(jù)通常質(zhì)量較低,原因包括掃描設(shè)備差異、書寫者筆跡風(fēng)格各異、書寫工具不同等多種因素。這些因素導(dǎo)致在我們提出的PF2HC任務(wù)中,域內(nèi)(ID)與域外(OOD)性能之間存在顯著差距,如表6最后一行所示。

      3.5 使用建議
      我們的PaHCC是一個大規(guī)模、全面的中文字符數(shù)據(jù)集,可支持視覺模式識別中諸多具有挑戰(zhàn)性的問題研究,包括模型的魯棒性、可遷移性與可解釋性等。具體建議如下:

      (1)領(lǐng)域泛化(Domain Generalization):本數(shù)據(jù)集天然適用于領(lǐng)域泛化研究——其目標(biāo)是通過在多個可用源域上訓(xùn)練,提升預(yù)測模型在未見域上的泛化能力。一種實(shí)用設(shè)置是:使用合成印刷數(shù)據(jù)進(jìn)行模型訓(xùn)練,以手寫數(shù)據(jù)進(jìn)行測試,從而極大降低手寫中文字符識別任務(wù)的數(shù)據(jù)采集成本。

      (2)領(lǐng)域自適應(yīng)(Domain Adaptation):與領(lǐng)域泛化類似,當(dāng)允許利用測試數(shù)據(jù)的分布信息時,PaHCC亦可用于評估領(lǐng)域自適應(yīng)方法。此外,也可僅使用合成印刷數(shù)據(jù),并留出一部分作為測試集,以評估模型對不同印刷字體的魯棒性;對手寫數(shù)據(jù)亦可采取同樣策略。

      (3)結(jié)構(gòu)理解型模型(Structure-understanding Model):PaHCC涵蓋豐富多樣的字體風(fēng)格與字形變化,對深度模型的魯棒性構(gòu)成嚴(yán)峻挑戰(zhàn)。然而,漢字本身蘊(yùn)含獨(dú)特的結(jié)構(gòu)信息。若能借鑒人類學(xué)習(xí)與感知漢字的方式,使深度模型有效利用此類結(jié)構(gòu)信息,則有望實(shí)現(xiàn)穩(wěn)定而優(yōu)異的識別性能。因此,PaHCC非常適用于開發(fā)具備結(jié)構(gòu)理解能力的可解釋模型。

      (4)零樣本學(xué)習(xí)(Zero-Shot Learning):針對手寫中文字符識別任務(wù),PaHCC可借助現(xiàn)成的合成印刷數(shù)據(jù)作為輔助信息,推動零樣本學(xué)習(xí)相關(guān)研究。

      (5)類增量學(xué)習(xí)(Class-Incremental Learning):由于PaHCC是一個包含1000個類別的大規(guī)模數(shù)據(jù)集,便于按類別對某一域的數(shù)據(jù)進(jìn)行劃分,從而支持類增量學(xué)習(xí)的研究。

      1. 借助結(jié)構(gòu)學(xué)習(xí)促進(jìn)領(lǐng)域泛化

      本節(jié)強(qiáng)調(diào):模型對物體結(jié)構(gòu)的關(guān)注有助于提升其泛化能力。在現(xiàn)實(shí)應(yīng)用場景中,無論物體的風(fēng)格或背景如何變化,其結(jié)構(gòu)始終是域不變的(domain-invariant);因此,模型若能準(zhǔn)確把握物體的結(jié)構(gòu),將顯著增強(qiáng)其在開放世界中的性能表現(xiàn)。結(jié)構(gòu)學(xué)習(xí)在不同數(shù)據(jù)類型上具有不同的表征形式與學(xué)習(xí)難度:某些任務(wù)的數(shù)據(jù)天然蘊(yùn)含明確的結(jié)構(gòu)信息(例如漢字),可借助領(lǐng)域先驗(yàn)知識輕易獲取并加以利用;而在另一些任務(wù)中,數(shù)據(jù)結(jié)構(gòu)難以清晰界定或直接提取,需依賴輔助工具或采用隱式學(xué)習(xí)方式。

      4.1 漢字上的結(jié)構(gòu)學(xué)習(xí)
      4.1.1 相關(guān)工作

      在漢字中,“部首”(radicals)是筆畫的組合,構(gòu)成漢字的基本結(jié)構(gòu)單元。過去十年間,眾多方法 [49, 50] 已將部首作為關(guān)鍵先驗(yàn)知識,用于輔助漢字識別任務(wù)。特別地,由于大量漢字均由一個有限的部首集合組合而成,部首層級的漢字構(gòu)成關(guān)系被廣泛應(yīng)用于訓(xùn)練中未見類別(unseen categories)的識別 [51, 52]。例如,文獻(xiàn) [53] 將古籍漢字識別建模為多標(biāo)簽分類問題,其中每個標(biāo)簽對應(yīng)一個位置相關(guān)的部首;通過在已見與未見漢字之間共享同一標(biāo)簽集,所訓(xùn)練的預(yù)測模型無需未見類別的訓(xùn)練樣本即可直接識別新漢字。受圖像描述生成(image captioning)啟發(fā),DenseRAN [54] 將漢字圖像識別轉(zhuǎn)化為部首描述序列(即“表意部件描述序列”,Ideographic Description Sequence, IDS)的預(yù)測任務(wù):先用CNN提取圖像特征,再通過RNN將特征解碼為IDS預(yù)測;其對未見漢字的識別,通過將IDS預(yù)測結(jié)果與字典中具有最小編輯距離的IDS所對應(yīng)漢字進(jìn)行匹配實(shí)現(xiàn)。HDE [55] 則通過手工設(shè)計的分層分解嵌入(hierarchical decomposition embedding)將漢字類別映射至嵌入空間,并利用多層感知機(jī)(MLP)將圖像特征映射至同一空間,以進(jìn)行相似性度量;模型通過尋找與其圖像特征最相似的類別嵌入,實(shí)現(xiàn)對未見類別的樣本識別。

      上述方法主要聚焦于傳統(tǒng)的封閉集漢字識別以及跨類別漢字識別(cross-category recognition)任務(wù)。此外,其中多數(shù)方法設(shè)計精細(xì)而復(fù)雜 [50, 55],且標(biāo)簽數(shù)量過多 [53] 或使用RNN架構(gòu) [51, 52, 54] 顯著增加了模型優(yōu)化難度。本文針對跨域漢字識別任務(wù)——其中訓(xùn)練集與測試集之間存在顯著分布偏移——提出了一種簡潔而高效的部首輔助學(xué)習(xí)方法(radical-assisted learning method)。

      4.1.2 所提出的 RBML 方法

      針對跨域漢字識別任務(wù)(即第3.1節(jié)所述的 PF2HC 任務(wù)),我們提出一種簡潔而高效的基于部首的多標(biāo)簽學(xué)習(xí)方法(Radical-Based Multi-Label learning, RBML)。該方法通過將結(jié)構(gòu)學(xué)習(xí)引入模型,可為其他方法帶來一致性的性能提升。下文將詳細(xì)介紹所提出的 RBML 方法。

      漢字由一個或多個部首按特定位置組合而成,呈現(xiàn)出區(qū)別于其他物體的獨(dú)特結(jié)構(gòu)形式。例如,“枳”字可視為由部首“木”、“口”和“八”組合構(gòu)成。在本研究中,我們依據(jù) Unicode 標(biāo)準(zhǔn) 9.0.0 版中提供的表意部件描述序列(Ideographic Description Sequences, IDS)分解列表,共提取出 260 個不同的部首。

      圖8展示了如何將我們提出的 RBML 方法應(yīng)用于其他模型的框架示意圖。對于從訓(xùn)練集中隨機(jī)采樣的一批輸入樣本 X,首先將其送入特征提取器。在 ResNet [47] 架構(gòu)中,共包含四個殘差模塊(residual blocks),記為 res1–res4。為在保留足夠細(xì)節(jié)特征以識別部首的同時不損失特征的抽象能力,我們選擇 res3 之后的特征圖接入 RBML 分支。


      在 RBML 分支中,我們首先通過兩個不改變通道數(shù)的 3×3 卷積層將原始特征映射至新空間,每層后接批歸一化(Batch Normalization)和 ReLU 激活函數(shù);隨后進(jìn)行自適應(yīng)平均池化(adaptive average pooling);接著連接一個輸出維度為 260 的線性層,并后接 sigmoid 函數(shù),以實(shí)現(xiàn)多標(biāo)簽分類。最終,多標(biāo)簽分類損失函數(shù)定義為:


      其中, N r
      是不同漢字共享的部首數(shù)量(此處為260), y i
      為真實(shí)值, p i
      為我們 RBML 分類器的預(yù)測值。

      所提出的 RBML 作為一個即插即用模塊,與應(yīng)用方法端到端聯(lián)合訓(xùn)練,但在推理階段并不使用。我們也探索并實(shí)現(xiàn)了其他更復(fù)雜的部首建模方法,但相比 RBML 并未觀察到顯著更好的結(jié)果,可能是由于優(yōu)化難度增加所致。

      1. 實(shí)驗(yàn)
        5.1 實(shí)現(xiàn)細(xì)節(jié)

      所有實(shí)驗(yàn)均采用 DomainBed [3] 作者發(fā)布的領(lǐng)域泛化(DG)基準(zhǔn)測試的開源實(shí)現(xiàn)?。我們選擇常用的訓(xùn)練域驗(yàn)證法(training-domain validation)[3] 作為模型選擇策略。

      在我們的中文字符數(shù)據(jù)集(PaHCC 與 mini-PaHCC)上,鑒于漢字圖像尺寸較小且細(xì)節(jié)關(guān)鍵,我們采用 ResNet-18 [47] 作為骨干網(wǎng)絡(luò),并將首個卷積層(conv1)的卷積核尺寸由默認(rèn)的 7 × 7 修改為 3 × 3,且從零開始訓(xùn)練(training from scratch)。

      在數(shù)據(jù)預(yù)處理方面,我們通過 PyTorch 中 transforms.ToTensor() 實(shí)現(xiàn)的標(biāo)準(zhǔn)操作,將像素值范圍歸一化至 [0, 1]。此外,對于作為測試集使用的掃描手寫數(shù)據(jù),我們將其統(tǒng)一縮放至 64 × 64,以與作為訓(xùn)練集使用的合成印刷數(shù)據(jù)保持一致。

      在 PACS 與 DomainNet 數(shù)據(jù)集上,我們遵循 DomainBed 中的默認(rèn)配置。

      所有實(shí)驗(yàn)結(jié)果均按 DomainBed [3] 的方式執(zhí)行超參數(shù)搜索:即對所有超參數(shù)的聯(lián)合分布進(jìn)行 20 次隨機(jī)試驗(yàn),并報告三次重復(fù)實(shí)驗(yàn)的均值(及其標(biāo)準(zhǔn)誤差)。特別地,在大規(guī)模 PaHCC 數(shù)據(jù)集上,為確保模型收斂,我們將批大?。╞atch size)的搜索范圍設(shè)為 (64, 362),學(xué)習(xí)率(learning rate)的搜索范圍設(shè)為 (1 × 10??, 1 × 10?2·?)。mini-PaHCC 的超參數(shù)設(shè)置則與常用數(shù)據(jù)集保持一致。

      5.2 中文字符數(shù)據(jù)集上存在難以避免的“捷徑學(xué)習(xí)”現(xiàn)象

      本節(jié)通過分別在原始數(shù)據(jù)與二值化數(shù)據(jù)上開展實(shí)驗(yàn),發(fā)現(xiàn)中文字符數(shù)據(jù)集上存在一種難以避免的捷徑學(xué)習(xí)(irresistible shortcut learning)現(xiàn)象。

      我們在 mini-PaHCC 數(shù)據(jù)集上采用經(jīng)驗(yàn)風(fēng)險最小化(ERM)訓(xùn)練模型。根據(jù)表7中原始灰度圖像的實(shí)驗(yàn)結(jié)果,ERM 訓(xùn)練的模型在不同印刷域之間展現(xiàn)出可接受的泛化能力(準(zhǔn)確率 > 90%)。然而,當(dāng)模型從印刷體遷移到手寫體時(即我們的 PF2HC 任務(wù)設(shè)定),性能急劇下降(從 > 90% 降至 16%)。


      通過觀察數(shù)據(jù)集,我們發(fā)現(xiàn):在原始灰度圖像中,手寫數(shù)據(jù)的前景像素值分布極不均勻,而合成印刷數(shù)據(jù)的前景像素值則相對均勻。對于漢字識別任務(wù)而言,這種底層像素值的統(tǒng)計差異對模型性能產(chǎn)生了顯著影響。當(dāng)我們將所有訓(xùn)練與測試圖像進(jìn)行二值化處理后,不出所料地發(fā)現(xiàn):不同印刷域間的泛化性能基本未受影響,而 PF2HC 任務(wù)上的性能大幅提升(從 16% 提升至 60%)。這驗(yàn)證了:采用 ERM 訓(xùn)練的深度模型主要依賴像素值的統(tǒng)計特征而非漢字的結(jié)構(gòu)特征進(jìn)行分類,呈現(xiàn)出明顯的捷徑學(xué)習(xí)現(xiàn)象。

      為緩解該問題,研究者通常將前景灰度值歸一化至指定區(qū)間,以避免灰度變化過大 [56]。然而,此類預(yù)處理操作并未從根本上解決學(xué)習(xí)算法與模型自身的缺陷。此外,即使在消除訓(xùn)練與測試數(shù)據(jù)間像素值分布差異之后(本文通過圖像二值化實(shí)現(xiàn)),ERM 在 PF2HC 任務(wù)上仍表現(xiàn)不佳(準(zhǔn)確率僅 60%),這是由于訓(xùn)練與測試數(shù)據(jù)生成路徑不同所致,反映出其領(lǐng)域泛化能力薄弱,難以應(yīng)對本數(shù)據(jù)集中存在的分布偏移。

      5.3 現(xiàn)有領(lǐng)域泛化方法難以有效應(yīng)對 PF2HC 任務(wù)

      本節(jié)考察所選18種領(lǐng)域泛化(DG)方法(見表1)在 PF2HC 任務(wù)上的表現(xiàn)。我們首先分別使用原始灰度圖像與二值圖像評估這些方法。如圖9所示,這些專門設(shè)計的 DG 方法在經(jīng)過圖像二值化預(yù)處理后,性能均取得一致且顯著的提升(橙色柱→藍(lán)色柱,提升 +26% ~ +55%),呈現(xiàn)出與 ERM 相同的現(xiàn)象。這表明它們同樣未能緩解模型對像素值統(tǒng)計特征的捷徑依賴;關(guān)于 ERM 捷徑學(xué)習(xí)現(xiàn)象的詳細(xì)分析,請參見第5.2節(jié)。


      由于原始灰度圖像上的結(jié)果整體過低(見圖9中橙色柱),后續(xù)實(shí)驗(yàn)僅在二值圖像上進(jìn)行,以集中考察不同 DG 方法在 PF2HC 任務(wù)上的性能表現(xiàn),從而聚焦其應(yīng)對因數(shù)據(jù)生成路徑不同所致分布偏移的領(lǐng)域泛化能力。

      表8展示了各算法在 mini-PaHCC 與 PaHCC(二值圖像)數(shù)據(jù)集上的性能:

      • 在 mini-PaHCC 上,部分 DG 方法相較 ERM 顯著提升了性能,例如:

        • 表征學(xué)習(xí)類方法:MMD(+9%)、CORAL(+11%)、SagNet(+13.5%)、IB-ERM(+17%);

        • 學(xué)習(xí)策略類方法:AND-mask(+9%)、RSC(+10%);

        • 數(shù)據(jù)增強(qiáng)類方法:Mixup(+9%)。然而,部分方法(如 CDANN、DANN、IRM)反而導(dǎo)致性能下降,這與 DomainBed [3] 在七個公開物體識別數(shù)據(jù)集上的觀察一致。值得注意的是,具有理論保障的方法(如 IRM 與 VREx)在實(shí)踐中失效,學(xué)界普遍認(rèn)為 過參數(shù)化 (overparameterization)是其在深度模型與大規(guī)模數(shù)據(jù)集上失效的主因 [57]。

      • 在完整版 PaHCC 數(shù)據(jù)集上,多數(shù)方法的表現(xiàn)與其在 mini-PaHCC 上的結(jié)果存在差異。尤其值得注意的是,AND-mask、RSC 和 CORAL 等方法在類別規(guī)模增大后無法維持原有提升效果;相比之下,表征學(xué)習(xí)方法 SagNet 與 IB-ERM 始終保持優(yōu)越性能。

      綜上所述,現(xiàn)有 DG 方法在本任務(wù)上仍未能展現(xiàn)出令人滿意的領(lǐng)域泛化能力(遠(yuǎn)低于傳統(tǒng)設(shè)定下的性能水平 [56]),尚無法滿足實(shí)際應(yīng)用需求。

      5.4 所提出的 RBML 方法助力實(shí)現(xiàn)當(dāng)前最優(yōu)結(jié)果

      根據(jù)前述實(shí)驗(yàn)結(jié)果可知,現(xiàn)有 DG 方法在本任務(wù)上的性能仍不理想,距離滿足實(shí)際應(yīng)用需求尚有較大差距。

      為進(jìn)一步提升性能,我們提出了基于部首的多標(biāo)簽學(xué)習(xí)方法(RBML)。該方法可便捷地嵌入現(xiàn)有 DG 方法中。我們分別將 RBML 應(yīng)用于 ERM 與表現(xiàn)最優(yōu)的 IB-ERM,實(shí)驗(yàn)結(jié)果見表9。在兩個數(shù)據(jù)集上,我們的方法均取得顯著性能提升:


      • 基于 ERM 時,我們在 mini-PaHCC 上達(dá)到 78%、在 PaHCC 上達(dá)到 68% 的準(zhǔn)確率,優(yōu)于或媲美其他有效的 DG 方法(參見表8);

      • 基于當(dāng)前最優(yōu) DG 方法(IB-ERM)時,我們?nèi)〉昧诵碌?當(dāng)前最優(yōu) (state-of-the-art)結(jié)果:mini-PaHCC 上 81%,PaHCC 上 74%。


      有效性與敏感性分析:圖10 展示了不同 RBML 損失權(quán)重對 DG 性能的影響。當(dāng)權(quán)重處于適當(dāng)范圍內(nèi)時,RBML 均能帶來性能增益。相較 PaHCC 數(shù)據(jù)集,RBML 在 mini-PaHCC 上需設(shè)置更大的權(quán)重以達(dá)到最優(yōu)性能;且當(dāng)應(yīng)用于 ERM 時,相較于 IB-ERM,RBML 同樣需要更大的權(quán)重才能獲得最佳效果。

      可視化與案例分析:我們利用 Grad-CAM [58] 繪制類別激活圖(class activation maps),直觀展示本方法的效果。具體而言,我們考察不同模型中特征提取器第三殘差層(layer3,即 RBML 所在位置)與第四殘差層(layer4,即分類器所在位置)的激活情況。如圖11 所示,所提出的 RBML 能夠增強(qiáng)模型對漢字整體結(jié)構(gòu)組成的關(guān)注,從而實(shí)現(xiàn)正確識別。與原始方法(無 RBML)相比,我們的模型(含 RBML)對風(fēng)格與印刷體差異顯著的手寫樣本也展現(xiàn)出良好的識別能力。當(dāng)然,對于書寫極度不規(guī)范的樣本,模型仍易出現(xiàn)誤判。


      5.5 訓(xùn)練域的動態(tài)變化揭示更多方法特性

      在以往研究中,學(xué)者對訓(xùn)練域的選擇關(guān)注較少——通常遵循數(shù)據(jù)集上固定的訓(xùn)練域與測試域劃分,并僅依據(jù)測試域準(zhǔn)確率評估算法性能(詳見第2.3節(jié))。本節(jié)通過一系列“動態(tài)”實(shí)驗(yàn),揭示不同方法的更多內(nèi)在特性;這些特性在常規(guī)的“留一域交叉驗(yàn)證”(leave-one-domain-out)協(xié)議下是無法觀察到的。接下來,我們將詳述兩項(xiàng)重要發(fā)現(xiàn),表明:在開發(fā)新算法時,我們不僅應(yīng)關(guān)注固定設(shè)定下的準(zhǔn)確率,還須重視在變動設(shè)定下的穩(wěn)定性。

      觀察1:部分方法對訓(xùn)練域敏感,導(dǎo)致性能不穩(wěn)定我們考察不同訓(xùn)練域選擇對DG方法性能的影響:固定測試域不變,僅更換訓(xùn)練所用的源域組合。特別地,我們保持訓(xùn)練域數(shù)量不變,且各設(shè)定下訓(xùn)練樣本總數(shù)相近。實(shí)驗(yàn)在 mini-PaHCC(漢字識別)、PACS(物體識別)與 DomainNet(物體識別)三個數(shù)據(jù)集上分別開展。

      圖12 展示了 mini-PaHCC 上各類方法的性能對比??紤]三種源域組合:d0+d1(橙線)、d1+d2(灰線)、d0+d2(黃線)。根據(jù)三組設(shè)定下手寫測試數(shù)據(jù)的準(zhǔn)確率,許多方法表現(xiàn)出明顯的性能波動。這表明:盡管某一算法在標(biāo)準(zhǔn)“留一域”協(xié)議下表現(xiàn)優(yōu)于其他方法,但若更換訓(xùn)練域選擇,其優(yōu)勢可能迅速消失(如圖中灰色虛線框所示)。圖13 在 PACS 與 DomainNet 數(shù)據(jù)集上同樣呈現(xiàn)此現(xiàn)象。



      相比之下,以紅點(diǎn)標(biāo)注的方法展現(xiàn)出穩(wěn)健的性能優(yōu)勢:在漢字識別任務(wù)中,IB-ERM 無論訓(xùn)練數(shù)據(jù)如何選擇均保持顯著優(yōu)勢;在物體識別任務(wù)中,CORAL 相較于其他被測方法表現(xiàn)更優(yōu)。

      觀察2:部分方法在引入新的OOD訓(xùn)練數(shù)據(jù)后反而性能下降本實(shí)驗(yàn)考察向原有訓(xùn)練數(shù)據(jù)中添加新的源域數(shù)據(jù),并觀察添加前后各類方法的性能變化。本節(jié)所有實(shí)驗(yàn)仍基于 DomainBed 代碼庫實(shí)現(xiàn)。

      在僅含三個訓(xùn)練域的 mini-PaHCC 與 PACS 數(shù)據(jù)集上,我們分別將圖12 與圖13(a) 中三種設(shè)定的剩余域加入訓(xùn)練。如圖14 所示:當(dāng)新增訓(xùn)練域的風(fēng)格接近測試域時(橙線→紅線),所有 DG 方法與 ERM 均取得性能提升;然而,當(dāng)新增訓(xùn)練域風(fēng)格與測試域差異較大時(黃線或灰線→紅線),部分 DG 方法性能反而下降——表明這些方法(見灰色虛線框)無法有效處理新增的分布外(OOD)訓(xùn)練數(shù)據(jù),反映出其應(yīng)對分布偏移的能力薄弱。


      針對 DomainNet 數(shù)據(jù)集(在“留一域”協(xié)議下有五個可選訓(xùn)練域),我們逐步增加訓(xùn)練域數(shù)量,并觀察不同方法的泛化性能變化??紤]兩種基礎(chǔ)設(shè)定:(1)初始訓(xùn)練域?yàn)?painting+quickdraw;(2)初始訓(xùn)練域?yàn)?clipart+infograph;隨后分別進(jìn)行三輪新增(每次增加一個新訓(xùn)練域)。實(shí)驗(yàn)結(jié)果見圖15:在兩種情況下,部分 DG 方法隨訓(xùn)練域增加出現(xiàn)性能下降或無提升(見灰色虛線框),進(jìn)一步證實(shí)其魯棒性不足。


      建議:在開發(fā)新算法時,我們不僅應(yīng)關(guān)注其在固定設(shè)定下的準(zhǔn)確率,還應(yīng)重視其在不同設(shè)定下的穩(wěn)定性。值得注意的是,在不同數(shù)據(jù)集上,這些“動態(tài)”實(shí)驗(yàn)中失效的方法各不相同,這凸顯了在多種不同識別任務(wù)上評估方法的必要性。此外,我們的“動態(tài)”實(shí)驗(yàn)揭示:某些在原始“留一域”協(xié)議下表現(xiàn)不佳的方法(例如 IB-IRM,見圖14與圖15),實(shí)際上仍具備應(yīng)對分布偏移的能力——通過豐富訓(xùn)練域的多樣性或改進(jìn)模型優(yōu)化,它們?nèi)钥沙?ERM。這一發(fā)現(xiàn)與文獻(xiàn) [59] 的觀點(diǎn)一致:對于大量基于懲罰項(xiàng)的方法(即通過聯(lián)合優(yōu)化經(jīng)驗(yàn)風(fēng)險與替代懲罰項(xiàng)來求解的方案),一種典型的失效模式在于聯(lián)合優(yōu)化過程中存在過大的額外風(fēng)險(excess risk),即相比 ERM,其未能充分優(yōu)化經(jīng)驗(yàn)風(fēng)險(也就是域內(nèi)性能)。

      1. 結(jié)論

      本文為豐富并推動領(lǐng)域泛化(Domain Generalization, DG)研究的發(fā)展,面向真實(shí)應(yīng)用場景,提出了一種大規(guī)模非獨(dú)立同分布(Non-I.I.D.)數(shù)據(jù)集——PaHCC(Printed and Handwritten Chinese Characters,印刷與手寫中文字符數(shù)據(jù)集)。大量實(shí)驗(yàn)表明,我們所提出的從印刷體到手寫體的泛化任務(wù)(PF2HC)存在顯著的域內(nèi)(in-distribution)與域外(out-of-distribution)性能差距。

      為提升領(lǐng)域泛化性能,我們認(rèn)為結(jié)構(gòu)理解(structure understanding)是關(guān)鍵因素,因?yàn)榻Y(jié)構(gòu)可被視為域不變特性(domain-invariant),從而在不同域之間實(shí)現(xiàn)良好泛化?;诖?,我們提出一種基于部首的多標(biāo)簽學(xué)習(xí)方法(radical-based multi-label learning, RBML),該方法能顯著且穩(wěn)定地提升其他方法的性能。

      最后,通過所設(shè)計的“動態(tài)”DG實(shí)驗(yàn)設(shè)置,我們發(fā)現(xiàn)部分方法對訓(xùn)練域的選擇高度敏感;這表明研究者在評估新算法時,不僅應(yīng)關(guān)注其在固定設(shè)定下的準(zhǔn)確率,還應(yīng)重視其在變動設(shè)定下的穩(wěn)定性。

      關(guān)于局限性:當(dāng)前方法僅適用于具備顯式結(jié)構(gòu)信息的數(shù)據(jù)(例如漢字,可借助已知的部首先驗(yàn)知識)。未來工作將探索更具普適性的結(jié)構(gòu)學(xué)習(xí)方法,以處理更廣泛類型的數(shù)據(jù)、提升模型的領(lǐng)域泛化能力——例如:僅依賴類別級監(jiān)督信號的弱監(jiān)督結(jié)構(gòu)學(xué)習(xí),或借助大語言模型生成細(xì)粒度結(jié)構(gòu)信息。我們期望本文基于PF2HC基準(zhǔn)與動態(tài)評估所獲得的見解,能夠推動更加貼近現(xiàn)實(shí)穩(wěn)健可靠的算法發(fā)展,從而促進(jìn)領(lǐng)域泛化研究的進(jìn)步。

      原文鏈接:https://www.sciencedirect.com/science/article/pii/S0031320324006770

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      1月27日北京&東方衛(wèi)視放大招!8部大劇任你挑

      1月27日北京&東方衛(wèi)視放大招!8部大劇任你挑

      情感大頭說說
      2026-01-28 03:12:32
      美企CEO:如果東方大國突破了先進(jìn)光刻機(jī),對我們就是致命一擊!

      美企CEO:如果東方大國突破了先進(jìn)光刻機(jī),對我們就是致命一擊!

      達(dá)文西看世界
      2026-01-27 16:00:39
      ICE指揮官被撤職,“黨衛(wèi)軍”暫時偃旗息鼓?

      ICE指揮官被撤職,“黨衛(wèi)軍”暫時偃旗息鼓?

      勝研集
      2026-01-27 12:59:03
      8000萬少一分不賣!英超球隊(duì)想報價20歲射手,國米設(shè)置護(hù)城河

      8000萬少一分不賣!英超球隊(duì)想報價20歲射手,國米設(shè)置護(hù)城河

      里芃芃體育
      2026-01-27 12:00:07
      兩年了,為何許家印遲遲不判刑?真相比你想象的更復(fù)雜!

      兩年了,為何許家印遲遲不判刑?真相比你想象的更復(fù)雜!

      苗苗情感說
      2026-01-27 01:34:47
      她14歲已是“人間尤物”,被首富看中花10億娶回家,8年生了四胎

      她14歲已是“人間尤物”,被首富看中花10億娶回家,8年生了四胎

      LULU生活家
      2026-01-16 18:50:49
      21歲白血病女生尋親新進(jìn)展:已轉(zhuǎn)運(yùn)至蘇州治療,有人主動認(rèn)親核對時間后表示年份不符

      21歲白血病女生尋親新進(jìn)展:已轉(zhuǎn)運(yùn)至蘇州治療,有人主動認(rèn)親核對時間后表示年份不符

      瀟湘晨報
      2026-01-27 11:47:28
      1939年,外蒙古處決了6.8萬名喇嘛,背后是有何隱情嗎?

      1939年,外蒙古處決了6.8萬名喇嘛,背后是有何隱情嗎?

      深度報
      2025-12-12 22:43:56
      馬筱梅親媽來北京幫帶孩子,馬媽媽稱:暖氣太熱,晚上都把暖氣關(guān)

      馬筱梅親媽來北京幫帶孩子,馬媽媽稱:暖氣太熱,晚上都把暖氣關(guān)

      天啟大世界
      2026-01-28 03:52:52
      中超轉(zhuǎn)會新消息:泰山、蓉城各添1名猛將,申花隊(duì)放棄2000萬國腳

      中超轉(zhuǎn)會新消息:泰山、蓉城各添1名猛將,申花隊(duì)放棄2000萬國腳

      何老師呀
      2026-01-27 22:54:17
      12歲玥兒穿價值7000元外套,很貴氣!越長越像大S

      12歲玥兒穿價值7000元外套,很貴氣!越長越像大S

      大眼妹妹
      2026-01-27 08:40:10
      想跑沒門!新疆富豪夫婦套現(xiàn)7億,沒等錢到賬,老板娘先被帶走了

      想跑沒門!新疆富豪夫婦套現(xiàn)7億,沒等錢到賬,老板娘先被帶走了

      陳博世財經(jīng)
      2026-01-27 17:04:14
      藥師提醒:銀杏葉片、血塞通、復(fù)方丹參片,心腦血管用藥別再選錯

      藥師提醒:銀杏葉片、血塞通、復(fù)方丹參片,心腦血管用藥別再選錯

      蜉蝣說
      2026-01-17 18:36:03
      中央和國家機(jī)關(guān)黨的工作暨紀(jì)檢工作會議在京召開

      中央和國家機(jī)關(guān)黨的工作暨紀(jì)檢工作會議在京召開

      農(nóng)民日報
      2026-01-27 20:56:03
      狂飆1034.71%!國產(chǎn)半導(dǎo)體最大贏家現(xiàn)身

      狂飆1034.71%!國產(chǎn)半導(dǎo)體最大贏家現(xiàn)身

      半導(dǎo)體產(chǎn)業(yè)縱橫
      2026-01-27 18:26:51
      Dior紅毯太真實(shí)!劉嘉玲臉好腫,溫碧霞戴假發(fā)片老氣,王玉雯贏麻

      Dior紅毯太真實(shí)!劉嘉玲臉好腫,溫碧霞戴假發(fā)片老氣,王玉雯贏麻

      洲洲影視娛評
      2026-01-27 12:08:04
      委內(nèi)瑞拉變局:特朗普昔日“傀儡”為何反水?

      委內(nèi)瑞拉變局:特朗普昔日“傀儡”為何反水?

      冒泡泡的魚兒
      2026-01-28 03:51:45
      楊鳴被曝離任不到24小時,令人擔(dān)心的事發(fā)生,烏戈、郭士強(qiáng)被牽連

      楊鳴被曝離任不到24小時,令人擔(dān)心的事發(fā)生,烏戈、郭士強(qiáng)被牽連

      不寫散文詩
      2026-01-27 15:17:57
      楊廣荒唐到什么程度?在皇宮內(nèi)立下奇葩規(guī)矩,讓妃子宮女十分難堪

      楊廣荒唐到什么程度?在皇宮內(nèi)立下奇葩規(guī)矩,讓妃子宮女十分難堪

      銘記歷史呀
      2026-01-06 01:08:47
      警惕!當(dāng)白銀、銅都和黃金一起講故事,你的財富可能正被悄悄轉(zhuǎn)移

      警惕!當(dāng)白銀、銅都和黃金一起講故事,你的財富可能正被悄悄轉(zhuǎn)移

      藍(lán)色海邊
      2026-01-28 03:42:22
      2026-01-28 06:15:00
      CreateAMind incentive-icons
      CreateAMind
      CreateAMind.agi.top
      1182文章數(shù) 18關(guān)注度
      往期回顧 全部

      科技要聞

      馬化騰3年年會講話透露了哪些關(guān)鍵信息

      頭條要聞

      美報告稱中國是其19世紀(jì)以來面對過的最強(qiáng)大國家

      頭條要聞

      美報告稱中國是其19世紀(jì)以來面對過的最強(qiáng)大國家

      體育要聞

      冒充職業(yè)球員,比賽規(guī)則還和對手現(xiàn)學(xué)?

      娛樂要聞

      張雨綺風(fēng)波持續(xù)發(fā)酵,曝多個商務(wù)被取消

      財經(jīng)要聞

      多地對壟斷行業(yè)"近親繁殖"出手了

      汽車要聞

      標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗(yàn)車下線

      態(tài)度原創(chuàng)

      游戲
      健康
      教育
      親子
      數(shù)碼

      LPL春季賽:決絕讓一追二,AL三局擊潰IG,大家的排名都不變

      耳石脫落為何讓人天旋地轉(zhuǎn)+惡心?

      教育要聞

      對話陳妤頡:閃閃發(fā)光的賽道,追逐夢想

      親子要聞

      雙職工家庭,孩子上幼兒園后,無老人幫忙,夫妻倆能獨(dú)立帶娃嗎?

      數(shù)碼要聞

      這事你怎么看 索尼與TCL簽署意向備忘錄 網(wǎng)友:Sony變Tony了

      無障礙瀏覽 進(jìn)入關(guān)懷版