色婷婷AV久久久久久久,中文字幕人妻无码视频,成人做爰www网站视频,欧美一区二区三区激情

加快打造原始創(chuàng)新策源地,加快突破關(guān)鍵核心技術(shù),努力搶占科技制高點(diǎn),為把我國(guó)建設(shè)成為世界科技強(qiáng)國(guó)作出新的更大的貢獻(xiàn)。

——習(xí)近平總書記在致中國(guó)科學(xué)院建院70周年賀信中作出的“兩加快一努力”重要指示要求

面向世界科技前沿、面向經(jīng)濟(jì)主戰(zhàn)場(chǎng)、面向國(guó)家重大需求、面向人民生命健康,率先實(shí)現(xiàn)科學(xué)技術(shù)跨越發(fā)展,率先建成國(guó)家創(chuàng)新人才高地,率先建成國(guó)家高水平科技智庫(kù),率先建設(shè)國(guó)際一流科研機(jī)構(gòu)。

——中國(guó)科學(xué)院辦院方針

首頁(yè) > 科研進(jìn)展

軟件所提出小批量數(shù)據(jù)采樣策略

2025-05-27 軟件研究所
【字體:

語(yǔ)音播報(bào)

近日,中國(guó)科學(xué)院軟件研究所科研團(tuán)隊(duì)提出了小批量數(shù)據(jù)采樣策略,可消除由不可觀測(cè)變量語(yǔ)義引起的虛假關(guān)聯(lián)對(duì)表征學(xué)習(xí)的干擾,來提升自監(jiān)督學(xué)習(xí)模型分布外泛化能力。

自監(jiān)督學(xué)習(xí)的分布外泛化能力是指模型在面對(duì)與訓(xùn)練數(shù)據(jù)分布不同的測(cè)試數(shù)據(jù)時(shí),仍能夠保持良好性能。簡(jiǎn)單來說,模型需要在“未見過”的數(shù)據(jù)分布上表現(xiàn)得和在訓(xùn)練數(shù)據(jù)上一樣好。但是,有研究發(fā)現(xiàn),自監(jiān)督學(xué)習(xí)模型在訓(xùn)練過程中受到與學(xué)習(xí)任務(wù)無關(guān)的不可觀測(cè)變量的語(yǔ)義干擾,從而削弱分布外泛化能力。

該研究基于因果效應(yīng)估計(jì)等手段,提出小批量數(shù)據(jù)采樣策略,來消除不可觀測(cè)變量語(yǔ)義干擾的混雜影響。這一策略通過學(xué)習(xí)隱變量模型,來估計(jì)在給定“錨點(diǎn)”樣本的條件下,不可觀測(cè)語(yǔ)義變量的后驗(yàn)概率分布,將其記為平衡分?jǐn)?shù)。進(jìn)而,該策略將具有相同或相近平衡分?jǐn)?shù)的樣本對(duì)劃分為同一個(gè)小批量數(shù)據(jù)集,確保每個(gè)小批量數(shù)據(jù)集內(nèi)的不可觀測(cè)語(yǔ)義變量與“錨點(diǎn)”樣本在條件上是獨(dú)立的,從而幫助模型避免學(xué)習(xí)到虛假關(guān)聯(lián),提升模型的分布外泛化能力。

進(jìn)一步,該研究在基準(zhǔn)數(shù)據(jù)集上進(jìn)行了廣泛實(shí)驗(yàn)。所有實(shí)驗(yàn)均僅替換批次生成機(jī)制,無需調(diào)整模型架構(gòu)或超參數(shù)。實(shí)驗(yàn)顯示,這一采樣策略使當(dāng)前主流自監(jiān)督學(xué)習(xí)方法在各類評(píng)估任務(wù)上至少提高2%的表現(xiàn)。具體而言,在ImageNet?100和ImageNet的分類任務(wù)中,Top 1和Top 5準(zhǔn)確率均超越自監(jiān)督方法SOTA;在半監(jiān)督場(chǎng)景下的分類任務(wù)中,Top 1和Top 5準(zhǔn)確率分別提升超3%和2%;目標(biāo)檢測(cè)與實(shí)例分割遷移學(xué)習(xí)任務(wù)中,各項(xiàng)平均精度均獲得穩(wěn)定增益;對(duì)于Omniglot、miniImageNet和CIFAR?FS等少樣本轉(zhuǎn)移學(xué)習(xí)任務(wù),性能提升超5%。實(shí)驗(yàn)表明,這一采樣策略可以弱化虛假關(guān)聯(lián)、強(qiáng)化因果學(xué)習(xí),并能夠提升分布外泛化能力。

相關(guān)研究成果被CCF-A類人工智能頂級(jí)學(xué)術(shù)會(huì)議International?Conference?on?Machine?Learning(ICML-25)接收。

論文鏈接

打印 責(zé)任編輯:侯茜

掃一掃在手機(jī)打開當(dāng)前頁(yè)

© 1996 - 中國(guó)科學(xué)院 版權(quán)所有 京ICP備05002857號(hào)-1 京公網(wǎng)安備110402500047號(hào) 網(wǎng)站標(biāo)識(shí)碼bm48000002

地址:北京市西城區(qū)三里河路52號(hào) 郵編:100864

電話: 86 10 68597114(總機(jī)) 86 10 68597289(總值班室)

  • © 1996 - 中國(guó)科學(xué)院 版權(quán)所有 京ICP備05002857號(hào)-1 京公網(wǎng)安備110402500047號(hào) 網(wǎng)站標(biāo)識(shí)碼bm48000002

    地址:北京市西城區(qū)三里河路52號(hào) 郵編:100864

    電話: 86 10 68597114(總機(jī)) 86 10 68597289(總值班室)

  • © 1996 - 中國(guó)科學(xué)院 版權(quán)所有
    京ICP備05002857號(hào)-1
    京公網(wǎng)安備110402500047號(hào)
    網(wǎng)站標(biāo)識(shí)碼bm48000002

    地址:北京市西城區(qū)三里河路52號(hào) 郵編:100864
    電話:86 10 68597114(總機(jī))
       86 10 68597289(總值班室)