在醫(yī)療診斷、自動(dòng)駕駛等高風(fēng)險(xiǎn)場(chǎng)景中,人工智能(AI)模型決策的可解釋性至關(guān)重要。據(jù)美國(guó)麻省理工學(xué)院官網(wǎng)近日消息稱,為了提高透明度,該校團(tuán)隊(duì)開發(fā)出一種新方法,能夠從已訓(xùn)練好的計(jì)算機(jī)視覺模型中自動(dòng)提取關(guān)鍵概念,并迫使模型使用這些人類易于理解的概念進(jìn)行解釋和預(yù)測(cè)。這項(xiàng)進(jìn)展有望在提升模型準(zhǔn)確性的同時(shí),增強(qiáng)用戶對(duì)“黑盒”AI的信任。
概念瓶頸模型是增強(qiáng)AI可解釋性的常見技術(shù)。它是指在模型決策過程中增加一個(gè)中間步驟:先識(shí)別圖像中與任務(wù)相關(guān)的、可被人理解的“概念”,再基于這些概念做出最終預(yù)測(cè)。例如,在腫瘤診斷中,模型可能先識(shí)別“成簇的棕色斑點(diǎn)”這一概念,再判斷是否為黑色素瘤。
然而,傳統(tǒng)方法依賴人類專家或大語(yǔ)言模型預(yù)先定義概念集,這些概念可能與具體任務(wù)關(guān)聯(lián)性不強(qiáng),或缺乏足夠細(xì)節(jié),從而影響模型性能。另外,模型在訓(xùn)練時(shí)也可能“暗中”使用了定義之外的其他特征,導(dǎo)致解釋與真實(shí)不符。
此次,團(tuán)隊(duì)利用一個(gè)經(jīng)過海量數(shù)據(jù)預(yù)訓(xùn)練的視覺模型,認(rèn)為其內(nèi)部已蘊(yùn)含了完成任務(wù)所需的知識(shí)。他們?cè)O(shè)計(jì)了一種兩階段流程來提取和轉(zhuǎn)化這些知識(shí)。首先,使用一個(gè)稱為稀疏自編碼器的專用模型,提取出最相關(guān)的特征,并將其壓縮為少量核心概念。接著,由一個(gè)多模態(tài)大語(yǔ)言模型將這些特征轉(zhuǎn)化為簡(jiǎn)潔的自然語(yǔ)言描述,并自動(dòng)為數(shù)據(jù)集中圖像標(biāo)注這些概念真實(shí)與否。最后,利用這些標(biāo)注數(shù)據(jù)訓(xùn)練一個(gè)概念瓶頸模塊,并將其整合到原始模型中,強(qiáng)制模型僅使用這套提取的概念進(jìn)行預(yù)測(cè)。
團(tuán)隊(duì)在過程中限制了模型每次預(yù)測(cè)最多只能使用五個(gè)概念,迫使模型篩選出最關(guān)鍵的幾個(gè)特征,使生成的解釋既精煉又直接相關(guān)。
測(cè)試中,鳥類物種識(shí)別和皮膚病變?cè)\斷等任務(wù)結(jié)果均表明,新方法在提供更精確、與圖像更貼合的概念解釋的同時(shí),也取得了比現(xiàn)有概念瓶頸模型更高的預(yù)測(cè)準(zhǔn)確率。這意味著,該方法不僅能更好地“解讀”模型的思考過程,還能維持更優(yōu)的性能。
團(tuán)隊(duì)未來的工作還將致力于解決信息泄露等問題,并探索利用更強(qiáng)大的多模態(tài)大模型來標(biāo)注更大規(guī)模的數(shù)據(jù),以進(jìn)一步提升方法的效能。