近日,北京大學心理與認知科學學院彭玉佳研究員與方方教授課題組合作在Journal of Cognitive Neuroscience雜志上發(fā)表了題為“Human Visual Pathways for Action Recognition Versus Deep Convolutional Neural Networks: Representation Correspondence in Late But Not Early Layers”的論文。這項研究深入探討了深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)在動態(tài)視覺信息處理方面的性能,并與人類視覺系統(tǒng)進行了比較。
DCNN被認為可作為人類大腦可靠的替代模型,大量研究表明,DCNN在靜態(tài)物體識別方面的表現(xiàn)與人類水平相當,并且存在神經(jīng)網(wǎng)絡(luò)與大腦的層級映射(representational correspondence):低層級網(wǎng)絡(luò)與低級腦區(qū)的表征更相似,高層級網(wǎng)絡(luò)與高級腦區(qū)的表征更相似。然而,這種神經(jīng)網(wǎng)絡(luò)與大腦的層級映射關(guān)系是否局限于靜態(tài)識別任務(wù),能否泛化到其他視覺任務(wù),尤其是動態(tài)視覺任務(wù),仍不清楚。
本研究聚焦于動態(tài)視覺信息的加工,分別使用逼真的人物模型和精簡的電光源人生成的動作視頻作為研究材料,系統(tǒng)探索了 DCNN和人類視覺系統(tǒng)在動態(tài)視覺信息加工過程中的異同。研究團隊通過功能性核磁共振成像技術(shù),采集了人類被試在觀看動作視頻時的大腦活動,結(jié)合多變量解碼分析和表征相似性分析,與DCNN進行比較。
本研究依托于生物運動識別的雙通路理論:空間通路負責加工運動軀體的空間結(jié)構(gòu),時間通路負責加工時間維度上的動態(tài)變化。因此,研究重點關(guān)注了雙通路上的5個重要節(jié)點腦區(qū):V1, MT, EBA, LOC和pSTS。同樣基于雙通路理論,本研究構(gòu)造雙通路DCNN模型,該模型在運動識別任務(wù)表現(xiàn)明顯優(yōu)于傳統(tǒng)單通路DCNN。
圖1 研究流程圖:基于 fMRI獲得人類視覺表征,基于計算模擬得到 DCNN的運動視覺表征,通過 RSA方法分析比較 DCNN與人腦的運動表征異同。
因此,研究系統(tǒng)比較了經(jīng)大量數(shù)據(jù)訓練后的雙通路DCNN與人類視覺系統(tǒng)對動態(tài)運動信息的表征。fMRI的結(jié)果驗證了人腦的層級化表征。然而有趣的是,在運動識別任務(wù)上,并未發(fā)現(xiàn)DCNN與人類視覺系統(tǒng)的層級映射關(guān)系。各腦區(qū)均與DCNN模型的高層級網(wǎng)絡(luò)(如最后一層卷積層Conv5和全連接層FC1,F(xiàn)C2)的表征相似性更高。這些發(fā)現(xiàn)提示我們,在完成認知任務(wù)時,DCNN模型與人類大腦的層級映射并非必然存在,單純基于大數(shù)據(jù)自下而上的機器學習在模擬人腦處理復(fù)雜認知任務(wù)上存在局限性。
彭玉佳研究員和方方教授為該文章的通訊作者,彭玉佳研究員與方方教授課題組已畢業(yè)博士生龔曦紫為該文章的共同第一作者。該研究為理解DCNNs在視覺任務(wù)中的工作原理提供了新的視角,同時也為未來的人機交互和人工智能算法的發(fā)展提供了重要的參考。
論文鏈接:
https://direct.mit.edu/jocn/article/doi/10.1162/jocn_a_02233/123926/Human-Visual-Pathways-for-Action-Recognition
引用
Peng, Y.*#, Gong, X.*, Lu, H., & Fang, F.# (2024). Human Visual Pathways for Action Recognition Versus Deep Convolutional Neural Networks: Representation Correspondence in Late but Not Early Layers. Journal of Cognitive Neuroscience, 1-23. https://doi.org/10.1162/jocn_a_02233 (* equal contribution, # corresponding authors)
2024-10-08