機器學習,解構聲音識別的生物學

A+A-
圖片來源:Rabiul Hasan Rajon/Shutterstock

美國匹茲堡大學的神經科學家,在科學雜誌「通訊生物學」上發表研究,透過開發機器學習模型,運用算法模擬獼猴和豚鼠(又名天竺鼠)等社交動物的大腦,了解牠們如何識別溝通時的各類聲音,如交配、食物或危險等相關叫聲,並能準確預測其大腦的不同反應。

研究還顯示豚鼠可識別改變後的聲音,就像人類理解不同口音的能力,例如當人們聽到「你好」這個詞時,不論其口音、講話者性別,以及身處環境是否嘈雜,都能理解其意思。這可能類似於人腦識別面孔的方式:每張面孔既不相同,但又具有共同特徵,因此大腦會注意有用的特徵,如眼睛、鼻子、嘴巴,及其相對位置以辨識一張臉。

大腦在接收嘈雜的聲音後,會通過聽覺皮質中的興奮性和抑制性神經元網絡來清理信號 (部分受聽者的注意力影響),並檢測聲音特徵以識別用以溝通的聲音。研究團隊於是首先創建處理聲音的機器學習模型,識別社交動物所發出的不同聲音,並記錄豚鼠聽見同類溝通聲音時的腦電波活動,測試其大腦反應是否與模型相應。當牠們聽到特定的聲音特徵時,大腦處理聲音的神經元就會亮起信號,對應機器學習模型的運作。

研究團隊繼而測試該模型的表現是否符合動物的實際行為。他們將豚鼠放置在一個暴露於各種同類聲音 —— 如尖叫聲和咕嚕聲 —— 的環境中,然後訓練牠們走到不同角落,並根據播放的聲音類別以水果作為獎勵;接下來以聲音變換軟件來調整叫聲的速度、音高,或添加噪音和回聲,以模仿人們辨認帶有不同口音的詞語。

實驗表明,無論聲音是否經過變化,這些動物在聽到後也能持續執行任務,而機器學習模型也能準確地描述牠們的行為,以及其大腦處理聲音的神經元活動。

下一步,該模型將應用於辨識人類語音。研究員之一 Satyabrata Parida 表示,此語音識別模型能夠對應腦部活動和行為,有助了解當中細微而複雜的神經運作,未來將可用於幫助患有神經發展障礙的人或改良助聽器。匹茲堡大學神經生物學助理教授 Srivatsun Sadagopan 博士則指:「幾乎每個人也會在生命中的某個階段失去部分聽力,不論是受老化或噪音影響。故了解聲音識別的生物學和尋找改善方法,尤為重要。」