機器學習，解構聲音識別的生物學

美國匹茲堡大學的神經科學家，在科學雜誌「通訊生物學」上發表研究，透過開發機器學習模型，運用算法模擬獼猴和豚鼠（又名天竺鼠）等社交動物的大腦，了解牠們如何識別溝通時的各類聲音，如交配、食物或危險等相關叫聲，並能準確預測其大腦的不同反應。

研究還顯示豚鼠可識別改變後的聲音，就像人類理解不同口音的能力，例如當人們聽到「你好」這個詞時，不論其口音、講話者性別，以及身處環境是否嘈雜，都能理解其意思。這可能類似於人腦識別面孔的方式：每張面孔既不相同，但又具有共同特徵，因此大腦會注意有用的特徵，如眼睛、鼻子、嘴巴，及其相對位置以辨識一張臉。

大腦在接收嘈雜的聲音後，會通過聽覺皮質中的興奮性和抑制性神經元網絡來清理信號（部分受聽者的注意力影響），並檢測聲音特徵以識別用以溝通的聲音。研究團隊於是首先創建處理聲音的機器學習模型，識別社交動物所發出的不同聲音，並記錄豚鼠聽見同類溝通聲音時的腦電波活動，測試其大腦反應是否與模型相應。當牠們聽到特定的聲音特徵時，大腦處理聲音的神經元就會亮起信號，對應機器學習模型的運作。

研究團隊繼而測試該模型的表現是否符合動物的實際行為。他們將豚鼠放置在一個暴露於各種同類聲音 —— 如尖叫聲和咕嚕聲 —— 的環境中，然後訓練牠們走到不同角落，並根據播放的聲音類別以水果作為獎勵；接下來以聲音變換軟件來調整叫聲的速度、音高，或添加噪音和回聲，以模仿人們辨認帶有不同口音的詞語。

實驗表明，無論聲音是否經過變化，這些動物在聽到後也能持續執行任務，而機器學習模型也能準確地描述牠們的行為，以及其大腦處理聲音的神經元活動。

下一步，該模型將應用於辨識人類語音。研究員之一 Satyabrata Parida 表示，此語音識別模型能夠對應腦部活動和行為，有助了解當中細微而複雜的神經運作，未來將可用於幫助患有神經發展障礙的人或改良助聽器。匹茲堡大學神經生物學助理教授 Srivatsun Sadagopan 博士則指：「幾乎每個人也會在生命中的某個階段失去部分聽力，不論是受老化或噪音影響。故了解聲音識別的生物學和尋找改善方法，尤為重要。」

相關新聞

Percy Leung：If Every London Tube Line Were a Piece of Classical Music —— Part 5

2023 回顧：AI 如何影響我們聽的歌？

科普作家為何不應宣揚宇宙虛無？

Moyashi：為甚麼需要博物館

【Soul Monday】大人的課後俱樂部

科技進步，天氣預報也更精準貼身

阿爾特曼回歸了，OpenAI 發展卻有根本變化

AI 的電子鼻怎麼測出壞食物？

熱門文章

移居菲律賓後的珍寶海鮮舫，究竟有甚麼遭遇？

洗衣機人類學：英國人的洗衣機為何要放廚房

社會主義和共產主義，有甚麼分別？

Hoka 與 On 的崛起，Nike 創新不再？