電腦與人類觀看的方式不同，代表甚麼？

圖片來竹：Sven Hoppe／picture alliance via Getty Images

當電腦工程師首次嘗試讓電腦「看見」時，還以為電腦觀看的方式與人類一樣。英國約克大學的電腦科學家 John Tsotsos 表明，1960 年代電腦視覺的概念「顯然受到人類視覺特徵所推動」。時至今日，電腦視覺在某些範疇已超越人類，例如進行圖像分類或檢測醫學圖像中的異常，而其視覺數據處理，跟人類觀看的方式更是漸行漸遠。

電腦視覺的「神經網絡」運作相當簡單：接收輸入的圖像，並通過一連串程序逐步處理；首先檢測像素，然後是邊緣和輪廓，以至整個圖像，最後猜測其內容。這種單向的線性運作模式，稱為「前饋」（feed forward）系統。

儘管科學家對人類視覺了解尚淺，但至少發現它與電腦觀看的方式大相逕庭。大腦中的視覺皮層從視網膜接收信息，通過一系列神經反饋迴路 —— 因應外部環境數據的細微變化作調整，從而分析眼前各種圖像，其運作方式與複雜程度跟前饋系統相異。

然而，視覺皮層中處理外來信息的神經相對較少，限制了接收的信息量。相比之下，電腦處理視覺數據時並沒頻寬（bandwidth）限制 —— 信號通過和佔據頻道的最大寬度。Tsotsos 指：「假如我有無限的運算能力和儲存量，還要局限於處理少量信息嗎？」但他認為不應因此輕視人類視覺系統，或兩者差異對發展電腦視覺所帶來的啟示。

Tsotsos 指出，現今電腦擅長的圖像分類，只需從海量數據集中找出其相關性，無疑是輕而易舉。但對於高階任務，例如從多角度掃描某件物體，以確定它是甚麼（想像人們圍繞著雕像走一圈並進行觀察的方式），兩者相異的運作模式，可能窒礙電腦視覺的發展。

例如，人類在觀看的時候，即使第一眼未能確認，只要再看一遍，多數能認清所見事物；但以前饋方式運作的電腦視覺系統通常欠缺這種能力，甚至因此無法達成一些簡單的視覺任務。另外，人類視覺系統會隨時間日漸成熟。Tsotsos 於 2019 年發表的論文中提到，人們直至 17 歲左右，才完全獲得於雜亂環境專注尋找特定事物的能力。其他研究發現，辨識臉孔的能力至 20 歲前還在不斷發展。

電腦視覺系統透過消化大量數據來運作，此機制是固定的，而不像大腦的發育。如果它與人類大腦潛在的學習模式如此不同，將帶來甚麼結果？Tsotsos 指：「電腦的深度學習模式，完全無關於人類學習的方式，中間隔著的一面牆正在顯現。人們將面臨難以進一步發展這些系統的困境。」

電腦與人類觀看的方式不同，代表甚麼？

相關新聞

【Soul Monday】審美由嬰幼兒開始

首例：重新連接大腦，癱瘓男子恢復動作和感覺

太挑食？試試碗碟換隻色

人死後，意識可以維持多久？

Moyashi：星際牛仔 —— 比動畫版更卡通的真人版

夕立：唔夠錢你做唔做？手塚治虫如何應付不可能的預算

追求 π 的意義

聲音的哲學：在文字和圖像以外理解世界

熱門文章

移居菲律賓後的珍寶海鮮舫，究竟有甚麼遭遇？

洗衣機人類學：英國人的洗衣機為何要放廚房

社會主義和共產主義，有甚麼分別？

Hoka 與 On 的崛起，Nike 創新不再？