A.I. 有沒有常識?

A+A-
道德選擇機械人 Alfie;攝於 2020 年。 圖片來源:Arne Dedert/picture alliance via Getty Images

讀到像「芝士漢堡刺傷」這樣的新聞標題,大概沒人會以為芝士漢堡是傷者或兇器,甚或猜想是漢堡包之間起爭執吧?但對人工智能來說,儘管它們在下棋或檢測腫瘤等方面的能力已超越人類,要以常理解讀此標題,反而會被考起。因當中涉及常識的掌握和運用,正是它們的弱項。

艾倫人工智能研究所行政總裁 Oren Etzioni 形容,常識就好比人工智能的「暗物質」,影響人們的行為和動機,卻又難以說明其運作。人類能夠從日常多方面學習,如透過觀察、經驗和檢討錯誤等途徑吸收知識,並運用常識推理解決生活中的大小事情;而人工智能傾向遵從單一指令,以排除其他選項的方式學習,使得它們較難掌握常識,應對複雜多變的現實處境。

Etzioni 於 90 年代探討人工智能與安全問題時,發現人工智能無法履行「不可傷害人類」的守則,因它們並沒有「傷害」的概念 —— 當中涉及對一個人的需求、價值觀和意願,有廣泛而基本的認知,也關乎常識。有哲學家推斷,人工智能單單是為了執行某指令,便可能將妨礙它的人統統剷除。另有實驗顯示,在停車路牌上的特定位置加上貼紙,足以干擾導航系統,把之誤認作限速標誌。然而,隨著人工智能的日常應用愈來愈廣泛,開發人工常識的需求也愈迫切。

如何教會 A.I. 常識?

早期的研究員,沿用以清晰指令讓人工智能學習的方式。1984 年,電腦科學家 Doug Lenat 建立的 Cyc 系統,就如一部以公理或規則寫成的常識百科全書;透過套用相應規則,層層推演,解釋各種現實情況的運作。例如讓 Cyc 理解「當你的無人駕駛汽車,泵把撞到某人的腿,你要為造成傷害而負責」,需引用的公理可能涉及:一、界定何謂擁有;二、描述硬物如何損壞柔軟的物件;三、人的腿公認比金屬柔軟;結合公理,從而得出合乎常識的結論。

學術界卻普遍認為 Cyc 的方法過時、費事,且未必能準確交代某些常識的微妙涵意。研究人員改為採用 Siri、Alexa 和 Google 翻譯的機器學習(machine learning)模式。它的原理就如不再「翻查說明書」,而是「分析圖書館」。2020 年,OpenAI 實驗室研發出 GPT-3 機器學習演算法,透過分析網上大量文本數據,辨識語言規律,以模仿造句及填充產生看似合理的句子。研究人員其後要求系統對影片字幕進行分析,回答選擇題,解釋片段中的角色行為。

單憑文本或影片理解現實世界運作,顯然有所不足。艾倫研究所因而創造了一名為 thor 的 3D 虛擬家居。研究員會用文字告訴人工智能系統 PIGLeT 如「平底鍋裡有一隻熟雞蛋」,要求它預測下一步 ——「機械人切雞蛋」。PIGLeT 解讀了這些文字後,須向虛擬家居裡的機械人下達相關指令,讓機械人在 thor 裡按照物理定律行動,然後用文字報告 ——「雞蛋被切了」。 研究人員藉此將人工智能的語言能力連繫到「實質行動」,使之更接近人類的思維與行為模式。

獲取常識,於人類彷彿是最自然不過的學習過程,但對人工智能來說,至今仍充滿挑戰。研究人員還花了大量時間,希望能準確判斷人工智能掌握常識的程度。2011 年,多倫多大學電腦科學家 Hector Levesque 設計了 Winograd Schema Challenge,測試人工智能解釋歧義句子的能力,例如「獎杯擠不進棕色行李箱,因為它太大了 —— 甚麼太大了」?像這些被人們視為簡單不過的問題,對人工智能來說卻很棘手。

它其實在作弊

即使人工智能透過機器學習模式,交出了看似合理的答案,展現近乎人類思維的能力,但實際上只是找到作弊的方法。例如,人工智能回答「對或錯」這類問題時,可能是因為「察覺」到某種特定的出題模式,或基於句式語法上的細微差異,並非真正理解箇中意思。研究人員還發現,某些人工智能系統在回答「三選一」題目時,甚至無需閱讀,也能答中 3 分之 2 的考題。

此外,研究發現,人工智能透過大數據學習的過程中,還可能受現實世界一些刻板印象影響,產生偏見。在一項測試中,研究人員運用演算法,篩選了 700 多個電影劇本,統計當中包含「權力」和「代理」意思的及物動詞,得出男性傾向「支配」,女性傾向「體驗」的結論。

儘管讓人工智能學會常識,至今尚有不少進步空間,但科學家正一步步縮短目標距離。近年,一個名為 Delphi 的人工智能系統,透過分析參與群眾所作的道德判斷,學習如何在兩種行為中分辨出「道德上較可接受」的一種,且近 8 成時間都得出合乎常識的結論;Delphi 還說過:「『用』芝士漢堡刺傷」,已比「『在』芝士漢堡上刺傷」更可取。