不少人試用 ChatGPT 時,都嘗試委派各類刁鑽任務,其中常見的是叫 AI 模仿某人文筆。實驗結果有的幾可亂真,有的只見毫無個性的詞彙堆疊,背後與訓練 AI 的數據庫息息相關。有研究團隊就嘗試逆向追溯機器學習的材料,結果發現 GPT-4 對某些名家、某類型小說有特別偏好。究竟哪些作品叫 AI 倒背如流?這又會如何影響 AI 的世界觀?
加州大學柏克萊分校資訊科學家 David Bamman 最近進行實驗,利用聊天機械人 GPT-4 分析名著「傲慢與偏見」(Pride and Prejudice)的人物關係,令他驚訝的是,AI 對故事中的班奈特(Bennet)家譜滾瓜爛熟,足以叫他質疑自己的小說知識。研究團隊隨之決心找出 GPT-4 閱讀的數據,展開研究工作。
團隊採用名為「名字填充題」(a name cloze)的小遊戲,以確認 GPT-4 閱讀了哪些書籍。用作測試的小說作品多達數百本,最早可追溯至 1749 年。研究人員從小說抽取不同選段,然後刪除其中的角色名字,再要求 AI 自行填充,從而判斷 AI 對作品的熟悉程度。
最終發表的論文指出,AI 最熟識的 50 本書當中,既有經典名著,也有當代流行讀物,如赫胥黎(Aldous Huxley)的反烏托邦小說「美麗新世界」(Brave New World)、愛特伍(Margaret Atwood)的名著「使女的故事」(The Handmaid’s Tale)、近年再度改編成真人版電影的赫伯特(Frank Herbert)鉅著「沙丘」(Dune)等。書單的首 10 位如下:
- J.K. 羅琳「哈利波特-神秘的魔法石」(Harry Potter and the Philosopher’s Stone)
- 奧威爾「1984」
- J.R.R. 托爾金「魔戒首部曲:魔戒現身」(The Lord of the Rings: The Fellowship of the Ring)
- E.L. 詹姆絲「格雷的五十道陰影」(Fifty Shades of Grey)
- 蘇珊.柯林斯「飢餓遊戲」(The Hunger Games)
- 威廉.高汀「蒼蠅王」(Lord of the Flies)
- 道格拉斯.亞當斯「銀河便車指南」(The Hitchhiker’s Guide to the Galaxy)
- 阿切貝「這個世界土崩瓦解了」(Things Fall Apart)
- J.R.R. 托爾金與克里斯托夫.托爾金的「精靈寶鑽」(The Silmarillion)
- 雷.布萊伯利「華氏 451 度」(Fahrenheit 451)
結果顯示,GPT-4 閱讀大量科幻、奇幻和經典文學作品,其中科幻小說所佔比重相當顯著,相信與訓練數據源於網絡文化有關。值得注意是,當中有部分是受版權保護的書籍,但這些細節往往不被公開,是今日各類 AI 侵犯版權爭議的源頭。與此同時,GPT-4 閱讀的主要都是英美文學,這既可能與研究團隊的選材有關,同時可能直接反映英美網絡的文化偏好。
這些特定文學類型構成的偏見,對 AI 模型的行為有多大影響,仍然有待研究。Bamman 推斷,文學類型的選擇肯定影響 AI 呈現的價值觀,例如一味閱讀美國小說家戈馬克.麥卡錫(Cormac McCarthy)的著作,AI 就可能會表達活著是慘淡的、現實是殘酷的。如今 AI 被證實鯨吞大量反烏托邦和科幻著作,在敘事能力及文學知識以外,究竟會構成甚麼行為差別,Bamman 坦言對此「還有很多研究工作要做」。
美國商業新聞網 Business Insider 記者 Adam Rogers 則相信,科幻、奇幻和恐怖小說能夠開拓不同的可能,如科幻經典「沙丘」大量談及宗教與革命、古典奇幻的「魔戒」是以田園主義抗衡工業化、反烏托邦的「使女的故事」暗示性別主義和法西斯主義有相似特質。這些都會決定 AI 對不同詞彙的聯想,混和出一套世界觀。
書展推介
今年香港書展,*CUP 媒體決定加點奇想,由毛孩帶路,到香港各處遊玩,尋找香港的僅餘或正在消失的味道。我們希望在 7 月 19 日至 25 日的會展中,讓你見到我們的小小心思,以及大大的動物。
巨大化動物
以可愛動物為主,置身於香港各區地標,定必令人重新閱讀香港。
味緣香港
前「飲食男女」執行編輯呂嘉俊,追回從前香港叉燒、打冷魷魚等美食的前世,找出食物來到香港的變遷,從味道寫出香港情。
紙上繁花
非一般的遊記,一場場深度文化之行
與故宮專家同遊中國內陸、日本京都、美國加州、紐約
- 日期:7 月 19 至 25 日(星期三至星期二)
- 地點:灣仔會展 1A-E12 攤位