「AI 造圖」軍備競賽的最新戰況

A+A-
利用 DALL·E 2 生成的圖像,背後的文字描述分別為「以逼真風格描繪太空人在熱帶度假勝地消閒」和「泰迪熊在古埃及買雜貨」。 圖片來源:DALL·E 2

談到 AI 造圖,很多人都知道 Deepfake,但過去一年湧現的多個 AI 程式,已經將造圖提升到前所未有的新層次。由 Disco DiffusionMidjourneyDALL·E 2 測試版,用家只要輸入連串文字,便能夠無中生有多幅圖像,由大師風格的畫作到紀實風格照片全都能應付。這場 AI 造圖的軍備競賽,遠遠還沒有停下來的跡象。

故事可以從 2015 年說起,當年 AI 技術的突破,在於程式可按照片內容,自動生成文字描述。按美國媒體 Vox 指出,當時有研究人員就好奇,是否可以倒轉過來以文字自動生成照片。他們的野心不止於 Google 圖片搜尋,而是企圖以文字無中生有一幅全新圖像。

進行研究的 Amazon Web Services 應用科學家 Elman Mansimov 受訪指出,美國校巴基本上都是黃色的,研究人員就嘗試以「一輛停泊在停車場的綠色校巴」(A green school bus parked in a parking lot)的文字描述,指令 AI 無中生有一張圖片。當時 AI 只能夠製造 32 x 32 像素的微小圖像,但這份 2016 年發表的論文,足以證明 AI 造圖的潛力。

2021 年 1 月,由 Elon Musk 支持的人工智能研究公司 OpenAI 宣佈,文字自動造圖 AI 程式 DALL·E 終於誕生,名字來自超現實主義藝術家達利(Salvador Dalí)與 PIXAR 動畫電影 WALL-E 的結合。但 OpenAI 沒有正式公開程式,於是過去一年間,獨立的 Open Source 開發人員就利用「預訓練模型」(Pre-Trained Model),自行開發文字造圖 AI 程式,供網民免費使用。

Midjourney 透過「薄霧、樹屋建築、3D、8K 解像度、細緻的數碼插畫、蒸汽龐克」描述生成的 AI 畫作。 圖片來源:midjourney/Twitter

一年內不斷被超越的 AI 技術

Disco Diffusion 是熱門的程式之一,造圖需時幾分鐘到半小時不等,用家要面對大量程式碼,使用門檻較高;後起的 Midjourney 門檻相對低,搭載在社交平台 Discord 群組,透過 Bot 把文字轉換成圖像,造圖時間只要 60 秒;DALL·E mini 的使用門檻更低,建立在 AI 社群平台網站 Hugging Face,用家只要有瀏覽器即可使用,但畫面質素不如前兩者。

直到今年 4 月,OpenAI 宣佈研發改良版 DALL·E 2,有別於其他造圖工具以模仿不同畫風為主,DALL·E 2 可生成仿如新聞照片的寫實圖像,不但速度快,還可要求局部修圖,目前被公認為性能最好。但程式尚在研究階段,造圖過程仍可能出現嚴重錯誤,測試版目前僅有限度供預選的用家試用。

這場競賽遠遠未結束,Google 人工智能專案團隊 Brain Team 在 5 月底發表論文,證明其 AI 造圖程式 Imagen 更勝 DALL·E 2,標榜生成更逼真的照片,而且圖像質素更高。Imagen 宣傳照片以擬人的可愛動物作招徠,但目前仍未開放應用。

2018 年,曾經有 AI 人像畫面世,以 43.2 萬美元成交,及後都有一系列類似的 AI 作品誕生。當時投入這股熱潮的藝術家 Mario Klingemann 向 Vox 解釋,其時要製作 AI 人像畫,必先收集大量人像畫數據,再自行訓練 AI 模型,同樣的模型亦不可能繪製風景畫。但過去一年湧現的 AI 造圖程式已突破局限,你只要把想像轉化成文字,餘下工序都可由 AI 代勞。

CUP 出版 @ 香港書展 2022

不論是寫還是讀,文字能抒發人的心情,也能紀錄時代掠影,在今個夏天尋書香,就是我們能捕捉的小小歡悅。CUP 媒體準備了多本好書待讀者發掘,更有精美周邊產品,不容錯過!

  • 7 月 20 至 26 日(星期三至星期二)
  • 灣仔會展 1B-E31 攤位