談到 AI 造圖,很多人都知道 Deepfake,但過去一年湧現的多個 AI 程式,已經將造圖提升到前所未有的新層次。由 Disco Diffusion、Midjourney 到 DALL·E 2 測試版,用家只要輸入連串文字,便能夠無中生有多幅圖像,由大師風格的畫作到紀實風格照片全都能應付。這場 AI 造圖的軍備競賽,遠遠還沒有停下來的跡象。
故事可以從 2015 年說起,當年 AI 技術的突破,在於程式可按照片內容,自動生成文字描述。按美國媒體 Vox 指出,當時有研究人員就好奇,是否可以倒轉過來以文字自動生成照片。他們的野心不止於 Google 圖片搜尋,而是企圖以文字無中生有一幅全新圖像。
進行研究的 Amazon Web Services 應用科學家 Elman Mansimov 受訪指出,美國校巴基本上都是黃色的,研究人員就嘗試以「一輛停泊在停車場的綠色校巴」(A green school bus parked in a parking lot)的文字描述,指令 AI 無中生有一張圖片。當時 AI 只能夠製造 32 x 32 像素的微小圖像,但這份 2016 年發表的論文,足以證明 AI 造圖的潛力。
2021 年 1 月,由 Elon Musk 支持的人工智能研究公司 OpenAI 宣佈,文字自動造圖 AI 程式 DALL·E 終於誕生,名字來自超現實主義藝術家達利(Salvador Dalí)與 PIXAR 動畫電影 WALL-E 的結合。但 OpenAI 沒有正式公開程式,於是過去一年間,獨立的 Open Source 開發人員就利用「預訓練模型」(Pre-Trained Model),自行開發文字造圖 AI 程式,供網民免費使用。
一年內不斷被超越的 AI 技術
Disco Diffusion 是熱門的程式之一,造圖需時幾分鐘到半小時不等,用家要面對大量程式碼,使用門檻較高;後起的 Midjourney 門檻相對低,搭載在社交平台 Discord 群組,透過 Bot 把文字轉換成圖像,造圖時間只要 60 秒;DALL·E mini 的使用門檻更低,建立在 AI 社群平台網站 Hugging Face,用家只要有瀏覽器即可使用,但畫面質素不如前兩者。
直到今年 4 月,OpenAI 宣佈研發改良版 DALL·E 2,有別於其他造圖工具以模仿不同畫風為主,DALL·E 2 可生成仿如新聞照片的寫實圖像,不但速度快,還可要求局部修圖,目前被公認為性能最好。但程式尚在研究階段,造圖過程仍可能出現嚴重錯誤,測試版目前僅有限度供預選的用家試用。
這場競賽遠遠未結束,Google 人工智能專案團隊 Brain Team 在 5 月底發表論文,證明其 AI 造圖程式 Imagen 更勝 DALL·E 2,標榜生成更逼真的照片,而且圖像質素更高。Imagen 宣傳照片以擬人的可愛動物作招徠,但目前仍未開放應用。
2018 年,曾經有 AI 人像畫面世,以 43.2 萬美元成交,及後都有一系列類似的 AI 作品誕生。當時投入這股熱潮的藝術家 Mario Klingemann 向 Vox 解釋,其時要製作 AI 人像畫,必先收集大量人像畫數據,再自行訓練 AI 模型,同樣的模型亦不可能繪製風景畫。但過去一年湧現的 AI 造圖程式已突破局限,你只要把想像轉化成文字,餘下工序都可由 AI 代勞。
CUP 出版 @ 香港書展 2022
不論是寫還是讀,文字能抒發人的心情,也能紀錄時代掠影,在今個夏天尋書香,就是我們能捕捉的小小歡悅。CUP 媒體準備了多本好書待讀者發掘,更有精美周邊產品,不容錯過!
- 7 月 20 至 26 日(星期三至星期二)
- 灣仔會展 1B-E31 攤位