跟 ChatGPT 聊天的機械人,會進化成怎樣?

A+A-
Google 新推出的機械人 RT-2,外形類似彼思動畫「太空奇兵.威E」(WALL-E)角色伊芙(EVE)。 圖片來源:Google DeepMind

一個單臂機械人站在桌子前,桌上有獅子、鯨魚及恐龍 3 個塑膠玩具。工程師發出指令:「撿起絕種動物。」機械臂徐徐抓住了恐龍。

過往,實體機械人不太能掌握不認識的東西,亦難以將塑膠恐龍跟絕種動物聯繫起來。據「紐約時報」報道,Google 的新機械人已應用推動 ChatGPT、Bard 等聊天機械人發展的大型語言模型(Large language model),突破舊有限制,更可透過大量互聯網文本持續學習。

Google 最近的項目,就以目前最先進的語言模型充當機械人大腦,令新機型 RT-2 變得更加聰明,能進一步理解及解決問題。加州大學柏克萊分校機械人學教授 Ken Goldberg 表示,機械人尚未如人類靈活,無法完成一些基本任務;但 Google 使用 AI 語言模型,為機械人注入新的推理及即興創作能力,會是非常有潛力的突破。他說:「將語義學與機械人聯繫起來,實在令人印象深刻。對機械人技術而言是非常令人興奮的進展。」

擺脫不斷以人力編程的限制

多年來,各公司大多利用特定指令列表為機械人編程,然後讓機械人不斷練習,工程師會一直調整指令直到它們能正確完成任務。然而這種方式訓練出來的機械人用途有限,而且過程既緩慢又費力,需透過在現實世界測試收集大量數據。一旦它們要執行新的工作,工程師又必須再編程。

近年,Google 的研究人員開始思考機械人可否也使用 AI 語言模型,透過大量互聯網文本學習新技能,取代為不同任務逐一編程的做法。公司的研究科學家 Karol Hausman 表示:「我們約在兩年前著手研究這些語言模型,然後意識到它們蘊含豐富知識,所以開始將其連接至機械人。」公司的首個相關嘗試 PaLM-SayCan 項目,去年公佈時曾引起關注,但用途始終有限。一方面機械人缺乏讀解圖像的能力,而且雖然能為不同任務撰寫步驟,卻無法轉化為行動。

更多功能的實體機械人

來到 Google 的新型機械人 RT-2,已是能融合「視覺-語言-動作」的模型,AI 系統不僅能看到和分析周圍世界,還能告訴機械人該如何移動。RT-2 通過將機械人動作轉換為一系列數字,即標記化(Tokenizing),再將標記結合語言模型的訓練數據,以驅動機械人。

最終,就像 ChatGPT 或 Bard 學會猜測一首詩或歷史文章接下來會出現的詞一樣,RT-2 可以估算機械人的手臂應該如何移動,以撿起球或將空汽水罐扔進回收桶。研究人員相信,配備新語言模型的機械人不再是不切實際的把戲,未來更可用於倉庫、醫療,甚至作家庭助理,可以摺衫、從洗碗機中取出餐具、在房子周圍收拾等。

不過機械人愈來愈聰明,不禁令人擔心「智能叛變」終會成真。Google 方面則表示,除了每個機械人背面都有一個可隨時按停的紅色大按鈕外,系統還使用傳感器以避免撞到人或物體。RT-2 內置的人工智能軟件亦會防止機械人做出任何有害之事,例如經訓練後 RT-2 不會拿起裝有水的容器,因為水溢出的話,可能會損害其硬件。