我們踏入「語音智能時代」了嗎?

A+A-

迅速發展的人工智能(Artificial Intelligence)近年正大幅改變我們的生活,先是有日本公司開始以機械人取代人類員工,再有 AlphaGo 第 2 代橫掃棋壇,人類難以匹敵,而這些事例不過是冰山一角——新一期「經濟學人」分析,語音科技(Voice Technology)日趨成熟,我們已踏入語音智能的時代,電腦將會更易操作,滲入人類生活每個細節。

對著空氣、說出「咒語」,然後能知道所想、得到所要——在以前,這只是科幻情節,可是,隨著亞馬遜的 Echo、蘋果的 Siri 和 Google 語音搜尋等辨識系統發展,安坐沙發,透過話語瞬間控制家居電器、播歌、關燈不再是夢,而是逐漸活現眼前的事實。利用語音科學,連傳短訊、發電郵都可以省掉打字過程,只需對著系統說話,人工智能就可自行判別,然後生成語句。「經濟學人」指出,這些看似簡單的語音智能將會為電腦運算掀起巨變。

在 Mac 上的語音智能 Siri。
在 Mac 上的語音智能 Siri。
亞馬遜的語音智能 Echo。
亞馬遜的語音智能 Echo。

以往如視窗、選單、圖案、觸碰式屏幕等技術,不過屬於「用家界面」(user interface)的改動,以令用家更容易操作電腦,然而,語音技術卻能令用家跳過「界面」,直接跟電腦下指令。擁有語音智能,鍵盤不再是操作電腦的必須,連屏幕都能省略,電腦可變得更加強大、普及。

不過,「經濟學人」預測,語音並不會全面取替其他電腦輸入模式,因為有時候以打字方式下指令比起說話更好。「經」所言非虛,這也是 Facebook 創辦人朱克伯格在編程出智能管家 Jarvis 後的兩個感想:一、他可用語音或短訊向 Jarvis 下指令,但出乎意料,他更常採用短訊命令,因為這減少對身邊人的影響,更得體;二、Jarvis 可用語音或短訊與他交流,但他偏好接收短訊,因為短訊不必即時閱讀,語音卻會立刻聽到。

儘管如此,語音智能仍會是科技大勢,人們藉著語音智能,可以與周邊科技有更多交流。然而,要充分發揮語音智能的潛力,還需多方面的科技突破:

理解力:語音辨識系統在多年前早已發展,但這些系統始終不太可靠、需要長時間訓練才能學習用家的聲音。現在,「深層學習」(Deep Learning)技術日漸成熟,人工智能可從大數據中自行學習,使電腦開始理解到人類的日常語言。不過,語音智能要方便生活,則不能似 Siri 般的指令形態,而是必須有分析語境、真正雙方溝通的能力。

個人化:要語音智能發揮最大功能,減輕人類的生活繁瑣負擔,單純倒模生產出的語音智能並不足夠,反而辨識系統需要「個人化」,與用家的說話模式、文化貼近,更要連結用家各種個人資料,如日程表、電郵信箱等。

私隱:可是,當語音智能與其他私隱扣連,掌握語音智能數據庫的公司將擁有如政府級數的個人資料。另外,當軟件公司 Adobe 推出有音訊界 Photoshop之稱的「Voco」,人們可隨意修改音訊之時,只用語音控制所有家電、協助工作是否安全?這些網絡安全問題,亟需解決。

這些科技問題難以解決,花了 100 小時建造 Jarvis 的朱克伯格亦坦言:除非人工智能技術取得關鍵突破,否則多花 1,000 小時,也應不能建造一套完全自行學習的系統。無論如何,朱克伯格也好、「經濟學人」也好,對於語音智能(及更大範疇的人工智能)的未來相當樂觀——電腦將會更加普及,協助人類日常生活,甚至與我們溝通交流。