我們踏入「語音智能時代」了嗎？

迅速發展的人工智能（Artificial Intelligence）近年正大幅改變我們的生活，先是有日本公司開始以機械人取代人類員工，再有 AlphaGo 第 2 代橫掃棋壇，人類難以匹敵，而這些事例不過是冰山一角——新一期「經濟學人」分析，語音科技（Voice Technology）日趨成熟，我們已踏入語音智能的時代，電腦將會更易操作，滲入人類生活每個細節。

對著空氣、說出「咒語」，然後能知道所想、得到所要——在以前，這只是科幻情節，可是，隨著亞馬遜的 Echo、蘋果的 Siri 和 Google 語音搜尋等辨識系統發展，安坐沙發，透過話語瞬間控制家居電器、播歌、關燈不再是夢，而是逐漸活現眼前的事實。利用語音科學，連傳短訊、發電郵都可以省掉打字過程，只需對著系統說話，人工智能就可自行判別，然後生成語句。「經濟學人」指出，這些看似簡單的語音智能將會為電腦運算掀起巨變。

以往如視窗、選單、圖案、觸碰式屏幕等技術，不過屬於「用家界面」（user interface）的改動，以令用家更容易操作電腦，然而，語音技術卻能令用家跳過「界面」，直接跟電腦下指令。擁有語音智能，鍵盤不再是操作電腦的必須，連屏幕都能省略，電腦可變得更加強大、普及。

不過，「經濟學人」預測，語音並不會全面取替其他電腦輸入模式，因為有時候以打字方式下指令比起說話更好。「經」所言非虛，這也是 Facebook 創辦人朱克伯格在編程出智能管家 Jarvis 後的兩個感想：一、他可用語音或短訊向 Jarvis 下指令，但出乎意料，他更常採用短訊命令，因為這減少對身邊人的影響，更得體；二、Jarvis 可用語音或短訊與他交流，但他偏好接收短訊，因為短訊不必即時閱讀，語音卻會立刻聽到。

儘管如此，語音智能仍會是科技大勢，人們藉著語音智能，可以與周邊科技有更多交流。然而，要充分發揮語音智能的潛力，還需多方面的科技突破：

理解力：語音辨識系統在多年前早已發展，但這些系統始終不太可靠、需要長時間訓練才能學習用家的聲音。現在，「深層學習」（Deep Learning）技術日漸成熟，人工智能可從大數據中自行學習，使電腦開始理解到人類的日常語言。不過，語音智能要方便生活，則不能似 Siri 般的指令形態，而是必須有分析語境、真正雙方溝通的能力。

個人化：要語音智能發揮最大功能，減輕人類的生活繁瑣負擔，單純倒模生產出的語音智能並不足夠，反而辨識系統需要「個人化」，與用家的說話模式、文化貼近，更要連結用家各種個人資料，如日程表、電郵信箱等。

私隱：可是，當語音智能與其他私隱扣連，掌握語音智能數據庫的公司將擁有如政府級數的個人資料。另外，當軟件公司 Adobe 推出有音訊界 Photoshop之稱的「Voco」，人們可隨意修改音訊之時，只用語音控制所有家電、協助工作是否安全？這些網絡安全問題，亟需解決。

這些科技問題難以解決，花了 100 小時建造 Jarvis 的朱克伯格亦坦言：除非人工智能技術取得關鍵突破，否則多花 1,000 小時，也應不能建造一套完全自行學習的系統。無論如何，朱克伯格也好、「經濟學人」也好，對於語音智能（及更大範疇的人工智能）的未來相當樂觀——電腦將會更加普及，協助人類日常生活，甚至與我們溝通交流。

我們踏入「語音智能時代」了嗎？

相關新聞

Percy Leung：If Every London Tube Line Were a Piece of Classical Music —— Part 5

2023 回顧：AI 如何影響我們聽的歌？

科技進步，天氣預報也更精準貼身

阿爾特曼回歸了，OpenAI 發展卻有根本變化

AI 的電子鼻怎麼測出壞食物？

OpenAI 董事會，管治問題出在哪裡？

亂局持續，OpenAI 下一步走向何方？

四日內變天：了解 OpenAI、微軟和阿爾特曼的關係

熱門文章

移居菲律賓後的珍寶海鮮舫，究竟有甚麼遭遇？

洗衣機人類學：英國人的洗衣機為何要放廚房

社會主義和共產主義，有甚麼分別？

Hoka 與 On 的崛起，Nike 創新不再？