新媒體端傳媒宣布大幅度裁員,有人慨嘆有深度的媒體難以經營,有人認為市場本是汰弱留強,沒有甚麼值得可惜。近年香港的新媒體百花齊放,但仍在起步階段,端傳媒是少數認真看待數據的媒體,過去有不少印象深刻的數據專題,例如用聲音表達氣候變化的香港氣溫狂想曲、利用立體打印讓視障人士感受資訊圖表,都是從其他媒體難以看到的構思。端傳媒並非唯一一間製作數據新聞(Data Journalism)的媒體,但它聘用數據工程師專責數據推動的新聞產品,這個部署肯定是市場的少數。
在香港製作數據新聞並不容易。要從大量數據中分析有用資訊,除了要有專業的記者和編輯找到新聞角度,亦需要優秀的技術人員去思考數據結構。數據工程師在香港並不多,但在大數據潮流下,人才不是最大的挑戰,反而最令媒體頭痛的是數據的來源。開放數據是數據新聞的重要一環,而不幸地擁有最多準確數據的香港政府卻在這方面態度消極、立場保守。
「資料一線通」是政府刊登開放數據的網站,它聲稱擁有 6,000 多項資料,但當中有大量重覆內容(例如不同語言版本的相同數據),實際只有 2,000 多項資料,涵蓋運輸、城市管理、發展等 18 個範疇,不難想像每個範疇只有少量資料可供使用。另外,「資料一線通」提供的數據不少是「次級格式」的 Excel 檔案而非 JSON、XML 或 CSV 等「一級格式」版本,打開 Excel 檔案會發現「跨欄置中」、隨意安插的文字說明,對人類來說這些排版和說明有助閱讀資料,但對程式來說是極不便利的做法。由於每份資料都有不同的排版,往往要手動把資料轉換成程式可讀的格式。如果要處理大量資料就要花上龐大的時間成本,對分秒必爭的傳媒行業來說是不明智的做法。
最理想的做法,是利用一級格式發放數據,並製作便利於應用程式使用的「應用程式介面」(Application Programming Interface, API)。API 容許開發人員編寫程式時設定各種參數,只領取對應用程式有用的數據,政府亦因而得知市民較常用的數據類型,從而改善數據的品質。反過來說,傳媒亦應積極考慮把部分內容用 API 形式開放,例如紐約時報提供文章搜尋、書評、影評等 API,讓公眾掌握更多數據和發展數據的潛能,從中媒體亦可深入了解讀者的喜好,建立更具價值的社群和內容。
提升開放數據的品質不但有助數據新聞的發展,亦是智慧城市的基石,這方面本欄過去亦一再討論。外國近年提倡政府數據是「公共資源」,除非涉及個人私隱等敏感資料,否則應該全部開放。可是香港的官員在相關方面的知識仍然困乏不足,認為只要數據在運輸署的應用程式及網頁開放給市民,已等同開放數據。這亦間接鼓勵私營企業維持現狀,阻礙真正智慧城市的發展。也許官員們應該讀一讀紐約時報在網站解釋向公眾提供 APIs 的原因,其實開放數據並非普通的科技潮流,而是真正具社會價值的重要政策:
Like many organizations, we hope to encourage innovation through collaboration. When you build applications, create mashups and otherwise reveal the potential of our data, we learn more about what our readers want and gain insight into how news and information can be reimagined. We’re hoping you’ll show us what’s next for The Times.
But we also have a simpler, more compelling reason: journalism. To inform the public or tell a story, we use articles, photos, videos, interactive graphics, slideshows and more. Data has always been the primary force behind those features, and now it can become a feature in its own right. Our APIs help us fulfill the newspaper’s journalistic mission by putting more information in the hands of the public — and they also expand that mission by giving users the ability to find and tell their own stories.