從統計學看文學

A+A-

文字風格向來縹緲,合則有,不合則無,難以從遣詞造句例子判斷;話雖如此,將統計應用於文學,仍然有其獨到發現。

美國統計學者 Ben Blatt 將數據整理套用於文學分析,由此概括各大作家的寫作偏好。

美國記者 Ben Blatt 新作 Nabokov’s Favourite Word Is Mauve: What the Numbers Reveal About the Classics, Bestsellers, and Our Own Writing 便是一本文學資料統計大全,分類收集各種數據:作家最愛用哪些字?誰人最多陳腔濫調?最常用副詞和感嘆號又是誰?諸如此類。統計或者不能透視風格,但對作家偏好仍可略窺一二

例如,書名斷言「蘿莉塔」(Lolita)作者、俄裔美國作家納博科夫(Vladimir Nabokov)最愛用「木槿紫」(mauve)一字,背後有何根據?統計學者 Ben Blatt 先設計出一套電腦程式,以此爬梳上千本經典名作,並歸納出每位作家最常用的僻字(cinnamon words),結果發現,納博科夫多本小說用「mauve」一字 44 次之多。納博科夫之所以對顏色字眼情有獨鍾,或因其有「聯覺」(synesthesia),當接觸某些字眼或聲音,會令其「看見」特定顏色。納博科夫用顏色字眼的次數比一般作家多出 4 倍,並不意外。

所謂「作家偏愛字眼」,首先必須比一般作者更頻繁地使用,Ben Blatt 借用由 1810 年到 2009 年間共 385 萬字英文文庫,由此比較得出。另外,還須符合 4 項判別標準:必須出現於過半數作品;比率以每 10 萬字計;字眼不可過分冷僻;不屬專有名詞。從結果看,最愛字眼的確透露出作家某些偏好或故事情節。

作家筆耕既繁,難免會有冗詞贅語甚或陳腔濫調。Ben Blatt 借 2013 年版「陳腔濫調字典」(Dictionary of Clichés),整理了各作家使用陳腐字句的情況。「最俗套作家」為暢銷懸疑驚慄小說家詹姆斯帕特森(James Patterson),平均每 10 萬字就用 160 次,特別是「信不信由你」(believe it or not)出現在其過半數作品之中。

Ben Blatt 所列數據值得一提的是,最多俗字套語的頭五位作家均是男性,包括大作家如馮內果(Kurt Vonnegut)、魯西迪(Salman Rushdie)和帕拉尼克(Chuck Palahniuk);而末五位則全是女性,譬如吳爾芙(Virginia Woolf)和伊迪絲華頓(Edith Wharton),珍奧斯汀(Jane Austen),所用套語不及首名三分之一。這樣看來,女作家用字似乎較為斟酌。

書中另有考據作家使用副詞和感嘆號的頻率。追求行文簡健的海明威(Ernest Hemingway)最少出動副詞,平均每 1 萬字用 80 次;反而出名討厭副詞的史提芬京(Stephen King)不及行文修飾的厄普代克(John Updike)節制,前者每萬字用 105 次,稍高於後者。至於感嘆號,愛爾蘭大師喬伊斯(James Joyce)用得最慷慨,平均每 10 萬字有 1,105 個,大概每百字用一次,幾乎可與美國總統杜林普相提並論

從統計學看文學,當然無法深入文學的本質,方法學亦不無垢病之處,卻能提供另一角度審視又或補遺,對文學人而言不乏用處,而隨數據技術日益進步,未來或會愈來愈多同類分析。不過,文學的重點始終在於由閱讀而來的感悟;研究永遠不能取代閱讀本身。