書評》聽吧,具備革命品格的靈魂!──21世紀還需要或配得佛洛姆嗎?

人本主義精神分析心理學家佛洛姆(Erich Fromm)給世人留下「藝術三部曲」:成書最早且備受傳頌的《愛的藝術》(1956);於1980年去世前未能完筆,主要探討精神分析技術的《聆聽的藝術》(1994);以及從《擁有還是存在?》(1976)中撤下一大部分卻無法等到他親自修訂,最終由助手芬克(Rainer Funk)編輯出版的《存在的藝術》(1993)。

要懂得愛,人必須全心聆聽彼此作為人的存在,此存在指向肉血之軀裡的靈魂(seele)。有一種關於靈魂何時才與肉身結合的神學爭論,即人何時才成為真實意義上的人。是受精的當下?還是出生的瞬間?某位神祕主義者說過,靈魂不是給定的,人需要拚命追尋它,方能成為真人。多年來我一直沉思,這「靈魂」及其「追尋」之道是指什麼?

佛洛姆在《存在的藝術》以經驗繪製一套「邁向存在的步驟」──引導人追尋靈魂──的方針,讀者或許疑惑他怎麼一開章便毫不留情地對當時社會的諸多現象,好比自戀、公關、官僚、猥褻、商業化、虛榮自欺等,作出批判!彷彿平日就多產的佛洛姆在年邁之際,變得更迫切要為世人宣講救贖之道。如果邁向存在的步驟是去執行某種貫穿創造性自我覺察的精神價值,我認為用佛洛姆所說的「革命品格」(revolutionary character)最為適切。

➤在「大作偽」時代尋覓革命品格的靈魂

「革命」一詞,指向人的心理無法與社會或政治分割,兩者是互相構成的,人的改變難以完全獨立於所處的環境。對社會作出批判,目的是為改變人的心靈結構。這種追求存在樣態之全方位解放的革命,佛洛姆定義為激進的人本主義或革命的人本主義。

至於革命的「品格」,意謂此人是的說是,非的說非,他以批判的情緒來思考、感受、回應,因為其人性(humanity)是統一的(human-unity)。但他絕非某類什麼都挑剔一番的批評家,佛洛姆說的,是一種對現實的洞察、對價值的品味,一種與墮落的世道唱反調的先知情懷,即註定隨時被主流、商人與政治正確視為異端之覺醒與鑑賞態度,堅守真誠的格調。如此,我們便會理解為何追尋靈魂、邁向存在之道所要掃除的障礙,得從「大作偽」(great shams)談起!

「大作偽」是一種人們迷醉於權力和名望,把自己商品化,成為虛有其表、名不副實的次貨或假貨,卻被金飾包裝之資本市場氣候。

在網路資訊零秒差的世代,我們看見世界各地都泛起一波被影像催眠的「自戀瘋潮」。那些以怪誕、無聊、低俗、荒唐作展演的人們,無疑在個人層面沉溺於暴露癖(exhibitionism)的幼兒式滿足,但別以為這是在影音平臺興起後才獨有的現象,事實是,人們在社會層面亦潛意識地奴役於利益掛帥的資本結構的主人,交易規則是性、攻擊、愚蠢、犯法等的流量密碼,獎賞則是金錢、凝視、自爽、全能且理想的自戀自畫像。

與此同時,佛洛姆亦批判對「大作偽」無批判的追捧者,他們把欲望投射到理想的他者身上,後者則收割自戀的養分來演出,兩造的互相買單保證了主奴階級結構的複製。值得警醒的是,即便是受過高等教育的人士,也往往是無法鑑別真偽的常客,沒有能力看破一些紅人、博士或專家在本質上仍是缺乏人性經驗,只會把知識拼拼貼貼的贗品。

只需配上一點誇飾的才情,或是屬於帥哥美女一掛,他們便自捧或被捧為偶像名家。臉皮夠厚的人之浮誇或賣弄可憐,尚能騙過內行人,那試問外行人又怎麼會分辨呢?難怪佛洛姆在書中批判了他那年代的心靈解放運動,有時候靜坐、瑜伽、正念只是讓人感受良好,卻無法帶來實質改變的商業行為,那些老師下課後亦不過是位焦慮的商人罷了。

為此,大作偽的一端是「舢舨充炮舨」的包裝與行銷,另一端則是「魚目當珍珠」之鑑賞能力與品味的麻木。佛洛姆書中寫道「自覺和有意的作偽固然有害,但對社會更具危害性的,是當事人自己深信不疑的贗品」,這不就是今天人人都是自己老闆的網紅與自媒體的網路世界的寫照嗎?換言之,具革命品格者是有能力作自我批判的,他時刻反思自己的真是否當真。反之,人若失去此能力,為獲取流量與關注而急於作偽,他便真的無比自信與成功──在無知與自戀方面。

➤對「為什麼不」及「不勞可獲」的不服從

革命品格也被佛洛姆視為能夠「不服從」(disobedience)的美德。試問今天誰在主流、權威、政治正確面前,敢於說「不」呢?當我們說「不服從」時,就代表我們「服從」另一個原則、價值、良心、人性。這就是《瑪竇福音》所說:「沒有人能事奉兩個主人:他或是要恨這一個而愛那一個,或是依附這一個而輕忽那一個,你們不能事奉天主而又事奉錢財」(6:24)。要是堅持清醒地追尋靈魂,人便不可能玩世不恭地隨意行事,這教人值得思考佛洛姆對「性自由」的批判理由。

性自由赦免了性欲的罪與罰,讓人以接納而非拒斥的態度去面對自己的身體,喚回女性的主體性,修復性少數的創傷。然而,隨之而來的性解放或性氾濫,即人們誤以為自己活於如何使用身體純屬自家事務的自由中(如透過網路展示自己的性器的自豪,想約砲就約,更刺激的還可以換伴或群交),卻不知不覺被自戀和商業化的自我所奴役,將自身的「物化」再加以「性化」,並用一句「為什麼不?」(Why not?)合理化所有行徑。

試想像,佛洛姆正邀請活在享樂至上時代的我們,在解下褲頭前先自問:「我這樣做是為了什麼呢?是什麼在驅使我行動?是動物般的快感與揮霍?是透過不斷『擁有』來滿足的自戀?還是逃避真實的情感?」

精神分析思維的獨到且常被詬病之處,在於它並不只看事情的好處,同時也謹慎於它可能的危害。佛洛姆指出性解放只達到「隨興」(感官)而非「意志」(思考)的自由,若不對「為什麼不?」提出反問,那服從性解放的人們便向社會傳遞一套肉慾主義。等到年華老去,人們只找到情感不忠的伴侶、性與愛的斷裂、被鮮肉鄙視的老肉般的自己……他們成為自我加害的受害者,即使無奈,這就是事奉「為什麼不?」下的社會共業。

另一種邁向存在的共業障礙,是「不勞可獲」的妄念。人類潛意識深處有一股嬰兒全能感的惰性,因為他曾服從於不用勞動、無需思考就能獲得照顧的自戀。為此,佛洛姆若還在世,相信他除了會驚嘆今天AI(人工智慧)所帶來的助益,亦必提防於這般幼兒式自戀所挾持的惡果:人們將放棄作為人的尊嚴,即那種血、肉、汗水的人性與付出,卻透過AI來為無止境的貪婪套上面具,加劇大作偽時代的虛幻與瘋狂,更遑論AI技術的利益背後,藏匿著隨時反噬人類文化與心智的「無汗病毒」。

人本主義精神分析之所以不斷分析社會結構和政治意識,在於人往往不知道心底服從了什麼,又使生物驅力的運作被改頭換面。心理學的目標應該是去消除人類在大作偽下建構的錯覺與誤識,由此,「要邁向存在的藝術,最重要的步驟,是學習能夠提升覺察能力和批判性思維的一切方法」,以獲得人類邁向存在(human-being)的真正知識,而這修習之路的成敗,無關智力、教育程度或年紀,卻取決於求真、鑑識、不服從、愛生命的品格。

➤身處「愛─聆聽─存在」的迴圈:你想如何存在?

「現代人是孤獨的、恐懼的,缺乏愛的能力。他想要親近鄰人,但他與鄰人的關係實在太無關且疏遠,而無法親近」,為逃離孤獨,人們把快感、利益、知識,當作愛的替代品。就像《小王子》裡收集各種書籍的地理學家,他以為自己擁有天與地,卻從未投身世界去探險。

然而,那流淌於佛洛姆血液裡的猶太、基督和晚年涉獵匪淺的東方宗教精神,即使理論的核心置於追求真理、超越與提煉層面,但不也註定了他把聖與俗、善與惡作簡化的二分,把世俗之人評為還未覺醒的弱者,還滲透出先知情懷不可免的控制欲?按哈佛大學教授弗里德曼(Lawrence Friedman)的觀點,佛洛姆作為一位反抗者,其性情和行為的變化都可用「激情(輕率)、憂鬱(自戀)、邊緣(古怪)」來理解,那麼「革命品格」者在大眾眼裡呈現的樣貌,是否映照的是佛洛姆自我修復後的創傷遺跡?

作為臨床工作者,我擔憂若把社會學的濾鏡開太大,而輕忽原生家庭、個人體質與成長經歷之間的互動式影響,再有力的社政分析也會顯出疲態。尋求心理治療的人們之生命困苦,總有著個人化的複雜構成與脈絡。對我而言,佛洛姆的社會式精神分析是「有耳的,聽罷!」(瑪竇,11:15)的先知式呼喚,讓準備好孤獨地走進荒野、具革命品格的勇士,去追尋靈魂。

顯然,《存在的藝術》是帶有宗教理想的普世宣道,叫無法深愛(《愛的藝術》)又未能透過精神分析(《聆聽的藝術》)得到革新的人:不能再逃避!砍掉重練吧!

同一個迴圈的另一方向是,當世人早已排拒或延後追尋靈魂,或在服從社會結構的潛意識時跌倒,便在受苦時轉向精神分析。而不論治療是有效,失敗,或剛好此生沒有緣分走進諮商室,追尋靈魂的道路仍會落在人世間最尋常的愛與情的修習之中(專注、紀律、耐心、無上關注)。

佛洛姆的理念也許在今日不太能討好社會主流和年輕世代,我僅盼望這次追尋能幫助讀者在難以撼動結構的城市裡,藉著思考「我想如何存在?」而找到醒悟與轉化的契機,並仍舊值得平凡的幸福。

quan_qiu_hua_de_shi_dai_w300.jpg 存在的藝術:
藉由創造性自我覺察,實踐生活的藝術,達到真正的快樂與幸福

The Art of Being
作者:埃里希.佛洛姆(Erich Fromm)
譯者:梁永安
出版:木馬文化
定價:400元
內容簡介

作者簡介:埃里希.佛洛(Erich Fromm, 1900-1980)

二十世紀著名社會心理學家和哲學家,是精神分析文化學派中對現代人的精神生活影響最大的學者。他擅長以社會學角度看待現代人的心理與行為,試圖以人本主義精神分析理論來改善現代人的處境和精神狀態,同時也是人文主義倫理學的倡導者。

佛洛姆的理論調合佛洛伊德的精神分析和馬克思的社會批判,綜合人學的微觀與社會學的宏觀面向,是現代美國心理學研究獲致重大發展的關鍵性人物。主要著作有《逃避自由》、《自我的追尋》、《愛的藝術》、《健全的社會》、《馬克思關於人的概念》、《人類破壞性的剖析》等,對當代社會心理學的建立影響深遠。

手指點一下,您支持的每一分錢
都是推動美好閱讀的重要力量

2024-01-04 12:00
AI與有聲書.市場篇》建立真人與AI產品區隔,擴大消費者選擇

隨著Amazon開始利用AI技術,提供書籍作者將文字書轉為有聲書出版的服務,一般的想像是,當聲音生成式AI技術越來越成熟,應該有利於降低有聲書居高不下的製作成本。然而,從業界的角度來看,有聲書要能普及,並不是解決成本問題就能達成的。

「2021年出版社很積極對待有聲書,2022的時候看見沒有銷量,它又掉下去了。」Kobo內容部長胡惠君點出,有聲書能不能普及,真正的癥結點在於,如何在有限的市場規模下,尋找到有利可圖的商業模式。

目前有聲書的主流商業模式有兩種:單品買斷與串流訂閱制。這兩種機制,在臺灣有限的市場規模中都面臨各自的問題,而生成式AI能否成為解決這些問題的助力呢?

➤買斷困境:單品成本回收及有聲書出版授權

以單品制有聲書而言,成本回收與授權洽談是2大關鍵。

遍路文化執行長吳巧亮曾透露,《莫斯科紳士》單本有聲書定價499元,需售出140本才可以回本,若上架到其他平臺,抽成一半,則要賣出300本才能回本。有聲書沒有實體書的複製成本,一旦回本,接下來就是「賣一本賺一本」。《莫斯科紳士》是暢銷書,截至2021年賣出了1,500本,因此是成功的投資。

由此可見,單品買斷制來說,目標書籍的選擇是評估的重點。一旦回本,便能成為高毛利商品,反之,若有聲書沒有賣過回本所需數量,就會拖累其他高銷量書籍的利潤。

如何挑選有聲書標的?以《莫斯科紳士》為例,挑選已通過市場考驗的暢銷紙本書,是有效的方法。不過,這種做法也會面臨另一個問題:有聲書的出版授權。

曾任親子天下數位產品內容企劃中心產品長的王昭棠解釋,文字書的出版權和有聲書出版權,是2種獨立的權利。如果要先「讓子彈飛一會兒」,觀察紙本書市場表現後才挑選暢銷書製作成有聲書,則有兩種選擇:一開始便談妥文字和有聲出版權,但文字書不暢銷就不做有聲書;或者,等文字書暢銷後,再去取得有聲書出版的授權。這兩種選擇,也有各自的問題。

「版權費不算最大的問題,挑戰在於溝通。」王昭棠說明,當授權方不能確定有聲書的製作品質是否符合想像跟期待時,便會有許多疑慮。有時出版方甚至必須製作試聽內容,提交給授權方評估。「這樣一來,前期溝通時程會很長。」尤其,當作品是翻譯書,做成有聲書必須向外國出版社取得授權,受限於語言、文化及洽談形式等限制,溝通成本更高。

假若出版社採取同時談妥文字及聲音出版權的策略,則取得授權的期程勢必會比單純出文字書的作業長,因而降低整體書籍上市的速度,更可能出現浪費有聲書出版授權費的風險。而若選擇事後再取得暢銷書的有聲版權,標的書籍身價高、地位重,授權費、溝通成本及製作要求也可能水漲船高。

➤串流訂閱制困境:產品總量不足,難以吸引大量訂閱戶

相較於注重每本都要「中」的單品買斷制,串流訂閱制的商業模式,利用隨選隨聽的消費模式來吸引用戶,更加要求商品的豐富性。

這也是全球最大有聲書平臺Audible的商業模式。目前Audible收錄了超過20萬種書,而在臺灣,主童書產品的親子天下,有聲產品數只有6,000種,成人書平台讀墨、鏡好聽則分別為2,000種與不到1,000種。論類別多元性、數量充足性,臺灣有聲書平臺吸引消費者的能力遠遠望塵莫及。

這樣一來,要收取高額訂閱費來回填有聲書製作及平臺的架設成本?還是降低訂閱費來增加平臺的吸引力?不論選擇哪一條路,都充滿荊棘。

➤市場規模小,業界:缺少有聲書競合環境

不論是單品買斷制難以輕易回收成本,還是串流訂閱制難以豐富平臺收錄,或者更根本的問題——做有聲書能賺多少錢?都可以歸咎於一個難解之題:繁體中文有聲書市場規模不足。

這是個先有雞還是先有蛋的萬年問題。出版方不付出大量前期投資,便難以建立起市場規模。然而,無法確認有聲書市場能帶來多少商機之前,出版方不敢冒然注入大量資源,也是可以理解的選擇。

「怎樣培養好的有聲人才、怎樣創造好的有聲環境,這是出版社需要被幫助的。」胡惠君認為,當市場上有夠多人才供出版社挑選,才有辦法降低製作壓力、提升良性競爭環境,以達到有聲書品質和產量雙雙提升。

文化部雖然每年都有「數位出版產業發展補助」,但早在2021年,出版社就已經表明單純補助「錄製」有聲書,意義並不大。王昭棠即指出,環境與生態才是最重要的,他以數位音樂產業為例,如果沒有串流平台讓用戶可以聽到許多不同家唱片公司旗下的歌曲,市場很難成長到現在這樣的規模。

如果政府有意幫忙,那麼與其補助「製作」,業界期望的更是:協調有聲書出版方與平台,甚至國際市場之間的合作。王昭棠直言,就算補助內容的製作,出版方還是要自己想辦法售出產品來變現。與其如此,他認為,想辦法促成出版方或出版平臺間合作——例如互相上架彼此的內容,呈現出多元、大量的消費選擇,建立起有聲書生態,是政府應該嘗試的方向。「但我們也不是等政府來做這件事,把餅做大是企業自己就會努力去做的。只是如果這件事要快速發展起來,有中間人媒合會差很多。」

以此而言,文策院就很適合扮演這個推手的角色。文策院以針對文化產業提供投資、融資、調查研究、版權外譯推廣、IP轉譯等多元協助為宗旨,近年來也完成了許多國際有聲書市場的調查,或許有聲書平台的媒合,是文策院可以考慮的下一步。

本篇受訪者不約而同都談到,政府若只資助有聲書製作,對於有聲書普及幫助不大。他們對於自己的產品品質有信心,不僅在傳統製作方法上設計了各自的營運及商業模式,也都表示長期有意投資AI,應用於有聲書製作。

➤快速增加有聲書數量,促成有聲書市場區隔

早在2023年1月舉辦的世界數位圖書會議上,全球有聲內容負責人Bar-Kar表示,使用AI能夠協助出版業者以較低製作成本出版有聲書。若銷售狀況良好,出版業者可再次請真人配音員重新錄製有聲書。這件事如今正發生。

鏡好聽是積極投入資源來經營聲音產品的出版方之一。鏡傳媒於2020年成立鏡好聽學院,培訓聲音主播,以供給自家聲音產品的製作人才。鏡好聽總監徐淑卿直言,AI短期內是無法取代真人製作的,而且業界導入AI時,恐怕會因為定價與品質參差不齊,造成市場混亂。

不過,在長期策略上,鏡好聽也正評估導入AI,以輔助較低規格產品的製作。徐淑卿認為,AI生成的產品,會更加凸顯真人精心錄製產品的價值。

胡惠君則觀察到,中國有聲書市場龐大,且許多產品已開始運用AI技術。她指出,AI有聲書之所以能在中國市場佔有一席之地,是因為一開始製作方用低價甚至免費的方法釋出大量產品,進而找到可以接受AI生成產品的客群。

這種做法不僅加速了消費者養成聆聽聲音產品的習慣,也使他們有能力分辨真人錄音及AI生成產品,甚至可以指出AI有聲書產品的不足之處。「真人錄製的聲音產品不足,便無法讓消費者去比較優劣。」她認為,中國AI有聲書成功打入市場的關鍵是,快速用驚人的產品量把餅做大。

但胡惠君也直言,中國AI有聲產品製作是高度專業化的產業。從如何生成文本、AI如何產生聲音,到如何控制AI表現,都有專職人員。反觀臺灣,遑論AI聲音製作人員,恐怕就連傳統製作方法,都沒有足夠的專業人才來支持有聲書量產。而且臺灣市場較小,真人聲音產品的既有市場更容易受到AI生成產品衝擊,因此中國市場的經驗只能借鏡,未必直接適用於臺灣。


百度創辦人李彥宏的原聲AI有聲書《智能交通》。中國網友紛紛留言表示AI聲音完全就是本人。

如上篇〈AI與有聲書.技術篇》AI是有聲書的下一步嗎?有聲書製作的新模式與新門檻〉所述,目前臺灣有聲書市場產品分為:幾乎不需成本、應用TTS技術即能達成的機器朗讀,以及表演成分較低的單人非文學書籍朗讀。此外,還有加入音樂及音效等聲音後製的「劇場版」有聲書,表演難度較高,甚至需要多人獻聲的文學類書籍演出。

雖然生成式AI無法一舉取代現行有聲書的製作模式,但可以加速產品數量累積、養成更大量的聆聽群眾,並形成產品製作規格的區隔。一旦市場規模擴大後,出版方用心製作的高品質產品,更能顯得更加彌足珍貴,就算只占總體產品的一小部分,也能吸引夠多消費者買單,從而投入更多高品質產品製作。

手指點一下,您支持的每一分錢
都是推動美好閱讀的重要力量

AI與有聲書.技術篇》AI是有聲書的下一步嗎?有聲書製作的新模式與新門檻

疫情期間,聲音經濟崛起。在臺灣,Podcast在2020年上半開始受到主流市場關注。一年後,另一種形式的聲音產品也開始獲得大量討論——形式更長、製作專業度更高的有聲書。

就如Podcast可以視為廣播節目的衍生產品,有聲書本身也並不是什麼新興產品。將近100年前,美國的愛書人便已經可以用聽覺來享受莎士比亞劇本。拉到近代,Amazon旗下有聲書龍頭Audible早在1995年成立,至今已經有上億使用者。

不過在臺灣,有聲書要如Podcast一般百花齊放,一直有個難以跨越的門檻,那就是高昂的製作成本。即使到了2023年,有聲書勉強可說是穩定成長,但始終沒有像歐美一樣成為幾乎人人習以為常的閱讀形式。

隨著AI技術的突破,這個困境或許出現鬆動的可能,甚至為有聲書產業帶來更遼闊的想像,例如挑選自己喜愛的聲線,即時生成有聲書;或者名人/作家授權他們的聲音,讓AI以其音色快速生產有聲書。

在實踐想像的未來之前,我們且先檢視現有的問題。

➤製作成本若無法降低,有聲書量產不易

不同於Audible上大量的英文有聲書,臺灣腔的中文有聲市場規模非常小。這是出版社普遍對有聲書市場的認知。

相較於Podcast,有聲書的高額成本,使得獲利的難度也相對增加:要將既有文字書轉化成有聲書,出版社需支付額外的版權費用。其次,有聲書也難以依靠置入性行銷來賺取利潤。不只如此,由專業出版社製作有聲書,製作上有一定的品質要求,難以快速量產或壓低成本。

2021年時,專營有聲書的遍路文化執行長吳巧亮曾透露,在出版社自家建置了錄音室的情況下,製作一本有聲書的成本約需6至7萬元,就算是10萬字以內(字數較少)的書籍,也需3至5萬元。吳巧亮表示,為了有效回收製作成本,出版社必須精準選擇有聲書的製作品項。

有聲書的製作程序可粗略分為:事前授權、腳本規劃、聲音演出錄音,以及潤飾和增添音效等後製程序。以目前已有逾40萬下載次數,超過6000種有聲產品的親子天下有聲App為例,曾任該公司數位產品內容企劃中心產品長的王昭棠不諱言,親子天下經營有聲書平臺5年,包括平臺開發、書籍授權及有聲書製作等整體成本,目前已花費超過百萬元,不是一個可以忽視的小數目。

雖然要以多少資源進入有聲書市場,端看每間出版社的資本,但無論大小出版社,需要付出的支出中,聲音錄製都是一項不容小覷的持續開銷。王昭棠指出,出版社的有聲書製作規格,必須有專業配音員及錄音室配合,因此有聲書製作生命周期中,聲音錄製是花費最高的環節。

市場小加上錄音成本高昂,是臺灣有聲書製作的一大門檻。吳巧亮於2021年揭露,當時遍路的產能大約是1個月1至2本有聲書。已經投入專業錄音室的出版社如此,可以想見,臺灣有聲書產量要達到Podcast般百花齊放的規模,還有很遙遠的距離。

然而,人工智慧技術的飛躍進步,似乎讓有聲書市場現有的困境出現了一絲轉機。

➤生成式AI普及化,能否用於壓低聲音錄製成本?

經過2023一整年的發酵,跨入2024年的今天,專精於自然語言處理(NLP)的生成式AI技術大為普及,各大科技巨頭紛紛推出自己的大型語言模型(LLM),供下游廠商及使用者以不同形式來運用。從文字生成、程式碼生成、圖像生成到音訊生成,生成式AI都做得到,而且成果越來越精細。

生成式AI的應用,是否有助於降低有聲書的製作成本,提高市場的能見度?要回答這個問題,讓我們先盤點既有的技術。

目前已被廣泛應用的聲音生成技術是Text-to-speech(TTS)。簡單來說,TTS可以分析文本、將文本拆解為音位(Phoneme),再根據這些音位,生成模仿人類說話的音訊。

一般來說,電腦程式難以深度分析文字中的情緒、情境及潛臺詞,因此由TTS產生的語音,通常顯得呆板、不自然。不過,這類TTS技術已經具有實用價值,常見的應用如ATM無障礙語音引導功能、導航系統的導航員聲音等,純粹傳達訊息用的情境。

結合更先進AI演算法的語音生成式AI則不同。理論上,自然語言處理的AI可以更深度分析出先前TTS技術難以處理的文本語意,並生成更自然、更能表現情緒的人聲。甚至,還可以用真人的人聲來訓練AI,使其模仿真人聲音來生成本人從未說過的話語。2023年的「AI陳珊妮」,就是AI仿人聲的最好例子。《天下雜誌》的語音機器人Sky則是用該公司影視總監李若梅的聲線訓練出來的。

現今市場上,已經有許多廠商推出簡易版語音生成式AI,使用者可以給定文案、語速、語調、甚至指定廠商預設的幾種聲線,AI便能生成幾可亂真的人聲。

想像上,這已經能夠讓個人用戶或小型出版社免去購入錄音設備、建置錄音室的前期成本,然而現實中,我們並沒有看到書市或讀者間出現大量的AI語音有聲書。是哪個環節卡住了呢?

➤首要憂慮:讀者能接受嗎?

檢視台灣現有的幾款串接大型語言模型的TTS產品(包括:文字MP3專業版、雅婷系列產品、AIspeakin),每款的轉換效率、時間都稱得上快速,也都支援多種聲線,斷句與標點符號的停頓都與真人朗讀相差無幾。如果有特殊斷句,也可以手動調整停頓、語速、語調。

乍看/聽之下,能有一個工具快速將文字輸出成「準確」讀音、通順的句子,的確已具有商業價值。然而放到閱聽或娛樂需求上,對於已習慣多種感官刺激的消費者來說,他們能接受僅只是「準確」的聲音嗎?

想像「你做得真棒!」這句話,不同讀法會產生不同語意、不同情緒,背後代表的是不同的人物背景設定。這仰賴朗讀者理解文本後做出詮釋,也是語音生成式AI尚無法自動做到的。

目前書市上最知名的語音生成式AI,應是《天下雜誌》的語音朗讀機器人Sky。根據天下的統計,Sky上線後,該公司app的語音朗讀收聽量成長超過一倍、訂單量也增加三成。

然而這樣的成績,是天下雜誌公司與台灣人工智慧實驗室Taiwan AI Labs以專案形式合作半年,不斷訓練、調校的成果。目前一般的語音生成軟體定位偏向個人用戶,若單純使用這類產品,而沒有與廠商專案合作,恐怕難以達到如同Sky的效果。此外,Sky朗讀的新聞報導,本身並不需要在聲音上做過多的「表演」,但有聲書,尤其文學類作品對聲音的要求大不相同。

在採訪中,親子天下與鏡好聽都表示,公司內部曾針對投入AI語音進行評估,但始終無法取得具有共識的滿意成果。讀者很可能不買單,是出版社卡住的第一環節。

➤讓讀者滿意,目前得靠「工人」

將語音生成式AI應用在行銷案例上,即使對成果不滿意,可以反覆更改腳本、微調指令,要求AI重新生成。然而,當生成的任務是要將數萬字的書本內文轉換成人聲時,會出現多少AI誤判語氣或讀音的例子?需要花多少時間和成本去檢查(校對)和微調?

我們採訪了國內數家AI語音生成服務廠商,詢問他們如何解決這個問題。常見的做法不外乎:事先設定破音字或特殊用語讀法,以及人工標註語氣、語速、發言者等聲音元數據(Metadata)到腳本中。

這項人工標註的需求,帶來的問題是:使用語音生成技術雖然少掉了配音員和錄音室的成本,卻產生新的人工標註成本。當AI模型正確判讀聲音表現的能力越低,「工人智慧」的需求就越高。這樣一來,原有的問題並沒有被解決,只不過換了一個形式。

單純將文字轉成讀音精準的語音,以現在的有聲書消費者「耳」光來說是不夠的。Kobo內容長胡惠君分享她的觀察:「先不要說AI,就我們從自己平台觀察到的,賣很好的有聲書幾乎都是經過精心編輯的作品,而不是只將紙本書的文字拿去錄。這代表讀者聽得出來。」她認為即使朗讀者換成AI也一樣,聲音與內容有沒有經過調整、編輯成為品質夠好的產品,才是一本有聲書能否暢銷的根本。

這代表出版社即使應用語音生成式AI來產製有聲書,所需的工作也不只是將文稿輸入而已。編輯得像一名配音員一樣,思考適合的聲音詮釋,這又是全新的專業技能。

當然,隨著AI技術愈發進步,人工標註的需求會越來越少,廣泛應用於有聲書製作的可行性就會愈高。不過身為繁體中文使用者,還得面對另一個問題:目前大型語言模型的繁體中文語料仍非常稀少,以現有開源的LLM BLOOM為例,簡體中文的訓練資料占16.2%、繁體中文只占0.05%。這意味著,不僅AI分析中文文本的能力會遠遠落後於英文,臺灣使用者還必須微調基礎模型,才能避免兩岸用語的混淆。這是臺灣出版界要應用語音生成AI於有聲書製作時,不得不面對及跨越的技術門檻。


開源LLM BLOOM訓練語料比例(圖源:huggingface)

➤方法終究是嘗試出來的

受限於前面討論的現狀,臺灣目前還沒有出版社利用AI來錄製有聲書。不過,已能用來播報新聞、朗讀文章的Sky,代表操作選單或導航系統等功能性TTS,已經可以勝任非虛構知識性文章的朗讀,在使用情境上是大大的拓展。

下一步,若要往大規模有聲書製作發展,可以從這裡借鏡。

前面提過,傳統有聲書的製作分為不同規格。工具類或知識性的非文學類書籍,可以由同一人從頭到尾念完,且表演成分較低。小說等文學類書籍,則不只聲音表演的難度較高,還可能需要多人參與演出。而更高規格——親子天下稱之為「劇場版」有聲書——還可能需要加入音效等聲音後製。


網際智慧的文字專業MP3是目前Openbook找到已上市且介面功能較多的語音生成式AI。

不難想像,從朗讀新聞報導到朗讀非文學類書籍,使用情境十分接近,目前的有聲書也以非文學書籍最多。從熱銷排行來看,非文學書更是占絕大多數。現階段看來,與其期待以生成式AI取代精緻的真人有聲書,利用AI大量生產表演技巧要求較低的非文學類有聲書,是更為務實且具體可行的選項。AI有聲書相對低成本、高產量且品質穩定,作為入門的產品,可以吸引更多讀者加入有聲書的聆聽行列。

Readmoo讀墨執行長龐文真對此即抱持樂觀態度:「有工具幫忙把一大段文章轉成近似真人的語音,加上完整的線上服務,這對出版社就滿有用了。」

對於高標準的讀者而言,AI什麼時候才能妥善詮釋文本中的情緒呢?環球睿視創辦人蘇育民與網際智慧公司總經理晁旭光都認為,這只是時間問題。學會讀音、停頓、句子裡的聲音起伏後,辨別文字裡的語氣與情緒,是接下來大型語言模型要學習的目標。

晁旭光表示:「未來如果在做訓練的時候,把各種不同的情緒、語調搭配進去,AI生成語音也比較能表達出不同的情緒,這是慢慢能夠做出來的。」

這個「慢」會有多快?目前尚無法定論。2023年11月,Amazon已經開始測試利用AI朗讀有聲書的技術,提供書籍作者將文字書轉為有聲書出版的服務。全球企業龍頭的投入,意味著利用AI技術來加速有聲書製作,已經從未來式悄悄變為現在進行式。各種更加貼近真人聲音的嘗試,可預期的將漸漸到位。

雖然利用AI降低有聲書製作成本只是時間問題,不過,在AI技術尚未普及的年代,外國有聲書市場便已蓬勃發展。一旦技術到位,有聲書的量產更加便利時,臺灣有聲書市場,是否已做好準備?

AI與有聲書.市場篇》建立真人與AI產品區隔,擴大消費者選擇

手指點一下,您支持的每一分錢
都是推動美好閱讀的重要力量

頁面