AI與有聲書.技術篇》AI是有聲書的下一步嗎?有聲書製作的新模式與新門檻

疫情期間,聲音經濟崛起。在臺灣,Podcast在2020年上半開始受到主流市場關注。一年後,另一種形式的聲音產品也開始獲得大量討論——形式更長、製作專業度更高的有聲書。

就如Podcast可以視為廣播節目的衍生產品,有聲書本身也並不是什麼新興產品。將近100年前,美國的愛書人便已經可以用聽覺來享受莎士比亞劇本。拉到近代,Amazon旗下有聲書龍頭Audible早在1995年成立,至今已經有上億使用者。

不過在臺灣,有聲書要如Podcast一般百花齊放,一直有個難以跨越的門檻,那就是高昂的製作成本。即使到了2023年,有聲書勉強可說是穩定成長,但始終沒有像歐美一樣成為幾乎人人習以為常的閱讀形式。

隨著AI技術的突破,這個困境或許出現鬆動的可能,甚至為有聲書產業帶來更遼闊的想像,例如挑選自己喜愛的聲線,即時生成有聲書;或者名人/作家授權他們的聲音,讓AI以其音色快速生產有聲書。

在實踐想像的未來之前,我們且先檢視現有的問題。

➤製作成本若無法降低,有聲書量產不易

不同於Audible上大量的英文有聲書,臺灣腔的中文有聲市場規模非常小。這是出版社普遍對有聲書市場的認知。

相較於Podcast,有聲書的高額成本,使得獲利的難度也相對增加:要將既有文字書轉化成有聲書,出版社需支付額外的版權費用。其次,有聲書也難以依靠置入性行銷來賺取利潤。不只如此,由專業出版社製作有聲書,製作上有一定的品質要求,難以快速量產或壓低成本。

2021年時,專營有聲書的遍路文化執行長吳巧亮曾透露,在出版社自家建置了錄音室的情況下,製作一本有聲書的成本約需6至7萬元,就算是10萬字以內(字數較少)的書籍,也需3至5萬元。吳巧亮表示,為了有效回收製作成本,出版社必須精準選擇有聲書的製作品項。

有聲書的製作程序可粗略分為:事前授權、腳本規劃、聲音演出錄音,以及潤飾和增添音效等後製程序。以目前已有逾40萬下載次數,超過6000種有聲產品的親子天下有聲App為例,曾任該公司數位產品內容企劃中心產品長的王昭棠不諱言,親子天下經營有聲書平臺5年,包括平臺開發、書籍授權及有聲書製作等整體成本,目前已花費超過百萬元,不是一個可以忽視的小數目。

雖然要以多少資源進入有聲書市場,端看每間出版社的資本,但無論大小出版社,需要付出的支出中,聲音錄製都是一項不容小覷的持續開銷。王昭棠指出,出版社的有聲書製作規格,必須有專業配音員及錄音室配合,因此有聲書製作生命周期中,聲音錄製是花費最高的環節。

市場小加上錄音成本高昂,是臺灣有聲書製作的一大門檻。吳巧亮於2021年揭露,當時遍路的產能大約是1個月1至2本有聲書。已經投入專業錄音室的出版社如此,可以想見,臺灣有聲書產量要達到Podcast般百花齊放的規模,還有很遙遠的距離。

然而,人工智慧技術的飛躍進步,似乎讓有聲書市場現有的困境出現了一絲轉機。

➤生成式AI普及化,能否用於壓低聲音錄製成本?

經過2023一整年的發酵,跨入2024年的今天,專精於自然語言處理(NLP)的生成式AI技術大為普及,各大科技巨頭紛紛推出自己的大型語言模型(LLM),供下游廠商及使用者以不同形式來運用。從文字生成、程式碼生成、圖像生成到音訊生成,生成式AI都做得到,而且成果越來越精細。

生成式AI的應用,是否有助於降低有聲書的製作成本,提高市場的能見度?要回答這個問題,讓我們先盤點既有的技術。

目前已被廣泛應用的聲音生成技術是Text-to-speech(TTS)。簡單來說,TTS可以分析文本、將文本拆解為音位(Phoneme),再根據這些音位,生成模仿人類說話的音訊。

一般來說,電腦程式難以深度分析文字中的情緒、情境及潛臺詞,因此由TTS產生的語音,通常顯得呆板、不自然。不過,這類TTS技術已經具有實用價值,常見的應用如ATM無障礙語音引導功能、導航系統的導航員聲音等,純粹傳達訊息用的情境。

結合更先進AI演算法的語音生成式AI則不同。理論上,自然語言處理的AI可以更深度分析出先前TTS技術難以處理的文本語意,並生成更自然、更能表現情緒的人聲。甚至,還可以用真人的人聲來訓練AI,使其模仿真人聲音來生成本人從未說過的話語。2023年的「AI陳珊妮」,就是AI仿人聲的最好例子。《天下雜誌》的語音機器人Sky則是用該公司影視總監李若梅的聲線訓練出來的。

現今市場上,已經有許多廠商推出簡易版語音生成式AI,使用者可以給定文案、語速、語調、甚至指定廠商預設的幾種聲線,AI便能生成幾可亂真的人聲。

想像上,這已經能夠讓個人用戶或小型出版社免去購入錄音設備、建置錄音室的前期成本,然而現實中,我們並沒有看到書市或讀者間出現大量的AI語音有聲書。是哪個環節卡住了呢?

➤首要憂慮:讀者能接受嗎?

檢視台灣現有的幾款串接大型語言模型的TTS產品(包括:文字MP3專業版、雅婷系列產品、AIspeakin),每款的轉換效率、時間都稱得上快速,也都支援多種聲線,斷句與標點符號的停頓都與真人朗讀相差無幾。如果有特殊斷句,也可以手動調整停頓、語速、語調。

乍看/聽之下,能有一個工具快速將文字輸出成「準確」讀音、通順的句子,的確已具有商業價值。然而放到閱聽或娛樂需求上,對於已習慣多種感官刺激的消費者來說,他們能接受僅只是「準確」的聲音嗎?

想像「你做得真棒!」這句話,不同讀法會產生不同語意、不同情緒,背後代表的是不同的人物背景設定。這仰賴朗讀者理解文本後做出詮釋,也是語音生成式AI尚無法自動做到的。

目前書市上最知名的語音生成式AI,應是《天下雜誌》的語音朗讀機器人Sky。根據天下的統計,Sky上線後,該公司app的語音朗讀收聽量成長超過一倍、訂單量也增加三成。

然而這樣的成績,是天下雜誌公司與台灣人工智慧實驗室Taiwan AI Labs以專案形式合作半年,不斷訓練、調校的成果。目前一般的語音生成軟體定位偏向個人用戶,若單純使用這類產品,而沒有與廠商專案合作,恐怕難以達到如同Sky的效果。此外,Sky朗讀的新聞報導,本身並不需要在聲音上做過多的「表演」,但有聲書,尤其文學類作品對聲音的要求大不相同。

在採訪中,親子天下與鏡好聽都表示,公司內部曾針對投入AI語音進行評估,但始終無法取得具有共識的滿意成果。讀者很可能不買單,是出版社卡住的第一環節。

➤讓讀者滿意,目前得靠「工人」

將語音生成式AI應用在行銷案例上,即使對成果不滿意,可以反覆更改腳本、微調指令,要求AI重新生成。然而,當生成的任務是要將數萬字的書本內文轉換成人聲時,會出現多少AI誤判語氣或讀音的例子?需要花多少時間和成本去檢查(校對)和微調?

我們採訪了國內數家AI語音生成服務廠商,詢問他們如何解決這個問題。常見的做法不外乎:事先設定破音字或特殊用語讀法,以及人工標註語氣、語速、發言者等聲音元數據(Metadata)到腳本中。

這項人工標註的需求,帶來的問題是:使用語音生成技術雖然少掉了配音員和錄音室的成本,卻產生新的人工標註成本。當AI模型正確判讀聲音表現的能力越低,「工人智慧」的需求就越高。這樣一來,原有的問題並沒有被解決,只不過換了一個形式。

單純將文字轉成讀音精準的語音,以現在的有聲書消費者「耳」光來說是不夠的。Kobo內容長胡惠君分享她的觀察:「先不要說AI,就我們從自己平台觀察到的,賣很好的有聲書幾乎都是經過精心編輯的作品,而不是只將紙本書的文字拿去錄。這代表讀者聽得出來。」她認為即使朗讀者換成AI也一樣,聲音與內容有沒有經過調整、編輯成為品質夠好的產品,才是一本有聲書能否暢銷的根本。

這代表出版社即使應用語音生成式AI來產製有聲書,所需的工作也不只是將文稿輸入而已。編輯得像一名配音員一樣,思考適合的聲音詮釋,這又是全新的專業技能。

當然,隨著AI技術愈發進步,人工標註的需求會越來越少,廣泛應用於有聲書製作的可行性就會愈高。不過身為繁體中文使用者,還得面對另一個問題:目前大型語言模型的繁體中文語料仍非常稀少,以現有開源的LLM BLOOM為例,簡體中文的訓練資料占16.2%、繁體中文只占0.05%。這意味著,不僅AI分析中文文本的能力會遠遠落後於英文,臺灣使用者還必須微調基礎模型,才能避免兩岸用語的混淆。這是臺灣出版界要應用語音生成AI於有聲書製作時,不得不面對及跨越的技術門檻。


開源LLM BLOOM訓練語料比例(圖源:huggingface)

➤方法終究是嘗試出來的

受限於前面討論的現狀,臺灣目前還沒有出版社利用AI來錄製有聲書。不過,已能用來播報新聞、朗讀文章的Sky,代表操作選單或導航系統等功能性TTS,已經可以勝任非虛構知識性文章的朗讀,在使用情境上是大大的拓展。

下一步,若要往大規模有聲書製作發展,可以從這裡借鏡。

前面提過,傳統有聲書的製作分為不同規格。工具類或知識性的非文學類書籍,可以由同一人從頭到尾念完,且表演成分較低。小說等文學類書籍,則不只聲音表演的難度較高,還可能需要多人參與演出。而更高規格——親子天下稱之為「劇場版」有聲書——還可能需要加入音效等聲音後製。


網際智慧的文字專業MP3是目前Openbook找到已上市且介面功能較多的語音生成式AI。

不難想像,從朗讀新聞報導到朗讀非文學類書籍,使用情境十分接近,目前的有聲書也以非文學書籍最多。從熱銷排行來看,非文學書更是占絕大多數。現階段看來,與其期待以生成式AI取代精緻的真人有聲書,利用AI大量生產表演技巧要求較低的非文學類有聲書,是更為務實且具體可行的選項。AI有聲書相對低成本、高產量且品質穩定,作為入門的產品,可以吸引更多讀者加入有聲書的聆聽行列。

Readmoo讀墨執行長龐文真對此即抱持樂觀態度:「有工具幫忙把一大段文章轉成近似真人的語音,加上完整的線上服務,這對出版社就滿有用了。」

對於高標準的讀者而言,AI什麼時候才能妥善詮釋文本中的情緒呢?環球睿視創辦人蘇育民與網際智慧公司總經理晁旭光都認為,這只是時間問題。學會讀音、停頓、句子裡的聲音起伏後,辨別文字裡的語氣與情緒,是接下來大型語言模型要學習的目標。

晁旭光表示:「未來如果在做訓練的時候,把各種不同的情緒、語調搭配進去,AI生成語音也比較能表達出不同的情緒,這是慢慢能夠做出來的。」

這個「慢」會有多快?目前尚無法定論。2023年11月,Amazon已經開始測試利用AI朗讀有聲書的技術,提供書籍作者將文字書轉為有聲書出版的服務。全球企業龍頭的投入,意味著利用AI技術來加速有聲書製作,已經從未來式悄悄變為現在進行式。各種更加貼近真人聲音的嘗試,可預期的將漸漸到位。

雖然利用AI降低有聲書製作成本只是時間問題,不過,在AI技術尚未普及的年代,外國有聲書市場便已蓬勃發展。一旦技術到位,有聲書的量產更加便利時,臺灣有聲書市場,是否已做好準備?

AI與有聲書.市場篇》建立真人與AI產品區隔,擴大消費者選擇

手指點一下,您支持的每一分錢
都是推動美好閱讀的重要力量