AI與有聲書.技術篇》AI是有聲書的下一步嗎?有聲書製作的新模式與新門檻
疫情期間,聲音經濟崛起。在臺灣,Podcast在2020年上半開始受到主流市場關注。一年後,另一種形式的聲音產品也開始獲得大量討論——形式更長、製作專業度更高的有聲書。
就如Podcast可以視為廣播節目的衍生產品,有聲書本身也並不是什麼新興產品。將近100年前,美國的愛書人便已經可以用聽覺來享受莎士比亞劇本。拉到近代,Amazon旗下有聲書龍頭Audible早在1995年成立,至今已經有上億使用者。
不過在臺灣,有聲書要如Podcast一般百花齊放,一直有個難以跨越的門檻,那就是高昂的製作成本。即使到了2023年,有聲書勉強可說是穩定成長,但始終沒有像歐美一樣成為幾乎人人習以為常的閱讀形式。
隨著AI技術的突破,這個困境或許出現鬆動的可能,甚至為有聲書產業帶來更遼闊的想像,例如挑選自己喜愛的聲線,即時生成有聲書;或者名人/作家授權他們的聲音,讓AI以其音色快速生產有聲書。
在實踐想像的未來之前,我們且先檢視現有的問題。
➤製作成本若無法降低,有聲書量產不易
不同於Audible上大量的英文有聲書,臺灣腔的中文有聲市場規模非常小。這是出版社普遍對有聲書市場的認知。
相較於Podcast,有聲書的高額成本,使得獲利的難度也相對增加:要將既有文字書轉化成有聲書,出版社需支付額外的版權費用。其次,有聲書也難以依靠置入性行銷來賺取利潤。不只如此,由專業出版社製作有聲書,製作上有一定的品質要求,難以快速量產或壓低成本。
2021年時,專營有聲書的遍路文化執行長吳巧亮曾透露,在出版社自家建置了錄音室的情況下,製作一本有聲書的成本約需6至7萬元,就算是10萬字以內(字數較少)的書籍,也需3至5萬元。吳巧亮表示,為了有效回收製作成本,出版社必須精準選擇有聲書的製作品項。
有聲書的製作程序可粗略分為:事前授權、腳本規劃、聲音演出錄音,以及潤飾和增添音效等後製程序。以目前已有逾40萬下載次數,超過6000種有聲產品的親子天下有聲App為例,曾任該公司數位產品內容企劃中心產品長的王昭棠不諱言,親子天下經營有聲書平臺5年,包括平臺開發、書籍授權及有聲書製作等整體成本,目前已花費超過百萬元,不是一個可以忽視的小數目。
雖然要以多少資源進入有聲書市場,端看每間出版社的資本,但無論大小出版社,需要付出的支出中,聲音錄製都是一項不容小覷的持續開銷。王昭棠指出,出版社的有聲書製作規格,必須有專業配音員及錄音室配合,因此有聲書製作生命周期中,聲音錄製是花費最高的環節。
市場小加上錄音成本高昂,是臺灣有聲書製作的一大門檻。吳巧亮於2021年揭露,當時遍路的產能大約是1個月1至2本有聲書。已經投入專業錄音室的出版社如此,可以想見,臺灣有聲書產量要達到Podcast般百花齊放的規模,還有很遙遠的距離。
然而,人工智慧技術的飛躍進步,似乎讓有聲書市場現有的困境出現了一絲轉機。
➤生成式AI普及化,能否用於壓低聲音錄製成本?
經過2023一整年的發酵,跨入2024年的今天,專精於自然語言處理(NLP)的生成式AI技術大為普及,各大科技巨頭紛紛推出自己的大型語言模型(LLM),供下游廠商及使用者以不同形式來運用。從文字生成、程式碼生成、圖像生成到音訊生成,生成式AI都做得到,而且成果越來越精細。
生成式AI的應用,是否有助於降低有聲書的製作成本,提高市場的能見度?要回答這個問題,讓我們先盤點既有的技術。
目前已被廣泛應用的聲音生成技術是Text-to-speech(TTS)。簡單來說,TTS可以分析文本、將文本拆解為音位(Phoneme),再根據這些音位,生成模仿人類說話的音訊。
一般來說,電腦程式難以深度分析文字中的情緒、情境及潛臺詞,因此由TTS產生的語音,通常顯得呆板、不自然。不過,這類TTS技術已經具有實用價值,常見的應用如ATM無障礙語音引導功能、導航系統的導航員聲音等,純粹傳達訊息用的情境。
結合更先進AI演算法的語音生成式AI則不同。理論上,自然語言處理的AI可以更深度分析出先前TTS技術難以處理的文本語意,並生成更自然、更能表現情緒的人聲。甚至,還可以用真人的人聲來訓練AI,使其模仿真人聲音來生成本人從未說過的話語。2023年的「AI陳珊妮」,就是AI仿人聲的最好例子。《天下雜誌》的語音機器人Sky則是用該公司影視總監李若梅的聲線訓練出來的。
現今市場上,已經有許多廠商推出簡易版語音生成式AI,使用者可以給定文案、語速、語調、甚至指定廠商預設的幾種聲線,AI便能生成幾可亂真的人聲。
想像上,這已經能夠讓個人用戶或小型出版社免去購入錄音設備、建置錄音室的前期成本,然而現實中,我們並沒有看到書市或讀者間出現大量的AI語音有聲書。是哪個環節卡住了呢?
➤首要憂慮:讀者能接受嗎?
檢視台灣現有的幾款串接大型語言模型的TTS產品(包括:文字MP3專業版、雅婷系列產品、AIspeakin),每款的轉換效率、時間都稱得上快速,也都支援多種聲線,斷句與標點符號的停頓都與真人朗讀相差無幾。如果有特殊斷句,也可以手動調整停頓、語速、語調。
乍看/聽之下,能有一個工具快速將文字輸出成「準確」讀音、通順的句子,的確已具有商業價值。然而放到閱聽或娛樂需求上,對於已習慣多種感官刺激的消費者來說,他們能接受僅只是「準確」的聲音嗎?
想像「你做得真棒!」這句話,不同讀法會產生不同語意、不同情緒,背後代表的是不同的人物背景設定。這仰賴朗讀者理解文本後做出詮釋,也是語音生成式AI尚無法自動做到的。
目前書市上最知名的語音生成式AI,應是《天下雜誌》的語音朗讀機器人Sky。根據天下的統計,Sky上線後,該公司app的語音朗讀收聽量成長超過一倍、訂單量也增加三成。
然而這樣的成績,是天下雜誌公司與台灣人工智慧實驗室Taiwan AI Labs以專案形式合作半年,不斷訓練、調校的成果。目前一般的語音生成軟體定位偏向個人用戶,若單純使用這類產品,而沒有與廠商專案合作,恐怕難以達到如同Sky的效果。此外,Sky朗讀的新聞報導,本身並不需要在聲音上做過多的「表演」,但有聲書,尤其文學類作品對聲音的要求大不相同。
在採訪中,親子天下與鏡好聽都表示,公司內部曾針對投入AI語音進行評估,但始終無法取得具有共識的滿意成果。讀者很可能不買單,是出版社卡住的第一環節。
➤讓讀者滿意,目前得靠「工人」
將語音生成式AI應用在行銷案例上,即使對成果不滿意,可以反覆更改腳本、微調指令,要求AI重新生成。然而,當生成的任務是要將數萬字的書本內文轉換成人聲時,會出現多少AI誤判語氣或讀音的例子?需要花多少時間和成本去檢查(校對)和微調?
我們採訪了國內數家AI語音生成服務廠商,詢問他們如何解決這個問題。常見的做法不外乎:事先設定破音字或特殊用語讀法,以及人工標註語氣、語速、發言者等聲音元數據(Metadata)到腳本中。
這項人工標註的需求,帶來的問題是:使用語音生成技術雖然少掉了配音員和錄音室的成本,卻產生新的人工標註成本。當AI模型正確判讀聲音表現的能力越低,「工人智慧」的需求就越高。這樣一來,原有的問題並沒有被解決,只不過換了一個形式。
單純將文字轉成讀音精準的語音,以現在的有聲書消費者「耳」光來說是不夠的。Kobo內容長胡惠君分享她的觀察:「先不要說AI,就我們從自己平台觀察到的,賣很好的有聲書幾乎都是經過精心編輯的作品,而不是只將紙本書的文字拿去錄。這代表讀者聽得出來。」她認為即使朗讀者換成AI也一樣,聲音與內容有沒有經過調整、編輯成為品質夠好的產品,才是一本有聲書能否暢銷的根本。
這代表出版社即使應用語音生成式AI來產製有聲書,所需的工作也不只是將文稿輸入而已。編輯得像一名配音員一樣,思考適合的聲音詮釋,這又是全新的專業技能。
當然,隨著AI技術愈發進步,人工標註的需求會越來越少,廣泛應用於有聲書製作的可行性就會愈高。不過身為繁體中文使用者,還得面對另一個問題:目前大型語言模型的繁體中文語料仍非常稀少,以現有開源的LLM BLOOM為例,簡體中文的訓練資料占16.2%、繁體中文只占0.05%。這意味著,不僅AI分析中文文本的能力會遠遠落後於英文,臺灣使用者還必須微調基礎模型,才能避免兩岸用語的混淆。這是臺灣出版界要應用語音生成AI於有聲書製作時,不得不面對及跨越的技術門檻。
➤方法終究是嘗試出來的
受限於前面討論的現狀,臺灣目前還沒有出版社利用AI來錄製有聲書。不過,已能用來播報新聞、朗讀文章的Sky,代表操作選單或導航系統等功能性TTS,已經可以勝任非虛構知識性文章的朗讀,在使用情境上是大大的拓展。
下一步,若要往大規模有聲書製作發展,可以從這裡借鏡。
前面提過,傳統有聲書的製作分為不同規格。工具類或知識性的非文學類書籍,可以由同一人從頭到尾念完,且表演成分較低。小說等文學類書籍,則不只聲音表演的難度較高,還可能需要多人參與演出。而更高規格——親子天下稱之為「劇場版」有聲書——還可能需要加入音效等聲音後製。
不難想像,從朗讀新聞報導到朗讀非文學類書籍,使用情境十分接近,目前的有聲書也以非文學書籍最多。從熱銷排行來看,非文學書更是占絕大多數。現階段看來,與其期待以生成式AI取代精緻的真人有聲書,利用AI大量生產表演技巧要求較低的非文學類有聲書,是更為務實且具體可行的選項。AI有聲書相對低成本、高產量且品質穩定,作為入門的產品,可以吸引更多讀者加入有聲書的聆聽行列。
Readmoo讀墨執行長龐文真對此即抱持樂觀態度:「有工具幫忙把一大段文章轉成近似真人的語音,加上完整的線上服務,這對出版社就滿有用了。」
對於高標準的讀者而言,AI什麼時候才能妥善詮釋文本中的情緒呢?環球睿視創辦人蘇育民與網際智慧公司總經理晁旭光都認為,這只是時間問題。學會讀音、停頓、句子裡的聲音起伏後,辨別文字裡的語氣與情緒,是接下來大型語言模型要學習的目標。
晁旭光表示:「未來如果在做訓練的時候,把各種不同的情緒、語調搭配進去,AI生成語音也比較能表達出不同的情緒,這是慢慢能夠做出來的。」
這個「慢」會有多快?目前尚無法定論。2023年11月,Amazon已經開始測試利用AI朗讀有聲書的技術,提供書籍作者將文字書轉為有聲書出版的服務。全球企業龍頭的投入,意味著利用AI技術來加速有聲書製作,已經從未來式悄悄變為現在進行式。各種更加貼近真人聲音的嘗試,可預期的將漸漸到位。
雖然利用AI降低有聲書製作成本只是時間問題,不過,在AI技術尚未普及的年代,外國有聲書市場便已蓬勃發展。一旦技術到位,有聲書的量產更加便利時,臺灣有聲書市場,是否已做好準備?●
AI與有聲書.市場篇》建立真人與AI產品區隔,擴大消費者選擇
隨著Amazon開始利用AI技術,提供書籍作者將文字書轉為有聲書出版的服務,一般的想像是,當聲音生成式AI技術越來越成熟,應該有利於降低有聲書居高不下的製作成本。然而,從業界的角度來看,有聲書要能普及,並不是解決成本問題就能達成的。
「2021年出版社很積極對待有聲書,2022的時候看見沒有銷量,它又掉下去了。」Kobo內容部長胡惠君點出,有聲書能不能普及,真正的癥結點在於,如何在有限的市場規模下,尋找到有利可圖的商業模式。
目前有聲書的主流商業模式有兩種:單品買斷與串流訂閱制。這兩種機制,在臺灣有限的市場規模中都面臨各自的問題,而生成式AI能否成為解決這些問題的助力呢?
➤買斷困境:單品成本回收及有聲書出版授權
以單品制有聲書而言,成本回收與授權洽談是2大關鍵。
遍路文化執行長吳巧亮曾透露,《莫斯科紳士》單本有聲書定價499元,需售出140本才可以回本,若上架到其他平臺,抽成一半,則要賣出300本才能回本。有聲書沒有實體書的複製成本,一旦回本,接下來就是「賣一本賺一本」。《莫斯科紳士》是暢銷書,截至2021年賣出了1,500本,因此是成功的投資。
由此可見,單品買斷制來說,目標書籍的選擇是評估的重點。一旦回本,便能成為高毛利商品,反之,若有聲書沒有賣過回本所需數量,就會拖累其他高銷量書籍的利潤。
如何挑選有聲書標的?以《莫斯科紳士》為例,挑選已通過市場考驗的暢銷紙本書,是有效的方法。不過,這種做法也會面臨另一個問題:有聲書的出版授權。
曾任親子天下數位產品內容企劃中心產品長的王昭棠解釋,文字書的出版權和有聲書出版權,是2種獨立的權利。如果要先「讓子彈飛一會兒」,觀察紙本書市場表現後才挑選暢銷書製作成有聲書,則有兩種選擇:一開始便談妥文字和有聲出版權,但文字書不暢銷就不做有聲書;或者,等文字書暢銷後,再去取得有聲書出版的授權。這兩種選擇,也有各自的問題。
「版權費不算最大的問題,挑戰在於溝通。」王昭棠說明,當授權方不能確定有聲書的製作品質是否符合想像跟期待時,便會有許多疑慮。有時出版方甚至必須製作試聽內容,提交給授權方評估。「這樣一來,前期溝通時程會很長。」尤其,當作品是翻譯書,做成有聲書必須向外國出版社取得授權,受限於語言、文化及洽談形式等限制,溝通成本更高。
假若出版社採取同時談妥文字及聲音出版權的策略,則取得授權的期程勢必會比單純出文字書的作業長,因而降低整體書籍上市的速度,更可能出現浪費有聲書出版授權費的風險。而若選擇事後再取得暢銷書的有聲版權,標的書籍身價高、地位重,授權費、溝通成本及製作要求也可能水漲船高。
➤串流訂閱制困境:產品總量不足,難以吸引大量訂閱戶
相較於注重每本都要「中」的單品買斷制,串流訂閱制的商業模式,利用隨選隨聽的消費模式來吸引用戶,更加要求商品的豐富性。
這也是全球最大有聲書平臺Audible的商業模式。目前Audible收錄了超過20萬種書,而在臺灣,主童書產品的親子天下,有聲產品數只有6,000種,成人書平台讀墨、鏡好聽則分別為2,000種與不到1,000種。論類別多元性、數量充足性,臺灣有聲書平臺吸引消費者的能力遠遠望塵莫及。
這樣一來,要收取高額訂閱費來回填有聲書製作及平臺的架設成本?還是降低訂閱費來增加平臺的吸引力?不論選擇哪一條路,都充滿荊棘。
➤市場規模小,業界:缺少有聲書競合環境
不論是單品買斷制難以輕易回收成本,還是串流訂閱制難以豐富平臺收錄,或者更根本的問題——做有聲書能賺多少錢?都可以歸咎於一個難解之題:繁體中文有聲書市場規模不足。
這是個先有雞還是先有蛋的萬年問題。出版方不付出大量前期投資,便難以建立起市場規模。然而,無法確認有聲書市場能帶來多少商機之前,出版方不敢冒然注入大量資源,也是可以理解的選擇。
「怎樣培養好的有聲人才、怎樣創造好的有聲環境,這是出版社需要被幫助的。」胡惠君認為,當市場上有夠多人才供出版社挑選,才有辦法降低製作壓力、提升良性競爭環境,以達到有聲書品質和產量雙雙提升。
文化部雖然每年都有「數位出版產業發展補助」,但早在2021年,出版社就已經表明單純補助「錄製」有聲書,意義並不大。王昭棠即指出,環境與生態才是最重要的,他以數位音樂產業為例,如果沒有串流平台讓用戶可以聽到許多不同家唱片公司旗下的歌曲,市場很難成長到現在這樣的規模。
如果政府有意幫忙,那麼與其補助「製作」,業界期望的更是:協調有聲書出版方與平台,甚至國際市場之間的合作。王昭棠直言,就算補助內容的製作,出版方還是要自己想辦法售出產品來變現。與其如此,他認為,想辦法促成出版方或出版平臺間合作——例如互相上架彼此的內容,呈現出多元、大量的消費選擇,建立起有聲書生態,是政府應該嘗試的方向。「但我們也不是等政府來做這件事,把餅做大是企業自己就會努力去做的。只是如果這件事要快速發展起來,有中間人媒合會差很多。」
以此而言,文策院就很適合扮演這個推手的角色。文策院以針對文化產業提供投資、融資、調查研究、版權外譯推廣、IP轉譯等多元協助為宗旨,近年來也完成了許多國際有聲書市場的調查,或許有聲書平台的媒合,是文策院可以考慮的下一步。
本篇受訪者不約而同都談到,政府若只資助有聲書製作,對於有聲書普及幫助不大。他們對於自己的產品品質有信心,不僅在傳統製作方法上設計了各自的營運及商業模式,也都表示長期有意投資AI,應用於有聲書製作。
➤快速增加有聲書數量,促成有聲書市場區隔
早在2023年1月舉辦的世界數位圖書會議上,全球有聲內容負責人Bar-Kar表示,使用AI能夠協助出版業者以較低製作成本出版有聲書。若銷售狀況良好,出版業者可再次請真人配音員重新錄製有聲書。這件事如今正發生。
鏡好聽是積極投入資源來經營聲音產品的出版方之一。鏡傳媒於2020年成立鏡好聽學院,培訓聲音主播,以供給自家聲音產品的製作人才。鏡好聽總監徐淑卿直言,AI短期內是無法取代真人製作的,而且業界導入AI時,恐怕會因為定價與品質參差不齊,造成市場混亂。
不過,在長期策略上,鏡好聽也正評估導入AI,以輔助較低規格產品的製作。徐淑卿認為,AI生成的產品,會更加凸顯真人精心錄製產品的價值。
胡惠君則觀察到,中國有聲書市場龐大,且許多產品已開始運用AI技術。她指出,AI有聲書之所以能在中國市場佔有一席之地,是因為一開始製作方用低價甚至免費的方法釋出大量產品,進而找到可以接受AI生成產品的客群。
這種做法不僅加速了消費者養成聆聽聲音產品的習慣,也使他們有能力分辨真人錄音及AI生成產品,甚至可以指出AI有聲書產品的不足之處。「真人錄製的聲音產品不足,便無法讓消費者去比較優劣。」她認為,中國AI有聲書成功打入市場的關鍵是,快速用驚人的產品量把餅做大。
但胡惠君也直言,中國AI有聲產品製作是高度專業化的產業。從如何生成文本、AI如何產生聲音,到如何控制AI表現,都有專職人員。反觀臺灣,遑論AI聲音製作人員,恐怕就連傳統製作方法,都沒有足夠的專業人才來支持有聲書量產。而且臺灣市場較小,真人聲音產品的既有市場更容易受到AI生成產品衝擊,因此中國市場的經驗只能借鏡,未必直接適用於臺灣。
如上篇〈AI與有聲書.技術篇》AI是有聲書的下一步嗎?有聲書製作的新模式與新門檻〉所述,目前臺灣有聲書市場產品分為:幾乎不需成本、應用TTS技術即能達成的機器朗讀,以及表演成分較低的單人非文學書籍朗讀。此外,還有加入音樂及音效等聲音後製的「劇場版」有聲書,表演難度較高,甚至需要多人獻聲的文學類書籍演出。
雖然生成式AI無法一舉取代現行有聲書的製作模式,但可以加速產品數量累積、養成更大量的聆聽群眾,並形成產品製作規格的區隔。一旦市場規模擴大後,出版方用心製作的高品質產品,更能顯得更加彌足珍貴,就算只占總體產品的一小部分,也能吸引夠多消費者買單,從而投入更多高品質產品製作。●
閱讀通信 vol.309》長命百歲也許不難,難的是百歲無憂
手指點一下,您支持的每一分錢
都是推動美好閱讀的重要力量