話題》AI關出版什麼事?早已打響的智財資源攻防,台灣呢?

2025-01-17 18:00

底圖圖源:Call Me Fred/Unsplash

近曰據傳有海外機構向台灣收購海量的本土版權書籍,書目規模高達15萬種,交易金額推估近1億台幣(即便不用平均定價計算,折後應該也有5000萬元左右)。面對如此大單,除了說聲恭喜恭喜、替出版方開心之外,其背後仍不免令人浮想聯翩……

關於這件事,有幾個具指向性的現況供大家參考:

  • 近年圖像鑑別文字系統突飛猛進,只要有書,無需電子檔、也不用知會任何人,即可輕易轉成數位文本。
  • 對AI產業來說,最珍貴、品質也最優的數據,是由專業人士精心撰寫編輯的書籍和文章。
  • 目前聊天機器人學習的文本,用圖書館館藏作為比例,已大約是英國第二大圖書館「牛津大學博德利圖書館」自1602年以來累積存量的兩倍。
  • AI使用數據的速度比生成數據飛快許多,各科技公司訓練AI的語料來源非常吃緊,最快在2026年,所有高品質數據都將運算完畢——除非獲得更多數據。
  • Meta董事長祖克伯(Mark Zuckerberg)曾在該公司內部會議中表示:「那就去非洲找些不太有人管的圖書館一本本掃描,才能讓Meta的AI系統盡快成立。」

牛津大學博德利圖書館擁有超過 1300 萬冊印刷資料(圖源:wikipedia)

➤出版業的黃金誰在挖

圖書館可能是文字轉數位檔案的最大破口。雖無從查證Meta是否真的這麼蠻幹了,但書籍是科技界最迫切需要的優質資料,已是不爭的事實。同時也幾乎可以確認,世上所有的公版內容,應該都已經全部被AI吃下肚。

值得慶幸的是,據說向台灣收購價值上億書籍的單位,是非營利的實驗性學術機構,且採購過程有律師的合約簽證,確保交易和運用方式均為合法。只是話說如此,仍令人難掩焦慮——試想眼前的當下,有個大型語言模型(LLM)正在把台灣所有知識工作者、文化工作者跟創作者的版權作品,一本本照相掃描、數位建檔,一旦進入商用,那後果不堪設想!

在AI產業,LLM訓練一次就耗資200-5000萬美元,幾千萬台幣相對而言真的不算大錢。而台灣目前的版權相關法令,對於再利用的部分毫無規範與限制的能力(只要不是原文照抄都不算違法),因此買方對大批書籍如何運用,我方將難以提出異議。

這是目前我們面臨的最大困境。此事的嚴重性不只出版人必須意識到,也是所有內容產業都應該面對與討論的課題。當科技界眼中最龐大的黃金資源還握在版權方手中,且當前AI應用產品尚未臻成熟之際,應當趁早加以防範、立法、或進行談判。

長期觀察AI演進但不願具名的出版人A即大聲疾呼:「這已經不是箭在弦上的問題!而是對方的箭都已經射向我們了,我們還不趕快將靶畫起來?」

➤AI訓練的材料台灣無法可管

目前全球主要的LLM模型設計公司,包括Meta、Google、Anthropic、OpenAI,4家都是美國公司。去年4月,《紐約時報》一篇〈科技巨頭如何投機取巧,為人工智慧收集訓練資料〉的調查報導指出,2021年底,OpenAI就已面臨文本大水庫見底的危機,該公司因此研發了Whisper語音辨識工具來應對,並將超過100萬小時的YouTube音檔轉錄成文本,用於GPT-4的訓練。從此,也開啟了這些LLM公司的資源搶奪賽,一個個紛紛繞過法律,開後門、走捷徑,對內容產業上下其手。

生成式AI的訓練對內容相關產業造成莫大威脅,不到兩年時間內,全球已有30多起對LLM公司提告的侵權訴訟。但這些科技公司口徑一致,均宣稱:因為AI不會給使用者正確答案,而是從資料庫媒合可能性最高的詞語內容,所以這些訓練語料都是合法使用的。

這個趨勢下,未來影響出版界最大的,將會是技術型書籍。包括商業策略、社會科學等非虛構書籍的商業規模,恐將減少60%以上(如此一來,出版社到底還要不要出書?)。意外的是,虛構類的文學書雖容易被AI複製,但因為風格特色各殊,反而還有存活空間。

綜觀國際,美國的版權相關法案尚未對人工智慧學習有明確管制。日本2019年曾對LLM抱持開放,但2024年中已改回保守限縮。歐盟因10年前改採鄰接權,有法源可對「版權內容再利用」情形納管,咸認是當前面對AI侵權的唯一解。而台灣的版權相關法令與美國相近,對LLM的侵權愛莫能助,且國內對此缺乏維權討論,是目前最大的問題。


AI時代的四大科技巨頭:Google Gemini、Meta AI、OpenAI ChatGPT、Anthropic Claude

➤內容授權的共識

去年4月,英國《金融時報》將新聞資料庫授權給OpenAI,成為繼美聯社、德國斯普林格、法國《世界報》、西班牙普利沙集團後,第5個與之締結的付費協議。許多媒體人將這項計劃視為出賣自己的背叛行為。然而《金融時報》執行長表示,如果當時沒有這麼做,才是更大的災難。達成授權協議,至少能在合理的法律範圍上,互相保護、防止外洩、確保不被其他人利用。


圖片取自OpenAI網站公告

對此做過研究的出版人A表示:「這個觀念在台灣出版界,還是偏少的。」那麼興訟與協議,何者才是維護台灣產業權益較好的解方?他認為,催促政府立即修法保護,有現實上的困難。雖然目前美國參議院已有因應人工智慧時代的版權法修正草案,但台灣若只想等待美國確立後再跟進規範,恐怕為時已晚。

「不過我們還是有機會做一些事的。」他說,版權方此時介入制定規則尚不嫌晚,也絕對有機會達成利己的邏輯模式。

「例如在2024年5月以前,『生成內容若涉及學習資料,需註明出處』這條規則,原本是不存在的,是媒體商與AI公司協議過程中,了解了AI怎麼訓練、資料怎麼被運用之後,才提出來的要求。這表示AI問與答的遊戲規則都還在建立中,也表示台灣現在還來得及、也有條件去跟對方談。樂觀估計,大概一年之內還來得及。」

美國華盛頓大學Emily Benders教授在學術論文裡提到,世界第一大學習語料是英文(AI平台也都以英文為主),而第二大語料是中文,加上全球AI所使用的硬體,有90%都是台灣製造,所以在話語權上,我們絕對有立足點。

有鑑於此,在人工智慧無可逆轉的潮流趨勢下,台灣除了必須盡速訂定符合雙方需求的版權法規,重新規範AI學習這件事情之外,版權擁有者也最好遞出橄欖枝,積極尋求面對面協商。否則一旦技術方優先完成遊戲規則,出版商將不再具影響力與聲量。不僅出版,所有內容產業都應該盡早凝聚出這些共識,面對衝擊時才不會茫然無所知。

➤風口浪尖,出版業想好站哪了嗎?

LLM正在改變世界。過去所有人都認為書籍是整理知識最有系統、最有邏輯,也最容易被吸收的方式(沒有之一),而出版業(包括新聞媒體)最強大的能力即是載體。

可是從去年年中開始,AI已經可以把一切平常人看不懂的論文、學術書,任意生成諸如一齣1.5小時輕鬆幽默好消化的廣播劇,而且不用版權。


NotebookLM目前不支援讀取付費文章,但會員仍可以「繞道」。圖片取自NotebookLM

當AI將這項功能全數直接下放給用戶使用的時候,就像自媒體發展的歷程一樣,內容將演變成客製化的自助餐,只要掌握好吃的祕訣就有流量,就算是個人也能打趴過去的傳統媒體與出版。

可以想像的是,未來內容提供者可能對接的,不再是出版社,而是「AI知識管理員」。出版商如果沒有在手中仍握有智產優勢的現在,預想及推演跟LLM公司談判的內容,那麼假以時日,「出版」二字將成為過去式,現階段的許多專業,都會變成「過去的傳統工藝」。

出版人A提醒:面對AI,我們不能太過落單,與之攜手還可以成就很多聰明的事,開發更對等的互惠或合作空間。他說,出版人也許會如此自限:「科技公司怎麼可能跟我們談?我們講的他們會聽嗎?我們又管不到他們,也不知道他們要做什麼……」然而,我們又如何確定對方不會聽呢?

我們知道AI很厲害、科技公司賺很多錢,但從未搞懂AI模型長什麼樣、如何被運用。這些都是開啟協商才有機會了解的事,也才有機會提出一些對等條件。除了產業談判,公部門也必須把足夠的專業和力氣放進來協助談判,才比較容易達成目的。

此外,我們只接觸到AI的末端應用,缺乏了解形成原理的人。不管是新聞媒體或出版商,有概念的人屈指可數。或許出版界也需要一些相關專區或專業頻道,認真、定期地檢視AI技術的演進,並廣泛尋找專家,幫我們看看AI語料訓練與版權之間有沒有新的解法,提供一些補品或藥單。

出版人A呼籲:AI的演變超乎我們想像,每個月都在飛速進行,蹉跎十天半個月,我們對它的掌握就會又掉了一大截,當立院還在為法條吵來吵去時,技術早已經翻篇。因此在我們還握有產業優勢與內容資產的當前,跟進的速度真的要加快了。

包括文化部、數發部、立委以及出版話語權較大的人,必須知道事情的嚴重性,開始出手倡議。出版界也要有集體性的討論跟提案,盡速理解AI到底需要我們什麼?我們可以介入什麼?

上車要及時。

手指點一下,您支持的每一分錢
都是推動美好閱讀的重要力量