AI製作字幕省成本 影片會議適用
【明報專訊】幾年前,幾家大公司的語音辨識和翻譯技術開始成熟,催生了一大批旅遊翻譯機的出現。但若是處理影片和會議,這些旅遊翻譯機還不算是方便合用。近期,本地有初創企業和大學附屬企業分別因應影片和會議這兩種場景,研發出自動產生字幕和會議紀錄的產品,更優化了廣東話辨識技術。
明報記者 薛偉傑
Datax Limited行政總裁黃偉俊表示,該公司2020年底開始研發線上AI字幕工具Subanana,希望方便YouTuber等用戶直接將短片內語音轉換成文字,甚或翻譯成其他語言,迅速為短片加上字幕,以解決後期製作中較繁瑣的「字幕謄寫及翻譯」工作。該公司最初採用市場上主流的語音辨識模型,不過,後來發現市場上現成的語音辨識模型在處理廣東話方面表現不太理想。因為香港人講廣東話有幾大特點,第一是中英夾雜;第二是口語和書面語有分別;第三,有一些通俗的俚語(俗語),是外國和中國內地的軟件開發商未必認識的。因此,該公司認為,在處理廣東話方面不能純粹照用市場上現成的語音辨識模型。該公司找到一個開源的人工智能(AI)語音辨識模型,進行廣東話「加操」,主要就是利用YouTube上的大量廣東話短片來訓練前者。
「加操」AI 提升廣東話辨識能力
為了證明「加操」廣東話的必要,黃偉俊以本地某個科技媒體以往拍攝的短片作示範。短片中的人員中英夾雜地提及「Intel 13代CPU測試成績出爐」這句子。若純粹照用市場上現成的語音辨識模型,這句會被辨識為「應該十三成績喎」,明顯有差距,甚至可以說不合格。但若使用經該公司加操後的語音辨識模型,就可以準確辨識出來。黃偉俊表示,該公司花了好些工夫加操,令到該語音辨識模型能夠準確辨識到一些常用產品的型號,甚至自動加上「-」符號(例如Intel的i9-13900K處理器)等。
用戶分級 500多個屬付費
2021年,Subanana開始採用分級制,除了最基本的Subanana Free服務完全免費(上載影音檔案每個最長限15分鐘,大小在500MB以內)之外,其餘按分級收取月費或年費。到2022年10月,Subanana推出改良版本,用戶上載廣東話短片後,可以隨意選擇是要口語還是要書面語的廣東話字幕。
截至6月,Subanana活躍用戶已達約3000個,包括500多個付費用戶。其中,最多付費用戶選擇月費690元或年費5680元的Subanana Plus計劃,約有300人。收費更高的Subanana Premium,是該公司員工代為處理,在軟件辨識後再人手複檢,為影片校對字幕及時間軸,確保字幕正確兼與畫面同步。不過,Subanana Free、Subanana Plus和Subanana Premium都只能提供繁簡中文和英文字幕。若企業需要長期製作多種語言的字幕,該公司建議它們選擇客製化服務,即是由該公司提供系統集成服務,將Subanana使用的語音辨識模型和翻譯模型等整合到有關企業使用的軟件,這樣可支援約100種語言。
除了為YouTuber等內容創作者減少繁瑣的後期製作工作之外,該公司也希望,其服務可以方便聽障人士。此外,更希望將來有機會和影視發行商或電視台合作,例如協助後者翻譯外購電視劇的字幕等。