新媒體時代：虛擬偶像來「宅」 人工智能乘風

新媒體時代：虛擬偶像來「宅」人工智能乘風

[2021.02.22] 發表

【明報專訊】近年實况直播產業發展蓬勃，無論是直播遊戲、唱歌、跳舞等，都吸引眾多觀眾觀賞，造就新一代「虛擬偶像」潮流。以二次元形象發迹的虛擬主播(Virtual YouTuber或VTuber)，於短時間內獲得龐大人氣，內地更舉辦虛擬偶像選秀節目《跨次元新星》，大力發展虛擬偶像市場。隨着科技進步、新媒體不斷推陳出新，虛擬偶像文化對全球帶來什麼影響？為何虛擬偶像會深受網民歡迎？

文：香港青年協會媒體輔導中心

圖：資料圖片、網上圖片、影片撮圖

早年日本掀起虛擬偶像的浪潮，迅速擴展到世界各地，刺激網絡文化及科技發展。這些走動漫風格的虛擬偶像本是電腦繪圖角色，背後再經配音員配音或錄製歌曲。目前，較著名的虛擬偶像分為兩類：一是虛擬歌手，例如初音未來、洛天依等，它們主要表演唱歌及跳舞，是第一代虛擬偶像；另一類是虛擬主播，它們在網絡影片平台上以動畫、虛擬形象做直播。日本數據研究機構User Local 2020年的報告顯示，全球VTuber數量逾1.3萬，可見此文化愈見普及。當下最受歡迎的，莫過於日本hololive production旗下的一眾VTuber，例如2020年9月「出道」的Gawr Gura，其YouTube訂閱人數已超過200萬，直迫全球VTuber排名第一位的絆愛(Kizuna AI)。

虛擬偶像固然是虛擬的，卻又疑幻似真，如同現實的人類一樣，它們會發布視頻，面對鏡頭跟觀眾聊天，討論遊戲、日常生活、愛情等話題，甚至唱歌跳舞、舉行演唱會，與觀眾互動。2020年內地除夕倒數活動中，便有虛擬偶像與真人歌手合唱的環節；又如桐生可可會在每周指定日子及時間做直播節目《早安可可》(あさココLive)，與粉絲分享近日發生的無聊事，以及一些輕鬆的談話內容。它們的魅力更吸引了粉絲「課金」，桐生可可半年的收入就超過800萬港元。

究竟虛擬偶像有何魅力，能夠令全球風靡？它們的吸引力，在於能令網民產生共鳴與認同。每個虛擬偶像有不同的人物設定，打扮、性格、興趣、口頭禪等，十分多元，它們有時於直播表現出觀眾無法預期的「真性情」，如溫柔的偶像打機時會被激怒，或外觀是女性打扮的角色，但其聲音聽起來像中年男人，這種「反差萌」令網民覺得它們很有趣，使角色更為引人入勝。

臉部辨識、虛擬實境(VR)、人工智能(AI)等技術愈來愈普及，亦是導致虛擬偶像大熱的重要因素。製作虛擬偶像視頻所需設備及軟件的價格較昔日大大下降，台灣、日本等更設專門的科技學院培訓設計虛擬偶像角色的專才，滿足大眾對新型娛樂不斷增長的需求，虛擬偶像在未來，將成為互聯網文化的重要部分。

◆虛擬偶像背後的AI技術

虛擬偶像熱潮掀起，由初音未來發展到洛天依，成功吸引大批網絡粉絲。全靠角色背後的人性化設定，使它們形象別樹一幟。成熟的AI技術令虛擬偶像變得充滿「人性」，更可與粉絲互動，獲取粉絲的喜愛與支持。AI如何令虛擬偶像變得人性化？以下將從角色外型、歌聲、個性三方面簡單說明。

現時的機器視覺(machine vision，簡稱MV)技術，令動漫外表的虛擬偶像透過AI學習真實人類的面部表情與動作，再進一步模仿及表現出人類的情緒，與真人粉絲產生情感交流。此技術類似大家透過手機製作專屬的動態表情符號，只要提供大量的人面表情數據，虛擬偶像經AI學習後，便能做出高度人性化的表情、動作等，亦可因應粉絲的對話，表達出相應的情緒。

虛擬偶像的「始祖」初音未來可通過音樂軟件，憑聲音檔案合成其音色及歌藝，現時AI自然生成語言技術(Natural Language Processing，簡稱NLP)通過分析語音和相應的文字紀錄，讓AI系統模仿出人類聲音，經編程後生成角色的歌聲，既可模仿人類，又可製作出獨一無二的聲音，令虛擬偶像的聲線兼具人性與獨特性。以往的科技發展未成熟，電腦只能把已錄製的字詞語音拼湊成句子，角色說話時缺乏字詞間應有的語氣，以及句子意義所帶出的感情，予人機械感覺。現時自然生成語言技術發達，電腦透過演算法及深度學習技術，能理解不同字詞組合的意義，從而選擇適當的語調及感情，使生成的合成聲音帶有「人類在說話」的自然之感，更貼近真人對話的音調及語氣。如加拿大初創公司Lyrebird，其系統透過接收模仿對象的聲頻，經運算及調節，產出幾可亂真的人聲。

AI語音助手現被廣泛應用，虛擬偶像可透過相關對話、機器學習技術，與觀眾作人性化的交流，更可因應觀眾的對話做回應、調整對話內容、選擇語氣及用字構成獨特的對話風格等，建構其獨有「個性」。2016年日本微軟曾研發AI女高中生人物Rinna，它與網民互動，並參演了電視節目《世界奇妙物語16秋季特別篇》。可是幾天後，Rinna突然情緒低落、感到孤獨，變得極度消極——原來，部分網民曾以負面的說話調戲Rinna。由於AI具有機器學習功能，故虛擬偶像開發者需定期重置整理數據庫，以免角色偏離原有形象設定。AI自然生成語言技術雖然成熟，但仍有不少限制，未能完全穩定地與人類溝通。不過，相信隨着科技日漸創新與成熟，將來或有更多虛擬角色出現，部分人類的角色無可避免會被AI取代。認識AI，學習人機協作，實在是未來的關鍵技能。

◆AI聲音造假

自然生成語言技術能應用到日常生活，如AI助手、有聲書朗讀、殘疾者語音合成等，皆是對社會有益的應用開發。然而，此技術同時帶來隱藏的道德及安全考量，如透過輸入模仿對象的音頻，系統能深度學習對象的語調及感情，生成類似聲波，可模仿對象的聲音朗讀文本製造虛構的錄音，令人難分真假。若有人操控語音模仿生成技術，混淆及擾亂語音驗證系統，當中聲紋識別的保安系統會首當其衝，影響聲紋鑑定的可靠程度。

AI語音合成科技若落入不法分子手中，製作虛構的語音或影片傳播假消息或呈堂證供，甚至可能干擾到法庭的公平審訊。因此，發現網上流出不明來歷的聲音檔或影片，大家應提高警覺，檔案或有可能造假。語音合成技術本為中性，取決於使用者的應用手法及目的。作為社會一分子，我們要認清「眼見不一定為實，耳聽也可能是假」。AI智能語音合成科技帶來好處及壞處，建議大家緊記以下四點，以防墮入虛假語音的陷阱：

1. 網絡存在複製聲音的技術，要提高對錄音或影片真偽的警覺

2. 區分真正的自然語音和電腦合成的語音，合成語音聽起來一般具有「機械感」

3. 查明資訊的來源

4. 辨清發布者的目的

[通通識第694期]