首頁 >國際 >

真假孫燕姿 虛擬數(shù)字人的異化 要聞

【編者按】AIGC席卷之下,技術加持讓虛擬人類逐漸變得真假難辨。在競爭激烈的市場環(huán)境中,億萬分身不眠不休億萬產(chǎn)業(yè)無窮無盡,越來越多的虛擬人類被開發(fā)、應用于互聯(lián)網(wǎng)中。技術使機器充分具備了人的特點,人類也在追求智能化的道路上越走越遠。英劇《黑鏡》在“Be Right Back”使用人工智能克隆人類聲音的場景,已經(jīng)不局限在熒屏中了。在虛擬人類作為技術創(chuàng)新與文藝創(chuàng)作相結合的載體的今天,“AI孫燕姿”們打開的“虛擬人與人”的世界不是一場簡單的“雙廚狂喜”“夢幻聯(lián)動”,思考它們?nèi)绾畏沼诂F(xiàn)實,助推于產(chǎn)業(yè),反哺于社會,認知它們能夠在我們的世界中走多遠,了解其如何在技術的支持下變得“人性化”非常重要。

5月23日,真身孫燕姿回應AI“分身”,她表示:“人類無法超越AI,做自己就夠了。”回應背后,是繼ChatGPT后,AIGC迎來的第二次現(xiàn)象級事件。


(資料圖片)

在B站上,一首由“AI孫燕姿”演唱的《發(fā)如雪》意外出圈。截至5月20日,這段發(fā)布于4月14日的視頻播放量已經(jīng)達到了180.7萬。AI孫燕姿成了新的流量密碼,相關平臺上,由其翻唱的歌曲呈現(xiàn)爆發(fā)態(tài)勢,粗略計算已超過1000個。

人工智能沉浮十年,終于在ChatGPT出現(xiàn)的那一刻找到了落地的應用場景,隨即在產(chǎn)業(yè)領域延伸出無限可能。夾雜著市場爆發(fā)的期待和揮之不去的侵權爭議,AI孫燕姿攪動的,正是AI音樂這一細分領域的一池春水。

AI翻唱

從訓練到推理

5月19日中午,科技博主小亦在自己的抖音賬號上傳了最新一期視頻。這一次,他的主題從AI孫燕姿轉向了AI張雨生。此前,他用兩天的時間分離了200多首歌曲的素材,又用一天多的時間進行了3000次左右的訓練。

小亦在抖音上運營著一個叫“AI君主小亦”的賬號,4月底,他發(fā)現(xiàn)了這項技術,開始鉆研應用,并在抖音上上傳了自己嘗試后制作的視頻。目前,小亦上傳的AI孫燕姿版《需要人陪》播放量已經(jīng)超過200萬,AI孫燕姿版的《不為誰而作的歌》還曾登上抖音熱搜榜單。

比起AI孫燕姿的“以假亂真”,這首AI張雨生版的《沒離開過》并沒有達到小亦理想中的效果。小亦在視頻中坦言,由于張雨生的高音素材相對太少,不能滿足充分訓練需求,所以對成品質(zhì)量有影響,現(xiàn)在他正在著手解決這一問題。

據(jù)了解,整個翻唱的技術底座是一個來源于全球最大開源社區(qū)Github中的項目So-vits-svc。公開資料顯示,該項目是基于VITS、soft-vc、VISinger2等一系列項目開發(fā)的開源免費AI語音轉換軟件。在小亦的個人工作室,他為北京商報記者詳細地展示了制作AI孫燕姿音樂作品的完整過程,大致可以概括為收集素材、分離“干聲”、進行訓練、翻唱歌曲四個步驟。

首先要找到足夠數(shù)量的孫燕姿本人演唱的歌曲,通常在幾百首左右,之后通過相關技術手段,將歌曲中的伴奏、混響、和聲等與人聲分離,再在這個基礎上進行切割,刪除空白片段,將每個片段控制在5-20秒之間。準備妥當之后就可以開始訓練了。

為了滿足硬件上的需求,小亦專門在算力市場租用顯存。他的日志顯示,一些訓練達到2000次的時候就被小亦手動暫停了,他解釋稱,由于訓練耗時相對較長,中止訓練是為了提早檢驗效果,以便優(yōu)化訓練參數(shù)配置,在確認無誤后,會重新訓練到大約3萬次,以達到最佳效果。另外,雖然訓練次數(shù)本著多多益善的原則,但如果素材本身有局限,即使訓練次數(shù)翻倍,成品質(zhì)量也不會有太大的提升。

完成上述工作就相當于完成了AI翻唱99%的進度,最后一步就是“推理”,即將需要被替換的音頻上傳。替換一首歌曲的時間通常需要3分鐘左右,相比之下,訓練的過程則要持續(xù)數(shù)個甚至數(shù)十個小時。

聲智科技數(shù)智人產(chǎn)品副總裁黃赟賀稱,AI孫燕姿屬于AI翻唱領域的應用案例,涵蓋了擬人化的語音合成、情感計算和音樂合成等技術,這些技術主要以深度學習為技術底座,屬于AI語言、語音和圖像三大技術領域中的語音分支。

為什么最先出圈的會是AI孫燕姿?黃赟賀認為,AI分身有“虛擬偶像”的特征,可以鏈接粉絲和偶像產(chǎn)生互動感,具有娛樂性。此次AI孫燕姿在B站火出圈,也是AI產(chǎn)品在合適的應用場景落地能引發(fā)用戶自傳播效應的佐證。

還有人認為這是因為孫燕姿本人咬字清晰,習慣尾音短,句尾收音干凈,容易被AI化。但在小亦看來,最主要的原因還是在于孫燕姿的聲音集已經(jīng)通過互聯(lián)網(wǎng)公開,因此方便大家直接拿來訓練,如果要訓練其他人的音色,付出的時間成本與技術成本相對較高,自然也就篩掉了一部分出于好奇心理進行嘗試的用戶。

風險外溢

繞不過的版權檻

當互聯(lián)網(wǎng)沉浸在AI孫燕姿掀起的狂歡時,人民網(wǎng)評卻潑來了一盆“冷水”——AI歌手需系好法律這個第一紐扣。評論指出,AI歌手涉及的法律問題主要有兩方面,分別為聲音權和著作報酬分配權。

值得一提的是,早在AI孫燕姿走紅之前,So-vits-svc就已經(jīng)停止更新了。So-vits-svc的創(chuàng)作團隊聲明,他們不知道也無法知道用戶使用該項目的目的是什么,所有基于該項目訓練的AI模型和合成音頻與項目貢獻者無關,由此產(chǎn)生的一切問題由用戶自行承擔。

小亦用“刪庫跑路”這個詞概括這種行為,背后的原因直指歌曲侵權。他也曾在自己制作的AI孫燕姿版的《需要人陪》下面做出類似的聲明,比如“僅供娛樂,如涉及侵權請聯(lián)系刪除”。

侵權成了AI歌手浪潮里最大的“不和諧”因素。北京卓緯律師事務所合伙人、律師孫志峰稱,AI歌手現(xiàn)象可能有多個層面的法律風險。

比如,AI歌手如果未經(jīng)許可使用歌手姓名、肖像的,涉嫌侵犯姓名權、肖像權。如果AI歌手的表演宣傳過程中導致歌手形象或社會評價降低的,可能侵犯歌手的名譽權。AI歌手未經(jīng)著作權人許可,演唱表演相應歌曲的,還可能侵犯詞曲的著作權。

此外,使用AI模型生成AI歌手實施侵權行為的,屬于直接侵權,按照前述規(guī)則判定。AI模型開發(fā)者,如果其算法并不符合技術中立規(guī)則,算法及訓練用于侵權用途,或者直接開發(fā)了侵犯他人權利的AI模型的,則可能也構成直接侵權,或誘導、幫助等間接侵權。發(fā)布侵權AI歌手表演的平臺,如果明知或應知侵權,未采取屏蔽/斷開連接等方式,則構成侵權。

“人們在面對一項新技術的時候,總是習慣用原有的觀念去看待、理解,因此出現(xiàn)爭議也是很正常的。”小亦認為。他還給網(wǎng)友提了個醒,如果繼續(xù)做某個AI歌手翻唱的音樂,在自娛自樂的范圍內(nèi)可以任意發(fā)揮,但也要防止一旦大量傳播走紅之后,遭遇版權商的“釜底抽薪”。

對此,小亦也找到了“卡bug”一般的應對方法:在聲紋尚未立法的當下,即便所有人一聽就知道訓練的是哪位歌手的聲音,但只要創(chuàng)作者不明確地標注出來,然后再用他的聲音去復制一些沒有版權或者不太可能維權的歌曲,就不會有任何問題,“雖然這樣的邏輯可能有些不道德,但卻在‘法無禁止即可為’的范疇之內(nèi)”。

今年4月,國家互聯(lián)網(wǎng)信息辦公室發(fā)布《生成式人工智能服務管理辦法(征求意見稿)》,為生成式人工智能劃出了詳細的范圍,即基于算法、模型、規(guī)則生成文本、圖片、聲音、視頻、代碼等內(nèi)容的技術。

同時,征求意見稿也指出,利用生成式人工智能生成的內(nèi)容應當真實準確,采取措施防止生成虛假信息;提供生成式人工智能產(chǎn)品或服務,應當尊重他人合法利益,防止傷害他人身心健康,損害肖像權、名譽權和個人隱私,侵犯知識產(chǎn)權等。

本月早些時候,抖音也發(fā)布了《關于人工智能生成內(nèi)容的平臺規(guī)范暨行業(yè)倡議》,其中提到,發(fā)布者應對人工智能生成內(nèi)容進行顯著標識,需對人工智能生成內(nèi)容產(chǎn)生的相應后果負責,禁止利用生成式人工智能技術創(chuàng)作、發(fā)布侵權內(nèi)容,包括但不限于肖像權、知識產(chǎn)權等。

商業(yè)空間

專業(yè)玩家的市場

AI音樂惹麻煩已有先例。公開報道顯示,今年4月,一名網(wǎng)友曾以加拿大說唱歌手德雷克和加拿大歌手威肯的聲音為原型,利用AI技術生成了一首時長兩分鐘的歌曲《我心可鑒》,此后歌曲迅速爆火并傳播到了多個平臺。

德雷克所屬的音樂公司環(huán)球音樂集團認為,這首AI合成歌曲違反了版權法,向平臺方投訴令其下架的同時,還要求Spotify和蘋果等流媒體平臺切斷AI對其內(nèi)部音樂的訪問權限,防止開發(fā)人員利用其版權音樂訓練AI模型。

環(huán)球音樂集團在音樂雜志《公告牌》上發(fā)布的一份聲明中稱:“平臺負有法律和道德責任,限制侵權者使用其服務”,“我們將毫不猶豫地采取措施保護我們和音樂人的權利”。

AI音樂仿佛陷入了一種矛盾,揮之不去的侵權爭議之下,還醞釀著巨大的商業(yè)化空間。小亦的視頻走紅之后,國內(nèi)也有版權商找到了他,不過交流的主題并不是侵權問題,而是AI音樂的商業(yè)化未來。

用AI技術“復活”去世的親人,實現(xiàn)黃家駒、張國榮的“數(shù)字永生”,面對AI音樂商業(yè)化,網(wǎng)友早已腦洞大開。

在與版權商的交流中,小亦意識到,因為有版權的護城河以及未來聲紋立法的可能性,普通人想借這項技術做大規(guī)模的商業(yè)化是不太現(xiàn)實的,但這也意味著企業(yè)級玩家和音樂人可以享受巨大的紅利,因為他們有版權和完整的后續(xù)轉化銜接鏈路。

而在充分商業(yè)化之后,未來的音樂也可能會實現(xiàn)歌手、歌曲和歌唱技巧的自定義,關鍵就在于哪個巨頭會先出手整合資源。音樂形式也可能出現(xiàn)更新,比如由AI編詞作曲、AI制作MV、AI歌手演唱的,完全意義上的AI音樂。普通人或許也能從中受益,即便是五音不全的人也能借助AI完成好聽的音樂。

事實上,AI音樂領域里,專業(yè)的玩家早已出現(xiàn)。上個月,恰逢7周年,網(wǎng)易嚴選發(fā)布AI主題曲《如期》,據(jù)悉,該歌曲由網(wǎng)易云音樂旗下網(wǎng)易天音提供的AI技術輔助支持。2020年底,網(wǎng)易便已發(fā)布首支AI生成歌曲《醒來》。

另有媒體報道,于2022年2月成立于南京的AI科技音樂公司“期音科技”也已經(jīng)實現(xiàn)了全流程AI音樂創(chuàng)作,開始提供To B服務,并上線了面向C端體驗者的小程序“伯牙智能創(chuàng)作”。今年2月,昆侖萬維還曾在互動平臺表示,公司布局的AI生成音樂方向目前已開始商業(yè)化。

不過黃赟賀也提到,技術還在不斷發(fā)展完善,在音樂合成領域還需要人類剪輯、拼接和平滑才能達到更好的效果,即便如此,在音樂情感表達方面也存在諸多技術方面的挑戰(zhàn),當前AI翻唱還很難模仿人類歌手在聲音方面的獨特性,在觸動人類情感方面還存在較大差距。

“但是AI技術整體在日新月異發(fā)展,如果與當前流行的ChatGPT這樣的大型語言模型技術結合,則可以創(chuàng)造出更多虛擬的音樂歌手形象甚至創(chuàng)造出更多新的數(shù)字音樂?!秉S赟賀稱。

張勒(化名)是一名Live演出活動的運營工作人員,他雖然不能準確地概括出音樂圈對于AI技術的態(tài)度,但從他個人的角度,還是表現(xiàn)出了對AI的支持,“它的走紅背后,是人們對理想化的追尋以及情懷的復刻。從這個意義上說,AI和真人并不沖突”。

“但現(xiàn)場音樂,終歸還是要回到現(xiàn)場的。”交流的結尾,張勒如此說道。

關鍵詞:

責任編輯:Rex_24

推薦閱讀