Deepfake持續(xù)進化:無限接近于真實,但仍非真實
你有過在社交媒體上把AI合成的用戶頭像當真的經(jīng)歷嗎?在“深度偽造”(Deepfake)技術(shù)趨近于真實,甚至已經(jīng)繞過了恐怖谷效應(yīng)的今天,“真”與“假”之間的界限一度被重新定義。
作為“深度偽造”技術(shù)目前最重要的表現(xiàn)形式之一,AI合成技術(shù) 已經(jīng)被廣泛應(yīng)用在大眾娛樂領(lǐng)域,例如 電影配音、游戲角色、電視直播中都出現(xiàn)了它的身影。與此同時,大眾也越來越多地利用這項技術(shù)來創(chuàng)作內(nèi)容。
然而,技術(shù)應(yīng)用也帶來了隱私和安全問題。 1月28日,網(wǎng)信辦在針對深度合成技術(shù)及內(nèi)容的征求意見稿中提出,深度合成服務(wù)提供者應(yīng)當使用顯著方式對所生成的深度合成信息內(nèi)容進行標識。 若提供人臉、人聲等生物識別信息的顯著編輯功能,還需取得被編輯的個人信息主體的單獨同意。 [1]
“深度偽造”技術(shù)發(fā)展至今,有哪些變與不變?又是如何被應(yīng)用的?本期全媒派(ID:quanmeipai)帶你走進真假難辨的虛擬世界,探討這項技術(shù)的發(fā)展是如何影響內(nèi)容創(chuàng)作和體驗的。
更接近真實的換臉與合成語音
首先,我們再回顧一下“深度偽造”,這是指以AI合成技術(shù)為核心、基于深度學習和虛擬現(xiàn)實等生成合成類算法制作文本、圖像、音頻、視頻或虛擬場景的技術(shù),主要包括以圖像形式存在的臉部替換、以音頻形式存在的聲音替換以及影像中臉部與聲音的同步替換。
自2018年發(fā)展至今,AI合成技術(shù)的更新迭代速度超乎想象,正在無限趨近于真實,其中又以AI換臉技術(shù)和AI語音合成技術(shù)為代表。
AI換臉
眾多證據(jù)表明,AI人臉合成技術(shù)已經(jīng)發(fā)展到以假亂真的地步。譬如國外小有名氣的造臉網(wǎng)站This Person Does Not Exist就能提供一秒生成人像的AI造臉術(shù),逼真程度令人咂舌。再比如Generated Photos通過對龐大的真實人像數(shù)據(jù)庫的深度學習,能自動生成10萬張人臉照片,允許用戶用作社交網(wǎng)站交友頭像等其他用途。[2]
也有研究表明,AI生成的人臉甚至可以比真實的人臉更自然。在加州伯克利大學近期一項研究中,315名隨機挑選的參與者被要求從800張圖片中分辨出400張AI生成人臉和400張真實人臉。兩組人臉分別涵蓋白人、黑人、東亞人和南亞人各100張。
結(jié)果顯示,315名參與者最終的正確率是48.2%,甚至低于隨機挑選的準確率。隨后,研究者召集了另外219名參與者,提供識別AI合成臉的教學訓練。這組參與者的最終正確率提升至59%,但研究者認為“差別不大”。[3]
一組由AI合成技術(shù)生成的人臉,你看出來了嗎?圖片來源:New Scientist
AI合成語音
搭乘機器學習技術(shù)發(fā)展的快車,AI語音合成技術(shù)在近幾年同樣是突飛猛進。 過去制作仿真語音通常需要先錄取一段真實的人聲,把一段話切割成單獨的語音單位,再像字母拼圖一樣重新拼合成新的語音片段。
而現(xiàn)在,人工智能已經(jīng)可以通過學習目標人聲的語音數(shù)據(jù)而自動生成一段內(nèi)容完全不同的音頻,更快,更便捷,也更真實自然。
相關(guān)應(yīng)用更是達到可以傳遞情緒、語氣的程度。例如在Sonantic公司設(shè)計的一款語音軟件上,用戶可以用文字打出想要生成的語音片段,并挑選他們想要傳遞的情緒,比如憤怒、恐懼、悲傷、愉悅或興奮。
此外,用戶還可以通過“導演模式”進一步調(diào)節(jié)聲音的語調(diào)、語氣的強弱,甚至可以插入笑聲、呼吸聲等非語言類聲音,就像是“語音版的PS”。該公司目前不僅已經(jīng)和3A游戲公司、娛樂公司等達成合作,還成功在今年年初成為奔馳汽車的車載語音助手。[4]
Sonantic的用戶操作頁面。圖片來源:The Verge
在未來幾年,AI合成語音技術(shù)最廣泛的應(yīng)用場景可能是名人聲音克隆,即獲得明星名人的授權(quán)后用他們的聲音合成定制化語音并商用。一家名為Veirtone的美國公司在年初推出一項服務(wù),明星網(wǎng)紅們只需要簡單授權(quán)就可以讓自己的聲音出現(xiàn)在廣告代言或電視廣播中。[5]
逐步影響日常內(nèi)容體驗的“深度偽造”
不斷降低的技術(shù)門檻、合成類音視頻的強娛樂性和社交網(wǎng)絡(luò)的傳播屬性使得“深度偽造”內(nèi)容的用戶創(chuàng)作數(shù)量在互聯(lián)網(wǎng)上呈井噴式增長。
《深度合成十大趨勢(2022)報告》顯示,互聯(lián)網(wǎng)深度合成內(nèi)容創(chuàng)作與傳播數(shù)量呈指數(shù)級增長,國內(nèi)外十大音視頻平臺(騰訊視頻、愛奇藝、優(yōu)酷、嗶哩嗶哩、抖音、快手、微博、YouTube、Twitter、TikTok)內(nèi)的深度合成視頻的點贊量就高達3.16億。[6]
圖片來源:《深度合成十大趨勢(2022)報告》
“深度偽造”技術(shù)不再是科技公司的專屬,也不再局限于影視作品和廣告營銷中,越來越多相關(guān)應(yīng)用和平臺的出現(xiàn)讓普通大眾也可以在更廣泛的場景中體驗AI生成。
AI播客剪輯
Descript就是一款由美國同名公司使用AI合成語音技術(shù)研發(fā)的播客編輯軟件。用戶可以通過AI語音克隆技術(shù)編輯甚至創(chuàng)作自己的專屬音頻內(nèi)容。使用軟件的“疊錄”功能克隆并生成自己的AI人聲后,只需要通過編輯轉(zhuǎn)錄的文字就可以調(diào)整音頻,用戶可以直接刪減或增添文字來更改音頻內(nèi)容,頁面對于用戶使用來說也十分簡單、易操作。 [7]
制造視頻迷因
AI換臉技術(shù)也正在憑借FakeApp和DeepFaceLab等工具走向普羅大眾。去年在短視頻上爆火并快速席卷海內(nèi)外社交媒體的湯姆·克魯斯換臉視頻就是一個有力的佐證。在視頻中,一個從長相到聲音都酷似湯姆·克魯斯的“人”或是穿著花襯衫表演“硬幣戲法”,或是在街頭某家男裝店閑逛,做出一些與好萊塢巨星身份存在巨大反差的舉動。
這些視頻均出自視覺特效藝術(shù)家Chris Umé之手。他找到湯姆·克魯斯的頂級模仿者進行合作,并使用“深度偽造”技術(shù)創(chuàng)作出這些爆款視頻。事實證明,高度普及的社交媒體和先進的AI合成技術(shù)使得“深度偽造”內(nèi)容 具備隨時隨地成為“網(wǎng)絡(luò)迷因”的潛力。
湯姆·克魯斯在tiktok上的“深度偽造”視頻截圖。圖片來源:tiktok@deeptomcruise
“復(fù)刻親人”
以色列公司D-ID所創(chuàng)建的視頻技術(shù)平臺Deep Nostalgia更是在圈內(nèi)造成不小的轟動。通過使用平臺提供的AI人臉生成服務(wù),用戶可以重新上傳已故親人的圖片,生成會動的影像。視頻中的“親人”能夠做出眨眼、微笑、點頭等一系列動作,用戶可以獲得一種和“活人”面對面的視覺效果,借助AI合成技術(shù)讓逝者在網(wǎng)絡(luò)空間中“活”過來已經(jīng)不再是天方夜譚。
深度偽造+內(nèi)容創(chuàng)作的邊界與未來
當“深度偽造”技術(shù)逐漸“平民化”,互聯(lián)網(wǎng)用戶在內(nèi)容創(chuàng)作上將會有更多元的選擇和創(chuàng)新。不難想象在不遠的將來可能會有一款游戲,玩家可以在角色創(chuàng)建頁面中生成并使用自己的AI人聲,更沉浸式地體驗游戲里的世界。
然而,當“真”與“假”之間的界限被技術(shù)的迭代更新反復(fù)沖刷,內(nèi)容創(chuàng)作與傳播的邊界又該如何被重新界定?法律、道德和倫理始終是我們無法回避的命題。
早在2019年3月,《華爾街日報》就曾報道過一起詐騙案件:犯罪分子使用AI語音合成技術(shù),冒出德國老板的聲音,欺詐“下屬”英國子公司負責人轉(zhuǎn)賬了約合人民幣173萬元的款項。 [8] 除信息詐騙等犯罪行為之外,這項技術(shù)目前造成的最大威脅依然是未經(jīng)本人允許創(chuàng)作或傳播的色情視頻。
而對于社交網(wǎng)絡(luò)而言,“深度偽造”技術(shù)目前最主要的隱患在于傳播錯誤信息,影響公眾輿論。當“眼見”不一定“為實”,真實信息的公信力將大幅度降低。再加之互聯(lián)網(wǎng)的傳播能力,真假信息之間會越來越難以分辨。
既然音視頻可以以假亂真,任何人都可以污蔑真實內(nèi)容為合成技術(shù)的產(chǎn)物,以試圖顛倒黑白、逃避責任,甚至引發(fā)公眾對真實信息的大規(guī)模質(zhì)疑,即所謂的“騙子的紅利”。[9]這可能會是“深度偽造”技術(shù)對真實世界造成的最嚴峻的考驗之一。
弗吉尼亞大學應(yīng)用倫理學榮譽教授Deborah Johnson在最近創(chuàng)作的《我們該如何應(yīng)對“深度偽造”技術(shù)》一書中也提到,“深度偽造”技術(shù)會嚴重影響官方媒體的公信力和網(wǎng)絡(luò)信息的可信度。
“我們將不再相信我在網(wǎng)絡(luò)上看到和聽到的一切”。但與此同時,用標簽標記可能是應(yīng)對這類威脅最簡單快速的方法,“如果觀看視頻的人事先知道它是AI合成的,可能會比較不容易受騙”。[10]
然而,如何在恰當標記合成內(nèi)容的同時不破壞創(chuàng)作者的意圖?又如何界定相關(guān)內(nèi)容涉及到的性別、年齡、種族等一系列倫理問題?這無疑給內(nèi)容管理者拋出了一長串難題。
紐卡斯爾大學法學院的Lilian Edwards教授提出,AI合成內(nèi)容被商用后的所有權(quán)和使用權(quán)也值得探討。例如,當使用已故演員Steve McQueen的人臉生成視頻作為商業(yè)化用途時,他的家人是否能夠擁有視頻的所有權(quán)并從中獲利,仍有待商榷?!澳壳懊總€國家的相關(guān)規(guī)定都略有不同”。[11]
即便牽扯到種種錯綜復(fù)雜的問題也并不影響一個趨勢即將成為事實:在不遠的未來,“深度偽造”技術(shù)將走進千家萬戶,每個人都可以通過AI合成克隆自己的人臉和聲音,并用于短視頻、直播、交互媒體等更廣闊的領(lǐng)域。然而,無限接近于真實,卻依然不是真實,在這宏偉藍圖背后可能暗藏的隱患和還未浮現(xiàn)的新挑戰(zhàn),仍然有待書寫和填補。
參考鏈接:
[1]https://m.mp.oeeee.com/a/BAAFRD000020220129648488.html
[2]AI-Generated Faces: What Makes a Human a Human?
https://www.shutterstock.com/blog/ai-generated-faces-what-makes-a-human
[3]Fake faces created by AI look more trustworthy than real people
https://www.newscientist.com/article/2308312-fake-faces-created-by-ai-look-more-trustworthy-than-real-people/
[4] Listen to an AI voice actor try and flirt with you
https://www.theverge.com/2022/2/17/22936978/ai-voice-speech-synthesis-audio-deepfake-sonantic-flirtation
[5][7]
EVERYONE WILL BE ABLE TO CLONE THEIR VOICE IN THE FUTURE
https://www.theverge.com/22672123/ai-voice-clone-synthesis-deepfake-applications-vergecast
[6]《深度合成十大趨勢(2022)報告》
https://www.iczhiku.com/hotspotDetail/uvDLklAJE6mJZK6uCmFzRA==
[8]https://www.wsj.com/articles/fraudsters-use-ai-to-mimic-ceos-voice-in-unusual-cybercrime-case-11567157402
[9]The impact of deepfakes: How do you know when a video is real?
https://www.cbsnews.com/news/deepfakes-real-fake-videos-60-minutes-2021-10-10/
[10][11]
https://edition.cnn.com/videos/business/2021/03/02/tom-cruise-tiktok-deepfake-orig.cnn-business
今日互動
你曾經(jīng)消費過哪些由AI合成的內(nèi)容?或使用過哪些AI合成應(yīng)用?你如何看待此類技術(shù)的普及化?
本文來自微信公眾號 “全媒派”(ID:quanmeipai),作者:Jinji,36氪經(jīng)授權(quán)發(fā)布。
標簽: Deepfake