您的位置：首頁 > 智能 >

Deepfake持續(xù)進化：無限接近于真實，但仍非真實

來源：36氪 ? 2022-02-25 14:31:24

你有過在社交媒體上把AI合成的用戶頭像當真的經(jīng)歷嗎？在“深度偽造”（Deepfake）技術(shù)趨近于真實，甚至已經(jīng)繞過了恐怖谷效應(yīng)的今天，“真”與“假”之間的界限一度被重新定義。

作為“深度偽造”技術(shù)目前最重要的表現(xiàn)形式之一，AI合成技術(shù) 已經(jīng)被廣泛應(yīng)用在大眾娛樂領(lǐng)域，例如電影配音、游戲角色、電視直播中都出現(xiàn)了它的身影。與此同時，大眾也越來越多地利用這項技術(shù)來創(chuàng)作內(nèi)容。

然而，技術(shù)應(yīng)用也帶來了隱私和安全問題。 1月28日，網(wǎng)信辦在針對深度合成技術(shù)及內(nèi)容的征求意見稿中提出，深度合成服務(wù)提供者應(yīng)當使用顯著方式對所生成的深度合成信息內(nèi)容進行標識。若提供人臉、人聲等生物識別信息的顯著編輯功能，還需取得被編輯的個人信息主體的單獨同意。 [1]

“深度偽造”技術(shù)發(fā)展至今，有哪些變與不變？又是如何被應(yīng)用的？本期全媒派（ID：quanmeipai）帶你走進真假難辨的虛擬世界，探討這項技術(shù)的發(fā)展是如何影響內(nèi)容創(chuàng)作和體驗的。

更接近真實的換臉與合成語音

首先，我們再回顧一下“深度偽造”，這是指以AI合成技術(shù)為核心、基于深度學習和虛擬現(xiàn)實等生成合成類算法制作文本、圖像、音頻、視頻或虛擬場景的技術(shù)，主要包括以圖像形式存在的臉部替換、以音頻形式存在的聲音替換以及影像中臉部與聲音的同步替換。

自2018年發(fā)展至今，AI合成技術(shù)的更新迭代速度超乎想象，正在無限趨近于真實，其中又以AI換臉技術(shù)和AI語音合成技術(shù)為代表。

AI換臉

眾多證據(jù)表明，AI人臉合成技術(shù)已經(jīng)發(fā)展到以假亂真的地步。譬如國外小有名氣的造臉網(wǎng)站This Person Does Not Exist就能提供一秒生成人像的AI造臉術(shù)，逼真程度令人咂舌。再比如Generated Photos通過對龐大的真實人像數(shù)據(jù)庫的深度學習，能自動生成10萬張人臉照片，允許用戶用作社交網(wǎng)站交友頭像等其他用途。[2]

也有研究表明，AI生成的人臉甚至可以比真實的人臉更自然。在加州伯克利大學近期一項研究中，315名隨機挑選的參與者被要求從800張圖片中分辨出400張AI生成人臉和400張真實人臉。兩組人臉分別涵蓋白人、黑人、東亞人和南亞人各100張。

結(jié)果顯示，315名參與者最終的正確率是48.2%，甚至低于隨機挑選的準確率。隨后，研究者召集了另外219名參與者，提供識別AI合成臉的教學訓練。這組參與者的最終正確率提升至59%，但研究者認為“差別不大”。[3]

一組由AI合成技術(shù)生成的人臉，你看出來了嗎？圖片來源：New Scientist

AI合成語音

搭乘機器學習技術(shù)發(fā)展的快車，AI語音合成技術(shù)在近幾年同樣是突飛猛進。過去制作仿真語音通常需要先錄取一段真實的人聲，把一段話切割成單獨的語音單位，再像字母拼圖一樣重新拼合成新的語音片段。

而現(xiàn)在，人工智能已經(jīng)可以通過學習目標人聲的語音數(shù)據(jù)而自動生成一段內(nèi)容完全不同的音頻，更快，更便捷，也更真實自然。

相關(guān)應(yīng)用更是達到可以傳遞情緒、語氣的程度。例如在Sonantic公司設(shè)計的一款語音軟件上，用戶可以用文字打出想要生成的語音片段，并挑選他們想要傳遞的情緒，比如憤怒、恐懼、悲傷、愉悅或興奮。

此外，用戶還可以通過“導演模式”進一步調(diào)節(jié)聲音的語調(diào)、語氣的強弱，甚至可以插入笑聲、呼吸聲等非語言類聲音，就像是“語音版的PS”。該公司目前不僅已經(jīng)和3A游戲公司、娛樂公司等達成合作，還成功在今年年初成為奔馳汽車的車載語音助手。[4]

Sonantic的用戶操作頁面。圖片來源：The Verge

在未來幾年，AI合成語音技術(shù)最廣泛的應(yīng)用場景可能是名人聲音克隆，即獲得明星名人的授權(quán)后用他們的聲音合成定制化語音并商用。一家名為Veirtone的美國公司在年初推出一項服務(wù)，明星網(wǎng)紅們只需要簡單授權(quán)就可以讓自己的聲音出現(xiàn)在廣告代言或電視廣播中。[5]

逐步影響日常內(nèi)容體驗的“深度偽造”

不斷降低的技術(shù)門檻、合成類音視頻的強娛樂性和社交網(wǎng)絡(luò)的傳播屬性使得“深度偽造”內(nèi)容的用戶創(chuàng)作數(shù)量在互聯(lián)網(wǎng)上呈井噴式增長。

《深度合成十大趨勢（2022）報告》顯示，互聯(lián)網(wǎng)深度合成內(nèi)容創(chuàng)作與傳播數(shù)量呈指數(shù)級增長，國內(nèi)外十大音視頻平臺（騰訊視頻、愛奇藝、優(yōu)酷、嗶哩嗶哩、抖音、快手、微博、YouTube、Twitter、TikTok）內(nèi)的深度合成視頻的點贊量就高達3.16億。[6]

圖片來源：《深度合成十大趨勢（2022）報告》

“深度偽造”技術(shù)不再是科技公司的專屬，也不再局限于影視作品和廣告營銷中，越來越多相關(guān)應(yīng)用和平臺的出現(xiàn)讓普通大眾也可以在更廣泛的場景中體驗AI生成。

AI播客剪輯

Descript就是一款由美國同名公司使用AI合成語音技術(shù)研發(fā)的播客編輯軟件。用戶可以通過AI語音克隆技術(shù)編輯甚至創(chuàng)作自己的專屬音頻內(nèi)容。使用軟件的“疊錄”功能克隆并生成自己的AI人聲后，只需要通過編輯轉(zhuǎn)錄的文字就可以調(diào)整音頻，用戶可以直接刪減或增添文字來更改音頻內(nèi)容，頁面對于用戶使用來說也十分簡單、易操作。 [7]

制造視頻迷因

AI換臉技術(shù)也正在憑借FakeApp和DeepFaceLab等工具走向普羅大眾。去年在短視頻上爆火并快速席卷海內(nèi)外社交媒體的湯姆·克魯斯換臉視頻就是一個有力的佐證。在視頻中，一個從長相到聲音都酷似湯姆·克魯斯的“人”或是穿著花襯衫表演“硬幣戲法”，或是在街頭某家男裝店閑逛，做出一些與好萊塢巨星身份存在巨大反差的舉動。

這些視頻均出自視覺特效藝術(shù)家Chris Umé之手。他找到湯姆·克魯斯的頂級模仿者進行合作，并使用“深度偽造”技術(shù)創(chuàng)作出這些爆款視頻。事實證明，高度普及的社交媒體和先進的AI合成技術(shù)使得“深度偽造”內(nèi)容具備隨時隨地成為“網(wǎng)絡(luò)迷因”的潛力。

湯姆·克魯斯在tiktok上的“深度偽造”視頻截圖。圖片來源：tiktok@deeptomcruise

“復(fù)刻親人”

以色列公司D-ID所創(chuàng)建的視頻技術(shù)平臺Deep Nostalgia更是在圈內(nèi)造成不小的轟動。通過使用平臺提供的AI人臉生成服務(wù)，用戶可以重新上傳已故親人的圖片，生成會動的影像。視頻中的“親人”能夠做出眨眼、微笑、點頭等一系列動作，用戶可以獲得一種和“活人”面對面的視覺效果，借助AI合成技術(shù)讓逝者在網(wǎng)絡(luò)空間中“活”過來已經(jīng)不再是天方夜譚。

深度偽造+內(nèi)容創(chuàng)作的邊界與未來

當“深度偽造”技術(shù)逐漸“平民化”，互聯(lián)網(wǎng)用戶在內(nèi)容創(chuàng)作上將會有更多元的選擇和創(chuàng)新。不難想象在不遠的將來可能會有一款游戲，玩家可以在角色創(chuàng)建頁面中生成并使用自己的AI人聲，更沉浸式地體驗游戲里的世界。

然而，當“真”與“假”之間的界限被技術(shù)的迭代更新反復(fù)沖刷，內(nèi)容創(chuàng)作與傳播的邊界又該如何被重新界定？法律、道德和倫理始終是我們無法回避的命題。

早在2019年3月，《華爾街日報》就曾報道過一起詐騙案件：犯罪分子使用AI語音合成技術(shù)，冒出德國老板的聲音，欺詐“下屬”英國子公司負責人轉(zhuǎn)賬了約合人民幣173萬元的款項。 [8] 除信息詐騙等犯罪行為之外，這項技術(shù)目前造成的最大威脅依然是未經(jīng)本人允許創(chuàng)作或傳播的色情視頻。

而對于社交網(wǎng)絡(luò)而言，“深度偽造”技術(shù)目前最主要的隱患在于傳播錯誤信息，影響公眾輿論。當“眼見”不一定“為實”，真實信息的公信力將大幅度降低。再加之互聯(lián)網(wǎng)的傳播能力，真假信息之間會越來越難以分辨。

既然音視頻可以以假亂真，任何人都可以污蔑真實內(nèi)容為合成技術(shù)的產(chǎn)物，以試圖顛倒黑白、逃避責任，甚至引發(fā)公眾對真實信息的大規(guī)模質(zhì)疑，即所謂的“騙子的紅利”。[9]這可能會是“深度偽造”技術(shù)對真實世界造成的最嚴峻的考驗之一。

弗吉尼亞大學應(yīng)用倫理學榮譽教授Deborah Johnson在最近創(chuàng)作的《我們該如何應(yīng)對“深度偽造”技術(shù)》一書中也提到，“深度偽造”技術(shù)會嚴重影響官方媒體的公信力和網(wǎng)絡(luò)信息的可信度。

“我們將不再相信我在網(wǎng)絡(luò)上看到和聽到的一切”。但與此同時，用標簽標記可能是應(yīng)對這類威脅最簡單快速的方法，“如果觀看視頻的人事先知道它是AI合成的，可能會比較不容易受騙”。[10]

然而，如何在恰當標記合成內(nèi)容的同時不破壞創(chuàng)作者的意圖？又如何界定相關(guān)內(nèi)容涉及到的性別、年齡、種族等一系列倫理問題？這無疑給內(nèi)容管理者拋出了一長串難題。

紐卡斯爾大學法學院的Lilian Edwards教授提出，AI合成內(nèi)容被商用后的所有權(quán)和使用權(quán)也值得探討。例如，當使用已故演員Steve McQueen的人臉生成視頻作為商業(yè)化用途時，他的家人是否能夠擁有視頻的所有權(quán)并從中獲利，仍有待商榷?！澳壳懊總€國家的相關(guān)規(guī)定都略有不同”。[11]

即便牽扯到種種錯綜復(fù)雜的問題也并不影響一個趨勢即將成為事實：在不遠的未來，“深度偽造”技術(shù)將走進千家萬戶，每個人都可以通過AI合成克隆自己的人臉和聲音，并用于短視頻、直播、交互媒體等更廣闊的領(lǐng)域。然而，無限接近于真實，卻依然不是真實，在這宏偉藍圖背后可能暗藏的隱患和還未浮現(xiàn)的新挑戰(zhàn)，仍然有待書寫和填補。

參考鏈接：

[1]https://m.mp.oeeee.com/a/BAAFRD000020220129648488.html

[2]AI-Generated Faces: What Makes a Human a Human?

https://www.shutterstock.com/blog/ai-generated-faces-what-makes-a-human

[3]Fake faces created by AI look more trustworthy than real people

https://www.newscientist.com/article/2308312-fake-faces-created-by-ai-look-more-trustworthy-than-real-people/

[4] Listen to an AI voice actor try and flirt with you

https://www.theverge.com/2022/2/17/22936978/ai-voice-speech-synthesis-audio-deepfake-sonantic-flirtation

[5][7]

EVERYONE WILL BE ABLE TO CLONE THEIR VOICE IN THE FUTURE

https://www.theverge.com/22672123/ai-voice-clone-synthesis-deepfake-applications-vergecast

[6]《深度合成十大趨勢（2022）報告》

https://www.iczhiku.com/hotspotDetail/uvDLklAJE6mJZK6uCmFzRA==

[8]https://www.wsj.com/articles/fraudsters-use-ai-to-mimic-ceos-voice-in-unusual-cybercrime-case-11567157402

[9]The impact of deepfakes: How do you know when a video is real?

https://www.cbsnews.com/news/deepfakes-real-fake-videos-60-minutes-2021-10-10/

[10][11]

https://edition.cnn.com/videos/business/2021/03/02/tom-cruise-tiktok-deepfake-orig.cnn-business

今日互動

你曾經(jīng)消費過哪些由AI合成的內(nèi)容？或使用過哪些AI合成應(yīng)用？你如何看待此類技術(shù)的普及化？

本文來自微信公眾號 “全媒派”（ID：quanmeipai），作者：Jinji，36氪經(jīng)授權(quán)發(fā)布。

標簽： Deepfake

国产精品成人一区二区三区,7777色鬼xxxx欧美色妇,国产精品久久久久久人妻精品,欧美精品中文字幕亚洲专区,欧美精品xxxxbbbb

Deepfake持續(xù)進化：無限接近于真實，但仍非真實