AI語音真假面:實時變聲 一秒復制或模仿你講話
如果有一種技術可以一秒復制或模仿你講話,你會感到驚喜還是驚恐?
進入2019年,AI技術的應用落地越來越多樣化。科大訊飛、搜狗等技術公司相繼發(fā)布了語音合成技術的應用。通過AI手段,用戶可以一秒變聲社會名人或者其他想模仿的聲音。
互聯(lián)網技術在悄無聲息地改變我們的生活,對人工智能企業(yè)來說,語音識別技術的廣泛應用已不是難事。但背后的倫理道德和安全隱患,或將成為伴隨AI技術發(fā)展不容忽視的一個問題。
實時變聲技術受AI公司熱捧一秒可換聲
“嗨,大家好,今天非常開心,來到科大訊飛新品發(fā)布會,一直好喜歡科大訊飛哦……”
這是發(fā)生在科大訊飛2019新品發(fā)布會上的一幕,科大訊飛董事長劉慶峰通過技術,現(xiàn)場模擬了單田芳、林志玲和羅永浩的聲音來做開場白。尤其當羅永浩聲音響起的時候,不少人以為老羅到了現(xiàn)場。
“你看到的是劉慶峰,但聽到的是老羅的聲音。”臺上的劉慶峰表示,這是公司最新的實時變聲技術。據(jù)悉,這項新的語音合成技術只需要1分鐘的聲音樣本,就可以模仿任何人說話。
不止科大訊飛,也是在近期,搜狗CEO王小川在一場大會上展示了搜狗變聲功能,通過手機軟件,王小川模擬了高曉松和東北妹子的聲音,引得現(xiàn)場連連發(fā)笑。他隨后展示了歌曲中的聲音替換,據(jù)介紹,系統(tǒng)先用14分鐘對他的語音做了訓練,然后把音色做遷移。
這是搜狗最新的語音合成技術,可以實現(xiàn)把任何人的聲音轉化成特定聲音,秒變林志玲、馬云的聲音都可以。王小川表示,這不只是一個簡單的語音合成,可以把語音語調情感做遷移。
目前,在搜狗輸入法中,用戶可以將自己的聲音自由變換成喜歡的聲音,在微信、QQ、陌陌等主要社交場景均可使用。搜狗提供了明星、卡通人物、游戲IP、方言等幾個類別供19種特定聲音。
▲王小川
其實,語音合成早就不是新技術,之前,我們見到更多的是將文字轉化為聲音,比如在導航、轉寫、智能音箱、Siri等智能語音助手等方面的應用,并不是真人在說話。
今年,很多AI公司發(fā)力語音合成在變聲、語音cos等場景下的應用,將真人發(fā)出的聲音轉化成特定聲音。
百度也有相關技術的落地應用,今年5月初,在中央電視臺公益節(jié)目《等著我》中,百度大腦基于智能語音技術,合成了已故老兵的聲音,幫助分別64年的老戰(zhàn)友實現(xiàn)“重逢”。
據(jù)介紹,該技術使用百度端到端語音風格分離和建模方案,使用多組神經網絡對語音的不同維度,例如音色、情感、風格等,進行獨立的編碼建模,從而指導最終合成。
這些AI技術落地應用的背后,一方面體現(xiàn)了AI技術應用的進展,和為社會帶來的普惠價值理念。比如搜狗將語音變聲技術、AI合成主播技術等與行業(yè)結合,在媒體、教育、內容制作、旅游等場景結合,將會帶來更大的價值想象空間。
另一方面,未來可能存在的技術漏洞、技術濫用等風險也不容忽視。有網友就指出“小心被用于電信詐騙”“以后可能會收到‘馬云’的電話”……
一音頻領域業(yè)內人士認為,對于音頻作為交互方式的工具型產品應該是有用的,但對于音頻作為內容載體的線上音頻平臺,正面意義有待觀察。
因此,對企業(yè)來說,在不斷尋求技術突破和商業(yè)價值的同時,也應該樹立對技術安全的責任心。
語音合成技術在實操層面還有非常多的硬傷
據(jù)了解,逼真的語音合成技術,背后是神經網絡和機器學習的支持。神經網絡模擬電信號在人腦神經元之間的傳遞過程,對輸入數(shù)據(jù)進行處理,它利用分層的神經元,從大量樣本數(shù)據(jù)中總結出共同特征。
語音合成技術在商業(yè)化落地方面,可見的在諸如語音交互、有聲讀物、新媒體、智能客服、泛娛樂等領域被應用。
在接受新浪科技采訪時,蜻蜓FM大教育品類負責人牛森表示,語音合成技術在音頻領域會大大降低文字內容轉向音頻的人員、時間和經濟成本。
在談到語音cos時,牛森指出,這件事在實操層面有非常多的硬傷,比如合成后的音頻與真實的人聲在情緒和情感表達上肯定是做不到完全一致的。
他表示,對于音頻用戶來說,同樣的內容,讀稿和講述的收聽體驗會有很大區(qū)別,只有最真實的人聲才能引發(fā)深刻的情感共鳴,也是音頻的價值所在。
而在道德和安全層面上,牛森認為,首先要從技術上對人聲和合成音進行篩選確認,從權利上需要明確版權鏈條,任何未經授權的合成音頻屬于侵權違法行為,“作為平臺方我們會進行嚴格的版權和品質把控”。
據(jù)了解,在一些音頻平臺上,語音合成技術主要用于兒童類節(jié)目,其他的內容上,AI模擬效果沒那么好,尚未被廣泛應用。
對于語音合成存在的安全隱患,在發(fā)布了變聲技術后,劉慶峰現(xiàn)場曾強調:人工智能要持續(xù)發(fā)展,最核心的是它的價值觀如何陽光健康與人為善,所以像變聲技術這樣一個黑科技,我們顯然是不會輕易在各種App中對外開放的,一定是要有一種健康、安全又有趣的方式來跟這個世界來對接。
此前,劉慶峰還提到,人工智能領域要技術合作,更要法律倫理的合作。
對于安全問題,搜狗公司向新浪科技表示,“技術是一柄雙刃劍,可以用來造福也可能帶來災難,搜狗堅守科技向善。變聲技術是當下人工智能的前沿應用,基于語音表征學習、遷移學習技術,可以將任何人的聲音轉換成特定人的聲音(Any-to-One)。搜狗在這方面取得突破,率先進入實用階段。這項技術還可以應用到影視配音,家人陪伴等場景中幫助人們提升工作效率和生活幸福感。”
搜狗透露,為了保證這項技術不被有心之人濫用,公司作了嚴格的管理和限制:
1、搜狗不向第三方輸出變聲技術,確保該技術的可控性和安全性。
2、變聲功能的所有目標音色都由搜狗定義,不支持用戶隨意模仿。
3、變聲后的聲音在微信、QQ等App中使用,不能轉發(fā)復制,能夠做到對發(fā)送者追蹤溯源。
此前,王小川在媒體采訪中也提到過人工智能立法:在當前人工智能發(fā)展的階段,盡快根據(jù)技術發(fā)展不斷調整和完善,是應對人工智能所帶來的法律和倫理風險最為切實的手段。
不過,目前技術的發(fā)展仍然是走在倫理、法律的前面。周鴻祎曾在今年5月份的世界智能大會上提到過,在AI領域,如果沒有人文的思考,可能設計出來的系統(tǒng)就是一個悲劇。
AI技術背后的人文思考
其實,AI技術背后的“以假亂真”現(xiàn)象不只出現(xiàn)在聲音領域,近日三星的一項技術應用也引起人們的注意。
據(jù)外媒報道,三星位于莫斯科的人工智能實驗室研究人員,基于大量動圖和視頻素材,以及“深度卷積神經網絡”訓練,通過AI技術準確識別某些面部特征,可以將靜止圖像變?yōu)閯訄D甚至視頻。
在實驗中,研究人員以愛因斯坦、瑪麗蓮·夢露甚至蒙娜麗莎的靜止圖像為基礎,分別生成了他們正在說話的視頻,不過目前視頻質量較低。
也就是說,未來隨著AI圖像生成技術的進步,可以僅僅通過一張照片就能生成虛假視頻。
在此之前,AI換臉也曾在社交媒體上引起熱議。有人將94版《射雕英雄傳》里朱茵扮演的黃蓉換上了楊冪的臉,網友直呼“毫無違和”“以假亂真”,甚至調侃“老劇新拍最省成本的方式”。
這原本是一則惡搞或者純娛樂視頻,但是,這一操作背后,卻讓不少人擔憂技術會被濫用,如果沒有使用在正確的地方,將涉及版權、肖像權、安全等問題。
而這類技術早在兩年前國外技術圈就存在和流傳,此前也有網友將主播的臉換成明星的。不過,受多種因素限制,這一技術真正落地應用還比較少見。
在美國,就已經有人利用人工智能將色情視頻里的女主角換成女明星。這一技術正引發(fā)恐慌,遭到查封。
此外,在一些行業(yè),這樣的技術也將帶來新的思考。比如一些音頻會被篡改,引發(fā)社會問題;在未來的影視劇中,可能出現(xiàn)明星替身AI換臉、AI合成的配音等現(xiàn)場。雖然這些技術,一定程度上節(jié)約了影視劇制作成本,加快影視劇制作的進程,但在道德和人文層面釋放的價值觀還需要商榷。
而不管是AI變聲,還是AI換臉,高科技迅速發(fā)展的同時,也給法律規(guī)則帶來新的挑戰(zhàn)。
值得注意的是,在4月全國人大常委會審議的《民法典人格權編(草案)》里,正式加了一條:任何組織和個人不得以利用信息技術手段偽造的方式侵害他人的肖像權。
也就是說,一個好的信號是,未來AI換臉、甚至語音合成技術的應用或將受到法律管制。
目前,AI技術的落地應用,正在不斷打通虛擬世界和現(xiàn)實世界的界限,我們需要思考的是,如果未來這些技術越來越強大和普及,明辨真假將會變得越來越困難,技術發(fā)展的同時又該如何把控安全隱患問題?