国产精品成人一区二区三区,7777色鬼xxxx欧美色妇,国产精品久久久久久人妻精品,欧美精品中文字幕亚洲专区,欧美精品xxxxbbbb

浪潮英偉達(dá)微軟為何狂煉AI大模型?巨頭角力已經(jīng)開始

AI大模型領(lǐng)域的「環(huán)球影城」正式開業(yè)!

汽車人、霸天虎集結(jié),這次不是為了賽博坦,而是為了瘋狂爭(zhēng)奪「火種源」。

現(xiàn)實(shí)世界中,AI巨頭們?cè)谝苍跒檫@一「生命之源」——大模型展開爭(zhēng)奪戰(zhàn),進(jìn)行巔峰對(duì)決。

5300億參數(shù),燒了4480塊英偉達(dá)GPU,威震天-圖靈(MT-NLG)可以說(shuō)是當(dāng)前最大的語(yǔ)言模型。此外,GPT-3有1750億參數(shù),浪潮「源1.0」2457億參數(shù)...

自從2018年谷歌推出BERT模型以來(lái),語(yǔ)言模型做的越來(lái)越大,仿佛沒有終點(diǎn)。短短幾年,模型參數(shù)已經(jīng)從最初的3億,擴(kuò)張到萬(wàn)億規(guī)模。

然而,這并不是終點(diǎn),爭(zhēng)奪「火種源」角逐還在繼續(xù)。

那么,這些AI巨頭到底在爭(zhēng)什么,在探索什么?

大模型究竟是否是一條正確的道路?

下一個(gè)模型有多大?+∞

從國(guó)外來(lái)看,2018年,谷歌提出3億參數(shù)BERT模型驚艷四座,將自然語(yǔ)言處理推向了一個(gè)前所未有的新高度。

可以說(shuō),谷歌最先開啟了大模型一股熱潮。

緊接著,OpenAI在2019年初推出GPT-2,15億參數(shù),能夠生成連貫的文本段落,做到初步的閱讀理解、機(jī)器翻譯等。

還有英偉達(dá)威震天(Megatron-LM)83億參數(shù),谷歌T5模型110億參數(shù),微軟圖靈Turing-NLG模型170億參數(shù)。

這些模型一次次不斷地刷新參數(shù)規(guī)模的數(shù)量級(jí),而2020年卻成為這一數(shù)量級(jí)的分界線。

大火的GPT-3,1750億參數(shù),參數(shù)規(guī)模達(dá)到千億級(jí)別,直逼人類神經(jīng)元的數(shù)量。

能作詩(shī)、聊天、生成代碼等等,無(wú)所不能。

就在近日,微軟和英偉達(dá)聯(lián)手發(fā)布了Megatron-Turing自然語(yǔ)言生成模型(MT-NLG),5300億參數(shù)。

號(hào)稱同時(shí)奪得單體Transformer語(yǔ)言模型界「最大」和「最強(qiáng)」兩個(gè)稱號(hào)。

除了千億規(guī)模的稠密單體模型,還有萬(wàn)億規(guī)模的稀疏混合模型。

如果將單體模型比作珠穆朗瑪峰,那么混合模型就是喜馬拉雅山脈其他的小山峰。

谷歌在今年年初推出了1.6萬(wàn)億參數(shù)的Switch Transformer。而智源「悟道2.0」1.75萬(wàn)億參數(shù)再次刷新萬(wàn)億參數(shù)規(guī)模的記錄。

好一副「百家爭(zhēng)鳴」之勢(shì)。

為什么會(huì)這樣?一句話,大模型是大勢(shì)所趨,更是必爭(zhēng)的高地!

如今大模型的這種盛世,與深度學(xué)習(xí)時(shí)代極其相似。

就好比十幾年前深度學(xué)習(xí)的崛起一樣,國(guó)內(nèi)外AI巨頭看到了這個(gè)技術(shù)的未來(lái),于是紛紛入局于此,各種各樣深度學(xué)習(xí)的模型不斷涌現(xiàn)。

現(xiàn)在,大模型更迭速度只會(huì)越來(lái)越快。

NLP單體模型大PK

那么,為什么我們要比較這幾個(gè)模型呢?

在討論這個(gè)問(wèn)題之前,需要先搞懂大模型都有哪些分類。

比如說(shuō),從模型架構(gòu)角度:?jiǎn)误w、混合;功能角度:NLP、CV、對(duì)話等等。

其中,谷歌「Switch Transformer」采用Mixture of Experts (MoE,混合專家) 模式將模型進(jìn)行了切分,其結(jié)果是得到的是一個(gè)稀疏激活模型。雖然節(jié)省了計(jì)算資源,但是精度卻很難提高。

目前來(lái)說(shuō),自然語(yǔ)言處理領(lǐng)域單體大模型的頂流是:「GPT-3」、「MT-NLG」以及「源 1.0」。

https://arxiv.org/pdf/2110.04725.pdf

不過(guò),中文和英文的模型之間區(qū)別還是很大的。

在自然語(yǔ)言理解方面,由于分詞方式不同、同一詞組不同歧義以及新詞匯等方面挑戰(zhàn),所以中文訓(xùn)練的難度更高。

例如分詞難點(diǎn):中國(guó)科學(xué)技術(shù)大學(xué);中國(guó)\科學(xué)技術(shù)\大學(xué);中國(guó)\科學(xué)\技術(shù)\大學(xué)。這三種不同的分詞形式,表達(dá)的意思有著天壤之別。這還僅僅是其中之一。

因此,訓(xùn)練中文NPL模型的訓(xùn)練難度要比同量級(jí)英文模型難度更高。

要做就做最大的

英文的高質(zhì)量文本數(shù)據(jù)集可謂是五花八門。

有包含HackerNews、Github、Stack Exchange、ArXiv甚至還有YouTube字幕的The Pile;有包含了超過(guò)50億份網(wǎng)頁(yè)元數(shù)據(jù)的數(shù)據(jù)平臺(tái)Common Crawl;甚至還可以用Reddit論壇的內(nèi)容來(lái)進(jìn)行訓(xùn)練。

就拿The Pile來(lái)說(shuō)吧,其中包含了825GB的多樣化開源語(yǔ)言建模數(shù)據(jù),由22個(gè)較小的、高質(zhì)量的數(shù)據(jù)集合組成。

GPT-3采用了規(guī)模超過(guò)292TB,包含499億個(gè)token的數(shù)據(jù)集。

MT-NLG則使用了15個(gè)數(shù)據(jù)集,總共包含3390億個(gè)token。

相比起來(lái),中文的訓(xùn)練數(shù)據(jù)就匱乏得多了。

最大的開源項(xiàng)目CLUECorpus2020只包含了100GB的高質(zhì)量數(shù)據(jù)集。

https://github.com/CLUEbenchmark/CLUECorpus2020

為了獲得高質(zhì)量的數(shù)據(jù)集, 「源1.0」的團(tuán)隊(duì)開發(fā)了一套大數(shù)據(jù)過(guò)濾系統(tǒng) Massive Data Filtering System (MDFS),其中包括數(shù)據(jù)收集、粗略過(guò)濾、精細(xì)過(guò)濾三部分。

數(shù)據(jù)預(yù)處理流程圖

數(shù)據(jù)主要來(lái)自Common Crawl、搜狗新聞(SogouN)、搜狗互聯(lián)網(wǎng)語(yǔ)料庫(kù)版本(SogouT,2016)、百科數(shù)據(jù)和書籍?dāng)?shù)據(jù)。

待清洗的原始數(shù)據(jù)

在對(duì)原始語(yǔ)料進(jìn)行粗篩選之后,團(tuán)隊(duì)又訓(xùn)練了一個(gè)基于Bert的模型來(lái)對(duì)高質(zhì)量、低質(zhì)量和廣告內(nèi)容進(jìn)行分類,并輔以人工篩查。

精細(xì)過(guò)濾之后的高質(zhì)量語(yǔ)料大小

最后終于得到了5TB高質(zhì)量中文數(shù)據(jù)集,其中包括近5年中文互聯(lián)網(wǎng)的全部?jī)?nèi)容和近2000億個(gè)詞。

計(jì)算效率up!

有了數(shù)據(jù)集,也構(gòu)建好了模型,現(xiàn)在就可以來(lái)談一談?dòng)?xùn)練了。

對(duì)于最新的「MT-NLG」,由560臺(tái)DGX A100服務(wù)器提供動(dòng)力,其中每個(gè)DGX A100都有8個(gè)NVIDIA A100 80GB張量核心圖形處理器,也就是4480塊A100顯卡。每個(gè)GPU的算力直接飆到每秒113萬(wàn)億次浮點(diǎn)運(yùn)算。

GPT-3的訓(xùn)練則是在超過(guò)28.5萬(wàn)個(gè)CPU核心以及超過(guò)1萬(wàn)個(gè)GPU上完成,GPU在訓(xùn)練過(guò)程中達(dá)到每秒2733億次浮點(diǎn)運(yùn)算。

而「源1.0」只用了2128張GPU,并在短短的16天就完成了訓(xùn)練。

這又是如何做到?

「源1.0」的團(tuán)隊(duì)創(chuàng)新性地采用了張量并行、流水線并行和數(shù)據(jù)并行的三維并行策略。

張量并行

在張量并行策略中,模型的層在節(jié)點(diǎn)內(nèi)的設(shè)備之間進(jìn)行劃分。Transformer結(jié)構(gòu)在進(jìn)行前向計(jì)算和反向傳播時(shí),注意力層和多層感知機(jī) 層的張量將會(huì)被按行或列進(jìn)行拆分。輸入端的張量首先會(huì)發(fā)送給每個(gè)加速器,在加速器中各張量獨(dú)立進(jìn)行前向計(jì)算。

流水線并行

流水線并行將 LM 的層序列在多個(gè)節(jié)點(diǎn)之間進(jìn)行分割,以解決存儲(chǔ)空間不足的問(wèn)題。每個(gè)節(jié)點(diǎn)都是流水線中的一個(gè)階段,它接受前一階段的輸出并將結(jié)果過(guò)發(fā)送到下一階段。如果前一個(gè)相鄰節(jié)點(diǎn)的輸出尚未就緒,則當(dāng)前節(jié)點(diǎn)將處于空閑狀態(tài)。

數(shù)據(jù)并行

采用數(shù)據(jù)并行時(shí),全局批次規(guī)模按照流水線分組進(jìn)行分割。每個(gè)流水線組都包含模型的一個(gè)副本,數(shù)據(jù)在組內(nèi)按照局部批次規(guī)模送入模型副本。

從結(jié)果上看,「源1.0」的訓(xùn)練共消耗約4095PD(PetaFlop/s-day),相較于「GPT-3」的3640PD,計(jì)算效率得到大幅提升。

在零樣本和小樣本學(xué)習(xí)「霸榜」

為什么一說(shuō)大模型就要提這倆貨?

原因很簡(jiǎn)單,人類可以僅通過(guò)一個(gè)或幾個(gè)示例就可以輕松地建立對(duì)新事物的認(rèn)知,而機(jī)器學(xué)習(xí)算法通常需要成千上萬(wàn)個(gè)有監(jiān)督樣本來(lái)保證其泛化能力。

而是否擁有從少量樣本中學(xué)習(xí)和概括的能力,是將人工智能和人類智能進(jìn)行區(qū)分的明顯分界點(diǎn)。其中,零樣本學(xué)習(xí)更是可以判斷計(jì)算機(jī)能否具備人類的推理和知識(shí)遷移能力,無(wú)需任何訓(xùn)練數(shù)據(jù)就能夠識(shí)別出一個(gè)從未見過(guò)的新事物。

簡(jiǎn)單來(lái)說(shuō),零樣本學(xué)習(xí),就是訓(xùn)練的分類器不僅僅能夠識(shí)別出訓(xùn)練集中已有的數(shù)據(jù)類別,還可以對(duì)于來(lái)自未見過(guò)的類別的數(shù)據(jù)進(jìn)行區(qū)分;小樣本學(xué)習(xí),就是使用遠(yuǎn)小于深度學(xué)習(xí)所需要的數(shù)據(jù)樣本量,達(dá)到接近甚至超越大數(shù)據(jù)深度學(xué)習(xí)的效果。

不管是「GPT-3」還是「MT-NLG」,都在強(qiáng)調(diào)自己在這兩方面的學(xué)習(xí)能力。

當(dāng)然,二者的區(qū)別在于,作為前任SOTA的「GPT-3」被「MT-NLG」以微弱的優(yōu)勢(shì)「干」掉了。

「GPT-3」在LAMBDA和PIQA測(cè)試集上取得的成績(jī)

「MT-NLG」在LAMBDA和PIQA測(cè)試集上取得的成績(jī)

「源1.0」雖然沒有辦法直接和二者進(jìn)行對(duì)比,不過(guò)在中文最大規(guī)模的語(yǔ)言評(píng)估基準(zhǔn)——CLUE上的成績(jī)還是很有說(shuō)服力的。

在ZeroCLUE零樣本學(xué)習(xí)榜單中,「源1.0」以超越業(yè)界最佳成績(jī)18.3%的絕對(duì)優(yōu)勢(shì)遙遙領(lǐng)先。在文獻(xiàn)分類、新聞分類,商品分類、原生中文推理、成語(yǔ)閱讀理解填空、名詞代詞關(guān)系6項(xiàng)任務(wù)中獲得冠軍。

在FewCLUE小樣本學(xué)習(xí)榜單中,「源1.0」獲得了文獻(xiàn)分類、商品分類、文獻(xiàn)摘要識(shí)別、名詞代詞關(guān)系等4項(xiàng)任務(wù)的冠軍。

刷榜終究是刷榜,雖然成績(jī)很好,但實(shí)戰(zhàn)起來(lái)還是很容易被人類「一眼看穿」。

不過(guò),其實(shí)從成績(jī)單上的分?jǐn)?shù)也能看出,不管是英文還是中文的模型,和人類比起來(lái)差距還是很大的。

尤其是在情感理解和話題表達(dá)方面這類沒有特定規(guī)則的情景下,比如作詩(shī)、寫故事等等。

大模型,去哪?

AI巨頭競(jìng)相追逐模型規(guī)模的新高度,這自然帶來(lái)一個(gè)靈魂之問(wèn):他們?cè)谔剿魇裁矗?/p>

當(dāng)前,語(yǔ)言模型的訓(xùn)練已經(jīng)從「大煉模型」走向「煉大模型」的階段,巨量模型也成為業(yè)界關(guān)注的焦點(diǎn)。

近日,Percy Liang,李飛飛等一百多位學(xué)者在發(fā)表的 200 多頁(yè)的研究綜述 On the Opportunities and Risk of Foundation Models 中闡述了巨量模型的意義在于「突現(xiàn)和均質(zhì)」。

論文中,他們給這種大模型取了一個(gè)名字,叫基礎(chǔ)模型(foundation model),其在NLP領(lǐng)域表現(xiàn)出了強(qiáng)大的通用性和適用性。

目前AI研究的涌現(xiàn)性和同質(zhì)化特征

構(gòu)建越來(lái)越大的模型,真的就會(huì)越來(lái)越好嗎?

從ELMo到Bert再到之后的GPT-3等一系列模型,預(yù)訓(xùn)練模型的性能一直在提升,這是一個(gè)非常強(qiáng)的證據(jù)。

而現(xiàn)在威震天-圖靈的參數(shù)量是5300多億,可見,當(dāng)前模型的參數(shù)規(guī)模可能也沒有達(dá)到通用人工智能所要求的水平。

所以說(shuō),更大的模型依舊是剛需。

那么,構(gòu)建越來(lái)越大的模型,真的能夠通向通用人工智能(AGI)嗎?

OpenAI 的無(wú)監(jiān)督轉(zhuǎn)化語(yǔ)言模型 GPT-3,展現(xiàn)出了從海量未標(biāo)記數(shù)據(jù)中學(xué)習(xí),且不限于某一特定任務(wù)的「通用」能力。

因此讓許多人看到了基于大規(guī)模預(yù)訓(xùn)練模型探索通用人工智能的可能。

坦白講,我們開始對(duì)大模型認(rèn)識(shí)不太清晰的時(shí)候,認(rèn)為它只是用來(lái)作首詩(shī),對(duì)個(gè)對(duì)子,但其實(shí)這些并不是大模型的魅力所在。

大模型真正的魅力在于「不可知」,而在于對(duì)未來(lái)的一個(gè)探討。

一位清華教授曾表示,GPT-3已經(jīng)越來(lái)越接近人類水平,但它有一個(gè)「阿喀琉斯之踵」。

GPT這說(shuō)明,GPT-3很聰明,但它仍有一些認(rèn)知局限——沒有常識(shí)。

自然語(yǔ)言處理研究員、康奈爾大學(xué)數(shù)據(jù)科學(xué)家Maria Antoniak表示,「談到自然語(yǔ)言,更大的模型是否是正確的方法是一個(gè)懸而未決的問(wèn)題。

雖然目前一些最好的基準(zhǔn)性能得分來(lái)自大型數(shù)據(jù)集和模型,但是將大量數(shù)據(jù)傾倒到模型中的回報(bào)是不確定的?!?/p>

這足以證明,對(duì)大模型進(jìn)行探索是一個(gè)持續(xù)不斷的過(guò)程。

全球AI巨頭爭(zhēng)的是,探索的是大模型未知領(lǐng)域的「處女地」,可以說(shuō)是面向通用智能最高階智能的探索。

其實(shí),不僅僅是科學(xué)探索,它必然會(huì)產(chǎn)生一種催化效應(yīng),探索的成果也會(huì)帶動(dòng)CV、OCR、語(yǔ)音等領(lǐng)域的發(fā)展。

因?yàn)?,最終的智能產(chǎn)生是在這基礎(chǔ)之上建立的。

我是誰(shuí)?我在哪?我將要去向何方...

這對(duì)于人類來(lái)說(shuō)是一直探索的哲學(xué)問(wèn)題,那么機(jī)器會(huì)如何回答?

當(dāng)我們輸入一些命題時(shí),它能夠給出很多靈感式答案。

「源1.0」便是一個(gè)非常好的開始,但未來(lái)的路還很長(zhǎng)。

參考資料:

https://arxiv.org/pdf/2005.14165.pdf

https://arxiv.org/pdf/2004.05986.pdf

https://arxiv.org/pdf/2110.04725.pdf

https://developer.nvidia.com/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/

https://easyai.tech/ai-definition/tokenization/

https://lifearchitect.ai/models/#contents

本文來(lái)自微信公眾號(hào)“新智元”(ID:AI_era),作者:新智元,36氪經(jīng)授權(quán)發(fā)布。