您的位置:首頁(yè) > 資訊 > 行業(yè)動(dòng)態(tài) > 正文

連載之(2)美國(guó)斯坦福大學(xué):2023 年 人工智能指數(shù)報(bào)告

2023-04-21 13:26 性質(zhì):原創(chuàng) 作者:南山 來(lái)源:AGV網(wǎng)
免責(zé)聲明:中叉網(wǎng)(m.m21363.cn)尊重合法版權(quán),反對(duì)侵權(quán)盜版。(凡是我網(wǎng)所轉(zhuǎn)載之文章,文中所有文字內(nèi)容和圖片視頻之知識(shí)產(chǎn)權(quán)均系原作者和機(jī)構(gòu)所有。文章內(nèi)容觀點(diǎn),與本網(wǎng)無(wú)關(guān)。如有需要?jiǎng)h除,敬請(qǐng)來(lái)電商榷?。?/div>
培訓(xùn)計(jì)算

大型語(yǔ)言和多模態(tài)模型的訓(xùn)練計(jì)算量也在穩(wěn)步增加(圖1.2.16)。用于訓(xùn)練Minerva(540B)的計(jì)算量大約是OpenAI的GPT-3(2022年6月發(fā)布)的9倍,是GPT-2(2019年2月發(fā)布)的1839倍。Minerva是谷歌于2022年6月發(fā)布的一個(gè)大型語(yǔ)言和多模模型,在定量推理問(wèn)題上表現(xiàn)出了令人印象深刻的能力。

2019-22選擇大型語(yǔ)言和多模態(tài)模型的訓(xùn)練計(jì)算(FLOP)

圖1.2.16

訓(xùn)練費(fèi)用

圍繞大型語(yǔ)言和多模態(tài)模型的話語(yǔ)的一個(gè)特殊主題與它們的假設(shè)成本有關(guān)。盡管人工智能公司很少公開(kāi)談?wù)撚?xùn)練成本,但人們普遍猜測(cè),這些模型的訓(xùn)練成本為數(shù)百萬(wàn)美元,而且隨著規(guī)模的擴(kuò)大,成本將變得越來(lái)越昂貴。本小節(jié)介紹了一種新的分析,其中人工智能索引研究團(tuán)隊(duì)對(duì)各種大型語(yǔ)言和多模態(tài)模型的訓(xùn)練成本進(jìn)行了估計(jì)(圖1.2.17)。這些估計(jì)是基于模型的作者所披露的硬件和訓(xùn)練時(shí)間。在沒(méi)有透露訓(xùn)練時(shí)間的情況下,我們根據(jù)硬件速度、訓(xùn)練計(jì)算和硬件利用率效率進(jìn)行計(jì)算??紤]到估計(jì)值的可能可變性,我們用中、高或低的標(biāo)簽來(lái)限定每個(gè)估計(jì)值:中估計(jì)值被認(rèn)為是中級(jí)估計(jì)值,高被認(rèn)為是高估估計(jì)值,低被認(rèn)為是低估估計(jì)值。在某些情況下,沒(méi)有足夠的數(shù)據(jù)來(lái)估計(jì)特定的大型語(yǔ)言和多模態(tài)模型的訓(xùn)練成本,因此這些模型在我們的分析中被省略了。

選擇大型語(yǔ)言和多模態(tài)模型的估計(jì)訓(xùn)練成本

圖1.2.17

大型語(yǔ)言和多模態(tài)模型的成本與其規(guī)模之間也有明顯的關(guān)系。如圖1.2.18和1.2.19所示,具有更多參數(shù)的大型語(yǔ)言和多模態(tài)模型以及使用大量計(jì)算的訓(xùn)練往往更昂貴。

選擇大型語(yǔ)言和多模態(tài)模型的估計(jì)訓(xùn)練成本和參數(shù)數(shù)

圖1.2.18

選擇大型語(yǔ)言和多模態(tài)模型的估計(jì)訓(xùn)練成本及訓(xùn)練計(jì)算(FLOP)

圖1.2.19

人工智能會(huì)議是研究人員分享其工作、與同行和合作者建立聯(lián)系的關(guān)鍵場(chǎng)所。出席會(huì)議表明了人們對(duì)一個(gè)科學(xué)領(lǐng)域的更廣泛的工業(yè)和學(xué)術(shù)興趣。在過(guò)去的20年里,人工智能會(huì)議的規(guī)模、數(shù)量和聲望都有所增長(zhǎng)。本節(jié)介紹了參加主要人工智能會(huì)議的趨勢(shì)數(shù)據(jù)。

1234下一頁(yè)

網(wǎng)友評(píng)論
文明上網(wǎng),理性發(fā)言,拒絕廣告

相關(guān)資訊

關(guān)注官方微信

手機(jī)掃碼看新聞