參數(shù)是由機(jī)器學(xué)習(xí)模型在訓(xùn)練過程中學(xué)習(xí)到的數(shù)值。機(jī)器學(xué)習(xí)模型中的參數(shù)值決定了模型如何解釋輸入數(shù)據(jù)并做出預(yù)測。調(diào)整參數(shù)是確保機(jī)器學(xué)習(xí)系統(tǒng)的性能得到優(yōu)化的一個必要步驟。圖1.2.9按部門突出顯示了Epoch數(shù)據(jù)集中包含的機(jī)器學(xué)習(xí)系統(tǒng)的參數(shù)數(shù)量。隨著時間的推移,參數(shù)的數(shù)量一直在穩(wěn)步增加,自2010年代初以來,這個增長尤為急劇。人工智能系統(tǒng)正在迅速增加其參數(shù)的事實(shí)反映了它們被要求執(zhí)行的任務(wù)的復(fù)雜性增加,數(shù)據(jù)的可用性增加,底層硬件的進(jìn)步,最重要的是,更大的模型的性能演示。
1950-22年按部門劃分的重要機(jī)器學(xué)習(xí)系統(tǒng)的參數(shù)數(shù)量
圖1.2.9
圖1.2.10按領(lǐng)域展示了機(jī)器學(xué)習(xí)系統(tǒng)的參數(shù)。近年來,參數(shù)豐富的系統(tǒng)數(shù)量不斷增加。
1950-22年重要的機(jī)器學(xué)習(xí)系統(tǒng)按領(lǐng)域劃分的參數(shù)數(shù)
圖1.2.10
計(jì)算趨勢
人工智能系統(tǒng)的計(jì)算能力,或稱“計(jì)算能力”,是指訓(xùn)練和運(yùn)行機(jī)器學(xué)習(xí)系統(tǒng)所需的計(jì)算資源量。通常,一個系統(tǒng)越復(fù)雜,所訓(xùn)練它的數(shù)據(jù)集越大,所需的計(jì)算量就越大。在過去的五年里,重要的人工智能機(jī)器學(xué)習(xí)系統(tǒng)使用的計(jì)算量呈指數(shù)級增長(圖1.2.11)。對人工智能計(jì)算需求的增長有幾個重要的影響。例如,更密集型計(jì)算的模型往往對環(huán)境的影響更大,而工業(yè)參與者往往比大學(xué)等其他模型更容易獲得計(jì)算資源。
1950-22年重要機(jī)器學(xué)習(xí)系統(tǒng)的分部門訓(xùn)練計(jì)算(FLOP)
圖1.2.11
自2010年以來,在所有的機(jī)器學(xué)習(xí)系統(tǒng)中,語言模型需要的計(jì)算資源越來越多。
1950-22年重要機(jī)器學(xué)習(xí)系統(tǒng)的分域訓(xùn)練計(jì)算(FLOP)
圖1.2.12
大型語言和多模態(tài)模型
大型語言和多模態(tài)模型,有時被稱為基礎(chǔ)模型,是一種新興的、日益流行的人工智能模型,它對大量數(shù)據(jù)進(jìn)行訓(xùn)練,并適應(yīng)各種下游應(yīng)用程序。像ChatGPT、DALL-E 2和MakeA-Video這樣的大型語言和多模態(tài)模型-Video模型已經(jīng)展示了令人印象深刻的能力,并開始在現(xiàn)實(shí)世界中廣泛應(yīng)用。今年,人工智能指數(shù)對負(fù)責(zé)發(fā)布新的大型語言和多模態(tài)模型的作者的國家隸屬關(guān)系進(jìn)行了分析。10這些研究人員中的大多數(shù)來自美國的研究機(jī)構(gòu)(54.2%)(圖1.2.13)。2022年,來自加拿大、德國和印度的研究人員首次為大型語言和多模式模型的發(fā)展做出了貢獻(xiàn)。
2019-22年按國家選擇大型語言和多模態(tài)模型(占總數(shù)的%)的作者
圖1.2.13
圖1.2.14提供了自GPT-2以來發(fā)布的大型語言和多模態(tài)模型的時間軸視圖,以及產(chǎn)生這些模型的研究人員的國家附屬機(jī)構(gòu)。2022年發(fā)布的一些著名的美國大型語言和多模態(tài)模型包括OpenAI的DALL-E 2和谷歌的PaLM(540B)。2022年發(fā)布的唯一一種中國大型語言和多模式模式是GLM-130B,這是清華大學(xué)的研究人員創(chuàng)建的一種令人印象深刻的雙語(英語和中文)模式。同樣于2022年底推出的布魯姆計(jì)劃,由于它是1000多名國際研究人員合作的結(jié)果,因此被列為不確定計(jì)劃。
選擇大型語言和多語言模式模型發(fā)布的時間軸和國家歸屬
圖1.2.14
參數(shù)計(jì)數(shù)
隨著時間的推移,新發(fā)布的大型語言和多模態(tài)模型的參數(shù)數(shù)量大幅增加。例如,GPT-2是2019年發(fā)布的第一個大型語言和多模式模型,它只有15億個參數(shù)。由谷歌于2022年推出的PaLM擁有5400億美元,是GPT-2的近360倍。在大型語言和多模態(tài)模型中,參數(shù)的中位數(shù)隨著時間的推移呈指數(shù)級增長(圖1.2.15)。
2019-22年選擇大型語言和多模態(tài)模型的參數(shù)數(shù)
圖1.2.15
2024-10-28 08:36
2024-10-28 08:21
2024-10-26 11:08
2024-10-26 10:09
2024-10-23 09:13
2024-10-21 14:35
2024-10-21 09:45
2024-10-21 08:27
2024-10-16 11:29
2024-10-14 09:19