AI“黑箱”被打開谷歌發(fā)現(xiàn)大模型能力涌現(xiàn)機(jī)制

2023-05-22 14:51:09 編輯：藍(lán)波晶來源：

導(dǎo)讀前一段時(shí)間Open AI也做出了一系列神級的操作，利用GPT鋼4對于GPT-2出現(xiàn)的行為解釋，大型語言模型及涌現(xiàn)的能力和運(yùn)作的方式像黑箱一樣，是...

前一段時(shí)間Open AI也做出了一系列神級的操作，利用GPT鋼4對于GPT-2出現(xiàn)的行為解釋，大型語言模型及涌現(xiàn)的能力和運(yùn)作的方式像黑箱一樣，是沒有人能夠知曉如何出現(xiàn)的。語言模型在近期有著巨大的進(jìn)步，通過上下文的學(xué)習(xí)對獲得的任務(wù)進(jìn)行執(zhí)行。

上下文的學(xué)習(xí)是一種學(xué)習(xí)的過程，對沒有見過的樣品進(jìn)行評估，執(zhí)行具體的任務(wù)前會對于輸入的標(biāo)簽先接收并對應(yīng)，語言模型上下文在學(xué)習(xí)方面產(chǎn)生的能力會跟隨參數(shù)的變化而出現(xiàn)相應(yīng)的改變。大型大語言模型遵循上下文當(dāng)中給出的范例，即使標(biāo)簽與意義上并沒有相關(guān)聯(lián)的特點(diǎn)或者被翻轉(zhuǎn)，這樣的能力在小型的語言模型當(dāng)中是根本不存在的現(xiàn)象。

模型之所以可以在上下文當(dāng)中能夠?qū)W習(xí)，一方面在利用之前預(yù)先進(jìn)行訓(xùn)練的語文知識對標(biāo)簽作出一定程度的預(yù)測，并且依據(jù)上下文給出具體模板的范例，而另一種就是在提供所有的例子當(dāng)中，學(xué)習(xí)中的輸入-標(biāo)簽映射出來。新所進(jìn)行的研究及目標(biāo)就是為了將這兩個(gè)因素對上下文中的作用解釋出來。覆蓋先前驗(yàn)證的知識是模型，規(guī)模具備的能力，和上下文中學(xué)習(xí)到和寓意并沒有太相關(guān)聯(lián)的標(biāo)簽具有的能力是一樣的。

研究人員在做實(shí)驗(yàn)的時(shí)候，利用語義無關(guān)的標(biāo)簽，將原本的標(biāo)簽作為替代，在進(jìn)行這種替換之后，語義無關(guān)的標(biāo)簽，使得小型模型性能方面有較大幅度的下降，而當(dāng)語義標(biāo)簽所具有的特性被移除掉之后，大模型可以在上下文當(dāng)中對輸入標(biāo)簽映射的能力具備相比于小型模型來說，上下文的范例對于大模型在使用性能上面改善是很大的。