OpenAI最新語言模型GPT-4“自我反思”，測試表現(xiàn)提升30%

2023-04-04 14:07:15 編輯：懷俊蓮來源：

導讀據(jù)IT之家4月4日報道，OpenAI最新的語言模型GPT-4不僅能夠像人類一樣生成各種文本，還能夠設計和執(zhí)行測試來評估和改進自己的表現(xiàn)，這種反思

據(jù)IT之家4月4日報道，OpenAI最新的語言模型GPT-4不僅能夠像人類一樣生成各種文本，還能夠設計和執(zhí)行測試來評估和改進自己的表現(xiàn)，這種“反思”技術讓GPT-4在多項難度較高的測試中都取得了顯著進步，測試表現(xiàn)提升30%。
GPT-4是OpenAI推出的最先進的系統(tǒng)，也是目前最大的多模態(tài)模型，可以接受圖像和文本輸入，并輸出文本。它利用深度學習技術，使用人工神經(jīng)網(wǎng)絡來模仿人類的寫作。

研究人員諾亞?辛恩（Noah Shinn）和阿什溫?戈平納特（Ashwin Gopinath）在論文中寫道，他們開發(fā)了一種新穎的技術，讓AI代理能夠模擬人類的自我反思，并評估自己的表現(xiàn)。GPT-4在完成各種測試時，會增加一些額外的步驟，讓它能夠自己設計測試來檢查自己的答案，找出錯誤和不足之處，然后根據(jù)發(fā)現(xiàn)來修改自己的解決方案。

在研究團隊使用這種技術對GPT-4進行的幾種不同性能測試中，GPT-4在解決從未見過的Python編程問題的HumanEval測試中，原本準確率為67%，使用反思技術后，準確率提升至88%。在Alfworld測試中，GPT-4的準確率從73%提高至97%。在HotPotQA測試中，GPT-4準確率從34%提高至54%。