国产精品久久久久久久久久久久午衣片,国产成人精品男人的天堂网站,熟女一区二区中文字幕,亚洲精品国产精品乱码在线

您的位置：首頁(yè) > 產(chǎn)經(jīng) >

英偉達AI智能體接入GPT-4，完勝AutoGPT！自主寫(xiě)代碼獨霸我的世界，無(wú)需人類(lèi)插手

來(lái)源：華爾街見(jiàn)聞 ? 2023-05-27 14:14:02

繼斯坦福的25人小鎮后，AI智能體又出爆款新作了。

最近，英偉達首席科學(xué)家Jim Fan等人把GPT-4整進(jìn)了「我的世界」（Minecraft）——提出了一個(gè)全新的AI智能體Voyager。

Voyager的厲害之處在于，它不僅性能完勝AutoGPT，而且還可以在游戲中進(jìn)行全場(chǎng)景的終身學(xué)習！

(資料圖)

比起之前的SOTA，Voyager獲得的物品多出了3.3倍，旅行距離變長(cháng)了2.3倍，解鎖關(guān)鍵技能樹(shù)的速度快了15.3倍。

對此，網(wǎng)友直接震驚了：我們離通用人工智能AGI，又近了一步。

所以，未來(lái)的游戲，就是由大模型帶動(dòng)NPC來(lái)玩的吧？

真·數字生命

接入GPT-4之后，Voyager根本不用人類(lèi)操心，完全就是自學(xué)成才。

它不僅掌握了挖掘、建房屋、收集、打獵這些基本的生存技能，還學(xué)會(huì )了自個(gè)進(jìn)行開(kāi)放式探索。

它會(huì )自己去到不同的城市，路過(guò)一片片海洋，一座座金字塔，甚至還會(huì )自己搭建傳送門(mén)。

通過(guò)自我驅動(dòng)，它不斷探索著(zhù)這個(gè)神奇的世界，擴充著(zhù)自己的物品和裝備，配備不同等級的盔甲，用盾牌格擋上海，用柵欄圈養動(dòng)物……

論文地址：https://arxiv.org/abs/2305.16291

項目地址：https://voyager.minedojo.org/

Voyager的英勇事跡包括但不限于——

數字生命的潛能究竟有多大？我們只知道，現在Voyager仍然在Minecraft中一刻不停地探索，不斷擴展著(zhù)自己的疆域。

「訓練」無(wú)需梯度下降

此前，AI領(lǐng)域的一大挑戰就是，構建具有通用能力的具身智能體，讓它們在開(kāi)放世界中自主探索，自行發(fā)展新技能。

以往，學(xué)界都是采用強化學(xué)習和模仿學(xué)習，但這些方法在系統化的探索、可解釋性和泛化性等方面，表現往往差強人意。

大語(yǔ)言模型的出現，給構建具身智能體帶來(lái)了全新的可能性。因為基于LLM的智能體可以利用預訓練模型中蘊含的世界知識，生成一致的行動(dòng)計劃或可執行策略，這就非常適合應用于游戲和機器人之類(lèi)的任務(wù)。

此前，斯坦福研究者構建出生活著(zhù)25個(gè)AI智能體的虛擬小鎮，震驚了AI社區

這種智能體還有一個(gè)好處就是，不需要具體化的自然語(yǔ)言處理任務(wù)。

然而，這些智能體仍然無(wú)法擺脫這樣的缺陷——無(wú)法終身學(xué)習，因而不能在較長(cháng)時(shí)間跨度上逐步獲取知識，并且將它們積累下來(lái)。

而這項工作最重要的意義就在于，GPT-4開(kāi)啟了一種新的范式：這個(gè)過(guò)程中是靠代碼執行「訓練」，而非靠梯度下降。

Jim Fan解釋道：我們在BabyAGI/AutoGPT之前就有了這個(gè)想法，花了很多時(shí)間找出最好的無(wú)梯度架構

「訓練模型」是Voyager迭代式構建的技能代碼庫，而非浮點(diǎn)數矩陣。通過(guò)這種方法，團隊正在將無(wú)梯度架構推向極限。

在這種情況下訓練出的智能體，已經(jīng)具備了同人類(lèi)一樣的終身學(xué)習能力。

比如，Voyager如果發(fā)現自己處在沙漠而非森林中，就會(huì )知道學(xué)會(huì )收集沙子和仙人掌就比學(xué)會(huì )收集鐵礦更重要。

而且，它不僅能根據目前的技能水平和世界狀態(tài)明確自己最合適的任務(wù)，還能根據反饋不斷完善技能，保存在記憶中，留在下次調用。

所以，我們離硅基生命出現還有多遠？

剛剛回到OpenAI的Karpathy對這個(gè)工作表示盛贊：這是個(gè)用于高級技能的「無(wú)梯度架構」。在這里，LLM就相當于是前額葉皮層，通過(guò)代碼生成了較低級的mineflayer API。

Karpathy回憶起，在2016年左右，智能體在Minecraft環(huán)境中的表現還很讓人絕望。當時(shí)的RL只能從超稀疏的獎勵中隨機地探索執行長(cháng)期任務(wù)的方式，讓人感覺(jué)非常stuck。

而現在，這個(gè)障礙已經(jīng)在很大程度上被解除了——正確的做法是另辟蹊徑，首先訓練LLM從互聯(lián)網(wǎng)文本上學(xué)習世界知識、推理和工具使用（尤其是編寫(xiě)代碼），然后直接把問(wèn)題拋給它們。

最后他感慨道：如果我在2016年就讀到這種對智能體的「無(wú)梯度」方法，我肯定會(huì )大吃一驚。

微博大V「寶玉xp」也對這個(gè)工作給予了高度評價(jià)——

真的是了不起的嘗試，整個(gè)代碼都是開(kāi)源的，這種自動(dòng)生成任務(wù)->自動(dòng)寫(xiě)代碼執行任務(wù)->保存一個(gè)代碼庫可以重用的思路，應該是可以很容易應用到其他領(lǐng)域。

Voyager

與其他AI研究中常用的游戲不同，Minecraft并沒(méi)有強加預定義的終點(diǎn)目標或固定的劇情線(xiàn)，而是提供了一個(gè)具有無(wú)盡可能性的游樂(lè )場(chǎng)。

對于一個(gè)有效的終身學(xué)習智能體來(lái)說(shuō)，它應該具有與人類(lèi)玩家類(lèi)似的能力：

1. 根據其當前的技能水平和世界狀態(tài)提出適當的任務(wù)，例如，如果它發(fā)現自己是在沙漠而不是森林中，就會(huì )在學(xué)習收集鐵之前學(xué)習收集沙子和仙人掌

2. 基于環(huán)境反饋來(lái)完善技能，并將掌握的技能記入記憶，以便在類(lèi)似情況下重復使用（例如，與僵尸戰斗與與蜘蛛戰斗類(lèi)似）

3. 持續探索世界，以自我驅動(dòng)的方式尋找新的任務(wù)。

為了讓Voyager具有上述這些能力，來(lái)自英偉達、加州理工學(xué)院、得克薩斯大學(xué)奧斯汀分校和亞利桑那州立大學(xué)的團隊提出了3個(gè)關(guān)鍵組件：

1. 一個(gè)迭代提示機制，能結合游戲反饋、執行錯誤和自我驗證來(lái)改進(jìn)程序2. 一個(gè)技能代碼庫，用來(lái)存儲和檢索復雜行為

3. 一個(gè)自動(dòng)教程，可以最大化智能體的探索

首先，Voyager會(huì )嘗試使用一個(gè)流行的Minecraft JavaScript API（Mineflayer）來(lái)編寫(xiě)一個(gè)實(shí)現特定目標的程序。

雖然程序在第一次嘗試時(shí)就出錯了，但是游戲環(huán)境反饋和JavaScript執行錯誤（如果有的話(huà)）會(huì )幫助GPT-4改進(jìn)程序。

左：環(huán)境反饋。GPT-4意識到在制作木棒之前還需要2塊木板。
右：執行錯誤。GPT-4意識到它應該制作一把木斧，而不是一把「相思木」斧，因為Minecraft中并沒(méi)有「相思木」斧。

通過(guò)提供智能體當前的狀態(tài)和任務(wù)，GPT-4會(huì )告訴程序是否完成了任務(wù)。

此外，如果任務(wù)失敗了，GPT-4還會(huì )提出批評，建議如何完成任務(wù)。

自我驗證

其次，Voyager通過(guò)在向量數據庫中存儲成功的程序，逐步建立一個(gè)技能庫。每個(gè)程序可以通過(guò)其文檔字符串的嵌入來(lái)檢索。

復雜的技能是通過(guò)組合簡(jiǎn)單的技能來(lái)合成的，這會(huì )使Voyager的能力隨著(zhù)時(shí)間的推移迅速增長(cháng)，并緩解災難性遺忘。

上：添加技能。每個(gè)技能都由其描述的嵌入索引，可以在將來(lái)的類(lèi)似情況中檢索。
下：檢索技能。當面對自動(dòng)課程提出的新任務(wù)時(shí)，會(huì )進(jìn)行查詢(xún)并識別前5個(gè)相關(guān)技能。

第三，自動(dòng)課程會(huì )根據智能體當前的技能水平和世界狀態(tài)，提出合適的探索任務(wù)。

例如，如果它發(fā)現自己在沙漠而非森林中，就學(xué)習采集沙子和仙人掌，而不是鐵。

具體來(lái)說(shuō)，課程是由GPT-4基于「發(fā)現盡可能多樣化的東西」這個(gè)目標生成的。

自動(dòng)課程

團隊將Voyager與其他基于LLM的智能體技術(shù)進(jìn)行了系統性的比較，比如ReAct、Reflexion，以及在Minecraft中廣受歡迎的AutoGPT。

在160次提示迭代中，Voyager發(fā)現了63個(gè)獨特的物品，比之前的SOTA多出3.3倍。

尋求新奇的自動(dòng)課程自然會(huì )驅使Voyager進(jìn)行廣泛的旅行。即使沒(méi)有明確的指示，Voyager也會(huì )遍歷更長(cháng)的距離（2.3倍），訪(fǎng)問(wèn)更多的地形。

相比之下，之前的方法就顯得非?！笐猩ⅰ沽?，經(jīng)常會(huì )在一小片區域里兜圈子。

地圖探索率

那么，經(jīng)過(guò)終身學(xué)習后的「訓練模型」——技能庫，表現如何呢？

團隊清空了物品/護甲，生成了一個(gè)新的世界，并用從未見(jiàn)過(guò)的任務(wù)對智能體進(jìn)行了測試。

可以看到，Voyager解決任務(wù)的速度明顯比其他方法更快。

值得注意的是，從終身學(xué)習中構建的技能庫不僅提高了Voyager的性能，也提升了AutoGPT的性能。

這表明，技能庫作為一種通用工具，可以有效地作為一個(gè)即插即用的方法來(lái)提高性能。

零樣本泛化

上圖中的數字是三次試驗中提示迭代的平均值。迭代次數越少，方法越有效?？梢钥吹?，Voyager解決了所有的任務(wù)，而AutoGPT經(jīng)過(guò)50次提示迭代都無(wú)法解決。

此外，與其他方法相比，Voyager在解鎖木工具上快了15.3倍，石工具快8.5倍，鐵工具快6.4倍。而且擁有技能庫的Voyager是唯一解鎖鉆石工具的。

技能樹(shù)掌握情況（木工具 → 石工具 → 鐵工具 → 鉆石工具）

目前，Voyager只支持文本，但在未來(lái)可以通過(guò)視覺(jué)感知進(jìn)行增強。

在團隊進(jìn)行的一個(gè)初步研究中，人類(lèi)可以像一個(gè)圖像標注模型一樣，向智能體提供反饋。

從而讓Voyager能夠構建復雜的3D結構，比如地獄門(mén)和房子。

結果表明，Voyager的性能優(yōu)于所有替代方案。此外，GPT-4在代碼生成方面也明顯優(yōu)于GPT-3.5。

消融實(shí)驗

結論

Voyager是第一個(gè)由LLM驅動(dòng)、可以終身學(xué)習的具身智能體。它可以利用GPT-4不停地探索世界，開(kāi)發(fā)越來(lái)越復雜的技能，并始終能在沒(méi)有人工干預的情況下進(jìn)行新的發(fā)現。

在發(fā)現新物品、解鎖Minecraft技術(shù)樹(shù)、穿越多樣化地形，以及將其學(xué)習到的技能庫應用于新生成世界中的未知任務(wù)方面，Voyager表現出了優(yōu)越的性能。

對于通用智能體的開(kāi)發(fā)來(lái)說(shuō)，無(wú)需調整模型參數的Voyager是可以作為一個(gè)起點(diǎn)的。

參考資料：

https://voyager.minedojo.org/

本文來(lái)源：新智元 (ID:AI_era)，原文標題：《英偉達AI智能體接入GPT-4，完勝AutoGPT！自主寫(xiě)代碼獨霸我的世界，無(wú)需人類(lèi)插手》

風(fēng)險提示及免責條款市場(chǎng)有風(fēng)險，投資需謹慎。本文不構成個(gè)人投資建議，也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資，責任自負。

關(guān)鍵詞：