国产精品久久久久久久久久久久午衣片,国产成人精品男人的天堂网站,熟女一区二区中文字幕,亚洲精品国产精品乱码在线

【熱聞】“具身智能”是個(gè)啥?

先解釋概念


(資料圖片僅供參考)

Embodied AI = Embodied Intelligence = 具象AI = 具身智能:有身體并支持物理交互的智能體,如家用服務(wù)機器人、無(wú)人車(chē)等?!?“身體力行”

Internet AI = Disembodied AI = 非具身智能:沒(méi)有物理身體,只能被動(dòng)接受人類(lèi)采集、制作好的數據 ?!?“紙上談兵”或者說(shuō) “運籌帷幄”

機器人,是人工智能的最終解決方案。

具身智能機器人:首先,要能夠聽(tīng)懂人類(lèi)語(yǔ)言,然后,分解任務(wù),規劃子任務(wù),移動(dòng)中識別物體,與環(huán)境交互,最終完成相應任務(wù)。

具體點(diǎn)說(shuō),像人一樣能與環(huán)境交互感知,自主規劃、決策、行動(dòng)、執行能力的機器人/仿真人(指虛擬環(huán)境中)是AI的終極形態(tài),我們暫且稱(chēng)之為“具身智能機器人”。它的實(shí)現包含了人工智能領(lǐng)域內諸多的技術(shù),例如計算機視覺(jué)、自然語(yǔ)言處理、機器人學(xué)等。要想全面理解認識人工智能是很困難的。

(一)人工智能分支多 目前走向融合

全面認識人工智能之所以困難,是有客觀(guān)原因的。

1、人工智能是一個(gè)非常廣泛的領(lǐng)域。當前人工智能涵蓋很多大的學(xué)科,我把它們歸納為六個(gè):

(1)計算機視覺(jué)(暫且把模式識別,圖像處理等問(wèn)題歸入其中)、

(2)自然語(yǔ)言理解與交流(暫且把語(yǔ)音識別、合成歸入其中,包括對話(huà))、

(3)認知與推理(包含各種物理和社會(huì )常識)、

(4)機器人學(xué)(機械、控制、設計、運動(dòng)規劃、任務(wù)規劃等)、

(5)博弈與倫理(多代理人agents的交互、對抗與合作,機器人與社會(huì )融合等議題)。

(6)機器學(xué)習(各種統計的建模、分析工具和計算的方法),

領(lǐng)域各有大模型,迭代很快,gpt 5甚至能摸到NLP天花板!CV剛剛開(kāi)始,但目前它們正在交叉發(fā)展,走向統一的過(guò)程中。

算法層的進(jìn)步如日中天!

但具有物理實(shí)體、能夠與真實(shí)世界進(jìn)行多模態(tài)交互,像人類(lèi)一樣感知和理解環(huán)境,并通過(guò)自主學(xué)習物理體沒(méi)有出現!

具身指的不僅僅是具有物理身體,而且是具有與人一樣的身體體驗的能力。如圖中的貓一樣,主動(dòng)貓是具身的智能,它可以在環(huán)境中自由行動(dòng),從而學(xué)習行走的能力。被動(dòng)貓只能被動(dòng)的觀(guān)察世界,最終失去了行走能力。

前者有點(diǎn)像我們現在給機器喂很多數據,屬于第三人稱(chēng)的智能,比如我們給機器很多盒子,并且標注這就是盒子,然后機器就會(huì )覺(jué)得這種 pattern 是盒子。但其實(shí),人類(lèi)是怎么知道這是盒子的?是通過(guò)體驗才知道的。

第一類(lèi)就像我們給AI模型喂很多數據,這些數據是人類(lèi)整理,打過(guò)標簽的。我們將其定義為Internet AI,與Embodied AI相對應。

谷歌公司 Everyday Robot 的SayCan已經(jīng)將機器人和對話(huà)模型結合到一起[6],能夠讓機器人在大型語(yǔ)言模型的幫助下,完成一個(gè)包含 16 個(gè)步驟的長(cháng)任務(wù)。UC 伯克利的 LM Nav 用三個(gè)大模型(視覺(jué)導航模型 ViNG、大型語(yǔ)言模型 GPT-3、視覺(jué)語(yǔ)言模型 CLIP)教會(huì )了機器人在不看地圖的情況下按照語(yǔ)言指令到達目的地。

(二)具象AI和非具象 AI代際變遷

Internet AI(Disembodied AI)和Embodied AI的辨析

旁觀(guān)型標簽學(xué)習方式 v.s. 實(shí)踐性概念學(xué)習方法

Internet AI從互聯(lián)網(wǎng)收集到的圖像、視頻或文本數據集中學(xué)習,這些數據集往往制作精良,其與真實(shí)世界脫節、難以泛化和遷移。1)數據到標簽的映射。2)無(wú)法在真實(shí)世界進(jìn)行體驗學(xué)習。3)無(wú)法在真實(shí)世界做出影響。

Embodied AI通過(guò)與環(huán)境的互動(dòng),雖然以第一視角得到的數據不夠穩定,但這種類(lèi)似于人類(lèi)的自我中心感知中學(xué)習,從而從視覺(jué)、語(yǔ)言和推理到一個(gè)人工具象(Artificial Embodiment),可以幫助解決更多真實(shí)問(wèn)題。

過(guò)去50年,非具身智能就占據了絕對的優(yōu)勢。不需要物理交互、不考慮具體形態(tài)、專(zhuān)注抽象算法的開(kāi)發(fā)這一系列有利條件使得非具身智能得以迅速地發(fā)展。今天在算力和數據的支持下,深度學(xué)習這一強有力的工具大大推進(jìn)了人工智能研究,非具身智能已經(jīng)如圖靈所愿、近乎完美地解決了下棋、預測蛋白質(zhì)結構等抽象的獨立任務(wù)?;ヂ?lián)網(wǎng)上充沛的圖片和語(yǔ)義標注也使得一系列視覺(jué)問(wèn)題取得了突出的成果。

然而這樣的智能顯然是有局限的。非具身智能沒(méi)有自己的眼睛,因此只能被動(dòng)地接受人類(lèi)已經(jīng)采集好的數據。非具身智能沒(méi)有自己的四肢等執行器官,無(wú)法執行任何物理任務(wù),也缺乏相關(guān)的任務(wù)經(jīng)驗。即使是可以辨識萬(wàn)物的視覺(jué)大模型也不知道如何倒一杯水,而缺乏身體力行的過(guò)程,使得非具身智能體永遠也無(wú)法理解事物在物理交互中真實(shí)的意義。

具身智能具有支持感覺(jué)和運動(dòng)的物理身體,可以進(jìn)行主動(dòng)式感知,也可以執行物理任務(wù),沒(méi)有非具身智能的諸多局限性。更重要的是,具身智能強調“感知—行動(dòng)回路”(perception-action loop)的重要性,即感受世界、對世界進(jìn)行建模、進(jìn)而采取行動(dòng)、進(jìn)行驗證并調整模型的過(guò)程。這一過(guò)程正是“紙上得來(lái)終覺(jué)淺,絕知此事要躬行”,與我們人類(lèi)的學(xué)習和認知過(guò)程一致。

麻省學(xué)者Rodney Brooks 認為智能是在與環(huán)境的交互作用中表現出來(lái)的,因此是行為產(chǎn)生了智能。其基本觀(guān)點(diǎn)是讓機器人到環(huán)境中去,進(jìn)行物理交互,從而積累和發(fā)展初級的智能。他因此將研究的重心放在了具身智能,研究如何讓機器人移動(dòng)和適應環(huán)境,于 1986年誕生了第一個(gè)基于感知行為模式的輪式機器人。

該機器人不需要中樞控制,實(shí)現了避讓、前進(jìn)和平衡等功能。Rodney Brooks 也成為了人工智能和機器人學(xué)中行為主義的代表性人物。今天對如何發(fā)展真正的智能仍然是一個(gè)開(kāi)放的問(wèn)題,而具身智能作為符合人類(lèi)認知規律的一種發(fā)展途徑也受到了廣泛的討論。

(三)具象AI技術(shù)條件成熟

時(shí)機成熟:各路大模型成熟

計算機視覺(jué)給具身智能提供了處理視覺(jué)信號的能力;

計算機圖形學(xué)開(kāi)發(fā)的物理仿真環(huán)境給具身智能提供了真實(shí)物理世界的替代,大大加快了學(xué)習的速度并降低了成本;

自然語(yǔ)言給具身智能帶來(lái)了與人類(lèi)交流、從自然文本中學(xué)習的可能;

認知科學(xué)進(jìn)一步幫助具身智能體理解人類(lèi)、構建認知和價(jià)值。

具象AI實(shí)施方案——PIE 方案

具身智能有哪些模塊是一定跑不掉的?我們認為有 3 個(gè)模塊 —— 具身感知(Perception)、具身想象(Imagination)和具身執行(Execution)。

1、全概念感知

首先,我們具身智能的感知應該是什么樣的?跟之前計算機視覺(jué)的感知有什么不一樣?我們覺(jué)得它應該是一個(gè)全感知。全感知的意思就是,我們能夠知道我們所操作的這個(gè)世界模型(world model)的各種各樣的知識,跟操作相關(guān)的知識,包括外形、結構、語(yǔ)義,以及 48 個(gè)真實(shí)世界關(guān)節體類(lèi)別等等。

2、具身交互感知

具身交互感知是什么呢?我們作交互的時(shí)候,其實(shí)除了視覺(jué),還有觸覺(jué),還有各種內容交互的感覺(jué)。這些感覺(jué)其實(shí)也會(huì )帶來(lái)新的感知。就像我們剛才講的提一個(gè)桶或者打開(kāi)微波爐,我們其實(shí)沒(méi)辦法從視覺(jué)上知道大概需要多少牛的力,所以其實(shí)很多時(shí)候我們對這個(gè)模型的估計是通過(guò)交互來(lái)獲得的。

3、具身想象

感知的東西都有了之后,你肯定會(huì )在腦子里想我該怎么去做,這是一個(gè)具身想象的過(guò)程。我們做了一個(gè)名為 RFUniverse 的仿真引擎,這個(gè)仿真引擎支持 7 種物體(比如關(guān)節可移動(dòng)的、柔性的、透明的、流體的……)、87 種原子操作的仿真。

這些操作相當于我們把物體錄入之后,我們在仿真引擎里想象它大概應該怎么做。跟以往不同的一點(diǎn)是,我們已經(jīng)有了這些物體的知識。它也支持強化學(xué)習、VR。這個(gè)項目也已經(jīng)開(kāi)源。

4、具身執行

接下來(lái)是一個(gè)更難的事情:我們想象完了之后怎么去做?大家覺(jué)得想完之后去做是不是挺簡(jiǎn)單的?其實(shí)不是,因為你的想象和真實(shí)操作是有差距的。而且我們又希望這個(gè)操作能自適應于各種事件的變化,這個(gè)難度就很大。

我們希望建一個(gè)元操作庫,這樣我們就能調用各種元操作來(lái)解決這個(gè)問(wèn)題。在《Mother of all Manipulations:Grasping》這項工作中,我們從 Grasping 做起。給定一個(gè)點(diǎn)云,這個(gè)點(diǎn)云對應的動(dòng)作會(huì )去抓取,你怎么去產(chǎn)生那些 grasp pose?

(四)大廠(chǎng)進(jìn)展

1、2023年3月谷歌和柏林工業(yè)大學(xué)的團隊重磅推出了史上最大的視覺(jué)-語(yǔ)言模型——PaLM-E,參數量高達5620億(GPT-3的參數量為1750億)。具體來(lái)說(shuō), PaLM-E-562B 集成了參數量 540B 的 PaLM 和參數量 22B 的視覺(jué) Transformer(ViT),作為一種多模態(tài)具身視覺(jué)語(yǔ)言模型(VLM),PaLM-E不僅可以理解圖像,還能理解、生成語(yǔ)言,可以執行各種復雜的機器人指令而無(wú)需重新訓練。谷歌研究人員計劃探索PaLM-E在現實(shí)世界場(chǎng)景中的更多應用,例如家庭自動(dòng)化或工業(yè)機器人。他們希望PaLM-E能夠激發(fā)更多關(guān)于多模態(tài)推理和具身AI的研究。

2、2023年4月?微軟團隊在探索如何將 OpenAI研發(fā)的ChatGPT擴展到機器人領(lǐng)域[8],從而讓我們用語(yǔ)言直觀(guān)控制如機械臂、無(wú)人機、家庭輔助機器人等多個(gè)平臺。研究人員展示了多個(gè) ChatGPT 解決機器人難題的示例,以及在操作、空中和導航領(lǐng)域的復雜機器人部署。

3、2023年5月英偉達創(chuàng )始人兼首席執行官黃仁勛在ITF World 2023半導體大會(huì )上,認為“芯片制造是英偉達加速和AI計算的理想應用”;“人工智能下一個(gè)浪潮將是"具身智能",他也公布了Nvidia VIMA,這是一個(gè)多模態(tài)具身人工智能系統,能夠在視覺(jué)文本提示的指導下執行復雜的任務(wù)。

Huang 描述了一種新型人工智能——“具身人工智能”,即能夠理解、推理并與物理世界互動(dòng)的智能系統。

他說(shuō),例子包括機器人技術(shù)、自動(dòng)駕駛汽車(chē),甚至是聊天機器人,它們更聰明,因為它們了解物理世界。Huang 介紹了 NVIDIA VIMA,一種多模態(tài)人工智能。VIMA 可以根據視覺(jué)文本提示執行任務(wù),例如“重新排列對象以匹配此場(chǎng)景”。它可以學(xué)習概念并采取相應的行動(dòng),例如“這是一個(gè)小部件”、“那是一個(gè)東西”然后“把這個(gè)小部件放在那個(gè)東西里”。VIMA 在 NVIDIA AI 上運行,其數字雙胞胎在3D 開(kāi)發(fā)和模擬平臺NVIDIA Omniverse中運行。Huang 說(shuō),了解物理學(xué)的人工智能可以學(xué)習模仿物理學(xué)并做出符合物理定律的預測。? ?

部分數據來(lái)源上海交通大學(xué)教授盧策吾在機器之心 AI 科技年會(huì )上,發(fā)表了主題演講 ——《具身智能》? 。

本文來(lái)源:?錦緞,原文標題:《“具身智能”是個(gè)啥?

風(fēng)險提示及免責條款 市場(chǎng)有風(fēng)險,投資需謹慎。本文不構成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資,責任自負。

關(guān)鍵詞: