国产精品久久久久久久久久久久午衣片,国产成人精品男人的天堂网站,熟女一区二区中文字幕,亚洲精品国产精品乱码在线

您的位置：首頁(yè) > 產(chǎn)經(jīng) >

Meta大動(dòng)作！開(kāi)源多感官AI模型，不僅能看會(huì )聽(tīng)，還能“感知溫度”_聚焦

來(lái)源：華爾街見(jiàn)聞 ? 2023-05-10 18:53:48

前段時(shí)間，帶著(zhù)開(kāi)源模型LlaMA“殺的”谷歌和微軟“措手不及”的Meta，又一次在A(yíng)I戰場(chǎng)上丟下了一顆重磅炸彈。

(資料圖片僅供參考)

今天，Meta重磅開(kāi)源了多感官AI模型ImageBind（https://github.com/facebookresearch/ImageBind）。以視覺(jué)為核心，結合文本、聲音、深度、熱量（紅外輻射）、運動(dòng)（慣性傳感器），最終可以做到6個(gè)模態(tài)之間任意的理解和轉換。

這也是第一個(gè)能夠整合六種類(lèi)型數據的AI模型。

如何讓AI以更接近人類(lèi)的方式理解這個(gè)世界?——也讓AI擁有多種感官，學(xué)會(huì )“腦補”。

一張大海的照片可以讓我們的腦海里響起海浪的聲音，回憶起海邊腥咸的味道。當我們聽(tīng)到瀑布聲，腦海里便會(huì )浮現恢弘的瀑布奇觀(guān)。

Meta指出，未來(lái)還將有其他可以被添加到模型中的感官輸入流，包括“觸摸、講話(huà)、氣味和大腦fMRI（功能性磁共振成像）信號”。與此同時(shí)，ImageBind還可以進(jìn)行跨模態(tài)檢索，如火車(chē)喇叭音頻，文本、深度、圖片和視頻。

盡管目前ImageBind只是一個(gè)研究項目，但它展示了未來(lái)人工智能生成多感官感知的可能性，或許也使Meta的元宇宙夢(mèng)更近了。

Meta在論文中解釋稱(chēng)，他們把不同模態(tài)數據串聯(lián)在了一個(gè)嵌入空間（Embedding Space），讓其從多維度理解世界。

有網(wǎng)友評價(jià)道，imageBind的出現使AI發(fā)展過(guò)程中又迎來(lái)了激動(dòng)人心的時(shí)刻：

“這項創(chuàng )新為AI搜索能力、沉浸式VR體驗和更高級的AI技術(shù)鋪平了道路。對于A(yíng)I愛(ài)好者和專(zhuān)業(yè)人士來(lái)說(shuō)，激動(dòng)人心的時(shí)刻即將到來(lái)！”。

有網(wǎng)友評論稱(chēng)，ImageBind的誕生就是為了模擬人類(lèi)感知。ImageBind面世，賈維斯也不遠了。

英偉達科學(xué)家Jim Fan點(diǎn)評道：自L(fǎng)LaMA以來(lái)，Meta就在開(kāi)源領(lǐng)域大放異彩。

不過(guò)，對于Meta開(kāi)源大模型的做法，也有人提出了質(zhì)疑。如OpenAI便表示，這種做法對創(chuàng )作者有害，競爭對手可以隨意復制且可能具有潛在的危險，允許惡意行為者利用最先進(jìn)的人工智能模型。

更接近人類(lèi)感知的元宇宙？

相比Midjourney、Stable Diffusion和DALL-E 2這樣簡(jiǎn)單的將文字與圖像配對的生成器，ImageBind試圖讓AI更接近人類(lèi)的思考和感知方式：

可以連接文本、圖像/視頻、音頻、3D 測量（深度）、溫度數據（熱）和運動(dòng)數據（來(lái)自 IMU），且它無(wú)需先針對每一種可能性進(jìn)行訓練，直接預測數據之間的聯(lián)系，類(lèi)似于人類(lèi)感知或想象的方式。

這個(gè)模型利用到了圖像的綁定（binding）屬性，只要將每個(gè)模態(tài)的嵌入與圖像嵌入對齊，就會(huì )實(shí)現所有模態(tài)的迅速對齊。

簡(jiǎn)單來(lái)說(shuō)就是圖像成為了連接這些模態(tài)的橋梁。

例如Meta利用網(wǎng)絡(luò )數據將文本與圖像連接起來(lái)，或者利用帶有IMU傳感器的可穿戴相機捕捉到的視頻數據將運動(dòng)與視頻連接起來(lái)。

Meta在論文中指出，ImageBind的圖像配對數據足以將這六種模態(tài)綁定在一起。

模型可以更全面地解釋內容，使不同的模態(tài)相互“對話(huà)”，并找到它們之間的聯(lián)系。

例如，ImageBind可以在沒(méi)有一起觀(guān)察音頻和文本的情況下將二者聯(lián)系起來(lái)。這使得其他模型能夠“理解”新的模態(tài)，而不需要任何資源密集型的訓練。

具體而言，ImageBind利用網(wǎng)絡(luò )規模（圖像、文本）匹配數據，并將其與自然存在的配對數據（視頻、音頻、圖像、深度）相結合，以學(xué)習單個(gè)聯(lián)合嵌入空間。

這樣做使得ImageBind隱式地將文本嵌入與其他模態(tài)（如音頻、深度等）對齊，從而在沒(méi)有顯式語(yǔ)義或文本配對的情況下，能在這些模態(tài)上實(shí)現零樣本識別功能。

與此同時(shí)，Meta表示，ImageBind可以使用大規模視覺(jué)語(yǔ)言模型（如 CLIP）進(jìn)行初始化，從而利用這些模型的豐富圖像和文本表示。因此，ImageBind只需要很少的訓練就可以應用于各種不同模態(tài)和任務(wù)。

如果與其他AI結合，還可以做到跨模態(tài)的生成。

比如聽(tīng)到狗叫畫(huà)出一只狗，同時(shí)給出對應的深度圖和文字描述。

甚至還做到不同模態(tài)之間的運算，如鳥(niǎo)的圖像+海浪的聲音，得到鳥(niǎo)在海邊的圖像。

對此，Meta在其官方博客中也說(shuō)道，“ImageBind 可以勝過(guò)之前為一種特定模式單獨訓練的技術(shù)模型。但最重要的是，它能更好地一起分析許多不同形式的信息，從而推進(jìn)人工智能的發(fā)展?！?/p>

Meta團隊認為，ImageBind為設計和體驗身臨其境的虛擬世界打開(kāi)了大門(mén)?；蛟S也讓Meta離幻想中的元宇宙世界更近了一步。

可以怎么搜？

模型具體可以怎么用？Meta開(kāi)放了模型演示，具體包括：

使用圖像檢索音頻

以圖像或視頻作為輸入，可以生成音頻。比如選擇一張小狗的圖片，就能夠檢索到狗吠的音頻。使用音頻檢索圖像

通過(guò)一個(gè)音頻片段，給出一張對應的圖。聽(tīng)著(zhù)鳥(niǎo)鳴，小鳥(niǎo)的圖片便出現了。

使用文本來(lái)檢索圖像和音頻

選擇下面的一個(gè)文本提示，ImageBind將檢索與該特定文本相關(guān)的一系列圖像和音頻片段。

使用音頻+圖像來(lái)檢索相關(guān)圖像

給一段狗叫聲再加一張海灘的圖片。ImageBind可以在幾分鐘內檢索出相關(guān)圖像。

得到了一張“狗望?！钡膱D：

使用音頻來(lái)生成圖像

要想實(shí)現音頻生圖像，ImageBind需要和其他模型一起結合用，比如 DALL-E 2等生成模型。

來(lái)個(gè)下雨嘩啦啦的聲音，身在其中的意境圖就來(lái)了。

ImageBind的性能有多卓越？——打敗專(zhuān)家模型

在Meta研究科學(xué)家于近期發(fā)布的題為《IMAGEBIND:一個(gè)嵌入空間綁定所有模態(tài)》（《IMAGEBIND： One Embedding Space To Bind Them All》https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf）的論文中指出，ImageBind模型的第一大優(yōu)勢在于，僅通過(guò)很少的樣本及訓練，模型性能便可提高：

此前，往往需要收集所有可能的配對數據組合，才能讓所有模態(tài)學(xué)習聯(lián)合嵌入空間。
ImageBind規避了這個(gè)難題，它利用最近的大型視覺(jué)語(yǔ)言模型，將零樣本能力擴展到新的模態(tài)。
Meta的模型具有小模型所不具備的出色能力，這些性能通常只會(huì )在大模型中才會(huì )呈現。比如：音頻匹配圖片、判斷照片中的場(chǎng)景深度等等。

Meta的研究表明，視覺(jué)模型越強，ImageBind對齊不同模態(tài)的能力就越強。

在實(shí)驗中，研究人員使用了 ImageBind 的音頻和深度編碼器，并將其與之前在zero-shot檢索以及音頻和深度分類(lèi)任務(wù)中的工作進(jìn)行了比較。

結果顯示，ImageBind可以用于少量樣本的音頻和深度分類(lèi)任務(wù)，并且優(yōu)于之前定制的方法。

而以圖像/視頻為中心訓練好AI后，對于原始數據中沒(méi)有直接聯(lián)系的模態(tài)，比如語(yǔ)音和熱量，ImageBind表現出涌現能力，把他們自發(fā)聯(lián)系起來(lái)。

在定量測試中，研究人員發(fā)現，ImageBind的特征可以用于少樣本音頻和深度分類(lèi)任務(wù)，并且可以勝過(guò)專(zhuān)門(mén)針對這些模態(tài)的先前方法。

在基準測試上，ImageBind 音頻和深度方面優(yōu)于專(zhuān)家模型

比方說(shuō)，ImageBind在少于四個(gè)樣本分類(lèi)的top-1準確率上，要比Meta的自監督AudioMAE模型和在音頻分類(lèi)fine-tune上的監督AudioMAE模型提高了約40%的準確率。

Meta希望，AI開(kāi)發(fā)者社區能夠探索ImageBind，來(lái)開(kāi)發(fā)其可以應用的新途徑。

Meta認為，關(guān)于多模態(tài)學(xué)習仍有很多需要探索的地方。ImageBind這項技術(shù)最終會(huì )超越目前的六種“感官”，其在博客上說(shuō)道，“雖然我們在當前的研究中探索了六種模式，但我們相信引入連接盡可能多的感官的新模式——如觸覺(jué)、語(yǔ)音、嗅覺(jué)和大腦 fMRI 信號——將使更豐富的以人為中心的人工智能模型成為可能?！?

風(fēng)險提示及免責條款市場(chǎng)有風(fēng)險，投資需謹慎。本文不構成個(gè)人投資建議，也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資，責任自負。

關(guān)鍵詞：