国产精品久久久久久久久久久久午衣片,国产成人精品男人的天堂网站,熟女一区二区中文字幕,亚洲精品国产精品乱码在线

您的位置：首頁(yè) > 產(chǎn)經(jīng) >

AI見(jiàn)聞日報：將上下文學(xué)習能力從語(yǔ)言遷移到視覺(jué)，MetaVL開(kāi)啟下一個(gè)多模態(tài)時(shí)代 | 見(jiàn)智研究|環(huán)球即時(shí)看

來(lái)源：華爾街見(jiàn)聞 ? 2023-06-06 18:01:33

今日要點(diǎn)：

1、蘋(píng)果在 iOS17 中加入transformer語(yǔ)言模型，用于提高文字和語(yǔ)音轉文字時(shí)的準確性。

(資料圖片僅供參考)

2、蘋(píng)果開(kāi)發(fā)人員：Vision Pro里用了“腦機接口”，通過(guò)檢測眼睛等準確預測用戶(hù)下一步要做什么

3、MetaVL: 將上下文學(xué)習能力從語(yǔ)言模型遷移到視覺(jué)，開(kāi)啟下一個(gè)多模態(tài)時(shí)代

4、Runway獲得1億美元D輪融資，谷歌領(lǐng)投

見(jiàn)聞視角

海外AI

1、蘋(píng)果在ios17中加入transformer語(yǔ)言模型，用于提高文字和語(yǔ)音轉文字時(shí)的準確性。

蘋(píng)果在今日更新的ios系統介紹中，闡述了使用transformer語(yǔ)言模型，用于提高文字和語(yǔ)音轉文字時(shí)的準確性，通過(guò)用于單詞預測——提高了用戶(hù)每次鍵入時(shí)的體驗和準確性。而這個(gè)模型如同蘋(píng)果一直以來(lái)強調對用戶(hù)的隱私保護一樣，是在手機端的模型。

見(jiàn)智研究認為，蘋(píng)果使用transformer模型用于一些基礎應用符合蘋(píng)果一直以來(lái)的務(wù)實(shí)精神，蘋(píng)果從不強調某項技術(shù)是否先進(jìn)，而是要在用戶(hù)體驗上做到極致。這也是蘋(píng)果一直強調技術(shù)落地到應用的體現。

見(jiàn)智研究相信蘋(píng)果設備在明年將會(huì )擁有自己的llm模型，而這個(gè)模型按照蘋(píng)果一貫的隱私保護模式，應為純本地化的模型。

2、蘋(píng)果開(kāi)發(fā)人員：Vision Pro里用了“腦機”，通過(guò)檢測眼睛準確預測用戶(hù)下一步要做什么

一位在A(yíng)R/VR領(lǐng)域工作十年、擔任蘋(píng)果AR神經(jīng)技術(shù)研究員的網(wǎng)友Sterling Crispin發(fā)推文，介紹了蘋(píng)果AR的神經(jīng)技術(shù)研發(fā)

根據Crispin的介紹和蘋(píng)果的專(zhuān)利說(shuō)明，蘋(píng)果的神經(jīng)技術(shù)可以做到預測用戶(hù)行為、根據用戶(hù)狀態(tài)調整虛擬環(huán)境。

最酷的結果是在用戶(hù)實(shí)際點(diǎn)擊之前預測他們會(huì )點(diǎn)擊什么，人們的瞳孔在點(diǎn)擊之前往往有反應，原因是人們會(huì )期望在點(diǎn)擊之后會(huì )發(fā)生什么。

這時(shí)可以通過(guò)監測用戶(hù)的眼睛行為來(lái)創(chuàng )造生物反饋，并實(shí)時(shí)重新設計用戶(hù)界面，以創(chuàng )造更多預期的瞳孔反應。這是一個(gè)通過(guò)眼睛實(shí)現的粗略“腦機接口”，用戶(hù)不用接受侵入性的腦部外科手術(shù)。

推斷認知狀態(tài)的其他技術(shù)，包括以用戶(hù)可能無(wú)法察覺(jué)的方式向他們快速閃現視覺(jué)或聲音，然后測量他們的反應。

見(jiàn)智研究認為，蘋(píng)果通過(guò)全新的神經(jīng)技術(shù)對人的行為進(jìn)行預測，從而大幅減小了vision產(chǎn)品整個(gè)UI操作的延遲，大幅提升用戶(hù)體驗。從無(wú)數細節中可以看到，蘋(píng)果在用搬山能力處理每一個(gè)細節，這個(gè)軟硬整合能力，不是誰(shuí)能可以隨便模仿的，它所體現的每一個(gè)細節，都看出蘋(píng)果花費巨大的功夫在解決交互體驗。這也是蘋(píng)果之所以偉大的地方。

3、MetaVL: 將上下文學(xué)習能力從語(yǔ)言模型遷移到視覺(jué)，開(kāi)啟下一個(gè)多模態(tài)時(shí)代

動(dòng)機：研究如何在視覺(jué)-語(yǔ)言領(lǐng)域實(shí)現上下文學(xué)習，將單模態(tài)的元學(xué)習知識轉移到多模態(tài)中，以提高大規模預訓練視覺(jué)-語(yǔ)言(VL)模型的能力。方法：首先在自然語(yǔ)言處理(NLP)任務(wù)上元訓練一個(gè)語(yǔ)言模型，實(shí)現上下文學(xué)習，然后通過(guò)連接一個(gè)視覺(jué)編碼器將該模型轉移到視覺(jué)-語(yǔ)言任務(wù)上，以實(shí)現跨模態(tài)的上下文學(xué)習能力的轉移。優(yōu)勢：實(shí)驗證明，跨模態(tài)的上下文學(xué)習能力可以轉移，該模型顯著(zhù)提高了視覺(jué)-語(yǔ)言任務(wù)上的上下文學(xué)習能力，并且在模型大小方面能夠有顯著(zhù)的優(yōu)化，例如在VQA、OK-VQA和GQA上，所提出方法在參數數量減少約20倍的情況下超過(guò)了基準模型。

見(jiàn)智研究一句話(huà)總結:

M Monajatipoor, L H Li, M Rouhsedaghat, L F. Yang, K Chang探索了將元學(xué)習的上下文學(xué)習能力從單模態(tài)遷移到多模態(tài)的可能性，證明了在視覺(jué)-語(yǔ)言任務(wù)中通過(guò)遷移可以顯著(zhù)提升上下文學(xué)習能力，甚至在模型大小方面實(shí)現優(yōu)化。

這意味著(zhù)多模態(tài)情況下的對話(huà)能力將得到加強，對于現有的文生圖來(lái)說(shuō)可能會(huì )帶來(lái)新的變化，生成模式對用戶(hù)將更友好。

4、Runway獲得1億美元D輪融資，谷歌領(lǐng)投

生成式AI平臺Runway獲得1億美元D輪融資（約7億元），估值15億美元，本次由谷歌領(lǐng)投。谷歌投資Runway的最大原因之一是為了爭奪云計算客戶(hù)。

Runway曾在4月底與谷歌簽訂了7500萬(wàn)美元的3年商業(yè)協(xié)議，同時(shí)Runway已從谷歌獲得了價(jià)值2000萬(wàn)美元的云計算資源用于產(chǎn)品運營(yíng)和研發(fā)。

見(jiàn)智研究曾使用過(guò)GEN-1生成相應視頻特效，但目前可玩性不算高。Gen-2是Runway在今年3月最新發(fā)布的，但目前手機客戶(hù)端還未提供使用。Gen-2可以通過(guò)文本、圖片、文本+圖片直接生成視頻，同時(shí)支持風(fēng)格化和渲染添加好萊塢式大片特效，僅需要幾分鐘即可完成所有操作。

風(fēng)險提示及免責條款市場(chǎng)有風(fēng)險，投資需謹慎。本文不構成個(gè)人投資建議，也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資，責任自負。

關(guān)鍵詞：