蘋(píng)果AI訓練預算“每天數百萬(wàn)美元”,基礎語(yǔ)言大模型團隊由華人領(lǐng)導
作者:王眉
編輯:硬AI
(資料圖片)
近日蘋(píng)果面臨諸多不利,前有華為“突襲”提前開(kāi)售Mate60 Pro,后有知名投資機構Needham Securities稱(chēng)蘋(píng)果缺乏生成式AI和大型語(yǔ)言模型(LLM)方面的戰略,在A(yíng)I競賽中已被亞馬遜、谷歌和微軟甩在身后。
不過(guò),事實(shí)可能并非如此。
據媒體周三報道,蘋(píng)果一直在增加AI部分的投入預算,訓練費用達每天上百萬(wàn)美元。
雖然直到今年7月才有媒體爆料蘋(píng)果已經(jīng)建立了Ajax大語(yǔ)言模型開(kāi)發(fā)框架,并在秘密開(kāi)發(fā)自己的大型語(yǔ)言模型“Apple GPT”,但蘋(píng)果關(guān)注到生成式AI遠比外界想象的更早。
四年前,蘋(píng)果的人工智能主管詹南德里亞(John Giannandrea)授權組建了一個(gè)團隊來(lái)開(kāi)發(fā)對話(huà)式人工智能(即大語(yǔ)言模型),展示了蘋(píng)果對該領(lǐng)域的重視。
幾位蘋(píng)果員工表示,盡管詹南德里亞多次表達了對由AI語(yǔ)言模型驅動(dòng)的聊天機器人潛在用途的懷疑,但蘋(píng)果并不是完全沒(méi)有為未來(lái)語(yǔ)言模型的爆發(fā)做好準備。
日砸百萬(wàn)豪賭2000億參數Apple GPT 團隊由華人領(lǐng)導
據悉,蘋(píng)果的Foundational Models團隊,即會(huì )話(huà)AI團隊,目前的領(lǐng)導者為前谷歌工程師龐若鳴。資料顯示,龐若鳴為上海交大本碩,且本碩僅用5年即畢業(yè),于2021年加入蘋(píng)果,此前在谷歌工作了15年。
團隊現有16人,其中幾位也是曾在谷歌工作多年的工程師。雖然團隊規模小,但由于訓練LLM對算力要求極高,該團隊每天需要花費數百萬(wàn)美元訓練LLM。
除此之外,據報道,至少還有兩個(gè)蘋(píng)果團隊正在研究語(yǔ)言和圖像模型。其中一個(gè)團隊正在研究視覺(jué)智能,致力于開(kāi)發(fā)能夠生成“圖像、視頻或3D場(chǎng)景”的軟件;另一個(gè)團隊正在研究可以處理文本、圖像和視頻的多模態(tài)人工智能。
蘋(píng)果計劃將LLM集成在Siri語(yǔ)音助手當中,以此達到iPhone用戶(hù)能夠使用簡(jiǎn)單的語(yǔ)音命令來(lái)自動(dòng)完成涉及多個(gè)步驟的任務(wù)。舉個(gè)例子,該技術(shù)能夠讓用戶(hù)告訴Siri助手,用他們最近拍攝的五張照片創(chuàng )建一個(gè)GIF動(dòng)圖,并將其發(fā)送給朋友。但目前,iPhone用戶(hù)必須手動(dòng)完成這個(gè)過(guò)程。
這與谷歌改進(jìn)他們的語(yǔ)音助手類(lèi)似。但蘋(píng)果認為,其改進(jìn)的Ajax GPT的語(yǔ)言模型比OpenAI的GPT 3.5更好,預計將于明年與新版iPhone操作系統一起發(fā)布。
一向封閉的蘋(píng)果開(kāi)展了一場(chǎng)開(kāi)源運動(dòng)
需要注意的是,開(kāi)發(fā)LLM或許相對容易,但是將其納入產(chǎn)品中更具挑戰。與一些使用基于云方法的競爭對手不同,蘋(píng)果更傾向于在設備上運行軟件,以提高隱私保護和工作效率。然而,蘋(píng)果的LLM(包括Ajax GPT)相當龐大,由于其體積和復雜性(超過(guò)2000億個(gè)參數),很難安裝到iPhone上。
縮小大模型的做法有先例,比如谷歌的PaLM2,它有各種尺寸,包括適合設備和獨立使用的型號。
有分析稱(chēng),雖然目前還不清楚蘋(píng)果的計劃,但出于隱私考慮,他們可能會(huì )選擇較小的LLM。
這就要說(shuō)到龐若鳴了。
據了解龐若鳴的人說(shuō),他在神經(jīng)網(wǎng)絡(luò )方面發(fā)表的研究成果獲得了大批擁躉。神經(jīng)網(wǎng)絡(luò )是機器學(xué)習的一個(gè)子集,涉及訓練軟件識別數據中的模式和關(guān)系,類(lèi)似于人類(lèi)大腦的工作方式。龐若鳴某些比較著(zhù)名的研究涉及神經(jīng)網(wǎng)絡(luò )如何與手機處理器協(xié)同工作,以及如何使用并行計算來(lái)訓練神經(jīng)網(wǎng)絡(luò )。并行計算是將較大的問(wèn)題分解成多個(gè)處理器可以同時(shí)計算的較小任務(wù)的過(guò)程。
龐若鳴對蘋(píng)果的影響可以從AXLearn中看出,這是他的團隊在過(guò)去1年中開(kāi)發(fā)用于培訓Ajax GPT的內部軟件。AXLearn是一個(gè)機器學(xué)習框架,可以快速訓練機器學(xué)習模型。AXLearn的部分構成基于龐若鳴的研究,并針對谷歌云張量處理單元(TPU) 進(jìn)行了優(yōu)化。
AXLearn是JAX的一個(gè)分支,JAX是谷歌研究人員開(kāi)發(fā)的開(kāi)源框架。如果將蘋(píng)果的Ajax GPT比作一棟房子,那AXLearn就是藍圖,而JAX就是用來(lái)繪制藍圖的筆和紙。蘋(píng)果用來(lái)訓練大語(yǔ)言模型的數據目前尚未公開(kāi)。
報道稱(chēng),今年7月份,蘋(píng)果Foundational Models團隊悄悄地將AXLearn的代碼上傳到代碼存儲庫GitHub,公眾可以使用它來(lái)訓練自己的大語(yǔ)言模型,而不必從頭開(kāi)始構建所有內容。蘋(píng)果公開(kāi)發(fā)布AXLearn代碼的原因尚不清楚,但公司這樣做通常是希望其他工程師能對模型進(jìn)行改進(jìn)。在詹南德里亞加入蘋(píng)果之前,對于向來(lái)行事隱秘的蘋(píng)果來(lái)說(shuō),開(kāi)放可用于商業(yè)用途的源代碼的決定顯得不同尋常。
瘋狂挖角谷歌和Meta
蘋(píng)果還在積極從谷歌和Meta的AI團隊中“挖人”。
據悉,自從AXLearn代碼于7月上傳到GitHub上以來(lái),已有18人對其進(jìn)行了改進(jìn),其中至少有12人在過(guò)去兩年內加入了蘋(píng)果的機器學(xué)習團隊。這些人中,有7人曾在谷歌或Meta工作過(guò)。
華爾街見(jiàn)聞此前提及,目前“大模型的安卓”也不好過(guò),Meta內部“算力宮斗”,一半Llama核心團隊已離職。
風(fēng)險提示及免責條款 市場(chǎng)有風(fēng)險,投資需謹慎。本文不構成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資,責任自負。關(guān)鍵詞: