国产精品久久久久久久久久久久午衣片,国产成人精品男人的天堂网站,熟女一区二区中文字幕,亚洲精品国产精品乱码在线

<wbr id="uaeis"></wbr>

您的位置：首頁(yè) > 產(chǎn)經(jīng) >

Transformer全新里程碑！誕生6年，開(kāi)山之作被引近8萬(wàn)，沒(méi)奪下NeurIPS最佳論文，卻徹底改變AI界

來(lái)源：華爾街見(jiàn)聞 ? 2023-06-13 15:51:52

2017年6月12日，Attention is All You Need，一聲炸雷，大名鼎鼎的Transformer橫空出世。

它的出現，不僅讓NLP變了天，成為自然語(yǔ)言領(lǐng)域的主流模型，還成功跨界CV，給AI界帶來(lái)了意外的驚喜。

(資料圖片僅供參考)

到今天為止，Transformer誕生6周年。而這篇論文被引數高達77926。

英偉達科學(xué)家Jim Fan對這篇蓋世之作做了深度總結：

1. Transformer并沒(méi)有發(fā)明注意力，而是將其推向極致。

第一篇注意力論文是在3年前（2014年）發(fā)表的。

這篇論文來(lái)自Yoshua Bengio的實(shí)驗室，而標題并不起眼「Neural Machine Translation by Jointly Learning to Align and Translate」。

它是「RNN+上下文向量」（即注意力）的組合。

或許很多人都沒(méi)有聽(tīng)說(shuō)過(guò)這篇論文，但它是NLP中最偉大的里程碑之一，已經(jīng)被引用了29K次（相比之下，Transformer為77K）。

2. Transformer和最初的注意力論文，都沒(méi)有談到通用序列計算機。

相反，兩者都為了解決一個(gè)狹隘而具體的問(wèn)題：機器翻譯。值得注意的是，AGI（不久的某一天）可以追溯到不起眼的谷歌翻譯。

3. Transformer發(fā)表在2017年的NeurIPS上，這是全球頂級的人工智能會(huì )議之一。然而，它甚至沒(méi)有獲得Oral演講，更不用說(shuō)獲獎了。

那一年的NeurIPS上有3篇最佳論文。截止到今天，它們加起來(lái)有529次引用。

Transformer這一經(jīng)典之作卻在NeurIPS 2017沒(méi)有引起很多人的關(guān)注。

對此，Jim Fan認為，在一項出色的工作變得有影響力之前，很難讓人們認可它。

我不會(huì )責怪NeurIPS委員會(huì )——獲獎?wù)撐娜匀皇且涣鞯?，但影響力沒(méi)有那么大。一個(gè)反例是ResNet。

何凱明等人在CVPR 2016年獲得了最佳論文。這篇論文當之無(wú)愧，得到了正確的認可。

2017年，該領(lǐng)域聰明的人中，很少有人能夠預測到今天LLM革命性的規模。就像20世紀80年代一樣，很少有人能預見(jiàn)自2012年以來(lái)深度學(xué)習的海嘯。

OpenAI科學(xué)家Andrej Karpathy對Jim Fan第2點(diǎn)總結頗感興趣，并表示，

介紹注意力的論文（由@DBahdanau , @kchonyc , Bengio）比「Attention is All You Need」的論文受到的關(guān)注要少1000倍。而且從歷史上看，這兩篇論文都非常普通，但有趣的是恰好都是為機器翻譯而開(kāi)發(fā)的。

你只需要注意力！

Transformer誕生之前，AI圈的人在自然語(yǔ)言處理中大都采用基于RNN（循環(huán)神經(jīng)網(wǎng)絡(luò )）的編碼器-解碼器（Encoder-Decoder）結構來(lái)完成序列翻譯。

然而，RNN及其衍生的網(wǎng)絡(luò )最致命的缺點(diǎn)就是慢。關(guān)鍵問(wèn)題就在于前后隱藏狀態(tài)的依賴(lài)性，無(wú)法實(shí)現并行。

Transformer的現世可謂是如日中天，讓許多研究人員開(kāi)啟了追星之旅。

2017年，8位谷歌研究人員發(fā)表了Attention is All You Need?？梢哉f(shuō)，這篇論文是NLP領(lǐng)域的顛覆者。

論文地址：https://arxiv.org/pdf/1706.03762.pdf

它完全摒棄了遞歸結構，依賴(lài)注意力機制，挖掘輸入和輸出之間的關(guān)系，進(jìn)而實(shí)現了并行計算。

甚至，有人發(fā)問(wèn)「有了Transformer框架后是不是RNN完全可以廢棄了？」

JimFan所稱(chēng)Transformer當初的設計是為了解決翻譯問(wèn)題，毋庸置疑。

谷歌當年發(fā)的博客，便闡述了Transformer是一種語(yǔ)言理解的新型神經(jīng)網(wǎng)絡(luò )架構。

文章地址：https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html

具體來(lái)講，Transformer由四部分組成：輸入、編碼器、解碼器，以及輸出。

輸入字符首先通過(guò)Embedding轉為向量，并加入位置編碼（Positional Encoding）來(lái)添加位置信息。

然后，通過(guò)使用多頭自注意力和前饋神經(jīng)網(wǎng)絡(luò )的「編碼器」和「解碼器」來(lái)提取特征，最后輸出結果。

如下圖所示，谷歌給出了Transformer如何用在機器翻譯中的例子。

機器翻譯的神經(jīng)網(wǎng)絡(luò )通常包含一個(gè)編碼器，在讀取完句子后生成一個(gè)表征?？招膱A代表著(zhù)Transformer為每個(gè)單詞生成的初始表征。

然后，利用自注意力，從所有其他的詞中聚合信息，在整個(gè)上下文中為每個(gè)詞產(chǎn)生一個(gè)新表征，由實(shí)心圓表示。

接著(zhù)，將這個(gè)步驟對所有單詞并行重復多次，依次生成新的表征。

同樣，解碼器的過(guò)程與之類(lèi)似，但每次從左到右生成一個(gè)詞。它不僅關(guān)注其他先前生成的單詞，還關(guān)注編碼器生成的最終表征。

2019年，谷歌還專(zhuān)門(mén)為其申請了專(zhuān)利。

自此，在自然語(yǔ)言處理中，Transformer逆襲之路頗有王者之風(fēng)。

歸宗溯源，現在各類(lèi)層出不窮的GPT（Generative Pre-trained Transformer），都起源于這篇17年的論文。

然而，Transformer燃爆的不僅是NLP學(xué)術(shù)圈。

萬(wàn)能Transformer：從NLP跨到CV

2017年的谷歌博客中，研究人員曾對Transformer未來(lái)應用潛力進(jìn)行了暢享：

不僅涉及自然語(yǔ)言，還涉及非常不同的輸入和輸出，如圖像和視頻。

沒(méi)錯，在NLP領(lǐng)域掀起巨浪后，Transformer又來(lái)「踢館」計算機視覺(jué)領(lǐng)域。甚至，當時(shí)許多人狂呼Transformer又攻下一城。

自2012年以來(lái)，CNN已經(jīng)成為視覺(jué)任務(wù)的首選架構。

隨著(zhù)越來(lái)越高效的結構出現，使用Transformer來(lái)完成CV任務(wù)成為了一個(gè)新的研究方向，能夠降低結構的復雜性，探索可擴展性和訓練效率。

2020年10月，谷歌提出的Vision Transformer (ViT)，不用卷積神經(jīng)網(wǎng)絡(luò )（CNN），可以直接用Transformer對圖像進(jìn)行分類(lèi)。

值得一提的是，ViT性能表現出色，在計算資源減少4倍的情況下，超過(guò)最先進(jìn)的CNN。

緊接著(zhù)，2021年，OpenAI連仍?xún)深w炸彈，發(fā)布了基于Transformer打造的DALL-E，還有CLIP。

這兩個(gè)模型借助Transformer實(shí)現了很好的效果。DALL-E能夠根據文字輸出穩定的圖像。而CLIP能夠實(shí)現圖像與文本的分類(lèi)。

再到后來(lái)的DALL-E進(jìn)化版DALL-E 2，還有Stable Diffusion，同樣基于Transformer架構，再次顛覆了AI繪畫(huà)。

以下，便是基于Transformer誕生的模型的整條時(shí)間線(xiàn)。

由此可見(jiàn)，Transformer是有多么地能打。

2021年，當時(shí)就連谷歌的研究人員David Ha表示，Transformers是新的LSTMs。

而他曾在Transformer誕生之前，還稱(chēng)LSTM就像神經(jīng)網(wǎng)絡(luò )中的AK 47。無(wú)論我們如何努力用新的東西來(lái)取代它，它仍然會(huì )在50年后被使用。

Transformer僅用4年的時(shí)間，打破了這一預言。

新硅谷「七叛徒」

如今，6年過(guò)去了，曾經(jīng)聯(lián)手打造出谷歌最強Transformer的「變形金剛們」怎么樣了？

Jakob Uszkoreit被公認是Transformer架構的主要貢獻者。

他在2021年中離開(kāi)了Google，并共同創(chuàng )立了Inceptive Labs，致力于使用神經(jīng)網(wǎng)絡(luò )設計mRNA。

到目前為止，他們已經(jīng)籌集了2000萬(wàn)美元，并且團隊規模也超過(guò)了20人。

Ashish Vaswani在2021年底離開(kāi)Google，創(chuàng )立了AdeptAILabs。

可以說(shuō)，AdeptAILabs正處在高速發(fā)展的階段。

目前，公司不僅已經(jīng)籌集了4.15億美元，而且也估值超過(guò)了10億美元。

此外，團隊規模也剛剛超過(guò)了40人。

然而，Ashish卻在幾個(gè)月前離開(kāi)了Adept。

在Transformers論文中，Niki Parmar是唯一的女性作者。

她在2021年底離開(kāi)Google，并和剛剛提到的Ashish Vaswani一起，創(chuàng )立了AdeptAILabs。

不過(guò)，Niki在幾個(gè)月前也離開(kāi)了Adept。

Noam Shazeer在Google工作了20年后，于2021年底離開(kāi)了Google。

隨后，他便立刻與自己的朋友Dan Abitbol一起，創(chuàng )立了Character AI。

雖然公司只有大約20名員工，但效率卻相當之高。

目前，他們已經(jīng)籌集了近2億美元，并即將躋身獨角獸的行列。

Aidan Gomez在2019年9月離開(kāi)了Google Brain，創(chuàng )立了CohereAI。

經(jīng)過(guò)3年的穩定發(fā)展后，公司依然正在擴大規?！狢ohere的員工數量最近超過(guò)了180名。

與此同時(shí)，公司籌集到的資金也即將突破4億美元大關(guān)。

Lukasz Kaiser是TensorFlow的共同作者人之一，他在2021年中離開(kāi)了Google，加入了OpenAI。

Illia Polosukhin在2017年2月離開(kāi)了Google，于2017年6月創(chuàng )立了NEAR Protocol。

目前，NEAR估值約為20億美元。

與此同時(shí)，公司已經(jīng)籌集了約3.75億美元，并進(jìn)行了大量的二次融資。

現在，只有Llion Jones還在谷歌工作。

在論文的貢獻方面，他風(fēng)趣地調侃道：「自己最大的意義在于——起標題?！?/p>

網(wǎng)友熱評

走到現在，回看Transformer，還是會(huì )引發(fā)不少網(wǎng)友的思考。

AI中的開(kāi)創(chuàng )性論文。

馬庫斯表示，這有點(diǎn)像波特蘭開(kāi)拓者隊對邁克爾·喬丹的放棄。

這件事說(shuō)明了，即使在這樣的一級研究水平上，也很難預測哪篇論文會(huì )在該領(lǐng)域產(chǎn)生何種程度的影響。

這個(gè)故事告訴我們，一篇研究文章的真正價(jià)值是以一種長(cháng)期的方式體現出來(lái)的。

哇，時(shí)間過(guò)得真快！令人驚訝的是，這個(gè)模型突破了注意力的極限，徹底改變了NLP。

在我攻讀博士期間，我的導師 @WenmeiHwu 總是教育我們，最有影響力的論文永遠不會(huì )獲得最佳論文獎或任何認可，但隨著(zhù)時(shí)間的推移，它們最終會(huì )改變世界。我們不應該為獎項而奮斗，而應該專(zhuān)注于有影響力的研究！

本文作者：桃子、好困，來(lái)源：新智元，原文標題：《Transformer全新里程碑！誕生6年，開(kāi)山之作被引近8萬(wàn)，沒(méi)奪下NeurIPS最佳論文，卻徹底改變AI界》

風(fēng)險提示及免責條款市場(chǎng)有風(fēng)險，投資需謹慎。本文不構成個(gè)人投資建議，也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資，責任自負。

關(guān)鍵詞：

<tr id="cim24"></tr>

<input id="cim24"><tfoot id="cim24"></tfoot></input>

<tr id="cim24"><code id="cim24"></code></tr>