国产精品久久久久久久久久久久午衣片,国产成人精品男人的天堂网站,熟女一区二区中文字幕,亚洲精品国产精品乱码在线

<optgroup id="ukcq0"><strike id="ukcq0"></strike></optgroup><tbody id="ukcq0"><center id="ukcq0"></center></tbody>

<tr id="ukcq0"><rt id="ukcq0"></rt></tr>

<table id="ukcq0"></table>

您的位置：首頁(yè) > 產(chǎn)經(jīng) >

GPT-4要來(lái)了！一文看盡大型語(yǔ)言模型的過(guò)去、現在、未來(lái)

來(lái)源：華爾街見(jiàn)聞 ? 2023-03-14 16:58:09

(資料圖片)

3月12日，由中國人民大學(xué)高瓴人工智能學(xué)院主辦的AIGC論壇在北京舉行，本次會(huì )議以“AIGC：從不存在到存在”為議題，探討對話(huà)生成模型、多媒體內容生成等人工智能（AI）前沿技術(shù)的發(fā)展趨勢。

在對話(huà)與語(yǔ)言生成模型專(zhuān)場(chǎng)，哈爾濱工業(yè)大學(xué)計算機學(xué)院教授車(chē)萬(wàn)翔、中國科學(xué)院自動(dòng)化研究所研究員張家俊、中國人民大學(xué)高瓴人工智能學(xué)院長(cháng)聘副教授嚴睿、新浪微博資深算法專(zhuān)家張俊林分別作報告。

這場(chǎng)學(xué)術(shù)盛會(huì )干貨滿(mǎn)滿(mǎn)，不僅系統性地回顧了自然語(yǔ)言處理（NLP）的五個(gè)發(fā)展階段，對大型語(yǔ)言模型研究的三個(gè)主要技術(shù)路徑進(jìn)行解讀，并拆解了ChatGPT的四項關(guān)鍵技術(shù)，還就大型語(yǔ)言模型研究重心的變遷與未來(lái)趨勢進(jìn)行探討。

01.NLP五級進(jìn)階路：從基于規則到遵循人的價(jià)值觀(guān)

新浪微博資深算法專(zhuān)家張俊林認為，要想探尋大型語(yǔ)言模型未來(lái)怎么走，需要先回顧此前是怎么一路變遷的。他將自然語(yǔ)言處理發(fā)展到大型語(yǔ)言模型的歷程分為五個(gè)階段：規則、統計機器學(xué)習、深度學(xué)習、預訓練、大型語(yǔ)言模型。

機器翻譯是NLP中難度最高、綜合性最強的任務(wù)。因此張俊林以機器翻譯任務(wù)為例來(lái)對比不同階段的特點(diǎn)以及技術(shù)棧、數據的變化，以此展示NLP如何一步步演進(jìn)。

規則階段大致從1956年到1992年，基于規則的機器翻譯系統是在內部把各種功能的模塊串到一起，由人先從數據中獲取知識，歸納出規則，寫(xiě)出來(lái)教給機器，然后機器來(lái)執行這套規則，從而完成特定任務(wù)。

統計機器學(xué)習階段大致從1993年到2012年，機器翻譯系統可拆成語(yǔ)言模型和翻譯模型，這里的語(yǔ)言模型與現在的GPT-3/3.5的技術(shù)手段一模一樣。該階段相比上一階段突變性較高，由人轉述知識變成機器自動(dòng)從數據中學(xué)習知識，主流技術(shù)包括SVM、HMM、MaxEnt、CRF、LM等，當時(shí)人工標注數據量在百萬(wàn)級左右。

深度學(xué)習階段大致從2013-2018年，相對上一階段突變性較低，從離散匹配發(fā)展到embedding連續匹配，模型變得更大。該階段典型技術(shù)棧包括Encoder-Decoder、LSTM、Attention、Embedding等，標注數據量提升到千萬(wàn)級。

預訓練階段是從2018年到2022年，相比之前的最大變化是加入自監督學(xué)習，張俊林認為這是NLP領(lǐng)域最杰出的貢獻，將可利用數據從標注數據拓展到了非標注數據。該階段系統可分為預訓練和微調兩個(gè)階段，將預訓練數據量擴大3到5倍，典型技術(shù)棧包括Encoder-Decoder、Transformer、Attention等。

大型語(yǔ)言模型階段從2023年起，目的是讓機器能聽(tīng)懂人的命令、遵循人的價(jià)值觀(guān)。其特性是在第一個(gè)階段把過(guò)去的兩個(gè)階段縮成一個(gè)預訓練階段，第二階段轉換成與人的價(jià)值觀(guān)對齊，而不是向領(lǐng)域遷移。這個(gè)階段的突變性是很高的，已經(jīng)從專(zhuān)用任務(wù)轉向通用任務(wù)，或是以自然語(yǔ)言人機接口的方式呈現。

隨后他介紹了一個(gè)研究工作的結論：在高資源語(yǔ)言上，ChatGPT機器翻譯效果與商用MT系統效果接近；在低資源語(yǔ)言上，目前ChatGPT機器翻譯效果與商用MT系統相比差得比較遠。

從這些階段中數據、算法、人機關(guān)系的變化，可以觀(guān)察到NLP的發(fā)展趨勢。

數據方面，從少量標注數據、大量標注數據、海量非標注數據+少量標注數據到海量非標注數據，越來(lái)越多數據被利用起來(lái)，人的介入越來(lái)越少，未來(lái)會(huì )有更多文本數據、更多其它形態(tài)的數據被用起來(lái)，更遠的未來(lái)是任何我們能見(jiàn)到的電子數據，都應該讓機器自己從中學(xué)到知識或能力。

算法方面，表達能力越來(lái)越強，規模越來(lái)越大，自主學(xué)習能力越來(lái)越強，從專(zhuān)用向通用，沿著(zhù)這個(gè)趨勢往后，未來(lái)Transformer預計夠用，同時(shí)也需要替代Transformer的新型模型，逐步邁向通用人工智能。

人機關(guān)系方面，人的角色逐漸從教導者轉向監督者，未來(lái)可能會(huì )從人機協(xié)作、機器向人學(xué)習，發(fā)展成人向機器學(xué)習，最后由機器拓展人類(lèi)。

02.大型語(yǔ)言模型的三大技術(shù)路線(xiàn)：Bert、GPT、混合模式

張俊林分享道，近5年來(lái)，大型語(yǔ)言模型研究的發(fā)展有三條技術(shù)路線(xiàn)：Bert模式、GPT模式、混合模式。其中國內大多采用混合模式，多數主流大型語(yǔ)言模型走的是GPT技術(shù)路線(xiàn)，直到2022年底在GPT-3.5的基礎上產(chǎn)生了ChatGPT。

可以看到，到2019年后，Bert路線(xiàn)基本上就沒(méi)有什么標志性的新模型出現了，而GPT技術(shù)路線(xiàn)趨于繁榮。從Bert往GPT走，模型越來(lái)越大，做的事越來(lái)越通用。

大型語(yǔ)言模型按照從數據到知識來(lái)劃分，數據可分為通用數據和領(lǐng)域數據，知識分為語(yǔ)言知識和世界知識；從任務(wù)類(lèi)型來(lái)劃分，可以分為單一任務(wù)和多任務(wù)、理解類(lèi)和生成類(lèi)。

Bert模式有兩階段（雙向語(yǔ)言模型預訓練+任務(wù)Fine-tuning），適用于理解類(lèi)、做理解類(lèi)、某個(gè)場(chǎng)景的具體任務(wù)，專(zhuān)而輕。

GPT模式是由兩階段到一階段（單向語(yǔ)言模型預訓練+zero shot prompt/Instruct），比較適合生成類(lèi)任務(wù)、多任務(wù)，重而通。

T5模式將兩者的方法結合，有兩階段（單向語(yǔ)言模型預訓練+Fine-tuning）。張俊林稱(chēng)這種模式“形似GPT，神似Bert”，生成和理解都行，從效果上看較適合理解類(lèi)任務(wù)，國內很多大型語(yǔ)言模型采用這種模式。

目前的研究結論是，如果模型規模不是特別大，面向單一領(lǐng)域的理解類(lèi)任務(wù)，適合用T5模式。做生成類(lèi)任務(wù)時(shí)，用GPT模式效果最好。

如果單獨考慮zero-shot，GPT模式效果最好；如果在預訓練后引入多任務(wù)f(shuō)ine-tuning，則T5模式效果好。不過(guò)張俊林認為這個(gè)結論存疑，因為目前的實(shí)驗Encoder-Decoder都是Decoder-only參數量的兩倍。

綜合來(lái)看，當前幾乎所有參數規模超過(guò)千億的大型語(yǔ)言模型都采取GPT模式。張俊林分析可能的原因有三點(diǎn)：1、Encoder-Decoder里的雙向attention，損害zero shot能力；2、Encoder-Decoder結構在生成Token時(shí)，只能對Encoder高層做attention，Decoder-only結構在生成Token時(shí)可以逐層Attention，信息更細粒度；3、Encoder-Decoder訓練“中間填空”，生成最后單詞Next Token，存在不一致性，Decoder-only結構訓練和生成方式一致。

03.用提示學(xué)習方法，觸發(fā)大模型通用能力

從GPT的成長(cháng)路徑來(lái)看，哈爾濱工業(yè)大學(xué)計算機學(xué)院教授車(chē)萬(wàn)翔談道，2018年第一代GPT真正開(kāi)啟NLP預訓練模型時(shí)代，但沒(méi)有引起特別大的關(guān)注，其風(fēng)頭被Bert蓋住。2019年GPT-2模型的參數變得更多，但仍未引起很大轟動(dòng)。

2020年GPT-3模型發(fā)布，2022年3月InstructGPT模型問(wèn)世，當時(shí)重點(diǎn)是用1%參數達到1750億參數的GPT-3的效果，也沒(méi)有特別令人興奮，直到ChatGPT誕生，直接推向市場(chǎng)和面向終端用戶(hù)，并憑借驚艷的效果在社會(huì )上引起廣泛關(guān)注。

為什么GPT-3問(wèn)世兩年了，還沒(méi)有受到足夠廣泛的關(guān)注？車(chē)萬(wàn)翔認為，這是因為它只解決了知識存儲問(wèn)題，尚未很好解決“知識怎么調用”的問(wèn)題，而ChatGPT相當于解決了這一部分。兩塊打通后，就產(chǎn)生了非常好的應用效果。

中國科學(xué)院自動(dòng)化研究所研究員張家俊介紹了ChatGPT的通用能力基座。OpenAI在2020年用45T文本數據，通過(guò)自監督訓練獲得基礎大模型GPT-3，實(shí)現了流暢性、知識性；2021年在GPT-3基礎上利用179G代碼數據，通過(guò)自監督訓練獲得邏輯編程模型Codex；2022年利用更多更新文本數據和代碼數據的混合學(xué)習，得到了更強的基礎大模型GPT-3.5，這成為ChatGPT的基礎模型，實(shí)現了流暢性、知識性和邏輯性。

據他分享，大模型的通用能力由基礎模型決定，GPT-3用提示學(xué)習方法觸發(fā)通用能力。

參數微調通過(guò)任務(wù)相關(guān)的監督數據修改模型參數，能夠最大限度激發(fā)預訓練大模型完成特定任務(wù)的能力，但面臨數據稀、災難遺忘、資源浪費、通用性差等難題。

提示學(xué)習通過(guò)設計提示信息修改輸入模式，能夠觸發(fā)預訓練大模型完成特定任務(wù)，但是單一的外部提示信號難以最大限度地激發(fā)預訓練大模型的能力，從而高質(zhì)量完成具體任務(wù)。

將兩者結合，通過(guò)若干任務(wù)相關(guān)的經(jīng)過(guò)提示增強的監督數據修改模型參數，有助于激發(fā)模型的通用能力。

OpenAI聘請數據標注團隊，根據各垂直領(lǐng)域問(wèn)題指令撰寫(xiě)人工答案，并從開(kāi)放的GPT-3、InstructGPT等API接口收集全球用戶(hù)的問(wèn)題指令，對其按照問(wèn)答、摘要等領(lǐng)域進(jìn)行分類(lèi)；同時(shí)借助指令學(xué)習，在GPT-3.5的基礎上利用各領(lǐng)域人工撰寫(xiě)的指令與答案對模型進(jìn)行微調。

當模型參數規模達到百億以上時(shí)，幾十個(gè)任務(wù)聯(lián)合指令學(xué)習可以解決沒(méi)有見(jiàn)過(guò)的任務(wù)。

張家俊強調說(shuō)，任何大模型都有其能力邊界，幾乎不可能實(shí)現面向無(wú)限任務(wù)的通用能力，但可以通過(guò)讓大模型學(xué)會(huì )與其他模型、工具和環(huán)境進(jìn)行交互，實(shí)現大模型通用能力的拓展。

紫東太初多模態(tài)大模型便嘗試模型交互實(shí)現通用多模態(tài)對話(huà)。這是一個(gè)擁有千億參數規模的圖文音三模態(tài)大模型，通過(guò)學(xué)會(huì )API的使用，讓較小的語(yǔ)言大模型擁有通用的多模態(tài)對話(huà)能力。3月24日，張家俊將在「GTIC 2023中國AIGC創(chuàng )新峰會(huì )」上發(fā)表演講，分享紫東太初大模型的更多進(jìn)展。

04.

解讀ChatGPT四大關(guān)鍵技術(shù)

下圖是車(chē)萬(wàn)翔分享的從GPT-3到ChatGPT的技術(shù)演化路徑。

總體而言，ChatGPT有四個(gè)關(guān)鍵技術(shù)：

1、大規模預訓練模型：只有模型規模足夠大，才可能具備推理能力。中國人民大學(xué)高瓴人工智能學(xué)院長(cháng)聘副教授嚴睿談道，智能涌現不是故意設計出來(lái)的，而是大模型規模大到一定程度后，天然具備這樣的特性。

2、在代碼上進(jìn)行預訓練：可能代碼把解決一個(gè)大的問(wèn)題分解成若干個(gè)小的問(wèn)題，這種分布解決問(wèn)題的方式有助于自然語(yǔ)言推理。和自然語(yǔ)言模型相比，代碼語(yǔ)言模型需要更長(cháng)的上下文的依賴(lài)。

3、Prompt/Instruction Tuning：GPT-3模型太大，已經(jīng)沒(méi)辦法去精調了，只能用prompt，但是如果不精調，模型相當于還是一個(gè)語(yǔ)言模型，沒(méi)辦法適應人，只能由人去適應模型。讓人適應模型只能用指令的方式，再進(jìn)行精調，這相比預訓練代價(jià)要小的多。所以指令上精調就可以把一些不太多的數據，把語(yǔ)言模型的任務(wù)掰到適應人類(lèi)的回答問(wèn)題。

4、基于人類(lèi)反饋的強化學(xué)習（RLHF）：這對于結果好壞的影響不是特別大，甚至會(huì )限制語(yǔ)言模型生成的能力，但這種方式可能更好地和人類(lèi)在安全性、無(wú)毒無(wú)害等等方面的價(jià)值觀(guān)對齊。當模型上線(xiàn)后，它可以收集到更多用戶(hù)的反饋。

嚴睿認為Human-in-the-Loop可能是大型語(yǔ)言模型成功的一個(gè)重要因素，通過(guò)RLHF不斷獲得人類(lèi)反饋，將人的指令與機器的理解逐漸對齊，實(shí)現智能的不斷演化。

展望未來(lái)，ChatGPT能發(fā)展多久？車(chē)萬(wàn)翔發(fā)現了一個(gè)有意思的規律。如圖所示，每個(gè)箭頭長(cháng)短代表技術(shù)發(fā)展的時(shí)間長(cháng)度，可以看到，新技術(shù)的發(fā)展時(shí)間大約是舊技術(shù)的一半，以此推演，預訓練模型可能發(fā)展五年到2023年，再往后可能到2025年左右會(huì )有新技術(shù)產(chǎn)生。

05.大模型的未來(lái)：多模態(tài)、具身智能、社會(huì )交際

車(chē)萬(wàn)翔認為，ChatGPT可以說(shuō)是繼數據庫和搜索引擎后的全新一代知識表示和檢索的方法。

從知識表示和運用角度來(lái)看，知識在計算機內如何表示是人工智能最核心的問(wèn)題之一。早期是通過(guò)關(guān)系型數據庫的方式，精度較高，因為數據庫中每行每列的語(yǔ)義都非常明確，問(wèn)題是調用的自然度極低，必須由人去學(xué)習機器的語(yǔ)言，早期這些存儲方式產(chǎn)生了Oracle、微軟等科技巨頭。

后來(lái)互聯(lián)網(wǎng)上存儲了人類(lèi)全部的知識，這種知識表達方式不如數據庫精確，但存儲量大、信息多，調取這些知識需要借助搜索引擎、通過(guò)關(guān)鍵詞的方式，關(guān)鍵詞和SQL語(yǔ)句比起來(lái)就更為廣大用戶(hù)所接受，表達自然度更好，但仍然不及自然語(yǔ)言，產(chǎn)生谷歌、百度等科技巨頭。

到大模型時(shí)代，可以認為大模型也是一種知識存儲的方式，不是以人能看懂的方式來(lái)存儲，而是以參數的方式來(lái)存儲，可讀性、精度相對較低，但調用方式非常自然，通過(guò)自然語(yǔ)言就能調出大模型中的知識。車(chē)萬(wàn)翔相信和前兩次革命一樣，大模型時(shí)代會(huì )出現新的科技巨頭，現在看來(lái)OpenAI非常具有這樣的潛力，領(lǐng)先優(yōu)勢明顯。

談到大型語(yǔ)言模型研究的重心，車(chē)萬(wàn)翔和張俊林都認為除了語(yǔ)言外，還需要更多知識。

關(guān)于NLP的過(guò)去、現在、未來(lái)，科學(xué)家們在2020年提出了一個(gè)world scope概念，將NLP的發(fā)展進(jìn)程分為語(yǔ)料庫、互聯(lián)網(wǎng)、多模態(tài)、具身智能、社會(huì )交際這五個(gè)world scope。

早期NLP基于文本，再往后發(fā)展要走向多模態(tài)、具身認知、社會(huì )交際。ChatGPT已經(jīng)似乎有與人類(lèi)社會(huì )互動(dòng)的意思，相當于是跳過(guò)了中間兩步，但車(chē)萬(wàn)翔認為，要真正實(shí)現通用人工智能，中間這兩步是不能跳的，不然就像盲人在學(xué)語(yǔ)言。據傳GPT-4會(huì )是一個(gè)多模態(tài)大模型，如果解決了多模態(tài)這一步，那就只剩下具身了。

多模態(tài)大型語(yǔ)言模型的目標是增強更多的現實(shí)環(huán)境感知能力，包括視覺(jué)輸入（圖片、視頻）、聽(tīng)覺(jué)輸入（音頻）、觸覺(jué)輸入（壓力）等等。張俊林認為，目前阻礙多模態(tài)大模型發(fā)展的一個(gè)障礙是其很大程度上依賴(lài)于人工整理的大數據集，圖像處理的自監督技術(shù)路線(xiàn)尚未走通，如果走通可能會(huì )是又一大技術(shù)突破，一些圖像理解類(lèi)任務(wù)大概率會(huì )被融入大型語(yǔ)言模型，不再單獨存在。

多模態(tài)大模型是具身智能的基礎，相當于大腦，它還需要身體，才能與物理世界的交互。因此下一步就是將大腦與身體（如機器人等）結合的具身智能，利用強化學(xué)習，從真實(shí)世界獲得真實(shí)反饋、學(xué)習新的知識。

另一個(gè)值得探討的話(huà)題是大型語(yǔ)言模型的規模，做大還是做??？

張俊林談道，一方面，Scaling Law說(shuō)明了模型規模越大，數據越多，訓練越充分，大型語(yǔ)言模型的效果越好；另一方面，訓練成本太高了，Chinchilla證明了如果在數據充足的前提下，目前大型語(yǔ)言模型的規模比應有的合理大小更大些，似乎存在參數空間浪費。因此應該是：先把模型做小，充分利用模型參數后，再將模型做大。

除此之外，張俊林認為大型語(yǔ)言模型的復雜推理能力未來(lái)將進(jìn)一步提升。大型語(yǔ)言模型如何與專(zhuān)用工具結合也是非常有前景的方向，但技術(shù)尚不成熟，他判斷OpenAI應該不會(huì )走這條路。

大型語(yǔ)言模型還有很多問(wèn)題有待克服，包括構建中文評測數據集、優(yōu)化新知識的獲取、優(yōu)化舊知識的修正、探索私域領(lǐng)域知識的融入、優(yōu)化更好理解命令的能力、降低訓練推理成本等等。

06.結語(yǔ)：大模型與生成式AI駛入快車(chē)道?

自然語(yǔ)言處理被譽(yù)為人工智能皇冠上的明珠，而其最新代表之作ChatGPT憑借卓越的多輪對話(huà)和內容生成能力，正掀起新一輪人工智能研究、商用及創(chuàng )業(yè)熱潮。

ChatGPT仍有很多問(wèn)題，比如事實(shí)檢索性和復雜計算性效果差，無(wú)法實(shí)現一些實(shí)時(shí)性、動(dòng)態(tài)變化性的任務(wù)等。但優(yōu)化這些問(wèn)題以及提升大模型能力的研究正在飛速推進(jìn)。

如果上周微軟德國公司CTO兼AI部門(mén)主管Andreas Braun透露的信息為真，那么本周OpenAI將發(fā)布更強大的GPT-4多模態(tài)大模型，打通認知與感知的連接。百度基于文心大模型研發(fā)的生成式對話(huà)產(chǎn)品“文心一言”也將于本周四3月16日正式發(fā)布。微軟將在周五舉行主題為“與AI一起工作的未來(lái)”的在線(xiàn)活動(dòng)。大模型與生成式AI領(lǐng)域正變得愈發(fā)熱鬧。

本文作者：ZERO，來(lái)源：智東西，原文標題：《GPT-4要來(lái)了！一文看盡大型語(yǔ)言模型的過(guò)去、現在、未來(lái)》

風(fēng)險提示及免責條款市場(chǎng)有風(fēng)險，投資需謹慎。本文不構成個(gè)人投資建議，也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資，責任自負。

關(guān)鍵詞：

<tfoot id="eeww2"><sup id="eeww2"></sup></tfoot>