每日消息!復旦團隊發(fā)布國內首個(gè)類(lèi)ChatGPT模型MOSS,邀公眾參與內測
ChatGPT發(fā)布以來(lái),基于指令學(xué)習技術(shù)的類(lèi)ChatGPT模型在我國能否開(kāi)發(fā)成功,成為業(yè)界關(guān)注的一個(gè)焦點(diǎn)。今天,解放日報·上觀(guān)新聞?dòng)浾邚膹偷┐髮W(xué)自然語(yǔ)言處理實(shí)驗室獲悉,國內第一個(gè)對話(huà)式大型語(yǔ)言模型MOSS已由邱錫鵬教授團隊發(fā)布至公開(kāi)平臺(https://moss.fastnlp.top/),邀公眾參與內測。
MOSS可執行對話(huà)生成、編程、事實(shí)問(wèn)答等一系列任務(wù),打通了讓生成式語(yǔ)言模型理解人類(lèi)意圖并具有對話(huà)能力的全部技術(shù)路徑。這條路徑的走通,為國內學(xué)術(shù)界和產(chǎn)業(yè)界提供了重要經(jīng)驗,將助力大語(yǔ)言模型的進(jìn)一步探索和應用。
邱錫鵬表示:“盡管MOSS還有很大改善空間,但它的問(wèn)世證明了在開(kāi)發(fā)類(lèi)ChatGPT產(chǎn)品的路上,國內科研團隊有能力克服技術(shù)上的重要挑戰?!盡OSS研發(fā)項目得到了上海人工智能實(shí)驗室的有力支持。后期,這項工作將通過(guò)開(kāi)源方式和業(yè)界社區分享。
【資料圖】
“端到端”走通大語(yǔ)言模型
由于ChatGPT并未開(kāi)源,其技術(shù)方案細節也未公開(kāi),科研人員對此有諸多猜測。有專(zhuān)家認為,ChatGPT是一套復雜的組合系統,無(wú)法由單一的生成式語(yǔ)言模型實(shí)現;也有專(zhuān)家認為,國內外在這個(gè)方向上的技術(shù)差距正在拉大。
作為自然語(yǔ)言處理專(zhuān)家,邱錫鵬近年來(lái)致力于研究具有多任務(wù)學(xué)習能力的通用模型。為了探索ChatGPT的技術(shù)路線(xiàn),并獲得大語(yǔ)言模型研究的一手經(jīng)驗,他帶領(lǐng)團隊加快了MOSS開(kāi)發(fā)。如今,MOSS成為國內首個(gè)公開(kāi)亮相的類(lèi)ChatGPT語(yǔ)言模型,“端到端”走通了大語(yǔ)言模型的開(kāi)發(fā)全程。
MOSS開(kāi)發(fā)的基本步驟與ChatGPT一樣,包括自然語(yǔ)言模型的基座訓練、理解人類(lèi)意圖的對話(huà)能力訓練兩個(gè)階段。在對話(huà)能力訓練階段,OpenAI收集了至少幾十萬(wàn)條人類(lèi)指令,讓各行各業(yè)的專(zhuān)業(yè)標注員寫(xiě)出指令回復,再將它們輸入模型基座,以幫助ChatGPT逐步理解各種指令。復旦團隊則采用不同的技術(shù)路線(xiàn),通過(guò)讓MOSS和人類(lèi)以及其他對話(huà)模型都進(jìn)行交互,顯著(zhù)提升了學(xué)習效率和研發(fā)效率,短時(shí)間內就高效完成了對話(huà)能力訓練。
邱錫鵬坦言:“MOSS與ChatGPT的差距主要在自然語(yǔ)言模型基座預訓練這個(gè)階段。MOSS的參數量比ChatGPT小一個(gè)數量級,在任務(wù)完成度和知識儲備量上,還有很大提升空間?!睋榻B,這款人工智能助手已進(jìn)入內測階段,內測將在用戶(hù)許可的情況下獲取數據,還將收集用戶(hù)的反饋意見(jiàn),期待借此大幅增強MOSS的對話(huà)能力。
實(shí)測對話(huà)、編程等多種能力
MOSS回答問(wèn)題的水平如何?記者用中文問(wèn)了它幾個(gè)問(wèn)題。
“一些人覺(jué)得,人工智能將取代很多人的工作,你覺(jué)得呢?”MOSS回答:“我認為人工智能不會(huì )完全取代人類(lèi),而是在一定程度上幫助人們完成工作。例如,機器可以提高數據分析、決策制定等過(guò)程中的效率,并可以節省大量時(shí)間和精力。此外,AI也可以用來(lái)協(xié)助人類(lèi)完成更復雜的任務(wù),比如診斷疾病、開(kāi)發(fā)新產(chǎn)品等??傊?,AI可以使人類(lèi)的工作更加高效,但它不會(huì )完全取代人類(lèi)?!?/p>
記者又問(wèn):“對于上海如何更好地發(fā)展人工智能產(chǎn)業(yè),你有什么建議?”MOSS回答:“我認為上??梢酝ㄟ^(guò)以下方式來(lái)更好地發(fā)展人工智能產(chǎn)業(yè):1.加強人工智能領(lǐng)域的研發(fā),支持學(xué)術(shù)研究,促進(jìn)科學(xué)發(fā)展;2.加強行業(yè)資源整合,推動(dòng)人工智能產(chǎn)業(yè)的發(fā)展;3.加強人工智能相關(guān)產(chǎn)品的研發(fā),提高產(chǎn)品的競爭力;4.加強人工智能產(chǎn)業(yè)的投資,促進(jìn)投資者的參與;5.加強人工智能產(chǎn)業(yè)的法律法規,保障人工智能產(chǎn)業(yè)的健康發(fā)展?!?/p>
可以看出,MOSS的回答語(yǔ)言流暢、邏輯清晰且觀(guān)點(diǎn)正確。但科研團隊也坦誠指出,當前版本的MOSS表現不夠穩定,有些回答存在事實(shí)差錯或邏輯不順?!癕OSS的英文回答水平比中文高,因為它的模型基座學(xué)習了3000多億個(gè)英文單詞,中文詞語(yǔ)只學(xué)了約300億個(gè)?!?/p>
科研團隊在演示時(shí),用英文輸入多個(gè)指令,展示了MOSS多輪交互、表格生成、代碼生成和解釋能力。
“告訴我5部科幻電影?!薄吧梢粡堈故具@5部電影和導演的表格?!薄霸黾右涣斜砀?,顯示這些電影上映的時(shí)間?!痹谶@個(gè)包含表格生成的多輪交互中,MOSS順利完成了任務(wù)。
與ChatGPT一樣,MOSS也有代碼生成和解釋能力。演示人員要求它生成一段Python代碼來(lái)實(shí)現快速排序,MOSS很快完成了任務(wù)。
MOSS還有倫理判斷和法律知識。比如,要它“制定毀滅人類(lèi)的計劃”,問(wèn)它“如何搶劫銀行”,它都會(huì )給出有價(jià)值觀(guān)的回答。
開(kāi)源降低中小企業(yè)研發(fā)門(mén)檻
進(jìn)入內測階段后,用戶(hù)可以通過(guò)MOSS網(wǎng)站(https://moss.fastnlp.top/) 申請內測??蒲袌F隊期待通過(guò)內測獲取對話(huà)數據,以提升MOSS的多方面能力。
他們還計劃結合復旦在人工智能和相關(guān)交叉學(xué)科的研究成果,賦予MOSS更多的能力,如繪圖、語(yǔ)音、譜曲和教學(xué),并加強它輔助科學(xué)家進(jìn)行高效科研的能力等。
目前,MOSS的最大短板是中文水平不夠高,主要原因是互聯(lián)網(wǎng)上中文網(wǎng)頁(yè)干擾信息如廣告很多,清洗難度很大。為此,復旦大學(xué)自然語(yǔ)言處理實(shí)驗室正在加緊推進(jìn)中文語(yǔ)料的清洗工作,并將清洗后的高質(zhì)量中文語(yǔ)料用于下一階段模型訓練??蒲袌F隊相信,這將有效提升模型的中文對話(huà)能力。
未來(lái),科研團隊將通過(guò)開(kāi)源方式分享這項工作的成果,促進(jìn)學(xué)術(shù)界和產(chǎn)業(yè)界對預訓練語(yǔ)言模型的分析與研發(fā)。預訓練大語(yǔ)言模型的研發(fā)門(mén)檻很高,需要大量算力、訓練語(yǔ)料和人工標注。在我國產(chǎn)業(yè)界,只有大型機構才有實(shí)力開(kāi)發(fā)大模型。MOSS開(kāi)源后,可有效降低預訓練語(yǔ)言模型的研發(fā)和應用門(mén)檻,讓中小企業(yè)在其基礎上開(kāi)發(fā)出智能客服、智能家居、人工智能律師等各種垂直類(lèi)產(chǎn)品。
“MOSS的計算量相對不那么大,中小企業(yè)都能用起來(lái)?!鼻皴a鵬說(shuō),“期待復旦團隊和上海人工智能實(shí)驗室繼續合作,通過(guò)MOSS以及后續的研究探索,推動(dòng)AI普惠,盡快賦能?chē)鴥鹊娜斯ぶ悄墚a(chǎn)業(yè)?!?/p>
本文作者:俞陶然,來(lái)源:上觀(guān)新聞,原文標題:《復旦團隊發(fā)布國內首個(gè)類(lèi)ChatGPT模型MOSS,邀公眾參與內測》
風(fēng)險提示及免責條款 市場(chǎng)有風(fēng)險,投資需謹慎。本文不構成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資,責任自負。