国产精品久久久久久久久久久久午衣片,国产成人精品男人的天堂网站,熟女一区二区中文字幕,亚洲精品国产精品乱码在线

您的位置：首頁(yè) > 產(chǎn)經(jīng) >

為何同一個(gè)中文大模型，不同評測標準打分差異大？|見(jiàn)智研究_快看

來(lái)源：華爾街見(jiàn)聞 ? 2023-05-10 18:12:41

5月9日中文通用大模型綜合性評測基準SuperCLUE正式發(fā)布。經(jīng)過(guò)一天時(shí)間的發(fā)酵，論壇上對該評測標準質(zhì)疑的聲音越發(fā)多了，這是為什么？大模型評測標準設立的難度又在哪里？

(資料圖片)

中文評測標準為何重要？

科大訊飛董事長(cháng)劉慶峰認為：如果要努力追趕OpenAI的進(jìn)度，需要一套科學(xué)系統的評測體系；用這一套科學(xué)系統，來(lái)判定技術(shù)迭代到底到了什么程度，還有哪些任務(wù)是不達標的。

市場(chǎng)看重中文大模型評測標準主要基于三方面考慮因素。

第一、數據集的差異性。中文和英文的文本數據集在種類(lèi)、規模、質(zhì)量等方面存在很大的差異，需要針對中文特點(diǎn)開(kāi)發(fā)相應的數據集，以確保評測結果的準確性和公正性。

第二、語(yǔ)言結構和語(yǔ)法的差異。例如中文是一種“主謂賓”結構的語(yǔ)言，而英文則是“主語(yǔ)動(dòng)詞賓語(yǔ)”結構的語(yǔ)言。這些差異導致了中英文之間在語(yǔ)言處理任務(wù)上存在很大的區別，需要不同的評測標準和方法。

第三、中文詞匯量和歧義性。中文的詞匯量非常大，而且存在很多歧義性，需要更復雜的處理方法和技術(shù)，如分詞、詞性標注、命名實(shí)體識別等。

華爾街見(jiàn)聞·見(jiàn)智研究認為：中文大模型評測標準的重要性在于它可以幫助廠(chǎng)商相對客觀(guān)地評估模型的質(zhì)量和性能，比較不同模型的性能和差異。更重要的是標準化的評估方法和數據集能夠為開(kāi)發(fā)者提供很好的方向，促進(jìn)模型迭代速度。

此前，IDC發(fā)布的大模型評測標準，從三個(gè)維度（產(chǎn)品能力、應用能力和生態(tài)能力）、6個(gè)一級指標和11個(gè)二級指標來(lái)評估中國大模型的能力。

并且給出結論：文心大模型在產(chǎn)品力和生態(tài)能力上都超過(guò)平均分水平。但是由于評測方法沒(méi)有完全公開(kāi)，貌似并沒(méi)有被市場(chǎng)所完全認可。

所以，在大模型層出不窮的當下，市場(chǎng)上非常需要對模型的評估方法和一致性標準。

但從當下來(lái)看，這貌似又是一個(gè)在短期內非常難以?xún)冬F的預期。

中文大模型評測標準化很難，SuperCLUE被吐槽選擇題方式單一

剛剛發(fā)布的文通用大模型基準（SuperCLUE），是針對中文可用的通用大模型的一個(gè)測評基準。它主要回答的問(wèn)題是：在當前通用大模型大力發(fā)展的情況下，中文大模型的效果情況。

SuperCLUE從三個(gè)不同的維度評價(jià)模型的能力：基礎能力、專(zhuān)業(yè)能力和中文特性能力。

基礎能力：包括了常見(jiàn)的有代表性的模型能力，如語(yǔ)義理解、對話(huà)、邏輯推理、角色模擬、代碼、生成與創(chuàng )作等10項能力。
專(zhuān)業(yè)能力：包括了中學(xué)、大學(xué)與專(zhuān)業(yè)考試，涵蓋了從數學(xué)、物理、地理到社會(huì )科學(xué)等50多項能力。
中文特性能力：針對有中文特點(diǎn)的任務(wù)，包括了中文成語(yǔ)、詩(shī)歌、文學(xué)、字形等10項多種能力。

以SuperCLUE測試結果來(lái)看，文心一言的評測結果遠不如星火大模型；

而以另一種比較火的評測標準是JioNLP，該評測是由中國科學(xué)院計算技術(shù)研究所自然語(yǔ)言處理與社會(huì )人文計算實(shí)驗室（簡(jiǎn)稱(chēng)“計算所NLP”）開(kāi)發(fā)和維護的。

JioNLP評測還提供了多種評測指標和計算工具，以幫助研究者和開(kāi)發(fā)者客觀(guān)地評估模型的性能和效果，并比較不同模型的優(yōu)缺點(diǎn)和適用范圍。

JioNLP評測方式目前的總下載量達到2.4萬(wàn)次，近三十天下載量為1634次。

通過(guò)JioNLP評測，研究者和開(kāi)發(fā)者可以獲取實(shí)時(shí)的評測結果和排名，以及相應的源代碼和技術(shù)報告，為中文自然語(yǔ)言處理的研究和應用提供參考和支持。

從JioNLP評測的結果來(lái)看：文心一言的得分卻又高于星火大模型。

這背后的原因是兩種評測的方法的設置有很大的差異性。

SuperCLUE是只通過(guò)選擇題對模型能力進(jìn)行測試，而JioNLP采用的是客觀(guān)選擇題+主觀(guān)題（生成題、翻譯題和聊天題）進(jìn)行測試。

但相同的是，在官網(wǎng)留言區對于兩個(gè)測試標準都出現很多質(zhì)疑聲音。

如：對SuperCLUE評測方法如何限定測試題目數量，生成和創(chuàng )作類(lèi)評測用選擇題測試是否合理，以及建議SuperCLUE像中文Alpaca一樣適度公開(kāi)評測說(shuō)明和標準。JioNLP也同樣存在測試精度、樣本量小等問(wèn)題。

見(jiàn)智研究認為：當下對大模型的評估方法和指標還沒(méi)有形成共識、更沒(méi)有統一的標準出現，特別是對于不同場(chǎng)景和任務(wù)可能有不同的評價(jià)體系和需求出現。

常用的機器學(xué)習模型評估標準有7個(gè)比較重要的方向：

包括準確度（針對分類(lèi)能力）、精確度和召回率（模型正確預測的內容占該樣本的比例）、對抗攻擊魯棒性（模型在受到輸入干擾時(shí)保持穩定的能力）、計算效率、均方誤差、R方值以及數據隱私。

從當下來(lái)看，SuperCLUE的評測方式單一性確實(shí)存在一定的弊端，但是該模型采用的人工評價(jià)的精度也曾被市場(chǎng)認可確實(shí)在精度和靈活度上面高于系統的自動(dòng)評價(jià)方法。

總的來(lái)說(shuō)，大模型測試標準化是行業(yè)所需要的，但同樣也是非常難實(shí)現的。

風(fēng)險提示及免責條款市場(chǎng)有風(fēng)險，投資需謹慎。本文不構成個(gè)人投資建議，也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資，責任自負。

關(guān)鍵詞：