国产精品久久久久久久久久久久午衣片,国产成人精品男人的天堂网站,熟女一区二区中文字幕,亚洲精品国产精品乱码在线

您的位置：首頁(yè) > 產(chǎn)經(jīng) >

AI考公考編指日可待！微軟華人團隊發(fā)布全新基準AGIEval，專(zhuān)為人類(lèi)考試而生

來(lái)源：華爾街見(jiàn)聞 ? 2023-05-11 09:05:37

隨著(zhù)語(yǔ)言模型的能力越來(lái)越強，現有的這些評估基準實(shí)在有點(diǎn)小兒科了，有些任務(wù)的性能都甩了人類(lèi)一截。

通用人工智能（AGI）的一個(gè)重要特點(diǎn)是模型具有處理人類(lèi)水平任務(wù)的泛化能力，而依賴(lài)于人工數據集的傳統基準測試并不能準確表示人類(lèi)的能力。

【資料圖】

最近，微軟的研究人員發(fā)布了一個(gè)全新基準AGIEval，專(zhuān)門(mén)用于評估基礎模型在「以人為本」（human-centric）的標準化考試中，如高考、公務(wù)員考試、法學(xué)院入學(xué)考試、數學(xué)競賽和律師資格考試中的表現。

論文鏈接：https://arxiv.org/pdf/2304.06364.pdf

數據鏈接：https://github.com/microsoft/AGIEval

研究人員使用AGIEval基準評估了三個(gè)最先進(jìn)的基礎模型，包括GPT-4、 ChatGPT和Text-Davinci-003，實(shí)驗結果發(fā)現GPT-4在SAT、 LSAT和數學(xué)競賽中的成績(jì)超過(guò)了人類(lèi)平均水平，SAT數學(xué)考試的準確率達到了95% ，中國高考英語(yǔ)考試的準確率達到了92.5% ，表明了目前基礎模型的非凡表現。

但GPT-4在需要復雜推理或特定領(lǐng)域知識的任務(wù)中不太熟練，文中對模型能力(理解、知識、推理和計算)的全面分析揭示了這些模型的優(yōu)勢和局限性。

AGIEval數據集

近年來(lái)，大型基礎模型如GPT-4在各個(gè)領(lǐng)域已經(jīng)表現出非常強大的能力，可以輔助人類(lèi)處理日常事件，甚至還能在法律、醫學(xué)和金融等專(zhuān)業(yè)領(lǐng)域提供決策建議。

也就是說(shuō)，人工智能系統正逐步接近并實(shí)現通用人工智能（AGI）。

但隨著(zhù)AI逐步融入日常生活，如何評估模型以人為本的泛化能力，識別潛在的缺陷，并確保它們能夠有效地處理復雜的、以人為本的任務(wù)，以及評估推理能力確保在不同環(huán)境下的可靠性和可信度是至關(guān)重要的。

研究人員構造AGIEval數據集主要遵循兩個(gè)設計原則：

1. 強調人腦級別的認知任務(wù)

設計「以人為本」的主要目標是以與人類(lèi)認知和解決問(wèn)題密切相關(guān)的任務(wù)為中心，并以一種更有意義和全面的方式評估基礎模型的泛化能力。

為了實(shí)現這一目標，研究人員選擇了各種官方的、公開(kāi)的、高標準的招生和資格考試，以滿(mǎn)足一般人類(lèi)應試者的需要，包括大學(xué)入學(xué)考試、法學(xué)院入學(xué)考試、數學(xué)考試、律師資格考試和國家公務(wù)員考試，每年都有數百萬(wàn)尋求進(jìn)入高等教育或新職業(yè)道路的人參加這些考試。

通過(guò)遵守這些官方認可的評估人類(lèi)水平能力的標準，AGIEval可以確保對模型性能的評估與人類(lèi)決策和認知能力直接相關(guān)。

2. 與現實(shí)世界場(chǎng)景的相關(guān)性

通過(guò)選擇來(lái)自高標準的入學(xué)考試和資格考試的任務(wù)，可以確保評估結果能夠反映個(gè)人在不同領(lǐng)域和背景下經(jīng)常遇到的挑戰的復雜性和實(shí)用性。

這種方法不僅可以衡量模型在人類(lèi)認知能力方面的表現，而且可以更好地了解在現實(shí)生活中的適用性和有效性，即有助于開(kāi)發(fā)出更可靠、更實(shí)用、更適合于解決廣泛的現實(shí)世界問(wèn)題的人工智能系統。

根據上述設計原則，研究人員選擇了多種標準化的高質(zhì)量考試，強調人類(lèi)水平的推理和現實(shí)世界的相關(guān)性，具體包括：

1. 普通高校入學(xué)考試

大學(xué)入學(xué)考試包含各種科目，需要批判性思維、解決問(wèn)題和分析能力，是評估大型語(yǔ)言模型與人類(lèi)認知相關(guān)性能的理想選擇。

具體包括研究生入學(xué)考試（GRE），學(xué)術(shù)評估考試（SAT）和中國高考（Gaokao），可以評估尋求進(jìn)入高等教育機構的學(xué)生的一般能力和特定學(xué)科知識。

數據集中收集了與中國高考8個(gè)科目對應的考試：歷史、數學(xué)、英語(yǔ)、中文、地理、生物、化學(xué)和物理；從GRE中選擇數學(xué)題；從SAT中選擇英語(yǔ)和數學(xué)科目來(lái)構建基準數據集。

2. 法學(xué)院入學(xué)考試

法學(xué)院入學(xué)考試，如LSAT，旨在衡量未來(lái)的法律學(xué)生的推理和分析能力，考試內容包括邏輯推理、閱讀理解和分析推理等部分，需要應試者分析復雜信息和得出準確結論的能力，這些任務(wù)可以評估語(yǔ)言模型在法律推理和分析方面的能力。

3. 律師資格考試

可以評估追求法律職業(yè)的個(gè)人的法律知識、分析能力和道德理解，考試內容涵蓋了廣泛的法律主題，包括憲法、合同法、刑法和財產(chǎn)法，并要求考生展示他們有效應用法律原則和推理的能力，可以在專(zhuān)業(yè)法律知識和道德判斷的背景下評估語(yǔ)言模型的表現。

4. 研究生管理入學(xué)考試（GMAT）

GMAT是一個(gè)標準化的考試，可以評估未來(lái)商學(xué)院研究生的分析、定量、言語(yǔ)和綜合推理能力，由分析性寫(xiě)作評估、綜合推理、定量推理和言語(yǔ)推理等部分組成，評估應試者的批判性思考、分析數據和有效溝通的能力。

5. 高中數學(xué)競賽

這些比賽涵蓋了廣泛的數學(xué)主題，包括數論、代數、幾何和組合學(xué)，并且經(jīng)常出現一些非常規的問(wèn)題，需要用創(chuàng )造性的方法來(lái)解決。

具體包括美國數學(xué)競賽（AMC）和美國數學(xué)邀請考試（AIME），可以測試學(xué)生的數學(xué)能力、創(chuàng )造力和解決問(wèn)題的能力，能夠進(jìn)一步評估語(yǔ)言模型處理復雜和創(chuàng )造性數學(xué)問(wèn)題的能力，以及模型生成新穎解決方案的能力。

6. 國內公務(wù)員考試

可以評估尋求進(jìn)入公務(wù)員隊伍的個(gè)人的能力和技能，考試內容包括評估一般知識、推理能力、語(yǔ)言技能，以及與中國各種公務(wù)員職位的角色和職責有關(guān)的特定科目的專(zhuān)業(yè)知識，可以衡量語(yǔ)言模型在公共管理背景下的表現，以及他們對政策制定、決策和公共服務(wù)提供過(guò)程的潛力。

評估結果

選擇的模型包括：

ChatGPT，由OpenAI開(kāi)發(fā)的對話(huà)式人工智能模型，可以參與用戶(hù)互動(dòng)和動(dòng)態(tài)對話(huà)，使用龐大的指令數據集進(jìn)行訓練，并通過(guò)強化學(xué)習與人類(lèi)反饋（RLHF）進(jìn)一步調整，使其能夠提供與人類(lèi)期望相一致的上下文相關(guān)和連貫的回復。

GPT-4，作為第四代GPT模型，包含范圍更廣的知識庫，在許多應用場(chǎng)景中都表現出人類(lèi)水平的性能。GPT-4利用對抗性測試和ChatGPT進(jìn)行了反復調整，從而在事實(shí)性、可引導性和對規則的遵守方面有了明顯的改進(jìn)。

Text-Davinci-003是GPT-3和GPT-4之間的一個(gè)中間版本，通過(guò)指令微調后比GPT-3的性能更好。

除此之外，實(shí)驗中還報告了人類(lèi)應試者的平均成績(jì)和最高成績(jì)，作為每個(gè)任務(wù)的人類(lèi)水平界限，但并不能完全代表人類(lèi)可能擁有的技能和知識范圍。

Zero-shot/Few-shot評估

在零樣本的設置下，模型直接對問(wèn)題進(jìn)行評估；在少樣本任務(wù)中，在對測試樣本進(jìn)行評估之前，先輸入同一任務(wù)中的少量例子（如5個(gè)）。

為了進(jìn)一步測試模型的推理能力，實(shí)驗中還引入思維鏈（CoT）提示，即先輸入提示「Let’s think step by step」為給定的問(wèn)題生成解釋?zhuān)缓筝斎胩崾尽窫xplanation is」根據解釋生成最終的答案。

基準中的「多選題」使用標準分類(lèi)準確率；「填空題」使用精確匹配（EM）和F1指標。

從實(shí)驗結果中可以發(fā)現：

1.GPT-4在所有任務(wù)設置下都明顯優(yōu)于其同類(lèi)產(chǎn)品，其中在Gaokao-English上更是取得了93.8%的準確率，在SAT-MATH上取得了95%的準確率，表明GPT-4在處理以人為本的任務(wù)方面具有卓越的通用能力。

2.ChatGPT在需要外部知識的任務(wù)中明顯優(yōu)于Text-Davinci-003，例如涉及地理、生物、化學(xué)、物理和數學(xué)的任務(wù)，表明ChatGPT擁有更強大的知識基礎，能夠更好地處理那些需要對特定領(lǐng)域有深刻理解的任務(wù)。

另一方面，ChatGPT在所有評估設置中，在需要純粹理解和不嚴重依賴(lài)外部知識的任務(wù)中，如英語(yǔ)和LSAT任務(wù)，略微優(yōu)于Text-Davinci-003，或取得相當的結果。這一觀(guān)察結果意味著(zhù)，這兩個(gè)模型都能夠處理以語(yǔ)言理解和邏輯推理為中心的任務(wù)，而不需要專(zhuān)門(mén)的領(lǐng)域知識。

3. 盡管這些模型的總體表現不錯，但所有的語(yǔ)言模型都在復雜的推理任務(wù)中表現不佳，比如MATH、LSAT-AR、GK-physics和GK-Math，突出了這些模型在處理需要高級推理和解決問(wèn)題技能的任務(wù)方面的局限性。

觀(guān)察到的處理復雜推理問(wèn)題的困難為未來(lái)的研究和開(kāi)發(fā)提供了機會(huì )，目的是提高模型的一般推理能力。

4. 與zero-shot學(xué)習相比，few-shot學(xué)習通常只能帶來(lái)有限的性能改善，表明目前大型語(yǔ)言模型的zero-shot學(xué)習能力正在接近few-shot學(xué)習能力，也標志著(zhù)與最初的GPT-3模型相比有了很大的進(jìn)步，當時(shí)few-shot性能要比zero-shot好得多。

對這一發(fā)展的一個(gè)合理解釋是，在目前的語(yǔ)言模型中加強了人類(lèi)的調整和指令的調整，這些改進(jìn)使模型能夠提前更好地理解任務(wù)的含義和背景，從而使它們即使在zero-shot的情況下也能有良好的表現，證明了指令的有效性。

本文來(lái)源：新智元，原文標題：《AI考公考編指日可待！微軟華人團隊發(fā)布全新基準AGIEval，專(zhuān)為人類(lèi)考試而生》

風(fēng)險提示及免責條款市場(chǎng)有風(fēng)險，投資需謹慎。本文不構成個(gè)人投資建議，也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資，責任自負。

關(guān)鍵詞：