GPT-4數學(xué)能力大蹦極!OpenAI爆火研究「過(guò)程監督」突破78.2%難題,干掉幻覺(jué)-今日熱文
【新智元導讀】ChatGPT為人詬病的「數學(xué)智障」問(wèn)題,有望徹底攻克!OpenAI最新研究發(fā)現,利用「過(guò)程監督」可以大幅提升GPT模型的數學(xué)能力,干掉它們的幻覺(jué)。
ChatGPT自發(fā)布以來(lái),數學(xué)能力飽受詬病。
【資料圖】
就連「數學(xué)天才」陶哲軒曾表示,GPT-4在自己的數學(xué)專(zhuān)業(yè)領(lǐng)域,并沒(méi)有太多的增值。
怎么辦,就一直讓ChatGPT做個(gè)「數學(xué)智障」么?
OpenAI在努力——為了提升GPT-4的數學(xué)推理能力,OpenAI團隊用「過(guò)程監督」(PRM)訓練模型。
論文地址:https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step.pdf
論文中,研究人員訓練模型通過(guò)獎勵每一個(gè)正確的推理步驟,即「過(guò)程監督」,而不僅僅是獎勵正確的最終結果(結果監督),在數學(xué)問(wèn)題解決方面取得最新SOTA。
具體來(lái)講, PRM解決了MATH測試集代表性子集中78.2%的問(wèn)題。
此外,OpenAI發(fā)現「過(guò)程監督」在對齊上有很大的價(jià)值——訓練模型產(chǎn)生人類(lèi)認可的思維鏈。
最新研究當然少不了Sam Altman的轉發(fā),「我們的Mathgen團隊在過(guò)程監督上取得了非常令人振奮的結果,這是對齊的積極信號?!?/p>
在實(shí)踐中,「過(guò)程監督」因為需要人工反饋,對于大模型和各種任務(wù)來(lái)說(shuō)成本都極其高昂。因此,這項工作意義重大,可以說(shuō)能夠確定OpenAI未來(lái)的研究方向。
解決數學(xué)問(wèn)題
實(shí)驗中,研究人員用MATH數據集中的問(wèn)題,來(lái)評估「過(guò)程監督」和「結果監督」的獎勵模型。
讓模型為每個(gè)問(wèn)題生成許多解決方案,然后挑選每個(gè)獎勵模型排名最高的解決方案。
如圖顯示了所選解決方案中,取得正確最終答案的百分比,作為所考慮解決方案數量的函數。
「過(guò)程監督」獎勵模型不僅在整體上表現更好,而且隨著(zhù)考慮每個(gè)問(wèn)題的更多解決方案,性能差距也在擴大。
這表明,「過(guò)程監督」獎勵模型更加可靠。
如下,OpenAI展示了模型的10個(gè)數學(xué)問(wèn)題和解決方案,以及對獎勵模型優(yōu)缺點(diǎn)的評論。
從以下三類(lèi)指標,真正(TP)、真負(TN)、假正(FP),對模型進(jìn)行了評估。
真正(TP)
先來(lái)簡(jiǎn)化個(gè)三角函數公式。
這個(gè)具有挑戰性的三角函數問(wèn)題,需要以一種不明顯的順序應用幾個(gè)恒等式。
但是大多數解決嘗試都失敗了,因為很難選擇哪些恒等式實(shí)際上是有用的。
雖然GPT-4通常不能解決這個(gè)問(wèn)題,只有0.1%的解決方案嘗試實(shí)現正確答案,但獎勵模型正確地識別出這個(gè)解決方案是有效的。
這里,GPT-4成功地執行了一系列復雜的多項式因式分解。
在步驟5中使用Sophie-Germain恒等式是一個(gè)重要的步驟??梢?jiàn),這一步驟很有洞察力。
在步驟7和8中,GPT-4開(kāi)始執行猜測和檢查。
這是該模型可能產(chǎn)生「幻覺(jué)」的常見(jiàn)地方,它會(huì )聲稱(chēng)某個(gè)特定的猜測是成功的。在這種情況下,獎勵模型驗證每一步,并確定思維鏈是正確的。
模型成功地應用了幾個(gè)三角恒等式以簡(jiǎn)化表javascript達式。
真負(TN)
在步驟7中,GPT-4試圖簡(jiǎn)化一個(gè)表達式,但嘗試失敗。獎勵模型發(fā)現了這個(gè)錯誤。
在步驟11中,GPT-4犯了一個(gè)簡(jiǎn)單的計算錯誤。同樣被獎勵模型發(fā)現。
GPT-4在步驟12中嘗試使用差平方公式,但這個(gè)表達式實(shí)際上并非差平方。
步驟8的理由很奇怪,但獎勵模型讓它通過(guò)了。然而,在步驟9中,模型錯誤地將表達式分解出因子。
獎勵模型便糾出這個(gè)錯誤。
假正(FP)
在步驟4中,GPT-4錯誤OgIjmy地聲稱(chēng)「序列每12項重復一次」,但實(shí)際上每10項重復一次。這種計數錯誤偶爾會(huì )欺騙獎勵模型。
步驟13中,GPT-4試圖通過(guò)合并類(lèi)似的項來(lái)簡(jiǎn)化方程。它正確地將線(xiàn)性項移動(dòng)并組合到左邊,但錯誤地保持右邊不變。獎勵模型被這個(gè)錯誤所欺騙。
GPT-4嘗試進(jìn)行長(cháng)除法,但在步驟16中,它忘記在小數的重復部分包括前面的零。獎勵模型被這個(gè)錯誤所欺騙。
GPT-4在步驟9中犯了一個(gè)微妙的計數錯誤。
表面上,聲稱(chēng)有5種方法可以交換同色的球(因為有5種顏色)似乎是合理的。
然而,這個(gè)計數低估了2倍,因為Bob有2個(gè)選擇,即決定把哪個(gè)球給Alice。獎勵模型被這個(gè)錯誤所欺騙。
過(guò)程監督
雖然大語(yǔ)言模型在復雜推理能力方面有了很大的提升,但即便是最先進(jìn)的模型仍然會(huì )產(chǎn)生邏輯錯誤,或胡說(shuō)八道,也就是人們常說(shuō)的「幻覺(jué)」。
在生成式人工智能的熱潮中,大語(yǔ)言模型的幻覺(jué)一直讓人們苦惱不已。
馬斯克說(shuō),我們需要的是TruthGPT
比如最近,一位美國律師在紐約聯(lián)邦法院的文件中就引用了ChatGPT捏造出的案件,可能面臨制裁。
OpenAI的研究者在報告中提到:“在需要多步驟推理的領(lǐng)域,這些幻覺(jué)尤其成問(wèn)題,因為,一個(gè)簡(jiǎn)單的邏輯錯誤,就足以對整個(gè)解決方案造成極大的破壞?!?/p>
而且,減輕幻覺(jué),也是構建一致AGI的關(guān)鍵。
怎么減少大模型的幻覺(jué)呢?一般有兩種方法——過(guò)程監督和結果監督。
「結果監督」,顧名思義,就是根據最終結果給大模型反饋,而「過(guò)程監督」則可以針對思維鏈中的每個(gè)步驟提供反饋。
在過(guò)程監督中,會(huì )獎勵大模型正確的推理步驟,而不僅僅是獎勵它們正確的最終結論。這個(gè)過(guò)程,會(huì )鼓勵模型遵循更多類(lèi)似人類(lèi)的思維方法鏈,因而也就更可能造就更好的可解釋AI。
OpenAI的研究者表示,雖然過(guò)程監督并不是OpenAI發(fā)明的,但OpenAI正在努力推動(dòng)它向前發(fā)展。
最新研究中, OpenAI把「結果監督」或「過(guò)程監督」兩種方法都試了一遍。并使用MATH數據集作為測試平臺,并對這兩種方法進(jìn)行了詳細比較。
結果發(fā)現,「過(guò)程監督」能夠明顯提高模型性能。
對于數學(xué)任務(wù),「過(guò)程監督」對大模型和小模型都產(chǎn)生了明顯更好的結果,這意味著(zhù)模型通常是正確的,并且還表現出了更像人類(lèi)的思維過(guò)程。
這樣,即使在最強大的模型中也很難避免的幻覺(jué)或邏輯錯誤,就可以減少了。
對齊優(yōu)勢明顯
研究人員發(fā)現了「過(guò)程監督」比「結果監督」有幾個(gè)對齊優(yōu)勢:
直接獎勵遵循一致的思維鏈模型,因為過(guò)程中的每個(gè)步驟都受到精確的監督。
更有可能產(chǎn)生可解釋的推理,因為「過(guò)程監督」鼓勵模型遵循人類(lèi)認可的過(guò)程。相比之下,結果監督可能會(huì )獎勵一個(gè)不一致的過(guò)程,而且通常更難審查。
另外值得一提的是,在某些情況下,讓AI系統更安全的方法可能會(huì )導致性能下降。這種成本被稱(chēng)為「對齊稅」(alignment tax)。
一般來(lái)說(shuō),為了部署最有能力的模型,任何「對齊稅」成本都可能阻礙對齊方法的采用。
但是,研究人員如下的結果表明,「過(guò)程監督」在數學(xué)領(lǐng)域測試過(guò)程中實(shí)際上會(huì )產(chǎn)生「負對齊稅」。
可以說(shuō),沒(méi)有因為對齊造成較大性能損耗。
OpenAI發(fā)布80萬(wàn)人工標注數據集
值得注意的是,PRM需要更多的人類(lèi)標注,還是深深離不開(kāi)RLHF。
過(guò)程監督在數學(xué)以外的領(lǐng)域,具有多大的適用性呢?這個(gè)過(guò)程需要進(jìn)一步探索。
OpenAI研究人員開(kāi)放了這次人類(lèi)反饋數據集PRM,包含800,000個(gè)步驟級正確標注:12K數學(xué)問(wèn)題生成的75K解決方案
如下是一個(gè)標注的示例。OpenAI正在發(fā)布原始標注,以及在項目第1階段和第2階段給標注者的指示。
網(wǎng)友熱評
英偉達科學(xué)家Jim Fan對OpenAI最新研究做了一個(gè)總結:
對于具有挑戰性的分步問(wèn)題,在每一步都給予獎勵,而不是在最后給予單一的獎勵?;旧?,密集獎勵信號>稀疏獎勵信號。過(guò)程獎勵模型(PRM)能夠比結果獎勵模型(ORM)更好為困難的MATH基準挑選解決方案。下一步顯然是用PRM對GPT-4進(jìn)行微調,而本文還沒(méi)有這樣做。需要注意的是,PRM需要更多的人類(lèi)標php注。OpenAI發(fā)布了人類(lèi)反饋數據集:在12K數學(xué)問(wèn)題的75K解決方案中的800K步驟級標注。
這就像上學(xué)時(shí)常說(shuō)的一句老話(huà),學(xué)會(huì )如何去思考。
訓練模型去思考,而不僅是輸出正確的答案,將會(huì )成為解決復雜問(wèn)題的game changer。
ChatGPT在數學(xué)方面超級弱。今天我試圖解決一個(gè)四年級數學(xué)書(shū)上的數學(xué)問(wèn)題。ChatGPT給了錯誤答案。我把我的答案和ChatGPT的答案,在perplexity AI、谷歌的答案,以及四年級的老師進(jìn)行了核對。每個(gè)地方都可以確認,chatgpt的答案是錯誤的。
參考資料:
https://openai.com/research/improving-mathematical-reasoning-with-process-supervision
關(guān)鍵詞: