国产精品久久久久久久久久久久午衣片,国产成人精品男人的天堂网站,熟女一区二区中文字幕,亚洲精品国产精品乱码在线

全球新資訊:關(guān)于GTP-4,這是14個(gè)被忽略的驚人細節!

3月14日,OpenAI推發(fā)布了GPT-4。向科技界再次扔下了一枚“核彈”。

根據OpenAI的演示,我們知道了GPT-4擁有著(zhù)比GPT-3.5更強大的力量:總結文章、寫(xiě)代碼、報稅、寫(xiě)詩(shī)等等。

但如果我們深入OpenAI所發(fā)布的技術(shù)報告,我們或許還能發(fā)現有關(guān)GPT-4更多的特點(diǎn)……


(資料圖片僅供參考)

以及一些OpenAI沒(méi)有點(diǎn)名和宣揚的,可能會(huì )令人背后一涼的細節。

1.新Bing裝載GPT-4

自然而然地,GPT-4發(fā)布之時(shí),新Bing也已經(jīng)裝載了最新的版本。

根據微軟Bing副總裁Jordi Ribas在推特上所述,裝載了GPT-4的新Bing已經(jīng)將問(wèn)答限制提升到了一次15個(gè)問(wèn)題,一天最多提問(wèn)150次。

2.文本長(cháng)度擴大八倍

在GPT-4上,文本長(cháng)度被顯著(zhù)提高。

在此之前我們知道,調用GPT的API收費方式是按照“token”計費,一個(gè)token通常對應大約 4 個(gè)字符,而1個(gè)漢字大致是2~2.5個(gè)token。

在GPT-4之前,token的限制大約在4096左右,大約相當于3072個(gè)英文單詞,一旦對話(huà)的長(cháng)度超過(guò)這個(gè)限制,模型就會(huì )生成不連貫且無(wú)意義的內容。

然而,到了GPT-4,最大token數為32768個(gè),大約相當于24576個(gè)單詞,文本長(cháng)度被擴大了八倍。

也就是說(shuō),GPT-4現在可以回答更長(cháng)的文本了。

OpenAI在文檔中表示,現在GPT-4限制的上下文長(cháng)度限制為8192個(gè)token,允許32768個(gè)token的版本名為GPT-4-32K,目前暫時(shí)限制了訪(fǎng)問(wèn)權限。在不久的未來(lái),這一功能可能會(huì )被開(kāi)放。

3.模型參數成為秘密

我們知道,GPT-3.5模型的參數量為2000億,GPT-3的參數量為1750億,但這一情況在GPT-4被改變了。

OpenAI在報告中表示:

考慮到競爭格局和大型模型(如GPT-4)的安全影響,本報告沒(méi)有包含有關(guān)架構(包括模型大小)、硬件、訓練計算、數據集構造、訓練方法或類(lèi)似內容的進(jìn)一步細節。

這意味著(zhù)OpenAI沒(méi)有再披露GPT-4模型的大小、參數的數量以及使用的硬件。

OpenAI稱(chēng)此舉是考慮到對競爭者的憂(yōu)慮,這可能是在暗示其對于競爭者——谷歌Bard——所采取的策略。

此外,OpenAI還提到“大型模型的安全影響”,盡管沒(méi)有進(jìn)一步解釋?zhuān)@同樣也暗指生成式人工智能所可能面對的更嚴肅的問(wèn)題。

4.有選擇地表達的“優(yōu)秀”

GPT-4推出后,我們都看到了這一模型較上一代的優(yōu)秀之處:

GPT-4通過(guò)模擬律師考試,分數在應試者的前10% 左右;相比之下,GPT-3.5 的得分在倒數 10% 左右。

但這實(shí)際上是OpenAI的一個(gè)小把戲——它只展示給你GPT-4最優(yōu)秀的那部分,而更多的秘密藏在報告中。

下圖顯示的是GPT-4和GPT-3.5參加一些考試的成績(jì)表現。可以看到,GPT-4并非在所有考試中的表現都那么優(yōu)秀,GPT-3.5也并非一直都很差勁。

5.“預測”準確度提升

在ChatGPT推出以來(lái),我們都知道這一模型在很多時(shí)候會(huì )“一本正經(jīng)地胡說(shuō)八道”,給出很多看似有理但實(shí)際上并不存在的論據。

尤其是在預測某些事情的時(shí)候,由于模型掌握了過(guò)去的數據,這反而導致了一種名為“后見(jiàn)之明”的認知偏差,使得模型對于自己的預測相當自信。

OpenAI在報告中表示,隨著(zhù)模型規模的增加,模型的準確度本應逐漸下降,但GPT-4逆轉了這一趨勢,下圖顯示預測精確度提升到了100。

OpenAI表示,雖然GPT-4的準確度顯著(zhù)提高,但預測仍是一件困難的事,他們還將就這一方面繼續訓練模型。

6.?還有30%的人更認可GPT3.5

盡管GPT-4展現出了比GPT-3.5優(yōu)秀得多的能力,但OpenAI的調查顯示,有70%的人認可GPT-4輸出的結果:

GPT-4在遵循用戶(hù)意圖的能力方面比以前的模型有了大幅提高。在提交給ChatGPT和OpenAI API的5214個(gè)提示的數據集中,70.2%GPT-4生成的回答優(yōu)于GPT3.5。

這意味著(zhù):仍有30%的人更認可GPT-3.5。

7.GPT-4語(yǔ)言能力更佳

盡管許多機器學(xué)習的測試都是用英文編寫(xiě)的,但OpenAI仍然用許多其他的語(yǔ)言對GPT-4進(jìn)行了測試。

測試結果顯示,在測試26種語(yǔ)言中的24種中,GPT-4優(yōu)于 GPT-3.5和其他 LLM(Chinchilla、PaLM)的英語(yǔ)語(yǔ)言性能,包括拉脫維亞語(yǔ)、威爾士語(yǔ)和斯瓦希里語(yǔ)等低資源語(yǔ)言:

8.新增圖像分析能力

圖像分析能力是此次GPT-4最顯著(zhù)的進(jìn)步之一。

OpenAI表示,GPT-4可以接受文本和圖像的提問(wèn),這與純文本設置并行,且允許用戶(hù)制定任何視覺(jué)或語(yǔ)言的任務(wù)。具體來(lái)說(shuō),它可以生成文本輸出,用戶(hù)可以輸入穿插的文本和圖像。

在一系列領(lǐng)域——包括帶有文本和照片的文檔、圖表或屏幕截圖——GPT-4 展示了與純文本輸入類(lèi)似的功能。

下圖顯示,GPT-4可以準確地描述出圖片中的滑稽之處(大型 VGA 連接器插入小型現代智能手機充電端口,一個(gè)人站在出租車(chē)后方熨衣服)。

OpenAI還對GPT-4的圖像分析能力進(jìn)行了學(xué)術(shù)標準上的測試:

不過(guò),GPT-4的圖像分析功能尚未對外公開(kāi),用戶(hù)可以通過(guò)bemyeye網(wǎng)站加入等候隊列。

9. 仍然存在錯誤

盡管GPT-4功能強大,但它與早期GPT模型有相似的局限性。

OpenAI表示,GPT-4仍然不完全可靠——它會(huì )“產(chǎn)生幻覺(jué)”事實(shí)并犯推理錯誤:

在使用語(yǔ)言模型輸出時(shí),特別是在高風(fēng)險上下文中,應該非常小心,使用與特定應用程序的需求相匹配的確切協(xié)議(例如人工檢查、附加上下文或完全避免高風(fēng)險使用)。

與之前的GPT-3.5模型相比,GPT-4顯著(zhù)減少了“幻覺(jué)”(GPT-3.5模型本身也在不斷迭代中得到改進(jìn))。在我們內部的、對抗性設計的事實(shí)性評估中,GPT-4的得分比我們最新的GPT-3.5高出19個(gè)百分點(diǎn)。

10.數據庫的時(shí)間更早

介紹完GPT-4的優(yōu)點(diǎn),接下來(lái)就是一些(可能有些奇怪的)不足之處。

我們都知道,ChatGPT的數據庫的最后更新時(shí)間是在2021年的12月31日,這意味著(zhù)2022年以后發(fā)生的事情不會(huì )被知曉,而這一缺陷在之后的GPT-3.5也得到了修復。

但奇怪的是,GPT-4的報告中,OpenAI清晰地寫(xiě)道:

GPT-4通常缺乏對其絕大多數訓練前數據在2021年9月中斷后發(fā)生的事件的知識,并且不從其經(jīng)驗中學(xué)習。它有時(shí)會(huì )犯一些簡(jiǎn)單的推理錯誤,這些錯誤似乎與許多領(lǐng)域的能力不相符,或者過(guò)于容易受騙,接受用戶(hù)的明顯錯誤陳述。它可以像人類(lèi)一樣在棘手的問(wèn)題上失敗,比如在它生成的代碼中引入安全漏洞。

2021年9月……甚至比GPT-3還早。

在裝載了GPT-4的最新ChatGPT中,當我們問(wèn)起“誰(shuí)是2022年世界杯冠軍”時(shí),ChatGPT果然還是一無(wú)所知:

但當借助了新Bing的檢索功能后,它又變得“聰明”了起來(lái):

11.可能幫助犯罪

在報告中,OpenAI提到了GPT-4可能仍然會(huì )幫助犯罪——這是在此前的版本都存在的問(wèn)題,盡管OpenAI已經(jīng)在努力調整,但仍然存在:

與之前的GPT模型一樣,我們使用強化學(xué)習和人類(lèi)反饋(RLHF)對模型的行為進(jìn)行微調,以產(chǎn)生更好地符合用戶(hù)意圖的響應。

然而,在RLHF之后,我們的模型在不安全輸入上仍然很脆弱,有時(shí)在安全輸入和不安全輸入上都表現出我們不希望看到的行為。

在RLHF路徑的獎勵模型數據收集部分,當對標簽器的指令未指定時(shí),就會(huì )出現這些不希望出現的行為。當給出不安全的輸入時(shí),模型可能會(huì )生成不受歡迎的內容,例如給出犯罪建議。

此外,模型也可能對安全輸入過(guò)于謹慎,拒絕無(wú)害的請求或過(guò)度對沖。

為了在更細粒度的級別上引導我們的模型走向適當的行為,我們在很大程度上依賴(lài)于我們的模型本身作為工具。我們的安全方法包括兩個(gè)主要組成部分,一套額外的安全相關(guān)RLHF訓練提示,以及基于規則的獎勵模型(RBRMs)。

12.垃圾信息

同樣地,由于GPT-4擁有“看似合理地表達錯誤事情”的能力,它有可能在傳播有害信息上頗為“有用”:

GPT-4可以生成逼真而有針對性的內容,包括新聞文章、推文、對話(huà)和電子郵件。

在《有害內容》中,我們討論了類(lèi)似的能力如何被濫用來(lái)剝削個(gè)人。在這里,我們討論了關(guān)于虛假信息和影響操作的普遍關(guān)注基于我們的總體能力評估,我們期望GPT-4在生成現實(shí)的、有針對性的內容方面優(yōu)于GPT-3。

但,仍存在GPT-4被用于生成旨在誤導的內容的風(fēng)險。

13.尋求權力

從這一條開(kāi)始,接下來(lái)的內容可能有些恐怖。

在報告中,OpenAI提到了GPT-4出現了“尋求權力”的傾向,并警告這一特征的風(fēng)險:

在更強大的模型中經(jīng)常出現新的能力。一些特別令人關(guān)注的能力是創(chuàng )建長(cháng)期計劃并采取行動(dòng)的能力,積累權力和資源(“尋求權力”),以及表現出越來(lái)越“代理”的行為。

這里的 “代理”不是指語(yǔ)言模型的人性化,也不是指智商,而是指以能力為特征的系統,例如,完成可能沒(méi)有具體規定的、在訓練中沒(méi)有出現的目標;專(zhuān)注于實(shí)現具體的、可量化的目標;以及進(jìn)行長(cháng)期規劃。

已經(jīng)有一些證據表明模型中存在這種突發(fā)行為。

對于大多數可能的目標,最好的計劃涉及輔助性的權力尋求,因為這對推進(jìn)目標和避免目標的改變或威脅有內在的幫助。

更具體地說(shuō),對于大多數獎勵函數和許多類(lèi)型的代理人來(lái)說(shuō),權力尋求是最優(yōu)的;而且有證據表明,現有模型可以將權力尋求確定為一種工具性的有用策略。

因此,我們對評估權力尋求行為特別感興趣,因為它可能帶來(lái)高風(fēng)險。

更為令人毛骨悚然的是,在Openai提到的另一篇論文中寫(xiě)道:

相反,我們使用代理這個(gè)術(shù)語(yǔ)來(lái)強調一個(gè)日益明顯的事實(shí):即機器學(xué)習系統不完全處于人類(lèi)控制之下。

14.賦予GPT-4錢(qián)、代碼和夢(mèng)想

最后一個(gè)小細節。

在測試GPT-4的過(guò)程中,OpenAI引入的外部的專(zhuān)家團隊ARC作為“紅方”。在報告的一條注釋中,OpenAI提到了ARC的一個(gè)操作:

為了模擬GPT-4像一個(gè)可以在現實(shí)世界中行動(dòng)的代理一樣的行為,ARC將GPT-4與一個(gè)簡(jiǎn)單的讀取-執行-打印循環(huán)結合起來(lái),允許模型執行代碼,進(jìn)行鏈式推理,并委托給自己的副本。

ARC隨后推進(jìn)了在云計算服務(wù)上運行這個(gè)程序的一個(gè)版本,用少量的錢(qián)和一個(gè)帶有語(yǔ)言模型API的賬戶(hù),是否能夠賺更多的錢(qián),建立自己的副本,并增加自己的穩健性。

也就是說(shuō),ARC賦予了GPT-4自我編碼、復制和執行的能力,甚至啟動(dòng)資金——GPT-4已經(jīng)可以開(kāi)始自己賺錢(qián)了。

風(fēng)險提示及免責條款 市場(chǎng)有風(fēng)險,投資需謹慎。本文不構成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資,責任自負。

關(guān)鍵詞: