国产精品久久久久久久久久久久午衣片,国产成人精品男人的天堂网站,熟女一区二区中文字幕,亚洲精品国产精品乱码在线

OpenAI發(fā)布炸裂研究:讓AI解釋AI黑箱,人類(lèi)無(wú)法理解,語(yǔ)言無(wú)法描述

就算在新產(chǎn)品滿(mǎn)天飛,商業(yè)文明正在被 AI 重建的當下,我們仍然不知道,這些令人驚嘆的技術(shù)是如何運作的。

AI,語(yǔ)言模型,它是個(gè)黑箱(black box),人類(lèi)無(wú)法理解,我們甚至不知道怎樣研究才能夠理解。

如果,研究這個(gè)黑箱的不是人類(lèi),而是 AI 自己呢?


(資料圖)

這是一個(gè)令人好奇但又非常危險的想法。因為你甚至不知道,這一研究方法產(chǎn)生的結果,是否會(huì )徹底顛覆多年來(lái)人類(lèi)對人腦和 AI 的理解。

但是有人這樣做了。幾小時(shí)前,OpenAI 發(fā)布了最新的研究成果,他們用 GPT-4 解釋 GPT-2 的行為,獲得了初步的成果。

毫不夸張地說(shuō),人們震驚極了:「求求你們讓它離覺(jué)醒遠點(diǎn)吧!」

「AI 理解 AI,然后很快,AI 訓練 AI,然后再過(guò)幾年,AI 創(chuàng )造新的 AI?!?/p>

但客觀(guān)來(lái)說(shuō),學(xué)術(shù)界為之感到興奮:「瘋了,OpenAI 剛剛搞定了可解釋性問(wèn)題?!?/p>

人與機器之間是GPT-4

OpenAI 剛剛在官網(wǎng)發(fā)布博客文章《語(yǔ)言模型可以解釋語(yǔ)言模型中的神經(jīng)元》(Language models can explain neurons in language models)。

簡(jiǎn)單來(lái)說(shuō),他們開(kāi)發(fā)了一個(gè)工具,調用 GPT-4 來(lái)計算出其他架構更簡(jiǎn)單的語(yǔ)言模型上神經(jīng)元的行為,這次針對的是 GPT-2,發(fā)布于 4 年前的開(kāi)源大模型。

大模型(LLM)和人腦一樣,由「神經(jīng)元」(neurons)組成,這些神經(jīng)元會(huì )觀(guān)察文本中的特定規律,進(jìn)而影響到模型本身生產(chǎn)的文本。

舉例來(lái)說(shuō),如果有一個(gè)針對「漫威超級英雄」的神經(jīng)元,當用戶(hù)向模型提問(wèn)「哪個(gè)超級英雄的能力最強」時(shí),這個(gè)神經(jīng)元就會(huì )提高模型在回答中說(shuō)出漫威英雄的概率。

OpenAI 開(kāi)發(fā)的工具利用這種規則制定了一套評估流程。

開(kāi)始之前,先讓 GPT-2 運行文本序列,等待某個(gè)特定神經(jīng)元被頻繁「激活」的情況。

然后有三個(gè)評估步驟:

第一步,讓 GPT-4 針對這段文本,生成解釋。比如在下面的案例中,神經(jīng)元主要針對漫威內容。GPT-4 接收到文本和激活情況后,判斷這與電影、角色和娛樂(lè )有關(guān)。

第二步,用 GPT-4?模擬這個(gè) GPT-2 的神經(jīng)元接下來(lái)會(huì )做什么。下圖就是 GPT-4 生成的模擬內容。

最后一步,對比評估打分。對比 4 代模擬神經(jīng)元和 2 代真實(shí)神經(jīng)元的結果,看 GPT-4 猜的有多準。

通過(guò)這樣的方法,OpenAI 對每個(gè)神經(jīng)元的行為作出了初步的自然語(yǔ)言解釋?zhuān)@種解釋和實(shí)際行為的匹配程度進(jìn)行了評分。

最終他們對 GPT-2 中 307200 個(gè)神經(jīng)元全部進(jìn)行了解釋?zhuān)@些解釋匯編成數據集,與工具代碼一起在 GitHub 上發(fā)布。

超越語(yǔ)言的機器?人類(lèi)無(wú)法理解的機器

據 OpenAI 在博客文章中表示,目前 GPT-4 生成的解釋還不完美,尤其要解釋比 GPT-2 更大的模型時(shí),表現效果很差,「可能是因為后面的 layer 更難解釋」。

對于 GPT-2 解釋的評分大多也非常低,僅有 1000 個(gè)左右的解釋獲得了較高的評分(0.8 以上)。

OpenAI 可拓展對齊團隊的 Jeff Wu 表示,「大多數解釋的得分很低,或者無(wú)法解釋實(shí)際神經(jīng)元那么多的行為。比如,許多神經(jīng)元以一種難以判斷的方式保持活躍,它們在五六件事上保持激活,但卻沒(méi)有可以辨別的模式。有時(shí)候存在明顯的模式,但 GPT-4 有無(wú)法找到它?!?/p>

雖然現階段成績(jì)不好,但是 OpenAI 卻比較有信心,他們認為可以使用機器學(xué)習的方式提高 GPT-4 產(chǎn)出解釋的能力。

比如通過(guò)反復產(chǎn)出解釋?zhuān)⒏鶕せ钋闆r修改解釋?zhuān)换蛘呤褂酶蟮哪P妥鞒鼋忉專(zhuān)灰约罢{整解釋模型的結構等等。

OpenAI 還提到,這一方法目前還有很多局限性。

使用簡(jiǎn)短的自然語(yǔ)言進(jìn)行解釋?zhuān)苍S并不匹配神經(jīng)元可能非常復雜的行為,不能簡(jiǎn)潔地進(jìn)行描述。神經(jīng)元可能會(huì )具備多個(gè)不同概念,也可能,會(huì )具備一個(gè)人類(lèi)沒(méi)有語(yǔ)言描述甚至無(wú)法理解的概念。

最終 OpenAI 希望能夠自動(dòng)化找到并解釋能夠實(shí)現復雜行為的整個(gè)神經(jīng)回路,而目前的方法只解釋了神經(jīng)元的行為,并沒(méi)有涉及下游影響。

解釋了神經(jīng)元的行為,但沒(méi)有解釋產(chǎn)生這種行為的機制。這意味著(zhù)即使是拿了高分的解釋?zhuān)仓荒苊枋鱿嚓P(guān)性。

整個(gè)過(guò)程是計算密集型的。

在論文中,OpenAI 表示:「語(yǔ)言模型可能代表了人類(lèi)無(wú)法用語(yǔ)言表達的陌生概念。這可能是因為語(yǔ)言模型關(guān)心不同的事情,比如統計結構對下一個(gè)token預測任務(wù)有用,或者因為模型已經(jīng)發(fā)現了人類(lèi)尚未發(fā)現的自然的抽象,例如在不同領(lǐng)域的類(lèi)似概念家族?!?/p>

它把 LLM 的這種屬性,稱(chēng)為?Alien Feature,在生物領(lǐng)域翻譯為「異類(lèi)特征」。

把對齊問(wèn)題也交給 AI

「我們正試圖開(kāi)發(fā)預測『AI 系統會(huì )出現什么問(wèn)題』的方法,」OpenAI 可解釋性團隊負責人 William Saunders 對媒體說(shuō),「我們希望能夠真正做到,讓這些模型的行為和生產(chǎn)的回答是可以被信任的?!?/p>

Sam Altman 也轉發(fā)博客文章稱(chēng):GPT-4 對 GPT-2 做了一些可解釋性工作。

可解釋性(interpretability)是機器學(xué)習的研究子領(lǐng)域,指的是對模型的行為有清晰的理解和對模型結果的理解能力。

簡(jiǎn)單來(lái)說(shuō),目的就是解釋機器學(xué)習模型「如何做到」(how)。

2019 年開(kāi)始,可解釋性成為機器學(xué)習的重要領(lǐng)域,相關(guān)研究有助于開(kāi)發(fā)人員對模型進(jìn)行優(yōu)化和調整。針對當下 AI 模型大規模應用時(shí),亟需解決的可信度(trust)、安全性(safety)和決策參考(decision making)等問(wèn)題。

如果我們不知道 AI 是如何作出決策的,始終把它當做一個(gè)黑箱,那么就算 AI 在各種場(chǎng)景下表現得再完美,也無(wú)法解決部分人類(lèi)的信任問(wèn)題。

OpenAI 這次使用 GPT-4 來(lái)解決可解釋性的問(wèn)題,就是希望能夠使用自動(dòng)化的方式,讓機器完成 AI 研究。

「這是我們對齊研究的第三支柱的一部分:我們希望自動(dòng)化對齊研究。令人期待的是,這一方向能讓它(對齊)與 AI 發(fā)展的步伐相匹配?!?/p>

在 2022 年夏天,OpenAI 曾發(fā)布文章《我們做對齊研究的方法》(Our approach to alignment research)。

文中提到,宏觀(guān)來(lái)看,OpenAI 的對齊研究將由三大支柱支撐:

1、利用人工反饋訓練 AI

2、訓練 AI 系統協(xié)助人類(lèi)評估

3、訓練 AI 系統進(jìn)行對齊研究

「語(yǔ)言模型非常適合自動(dòng)化對齊研究,因為它們通過(guò)閱讀互聯(lián)網(wǎng)『預裝』了大量有關(guān)人類(lèi)價(jià)值觀(guān)的知識和信息。開(kāi)箱即用,它們不是獨立代理,因此不會(huì )在世界上追求自己的目標?!?/strong>

太快了?連認知都范式革命了

雖然 OpenAI 本意很好,但是這樣的研究成果著(zhù)實(shí)嚇壞了網(wǎng)友。

OpenAI 的推文下梗圖橫飛,有不少人在認真地建議 OpenAI 搞慢點(diǎn)。

「用我們不理解的東西,解釋另一個(gè)我們不理解的東西,這合理嗎?」

「護欄都被你撤了」

「這太迷人了,但也讓我感到極度不適?!?/p>

「自然創(chuàng )造了人類(lèi)來(lái)理解自然。我們創(chuàng )造了 GPT-4 來(lái)理解自己?!?/p>

「我們要怎么判斷解釋者是好的?這就像... 誰(shuí)監督著(zhù)監督者?」(who watches the watchers)

還有人看到了更深的一層:

「大模型很快就能比人類(lèi)更好地解釋他們自己的思維過(guò)程,我想知道我們未來(lái)要創(chuàng )造多少新的詞匯,來(lái)描述那些 AI 發(fā)現的概念(概念本身也不準確)?我們還沒(méi)有一個(gè)合適的詞描述它們?;蛘?,我們是否會(huì )覺(jué)得這些概念有意義?它們又能教會(huì )我們如何認識自己呢?」

另一網(wǎng)友回應道:「人類(lèi)本身對自己行為的解釋?zhuān)蠖嗍侵e言、捏造、幻覺(jué)、錯誤的記憶、事后推理,就像 AI 一樣?!?/p>

本文來(lái)源:?Founder Park,原文標題:《OpenAI發(fā)布炸裂研究:讓AI解釋AI黑箱,人類(lèi)無(wú)法理解,語(yǔ)言無(wú)法描述》

風(fēng)險提示及免責條款 市場(chǎng)有風(fēng)險,投資需謹慎。本文不構成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資,責任自負。

關(guān)鍵詞: