世界熱訊:規模性能雙殺OpenAI,Meta語(yǔ)音達LLaMA級里程碑!開(kāi)源MMS模型可識別1100+語(yǔ)言
在語(yǔ)音方面,Meta又達到了另一個(gè)LLaMA級的里程碑。
今天,Meta推出了一個(gè)名為MMS的大規模多語(yǔ)言語(yǔ)音項目,它將徹底改變語(yǔ)音技術(shù)。
MMS支持1000多種語(yǔ)言,用圣經(jīng)訓練,錯誤率僅為Whisper數據集的一半。
(資料圖)
只憑一個(gè)模型,Meta就建起了一座巴別塔。
并且,Meta選擇將所有模型和代碼開(kāi)源,希望為保護世界語(yǔ)種的多樣性做出貢獻。
在此之前的模型可以覆蓋大約100種語(yǔ)言,而這次,MMS直接把這個(gè)數字增加了10-40倍!
具體來(lái)說(shuō),Meta開(kāi)放了1100多種語(yǔ)言的多語(yǔ)種語(yǔ)音識別/合成模型,以及4000多種語(yǔ)言的語(yǔ)音識別模型。
與OpenAI Whisper相比,多語(yǔ)言ASR模型支持11倍以上的語(yǔ)言,但在54種語(yǔ)言上的平均錯誤率還不到FLEURS的一半。
而且,將ASR擴展到如此多語(yǔ)言之后,只造成了非常小的性能下降。
論文地址:https://research.facebook.com/publications/scaling-speech-technology-to-1000-languages/
保護消失語(yǔ)種,MMS把語(yǔ)音識別增加40倍
然而,為這些任務(wù)生成高質(zhì)量的機器學(xué)習模型,就需要大量的標記數據,比如數千小時(shí)的音頻以及轉錄——對于大多數語(yǔ)言來(lái)說(shuō),這種數據根本就不存在。
現有的語(yǔ)音識別模型,只涵蓋了大約100種語(yǔ)言,在地球上的7000多種已知語(yǔ)言中,這只占很小一部分。令人擔憂(yōu)的是,在我們有生之年,這些語(yǔ)言中有一半都面臨著(zhù)消失的危險。
在Massively Multilingual Speech(MMS)項目中,研究者通過(guò)結合wav2vec 2.0(Meta在自監督學(xué)習方面的開(kāi)創(chuàng )性工作)和一個(gè)新的數據集來(lái)克服了一些挑戰。
這個(gè)數據集提供了超過(guò)1100種語(yǔ)言的標記數據,和近4000種語(yǔ)言的未標記數據。
通過(guò)跨語(yǔ)言訓練,wav2vec 2.0學(xué)習了多種語(yǔ)言中使用的語(yǔ)音單元
其中一些語(yǔ)言,如Tatuyo語(yǔ),只有幾百個(gè)使用者,而數據集中的大多數語(yǔ)言,以前根本就不存在語(yǔ)音技術(shù)。
而結果顯示,MMS模型的性能優(yōu)于現有的模型,覆蓋語(yǔ)言的數量是現有模型的10倍。
Meta一向專(zhuān)注于多語(yǔ)言工作:在文本上,Meta的NLLB項目將多語(yǔ)言翻譯擴展到了200種語(yǔ)言,而MMS項目,則將語(yǔ)音技術(shù)擴展到更多語(yǔ)言。
MMS支持1,107種語(yǔ)言的語(yǔ)音轉文本和文本轉語(yǔ)音,支持4,000多種語(yǔ)言的識別
圣經(jīng)解決語(yǔ)音數據集難題
要知道,現有的最大語(yǔ)音數據集最多也只涵蓋了100種語(yǔ)言。為了克服這個(gè)問(wèn)題,研究人員轉向了宗教文本,如《圣經(jīng)》。
這類(lèi)文本已經(jīng)被翻譯成許多不同的語(yǔ)言,被用于廣泛的研究,還有各種公開(kāi)的錄音。
為此,Meta的研究者專(zhuān)門(mén)創(chuàng )建了一個(gè)超過(guò)1100種語(yǔ)言的《新約》閱讀數據集,平均每種語(yǔ)言提供32小時(shí)的數據。
再加上其他各種宗教讀物的無(wú)標簽錄音,研究者將可用的語(yǔ)言數量增加到了4000多種。
在MMS數據上訓練的自動(dòng)語(yǔ)音識別模型,在FLEURS基準測試中,對男性和女性說(shuō)話(huà)者具有相似的錯誤率
這些數據通常是由男性朗讀的,但模型對男性和女性的聲音表現得同樣好。
并且,雖然錄音的內容是宗教性的,但這并沒(méi)有使模型過(guò)度偏向于產(chǎn)生更多的宗教語(yǔ)言。
研究人員分析認為,這是因為他們使用了連接主義時(shí)間分類(lèi)方法,與用于語(yǔ)音識別的大語(yǔ)言模型或序列對序列模型相比,它的約束性要大得多。
模型越大,越能打?
為此,研究人員在100多種語(yǔ)言的現有數據上訓練了一個(gè)對齊模型,并將這個(gè)模型與一個(gè)高效的強制對齊算法一起使用,而該算法可以處理大約20分鐘或更長(cháng)時(shí)間的錄音。
研究人員多次重復了這個(gè)過(guò)程,并根據模型的準確性進(jìn)行了最后的交叉驗證過(guò)濾步驟,為的是去除潛在的錯誤對齊數據。
為了使其他研究人員能夠創(chuàng )建新的語(yǔ)音數據集,研究人員將對齊算法添加到了PyTorch中并發(fā)布了對齊模型。
目前,每種語(yǔ)言都有32小時(shí)的數據,但這并不足以訓練傳統的監督式語(yǔ)音識別模型。
這也就是為什么研究人員在wav2vec 2.0上訓練模型,這樣可以大大減少訓練一個(gè)模型所需的標注數據量。
具體來(lái)說(shuō),研究人員在超過(guò)1400種語(yǔ)言的約50萬(wàn)小時(shí)的語(yǔ)音數據上訓練了自監督模型——這個(gè)量比過(guò)去多了近5倍。
然后針對特定的語(yǔ)音任務(wù),如多語(yǔ)言語(yǔ)音識別或語(yǔ)言識別,研究人員再對模型進(jìn)行微調即可。
為了更好地了解在大規模多語(yǔ)言語(yǔ)音數據上訓練的模型的表現,研究人員在現有的基準數據集上對它們進(jìn)行了評估。
研究人員使用一個(gè)1B參數的wav2vec 2.0模型對超過(guò)1100種語(yǔ)言進(jìn)行多語(yǔ)言語(yǔ)音識別模型的訓練。
隨著(zhù)語(yǔ)言數量的增加,性能確實(shí)有所下降,但這種下降比較輕微——從61種語(yǔ)言到1107種語(yǔ)言,字符錯誤率只增加了約0.4%,但語(yǔ)言覆蓋率卻增加了18倍以上。
將每個(gè)系統支持的語(yǔ)言數量從61增加到1,107 時(shí),使用MMS數據訓練的多語(yǔ)言識別系統的61種FLEURS語(yǔ)言的錯誤率。錯誤率越高表示性能越低
在與OpenAI的Whisper進(jìn)行同類(lèi)比較時(shí),研究人員發(fā)現,在Massively Multilingual Speech數據上訓練的模型有將近一半的單詞錯誤率,但Massively Multilingual Speech涵蓋的語(yǔ)言是Whisper的11倍。
從數據中我們可以看出,與目前最好的語(yǔ)音模型相比,Meta的模型表現的真的非常不錯。
OpenAI Whisper與Massively Multilingual Speech在54種FLEURS語(yǔ)言上的單詞錯誤率對比
接下來(lái),研究人員使用自己的以及現有的數據集,如FLEURS和CommonVoice,為超過(guò)4000種語(yǔ)言訓練了一個(gè)語(yǔ)言識別(LID)模型,并在FLEURS LID任務(wù)上對其進(jìn)行了評估。
事實(shí)證明,哪怕支持了將近40倍的語(yǔ)言數量,性能依然很能打。
在現有工作的VoxLingua-107基準上的語(yǔ)言識別準確性,支持的語(yǔ)言剛剛超過(guò)100種,而MMS則支持超過(guò)4000種語(yǔ)言
研究人員還為超過(guò)1100種語(yǔ)言建立了文本轉語(yǔ)音的系統。
大規模多語(yǔ)種語(yǔ)音數據有一個(gè)局限性,那就是對于許多語(yǔ)言來(lái)說(shuō),它包含的不同說(shuō)話(huà)者數量相對較少,通常只有一個(gè)說(shuō)話(huà)者。
然而,這個(gè)特點(diǎn)對于建立文本到語(yǔ)音系統來(lái)說(shuō)是一個(gè)優(yōu)勢,因此研究人員為超過(guò)1100種語(yǔ)言訓練了類(lèi)似系統。
結果表明,這些系統產(chǎn)生的語(yǔ)音質(zhì)量還算不錯。
未來(lái)屬于單一模型
比方說(shuō),語(yǔ)音到文本模型可能會(huì )誤寫(xiě)選定的單詞或短語(yǔ),可能會(huì )導致冒犯性的或者不準確的輸出結果。
同時(shí),Meta認為,AI巨頭的合作對于負責任的AI技術(shù)的發(fā)展至關(guān)重要。
世界上的許多語(yǔ)言都有消失的危險,而目前語(yǔ)音識別和語(yǔ)音生成技術(shù)的局限性只會(huì )加速這一趨勢。
研究人員設想一個(gè)技術(shù)產(chǎn)生相反效果的世界,鼓勵人們保持其語(yǔ)言的活力,因為他們可以通過(guò)說(shuō)自己喜歡的語(yǔ)言來(lái)獲取信息和使用技術(shù)。
大規模多語(yǔ)言語(yǔ)音項目是朝著(zhù)這個(gè)方向邁出的重要一步。
在未來(lái),研究人員希望進(jìn)一步增加語(yǔ)言的覆蓋面,支持更多的語(yǔ)言,甚至還會(huì )想辦法搞定方言。要知道,方言對現有的語(yǔ)音技術(shù)來(lái)說(shuō)可不簡(jiǎn)單。
Meta的最終目標是讓人們能更容易地用自己喜歡的語(yǔ)言獲取信息、使用設備。
最后,Meta的研究人員還設想了這樣一個(gè)未來(lái)場(chǎng)景——靠一個(gè)單一的模型就可以解決所有語(yǔ)言的幾個(gè)語(yǔ)音任務(wù)。
目前雖然Meta為語(yǔ)音識別、語(yǔ)音合成和語(yǔ)言識別訓練了單獨的模型,但研究人員相信,在未來(lái),只需一個(gè)模型就能完成所有這些任務(wù),甚至不止。
本文來(lái)源:新智元,原文標題:《規模性能雙殺OpenAI,Meta語(yǔ)音達LLaMA級里程碑!開(kāi)源MMS模型可識別1100+語(yǔ)言》
風(fēng)險提示及免責條款 市場(chǎng)有風(fēng)險,投資需謹慎。本文不構成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資,責任自負。關(guān)鍵詞: