国产精品久久久久久久久久久久午衣片,国产成人精品男人的天堂网站,熟女一区二区中文字幕,亚洲精品国产精品乱码在线

您的位置：首頁(yè) > 產(chǎn)經(jīng) >

世界熱訊:規模性能雙殺OpenAI，Meta語(yǔ)音達LLaMA級里程碑！開(kāi)源MMS模型可識別1100+語(yǔ)言

來(lái)源：華爾街見(jiàn)聞 ? 2023-05-23 20:12:14

在語(yǔ)音方面，Meta又達到了另一個(gè)LLaMA級的里程碑。

今天，Meta推出了一個(gè)名為MMS的大規模多語(yǔ)言語(yǔ)音項目，它將徹底改變語(yǔ)音技術(shù)。

MMS支持1000多種語(yǔ)言，用圣經(jīng)訓練，錯誤率僅為Whisper數據集的一半。

(資料圖)

只憑一個(gè)模型，Meta就建起了一座巴別塔。

并且，Meta選擇將所有模型和代碼開(kāi)源，希望為保護世界語(yǔ)種的多樣性做出貢獻。

在此之前的模型可以覆蓋大約100種語(yǔ)言，而這次，MMS直接把這個(gè)數字增加了10-40倍！

具體來(lái)說(shuō)，Meta開(kāi)放了1100多種語(yǔ)言的多語(yǔ)種語(yǔ)音識別/合成模型，以及4000多種語(yǔ)言的語(yǔ)音識別模型。

與OpenAI Whisper相比，多語(yǔ)言ASR模型支持11倍以上的語(yǔ)言，但在54種語(yǔ)言上的平均錯誤率還不到FLEURS的一半。

而且，將ASR擴展到如此多語(yǔ)言之后，只造成了非常小的性能下降。

論文地址：https://research.facebook.com/publications/scaling-speech-technology-to-1000-languages/

保護消失語(yǔ)種，MMS把語(yǔ)音識別增加40倍

讓機器具備識別和產(chǎn)生語(yǔ)音的能力，可以讓更多人獲得信息。

然而，為這些任務(wù)生成高質(zhì)量的機器學(xué)習模型，就需要大量的標記數據，比如數千小時(shí)的音頻以及轉錄——對于大多數語(yǔ)言來(lái)說(shuō)，這種數據根本就不存在。

現有的語(yǔ)音識別模型，只涵蓋了大約100種語(yǔ)言，在地球上的7000多種已知語(yǔ)言中，這只占很小一部分。令人擔憂(yōu)的是，在我們有生之年，這些語(yǔ)言中有一半都面臨著(zhù)消失的危險。

在Massively Multilingual Speech（MMS）項目中，研究者通過(guò)結合wav2vec 2.0（Meta在自監督學(xué)習方面的開(kāi)創(chuàng )性工作）和一個(gè)新的數據集來(lái)克服了一些挑戰。

這個(gè)數據集提供了超過(guò)1100種語(yǔ)言的標記數據，和近4000種語(yǔ)言的未標記數據。

通過(guò)跨語(yǔ)言訓練，wav2vec 2.0學(xué)習了多種語(yǔ)言中使用的語(yǔ)音單元

其中一些語(yǔ)言，如Tatuyo語(yǔ)，只有幾百個(gè)使用者，而數據集中的大多數語(yǔ)言，以前根本就不存在語(yǔ)音技術(shù)。

而結果顯示，MMS模型的性能優(yōu)于現有的模型，覆蓋語(yǔ)言的數量是現有模型的10倍。

Meta一向專(zhuān)注于多語(yǔ)言工作：在文本上，Meta的NLLB項目將多語(yǔ)言翻譯擴展到了200種語(yǔ)言，而MMS項目，則將語(yǔ)音技術(shù)擴展到更多語(yǔ)言。

MMS支持1,107種語(yǔ)言的語(yǔ)音轉文本和文本轉語(yǔ)音，支持4,000多種語(yǔ)言的識別

圣經(jīng)解決語(yǔ)音數據集難題

收集數千種語(yǔ)言的音頻數據并不是一件簡(jiǎn)單的事情，這也是Meta的研究人員面臨的第一個(gè)挑戰。

要知道，現有的最大語(yǔ)音數據集最多也只涵蓋了100種語(yǔ)言。為了克服這個(gè)問(wèn)題，研究人員轉向了宗教文本，如《圣經(jīng)》。

這類(lèi)文本已經(jīng)被翻譯成許多不同的語(yǔ)言，被用于廣泛的研究，還有各種公開(kāi)的錄音。

為此，Meta的研究者專(zhuān)門(mén)創(chuàng )建了一個(gè)超過(guò)1100種語(yǔ)言的《新約》閱讀數據集，平均每種語(yǔ)言提供32小時(shí)的數據。

再加上其他各種宗教讀物的無(wú)標簽錄音，研究者將可用的語(yǔ)言數量增加到了4000多種。

在MMS數據上訓練的自動(dòng)語(yǔ)音識別模型，在FLEURS基準測試中，對男性和女性說(shuō)話(huà)者具有相似的錯誤率

這些數據通常是由男性朗讀的，但模型對男性和女性的聲音表現得同樣好。

并且，雖然錄音的內容是宗教性的，但這并沒(méi)有使模型過(guò)度偏向于產(chǎn)生更多的宗教語(yǔ)言。

研究人員分析認為，這是因為他們使用了連接主義時(shí)間分類(lèi)方法，與用于語(yǔ)音識別的大語(yǔ)言模型或序列對序列模型相比，它的約束性要大得多。

模型越大，越能打？

研究人員首先對數據進(jìn)行了預處理，以提高數據的質(zhì)量，并使其能被機器學(xué)習算法所利用。

為此，研究人員在100多種語(yǔ)言的現有數據上訓練了一個(gè)對齊模型，并將這個(gè)模型與一個(gè)高效的強制對齊算法一起使用，而該算法可以處理大約20分鐘或更長(cháng)時(shí)間的錄音。

研究人員多次重復了這個(gè)過(guò)程，并根據模型的準確性進(jìn)行了最后的交叉驗證過(guò)濾步驟，為的是去除潛在的錯誤對齊數據。

為了使其他研究人員能夠創(chuàng )建新的語(yǔ)音數據集，研究人員將對齊算法添加到了PyTorch中并發(fā)布了對齊模型。

目前，每種語(yǔ)言都有32小時(shí)的數據，但這并不足以訓練傳統的監督式語(yǔ)音識別模型。

這也就是為什么研究人員在wav2vec 2.0上訓練模型，這樣可以大大減少訓練一個(gè)模型所需的標注數據量。

具體來(lái)說(shuō)，研究人員在超過(guò)1400種語(yǔ)言的約50萬(wàn)小時(shí)的語(yǔ)音數據上訓練了自監督模型——這個(gè)量比過(guò)去多了近5倍。

然后針對特定的語(yǔ)音任務(wù)，如多語(yǔ)言語(yǔ)音識別或語(yǔ)言識別，研究人員再對模型進(jìn)行微調即可。

為了更好地了解在大規模多語(yǔ)言語(yǔ)音數據上訓練的模型的表現，研究人員在現有的基準數據集上對它們進(jìn)行了評估。

研究人員使用一個(gè)1B參數的wav2vec 2.0模型對超過(guò)1100種語(yǔ)言進(jìn)行多語(yǔ)言語(yǔ)音識別模型的訓練。

隨著(zhù)語(yǔ)言數量的增加，性能確實(shí)有所下降，但這種下降比較輕微——從61種語(yǔ)言到1107種語(yǔ)言，字符錯誤率只增加了約0.4%，但語(yǔ)言覆蓋率卻增加了18倍以上。

將每個(gè)系統支持的語(yǔ)言數量從61增加到1,107 時(shí)，使用MMS數據訓練的多語(yǔ)言識別系統的61種FLEURS語(yǔ)言的錯誤率。錯誤率越高表示性能越低

在與OpenAI的Whisper進(jìn)行同類(lèi)比較時(shí)，研究人員發(fā)現，在Massively Multilingual Speech數據上訓練的模型有將近一半的單詞錯誤率，但Massively Multilingual Speech涵蓋的語(yǔ)言是Whisper的11倍。

從數據中我們可以看出，與目前最好的語(yǔ)音模型相比，Meta的模型表現的真的非常不錯。

OpenAI Whisper與Massively Multilingual Speech在54種FLEURS語(yǔ)言上的單詞錯誤率對比

接下來(lái)，研究人員使用自己的以及現有的數據集，如FLEURS和CommonVoice，為超過(guò)4000種語(yǔ)言訓練了一個(gè)語(yǔ)言識別（LID）模型，并在FLEURS LID任務(wù)上對其進(jìn)行了評估。

事實(shí)證明，哪怕支持了將近40倍的語(yǔ)言數量，性能依然很能打。

在現有工作的VoxLingua-107基準上的語(yǔ)言識別準確性，支持的語(yǔ)言剛剛超過(guò)100種，而MMS則支持超過(guò)4000種語(yǔ)言

研究人員還為超過(guò)1100種語(yǔ)言建立了文本轉語(yǔ)音的系統。

大規模多語(yǔ)種語(yǔ)音數據有一個(gè)局限性，那就是對于許多語(yǔ)言來(lái)說(shuō)，它包含的不同說(shuō)話(huà)者數量相對較少，通常只有一個(gè)說(shuō)話(huà)者。

然而，這個(gè)特點(diǎn)對于建立文本到語(yǔ)音系統來(lái)說(shuō)是一個(gè)優(yōu)勢，因此研究人員為超過(guò)1100種語(yǔ)言訓練了類(lèi)似系統。

結果表明，這些系統產(chǎn)生的語(yǔ)音質(zhì)量還算不錯。

未來(lái)屬于單一模型

Meta的研究人員對這個(gè)結果感到很滿(mǎn)意，但與所有新興的AI技術(shù)一樣，Meta目前的模型并不算完美。

比方說(shuō)，語(yǔ)音到文本模型可能會(huì )誤寫(xiě)選定的單詞或短語(yǔ)，可能會(huì )導致冒犯性的或者不準確的輸出結果。

同時(shí)，Meta認為，AI巨頭的合作對于負責任的AI技術(shù)的發(fā)展至關(guān)重要。

世界上的許多語(yǔ)言都有消失的危險，而目前語(yǔ)音識別和語(yǔ)音生成技術(shù)的局限性只會(huì )加速這一趨勢。

研究人員設想一個(gè)技術(shù)產(chǎn)生相反效果的世界，鼓勵人們保持其語(yǔ)言的活力，因為他們可以通過(guò)說(shuō)自己喜歡的語(yǔ)言來(lái)獲取信息和使用技術(shù)。

大規模多語(yǔ)言語(yǔ)音項目是朝著(zhù)這個(gè)方向邁出的重要一步。

在未來(lái)，研究人員希望進(jìn)一步增加語(yǔ)言的覆蓋面，支持更多的語(yǔ)言，甚至還會(huì )想辦法搞定方言。要知道，方言對現有的語(yǔ)音技術(shù)來(lái)說(shuō)可不簡(jiǎn)單。

Meta的最終目標是讓人們能更容易地用自己喜歡的語(yǔ)言獲取信息、使用設備。

最后，Meta的研究人員還設想了這樣一個(gè)未來(lái)場(chǎng)景——靠一個(gè)單一的模型就可以解決所有語(yǔ)言的幾個(gè)語(yǔ)音任務(wù)。

目前雖然Meta為語(yǔ)音識別、語(yǔ)音合成和語(yǔ)言識別訓練了單獨的模型，但研究人員相信，在未來(lái)，只需一個(gè)模型就能完成所有這些任務(wù)，甚至不止。

本文來(lái)源：新智元，原文標題：《規模性能雙殺OpenAI，Meta語(yǔ)音達LLaMA級里程碑！開(kāi)源MMS模型可識別1100+語(yǔ)言》

風(fēng)險提示及免責條款市場(chǎng)有風(fēng)險，投資需謹慎。本文不構成個(gè)人投資建議，也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資，責任自負。

關(guān)鍵詞：