Stable Diffusion團隊放大招!新繪畫(huà)模型直出AI海報,實(shí)現像素級圖像生成 熱聞
開(kāi)源AI繪畫(huà)扛把子,Stable Diffusion背后公司StabilityAI再放大招!
(資料圖片僅供參考)
全新開(kāi)源模型DeepFloyd IF,一下獲星2千+并登上GitHub熱門(mén)榜。
DeepFloyd IF不光圖像質(zhì)量是照片級的,還解決了文生圖的兩大難題:
準確繪制文字。(霓虹燈招牌上寫(xiě)著(zhù)xxx)
以及準確理解空間關(guān)系。(一只貓照鏡子看見(jiàn)獅子的倒影)
網(wǎng)友表示,這可是個(gè)大事,之前想讓Midjourney v5在霓虹燈招牌上寫(xiě)個(gè)字AI都是瞎劃拉兩筆,對于鏡子理解的也不對。
使用DeepFloyd IF,可以把指定文字巧妙放置在畫(huà)面中任何地方。
霓虹燈招牌、街頭涂鴉、服飾、手繪插畫(huà),文字都會(huì )以合適的字體、風(fēng)格、排版出現在合理的地方。
這意味著(zhù),AI直出商品渲染圖、海報等實(shí)用工作流程又打通一環(huán)。
還在視頻特效上開(kāi)辟了新方向。
目前DeepFloyd IF以非商用許可開(kāi)源,不過(guò)團隊解釋這是暫時(shí)的,獲得足夠的用戶(hù)反饋后將轉向更寬松的協(xié)議。
有需求的小伙伴可以抓緊反饋起來(lái)了。
DeepFloyd IF仍然基于擴散模型,但與之前的Stable Diffusion相比有兩大不同。
負責理解文字的部分從OpenAI的CLIP換成了谷歌T5-XXL,結合超分辨率模塊中額外的注意力層,獲得更準確的文本理解。
負責生成圖像的部分從潛擴散模型換成了像素級擴散模型。??
也就是擴散過(guò)程不再作用于表示圖像編碼的潛空間,而是直接作用于像素。
官方還提供了一組DeepFloyd IF與其他AI繪畫(huà)模型的直觀(guān)對比。
可以看出,使用T5做文本理解的谷歌Parti和英偉達eDiff-1也都可以準確繪制文字,AI不會(huì )寫(xiě)字這事就是CLIP的鍋。
不過(guò)英偉達eDiff-1不開(kāi)源,谷歌的幾個(gè)模型更是連個(gè)Demo都不給,DeepFloyd IF就成了更實(shí)際的選擇。
具體生成圖像上DeepFloyd IF與之前模型一致,語(yǔ)言模型理解文本后先生成64x64分辨率的小圖,再經(jīng)過(guò)不同層次的擴散模型和超分辨率模型放大。
在這種架構上,通過(guò)把指定圖像縮小回64x64再使用新的提示詞重新執行擴散,也實(shí)現以圖生圖并調整風(fēng)格、內容和細節。
并且不需要對模型做微調就可直接實(shí)現。
另外,DeepFloyd IF的優(yōu)勢還在于,IF-4.3B基礎模型是目前擴散模型中U-Net部分有效參數是最多的。
在實(shí)驗中,IF-4.3B取得了最好的FID分數,并達到SOTA(FID越低代表圖像質(zhì)量越高、多樣性越好)。
誰(shuí)是DeepFloyd
DeepFloyd AI Research是StabilityAI旗下的獨立研發(fā)團隊,深受搖滾樂(lè )隊平克弗洛伊德影響,自稱(chēng)為一只“研發(fā)樂(lè )隊”。???????????????
主要成員只有4人,從姓氏來(lái)看均為東歐背景。
這次除了開(kāi)源代碼外,團隊在HuggingFace上還提供了DeepFloyd IF模型的在線(xiàn)試玩。
我們也試了試,很可惜的是目前對中文還不太支持。
原因可能是其訓練數據集LAION-A里面中文內容不多,不過(guò)既然開(kāi)源了,相信在中文數據集上訓練好的變體也不會(huì )太晚出現。
One More Thing
DeepFloyd IF并不是Stability AI昨晚在開(kāi)源上的唯一動(dòng)作
語(yǔ)言模型方面,他們也推出了首個(gè)開(kāi)源并引入RLHF技術(shù)的聊天機器人StableVicuna,基于小羊駝Vicuna-13B模型實(shí)現。
目前代碼和模型權重已開(kāi)放下載。
完整的桌面和移動(dòng)界面也即將發(fā)布。
作者:關(guān)注前沿科技,來(lái)源:量子位,原文標題:《Stable Diffusion團隊放大招!新繪畫(huà)模型直出AI海報,實(shí)現像素級圖像生成》。
風(fēng)險提示及免責條款 市場(chǎng)有風(fēng)險,投資需謹慎。本文不構成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資,責任自負。關(guān)鍵詞: