国产精品久久久久久久久久久久午衣片,国产成人精品男人的天堂网站,熟女一区二区中文字幕,亚洲精品国产精品乱码在线

您的位置：首頁(yè) > 產(chǎn)經(jīng) >

Midjourney勁敵來(lái)了！谷歌StyleDrop王牌“定制大師”引爆AI藝術(shù)圈

來(lái)源：華爾街見(jiàn)聞 ? 2023-06-05 15:06:34

谷歌StyleDrop一出，瞬間在網(wǎng)上刷屏了。

給定梵高的星空，AI化身梵高大師，對這種抽象風(fēng)格頂級理解后，做出無(wú)數幅類(lèi)似的畫(huà)作。

(資料圖)

再來(lái)一張卡通風(fēng)，想要繪制的物體呆萌了許多。

甚至，它還能精準把控細節，設計出原風(fēng)格的logo。

StyleDrop的魅力在于，只需要一張圖作為參考，無(wú)論多么復雜的藝術(shù)風(fēng)格，都能解構再復刻。

網(wǎng)友紛紛表示，又是淘汰設計師的那種AI工具。

StyleDrop爆火研究便是來(lái)自谷歌研究團隊最新出品。

現在，有了StyleDrop這樣的工具，不但可以更可控地繪畫(huà)，還可以完成之前難以想象的精細工作，比如繪制logo。

就連英偉達科學(xué)家將其稱(chēng)為「現象級」成果。

「定制」大師

論文作者介紹道，StyleDrop的靈感來(lái)源Eyedropper（吸色/取色工具）。

同樣，StyleDrop同樣希望大家可以快速、毫不費力地從單個(gè)/少數參考圖像中「挑選」樣式，以生成該樣式的圖像。

一只樹(shù)懶能夠有18種風(fēng)格：

一只熊貓有24種風(fēng)格：

小朋友畫(huà)的水彩畫(huà)，StyleDrop完美把控，甚至連紙張的褶皺都還原出來(lái)了。

不得不說(shuō)，太強了。

還有StyleDrop參考不同風(fēng)格對英文字母的設計：

同樣是梵高風(fēng)的字母。

還有線(xiàn)條畫(huà)。線(xiàn)條畫(huà)是對圖像的高度抽象，對畫(huà)面生成構成合理性要求非常高，過(guò)去的方法一直很難成功。

原圖中奶酪陰影的筆觸還原到每種圖片的物體上。

參考安卓LOGO創(chuàng )作。

此外，研究人員還拓展了StyleDrop的能力，不僅能定制風(fēng)格，結合DreamBooth，還能定制內容。

比如，還是梵高風(fēng)，給小柯基生成類(lèi)似風(fēng)格的畫(huà)作：

再來(lái)一個(gè)，下面這只柯基有種埃及金字塔上的「獅身人面像」的感覺(jué)。

如何工作？

StyleDrop基于Muse構建，由兩個(gè)關(guān)鍵部分組成：

一個(gè)是生成視覺(jué)Transformer的參數有效微調，另一個(gè)是帶反饋的迭代訓練。

之后，研究人員再從兩個(gè)微調模型中合成圖像。

Muse是一種基于掩碼生成圖像Transformer最新的文本到圖像的合成模型。它包含兩個(gè)用于基礎圖像生成(256 × 256)和超分辨率(512 × 512或1024 × 1024)的合成模塊。

每個(gè)模塊都由一個(gè)文本編碼器T，一個(gè)transformer G，一個(gè)采樣器S，一個(gè)圖像編碼器E和解碼器D組成。

T將文本提示t∈T映射到連續嵌入空間E。G處理文本嵌入e∈E以生成視覺(jué)token序列的對數l∈L。S通過(guò)迭代解碼從對數中提取視覺(jué)token序列v∈V，該迭代解碼運行幾步的transformer推理，條件是文本嵌入e和從前面步驟解碼的視覺(jué)token。

最后，D將離散token序列映射到像素空間I?？偟膩?lái)說(shuō)，給定一個(gè)文本提示t，圖像I的合成如下：

圖2是一個(gè)簡(jiǎn)化了的Muse transformer層的架構，它進(jìn)行了部分修改，為的是支持參數高效微調（PEFT）與適配器。

使用L層的transformer處理在文本嵌入e的條件下以綠色顯示的視覺(jué)token序列。學(xué)習參數θ被用于構建適配器調優(yōu)的權重。

為了訓練θ，在許多情況下，研究人員可能只給出圖片作為風(fēng)格參考。

研究人員需要手動(dòng)附加文本提示。他們提出了一個(gè)簡(jiǎn)單的、模板化的方法來(lái)構建文本提示，包括對內容的描述，后面跟著(zhù)描述風(fēng)格的短語(yǔ)。

例如，研究人員在表1中用「貓」描述一個(gè)對象，并附加「水彩畫(huà)」作為風(fēng)格描述。

在文本提示中包含內容和風(fēng)格的描述至關(guān)重要，因為它有助于從風(fēng)格中分離出內容，這是研究人員的主要目標。

圖3則是帶反饋的迭代訓練。

當在單一風(fēng)格參考圖像（橙色框）上進(jìn)行訓練時(shí)，StyleDrop生成的一些圖像可能會(huì )展示出從風(fēng)格參考圖像中提取出的內容（紅色框，圖像背景中含有與風(fēng)格圖像類(lèi)似的房子）。

其他圖像（藍色框）則能更好地從內容中拆分出風(fēng)格。對StyleDrop進(jìn)行好樣本（藍色框）的迭代訓練，結果在風(fēng)格和文本保真度之間取得了更好的平衡（綠色框）。

這里研究人員還用到了兩個(gè)方法：

-CLIP得分

該方法用于測量圖像和文本的對齊程度。因此，它可以通過(guò)測量CLIP得分（即視覺(jué)和文本CLIP嵌入的余弦相似度）來(lái)評估生成圖像的質(zhì)量。

研究人員可以選擇得分最高的CLIP圖像。他們稱(chēng)這種方法為CLIP反饋的迭代訓練（CF）。

在實(shí)驗中，研究人員發(fā)現，使用CLIP得分來(lái)評估合成圖像的質(zhì)量是提高召回率（即文本保真度）的有效方式，而不會(huì )過(guò)多損失風(fēng)格保真度。

然而從另一方面看，CLIP得分可能不能完全與人類(lèi)的意圖對齊，也無(wú)法捕捉到微妙的風(fēng)格屬性。

-HF

人工反饋（HF）是一種將用戶(hù)意圖直接注入到合成圖像質(zhì)量評估中的更直接的方式。

在強化學(xué)習的LLM微調中，HF已經(jīng)證明了它的強大和有效。

HF可以用來(lái)補償CLIP得分無(wú)法捕捉到微妙風(fēng)格屬性的問(wèn)題。

目前，已有大量研究關(guān)注了文本到圖像的擴散模型的個(gè)性化問(wèn)題，以合成包含多種個(gè)人風(fēng)格的圖像。

研究人員展示了如何以簡(jiǎn)單的方式將DreamBooth和StyleDrop結合起來(lái)，從而使風(fēng)格和內容都能實(shí)現個(gè)性化。

這是通過(guò)從兩個(gè)修改后的生成分布中采樣來(lái)完成的，分別由風(fēng)格的θs和內容的θc指導，分別是在風(fēng)格和內容參考圖像上獨立訓練的適配器參數。

與現有的成品不同，該團隊的方法不需要在多個(gè)概念上對可學(xué)習的參數進(jìn)行聯(lián)合訓練，這就帶來(lái)了更大的組合能力，因為預訓練的適配器是分別在單個(gè)主題和風(fēng)格上進(jìn)行訓練的。

研究人員的整體采樣過(guò)程遵循等式(1)的迭代解碼，每個(gè)解碼步驟中采樣對數的方式有所不同。

設t為文本提示，c為無(wú)風(fēng)格描述符的文本提示，在步驟k計算對數如下：

其中：γ用于平衡StyleDrop和DreamBooth——如果γ為0，我們得到StyleDrop，如果為1，我們得到DreamBooth。

通過(guò)合理設置γ，我們就可以得到合適的圖像。

實(shí)驗設置

目前為止，還沒(méi)有對文本-圖像生成模型的風(fēng)格調整進(jìn)行廣泛的研究。

因此，研究人員提出了一個(gè)全新實(shí)驗方案：

-數據收集

研究者收集了幾十張不同風(fēng)格的圖片，從水彩和油畫(huà)，平面插圖，3D渲到不同材質(zhì)的雕塑。

-模型配置

研究人員使用適配器調優(yōu)基于Muse的StyleDrop 。對于所有實(shí)驗，使用Adam優(yōu)化器更新1000步的適配器權重，學(xué)習速率為0.00003。除非另有說(shuō)明，研究人員使用StyleDrop來(lái)表示第二輪模型，該模型在10多個(gè)帶有人工反饋的合成圖像上進(jìn)行訓練。

-評估

研究報告的定量評估基于CLIP，衡量風(fēng)格一致性和文本對齊。此外，研究人員進(jìn)行了用戶(hù)偏好研究，以評估風(fēng)格一致性和文本對齊。

如圖，研究人員收集的18個(gè)不同風(fēng)格的圖片，StyleDrop處理的結果。

可以看到，StyleDrop能夠捕捉各種樣式的紋理、陰影和結構的細微差別，能夠比以前更好地控制風(fēng)格。

為了進(jìn)行比較，研究人員還介紹了DreamBooth在Imagen上的結果，DreamBooth在Stable Diffusion上的LoRA實(shí)現和文本反演的結果。

具體結果如表所示，圖像-文本對齊（Text）和視覺(jué)風(fēng)格對齊（Style）的人類(lèi)評分（上）和CLIP評分（下）的評價(jià)指標。

(a) DreamBooth，(b) StyleDrop，和 (c) DreamBooth + StyleDrop的定性比較：

這里，研究人員應用了上面提到的CLIP分數的兩個(gè)指標——文本和風(fēng)格得分。

對于文本得分，研究人員測量圖像和文本嵌入之間的余弦相似度。對于風(fēng)格得分，研究人員測量風(fēng)格參考和合成圖像嵌入之間的余弦相似度。

研究人員為190個(gè)文本提示生成總共1520個(gè)圖像。雖然研究人員希望最終得分能高一些，但其實(shí)這些指標并不完美。

而迭代訓練（IT）提高了文本得分，這符合研究人員的目標。

然而，作為權衡，它們在第一輪模型上的風(fēng)格得分有所降低，因為它們是在合成圖像上訓練的，風(fēng)格可能因選擇偏見(jiàn)而偏移。

Imagen上的DreamBooth在風(fēng)格得分上不及StyleDrop（HF的0.644對比0.694）。

研究人員注意到，Imagen上的DreamBooth的風(fēng)格得分增加并不明顯（0.569 → 0.644），而Muse上的StyleDrop的增加更加明顯（0.556 →0.694）。

研究人員分析，Muse上的風(fēng)格微調比Imagen上的更有效。

另外，在細粒度控制上， StyleDrop捕捉微妙的風(fēng)格差異，如顏色偏移，層次，或銳角的把控。

網(wǎng)友熱評

要是設計師有了StyleDrop，10倍速工作效率，已經(jīng)起飛。

AI一天，人間10年，AIGC正在以光速發(fā)展，那種晃瞎人眼的光速！

工具只是順應了潮流，該被淘汰的已經(jīng)早被淘汰了。

對于制作Logo來(lái)說(shuō)這個(gè)工具比Midjourney好用得多。

本文來(lái)源：新智元，原文標題：《Midjourney勁敵來(lái)了！谷歌StyleDrop王牌「定制大師」引爆AI藝術(shù)圈》

風(fēng)險提示及免責條款市場(chǎng)有風(fēng)險，投資需謹慎。本文不構成個(gè)人投資建議，也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資，責任自負。

關(guān)鍵詞：