国产精品久久久久久久久久久久午衣片,国产成人精品男人的天堂网站,熟女一区二区中文字幕,亚洲精品国产精品乱码在线

您的位置：首頁(yè) > 產(chǎn)經(jīng) >

一秒把大象P轉身！清華校友論文引爆AI繪圖圈，Diffusion黯然失色

來(lái)源：華爾街見(jiàn)聞 ? 2023-05-20 15:53:26

5月18日，一顆炸彈在A(yíng)I繪圖圈炸響。

從此，AI可以精準修圖了，哪里不準修哪里，AIGC，已然到達了全新的里程碑！

這篇引爆繪圖圈的核彈級論文，名為「Drag Your GAN」，由MPII、MIT、賓大、谷歌等機構的學(xué)者聯(lián)合發(fā)布。目前已被SIGGRAPH 2023錄用。

(資料圖)

而且因為太過(guò)火爆，這個(gè)項目一經(jīng)發(fā)布，網(wǎng)頁(yè)就經(jīng)常處于崩潰狀態(tài)。

項目地址：https://vcai.mpi-inf.mpg.de/projects/DragGAN/

顧名思義，通過(guò)DragGAN，就可以任意拖動(dòng)圖像了，無(wú)論是對象的形狀、布局、姿態(tài)、表情、位置、大小，都可以做到精準控制。

只要拖拽動(dòng)作，確定生成圖像的起點(diǎn)和終點(diǎn)，再根據對象的物理結構，用GAN生成在精細尺度上符合邏輯的圖像，一張挑不出破綻的圖就生成了。

拍的照片表情不好？修！臉型不夠瘦？修！臉沖鏡頭的角度不對？修！

（簡(jiǎn)直就是一個(gè)超強版的Photoshop）

輕輕一拖動(dòng)，就能想把耷拉著(zhù)的狗耳朵提起來(lái)，讓狗狗從站著(zhù)變成趴下，以及讓狗狗瞬間張嘴微笑。

現在，甲方提出「讓大象轉個(gè)身」的要求，終于可以實(shí)現了。

所以，廣大修圖師的飯碗是要被端了？

從此，我們正式進(jìn)入「有圖無(wú)真相」時(shí)代。

準備好，一大波演示來(lái)了

這種DragGAN可控圖像合成方法，具有廣泛的應用場(chǎng)景，只有你想不到，沒(méi)有它做不到。

Midjourney、Stable Diffusion、Dalle-E等AI繪圖工具生成的圖像，都可以用DragGAN來(lái)微調細節，生成任何想要的效果。

模特的姿勢可以隨意改變，短褲可以變成九分褲，短袖可以變長(cháng)袖。

湖邊的樹(shù)可以瞬間長(cháng)高，湖里的倒影也跟著(zhù)一起改變。

原圖中的太陽(yáng)沒(méi)露臉？無(wú)所謂，DragGAN會(huì )給你造個(gè)日出。

貓貓的正臉一下子變側臉，角度精細可調。

甚至連汽車(chē)也能一鍵「敞篷」。

不得不說(shuō)，AI繪圖圈，真的太卷了。上一個(gè)工具還沒(méi)完全學(xué)會(huì )呢，下一個(gè)革命性產(chǎn)品就又來(lái)了。

有了DragGAN的加持，各種AI畫(huà)圖工具的「阿喀琉斯之踵」再也不是弱點(diǎn)。

并且，DragGAN在單顆3090顯卡上生成圖像，僅僅需要幾秒鐘。

可以想象，繪圖、動(dòng)畫(huà)、電影、電視劇等領(lǐng)域，都將迎來(lái)大地震。

DragGAN看起來(lái)像Photoshop的Warp工具，但它的功能實(shí)現了核彈級的增強——它讓你不只是在像素周?chē)?jiǎn)單地移動(dòng)，而是使用AI來(lái)重新生成底層對象，甚至還能像3D一樣旋轉圖像。

研究者團隊指出，這項工作真正有趣的地方不一定是圖像處理本身，而是用戶(hù)界面。

我們早就能用GAN之類(lèi)的AI工具來(lái)生成逼真的圖像，但缺乏足夠的靈活性和精度，無(wú)法得到我們想要的確切姿勢。

但DragGAN提供的，絕不是簡(jiǎn)單地涂抹和糊化現有像素，而是重新生成主體。

正如研究者所寫(xiě)：「你的方法可以產(chǎn)生幻覺(jué)，就像獅子嘴里的牙齒一樣，并且可以隨著(zhù)物體的剛性而變形，就像馬腿的彎曲一樣?！?/p>

DragGAN的橫空出世表明，GAN模型開(kāi)始模型了，或許它會(huì )比Diffusion模型（DALLE.2、Stable Diffusion和Midjourney）更具影響力。

此前，Diffusion模型一直在A(yíng)I繪圖領(lǐng)域大受歡迎，但生成式對抗網(wǎng)絡(luò )GAN也引起了人們廣泛的興趣，Ian Goodfellow2017年提出GAN理論后，三年后它再次復興。

DragGAN：圖像處理新時(shí)代

在這項工作中，團隊研究了一種強大但還未被充分探索的控制GAN的方法——以交互的方式將圖像中任意一點(diǎn)精確「拖動(dòng)」至目標點(diǎn)。

DragGAN主要包括以下兩個(gè)主要組成部分：

1. 基于特征的運動(dòng)監控，驅動(dòng)操作點(diǎn)向目標位置移動(dòng)

2. 一個(gè)新的點(diǎn)跟蹤方法，利用區分性的GAN特征持續定位操作點(diǎn)的位置

通過(guò)DragGAN，任何人都可以對像素進(jìn)行精確的控制，進(jìn)而編輯如動(dòng)物、汽車(chē)、人類(lèi)、風(fēng)景等多種類(lèi)別的姿態(tài)、形狀、表情和布局。

由于這些操作在GAN的學(xué)習生成圖像流形上進(jìn)行，因此它們傾向于生成逼真的輸出，即使在富有挑戰性的場(chǎng)景下也是如此，例如被遮擋的內容和變形的圖像。

定性和定量的對比表明，DragGAN在圖像操作和點(diǎn)跟蹤任務(wù)中，都明顯優(yōu)于先前的方法。

拖拽編輯

在DragGAN的加持下，用戶(hù)只需要設置幾個(gè)操作點(diǎn)（紅點(diǎn)），目標點(diǎn)（藍點(diǎn)），以及可選的表示可移動(dòng)區域的mask（亮區）。然后，模型就會(huì )自動(dòng)完成后續的圖像生成，

其中，動(dòng)態(tài)監控步驟會(huì )讓操作點(diǎn)（紅點(diǎn)）向目標點(diǎn)（藍點(diǎn)）移動(dòng)，點(diǎn)追蹤步驟則通過(guò)更新操作點(diǎn)來(lái)追蹤圖像中的對象。此過(guò)程會(huì )一直持續，直到操作點(diǎn)達到其相應的目標點(diǎn)。

流程

具體來(lái)說(shuō)，團隊通過(guò)在生成器的特征圖上的位移修補損失來(lái)實(shí)現動(dòng)態(tài)監控，并在相同的特征空間中通過(guò)最近鄰搜索進(jìn)行點(diǎn)追蹤。

方法

值得注意的是，用戶(hù)可以通過(guò)添加mask的方式，來(lái)控制需要編輯的區域。

可以看到，當狗的頭部被mask時(shí)，在編輯后的圖像中，只有頭部發(fā)生了移動(dòng)，而其他區域則并未發(fā)生變化。但如果沒(méi)有mask的話(huà)，整個(gè)狗的身體也會(huì )跟著(zhù)移動(dòng)。

這也顯示出，基于點(diǎn)的操作通常有多種可能的解決方案，而GAN會(huì )傾向于在其從訓練數據中學(xué)習的圖像流形中找到最近的解決方案。

因此，mask功能可以幫助減少歧義并保持某些區域固定。

mask的效果

在真實(shí)圖像的編輯中，團隊應用GAN反轉將其映射到StyleGAN的潛在空間，然后分別編輯姿勢、頭發(fā)、形狀和表情。

真實(shí)圖像的處理

到目前為止，團隊展示的都是基于「分布內」的編輯，也就是使用訓練數據集內的圖像來(lái)實(shí)現編輯。

但DragGAN實(shí)際上具有強大的泛化能力，可以創(chuàng )建出超出訓練圖像分布的圖像。比如，一個(gè)張得巨大的嘴，以及一個(gè)被極限放大的車(chē)輪。

在某些情況下，用戶(hù)可能希望始終保持圖像在訓練分布中，并防止這種超出分布的情況發(fā)生。實(shí)現這一目標的方法可以是對潛在代碼添加額外的正則化，但這并不是本文討論的重點(diǎn)。

泛化能力

比較分析

首先，與UserControllableLT相比，DragGAN能夠編輯從輸入圖像中檢測到的特征點(diǎn)，并使其與從目標圖像中檢測到的特征點(diǎn)相匹配，而且誤差很小。

從下圖中可以看出，DragGAN正確地張開(kāi)了照片中人物的嘴，并調整了下巴的形狀來(lái)匹配目標的臉型，而UserControllableLT未能做到這一點(diǎn)。

臉部特征點(diǎn)編輯

在DragGAN與RAFT、PIPs和無(wú)追蹤的定性比較中，可以看得，DragGAN可以比基線(xiàn)更準確地跟蹤操作點(diǎn)，進(jìn)而能夠產(chǎn)生更精確的編輯。

定性比較

而在移動(dòng)操作點(diǎn)（紅點(diǎn)）到目標點(diǎn)（藍點(diǎn)）的任務(wù)上，定性比較的結果顯示，DragGAN在各種數據集上都取得了比UserControllableLT更加自然和優(yōu)秀的效果。

定性比較

如表1所示，在不同的點(diǎn)數下，DragGAN都明顯優(yōu)于UserControllableLT。而且根據FID的得分，DragGAN還保留了更好的圖像質(zhì)量。

由于具有更強的跟蹤能力，DragGAN還實(shí)現了比RAFT和PIPs更精確的操縱。正如FID分數所顯示的，如果跟蹤不準確的話(huà)，很可能會(huì )造成編輯過(guò)度，從而降低圖像質(zhì)量。

雖然UserControllableLT的速度更快，但DragGAN在很大程度上提升了這項任務(wù)的上限，在保持相對較快的運行時(shí)間的同時(shí)，實(shí)現了更靠譜的編輯。

定量分析

結果討論

DragGAN是一種基于點(diǎn)的交互式圖像編輯方法，該方法利用預訓練的GAN來(lái)合成圖像。其中，這些合成圖像不僅精確地遵循了用戶(hù)的輸入，而且還能保持在真實(shí)圖像的流形上。

此外，與之前的方法相比，團隊提出的DragGAN還是一個(gè)通用框架，并不依賴(lài)于特定領(lǐng)域的建?；蜉o助網(wǎng)絡(luò )。

這是通過(guò)兩個(gè)新穎的組件來(lái)實(shí)現的，它們都是利用GAN的中間特征圖的辨別質(zhì)量，來(lái)生成像素精確的圖像形變和交互性能：

1. 一個(gè)優(yōu)化潛在代碼的方法，逐步將多個(gè)操作點(diǎn)移向目標位置

2. 一個(gè)點(diǎn)追蹤程序，真實(shí)地追蹤操作點(diǎn)的軌跡

總結來(lái)說(shuō)，全新的DragGAN在基于GAN的編輯方面要優(yōu)于現有的技術(shù)，并為使用生成式先驗的強大圖像編輯開(kāi)辟了新的方向。

至于未來(lái)的工作，團隊計劃將基于點(diǎn)的編輯擴展到3D生成模型。

模型局限

盡管具有一定的泛化能力，但DragGAN的編輯質(zhì)量仍受訓練數據多樣性的影響。

如下圖（a）所示，創(chuàng )建一個(gè)訓練分布外的人體姿勢，可能會(huì )生成錯誤的圖像

此外，如圖（b）（c）所示，在無(wú)紋理區域的操作點(diǎn)在追蹤時(shí)有時(shí)會(huì )有更多的漂移。

因此，團隊建議盡量去選擇紋理豐富的操作點(diǎn)。

作者介紹

論文一作Xingang Pan，即將上任南洋理工大學(xué)計算機科學(xué)與工程學(xué)院MMLab@NTU的助理教授（2023年6月）。

目前，他是馬克斯·普朗克計算機科學(xué)研究所的博士后研究員，由Christian Theobalt教授指導。

在此之前，他于2016年在清華大學(xué)獲得學(xué)士學(xué)位，并2021年在香港中文大學(xué)多媒體實(shí)驗室獲得博士學(xué)位，導師是湯曉鷗教授。

Lingjie Liu

Lingjie Liu是賓夕法尼亞大學(xué)計算機和信息科學(xué)系的Aravind K. Joshi助理教授，負責賓大計算機圖形實(shí)驗室，同時(shí)也是通用機器人、自動(dòng)化、傳感和感知（GRASP）實(shí)驗室的成員。

在此之前，她是馬克斯·普朗克計算機科學(xué)研究所的Lise Meitner博士后研究人員。并于2019年在香港大學(xué)獲得博士學(xué)位。

參考資料：https://vcai.mpi-inf.mpg.de/projects/DragGAN/

作者：新智元，來(lái)源：新智元，原文標題：《GAN逆襲歸來(lái)！清華校友論文引爆AI繪圖圈，一秒把大象P轉身，Diffusion黯然失色》

風(fēng)險提示及免責條款市場(chǎng)有風(fēng)險，投資需謹慎。本文不構成個(gè)人投資建議，也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資，責任自負。

關(guān)鍵詞：