国产在线高清精品二区_yw193亚洲中文字幕无码一区_国产精品久久AV无码久久_日韩Aⅴ人妻无码一区二区_上萬網友分享里番全彩之和老师h全彩无码心得

終結(jié)擴散模型:OpenAI開源新模型代碼,一步成圖,1秒18張-環(huán)球訊息

來源: 機器之心Pro 2023-04-13 15:45:08

機器之心報道


(資料圖片僅供參考)

機器之心編輯部

擴散模型的時代結(jié)束了。

在 AI 畫圖的領(lǐng)域,人們一直關(guān)注的是擴散模型,人們一直在嘗試不斷改進,推出了 Stable Diffusion、Midjourney、DALL-E 等技術(shù),并在其基礎(chǔ)上構(gòu)建應(yīng)用。不過最近,OpenAI 提出的全新生成模型看起來要讓這一領(lǐng)域經(jīng)歷一場革命。

與高調(diào)推出 ChatGPT 、GPT-4 不同,這次 OpenAI 在上個月偷偷上傳了一篇論文《 Consistency Models 》,也不能說是偷偷,只是這次沒有媒體大張旗鼓的報道,就顯得這項研究有些低調(diào)。論文內(nèi)容主要是關(guān)于圖像生成領(lǐng)域的。

作者陣容也非常強大,有本科畢業(yè)于清華大學(xué)數(shù)理基礎(chǔ)科學(xué)班、目前在 OpenAI 擔(dān)任研究員的宋飏。宋飏將于 2024 年 1 月加入加州理工學(xué)院電子系(Electrical Engineering)和計算數(shù)學(xué)科學(xué)系(Computing and Mathematical Sciences)擔(dān)任助理教授。此外還包括 OpenAI 聯(lián)合創(chuàng)始人、首席科學(xué)家 Ilya Sutskever。

前面我們已經(jīng)提到,OpenAI 的這項研究主要是圖像生成方面的,大家或多或少的都聽過這項技術(shù),例如最近熱門的 Midjourney 和 Stable Diffusion,它們大都采用擴散模型,由于其生成的圖片效果驚艷,很多人都將其視為最好的工具。但擴散模型依賴于迭代生成過程,這導(dǎo)致此類方法采樣速度緩慢,進而限制了它們在實時應(yīng)用中的潛力。

OpenAI 的這項研究就是為了克服這個限制,提出了 Consistency Models,這是一類新的生成模型,無需對抗訓(xùn)練即可快速獲得高質(zhì)量樣本。與此同時,OpenAI 還發(fā)布了 Consistency Models 實現(xiàn)以及權(quán)重。

論文地址:https://arxiv.org/pdf/2303.01469.pdf 代碼地址:https://github.com/openai/consistency_models

具體而言,Consistency Models 支持快速 one-step 生成,同時仍然允許 few-step 采樣,以權(quán)衡計算量和樣本質(zhì)量。它們還支持零樣本(zero-shot)數(shù)據(jù)編輯,例如圖像修復(fù)、著色和超分辨率,而無需針對這些任務(wù)進行具體訓(xùn)練。Consistency Models 可以用蒸餾預(yù)訓(xùn)練擴散模型的方式進行訓(xùn)練,也可以作為獨立的生成模型進行訓(xùn)練。

研究團隊通過實驗證明 Consistency Models 在 one-step 和 few-step 生成中優(yōu)于現(xiàn)有的擴散模型蒸餾方法。例如,在 one-step 生成方面,Consistency Models 在 CIFAR-10 上實現(xiàn)了新的 SOTA FID 3.55,在 ImageNet 64 x 64 上為 6.20。當(dāng)作為獨立生成模型進行訓(xùn)練時,Consistency Models 在 CIFAR-10、ImageNet 64 x 64 和 LSUN 256 x 256 等標(biāo)準(zhǔn)基準(zhǔn)上的表現(xiàn)也優(yōu)于 single-step、非對抗生成模型。

有網(wǎng)友將其視為擴散模型的有力競爭者!并表示 Consistency Models 無需對抗性訓(xùn)練,這使得它們更容易訓(xùn)練,不容易出現(xiàn)模式崩潰。

還有網(wǎng)友認(rèn)為擴散模型的時代即將結(jié)束。

更有網(wǎng)友測試了生成速度,3.5 秒生成了 64 張分辨率 256×256 的圖片,平均一秒生成 18 張。

接下來我們看看 Consistency Model 零樣本圖像編輯能力:

圖 6a 展示了 Consistency Model 可以在測試時對灰度臥室圖像進行著色,即使它從未接受過著色任務(wù)的訓(xùn)練,可以看出,Consistency Model 的著色效果非常自然,很逼真;圖 6b 展示了 Consistency Model 可以從低分辨率輸入生成高分辨率圖像,Consistency Model 將 32x32 分辨率圖像轉(zhuǎn)成 256x256 高分辨率圖像,和真值圖像(最右邊)看起來沒什么區(qū)別。圖 6c 證明了 Consistency Model 可以根據(jù)人類要求生成圖像(生成了有床和柜子的臥室)。

Consistency Model 圖像修復(fù)功能:左邊是經(jīng)過掩碼的圖像,中間是 Consistency Model 修復(fù)的圖像,最右邊是參考圖像:

Consistency Model 生成高分辨率圖像:左側(cè)為分辨率 32 x 32 的下采樣圖像、中間為 Consistency Model 生成的 256 x 256 圖像,右邊為分辨率為 256x 256 的真值圖像。相比于初始圖像,Consistency Model 生成的圖像更清晰。

模型介紹

Consistency Models 作為一種生成模型,核心設(shè)計思想是支持 single-step 生成,同時仍然允許迭代生成,支持零樣本(zero-shot)數(shù)據(jù)編輯,權(quán)衡了樣本質(zhì)量與計算量。

我們來看一下 Consistency Models 的定義、參數(shù)化和采樣。

首先 Consistency Models 建立在連續(xù)時間擴散模型中的概率流 (PF) 常微分方程 (ODE) 之上。如下圖 1 所示,給定一個將數(shù)據(jù)平滑地轉(zhuǎn)換為噪聲的 PF ODE,Consistency Models 學(xué)會在任何時間步(time step)將任意點映射成軌跡的初始點以進行生成式建模。Consistency Models 一個顯著的特性是自洽性(self-consistency):同一軌跡上的點會映射到相同的初始點。這也是模型被命名為 Consistency Models(一致性模型)的原因。

Consistency Models 允許通過僅使用 one network 評估轉(zhuǎn)換隨機噪聲向量(ODE 軌跡的端點,例如圖 1 中的 x_T)來生成數(shù)據(jù)樣本(ODE 軌跡的初始點,例如圖 1 中的 x_0)。更重要的是,通過在多個時間步鏈接 Consistency Models 模型的輸出,該方法可以提高樣本質(zhì)量,并以更多計算為代價執(zhí)行零樣本數(shù)據(jù)編輯,類似于擴散模型的迭代優(yōu)化。

在訓(xùn)練方面,研究團隊為 Consistency Models 提供了兩種基于自洽性的方法。第一種方法依賴于使用數(shù)值 ODE 求解器和預(yù)訓(xùn)練擴散模型來生成 PF ODE 軌跡上的相鄰點對。通過最小化這些點對的模型輸出之間的差異,該研究有效地將擴散模型蒸餾為 Consistency Models,從而允許通過 one network 評估生成高質(zhì)量樣本。

第二種方法則是完全消除了對預(yù)訓(xùn)練擴散模型的依賴,可獨立訓(xùn)練 Consistency Models。這種方法將 Consistency Models 定位為一類獨立的生成模型。

值得注意的是,這兩種訓(xùn)練方法都不需要對抗訓(xùn)練,并且都允許 Consistency Models 靈活采用神經(jīng)網(wǎng)絡(luò)架構(gòu)。

實驗及結(jié)果

實驗數(shù)據(jù)集包括 CIFAR-10 、ImageNet 64x 64 、LSUN Bedroom 256 x 256 、 LSUN Cat 256 x 256。首先該研究在 CIFAR-10 上進行了一系列實驗。結(jié)果圖 3 所示。

Few-Step 圖像生成

接著該研究在 ImageNet 64x 64、LSUN Bedroom 256 x 256 數(shù)據(jù)集上進行實驗,結(jié)果如圖 4 所示。

表 1 表明,CD( consistency distillation )優(yōu)于 Knowledge Distillation、DFNO 等方法。

表 1 和表 2 表明 CT( consistency training ) 在 CIFAR-10 上的表現(xiàn)優(yōu)于所有 single-step、非對抗性生成模型,即 VAE 和歸一化流。此外,CT 在不依賴蒸餾的情況下獲得與 PD ( progressive distillation )相當(dāng)?shù)馁|(zhì)量,用于 single-step 生成。

圖 5 提供了 EDM (Karras et al., 2022) 樣本(頂部)、single-step CT 樣本(中)和 two-step CT 樣本(底部)。

了解更多內(nèi)容,請參考原論文。

標(biāo)簽:

猜你喜歡