終結(jié)擴散模型：OpenAI開源新模型代碼，一步成圖，1秒18張-環(huán)球訊息

來源: 機器之心Pro 2023-04-13 15:45:08

機器之心報道

(資料圖片僅供參考)

機器之心編輯部

擴散模型的時代結(jié)束了。

在 AI 畫圖的領(lǐng)域，人們一直關(guān)注的是擴散模型，人們一直在嘗試不斷改進，推出了 Stable Diffusion、Midjourney、DALL-E 等技術(shù)，并在其基礎(chǔ)上構(gòu)建應(yīng)用。不過最近，OpenAI 提出的全新生成模型看起來要讓這一領(lǐng)域經(jīng)歷一場革命。

與高調(diào)推出 ChatGPT 、GPT-4 不同，這次 OpenAI 在上個月偷偷上傳了一篇論文《 Consistency Models 》，也不能說是偷偷，只是這次沒有媒體大張旗鼓的報道，就顯得這項研究有些低調(diào)。論文內(nèi)容主要是關(guān)于圖像生成領(lǐng)域的。

作者陣容也非常強大，有本科畢業(yè)于清華大學(xué)數(shù)理基礎(chǔ)科學(xué)班、目前在 OpenAI 擔(dān)任研究員的宋飏。宋飏將于 2024 年 1 月加入加州理工學(xué)院電子系（Electrical Engineering）和計算數(shù)學(xué)科學(xué)系（Computing and Mathematical Sciences）擔(dān)任助理教授。此外還包括 OpenAI 聯(lián)合創(chuàng)始人、首席科學(xué)家 Ilya Sutskever。

前面我們已經(jīng)提到，OpenAI 的這項研究主要是圖像生成方面的，大家或多或少的都聽過這項技術(shù)，例如最近熱門的 Midjourney 和 Stable Diffusion，它們大都采用擴散模型，由于其生成的圖片效果驚艷，很多人都將其視為最好的工具。但擴散模型依賴于迭代生成過程，這導(dǎo)致此類方法采樣速度緩慢，進而限制了它們在實時應(yīng)用中的潛力。

OpenAI 的這項研究就是為了克服這個限制，提出了 Consistency Models，這是一類新的生成模型，無需對抗訓(xùn)練即可快速獲得高質(zhì)量樣本。與此同時，OpenAI 還發(fā)布了 Consistency Models 實現(xiàn)以及權(quán)重。

論文地址：https://arxiv.org/pdf/2303.01469.pdf 代碼地址：https://github.com/openai/consistency_models

具體而言，Consistency Models 支持快速 one-step 生成，同時仍然允許 few-step 采樣，以權(quán)衡計算量和樣本質(zhì)量。它們還支持零樣本（zero-shot）數(shù)據(jù)編輯，例如圖像修復(fù)、著色和超分辨率，而無需針對這些任務(wù)進行具體訓(xùn)練。Consistency Models 可以用蒸餾預(yù)訓(xùn)練擴散模型的方式進行訓(xùn)練，也可以作為獨立的生成模型進行訓(xùn)練。

研究團隊通過實驗證明 Consistency Models 在 one-step 和 few-step 生成中優(yōu)于現(xiàn)有的擴散模型蒸餾方法。例如，在 one-step 生成方面，Consistency Models 在 CIFAR-10 上實現(xiàn)了新的 SOTA FID 3.55，在 ImageNet 64 x 64 上為 6.20。當(dāng)作為獨立生成模型進行訓(xùn)練時，Consistency Models 在 CIFAR-10、ImageNet 64 x 64 和 LSUN 256 x 256 等標(biāo)準(zhǔn)基準(zhǔn)上的表現(xiàn)也優(yōu)于 single-step、非對抗生成模型。

有網(wǎng)友將其視為擴散模型的有力競爭者！并表示 Consistency Models 無需對抗性訓(xùn)練，這使得它們更容易訓(xùn)練，不容易出現(xiàn)模式崩潰。

還有網(wǎng)友認(rèn)為擴散模型的時代即將結(jié)束。

更有網(wǎng)友測試了生成速度，3.5 秒生成了 64 張分辨率 256×256 的圖片，平均一秒生成 18 張。

接下來我們看看 Consistency Model 零樣本圖像編輯能力：

圖 6a 展示了 Consistency Model 可以在測試時對灰度臥室圖像進行著色，即使它從未接受過著色任務(wù)的訓(xùn)練，可以看出，Consistency Model 的著色效果非常自然，很逼真；圖 6b 展示了 Consistency Model 可以從低分辨率輸入生成高分辨率圖像，Consistency Model 將 32x32 分辨率圖像轉(zhuǎn)成 256x256 高分辨率圖像，和真值圖像（最右邊）看起來沒什么區(qū)別。圖 6c 證明了 Consistency Model 可以根據(jù)人類要求生成圖像（生成了有床和柜子的臥室）。

Consistency Model 圖像修復(fù)功能：左邊是經(jīng)過掩碼的圖像，中間是 Consistency Model 修復(fù)的圖像，最右邊是參考圖像：

Consistency Model 生成高分辨率圖像：左側(cè)為分辨率 32 x 32 的下采樣圖像、中間為 Consistency Model 生成的 256 x 256 圖像，右邊為分辨率為 256x 256 的真值圖像。相比于初始圖像，Consistency Model 生成的圖像更清晰。

模型介紹

Consistency Models 作為一種生成模型，核心設(shè)計思想是支持 single-step 生成，同時仍然允許迭代生成，支持零樣本（zero-shot）數(shù)據(jù)編輯，權(quán)衡了樣本質(zhì)量與計算量。

我們來看一下 Consistency Models 的定義、參數(shù)化和采樣。

首先 Consistency Models 建立在連續(xù)時間擴散模型中的概率流 (PF) 常微分方程 (ODE) 之上。如下圖 1 所示，給定一個將數(shù)據(jù)平滑地轉(zhuǎn)換為噪聲的 PF ODE，Consistency Models 學(xué)會在任何時間步（time step）將任意點映射成軌跡的初始點以進行生成式建模。Consistency Models 一個顯著的特性是自洽性（self-consistency）：同一軌跡上的點會映射到相同的初始點。這也是模型被命名為 Consistency Models（一致性模型）的原因。

Consistency Models 允許通過僅使用 one network 評估轉(zhuǎn)換隨機噪聲向量（ODE 軌跡的端點，例如圖 1 中的 x_T）來生成數(shù)據(jù)樣本（ODE 軌跡的初始點，例如圖 1 中的 x_0）。更重要的是，通過在多個時間步鏈接 Consistency Models 模型的輸出，該方法可以提高樣本質(zhì)量，并以更多計算為代價執(zhí)行零樣本數(shù)據(jù)編輯，類似于擴散模型的迭代優(yōu)化。

在訓(xùn)練方面，研究團隊為 Consistency Models 提供了兩種基于自洽性的方法。第一種方法依賴于使用數(shù)值 ODE 求解器和預(yù)訓(xùn)練擴散模型來生成 PF ODE 軌跡上的相鄰點對。通過最小化這些點對的模型輸出之間的差異，該研究有效地將擴散模型蒸餾為 Consistency Models，從而允許通過 one network 評估生成高質(zhì)量樣本。

第二種方法則是完全消除了對預(yù)訓(xùn)練擴散模型的依賴，可獨立訓(xùn)練 Consistency Models。這種方法將 Consistency Models 定位為一類獨立的生成模型。

值得注意的是，這兩種訓(xùn)練方法都不需要對抗訓(xùn)練，并且都允許 Consistency Models 靈活采用神經(jīng)網(wǎng)絡(luò)架構(gòu)。

實驗及結(jié)果

實驗數(shù)據(jù)集包括 CIFAR-10 、ImageNet 64x 64 、LSUN Bedroom 256 x 256 、 LSUN Cat 256 x 256。首先該研究在 CIFAR-10 上進行了一系列實驗。結(jié)果圖 3 所示。

Few-Step 圖像生成

接著該研究在 ImageNet 64x 64、LSUN Bedroom 256 x 256 數(shù)據(jù)集上進行實驗，結(jié)果如圖 4 所示。

表 1 表明，CD（ consistency distillation ）優(yōu)于 Knowledge Distillation、DFNO 等方法。

表 1 和表 2 表明 CT（ consistency training ）在 CIFAR-10 上的表現(xiàn)優(yōu)于所有 single-step、非對抗性生成模型，即 VAE 和歸一化流。此外，CT 在不依賴蒸餾的情況下獲得與 PD （ progressive distillation ）相當(dāng)?shù)馁|(zhì)量，用于 single-step 生成。

圖 5 提供了 EDM (Karras et al., 2022) 樣本（頂部）、single-step CT 樣本（中）和 two-step CT 樣本（底部）。

了解更多內(nèi)容，請參考原論文。

標(biāo)簽：