終結(jié)擴散模型:OpenAI開源新模型代碼,一步成圖,1秒18張-環(huán)球訊息
來源: 機器之心Pro 2023-04-13 15:45:08
機器之心報道
(資料圖片僅供參考)
機器之心編輯部
擴散模型的時代結(jié)束了。
在 AI 畫圖的領(lǐng)域,人們一直關(guān)注的是擴散模型,人們一直在嘗試不斷改進,推出了 Stable Diffusion、Midjourney、DALL-E 等技術(shù),并在其基礎(chǔ)上構(gòu)建應(yīng)用。不過最近,OpenAI 提出的全新生成模型看起來要讓這一領(lǐng)域經(jīng)歷一場革命。
與高調(diào)推出 ChatGPT 、GPT-4 不同,這次 OpenAI 在上個月偷偷上傳了一篇論文《 Consistency Models 》,也不能說是偷偷,只是這次沒有媒體大張旗鼓的報道,就顯得這項研究有些低調(diào)。論文內(nèi)容主要是關(guān)于圖像生成領(lǐng)域的。
作者陣容也非常強大,有本科畢業(yè)于清華大學(xué)數(shù)理基礎(chǔ)科學(xué)班、目前在 OpenAI 擔(dān)任研究員的宋飏。宋飏將于 2024 年 1 月加入加州理工學(xué)院電子系(Electrical Engineering)和計算數(shù)學(xué)科學(xué)系(Computing and Mathematical Sciences)擔(dān)任助理教授。此外還包括 OpenAI 聯(lián)合創(chuàng)始人、首席科學(xué)家 Ilya Sutskever。
前面我們已經(jīng)提到,OpenAI 的這項研究主要是圖像生成方面的,大家或多或少的都聽過這項技術(shù),例如最近熱門的 Midjourney 和 Stable Diffusion,它們大都采用擴散模型,由于其生成的圖片效果驚艷,很多人都將其視為最好的工具。但擴散模型依賴于迭代生成過程,這導(dǎo)致此類方法采樣速度緩慢,進而限制了它們在實時應(yīng)用中的潛力。
OpenAI 的這項研究就是為了克服這個限制,提出了 Consistency Models,這是一類新的生成模型,無需對抗訓(xùn)練即可快速獲得高質(zhì)量樣本。與此同時,OpenAI 還發(fā)布了 Consistency Models 實現(xiàn)以及權(quán)重。
論文地址:https://arxiv.org/pdf/2303.01469.pdf 代碼地址:https://github.com/openai/consistency_models具體而言,Consistency Models 支持快速 one-step 生成,同時仍然允許 few-step 采樣,以權(quán)衡計算量和樣本質(zhì)量。它們還支持零樣本(zero-shot)數(shù)據(jù)編輯,例如圖像修復(fù)、著色和超分辨率,而無需針對這些任務(wù)進行具體訓(xùn)練。Consistency Models 可以用蒸餾預(yù)訓(xùn)練擴散模型的方式進行訓(xùn)練,也可以作為獨立的生成模型進行訓(xùn)練。
研究團隊通過實驗證明 Consistency Models 在 one-step 和 few-step 生成中優(yōu)于現(xiàn)有的擴散模型蒸餾方法。例如,在 one-step 生成方面,Consistency Models 在 CIFAR-10 上實現(xiàn)了新的 SOTA FID 3.55,在 ImageNet 64 x 64 上為 6.20。當(dāng)作為獨立生成模型進行訓(xùn)練時,Consistency Models 在 CIFAR-10、ImageNet 64 x 64 和 LSUN 256 x 256 等標(biāo)準(zhǔn)基準(zhǔn)上的表現(xiàn)也優(yōu)于 single-step、非對抗生成模型。
有網(wǎng)友將其視為擴散模型的有力競爭者!并表示 Consistency Models 無需對抗性訓(xùn)練,這使得它們更容易訓(xùn)練,不容易出現(xiàn)模式崩潰。
還有網(wǎng)友認(rèn)為擴散模型的時代即將結(jié)束。
更有網(wǎng)友測試了生成速度,3.5 秒生成了 64 張分辨率 256×256 的圖片,平均一秒生成 18 張。
接下來我們看看 Consistency Model 零樣本圖像編輯能力:
圖 6a 展示了 Consistency Model 可以在測試時對灰度臥室圖像進行著色,即使它從未接受過著色任務(wù)的訓(xùn)練,可以看出,Consistency Model 的著色效果非常自然,很逼真;圖 6b 展示了 Consistency Model 可以從低分辨率輸入生成高分辨率圖像,Consistency Model 將 32x32 分辨率圖像轉(zhuǎn)成 256x256 高分辨率圖像,和真值圖像(最右邊)看起來沒什么區(qū)別。圖 6c 證明了 Consistency Model 可以根據(jù)人類要求生成圖像(生成了有床和柜子的臥室)。
Consistency Model 圖像修復(fù)功能:左邊是經(jīng)過掩碼的圖像,中間是 Consistency Model 修復(fù)的圖像,最右邊是參考圖像:
Consistency Model 生成高分辨率圖像:左側(cè)為分辨率 32 x 32 的下采樣圖像、中間為 Consistency Model 生成的 256 x 256 圖像,右邊為分辨率為 256x 256 的真值圖像。相比于初始圖像,Consistency Model 生成的圖像更清晰。
模型介紹
Consistency Models 作為一種生成模型,核心設(shè)計思想是支持 single-step 生成,同時仍然允許迭代生成,支持零樣本(zero-shot)數(shù)據(jù)編輯,權(quán)衡了樣本質(zhì)量與計算量。
我們來看一下 Consistency Models 的定義、參數(shù)化和采樣。
首先 Consistency Models 建立在連續(xù)時間擴散模型中的概率流 (PF) 常微分方程 (ODE) 之上。如下圖 1 所示,給定一個將數(shù)據(jù)平滑地轉(zhuǎn)換為噪聲的 PF ODE,Consistency Models 學(xué)會在任何時間步(time step)將任意點映射成軌跡的初始點以進行生成式建模。Consistency Models 一個顯著的特性是自洽性(self-consistency):同一軌跡上的點會映射到相同的初始點。這也是模型被命名為 Consistency Models(一致性模型)的原因。
Consistency Models 允許通過僅使用 one network 評估轉(zhuǎn)換隨機噪聲向量(ODE 軌跡的端點,例如圖 1 中的 x_T)來生成數(shù)據(jù)樣本(ODE 軌跡的初始點,例如圖 1 中的 x_0)。更重要的是,通過在多個時間步鏈接 Consistency Models 模型的輸出,該方法可以提高樣本質(zhì)量,并以更多計算為代價執(zhí)行零樣本數(shù)據(jù)編輯,類似于擴散模型的迭代優(yōu)化。
在訓(xùn)練方面,研究團隊為 Consistency Models 提供了兩種基于自洽性的方法。第一種方法依賴于使用數(shù)值 ODE 求解器和預(yù)訓(xùn)練擴散模型來生成 PF ODE 軌跡上的相鄰點對。通過最小化這些點對的模型輸出之間的差異,該研究有效地將擴散模型蒸餾為 Consistency Models,從而允許通過 one network 評估生成高質(zhì)量樣本。
第二種方法則是完全消除了對預(yù)訓(xùn)練擴散模型的依賴,可獨立訓(xùn)練 Consistency Models。這種方法將 Consistency Models 定位為一類獨立的生成模型。
值得注意的是,這兩種訓(xùn)練方法都不需要對抗訓(xùn)練,并且都允許 Consistency Models 靈活采用神經(jīng)網(wǎng)絡(luò)架構(gòu)。
實驗及結(jié)果
實驗數(shù)據(jù)集包括 CIFAR-10 、ImageNet 64x 64 、LSUN Bedroom 256 x 256 、 LSUN Cat 256 x 256。首先該研究在 CIFAR-10 上進行了一系列實驗。結(jié)果圖 3 所示。
Few-Step 圖像生成
接著該研究在 ImageNet 64x 64、LSUN Bedroom 256 x 256 數(shù)據(jù)集上進行實驗,結(jié)果如圖 4 所示。
表 1 表明,CD( consistency distillation )優(yōu)于 Knowledge Distillation、DFNO 等方法。
表 1 和表 2 表明 CT( consistency training ) 在 CIFAR-10 上的表現(xiàn)優(yōu)于所有 single-step、非對抗性生成模型,即 VAE 和歸一化流。此外,CT 在不依賴蒸餾的情況下獲得與 PD ( progressive distillation )相當(dāng)?shù)馁|(zhì)量,用于 single-step 生成。
圖 5 提供了 EDM (Karras et al., 2022) 樣本(頂部)、single-step CT 樣本(中)和 two-step CT 樣本(底部)。
了解更多內(nèi)容,請參考原論文。
標(biāo)簽:
猜你喜歡

終結(jié)擴散模型:OpenAI開源新模型代碼,一步成圖,1秒18張-環(huán)球訊息
2023-04-13 15:45:08

教師潛入約死群揭露可怕聊天記錄 群內(nèi)充斥負(fù)能量
2023-04-13 14:44:01

又有“大V”翻車!股民爆料:賬戶從336萬元直接炒到只剩18萬
2023-04-13 14:03:30

云南糖網(wǎng):4月13日云南現(xiàn)貨市場糖價下調(diào)20-30元
2023-04-13 12:31:52

中國能建中標(biāo)N連擊!一大批重點項目收入囊中 世界獨家
2023-04-13 11:58:56

每日觀察!車出現(xiàn)黃感嘆號什么意思 _機油壓力傳感器好壞怎么判斷
2023-04-13 11:06:35

警方公告:7名被拐兒童,急尋親生父母!
2023-04-13 10:21:13

全球熱推薦:中央氣象臺繼續(xù)發(fā)布沙塵暴藍色預(yù)警 13省份有揚沙浮塵天氣
2023-04-13 09:36:13

九牧王:4月12日融券賣出400股,融資融券余額1.25億元
2023-04-13 08:48:10
聚焦“廠商”新模式,百商聯(lián)盟領(lǐng)頭共話新趨勢
2023-04-13 08:57:41

僑源股份(301286):4月12日北向資金減持3.4萬股_世界球精選
2023-04-13 07:19:30

華人在線香蕉_華人在線華人香蕉_新資訊
2023-04-13 05:43:41

焦點資訊:二中錄取分?jǐn)?shù)線2021年_二中錄取分?jǐn)?shù)線
2023-04-13 02:12:07

無腦黑C羅!阿奎羅逐漸卡薩諾化:為了吹捧梅西,已經(jīng)喪心病狂
2023-04-12 22:27:03

焦點速看:335奧法天賦詳解 335奧法天賦
2023-04-12 21:11:53

高偉電子(01415)因購股權(quán)獲行使發(fā)行合計75.7萬股
2023-04-12 19:58:29

觀熱點:新賽股份:擬出資2840萬元設(shè)立合資公司 開展石灰石開采、加工及相關(guān)業(yè)務(wù)
2023-04-12 18:52:51

【天天快播報】送女孩子生日禮物什么好
2023-04-12 18:18:04

圖靈看市4.12晚-白銀觸及壓力,或出現(xiàn)下跌 速訊
2023-04-12 18:13:10

獨行俠無緣季后賽,東契奇鬧出走,獨行俠隊2換1報價特雷楊-世界觀察
2023-04-12 17:02:31

丹寨縣金泉街道:“四到位”加強特殊人群監(jiān)管服務(wù)
2023-04-12 16:32:47

“許水云案”的里程碑意義,法律專家激辯行政賠償司法現(xiàn)狀與困境
2023-04-12 16:30:43

信達證券發(fā)布科士達研報,2022年業(yè)績高增,儲能業(yè)務(wù)勢頭強勁
2023-04-12 15:41:33

天天觀速訊丨蒙娜麗莎:詳見公司《2022年年度報告》第189頁
2023-04-12 14:32:31

應(yīng)用更簡便!東風(fēng)風(fēng)神皓極OTA全新升級 智能體驗再進化
2023-04-12 14:58:16