你的位置：任丘市奧力斯涂料廠 > 新聞資訊 >

新聞資訊

發(fā)布日期：2026-02-27 05:26 點(diǎn)擊次數(shù)：82

晉城泡沫板膠 5秒出4張2K大圖！阿里提出2步生成案，拉爆AI生圖進(jìn)度條

允中發(fā)自凹非寺晉城泡沫板膠

量子位 | 公眾號(hào) QbitAI

AI生成張圖片，你愿意等多久？

在主流擴(kuò)散模型還在迭代中反復(fù)“磨嘰”、讓用戶盯著進(jìn)度條發(fā)呆時(shí)，阿里智能引擎團(tuán)隊(duì)直接把進(jìn)度條“拉爆”了——

5秒鐘，到手4張2K清大圖。

針對(duì)Qwen新開(kāi)源模型，將SOTA壓縮水平從80-100步前向計(jì)，驟降至2步（Step），速度提升整整40倍。

這意味著，此前像Qwen-Image這樣需要近分鐘才能吐出來(lái)的張圖片，現(xiàn)在真的成了“眨眼之間”。

目前，團(tuán)隊(duì)已將相應(yīng)的Checkpoint發(fā)布至HuggingFace和ModelScope平臺(tái)，歡迎開(kāi)發(fā)者下載體驗(yàn)：

HuggingFace：https://huggingface.co/Wuli-art/Qwen-Image-2512-Turbo-LoRA-2-StepsModelScope：https://www.modelscope.cn/models/Wuli-Art/Qwen-Image-2512-Turbo-LoRA-2-Steps

同時(shí)，該模型已經(jīng)集成到嗚哩AI平臺(tái)上（https://www.wuli.art）支持調(diào)用。

上述這種近乎“物理外掛”般的蒸餾案，究竟是怎么做到的？起來(lái)看。

傳統(tǒng)軌跡蒸餾的“細(xì)節(jié)困境”

早期的蒸餾案[1,2]，往往可以被歸納為軌跡蒸餾（Trajectory Distillation）。

具體來(lái)看，其本身主要思想是希望蒸餾后模型（student model）能夠模仿原模型（teacher model）在多步生成的路徑：

Progressive Distillation：student model需要直接對(duì)齊teacher model多次迭代后的輸出；Consistency Distillation：student model需要保證在teacher model的去噪軌跡上，輸出相同的結(jié)果。

但在實(shí)踐中，這類法很難在低迭代步數(shù)下實(shí)現(xiàn)質(zhì)量生成。突出的問(wèn)題是生成圖像模糊晉城泡沫板膠，這現(xiàn)象在近期研究[3]中也得到了驗(yàn)證：

問(wèn)題根源在于約束式：軌跡蒸餾直接對(duì)student model的生成樣本x_{student}做約束，使其在特定距離度量下對(duì)齊teacher預(yù)測(cè)出的質(zhì)量輸出x_{teacher}，具體可以表達(dá)為：

其中$f(cdot)$是特定的距離函數(shù)，x_{teacher}是teacher經(jīng)過(guò)多次去噪以后得到的輸出。

可以看出，這Loss對(duì)所有圖像patch視同仁，對(duì)于些特別細(xì)節(jié)的部分（如文字、人物五官）因占比低而學(xué)習(xí)不充分，student模型的細(xì)節(jié)常出現(xiàn)明顯扭曲。

從樣本空間到概率空間，直接降低缺陷樣本生成概率

近期，基于概率空間的蒸餾案，在較少步數(shù)場(chǎng)景（4~8步）獲得了巨大的成功，基本解決了上述的細(xì)節(jié)丟失問(wèn)題。

其中有影響力的工作之是DMD2法，這里具體的法案可以參考原論文[4]。

DMD2將約束從樣本空間轉(zhuǎn)換到了概率空間，其Loss設(shè)計(jì)為：

這是典型的Reverse-KL的蒸餾Loss，其本身有個(gè)顯著的特：

當(dāng)p_{teacher}(x_0)to 0，如果p_{student}(x_0) > 0，那就會(huì)有Loss to +infty。

這意味著：對(duì)于student model生成的每張圖片，如果它不符真實(shí)圖片分布（p_{teacher}(x_0)to 0），就會(huì)致Loss爆炸。

因此，DMD2這類法的本質(zhì)思想是——不直接告訴student“應(yīng)該模仿什么”，而是讓student自己生成圖片晉城泡沫板膠，然后讓teacher model指“哪里不對(duì)”。

這種Reverse-KL Loss的設(shè)計(jì)，可以顯著提升生成圖片的細(xì)節(jié)和理，已經(jīng)成為當(dāng)下擴(kuò)散步數(shù)蒸餾的主要策略。

熱啟動(dòng)緩解分布退化

盡管Reverse-KL可以顯著降低不理樣本的生成概率，其本身也存在著嚴(yán)重的mode-collapse和分布過(guò)于銳化的問(wèn)題[5]。

具體表現(xiàn)在多樣降低，飽和度增加，形體增加等問(wèn)題上。這些問(wèn)題在2步蒸餾的設(shè)定下變得尤為突出。

為了緩解分布退化問(wèn)題，常見(jiàn)做法是給模型個(gè)理的初始化[6]。在這里該團(tuán)隊(duì)使用PCM[7]蒸餾進(jìn)行模型熱啟動(dòng)。

實(shí)驗(yàn)表明，熱啟動(dòng)后的模型的形體扭曲問(wèn)題得到明顯。

△左圖為直接dmd訓(xùn)練，右圖為經(jīng)過(guò)PCM熱啟動(dòng)后的2步模型，PVC管道管件粘結(jié)膠好的初始化可以降低不理構(gòu)圖

對(duì)抗學(xué)習(xí)引入真實(shí)數(shù)據(jù)先驗(yàn)

如上所述，DMD2本質(zhì)上是“學(xué)生生成—>教師指”，蒸餾過(guò)程不依賴真實(shí)數(shù)據(jù)，這種做法有優(yōu)有劣：

優(yōu)勢(shì)：大提升案普適（質(zhì)量真實(shí)數(shù)據(jù)難獲取）；局限：設(shè)定了上限——student永遠(yuǎn)學(xué)習(xí)teacher的生成分布，法越teacher。

同時(shí)由于loss設(shè)計(jì)的問(wèn)題，DMD2蒸餾在質(zhì)量細(xì)節(jié)紋理（如苔蘚、動(dòng)物毛發(fā)等）上生成的果，往往差強(qiáng)人意，如下圖所示。

△左圖為Z-Image 50步生成，右圖為Z-Image-Turbo 8步生成，在苔蘚細(xì)節(jié)紋理上DMD2不夠細(xì)膩

奧力斯 PVC管道管件粘結(jié)膠價(jià)格聯(lián)系人：王經(jīng)理手機(jī)：18231788377（微信同號(hào)）地址：河北省任丘市北辛莊鄉(xiāng)南代河工業(yè)區(qū)/p>

為了增強(qiáng)2步student model在細(xì)節(jié)上的表現(xiàn)能力，阿里智能引擎團(tuán)隊(duì)引入了對(duì)抗學(xué)習(xí)（GAN）來(lái)進(jìn)步提升監(jiān)督果。

GAN的Loss可以拆解為：

生成Loss（讓生成圖騙過(guò)判別器）：晉城泡沫板膠

判別Loss（區(qū)分真假圖）：

這里x_0是student生成的圖片，x_{real}是訓(xùn)練集中引入的真實(shí)數(shù)據(jù)，D(cdot)是判別器根據(jù)輸入樣本判斷其為真實(shí)數(shù)據(jù)的概率。

簡(jiǎn)單來(lái)說(shuō)，對(duì)抗訓(xùn)練面需要判別器盡可能判定student model生成的圖片為假，另面需要student model盡可能欺騙判別器。

為了提升對(duì)抗訓(xùn)練的穩(wěn)定和果，該團(tuán)隊(duì)做了如下改進(jìn)：

真實(shí)數(shù)據(jù)混策略：按固定比例混質(zhì)量真實(shí)數(shù)據(jù)和teacher生成圖，提升泛化度和訓(xùn)練穩(wěn)定；特征提取器引入：使用額外的DINO模型作為feature extractor，提供魯棒的特征表示；Loss權(quán)重調(diào)整：增加對(duì)抗訓(xùn)練在loss中的占比。

經(jīng)實(shí)驗(yàn)驗(yàn)證，增加對(duì)抗訓(xùn)練后，student model的畫(huà)面質(zhì)感和細(xì)節(jié)表現(xiàn)發(fā)生顯著提升：

△增加GAN顯著提升畫(huà)面真實(shí)和細(xì)節(jié)

從應(yīng)用果出發(fā)，細(xì)節(jié)決定成敗

少步數(shù)擴(kuò)散生成直是個(gè)重要的向。

然而，單法案受限于其本身的原理設(shè)計(jì)，往往不盡如人意。

阿里巴巴智能引擎團(tuán)隊(duì)正是從落地果出發(fā)，逐個(gè)發(fā)現(xiàn)并分析蒸餾帶來(lái)的果問(wèn)題（如扭曲、紋理確實(shí)），并針對(duì)解決，才能使得后的2步生成模型，終達(dá)到工業(yè)場(chǎng)景可落地的水準(zhǔn)。

然而，盡管在大多數(shù)場(chǎng)景下Wuli-Qwen-Image-Turbo能夠和原模型比肩；但在些復(fù)雜場(chǎng)景下，受限于去噪步數(shù)，仍存在可改進(jìn)空間。團(tuán)隊(duì)在后續(xù)的release中將會(huì)持續(xù)發(fā)布速度快、果好的生成模型。

接下來(lái)，他們將持續(xù)出，并迭代多擴(kuò)散加速技術(shù)，并開(kāi)源模型權(quán)重。

而以上這些突破的背后，離不開(kāi)他們長(zhǎng)期以來(lái)的厚積淀——

作為阿里AI工程系統(tǒng)的建設(shè)者與維護(hù)者，團(tuán)隊(duì)聚焦于大模型全鏈路工程能力建設(shè)，持續(xù)優(yōu)化研發(fā)范式，注大模型訓(xùn)能優(yōu)化、引擎平臺(tái)、Agent應(yīng)用平臺(tái)等關(guān)鍵組件，致力于為阿里集團(tuán)各業(yè)務(wù)提供穩(wěn)定的AI工程基礎(chǔ)設(shè)施。

智能引擎團(tuán)隊(duì)始終堅(jiān)持開(kāi)放共享的技術(shù)文化，此前已貢獻(xiàn)了包括Havenask、RTP-LLM、DiffSynth-Engine、XDL、Euler、ROLL等在內(nèi)的多項(xiàng)優(yōu)秀開(kāi)源項(xiàng)目。

未來(lái)，他們期待與開(kāi)源社區(qū)共同成長(zhǎng)，希望將的工程能力轉(zhuǎn)化為觸手可及的創(chuàng)作工具。

該團(tuán)隊(duì)所有技術(shù)后續(xù)都會(huì)同步在嗚哩AI平臺(tái)上線，論你是業(yè)設(shè)計(jì)師、內(nèi)容創(chuàng)作者，還是AI好者，嗚哩或許都能讓你的創(chuàng)意即刻成像。

點(diǎn)擊文末“閱讀原文”，可前往嗚哩官網(wǎng)體驗(yàn)！

參考文獻(xiàn)：

[1] Progressive Distillation for Fast Sampling of Diffusion Models

[2] Consistency Models

[3] LARGE SCALE DIFFUSION DISTILLATION VIA SCOREREGULARIZED CONTINUOUS-TIME CONSISTENCY

[4] Improved Distribution Matching Distillation for Fast Image Synthesis

[5] ABKD: Pursuing a Proper Allocation of the Probability Mass in Knowledge Distillation via α-β-Divergence

[6] Transition Matching Distillation for Fast Video Generation

[7] Phased Consistency Models

相關(guān)詞條:鋁皮保溫施工隔熱條設(shè)備鋼絞線玻璃棉卷氈保溫護(hù)角專用膠