
允中 發(fā)自 凹非寺晉城泡沫板膠
量子位 | 公眾號(hào) QbitAI
AI生成張圖片,你愿意等多久?
在主流擴(kuò)散模型還在迭代中反復(fù)“磨嘰”、讓用戶盯著進(jìn)度條發(fā)呆時(shí),阿里智能引擎團(tuán)隊(duì)直接把進(jìn)度條“拉爆”了——
5秒鐘,到手4張2K清大圖。
針對(duì)Qwen新開(kāi)源模型,將SOTA壓縮水平從80-100步前向計(jì),驟降至2步(Step),速度提升整整40倍。
這意味著,此前像Qwen-Image這樣需要近分鐘才能吐出來(lái)的張圖片,現(xiàn)在真的成了“眨眼之間”。
目前,團(tuán)隊(duì)已將相應(yīng)的Checkpoint發(fā)布至HuggingFace和ModelScope平臺(tái),歡迎開(kāi)發(fā)者下載體驗(yàn):
HuggingFace:https://huggingface.co/Wuli-art/Qwen-Image-2512-Turbo-LoRA-2-StepsModelScope:https://www.modelscope.cn/models/Wuli-Art/Qwen-Image-2512-Turbo-LoRA-2-Steps同時(shí),該模型已經(jīng)集成到嗚哩AI平臺(tái)上(https://www.wuli.art)支持調(diào)用。
上述這種近乎“物理外掛”般的蒸餾案,究竟是怎么做到的?起來(lái)看。
傳統(tǒng)軌跡蒸餾的“細(xì)節(jié)困境”早期的蒸餾案[1,2],往往可以被歸納為軌跡蒸餾(Trajectory Distillation)。
具體來(lái)看,其本身主要思想是希望蒸餾后模型(student model)能夠模仿原模型(teacher model)在多步生成的路徑:
Progressive Distillation:student model需要直接對(duì)齊teacher model多次迭代后的輸出;Consistency Distillation:student model需要保證在teacher model的去噪軌跡上,輸出相同的結(jié)果。但在實(shí)踐中,這類法很難在低迭代步數(shù)下實(shí)現(xiàn)質(zhì)量生成。突出的問(wèn)題是生成圖像模糊晉城泡沫板膠,這現(xiàn)象在近期研究[3]中也得到了驗(yàn)證:
問(wèn)題根源在于約束式:軌跡蒸餾直接對(duì)student model的生成樣本x_{student}做約束,使其在特定距離度量下對(duì)齊teacher預(yù)測(cè)出的質(zhì)量輸出x_{teacher},具體可以表達(dá)為:
其中$f(cdot)$是特定的距離函數(shù),x_{teacher}是teacher經(jīng)過(guò)多次去噪以后得到的輸出。
可以看出,這Loss對(duì)所有圖像patch視同仁,對(duì)于些特別細(xì)節(jié)的部分(如文字、人物五官)因占比低而學(xué)習(xí)不充分,student模型的細(xì)節(jié)常出現(xiàn)明顯扭曲。
從樣本空間到概率空間,直接降低缺陷樣本生成概率近期,基于概率空間的蒸餾案,在較少步數(shù)場(chǎng)景(4~8步)獲得了巨大的成功,基本解決了上述的細(xì)節(jié)丟失問(wèn)題。
其中有影響力的工作之是DMD2法,這里具體的法案可以參考原論文[4]。
DMD2將約束從樣本空間轉(zhuǎn)換到了概率空間,其Loss設(shè)計(jì)為:
這是典型的Reverse-KL的蒸餾Loss,其本身有個(gè)顯著的特:
當(dāng)p_{teacher}(x_0)to 0,如果p_{student}(x_0) > 0,那就會(huì)有Loss to +infty。
這意味著:對(duì)于student model生成的每張圖片,如果它不符真實(shí)圖片分布(p_{teacher}(x_0)to 0),就會(huì)致Loss爆炸。
因此,DMD2這類法的本質(zhì)思想是——不直接告訴student“應(yīng)該模仿什么”,而是讓student自己生成圖片晉城泡沫板膠,然后讓teacher model指“哪里不對(duì)”。
這種Reverse-KL Loss的設(shè)計(jì),可以顯著提升生成圖片的細(xì)節(jié)和理,已經(jīng)成為當(dāng)下擴(kuò)散步數(shù)蒸餾的主要策略。
熱啟動(dòng)緩解分布退化盡管Reverse-KL可以顯著降低不理樣本的生成概率,其本身也存在著嚴(yán)重的mode-collapse和分布過(guò)于銳化的問(wèn)題[5]。
具體表現(xiàn)在多樣降低,飽和度增加,形體增加等問(wèn)題上。這些問(wèn)題在2步蒸餾的設(shè)定下變得尤為突出。
為了緩解分布退化問(wèn)題,常見(jiàn)做法是給模型個(gè)理的初始化[6]。在這里該團(tuán)隊(duì)使用PCM[7]蒸餾進(jìn)行模型熱啟動(dòng)。
實(shí)驗(yàn)表明,熱啟動(dòng)后的模型的形體扭曲問(wèn)題得到明顯。
△左圖為直接dmd訓(xùn)練,右圖為經(jīng)過(guò)PCM熱啟動(dòng)后的2步模型,PVC管道管件粘結(jié)膠好的初始化可以降低不理構(gòu)圖
對(duì)抗學(xué)習(xí)引入真實(shí)數(shù)據(jù)先驗(yàn)如上所述,DMD2本質(zhì)上是“學(xué)生生成—>教師指”,蒸餾過(guò)程不依賴真實(shí)數(shù)據(jù),這種做法有優(yōu)有劣:
優(yōu)勢(shì):大提升案普適(質(zhì)量真實(shí)數(shù)據(jù)難獲取);局限:設(shè)定了上限——student永遠(yuǎn)學(xué)習(xí)teacher的生成分布,法越teacher。同時(shí)由于loss設(shè)計(jì)的問(wèn)題,DMD2蒸餾在質(zhì)量細(xì)節(jié)紋理(如苔蘚、動(dòng)物毛發(fā)等)上生成的果,往往差強(qiáng)人意,如下圖所示。
△左圖為Z-Image 50步生成,右圖為Z-Image-Turbo 8步生成,在苔蘚細(xì)節(jié)紋理上DMD2不夠細(xì)膩
奧力斯 PVC管道管件粘結(jié)膠價(jià)格 聯(lián)系人:王經(jīng)理 手機(jī):18231788377(微信同號(hào)) 地址:河北省任丘市北辛莊鄉(xiāng)南代河工業(yè)區(qū)/p>
為了增強(qiáng)2步student model在細(xì)節(jié)上的表現(xiàn)能力,阿里智能引擎團(tuán)隊(duì)引入了對(duì)抗學(xué)習(xí)(GAN)來(lái)進(jìn)步提升監(jiān)督果。
GAN的Loss可以拆解為:
生成Loss(讓生成圖騙過(guò)判別器):晉城泡沫板膠
判別Loss(區(qū)分真假圖):
這里x_0是student生成的圖片,x_{real}是訓(xùn)練集中引入的真實(shí)數(shù)據(jù),D(cdot)是判別器根據(jù)輸入樣本判斷其為真實(shí)數(shù)據(jù)的概率。
簡(jiǎn)單來(lái)說(shuō),對(duì)抗訓(xùn)練面需要判別器盡可能判定student model生成的圖片為假,另面需要student model盡可能欺騙判別器。
為了提升對(duì)抗訓(xùn)練的穩(wěn)定和果,該團(tuán)隊(duì)做了如下改進(jìn):
真實(shí)數(shù)據(jù)混策略:按固定比例混質(zhì)量真實(shí)數(shù)據(jù)和teacher生成圖,提升泛化度和訓(xùn)練穩(wěn)定;特征提取器引入:使用額外的DINO模型作為feature extractor,提供魯棒的特征表示;Loss權(quán)重調(diào)整:增加對(duì)抗訓(xùn)練在loss中的占比。經(jīng)實(shí)驗(yàn)驗(yàn)證,增加對(duì)抗訓(xùn)練后,student model的畫(huà)面質(zhì)感和細(xì)節(jié)表現(xiàn)發(fā)生顯著提升:
△增加GAN顯著提升畫(huà)面真實(shí)和細(xì)節(jié)
從應(yīng)用果出發(fā),細(xì)節(jié)決定成敗少步數(shù)擴(kuò)散生成直是個(gè)重要的向。
然而,單法案受限于其本身的原理設(shè)計(jì),往往不盡如人意。
阿里巴巴智能引擎團(tuán)隊(duì)正是從落地果出發(fā),逐個(gè)發(fā)現(xiàn)并分析蒸餾帶來(lái)的果問(wèn)題(如扭曲、紋理確實(shí)),并針對(duì)解決,才能使得后的2步生成模型,終達(dá)到工業(yè)場(chǎng)景可落地的水準(zhǔn)。
然而,盡管在大多數(shù)場(chǎng)景下Wuli-Qwen-Image-Turbo能夠和原模型比肩;但在些復(fù)雜場(chǎng)景下,受限于去噪步數(shù),仍存在可改進(jìn)空間。團(tuán)隊(duì)在后續(xù)的release中將會(huì)持續(xù)發(fā)布速度快、果好的生成模型。
接下來(lái),他們將持續(xù)出,并迭代多擴(kuò)散加速技術(shù),并開(kāi)源模型權(quán)重。
而以上這些突破的背后,離不開(kāi)他們長(zhǎng)期以來(lái)的厚積淀——
作為阿里AI工程系統(tǒng)的建設(shè)者與維護(hù)者,團(tuán)隊(duì)聚焦于大模型全鏈路工程能力建設(shè),持續(xù)優(yōu)化研發(fā)范式,注大模型訓(xùn)能優(yōu)化、引擎平臺(tái)、Agent應(yīng)用平臺(tái)等關(guān)鍵組件,致力于為阿里集團(tuán)各業(yè)務(wù)提供穩(wěn)定的AI工程基礎(chǔ)設(shè)施。
智能引擎團(tuán)隊(duì)始終堅(jiān)持開(kāi)放共享的技術(shù)文化,此前已貢獻(xiàn)了包括Havenask、RTP-LLM、DiffSynth-Engine、XDL、Euler、ROLL等在內(nèi)的多項(xiàng)優(yōu)秀開(kāi)源項(xiàng)目。
未來(lái),他們期待與開(kāi)源社區(qū)共同成長(zhǎng),希望將的工程能力轉(zhuǎn)化為觸手可及的創(chuàng)作工具。
該團(tuán)隊(duì)所有技術(shù)后續(xù)都會(huì)同步在嗚哩AI平臺(tái)上線,論你是業(yè)設(shè)計(jì)師、內(nèi)容創(chuàng)作者,還是AI好者,嗚哩或許都能讓你的創(chuàng)意即刻成像。
點(diǎn)擊文末“閱讀原文”,可前往嗚哩官網(wǎng)體驗(yàn)!
參考文獻(xiàn):
[1] Progressive Distillation for Fast Sampling of Diffusion Models[2] Consistency Models[3] LARGE SCALE DIFFUSION DISTILLATION VIA SCOREREGULARIZED CONTINUOUS-TIME CONSISTENCY[4] Improved Distribution Matching Distillation for Fast Image Synthesis[5] ABKD: Pursuing a Proper Allocation of the Probability Mass in Knowledge Distillation via α-β-Divergence[6] Transition Matching Distillation for Fast Video Generation[7] Phased Consistency Models相關(guān)詞條:鋁皮保溫施工 隔熱條設(shè)備 鋼絞線 玻璃棉卷氈 保溫護(hù)角專用膠
來(lái)賓護(hù)角膠 半體清洗工段廢氣處理工藝,
西安橡塑專用膠 德天空:拜仁計(jì)劃與卡爾延
白銀保溫護(hù)角專用膠 江西應(yīng)用技術(shù)職業(yè)學(xué)院
儋州萬(wàn)能膠生產(chǎn)廠家 哈登應(yīng)!騎士官曬圖:
牡丹江防火門(mén)膠 42死逾300傷! 屢勸
欽州萬(wàn)能膠 德章泰·穆雷:在恢復(fù)過(guò)程中鵜
玉溪萬(wàn)能膠 青海35口人開(kāi)旅游大巴赴云南
阜新pvc管道管件膠 天得|鋰電廢氣全場(chǎng)
來(lái)賓泡沫板膠 國(guó)版權(quán)局等四部門(mén)啟動(dòng)202