免費谘詢熱線
13621929115機(jī)器之心報道編輯:陳萍、小舟來自穀歌和波士頓大學的研究者提出(chū)了一種「個性化」的文本到圖像擴散模型(xíng) DreamBooth,能夠適應用(yòng)戶特(tè)定的圖像生成需求近來,文本到圖(tú)像模型成(chéng)為一個熱門的研(yán)究(jiū)方(fāng)向,無論是自然景觀大片(piàn),還是(shì)新奇的場景圖(tú)像,都可能使用簡單的文本描述自動生成的。
其(qí)中,渲染天馬行空的的想象場景上海模型廠家是一項具有挑戰性的任務,需要在新(xīn)的場景中合成特定主題(物體、動物等)的實(shí)例,以便它們(men)自(zì)然無縫地融入場景一些大型文本到圖像模型基(jī)於用自然語言編寫的文本提示(prompt)實現了高質量(liàng)和多樣化(huà)的圖像合成(chéng)。
這些模型的主要優點(diǎn)是從大量的圖像 - 文本描述對(duì)中學(xué)到強大的語義(yì)先驗,例如將「dog」這個詞與可以在上海(hǎi)模型廠家(jiā)圖像中以不同(tóng)姿勢出現的各種狗的實例關聯(lián)在一(yī)起雖然這些模型的合成能力是前所未有的,但它們缺乏模仿(fǎng)給定參考主題的能力,以及在不同場景中合成主題相同、實例不同的(de)新圖像的(de)能力。
可見,已有模型(xíng)的輸出域的表達能力有限
為(wéi)了(le)解決這個問題(tí),來自穀歌(gē)和波士頓大學(xué)的研究者提(tí)出了一種「個性化」的文本到圖像擴散模(mó)型 Drea上海模型廠家mBooth,能夠適應用戶特定的圖(tú)像生成(chéng)需求。
論文地址:https://arxiv.org/pdf/2208.12242.pdf項目地址:https://github.com/XavierXiao/Dreambooth-Stable-Diffusion
該研究的目標是擴展模(mó)型的語言 - 視覺字典,使其(qí)上(shàng)海模型廠(chǎng)家將新詞匯與用戶想要生成的特定主題綁定一旦新字典嵌入到模型中,它(tā)就可以使用這些詞來合成特定主(zhǔ)題的新穎逼真(zhēn)的圖像,同時在不同的場景中進行情境化,保留關鍵識(shí)別特征,效果如下圖 1 所示。
具體來說,該研究將給定主題的圖像植入模型的(de)輸出域,以便可以使用唯一標識符對其進行合成為此(cǐ),該研究提出了一種用稀有 tok上海模型廠家(jiā)en 標識符表(biǎo)示給定主題的方法,並微調(diào)了一個預訓練的、基於擴散的文本到圖像框架,該框架分兩步運行;從文本生(shēng)成低分辨率圖像,然後應用超分辨率(SR)擴散模型。
首先(xiān)該研(yán)究使用包含唯一標識符(帶有主題類名,例如「A [V] dog」)的輸入(rù)圖像和文本提示微調低分辨率文本到圖像模型為了防止(zhǐ)模型將類名與特定實上海模型廠家例過擬合和語義漂移,該研究提(tí)出了一種自生的、特定於類的先驗(yàn)保存(preservation)損失,它利用嵌入模(mó)型中類(lèi)的先驗語義,鼓勵模型生成給定主題下同一類中的不同實例。
第二步,該研究使用輸入圖像的(de)低分(fèn)辨率和高分辨(biàn)率版(bǎn)本對超分辨率組件進行微(wēi)調這允許模型對場景主題中小而重要細節保持高保真度www.17C.com來看(kàn)一下(xià)該上海模型廠家研究提出的具體(tǐ)方法方法介紹給定(dìng) 3-5 張捕獲的圖像,這些圖像(xiàng)沒(méi)有文字描述,本文旨在生成具有高細節保真度和(hé)由文本提示引導變化的新圖像。
該研究不對輸入圖像施加任何限製,並且主題圖像可(kě)以具有不同的上下文方法(fǎ)如圖 3 所示輸出圖像可對(duì)原始(shǐ)圖像進行修改,如主(zhǔ)題的位置,更改主題的屬性如顏色、形狀,並可以修改主上海(hǎi)模(mó)型廠家體的姿勢、表情、材質以及其他語義修改。
更具體的說,本文方法將一個主題(例(lì)如,一隻特定的狗)和相應類(lèi)名(例如,狗類別)的(de)一些(xiē)圖像(通(tōng)常 3 - 5 張圖)作為輸入(rù),並返回一個經過微調(diào) / 個性化的(de)文本到圖像模型,該模型編碼了一個引用主題(tí)的唯一標識符。
然後,在推理時,可(kě)以在不同的句子中植入唯(wéi)一標識(shí)符來合上海模型(xíng)廠家成不同語境中的主題
該(gāi)研究(jiū)的第一個任務是將主(zhǔ)題實例植入到模型的輸(shū)出域,並將主題與唯一標識符綁定該(gāi)研究(jiū)提出了設計標識符的方(fāng)法,此外還設(shè)計(jì)了一種監督模型微調(diào)過程的新方法(fǎ)為了解決圖像過擬合以及語言漂移問題,該研究還提出了一種損失( Prior-Preservation Loss ),通過鼓勵擴散模型不斷生成上海模(mó)型廠家與主(zhǔ)題相同(tóng)的類的不同實例,從而減輕模型過擬合、語言漂移等問題。
為了保留圖像細節,該研究發(fā)現應該對模型(xíng)的超分辨率(SR)組件進行微調,本文在經過預訓(xùn)練的 Imagen 模型的基礎上來完成具體(tǐ)過程如圖 4 所示,給定同一主題的 3-5 張(zhāng)圖(tú)像,之後通過兩個步驟微調(diào)文本到圖像的擴散模型:。
稀(xī)有 token上海模型廠家 標(biāo)識(shí)符表示主題該研究將主題的所有輸(shū)入圖像(xiàng)標記為「a [identifier] [class noun]」,其中(zhōng) [identifier] 是鏈接到主題的唯一標識符,而(ér) [class noun] 是主題(tí)的粗略類別描述(shù)符 (例如貓、狗、手(shǒu)表(biǎo)等)。
該研究在句子中特別使(shǐ)用(yòng)了類描述符,以便將類的(de)先(xiān)驗與主題聯上海模型廠家係起(qǐ)來(lái)效果展示下麵是 Dreambooth 一個穩定(dìng)擴散的實現(參考項目鏈接)定性結果:訓練圖(tú)像來自「Textual Inversion」庫:
訓練(liàn)完成後,在「photo of a sks container」提示下,模型生成的集裝箱照片如下:
在提示中加(jiā)個位置「photo of a sks conta上(shàng)海模型廠家iner on the beach」,集(jí)裝箱出現在沙灘上;
綠色的集裝箱(xiāng)顏色太單一了,想加點紅色,輸入提示「photo of a red sks container」就(jiù)能搞定:
輸入提示「a dog on top of sks container」就能(néng)讓小狗坐在(zài)箱子裏(lǐ):
該研究還可以合成輸入圖像中沒有(yǒu)出現上海模型(xíng)廠家的(de)各種(zhǒng)表情,展示了模型(xíng)的外(wài)推能(néng)力:
想要了解更多細節(jiē),請參考原論文即將畢(bì)業,請回答!小紅書正在呼喚懂AI的你11月19日16:00 - 19:30 ,北京市海澱區成府路(lù)28號2層 PAGEONE(五道口(kǒu)店),小紅書REDtech青年技術沙龍,設置「報(bào)告+對談+青年學子晚餐交流會」等(děng)豐富板塊,誠邀高校頂上海模型廠家尖(jiān)畢業生(shēng)們(men)來現(xiàn)場與頂尖學者、小紅書技術團隊大神歡聚暢談!。
順便聊聊,在小紅書,你將如何高速成長?有行業競爭力的薪酬優先落戶等硬核福利專屬個人成長計劃豐富技(jì)術場景實踐機(jī)會全球頂尖(jiān)企業和高校實驗室深度交(jiāo)流(liú)通路……小(xiǎo)紅書攜豐(fēng)富資(zī)源,全麵助力高校(xiào)頂尖畢業生勇探技術高峰!
Copyright © 2002-2020 上海潤之模型(xíng)設計有限公司 版權所有 展(zhǎn)示模型,展品模型,展(zhǎn)廳模型,展示道具,展(zhǎn)廳展品,展品道具,模型定製,模型公司,上海模型公司 備案號:滬ICP備20018260號