免費谘詢熱線
13621929115機器之(zhī)心專欄
機器之心編輯部
如今的 AI 技術發展(zhǎn)堪(kān)稱「神奇」,文字、圖片竟(jìng)能一鍵直接生(shēng)成逼真(zhēn)音效,這(zhè)就是浙大、北大(dà)聯合火山(shān)語音推出(chū)的新模型 Make-An-Audio。
近期 AIGC 如同上了熱搜一般展示道具,火熱程度居高不下(xià),當然除了名(míng)頭格外響亮,突破也是絕對斐然:輸入自然語言就可自動生成(chéng)圖像(xiàng)、視(shì)頻甚至是 3D 模型,你說意不意外?
但在音頻音效的領域,AIGC 的福(fú)利似乎還差了一(yī)些。主要由(yóu)於(yú)高自由度音頻展示道具生成需要依靠大(dà)量文本 - 音頻對數據,同(tóng)時長時波形建模還有諸多困難。為了(le)解(jiě)決(jué)上述困難,浙江大(dà)學與北京(jīng)大學聯合火(huǒ)山語音,共同提(tí)出了一款創新的、文本到音頻的生成係統,即 Make-An-Audio。其可以展示道具(jù)將自然語言描述作為輸入,而且是任意(yì)模態(例如(rú)文本、音頻(pín)、圖像(xiàng)、視頻等)均可,同時輸出符合描述的音頻音效,廣大網友很(hěn)難不為其(qí)可控(kòng)性以及泛化性點讚。
論文鏈接:https://arxiv.org/abs/2展示道具301.12661
項目鏈接(jiē):https://text-to-audio.github.io
短短兩天,Demo 視頻在 Twitter 上獲(huò)得了 45K 的播放量。
圖 1:研究團隊公布的演示(shì)視頻
2023展示道具 年(nián)除夕後,以 Make-An-Audio、 MusicLM 等大量音(yīn)頻(pín)合成文章(zhāng)湧現,48 小時(shí)內已經有 4 篇突破性的進展。
圖 2:網友評論 1
廣大網(wǎng)友(yǒu)們紛紛表(biǎo)示,AIGC 音效合(hé)成將(jiāng)會改(gǎi)變電影、短(duǎn)展示道具視頻製作(zuò)的未來。
圖 3:網友(yǒu)評論 2
圖 4:網友(yǒu)評論 3
更有網友發出這樣的感歎:「audio is all you need ……」
圖 5:網友評論 4
聽覺效果展示
話不多說直接看效果,根據文本生成音效展示道具原來也可以如此便捷順(shùn)暢(chàng)。
文本 1:a speedboat running as wind blows into a microphones
文本 2:fireworks pop and explode
是不展示道具是也一度因破損音頻(pín)修複而大傷腦筋?Make-An-Audio 模型一(yī)出,這事兒就變得簡單多了。
修(xiū)複前
修複前音頻
修複後
修複後音頻
通過理解圖片生成(chéng)音效,也不是不可以。
圖片(piàn) 1
轉化音頻
圖片 2
轉化音頻
根據視展示道具頻內(nèi)容生成對應(yīng)音效(xiào),這款模型也可以輕鬆(sōng)做到。
視頻(pín) 1
轉化音頻
視頻 2
轉化音頻
模(mó)型內在技術(shù)原理
深度解析「網紅」模型的(de)神奇內在,還要回到音頻 - 自然語言對(duì)數據稀少(shǎo)的客觀問題上,對此浙大北大聯合火山語音(yīn)團展示道具隊協同兩大高校共同提出了Distill-then-Reprogram 文本增強策略(luè),即使用教師模型獲得音頻的自然(rán)語言描述,再通過隨機重組(zǔ)獲得具有動態性的訓練樣本。
具體來說,在 Distill 環節中,展示道具使用音頻轉文本與音頻 - 文本檢索模型(xíng),找到語言缺失 ( Language-Free ) 音頻的自然(rán)語言描述候選 ( Candidate ) ,通(tōng)過計算候選文本與音頻(pín)的匹配相似度,在閾值下取得最佳(jiā)結果展示道(dào)具作為音頻的描述。該方法具有強泛化性,且真實(shí)自然語言避免了測試階段的域外文本。「在(zài) Reprogram 環節中,團隊從額外的事件數據集中隨機采樣,並與當前訓(xùn)練樣(yàng)本相結合,得到全新的概念組合與描述,以擴增展示(shì)道具模型對不同事件(jiàn)組合(hé)的魯棒性。」 研究團隊表(biǎo)示。
圖 6:Distill-then-Reprogram 文本增強策略框架圖
如上圖所示,自監督學習已經(jīng)成功將圖片(piàn)遷移到音頻頻譜,利用了頻譜自編碼器以解決長音展示道具頻序列問題(tí),並基(jī)於(yú) Latent Diffusion 生成模型完成對自監(jiān)督表(biǎo)征的預測,避免(miǎn)了直接預測長時波形。
圖 7:Make-An-Audio 模型係統框架(jià)圖
此外(wài)在(zài)研究中團隊還探索了強大的文本條件策展示道(dào)具略,包括對比式 Contrastive Language-Audio Pretraining ( CLAP ) 以及語言模型 ( LLM ) T5, BERT 等,驗證了 CLAP 文本表(biǎo)征的有效與計(jì)展示道具算友好性。同時還首次使用 CLAP Score 來(lái)評(píng)估生成(chéng)的(de)音頻,可以用於衡(héng)量文本和生(shēng)成場景之間的一(yī)致性;使用(yòng)主、客觀相結合的評估方式,在 benchmark 數據集測試中驗證(zhèng)了模(mó)型的有效(xiào)性,展示了模展示(shì)道具型出色的零樣(yàng)本學習 ( Zero-Shot ) 泛化性等。
圖 8:Make-An-Audio 與基(jī)線模型主客觀評測實驗結果
神奇模(mó)型的(de)應用前景知多少?
總體來看(kàn),Make-An-Audio 模型實現了高質展示道具量、高可控性的音頻合成(chéng),並提出(chū)了「No Modality Left Behind」,對(duì)文本(běn)條件音頻模型進行微調 ( finetune ) ,即能解鎖對任意模態輸入的音頻合成 ( audio/image展示(shì)道具/video ) 。
圖 9:Make-An-Audio 首次實現高可控 X - 音頻的 AIGC 合成,X 可以是(shì)文本 / 音頻 / 圖像 / 視頻
在視覺指導的音頻合成上,Make-An-Audio 展示道具以 CLIP 文本編碼器為條件,利用其圖(tú)像(xiàng) - 文本聯合空間,能夠(gòu)直(zhí)接以圖像編碼為條件合成音頻。
圖 10:Make-An-Audio 視覺 - 音頻(pín)合成(chéng)框架(jià)圖
可(kě)以預見的是,音頻(pín)合成 AIGC 將會在未展示道具來電影配音、短視頻創作等領域發揮重要作用,而借助 Make-An-Audio 等模型,或許(xǔ)在未(wèi)來人人都有可能成為專業的音效師,都(dōu)可以憑(píng)借文字(zì)、視頻、圖像在任意時間、任意地點,合成出栩栩如生的(de)音頻、音(yīn)效展示道具。但現階段 Make-An-Audio 也並不是完(wán)美無缺(quē)的,可能由於豐富的數(shù)據來源以及不可避免的樣本質量問題,訓(xùn)練過程中難免會產生副作用(yòng),例如生成不符合文字內容的音頻,Make-An-Audio 在技展示道具(jù)術上(shàng)被定(dìng)位(wèi)是 " 輔助藝術家生成 ",可以肯定的一點,AIGC 領域的進(jìn)展確實令人驚喜。
火山語音,長期以來麵(miàn)向字節跳動各大業務線提供全球優勢的 AI 語(yǔ)音技術能力以及全棧語音產(chǎn)品解決方案,包括音頻理解展示道具、音頻合成、虛擬數字人、對話交互、音樂檢索、智能硬件等。自 2017 年成立以來,團隊專注研發行業(yè)領先(xiān)的 AI 智能(néng)語音技術,不斷探(tàn)索 AI 與業務場景的高效結合,以實現更大的用戶價值。目前(qián)其語音識(shí)別展示道具和語音合成已經覆(fù)蓋(gài)了多種語(yǔ)言和方言(yán),多篇技術論文入選各類 AI 頂級會議,為抖音、剪映、飛書、番(fān)茄小(xiǎo)說、Pico 等業(yè)務提供了領先的語音能力,並(bìng)適用於(yú)短視頻、直播、視頻(pín)創作、辦公以及穿戴設(shè)備等多樣化場展示道具景,通過火(huǒ)山引擎開放給外部企業。
© THE END
投稿(gǎo)或尋(xún)求報道:content@jiqizhixin.com
Copyright © 2002-2020 上海潤之模型設計有限公(gōng)司 版權所有 展示模型,展品模型,展廳模型,展示道(dào)具,展廳展品,展品道具,模型(xíng)定製,模型公司,上海模(mó)型(xíng)公司 備(bèi)案(àn)號:滬(hù)ICP備20018260號