新聞動態

免費谘詢熱線

13621929115

公司新聞

牆裂推薦（音頻轉文（wén）字在線網站轉換）音頻在線轉換轉文（wén）字，這段音頻火爆外網！文字、圖片一鍵生成逼真音效，音頻界AIGC來了，

發（fā）布日期：2023-02-16 17:38瀏覽次數：

機器之（zhī）心專欄

機器之心編輯部

如今的 AI 技術發展（zhǎn）堪（kān）稱「神奇」，文字、圖片竟（jìng）能一鍵直接生（shēng）成逼真（zhēn）音效，這（zhè）就是浙大、北大（dà）聯合火山（shān）語音推出（chū）的新模型 Make-An-Audio。

近期 AIGC 如同上了熱搜一般展示道具，火熱程度居高不下（xià），當然除了名（míng）頭格外響亮，突破也是絕對斐然：輸入自然語言就可自動生成（chéng）圖像（xiàng）、視（shì）頻甚至是 3D 模型，你說意不意外？

但在音頻音效的領域，AIGC 的福（fú）利似乎還差了一（yī）些。主要由（yóu）於（yú）高自由度音頻展示道具生成需要依靠大（dà）量文本 - 音頻對數據，同（tóng）時長時波形建模還有諸多困難。為了（le）解（jiě）決（jué）上述困難，浙江大（dà）學與北京（jīng）大學聯合火（huǒ）山語音，共同提（tí）出了一款創新的、文本到音頻的生成係統，即 Make-An-Audio。其可以展示道具（jù）將自然語言描述作為輸入，而且是任意（yì）模態（例如（rú）文本、音頻（pín）、圖像（xiàng）、視頻等）均可，同時輸出符合描述的音頻音效，廣大網友很（hěn）難不為其（qí）可控（kòng）性以及泛化性點讚。

論文鏈接：https://arxiv.org/abs/2展示道具301.12661

項目鏈接（jiē）：https://text-to-audio.github.io

短短兩天，Demo 視頻在 Twitter 上獲（huò）得了 45K 的播放量。

圖 1：研究團隊公布的演示（shì）視頻

2023展示道具年（nián）除夕後，以 Make-An-Audio、 MusicLM 等大量音（yīn）頻（pín）合成文章（zhāng）湧現，48 小時（shí）內已經有 4 篇突破性的進展。

圖 2：網友評論 1

廣大網（wǎng）友（yǒu）們紛紛表（biǎo）示，AIGC 音效合（hé）成將（jiāng）會改（gǎi）變電影、短（duǎn）展示道具視頻製作（zuò）的未來。

圖 3：網友（yǒu）評論 2

圖 4：網友（yǒu）評論 3

更有網友發出這樣的感歎：「audio is all you need ……」

圖 5：網友評論 4

聽覺效果展示

話不多說直接看效果，根據文本生成音效展示道具原來也可以如此便捷順（shùn）暢（chàng）。

文本 1：a speedboat running as wind blows into a microphones

文本 2：fireworks pop and explode

是不展示道具是也一度因破損音頻（pín）修複而大傷腦筋？Make-An-Audio 模型一（yī）出，這事兒就變得簡單多了。

修（xiū）複前

修複前音頻

修複後

修複後音頻

通過理解圖片生成（chéng）音效，也不是不可以。

圖片（piàn） 1

轉化音頻

圖片 2

轉化音頻

根據視展示道具頻內（nèi）容生成對應（yīng）音效（xiào），這款模型也可以輕鬆（sōng）做到。

視頻（pín） 1

轉化音頻

視頻 2

轉化音頻

模（mó）型內在技術（shù）原理

深度解析「網紅」模型的（de）神奇內在，還要回到音頻 - 自然語言對（duì）數據稀少（shǎo）的客觀問題上，對此浙大北大聯合火山語音（yīn）團展示道具隊協同兩大高校共同提出了Distill-then-Reprogram 文本增強策略（luè），即使用教師模型獲得音頻的自然（rán）語言描述，再通過隨機重組（zǔ）獲得具有動態性的訓練樣本。

具體來說，在 Distill 環節中，展示道具使用音頻轉文本與音頻 - 文本檢索模型（xíng），找到語言缺失 ( Language-Free ) 音頻的自然（rán）語言描述候選 ( Candidate ) ，通（tōng）過計算候選文本與音頻（pín）的匹配相似度，在閾值下取得最佳（jiā）結果展示道（dào）具作為音頻的描述。該方法具有強泛化性，且真實（shí）自然語言避免了測試階段的域外文本。「在（zài） Reprogram 環節中，團隊從額外的事件數據集中隨機采樣，並與當前訓（xùn）練樣（yàng）本相結合，得到全新的概念組合與描述，以擴增展示（shì）道具模型對不同事件（jiàn）組合（hé）的魯棒性。」研究團隊表（biǎo）示。

圖 6：Distill-then-Reprogram 文本增強策略框架圖

如上圖所示，自監督學習已經（jīng）成功將圖片（piàn）遷移到音頻頻譜，利用了頻譜自編碼器以解決長音展示道具頻序列問題（tí），並基（jī）於（yú） Latent Diffusion 生成模型完成對自監（jiān）督表（biǎo）征的預測，避免（miǎn）了直接預測長時波形。

圖 7：Make-An-Audio 模型係統框架（jià）圖

此外（wài）在（zài）研究中團隊還探索了強大的文本條件策展示道（dào）具略，包括對比式 Contrastive Language-Audio Pretraining ( CLAP ) 以及語言模型 ( LLM ) T5， BERT 等，驗證了 CLAP 文本表（biǎo）征的有效與計（jì）展示道具算友好性。同時還首次使用 CLAP Score 來（lái）評（píng）估生成（chéng）的（de）音頻，可以用於衡（héng）量文本和生（shēng）成場景之間的一（yī）致性；使用（yòng）主、客觀相結合的評估方式，在 benchmark 數據集測試中驗證（zhèng）了模（mó）型的有效（xiào）性，展示了模展示（shì）道具型出色的零樣（yàng）本學習 ( Zero-Shot ) 泛化性等。

圖 8：Make-An-Audio 與基（jī）線模型主客觀評測實驗結果

神奇模（mó）型的（de）應用前景知多少？

總體來看（kàn），Make-An-Audio 模型實現了高質展示道具量、高可控性的音頻合成（chéng），並提出（chū）了「No Modality Left Behind」，對（duì）文本（běn）條件音頻模型進行微調 ( finetune ) ，即能解鎖對任意模態輸入的音頻合成 ( audio/image展示（shì）道具/video ) 。

圖 9：Make-An-Audio 首次實現高可控 X - 音頻的 AIGC 合成，X 可以是（shì）文本 / 音頻 / 圖像 / 視頻

在視覺指導的音頻合成上，Make-An-Audio 展示道具以 CLIP 文本編碼器為條件，利用其圖（tú）像（xiàng） - 文本聯合空間，能夠（gòu）直（zhí）接以圖像編碼為條件合成音頻。

圖 10：Make-An-Audio 視覺 - 音頻（pín）合成（chéng）框架（jià）圖

可（kě）以預見的是，音頻（pín）合成 AIGC 將會在未展示道具來電影配音、短視頻創作等領域發揮重要作用，而借助 Make-An-Audio 等模型，或許（xǔ）在未（wèi）來人人都有可能成為專業的音效師，都（dōu）可以憑（píng）借文字（zì）、視頻、圖像在任意時間、任意地點，合成出栩栩如生的（de）音頻、音（yīn）效展示道具。但現階段 Make-An-Audio 也並不是完（wán）美無缺（quē）的，可能由於豐富的數（shù）據來源以及不可避免的樣本質量問題，訓（xùn）練過程中難免會產生副作用（yòng），例如生成不符合文字內容的音頻，Make-An-Audio 在技展示道具（jù）術上（shàng）被定（dìng）位（wèi）是 " 輔助藝術家生成 "，可以肯定的一點，AIGC 領域的進（jìn）展確實令人驚喜。

火山語音，長期以來麵（miàn）向字節跳動各大業務線提供全球優勢的 AI 語（yǔ）音技術能力以及全棧語音產（chǎn）品解決方案，包括音頻理解展示道具、音頻合成、虛擬數字人、對話交互、音樂檢索、智能硬件等。自 2017 年成立以來，團隊專注研發行業（yè）領先（xiān）的 AI 智能（néng）語音技術，不斷探（tàn）索 AI 與業務場景的高效結合，以實現更大的用戶價值。目前（qián）其語音識（shí）別展示道具和語音合成已經覆（fù）蓋（gài）了多種語（yǔ）言和方言（yán），多篇技術論文入選各類 AI 頂級會議，為抖音、剪映、飛書、番（fān）茄小（xiǎo）說、Pico 等業（yè）務提供了領先的語音能力，並（bìng）適用於（yú）短視頻、直播、視頻（pín）創作、辦公以及穿戴設（shè）備等多樣化場展示道具景，通過火（huǒ）山引擎開放給外部企業。

投稿（gǎo）或尋（xún）求報道：content@jiqizhixin.com

標簽：

上一篇：這都可以？（網頁的呈現方式）怎麽打開網頁的preview，網頁輕（qīng）鬆展（zhǎn）示CV、NLP模型，連你老（lǎo）爸都會操（cāo）作 | 斯坦福出品，

下一篇：難以置信（xìn）（製作航天模型）1一6年級科（kē）技小製作，展示各時代明星機型，航空航天模型展讓愛好者逐夢藍天，

新聞動態

公司新聞

牆裂推薦（音頻轉文（wén）字在線網站轉換）音頻在線轉換轉文（wén）字，這段音頻火爆外網！文字、圖片一鍵生成逼真音效，音頻界AIGC來了，

產品推薦

微信號：微信二維碼