新（xīn）聞動態

免費谘詢熱（rè）線

13621929115

常見問題

仿真模型

發布日期：2023-04-04 22:00瀏覽次數：

智源導讀：自2012年至今（jīn），計（jì）算機視覺領域蓬勃發展（zhǎn），各種模型不斷湧現，短短 8 年（nián）時間，計算機視覺（jiào）領域便發生了天翻（fān）地覆的變化（huà）那（nà）麽如何看待過往（wǎng）變化，當下（xià）研究又如何？12月（yuè）10日晚，在【青源Talk】第 3 期。

上，清華大學助理教授，智源青（qīng）年科學家黃高將計算機視覺中的深度神經網絡結構設（shè）計（jì）從2012年至今仿真模型的發展，劃分為三（sān）個階段，並分析了（le）各（gè）個階（jiē）段（duàn）的特點：-> 2012-2015，為快速發展期；-> 2015-2017，為成熟（shú）期；

-> 2017-至今，為繁榮期在此之（zhī）後，黃高重點講解了當下 CV 深度模型設計領域的兩大研究方向，NAS 和動態網絡，特（tè）別是後者聽其報告，www.17C.com能夠感受到黃高的工作優美、簡單且自（zì）仿真模（mó）型然在演講之後的交流中，黃高向與會的學（xué）生們強調了一條科研經驗：。

研究需要韌性本文根據演講內容整理（lǐ），供讀者參考報告（gào）視頻及PPT下載地址：https://hub.baai.ac.cn/view/4937整理：賈偉、周寅（yín）張皓校對：廖璐黃高 · 簡介黃（huáng）高是清華大學自（zì）動化（huà）係助（zhù）理（lǐ）教授，博士生導師。

2015年獲（huò）清華仿真模型大學博士學位，2015年至2018年在美（měi）國康奈爾大學計算機係從（cóng）事博士後科研工作主要研究領域（yù）為深度學（xué）習和計算機視覺，提出了主流卷積網絡模型DenseNet目（mù）前在NeurIPS，ICML，CVPR等國際頂級會（huì）議及（jí）IEEE多個（gè）匯刊共計發表學術論（lùn）文50餘篇，被引（yǐn）用18000餘次。

獲CVPR最佳論文獎、達摩（mó）院仿真模型青橙獎、世界人工智能（néng）大會SAIL先鋒獎、中國自動化學會（huì）優秀博士學位論文、全國百篇最（zuì）具影（yǐng）響國（guó）際學術論文、中國人工智能學會自然（rán）科學一等獎和吳文俊優秀青年獎等榮譽，入選智源青年學者計劃。

智源社區（qū），讚 39 01視覺模型的（de）發展

在過去一些年裏，計算機視覺（jiào）領域湧現出許多經典的深度學習的網絡架構這說明網絡（luò）的架構（gòu）仿真模型在深度學習（計算機視覺）中尤為重要原因是什麽？黃高認為（wéi）網絡架構的重要性（xìng）體現在四（sì）個方（fāng）麵，分別為：表達能力、優化特性、泛化性能和計算/存儲效率。

表達能力：不同網絡結（jié）構，其（qí）表達能力顯然不同舉例來說，線性模型，無論多深，仍然隻是線性模型，其表達能（néng）力有限（xiàn）優化性能：ResNet出現之前，所謂的“深度網絡”並不很仿（fǎng）真模型深，當時最深的GoogleNet、Inception等也僅 20 多層（céng）。

這並非當（dāng）時硬件不足，主要原因是（shì）梯度（dù）反傳（chuán）過程會出現（xiàn）梯度消失問題ResNet以及後續的（de）DenseNet通過結構上的改進，可以很好地改（gǎi）善這（zhè）種問題泛化性能：從本質上來說，神經網絡是一個函數，訓練網（wǎng）絡（luò）即是擬合網絡的結構定義了函數的特性，同仿真模型（xíng）時也（yě）關係到它的泛化能力。

計（jì）算/存儲（chǔ）效率：當達到同樣精度時，有的模型需要很大，有的模型卻（què）比較（jiào）小；有的模型消耗（hào）計算資源很高，有的模型卻相對要小得多02神經網絡結構三個階段從2012年至今，計算（suàn）機視覺（jiào）領域的（de）深度學習網絡模型經曆了天翻地覆的變化。

如何看待這些變化？黃（huáng）高將這（zhè） 8 年（nián）多的黃金時期劃分為三個階段，仿真模型分別為：2012-2015，快速發展期；2015-2017，成熟期；2017-至今，繁榮期。如下圖所示：

2012-2015的快速發展期：2012年，AlexNet在ImageNet比賽中一舉挑戰（zhàn）各種傳統模型，讓大家意識到深度學習在視覺任（rèn）務中的（de）潛力，從而掀起了一股研究熱潮（cháo）隨後（hòu）不斷湧現（xiàn）的（de）很多深度模型都是（shì）仿真模型圍繞（rào）ImageNet進行設計，包括後來的VGG、GoogleNet等。

這一（yī）階段發展非常快速，每種模型都是從各自的角度對優（yōu）化特性、泛化能力等進行改進2015-2017的成熟期：這一階段（duàn）的（de）標誌性（xìng）事件是ResNet的提出ResNet的跳（tiào）層連接思想給大家（jiā）帶來了極大的啟發（fā），讓模型設計有了一個明確的概念指引，於仿真模型是迅速出現了諸如DenseNet，ResNeXt等（děng）知名模（mó）型。

這個階段，研（yán）究者逐漸（jiàn）認（rèn）識到，模型設計（jì）並不需要過多的技巧和變化，存在一些簡單而基本（běn）的設計原則可以依（yī）據2017年至今的繁榮期：17年之後，深度學習在工業界的應用變得更加廣泛，於是針對不同的應用場景，便出現了不同（tóng）角度（dù）的模型設（shè）計和優化。

目前研究較（jiào）熱仿真模型的方向包括（kuò）麵向邊緣端的輕量級模型、網絡架構搜索（NAS）、動態模型、Transformer等（děng）03網絡架（jià）構搜索的 What and How自動架構搜索（Automatic Architecture Search）的本質是讓（ràng）算法（fǎ）自己去設計網絡架構。

自（zì）Google的（de）NAS（Nerual Architech仿真模型（xíng）ure Search）方法（fǎ）提出後（hòu），NAS逐漸成為備受關注的研究領域，研究者（zhě）們希望能夠從模型設計開始降低人工（gōng）幹預程度（dù），最終實現機器（qì）的自動學習（Auto-ML）。

現在有一（yī）個專門的網站（www.automl.org）匯總該方向上的（de）相關研究。

對比以下（xià）模型，最左邊（ResNet）為（wéi）手工設計模型，右邊三個（GE仿真模型Net、NASNet、ENASNet）為結構搜索後得（dé）到的模型從直觀上可以看出，人工設計模（mó）型相對比較規整，而搜索得到的模型則一般比較複雜

NAS是將模型設計轉化為搜索（suǒ）問題，通過在定義的模型搜（sōu）索集中尋找最優的（de）參數配置實（shí）現結構設計因此，搜索集的定義往往是NAS任（rèn）務（wù）的關鍵其次，在確定搜索集後（hòu），需要選（xuǎn）擇合適的搜仿真模型索算法當前的搜索方法主要有：強（qiáng）化學習（xí）方法（NASNet， Progressive NAS）、進化算法與遺傳算法（GeNet，AmoebaNet）、可微分方法（DARTS，Fbnet）等。

另外，模型評估為（wéi）搜索的結果提供可靠的比較（jiào）依據往往評估模型達到一定精（jīng）度所需（xū）的計算量，以此評價模型的優劣方（fāng）法目前也存在仿（fǎng）真模型一些問（wèn）題（tí），例如理論計（jì）算量與（yǔ）實際應用時存在偏差因此，網絡架構搜索主要有四個核（hé）心問題：1、搜什麽：定義搜索（suǒ）問題。

2、從（cóng）哪裏搜：定義搜索空間；3、怎麽搜：設計（jì）搜（sōu）索算法；4、如（rú）何（hé）評估：說明搜索（suǒ）對象。

04動態神經網絡

在2017年之前的（de）主流（liú）深度模型都屬於靜態模型，一（yī）旦訓練結（jié）束，其參數和結構便固定了下來這種模型的仿真（zhēn）模型缺點是，設計上一步到位，但在應用（yòng）時卻無法根據具體需求而做調整1、Small - Easy，Big - Hard。

如上圖所示，從12年至17年，模（mó）型在數據集上的準確（què）率逐步提（tí）升，但這種提升的背後，則（zé）是計算量的巨大開銷，往往為了提高零點幾個點，模型便需要增加幾十層。這給www.17C.com導致了一個印象，認為模型越大性能仿真模型越好。

但大模（mó）型相比小模型，到底好在哪裏？黃高認為：Bigger Models are needed for those noncanonial images.

如上圖所示，盡管數據集（jí）中有大（dà）量“正常”【馬】的照片，但由於數（shù）據的（de）長尾分布特點，必然會存在（zài）一（yī）些非常規的圖片若想將這些（xiē）非常（cháng）規圖片正確預測出來，神（shén）經仿真模型網絡在特征提取上就需（xū）要有更豐富、更高級的特征但這（zhè）裏存在的問題是，大多數圖片可能僅需少量層（céng）的網（wǎng）絡便可以正確識別出來；但為了處理極少數非常規的圖片，卻需要耗費大量的算力。

所以，www.17C.com為什麽要用相同的代價來處理所有的圖片呢？換句話說（shuō），www.17C.com是否可以用小且便宜的模型來處理容易識別的圖片，用大且昂貴的模型處理難識仿真模（mó）型別的圖片（piàn）呢？

按照這種初始的想法，存在一個問題，即在（zài）現實中沒有一個“上帝”告訴模型，哪張圖是容易的，哪（nǎ）張圖是難的黃高等人（rén）提（tí）出一種多尺度的DenseNet模型，如下圖所示，模型中（zhōng）包含許多分（fèn）類器在（zài）中間提（tí）取特征（zhēng）並做分類，然（rán）後在每個出口做一次（cì）判斷（duàn），預測（cè）值大於（yú）閾值，那麽就輸出判斷；而如果小於閾（yù）值，便送入下一層（céng）分仿真模型類器繼續計算，直（zhí）到預測值大於相應閾值。

這種模型，相（xiàng）比於DenseNet，同（tóng）樣的性能（néng）可以做到2~5倍的提速。

可視化結果：

這個工作中一個亮（liàng）點在於，閾值是可以設定的，這（zhè）種特點非常（cháng）適用於邊緣設備閾（yù）值越低，精度相應也就相對降低，但模型運算速度卻能夠變得更（gèng）快；反之，閾值越高，精度越高，速度則變慢對於邊緣設備，傳（chuán）仿真模型統的靜態模型在訓練好後（hòu），精度是（shì）固定的，計（jì）算時間是固（gù）定的（de），耗電量也是固定的。

作為對比，動態模型的好處在於，當設備電量較低時，可以將閾值調低，從而以犧牲一點精度（dù）的代價去（qù）換取（qǔ）更（gèng）長（zhǎng）的（de）電池續航時間，從而在精度和電量之間做一個自（zì）適（shì）應（yīng）平衡（héng）

在黃高等人（rén）近期的一項最新工作中，他們將這種思想做了進一（yī）步的拓展——分辨率自（zì）適仿真模型應簡單來說，在不同的圖（tú）片（piàn）中，有的（de）識別物體占（zhàn）比較大，而有的則較小（如上圖兩張貓頭鷹的圖片（piàn））那麽（me）如果識別物體占比較大，用（yòng）分（fèn）辨率（lǜ）低一些的圖片就足以完成識別任務；如果識別物體占比較小，可以選擇更高清一些的圖片。

具體如下圖所示，先（xiān）用低分（fèn）辨率圖片進行計算，如果置（zhì）信度高於閾值，則輸出結果；如果低（dī）於（yú）閾值，則使用更高（gāo）仿真模型（xíng）分辨率的（de）圖片（piàn）、更深的網絡進行計算，直至置信度大於閾值。

2、更進一步：空間（jiān）自適應前麵提到的自適應主要是樣本（běn）級別的自適應，針對與圖像數據還可以考慮空間（jiān）維度（dù）的自適應如下圖所示，人的視覺會關注不（bú）同的空間區域，比如街道，車輛，行人；但是對於另外的窗台，花紋，則會選擇性忽略。

這說明人在看一（yī）張圖片時，並不會（huì）在所有仿真模型的像素上投入同樣多的精力。但現有網絡（luò）的卷（juàn）積操作，並不能適應圖片的空間信（xìn）息，而是簡（jiǎn）單地對圖片的不同區域做同樣的處理。

黃高針對這一問題，提出了 Sampling and Interpolation 的方法。正如（rú）其名，該方法先進行（háng）稀疏采（cǎi）樣和計算，然後通過插值的方式進行稠密重（chóng）建（jiàn）。如下圖所示：

具體方法則是：對仿真模型於輸入（rù） X，並不直接（jiē）進行卷積計算獲取（qǔ）其特征，而是先進行（háng）稀疏采（cǎi）樣，將采樣結（jié）果進行稀疏卷積，從而獲（huò）得一個稀疏的特征圖；根（gēn）據稀疏（shū）特征圖進行插（chā）值後獲得重建（jiàn）特征圖。

這裏關鍵的一點在於，采樣的（de）模型並非隨機采樣，其參數是可學（xué）的，依賴於數據，因此對於不同物體，生成的mask則不同mask事實上告訴了模型哪（nǎ）些區域應該仿真模型重點關注，從而指導SparseConv去計算；SparseConv並不會提取所有像素的特征。

黃高等人的另一項關於空間自適（shì）應的（de）工作，發表在NeurIPS 2020 上他們注意到，人（rén）在做（zuò）視覺識別時，是一個漸進、迭代的過程例如看一（yī）張圖，www.17C.com初步瞥（piē）一眼，知（zhī）道（dào）它是一隻鳥；然後www.17C.com會更加關注它（tā）的頭部、身體、尾部（bù）仿真模型等，從而獲取更多的特征。

依據這種思想，黃高等（děng）人提出了GFNet（Glance and Focus Network），基本思（sī）想如下（xià）圖所示，通過降低圖像分辨（biàn）率來（lái）模擬最初的glance，如果模型預測置信度不夠，則通（tōng）過使用局部的圖像模擬人仔細（xì）觀察獲得信息，豐富模型觀察到的（de）細節。

具體模型框架如（rú）下：

值得強調的是仿（fǎng）真模型，模型中所采用的都是通用框架，因此從理論上說，可以（yǐ）在方法中兼容任何已有的深度網絡（手工設計的或搜索出來（lái）的）。實驗結果如（rú）下：

05研究需要韌性報告之後，黃（huáng）高與現場的學（xué）生進行了線下問答交流在交流中，黃高多次強調這樣一個觀點：“研（yán）究需要（yào）韌性（xìng）”他提到：當初在有DenseNet想（xiǎng）法時，並不被周圍（wéi）的人（rén）看好；但他和仿真模型合作者一直堅持把結（jié）果做了出（chū）來，最終證明了這項工（gōng）作的價值。

黃高工作中的韌性自很早的時候就（jiù）有所展現2009年（nián）前（qián）後，在AI領域，深度學習的工具並（bìng）未如此普及，優化方法、梯度回傳這些（xiē）在現在看（kàn）來（lái）簡單到僅僅需要一行代碼的操作，在那時黃高的工作中，都需（xū）要一次次手動（dòng）實現因（yīn）此，那時候的研究者（zhě）都在想著如何節省算力縮減模型仿（fǎng）真模型連接，以減少工作量。

但當時黃高（gāo）便已有另外的思考：如果每層的信息（xī）都能逐層向前傳（chuán），那模型的信息通道（dào）將更加（jiā）通暢，那麽雖然（rán）每層連接變多，傳遞底層信息到高層所需（xū）的模（mó）型層數就可以大大減少（shǎo）這一想法，也啟發了他後來對 DenseNet的設（shè）計。

黃高（gāo）說，當初在DenseNet獲得最佳論文的推特下，很多人驚訝於模型想法的仿真（zhēn）模（mó）型簡潔優美，但同（tóng）時，也有許多研究者表示惋惜，因為或多或少曾經也有（yǒu）過這樣的思考，但由於缺乏動力，或者是遇到挫折，沒能堅持推進（jìn）研究在交流的最後，主持人劉（liú）知（zhī）遠副教（jiāo）授問到：“如果給在場的學生一句take away message，你（nǐ）會說什麽（me）？”

黃高思考良久，仍然（rán）堅定地說：“研究（jiū）是需要韌性的我相信在場的大（dà）家（jiā）都十仿真模型分優秀，但做研（yán）究，遇到挫折是常態，一個好的想法中途會有太（tài）多因素讓它夭折，但最終需要的是一股韌勁才能堅持下來，將想法（fǎ）化為現實”參考論文（wén）[1] Huang, Gao, et al. "Densely connected convolutional networks." Proceedings of th仿（fǎng）真模型e IEEE conference on computer vision and pattern recognition. 2017.

[2] Wang, Yulin, et al. "Glance and Focus: a Dynamic Approach to Reducing Spatial R仿真模型edundancy in Image Classification." Advances in Neural Information Processing Systems 33 (2020).

[3] Huang, Gao, et al. "Multi-scale dense networks for仿真模型 resource efficient image classification." arXiv preprint arXiv:1703.09844 (2017).

[4]Xie, Zhenda, et al. "Spatially Adaptive Inference with Stochastic仿真模型 Feature Sampling and Interpolation." arXiv preprint arXiv:2003.08866 (2020).

標簽：

上一篇：展廳（tīng）模型

下一篇：模型製作公司

新（xīn）聞動態

常見問題

仿真模型

產品推薦

微信號：微信二維碼