免費谘詢熱(rè)線
13621929115智源導讀:自2012年至今(jīn),計(jì)算機視覺領域蓬勃發展(zhǎn),各種模型不斷湧現,短短 8 年(nián)時間,計算機視覺(jiào)領域便發生了天翻(fān)地覆的變化(huà)那(nà)麽如何看待過往(wǎng)變化,當下(xià)研究又如何?12月(yuè)10日晚,在【青源Talk】第 3 期。
上,清華大學助理教授,智源青(qīng)年科學家黃高將計算機視覺中的深度神經網絡結構設(shè)計(jì)從2012年至今仿真模型的發展,劃分為三(sān)個階段,並分析了(le)各(gè)個階(jiē)段(duàn)的特點:-> 2012-2015,為快速發展期;-> 2015-2017,為成熟(shú)期;
-> 2017-至今,為繁榮期在此之(zhī)後,黃高重點講解了當下 CV 深度模型設計領域的兩大研究方向,NAS 和動態網絡,特(tè)別是後者聽其報告,www.17C.com能夠感受到黃高的工作優美、簡單且自(zì)仿真模(mó)型然在演講之後的交流中,黃高向與會的學(xué)生們強調了一條科研經驗:。
研究需要韌性本文根據演講內容整理(lǐ),供讀者參考報告(gào)視頻及PPT下載地址:https://hub.baai.ac.cn/view/4937整理:賈偉、周寅(yín)張皓校對:廖璐黃高 · 簡介黃(huáng)高是清華大學自(zì)動化(huà)係助(zhù)理(lǐ)教授,博士生導師。
2015年獲(huò)清華仿真模型大學博士學位,2015年至2018年在美(měi)國康奈爾大學計算機係從(cóng)事博士後科研工作主要研究領域(yù)為深度學(xué)習和計算機視覺,提出了主流卷積網絡模型DenseNet目(mù)前在NeurIPS,ICML,CVPR等國際頂級會(huì)議及(jí)IEEE多個(gè)匯刊共計發表學術論(lùn)文50餘篇,被引(yǐn)用18000餘次。
獲CVPR最佳論文獎、達摩(mó)院仿真模型青橙獎、世界人工智能(néng)大會SAIL先鋒獎、中國自動化學會(huì)優秀博士學位論文、全國百篇最(zuì)具影(yǐng)響國(guó)際學術論文、中國人工智能學會自然(rán)科學一等獎和吳文俊優秀青年獎等榮譽,入選智源青年學者計劃。
智源社區(qū) ,讚 39 01視覺模型的(de)發展
在過去一些年裏,計算機視覺(jiào)領域湧現出許多經典的深度學習的網絡架構這說明網絡(luò)的架構(gòu)仿真模型在深度學習(計算機視覺)中尤為重要原因是什麽?黃高認為(wéi)網絡架構的重要性(xìng)體現在四(sì)個方(fāng)麵,分別為:表達能力、優化特性、泛化性能和計算/存儲效率。
表達能力:不同網絡結(jié)構,其(qí)表達能力顯然不同舉例來說,線性模型,無論多深,仍然隻是線性模型,其表達能(néng)力有限(xiàn)優化性能:ResNet出現之前,所謂的“深度網絡”並不很仿(fǎng)真模型深,當時最深的GoogleNet、Inception等也僅 20 多層(céng)。
這並非當(dāng)時硬件不足,主要原因是(shì)梯度(dù)反傳(chuán)過程會出現(xiàn)梯度消失問題ResNet以及後續的(de)DenseNet通過結構上的改進,可以很好地改(gǎi)善這(zhè)種問題泛化性能:從本質上來說,神經網絡是一個函數,訓練網(wǎng)絡(luò)即是擬合網絡的結構定義了函數的特性,同仿真模型(xíng)時也(yě)關係到它的泛化能力。
計(jì)算/存儲(chǔ)效率:當達到同樣精度時,有的模型需要很大,有的模型卻(què)比較(jiào)小;有的模型消耗(hào)計算資源很高,有的模型卻相對要小得多02神經網絡結構三個階段從2012年至今,計算(suàn)機視覺(jiào)領域的(de)深度學習網絡模型經曆了天翻地覆的變化。
如何看待這些變化?黃(huáng)高將這(zhè) 8 年(nián)多的黃金時期劃分為三個階段,仿真模型分別為:2012-2015,快速發展期;2015-2017,成熟期;2017-至今,繁榮期。如下圖所示:
2012-2015的快速發展期:2012年,AlexNet在ImageNet比賽中一舉挑戰(zhàn)各種傳統模型,讓大家意識到深度學習在視覺任(rèn)務中的(de)潛力,從而掀起了一股研究熱潮(cháo)隨後(hòu)不斷湧現(xiàn)的(de)很多深度模型都是(shì)仿真模型圍繞(rào)ImageNet進行設計,包括後來的VGG、GoogleNet等。
這一(yī)階段發展非常快速,每種模型都是從各自的角度對優(yōu)化特性、泛化能力等進行改進2015-2017的成熟期:這一階段(duàn)的(de)標誌性(xìng)事件是ResNet的提出ResNet的跳(tiào)層連接思想給大家(jiā)帶來了極大的啟發(fā),讓模型設計有了一個明確的概念指引,於仿真模型是迅速出現了諸如DenseNet,ResNeXt等(děng)知名模(mó)型。
這個階段,研(yán)究者逐漸(jiàn)認(rèn)識到,模型設計(jì)並不需要過多的技巧和變化,存在一些簡單而基本(běn)的設計原則可以依(yī)據2017年至今的繁榮期:17年之後,深度學習在工業界的應用變得更加廣泛,於是針對不同的應用場景,便出現了不同(tóng)角度(dù)的模型設(shè)計和優化。
目前研究較(jiào)熱仿真模型的方向包括(kuò)麵向邊緣端的輕量級模型、網絡架構搜索(NAS)、動態模型、Transformer等(děng)03網絡架(jià)構搜索的 What and How自動架構搜索(Automatic Architecture Search)的本質是讓(ràng)算法(fǎ)自己去設計網絡架構。
自(zì)Google的(de)NAS(Nerual Architech仿真模型(xíng)ure Search)方法(fǎ)提出後(hòu),NAS逐漸成為備受關注的研究領域,研究者(zhě)們希望能夠從模型設計開始降低人工(gōng)幹預程度(dù),最終實現機器(qì)的自動學習(Auto-ML)。
現在有一(yī)個專門的網站(www.automl.org)匯總該方向上的(de)相關研究。
對比以下(xià)模型,最左邊(ResNet)為(wéi)手工設計模型,右邊三個(GE仿真模型Net、NASNet、ENASNet)為結構搜索後得(dé)到的模型從直觀上可以看出,人工設計模(mó)型相對比較規整,而搜索得到的模型則一般比較複雜
NAS是將模型設計轉化為搜索(suǒ)問題,通過在定義的模型搜(sōu)索集中尋找最優的(de)參數配置實(shí)現結構設計因此,搜索集的定義往往是NAS任(rèn)務(wù)的關鍵其次,在確定搜索集後(hòu),需要選(xuǎn)擇合適的搜仿真模型索算法當前的搜索方法主要有:強(qiáng)化學習(xí)方法(NASNet, Progressive NAS)、進化算法與遺傳算法(GeNet,AmoebaNet)、可微分方法(DARTS,Fbnet)等。
另外,模型評估為(wéi)搜索的結果提供可靠的比較(jiào)依據往往評估模型達到一定精(jīng)度所需(xū)的計算量,以此評價模型的優劣方(fāng)法目前也存在仿(fǎng)真模型一些問(wèn)題(tí),例如理論計(jì)算量與(yǔ)實際應用時存在偏差因此,網絡架構搜索主要有四個核(hé)心問題:1、搜什麽:定義搜索(suǒ)問題。
2、從(cóng)哪裏搜:定義搜索空間;3、怎麽搜:設計(jì)搜(sōu)索算法;4、如(rú)何(hé)評估:說明搜索(suǒ)對象。
04動態神經網絡
在2017年之前的(de)主流(liú)深度模型都屬於靜態模型,一(yī)旦訓練結(jié)束,其參數和結構便固定了下來這種模型的仿真(zhēn)模型缺點是,設計上一步到位,但在應用(yòng)時卻無法根據具體需求而做調整1、Small - Easy,Big - Hard。
如上圖所示,從12年至17年,模(mó)型在數據集上的準確(què)率逐步提(tí)升,但這種提升的背後,則(zé)是計算量的巨大開銷,往往為了提高零點幾個點,模型便需要增加幾十層。這給www.17C.com導致了一個印象,認為模型越大性能仿真模型越好。
但大模(mó)型相比小模型,到底好在哪裏?黃高認為:Bigger Models are needed for those noncanonial images.
如上圖所示,盡管數據集(jí)中有大(dà)量“正常”【馬】的照片,但由於數(shù)據的(de)長尾分布特點,必然會存在(zài)一(yī)些非常規的圖片若想將這些(xiē)非常(cháng)規圖片正確預測出來,神(shén)經仿真模型網絡在特征提取上就需(xū)要有更豐富、更高級的特征但這(zhè)裏存在的問題是,大多數圖片可能僅需少量層(céng)的網(wǎng)絡便可以正確識別出來;但為了處理極少數非常規的圖片,卻需要耗費大量的算力。
所以,www.17C.com為什麽要用相同的代價來處理所有的圖片呢?換句話說(shuō),www.17C.com是否可以用小且便宜的模型來處理容易識別的圖片,用大且昂貴的模型處理難識仿真模(mó)型別的圖片(piàn)呢?
按照這種初始的想法,存在一個問題,即在(zài)現實中沒有一個“上帝”告訴模型,哪張圖是容易的,哪(nǎ)張圖是難的黃高等人(rén)提(tí)出一種多尺度的DenseNet模型,如下圖所示,模型中(zhōng)包含許多分(fèn)類器在(zài)中間提(tí)取特征(zhēng)並做分類,然(rán)後在每個出口做一次(cì)判斷(duàn),預測(cè)值大於(yú)閾值,那麽就輸出判斷;而如果小於閾(yù)值,便送入下一層(céng)分仿真模型類器繼續計算,直(zhí)到預測值大於相應閾值。
這種模型,相(xiàng)比於DenseNet,同(tóng)樣的性能(néng)可以做到2~5倍的提速。
可視化結果:
這個工作中一個亮(liàng)點在於,閾值是可以設定的,這(zhè)種特點非常(cháng)適用於邊緣設備閾(yù)值越低,精度相應也就相對降低,但模型運算速度卻能夠變得更(gèng)快;反之,閾值越高,精度越高,速度則變慢對於邊緣設備,傳(chuán)仿真模型統的靜態模型在訓練好後(hòu),精度是(shì)固定的,計(jì)算時間是固(gù)定的(de),耗電量也是固定的。
作為對比,動態模型的好處在於,當設備電量較低時,可以將閾值調低,從而以犧牲一點精度(dù)的代價去(qù)換取(qǔ)更(gèng)長(zhǎng)的(de)電池續航時間,從而在精度和電量之間做一個自(zì)適(shì)應(yīng)平衡(héng)
在黃高等人(rén)近期的一項最新工作中,他們將這種思想做了進一(yī)步的拓展——分辨率自(zì)適仿真模型應簡單來說,在不同的圖(tú)片(piàn)中,有的(de)識別物體占(zhàn)比較大,而有的則較小(如上圖兩張貓頭鷹的圖片(piàn))那麽(me)如果識別物體占比較大,用(yòng)分(fèn)辨率(lǜ)低一些的圖片就足以完成識別任務;如果識別物體占比較小,可以選擇更高清一些的圖片。
具體如下圖所示,先(xiān)用低分(fèn)辨率圖片進行計算,如果置(zhì)信度高於閾值,則輸出結果;如果低(dī)於(yú)閾值,則使用更高(gāo)仿真模型(xíng)分辨率的(de)圖片(piàn)、更深的網絡進行計算,直至置信度大於閾值。
2、更進一步:空間(jiān)自適應前麵提到的自適應主要是樣本(běn)級別的自適應,針對與圖像數據還可以考慮空間(jiān)維度(dù)的自適應如下圖所示,人的視覺會關注不(bú)同的空間區域,比如街道,車輛,行人;但是對於另外的窗台,花紋,則會選擇性忽略。
這說明人在看一(yī)張圖片時,並不會(huì)在所有仿真模型的像素上投入同樣多的精力。但現有網絡(luò)的卷(juàn)積操作,並不能適應圖片的空間信(xìn)息,而是簡(jiǎn)單地對圖片的不同區域做同樣的處理。
黃高針對這一問題,提出了 Sampling and Interpolation 的方法。正如(rú)其名,該方法先進行(háng)稀疏采(cǎi)樣和計算,然後通過插值的方式進行稠密重(chóng)建(jiàn)。如下圖所示:
具體方法則是:對仿真模型於輸入(rù) X,並不直接(jiē)進行卷積計算獲取(qǔ)其特征,而是先進行(háng)稀疏采(cǎi)樣,將采樣結(jié)果進行稀疏卷積,從而獲(huò)得一個稀疏的特征圖;根(gēn)據稀疏(shū)特征圖進行插(chā)值後獲得重建(jiàn)特征圖。
這裏關鍵的一點在於,采樣的(de)模型並非隨機采樣,其參數是可學(xué)的,依賴於數據,因此對於不同物體,生成的mask則不同mask事實上告訴了模型哪(nǎ)些區域應該仿真模型重點關注,從而指導SparseConv去計算;SparseConv並不會提取所有像素的特征。
黃高等人的另一項關於空間自適(shì)應的(de)工作,發表在NeurIPS 2020 上他們注意到,人(rén)在做(zuò)視覺識別時,是一個漸進、迭代的過程例如看一(yī)張圖,www.17C.com初步瞥(piē)一眼,知(zhī)道(dào)它是一隻鳥;然後www.17C.com會更加關注它(tā)的頭部、身體、尾部(bù)仿真模型等,從而獲取更多的特征。
依據這種思想,黃高等(děng)人提出了GFNet(Glance and Focus Network),基本思(sī)想如下(xià)圖所示,通過降低圖像分辨(biàn)率來(lái)模擬最初的glance,如果模型預測置信度不夠,則通(tōng)過使用局部的圖像模擬人仔細(xì)觀察獲得信息,豐富模型觀察到的(de)細節。
具體模型框架如(rú)下:
值得強調的是仿(fǎng)真模型,模型中所采用的都是通用框架,因此從理論上說,可以(yǐ)在方法中兼容任何已有的深度網絡(手工設計的或搜索出來(lái)的)。實驗結果如(rú)下:
05研究需要韌性報告之後,黃(huáng)高與現場的學(xué)生進行了線下問答交流在交流中,黃高多次強調這樣一個觀點:“研(yán)究需要(yào)韌性(xìng)”他提到:當初在有DenseNet想(xiǎng)法時,並不被周圍(wéi)的人(rén)看好;但他和仿真模型合作者一直堅持把結(jié)果做了出(chū)來,最終證明了這項工(gōng)作的價值。
黃高工作中的韌性自很早的時候就(jiù)有所展現2009年(nián)前(qián)後,在AI領域,深度學習的工具並(bìng)未如此普及,優化方法、梯度回傳這些(xiē)在現在看(kàn)來(lái)簡單到僅僅需要一行代碼的操作,在那時黃高的工作中,都需(xū)要一次次手動(dòng)實現因(yīn)此,那時候的研究者(zhě)都在想著如何節省算力縮減模型仿(fǎng)真模型連接,以減少工作量。
但當時黃高(gāo)便已有另外的思考:如果每層的信息(xī)都能逐層向前傳(chuán),那模型的信息通道(dào)將更加(jiā)通暢,那麽雖然(rán)每層連接變多,傳遞底層信息到高層所需(xū)的模(mó)型層數就可以大大減少(shǎo)這一想法,也啟發了他後來對 DenseNet的設(shè)計。
黃高(gāo)說,當初在DenseNet獲得最佳論文的推特下,很多人驚訝於模型想法的仿真(zhēn)模(mó)型簡潔優美,但同(tóng)時,也有許多研究者表示惋惜,因為或多或少曾經也有(yǒu)過這樣的思考,但由於缺乏動力,或者是遇到挫折,沒能堅持推進(jìn)研究在交流的最後,主持人劉(liú)知(zhī)遠副教(jiāo)授問到:“如果給在場的學生一句take away message,你(nǐ)會說什麽(me)?”
黃高思考良久,仍然(rán)堅定地說:“研究(jiū)是需要韌性的我相信在場的大(dà)家(jiā)都十仿真模型分優秀,但做研(yán)究,遇到挫折是常態,一個好的想法中途會有太(tài)多因素讓它夭折,但最終需要的是一股韌勁才能堅持下來,將想法(fǎ)化為現實”參考論文(wén)[1] Huang, Gao, et al. "Densely connected convolutional networks." Proceedings of th仿(fǎng)真模型e IEEE conference on computer vision and pattern recognition. 2017.
[2] Wang, Yulin, et al. "Glance and Focus: a Dynamic Approach to Reducing Spatial R仿真模型edundancy in Image Classification." Advances in Neural Information Processing Systems 33 (2020).
[3] Huang, Gao, et al. "Multi-scale dense networks for仿真模型 resource efficient image classification." arXiv preprint arXiv:1703.09844 (2017).
[4]Xie, Zhenda, et al. "Spatially Adaptive Inference with Stochastic仿真模型 Feature Sampling and Interpolation." arXiv preprint arXiv:2003.08866 (2020).
Copyright © 2002-2020 上海潤之模型設計有限公司 版權所有 展示模型,展(zhǎn)品模型,展廳模型(xíng),展示道具(jù),展廳展品,展品道具,模(mó)型定(dìng)製,模型公司,上海模型公司 備案號(hào):滬ICP備20018260號