新聞動態

免費谘詢熱（rè）線

13621929115

常見問題

展品展具模型

發（fā）布日期：2023-04-04 23:07瀏覽次數：

主講人（rén） | 龍心塵百度NLP資深研發工程師量子位編輯 | 公眾號 QbitAI近幾年以預訓練為代表的NLP技術取得了爆發式發展，新技（jì）術新（xīn）模型層出不窮企業與開發者如何將最先進的NLP領域科研成果，高效地。

應用到業務場景（jǐng）中並解決實（shí）際問題？「百度（dù）EasyDL AI開發公開課」中，百度（dù）資深（shēn）研發工程師龍心塵展品展具模型結合世界領先的文心(ERNIE)語義理解技術，通過產業實踐案例，深入解（jiě）析技術選型和模型調優的方法，分享了工程實踐中的經驗（yàn）。

講解分（fèn）為5個部分：NLP常見任務NLP典型應（yīng）用（yòng）場景EasyDL-NLP與文心（ERNIE）簡介文心核心技術解析NLP定製化實踐與經驗分享直播回（huí）放見鏈接：https://www.b展品展具模型ilibili.com/video/BV1Zi4y157jd

以下為（wéi）分享內容整理：NLP常見（jiàn）任務自然語言（yán）處理（NLP）大致分為4大經典任務：文本分類，文本匹配，序列標注，文本生成文本（běn）分類假設輸入文本為x，輸出標簽為y，如果y 表示x屬於某一個類別的概率，或者一組類別的概率分布，則可抽（chōu）象為文本分類問題。展品展具模型

典型的（de）文本分類包含情感分析、新聞主題分類、文本蘊含。

情感分析一般需要（yào）判斷某句話是積（jī）極的或消極的，屬於單標簽分類新聞主題分類相對複雜，一個新聞可能同時具有多個互相獨立的屬性，可以同（tóng）時出現，屬（shǔ）於多標（biāo）簽分類文本蘊含任務輸入（rù）的（de）是兩段文本，需要（yào）判斷兩段文本之間的關係（包含關係（xì）、對立關係、中立關（guān）係等（děng）），屬於（yú）句對展品展具模型分（fèn）類。

文（wén）本匹配假設輸（shū）入文本為x，輸出標簽為y，如（rú）果x是兩段文本（x1、x2），Y表示二者的相似（sì）度，則（zé）可抽象為文本匹配問題。

如圖，x1與x2的（de）意思是非常相似的，所以標簽y是1如果x1與x2的（de）含義不相似，那麽輸出的y就（jiù）是0如果需要判斷兩（liǎng）者相似的概率，標（biāo）簽y在0-1之間文本匹配（pèi）任務在搜索引（yǐn）擎（qíng）、推薦、FAQ展品展具模型等判斷兩句話相似的場景中應用非常（cháng）廣泛。

除此之外，文本聚類問題也可以通過文本相似度問題進行處理機器學習的聚類算法的核心步（bù）驟是計算兩個樣本之間的距離，而相似度就是兩個文本之間距（jù）離的度量，可以很好地判斷文（wén）本間語義（yì）層麵上的距（jù）離序列標注假設輸（shū）入文本為x，輸出標簽為y，如果x是一段（duàn）文本，y是一段與x等長的（de）文本，展品展（zhǎn）具模型且x與y的每個（gè）字符一一對應，則可抽象為序（xù）列標注問題。

如上圖是一個命名實體識別任務，需要要（yào）判斷一句話裏的（de）一些關鍵詞語，是否屬於地（dì）址、人名等實體這（zhè）句話裏麵，“廈門（mén）”和“金門”是兩個地址實體同時，這個（gè）句子中的每一個字，我（wǒ）們都（dōu）會給出判斷，將不需要（yào）關注的字標記為O，因此輸出的判斷標（biāo）簽Y與X是等長的。

除此（cǐ）之外，展品展具（jù）模（mó）型分詞、詞性標注、組塊分析、語義角色標注、詞槽挖掘等，都是典型的序列標注任務某些人將閱讀理解也（yě）理解（jiě）成一種特殊的序列標注，X是2段文本，分別表示正文篇章和問題，Y是篇章中的一小段文本，表示對應（yīng）問題的答案。

文本生成假設輸入文本為（wéi）x，輸出標簽為y，如果x是一段文本，y是一（yī）段不定長的文本，則可抽象為文本生成問展品展具模型題。

最典型的（de）文本生成問題是機器翻譯，比如輸入（rù）一段英文，輸出一段其他（tā）語言的文字（zì）這兩段文字的字、詞的順序不一定一一對應，因此輸出的是一個不定長的文本另外，文本摘要、標題生成、閑聊等都是典（diǎn）型的文（wén）本生成任務NLP典型應用場景

上述介紹了四大經典NLP任務，核心是希望大家注意（yì）不同任務的輸出X與輸出（chū）Y。這樣就（jiù）可以展品展具（jù）模型在真實的NLP應用場景中，能把不同（tóng）任務拆分（fèn）成簡單（dān）的典型任務。

在企業實際應用和產業實踐中，業務需求千變（biàn）萬化，往（wǎng）往需要對NLP模型進行定製化的訓練。定製過程中，企業要考慮（lǜ）三個要點：效率問題、效果（guǒ）問題、效能問題。

為了幫助中小企業更高效的實現NLP模型訓練、優化、部署應用，百度麵向企（qǐ）業提供了的零門檻（kǎn）、一站式展品（pǐn）展具模型AI開發平台—EasyDL提（tí）供全流程（chéng）服務支持（chí），和業界領先的（de）語義理解技術平台—文心（ERNIE）為企業降低NLP定（dìng）製成本，下文為大家詳細介紹其優勢與核心技術。

EasyDL：全流程企業級定製化（huà）服務支（zhī）持EasyDL為大家提供一（yī）站式定製化NLP開發平台，低門檻、簡（jiǎn）單易用麵向企業客戶和開發者提供全流程技術服務展品展具模（mó）型配套，包括業務問題分（fèn）析、技（jì）術選型（xíng）指導、模（mó）型優化指導、開發者使用培訓等。

EasyDL不僅為（wéi）企業客戶提供全流程方案與技術支持，在解（jiě）決企業業務（wù）問題的（de）同時，也讓企業能更好地沉澱自身技術（shù）實力，真正做（zuò）到“授之以漁”文心：降（jiàng）低NLP定製成本文心（ERNIE）是依托百度深度學習平台飛槳打造的語義理解技術與平台，集（jí）先展品展具模型（xíng）進的預訓練模（mó）型、全麵的NLP算法集、端到端開發套件和平台化服務於一體，為企業和開發者提供一（yī）整套NLP定製與應用能力。

文（wén）心基於最新一代預訓練範式的技術（shù）優勢（shì），能（néng）夠大幅降低NLP定製成本。對於企（qǐ）業來說，文心的低成本定製（zhì）能力意味（wèi）著什麽（me）呢？更少的標注數據、更少的（de）算力投入、更短的開（kāi）發周期。

文心核心技術：ERNI展（zhǎn）品展具模型E 2.0（持續學習語義理解框架）文（wén）心開創性地將大數據（jù）預（yù）訓練與多源豐富知識相結合，持續學習海量數據中的知識，避免災（zāi）難性遺忘，將機器語義理解水平提升到一個新的高度。

以中文模（mó）型為（wéi）例，目前ERNIE已經學習了（le）1500萬篇百（bǎi）科語（yǔ）料和詞語（yǔ）、實體（tǐ）知識，700萬個人類對話，3億的文章的因果結構關係，以及10億次（cì）的展品展具模型搜索查詢與結果的對應（yīng）關係，以及2000萬的語言（yán）邏輯關係知（zhī）識模型還在持續不斷地建模新的海（hǎi）量數據與知識，不斷地提升下遊的應用效果（guǒ）。

ERNIE在（zài）中英文的（de）16個任務上已經（jīng）超（chāo）越了業界最好模型，全麵適用於各類NLP應用場景（jǐng）文心（xīn）的技術創新：ERNIE-GEN為了解決文本生成任務中（zhōng）的問題，ERNIE提出了ERNIE展品展（zhǎn）具模型-GEN技術範式首先，ERNIE-GEN主（zhǔ）要關（guān）注文（wén）本生成任務（wù）中的“曝（pù）光（guāng）偏置”問（wèn）題。

ERNIE-GEN采用了填充式生成技術，在訓（xùn）練（liàn）和（hé）解碼中（zhōng），插入人工符號（ATTN）和位置編碼來匯聚上文向量表示，用於每一步的（de）預測（cè）。

即將模型的（de）注意力從上一個生成字符轉移到更全局的上文表示，以緩解上一個字符預測錯誤對後續生成展品展具模型的負麵影響，緩解曝光偏置問題（tí），增強生成魯棒性其次（cì），ERNIE-GEN采取了多流注意力機製，能夠同（tóng）時實現逐詞（cí）生（shēng）成任務和逐片段生成任務。

文心的（de）技（jì）術創新：ERNIE-ViLwww.17C.com知道，人類的認知不僅通過閱讀文字產生，還通（tōng）過觀察大量的事物、查看大量圖片、動畫片、圖文相結合等方式，是（shì）多模（mó）態的形式那麽（me），如何讓模型展品展具模型學（xué）習文本、圖像、語音等不同形式的信息，從而在認（rèn）知理（lǐ）解層麵取得（dé）更好的效果？。

在多模（mó）態領域（yù），www.17C.com（men）的ERNIE-ViL（知識增強的視覺語（yǔ）言表示學（xué）習）更加強調（diào）的是在引（yǐn）入圖像信息的同時，融合了更多知識即細（xì）粒度語義信（xìn）息抽取，區分普通詞（cí）與語義次，構建（jiàn）了物體預（yù）測、屬（shǔ）性預測、關係預測三個預訓練任務，聚焦細粒度的語義對展品展（zhǎn）具模型齊知識。

正是因為結合了多（duō）模態與知識，ERNIE-ViL在視覺（jiào）問答、視覺常識推理（lǐ）、引用表達式（shì）理解、圖像檢索、標題檢索等5項多模態（tài）任務集合上取得世界最好的效果並且在視覺（jiào）常識推理任務榜單（dān）中取得第一名案例實踐分享實際應用中，NLP定（dìng）製化訓練任務可拆分成7個步（bù）驟，並不斷循環（huán）、迭代優化（huà）：

因此（cǐ），提（tí）升NLP模型訓練展品（pǐn）展具模（mó）型效果，一方麵要（yào）提升循環迭代的速（sù）度和效率，另一（yī）方麵則需要考慮如何（hé）提升優化效果1.任（rèn）務拆分首先，遇到任何文本場景的任務問題，都可以拆分成上述的典型任務接下來，明確任務本身的輸（shū）入與輸出是什麽（me），明（míng）確子（zǐ）任務的輸入與輸入是什麽，然後把這（zhè）些（xiē）子任務組合起來，最終解決問題。

以百度APP的搜索問答場景為（wéi）例，輸入的是問題展品展具模型，輸出的是答案首先進行簡單抽象為一個文本匹（pǐ）配問題因為www.17C.com可以提前把這（zhè）些答案準（zhǔn）備好，用戶提問時隻需計算問題與答案的匹（pǐ）配（pèi）度，問題與答案匹配度高，就把答案推薦出來（lái），若（ruò）匹配度低則不推（tuī）薦。

再來進一步拆分首先，用戶（hù）輸入的可（kě）能（néng）並非是明確的問題，未必（bì）有答案因此www.17C.com需（xū）要前（qián）置一個“文本分類”任務來過濾問題，過（guò）濾掉大量的展品展具模型不是明確問題的流量接下來，再將能夠匹配答案的問題進（jìn）行問（wèn）答匹配任務2.技術選型技術選型（xíng）也可理解為一種廣義的優化（huà）問題（tí）：在有限的（de）條件下，找（zhǎo）到合適（shì）的（de）方案，優化出最好的目標。

所以（yǐ）問題的核心是先明確（què）現有條件的限製是（shì）什（shí）麽、目標是什麽

接下來，基於應用（yòng）場景、硬件條件，選擇（zé）相（xiàng）應的可選技術（shù）方案，來達到（dào）目標優（yōu）化效果：

比如對展品展具模型於模型效（xiào）果的提升（shēng）的目標，可以借鑒以往經驗：

3.選擇網絡在文本分類的場景下，以BOW網絡為例，典型網（wǎng）絡結構依次（cì）包括：輸入文本的ID序（xù）列、 Embedding、BOW結構（gòu）、全連接層、Softmax層其中BOW層（céng）可替換為CNN、TextCNN、GRU、LSTM，隨著網絡結（jié）構越來越複雜，模型效（xiào）果一般也會依次展品展（zhǎn）具模型提（tí）升。

Embedding層可以替（tì）換為ERNIE、Transformer，也會提（tí）升模型效果在文本匹（pǐ）配任務場景下，有（yǒu）4種不同的網（wǎng）絡結構，分別是單塔pointwise、雙塔pointwise、單塔pairwise、雙塔pairwise。

回到百度搜索問答場景下，在任務拆分這一步，www.17C.com將搜索問答拆分為文本分類展品展具模型（xíng）、問答匹配兩部分（fèn）文本分類、問答匹配對（duì）預測速度的要求都（dōu）非常高，因（yīn）此我（wǒ）們選擇BOW網絡在文本分類時選擇分類BOW，在問（wèn）答匹配時選擇雙塔或者單塔BOW。

4.預訓練模型下圖詳細介紹（shào）了（le）文心預訓（xùn）練模型的不同特點：

回到百度搜（sōu）索問答場景，教師（shī）模型就需要選擇預訓（xùn）練模型了為提升教師模型的效果，其（qí）中的（de）分類任務選擇ERNI展品展具模型E-BASE 2.0，匹配任（rèn）務選擇ERNIE-SIM5.訓練模型（xíng）為（wéi）提升訓練效率，如何選擇GPU或CPU，可結合實（shí）際情（qíng）況參（cān）考如下：。

那麽如何用好GPU、提升訓練效率？大原（yuán）則是GPU的利用率越高，訓練（liàn）速度（dù）越快首先，先小後大，先單機單卡，再（zài）單機多卡，最後多（duō）機多卡一（yī）般來（lái）說，單（dān）機（jī）多卡的GPU利用率更（gèng）高、更快其展品展具（jù）模型次，訓練數據與batch-size方麵的改進。

如將大文件拆成多個小文件，設置合（hé）理（lǐ）的（de）數據緩衝（chōng）區以提升數據讀取速度；根據神經網絡中最大（dà）矩陣估算顯存占（zhàn）用，估算batch-size等；多卡模式下多（duō）進程訓（xùn）練，添加混合精度訓練（liàn）等方法，提升訓練（liàn）速度

回到百（bǎi）度搜索（suǒ）問答場景，教師模型選擇GPU訓練，而學（xué）生模型是海量數據展品展具模型的淺層網絡，用CPU集群訓練效果更好。6.提升效率如（rú）何提升迭代效率，不浪費寶（bǎo）貴的開發時間？我的經驗是，要選擇合適的開發平台和工具：

另外（wài），規範的開發流程也是（shì）提升迭代效率的關鍵首先，需要分析業務背景（jǐng），明確任務的輸（shū）入和輸出，將其抽象成（chéng）已得到解決（jué）的NLP典型任務，並且明確評估（gū）指（zhǐ）標第二步，快速實現NLP模型基展（zhǎn）品展具模型線，建議大家準備幾千條、格式規範的訓練數據，進行無代碼訓練。

同時選（xuǎn）擇好網絡和預訓練模型最後，不斷優化模（mó）型效果比如結合業務需求、進行更細致的技術選型，小數據調試，配置參數級訓（xùn）練、進行自（zì）主調參等7.優化效果對於（yú）ERNIE係列預訓練模型，模（mó）型優化最重要的一點是優化數據質量。

即反（fǎn）複觀察bad case，針對展品展具（jù）模型典型case增加正確樣本（běn）；同時也可以考慮數據降噪相關策略，提升模型效果其次是（shì）優化數據數量通過觀察學習曲線來評估（gū）數（shù）據數量是否合適，可以考慮數據增強、數據蒸餾等策略第（dì）三點是增加數據特征

，可以考慮（lǜ）增加非文本特征，或增加新的文本特（tè）征（如N-gram、subword、分詞（cí）邊界、詞性等）第（dì）四點是優化調參與組網大展品展具模型原則是通過學習曲線觀察是否過擬合，若過擬合則降低模型複雜度、增加數據量，若欠擬合則增（zēng）加模型複雜度。

— 完 —量子位 QbitAI · 頭條號簽約關注www.17C.com，第一時間獲知前沿科技動態

標簽：

上一篇：航空航天模型

下一篇（piān）：沙盤模型

新聞動態

常見問題

展品展具模型

產品（pǐn）推薦

微信號（hào）：微信二維碼