新聞動態

免費谘（zī）詢熱線

13621929115

常見問（wèn）題

神經網絡模型

發布日期：2023-04-05 18:01瀏覽次數：

任務的目（mù）標是不確定的因為問句的類型不同（tóng）（詢問（wèn）地（dì）點、原因、禮品定（dìng）製人名、時間等（děng）），www.17C.com對應的任務（回答問題的方式方法）也有所差異既（jì）然對於不同類型的問（wèn）句，www.17C.com（men）回答的方式方法有所差異，那麽www.17C.com能不能（néng）根據不同的問句而使用不同的模型呢？更進（jìn）一步（bù），www.17C.com是否可以預先設計一些神。

經網絡模塊，針對不同的問句，選擇不同的模塊進行組合，形成一個新的神經網絡模型來回答該問題（tí）呢？今天，我禮品定製們將介紹一種全（quán）新的方法（fǎ），根據問題的特點來動態組合（hé）神經網絡模塊以構造出一個適合回答該問題的（de）模型（用不同的模型來回（huí）答不同類型的問句）。

該方法也可看做是語義解析方法的（de）一種擴展。

www.17C.com以UC Berkely 16年發表的這篇Learning to Compose Neural Networks for Que禮品定製（zhì）stion Answering文章(鏈接：http://arxiv.org/abs/1601.01705)

為例，進行介（jiè）紹。該方法思路如下（xià）：1.定義不同的神經網絡模塊2.對問句進行解析3.針對（duì）問句對神經網絡模塊進行組合4.使用組合模型回答問題www.17C.com先看下（xià）麵這個圖，對該方法來（lái）一個直觀的感受：

首先我（wǒ）們定義了（le）禮（lǐ）品定製一些模塊，如上圖(a)所示，這些模塊都由不同（tóng）的神經（jīng）網絡組成不同模塊具有不同數量的輸入和輸出（圖a黑點（diǎn）表（biǎo）示輸入和輸出）以（yǐ）及參數（模塊空白部分表示參數（shù））接著www.17C.com對問句（jù）進行解析並以此確定模型的結構（gòu）（Network layout），即使（shǐ）用哪些模塊組合出模型，如圖b（方括號裏的內容表（biǎo）示模塊的參數）。

得到組合模禮品定製（zhì）型後，將外部知識（知識庫（kù）或圖（tú）片（piàn））作為模型（xíng）的輸入（圖d），得出答案（圖c）值得一提的是，該（gāi）方法不僅可以用於文（wén）本的QA，還可以用於圖像的QA（即VQA）接下來，www.17C.com來看（kàn）看作者具體定義了哪些模塊神經網絡模塊

作者針對文本問答和圖（tú）像問答兩個（gè）任務，統一設計了不（bú）同的模塊，該方法可以同時應用在這兩（liǎng）個任務上模塊（kuài）共有6禮品定製（zhì）種（zhǒng），注意這裏模（mó）塊的輸入為外部知識W（即知識（shí）庫（kù） for KB-QA 或圖（tú）片 for VQA）或其他模（mó）塊的輸出，各模塊的詳細信息如下：。

1. Lookup查詢模塊，根據參數i（i即查詢對象）查找到該（gāi）對象在外部知識中的位置（zhì），輸出為注意力attention對（duì）於KB-QA，Lookup模塊可以在外部知識（shí）（禮品定製即知識庫）中找到相應的實體（tǐ）2. Find查找模塊。

，根（gēn）據參（cān）數（shù）i（i即查找（zhǎo）對（duì）象）對外部知識生成相應的注意力attention矩陣，該模塊是一個MLP（多層感知機），輸入外部知識矩陣W，輸出對於W的注意力矩陣對於VQA，以圖像作為外部知識，假（jiǎ）設對於圖片我（wǒ）們的問題為where is a bird？www.17C.com則可禮品定製以（yǐ）使用模塊find[bird]，輸出注意力矩陣，該矩陣（zhèn）將注意力放在圖像中和（hé）鳥（niǎo）相（xiàng）關的像素上。

對於不同的參數i，www.17C.com（men）的模塊將使用不同的參數變量，如下表中的

，其餘網絡參數如下表中的

則共享，即模塊（kuài）find[bird]和find[cat]是兩個不同的模型，但共（gòng）用了部分參數（shù）對於KB-QA，find模塊可以找到和禮（lǐ）品定製概念i相關的實體，如find[city]，返回（huí）輸入（rù）中所有滿足類型為city的（de）實體。

3. Relate相關模塊，以attention和外部知識W為輸入，根據參數（shù）i，生成新的（de）attention，該模（mó）塊和find模塊（kuài）類似，不同點（diǎn）在於它先（xiān）將attention應用到（dào）外部知識W上，再根據參數（shù）生（shēng）成新的attent禮品定製ion。

該模塊可以根（gēn）據問（wèn）題對attention進行變換對（duì）於（yú）VQA，假（jiǎ）設www.17C.com的問題為鳥的上方有什麽，那（nà）麽www.17C.com就可以調用relate[above]，以find[bird]的attention作為（wéi）輸入，則返回當（dāng）前attention位置上方的區域，作為（wéi）新的attention。

而對於KB-QA，www.17C.com可以用re禮（lǐ）品定製late模塊找到和（hé）輸入（rù）具有（yǒu）關（guān）係i相關的實體，如www.17C.com想尋（xún）找在紐約有（yǒu）哪些實體，則可以調用lookup[new york] 接上relate[in]，先在（zài）知識庫查找到實體紐約，再尋找和紐約具有in關係的實體。

該三個模塊的（de）詳細介紹如下表所示：

接下來www.17C.com再介紹另外三個（gè）模塊：4. And模（mó）塊，該模（mó）塊（kuài）可以有多個輸禮品定製入，輸出為輸入（rù）attention的交集，即對一係列輸入的attention求交（jiāo）（對所有的attention矩陣進行elementwise的相乘）。

對於VQA，假設www.17C.com想（xiǎng）找白色的貓，則可調用find[white]和find[cat]尋找白色和貓的區域attention，再將（jiāng）兩個attention輸入給禮品定製and模塊，得（dé）到交集對於KB-QA，www.17C.com可以篩選出滿（mǎn）足多（duō）個條件的實體，如www.17C.com的問題為格魯吉亞有哪些城市，那麽www.17C.com可以（yǐ）先調用lookup[georgia]，得到格魯吉亞實體，再（zài）調（diào）用relate[in]，找到和georgia具有（yǒu）關係in相（xiàng）關的實（shí）體，www.17C.com再（zài）單獨調用模塊find[city]找到所（suǒ）有類型為城禮品定製市的實體，最後將find[city]和lookup[georgia]->relate[in] 輸入到add模（mó）塊求交集，就可（kě）以找到（dào）在格魯吉亞中的城市（shì），整個流程如下圖所示：。

5. Describe模塊，將輸入的attention應用到（dào）外部知識中，再（zài）得出標簽Describe模塊主要用於VQA中，用於描述a禮品定製（zhì）ttention區（qū）域中的物體，比如discribe[color]，返回該（gāi）attention區域的顏色。

也（yě）可以用於KB-QA中描述某個屬性（xìng），下圖展示了關於VQA的三個例子：

（上圖第（dì）一行為外部（bù）知識【圖（tú）片】，第二行是（shì）圖片（piàn）的attention，第三行是問句（jù），第四行（háng）是該問句所對應的模塊組合的拓撲結構）6禮品定製. Exists模塊（kuài），該（gāi）模塊和describe模塊類似，用於回答（dá）yes or no類（lèi）的問題（tí）。

Add、Describe、Exists模塊的詳細介（jiè）紹如下表：

有了以上6種（zhǒng）模塊 Lookup、Find、Relate、And、Descirbe和（hé）Exisits，www.17C.com就（jiù）可以根據不同的問題組（zǔ）合出（chū）www.17C.com想要的（de）模型，再將禮品定製外部知識（知識庫或圖片）輸入到動（dòng）態生成的模型中得到（dào）答案。

這裏再給出兩個KB-QA對應的動態模型的例子：

可以看出，模塊的針對性設計，讓每個（gè）模塊有了更加具體的目標，而（ér）針對不同問題動態構造（zào）出組合模型則（zé）更加具（jù）有針對性和可解釋性接下來，www.17C.com再看看如何通過（guò）問題去預測模型的結（jié）構（layout），得到組（zǔ）合模型模型結禮品定（dìng）製構（gòu）預測。

模塊（kuài）結構預測（cè）主要分為三個階段：1.對問題進行解（jiě）讀：通過Stanford Dependency Parser先（xiān）得到問題的依存（cún）關係樹，保留依存關（guān）係樹上所有和（hé）疑問詞及係動詞相連的名詞、動詞和介詞短（duǎn）語2.確定候選組合模型：。

對於刪減後的依存關係樹，為每個名詞和動詞分配（pèi）find模塊，為專有名詞分配lo禮品定製okup模塊，為介詞短語分配relate模塊對於這些模塊所構成的集（jí）合，選取任意子集，對兩（liǎng）兩模塊通（tōng）過And模塊進行合並組合，形成樹結構，並在頂部插入。

describe模塊或exists模塊作為根節點（diǎn）（即最終的（de）輸出節點）通過該方式，我（wǒ）們可以得（dé）到一係列候選模型3.選擇模型：對於（yú）這些候選模型，www.17C.com構造兩個特禮品（pǐn）定製征向量，通過一（yī）個MLP（多層感知機）對候選模型（xíng）進行。

打分【打分（fèn）模型】的輸入（rù）是兩個特征向量（問題（tí）特征（zhēng）和模型特（tè）征）: 問題特征向量（liàng）是將問題輸入到LSTM，把LSTM最後一個時（shí）刻的隱層向量作（zuò）為問題特征向量，模型（xíng）特征向量包含了（le）一係（xì）列的指示器（qì）（indicator），指示模型中每個（gè）類（lèi）型模（mó）塊（kuài）的數量，打分函（hán）數如下：禮品定製。

其中

為第i種組合模型，

為問題，

為LSTM的輸出，

為模型的特征向量，其餘為參數。通過softmax對各模型的得分進行計算，得（dé）到【選（xuǎn）擇（zé）各個模（mó）型的概率分布】：

其中

為【打分模型】MLP中（zhōng）的所有參數。對於每一（yī）個模型（xíng），通過執行該模型可以得到關於最終答案（àn）標（biāo）簽的概率分（fèn）布，記作（zuò）

其中

為（wéi）輸出的標簽，

為外部知識（圖片或（huò）知（zhī）禮（lǐ）品定（dìng）製識（shí）庫），

為整個【組合模型】的參數（shù）由（yóu）於候選的組合模型數量很多，在訓練的時候，www.17C.com的數據隻有（yǒu）（外（wài）部（bù）知識、問題、答案）三元組，沒有【打分模型】直接的target標簽，無法進行直接的監督訓練我（wǒ）們隻能通過執行每個候選模型，通過它的輸出和答案標簽（qiān）比對，才能確定如何選擇候選模型。

那麽問題在於（yú）執行每個候選模型的代（dài）價禮品定製比較（jiào）大（組合模型可以看作是一個深度神經網絡模型），訓練時難（nán）以承受該計算量而選（xuǎn）擇每個候選（xuǎn）模型（即執行【打分模型】MLP，是一個淺層的神經（jīng）網絡模型）的代價卻（què）相對較小（xiǎo）因此，作者提（tí）出了使用（yòng）

增強學習的方法來訓練【打分模型】，將【打分模型】計算出來的【選擇各個模型（xíng）的概率分布】看作是增（zēng）強學習中選擇動作的策（cè）略（Po禮品定製licy），選擇模（mó）型看作是動作（Action），由於www.17C.com的目標是要選擇輸出的答（dá）案盡量準確

的（de）模型，因此將選擇的模型執行後（hòu）得（dé）到的輸出概（gài）率log值（zhí）看作是獎賞（Reward）這樣www.17C.com就可以通過增強學習中的policy-gradient方法進行優化了（le）具體步驟為：對【各個（gè）模型的概率分（fèn）布】對（duì）進行采（cǎi）樣，采樣出一個模禮品定（dìng）製型z，執行模型z，得到輸出概率分布，通過（guò）policy-gradient構造以下損失函數進行優化：。

（對於增（zēng）強學習不了解並（bìng）且感興趣的朋（péng）友可以關注www.17C.com的公眾號ChatbotMagazine，之後會持續更新增強（qiáng）學（xué）習的基礎知識介紹，敬請期（qī）待）通過（guò）policy-gradient的方（fāng）法（fǎ）www.17C.com就高效的（de）完成了（le）【打分模禮品定製型】的訓練，在訓練時，打分模（mó）型和組合模型一起訓練，這樣（yàng）各個模塊的參數也一起進行（háng）訓練。

至此，www.17C.com就介紹完了www.17C.com的【問題解析】、【候選模型（xíng）構造方（fāng）式】和（hé）【打分模型】，通過以上（shàng）方（fāng）法，www.17C.com就可以根據問題得到www.17C.com的（de）組合模型，進而通過輸入（rù）外部知（zhī）識得（dé）出答案試驗與總（zǒng）結作（zuò）者用該方法同時在VQA和QA兩個領域進行了測試，禮品（pǐn）定製都取得了不（bú）錯的效果。

在（zài）QA問題上，作者（zhě）並沒有采用KB-QA的benchmark數（shù）據集，而（ér）是采用了一個數據量相對較小（xiǎo）的數據集GeoQA，該數據集的問題大多（duō）和地理位置相（xiàng）關通（tōng）過find模塊學（xué）習實體的類別特征，通過relate模塊學習（xí）關（guān）係特征，通過and模塊連接各個模塊，最後用exists或describe禮品定製模塊輸出答案。

該（gāi）方法相比一般的邏輯回歸和感知機方法有較大（dà）的提升可以看（kàn）出，這個方法具有一定程度的缺陷，如選擇模型過程中會引（yǐn）入額外（wài）的錯誤（選擇到了不是最優（yōu）的（de）模型、對問題的解析有誤），由於定義（yì）模塊是人為定義（yì）的，不一定適合所有（yǒu）的數據，需要引（yǐn）入一定的先驗知識。

總的來說，雖然該（gāi）方法在VQA和KB-QA上沒有取得禮品定製（zhì）state-of-the-art的表現，但是其方法卻有非常高的（de）創新性，具有（yǒu）很強（qiáng）的解釋性（xìng）和可擴展性（xìng），一定程度上（shàng）打破了深度學習的黑盒（打破黑盒是以後AI研究的一（yī）個重點方向），我相信該方法具有很大的潛力（lì）和研究價值，很（hěn）多領域的任（rèn）務都可以借鑒（jiàn）。

作者，四川大（dà）學博士生，劉大一恒，本文已經獲得原作者（zhě）授權，如需轉載，禮品定製請後（hòu）台聯係www.17C.com（men）或（huò）原作者（zhě）往期KB-QA係列文章揭開（kāi）知識庫問答KB-QA的麵紗（shā）1·簡介篇揭開知識庫問答（dá）KB-QA的麵紗2·語義解析篇揭開知識庫問答KB-QA的麵紗3·信息抽取篇。

標簽：

上一篇：計量模型

下一篇：動態模型

新聞動態

常見問（wèn）題

神經網絡模型

產品推薦

微信號：微信二維碼