<fieldset id='x5vlo'></fieldset>

<code id='x5vlo'><strong id='x5vlo'></strong></code>
<acronym id='x5vlo'><em id='x5vlo'></em><td id='x5vlo'><div id='x5vlo'></div></td></acronym><address id='x5vlo'><big id='x5vlo'><big id='x5vlo'></big><legend id='x5vlo'></legend></big></address>
<i id='x5vlo'><div id='x5vlo'><ins id='x5vlo'></ins></div></i>

<span id='x5vlo'></span>

    1. <tr id='x5vlo'><strong id='x5vlo'></strong><small id='x5vlo'></small><button id='x5vlo'></button><li id='x5vlo'><noscript id='x5vlo'><big id='x5vlo'></big><dt id='x5vlo'></dt></noscript></li></tr><ol id='x5vlo'><table id='x5vlo'><blockquote id='x5vlo'><tbody id='x5vlo'></tbody></blockquote></table></ol><u id='x5vlo'></u><kbd id='x5vlo'><kbd id='x5vlo'></kbd></kbd>

          <dl id='x5vlo'></dl>
          <ins id='x5vlo'></ins>

          <i id='x5vlo'></i>

          深研院信息工程學院鄒月嫻教授課分桃社區題組在人工智能頂級會議AAAI上發表論文

          • 时间:
          • 浏览:29

            最近,視覺和語言的多模態任務,例如圖像字幕和視覺問題解答(VQA)老濕福利,引起瞭天眼查學術界和工業界的廣泛興趣。但是,大多數現有的模型都專註於單個任務。深圳騰訊會議研究生院信息工程學院鄒月嫻教授課題組研究發現,這些任務存在一定的相似性,因此認為如果模型可以同時考慮這些多模態問題,則可以共同學習來自不同任務的不同知識,並且很有可能提高每個任務的效能。

            西昌南線山火蔓延近日,鄒月嫻課題組的研究“Federated Le春光乍泄arning for Vision-and-Language Grounding Problems”被在美國紐約舉行的第34屆人工智能發展協會(AAAI)人工智性情電影能會議(AAAI Conference on Artificial Intelligen我和美女房東的那些事兒ce, AAAI 2020)接收發表並以口頭匯報(Oral)的形式進行瞭展示。該研究成果提出瞭一種聯邦學習框架,可以從不同的任務中獲得各種類型的圖像表示,然後將它們融合在一起以形成細粒度的圖像表示。這些圖像表示融合瞭來自不同視覺和語言的多模態問題的有用圖像表示,因此在單個任務中比單獨的原始圖像表示強大得多。為瞭學習這種圖像表示,該課題組提出瞭對齊(Aligning)、集成(Integrating)和映射(Mapping)、網絡(aimNet)。aimNet由一個對齊模塊,一個集成模塊和一個映射模塊組成(如下圖)。

          課題組提出的集中式模型aimNet

            其中,對齊模塊通過對提取的視覺和文本特征進行相互關註來構建對齊的圖像表示,其能為顯著圖像區域提供瞭更清晰的語義描述。接下來,集成模塊著重於通過自我註意機制集成視覺和文本特征,該機制捕獲顯著區域的分組和屬性的搭配。最後,映射模塊由兩層非線性層組成,用於將學習到的細粒度圖像表示映射到特定任務的特征域。各課題組提出的模塊充分利用瞭圖像中的所有有效信息,科魯茲並將其作為輸入傳遞給解碼器,以生成有意義的句子或給出問題的準確答案。該課題組在兩個圖像字幕數據集和一個VQA數據集上,以及相應的三個聯邦學習設置上,包括水平聯合學習,垂直聯合學習和聯合遷移學習,進行實驗用於驗證該課題組的動機以及所提出方法的有效性。

            2019級碩士生劉峰林為該論文第一作者,鄒月嫻為通訊作者,該工作得到瞭數字視頻編解碼技術國傢工程實驗室、深圳市發改委(數據科學與智能計算學科發展計劃)和Aoto-PKUSZ聯合實驗室的支持。