讓計算機看懂世界靠譜嗎?智能識別技術大行其道觀點
互聯網發展之初受到網絡帶寬、數據存儲等相關技術的限制,信息的傳播以單模態形式為主,如文字報道、圖像相冊等。進入大數據時代,信息的傳播變得豐富多彩,人們從互聯網中同時接受圖像、視頻、…
智能識別技術 讓計算機看懂世界
互聯網發展之初受到網絡帶寬、數據存儲等相關技術的限制,信息的傳播以單模態形式為主,如文字報道、圖像相冊等。進入大數據時代,信息的傳播變得豐富多彩,人們從互聯網中同時接受圖像、視頻、文本等不同模態的信息。例如,當我們在互聯網上瀏覽一篇精彩的新聞報道時,不僅可以看到詳細的文字描述,還能看到記者在現場拍攝的照片,甚至還有相關的視頻報道。這體現了互聯網數據從單模態到多模態的轉變。
隨著互聯網多模態數據的大量出現和傳播,“管不住”和“用不好”兩大問題也日益突出。“管不住”是指多模態大數據中隱藏著大量涉恐、涉暴等有害信息,極大地危害著國家安全和社會穩定,目前還缺乏自動的分析與識別技術。“用不好”是指現有技術一般是單模態分析與識別,僅針對信息有限的單模態數據,難以對多模態數據進行有效利用。如何讓計算機看懂世界,實現對互聯網多模態大數據的有效監管與利用,是目前急需解決的重大問題。
針對上述問題,北京大學彭宇新教授團隊在國家自然科學基金、國家863計劃、國家科技支撐計劃等支持下,歷經10余年技術攻關,在圖像視頻概念檢測、視覺目標檢測、多模態數據分析與識別、互聯網輿情監測四個方面取得了多項重大技術突破和發明創新。在2016年北京市科學技術獎評選中,“互聯網多模態內容分析與識別關鍵技術及應用”項目榮獲一等獎。
突破單模態分析與識別技術
單模態分析與識別是突破互聯網多模態內容識別的基礎和關鍵技術。圖像、視頻和文本是單模態信息的重要形式,如何使計算機能夠自動分析與識別圖像、視頻和文本的內容便成為了研究與應用的難點問題。
圖像、視頻中一般包含某種語義概念,如籃球比賽、奧運會等;同時也包含視覺目標,如行人、汽車、旗幟等。
“雖然人類能夠很容易地識別與理解這些概念與目標,但在計算機看來,數字圖像就是由一個個像素點構成,這樣人類的語義概念及視覺目標與計算機看到的二進制數值之間就存在難以逾越的‘語義鴻溝’。”北京大學彭宇新說。
由于圖像、視頻的語義概念比較抽象、視覺目標復雜多變,如“奧運會”這一概念很難從視覺上準確定義,而“旗幟”等目標不具有固定的形態,導致計算機自動分析與識別的難度很大。
彭宇新團隊針對圖像視頻概念檢測難題,發明了基于注意力模型和增量深度學習的分類方法,一方面注意力模型能夠定位圖像的顯著性區域以提高檢測精度;另一方面增量學習在新概念增加過程中,能夠利用已經學習到的知識加速新知識學習,同時通過動態擴容以支持新概念的檢測。該方法使得特定概念的檢測精度突破90%。針對復雜場景下視覺目標檢測問題,發明了級聯分類器與極角拓撲約束相結合的判別方法,一方面通過級聯分類器從海量數據中快速篩選出可能包含特定目標的候選區域,加快檢測速度;另一方面通過極角拓撲約束對候選區域進行二次判別,提高檢測精度。該方法提高了低分辨率、形變、仿射變換等復雜情況下的檢測效果,使得特定視覺目標檢測精度突破90%。基于上述研究成果,彭宇新教授團隊參加了國際權威評測TRECVID的視頻高層概念檢測比賽,獲得第一名,參賽隊伍包括卡內基梅隆大學、牛津大學、IBM Watson研究中心等國際著名大學和研究機構。
在文本內容分析上,熱點話題檢測與敏感信息發現是互聯網輿情監測的兩個主要應用需求。熱點話題與敏感信息通常包含特定的人名、地名、機構名等實體信息,有效地識別實體信息是文本內容分析的關鍵。針對上述問題,項目團隊發明了基于知識元的多模態語義分析方法和基于情感觀點的話題追蹤方法,有效解決了互聯網內容的語言規范性差、噪音大、時效性高導致實體難以識別和利用的問題。在國際權威評測TREC 2014年和2015年的微博信息檢索比賽中獲得第一名。
多模態內容的語義協同
“與互聯網數據的發展趨勢一樣,我們的研究思路也是從‘單’到‘多’,以單模態內容的分析與識別技術為基礎,重點研究多模態內容的分析與識別技術。”彭宇新說到。
多模態數據在語義表達上具有“共通性”,在內容上也是互相關聯的。據此,項目團隊提出了基于多模態分解與融合的語義協同方法,綜合分析圖像、視頻、文本等多模態內容以獲得更加全面準確的識別結果,并通過跨模態語義互補性實現多模態數據的綜合分析與有效利用。
項目團隊首先提出了多模態分解方法,能夠對包含一種或多種模態的輸入數據,按照模態的不同自動分發到對應的分析與識別模塊。例如,對于視頻,首先進行鏡頭分割和關鍵幀提取,然后分發到鏡頭檢索、片斷檢索、概念檢測、視覺目標檢測、人臉識別和視頻字幕識別等模塊。基于多模態信息的分發結果,對各模態內容分別進行分析與識別,提取文本、圖像、視頻鏡頭、視頻片斷、視覺對象(如視覺目標、人臉)等語義描述信息。進一步對多模態數據進行關聯分析,構建多模態關聯圖來融合不同模態的分析結果,從跨模態關聯層面糾正單模態語義描述中的錯誤結果,以實現多模態信息的語義協同優化。
基于上述成果,項目團隊于2009年—2016年多次參加國際權威評測TRECVID的視頻語義搜索比賽,均獲得第一名。
管住與用好互聯網大數據
“除了‘科技頂天’,在關鍵核心技術上取得突破,我們也追求‘市場立地’,將我們的技術實現產業化,服務于社會。這也是我們北大計算機研究所的創立者王選院士對我們的要求。”彭宇新說道。
瞄準互聯網大數據 “管不住”和“用不好”這兩大難題,項目團隊以上述技術為核心,形成了互聯網多模態內容分析與識別系統、方正智思互聯網輿情監測分析系統、方正智思智能分析系統等系列產品,實現了對互聯網文本、圖像、視頻等多模態內容的全面監測與數據利用。
項目團隊的系統和產品已成功應用于國家相關部門等上百家重要單位,涵蓋多個行業領域,在維護我國互聯網內容安全、促進網絡文化健康發展等方面發揮了巨大作用。
來源:科技日報
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。