螞蟻持續發力AI研發,24篇論文入選計算機視覺頂會CVPR2024觀點

當地時間6月17日,為期5天的IEEE國際計算機視覺與模式識別會議(CVPR2024)在美國西雅圖舉辦。
當地時間6月17日,為期5天的IEEE國際計算機視覺與模式識別會議(CVPR2024)在美國西雅圖舉辦。官方數據顯示,本屆會議共收到11532篇有效論文投稿,接收了其中2719篇,錄用率為23.6%,比例低于往年。
CVPR主辦方是IEEE,為全球計算機視覺三大頂會之一,迄今舉辦了40次會議。本屆會議螞蟻集團有24篇論文被收錄,其中一篇被組委會重點推薦(highlight)。24篇論文研究方向包括計算機視覺、深度學習、數字人、大模型等。
被組委會重點推薦的論文“用于時序一致性視頻處理的內容變形場”,提出了一種全新的視頻處理方法CoDeF,它能將視頻處理簡化為圖像處理。相較于傳統方法,CoDeF能夠實現跨幀一致性,跟蹤煙霧、水流等非剛性物體,支持各種圖像算法直接用于視頻處理。用戶只需要處理每個視頻對應的靜態規范圖像,通過形變場的變換,就可將圖像處理結果自然地沿著時間維度進行傳播,達到對整個視頻處理的目的,也因此保證了高度的時序一致性。
據了解,這二十余篇學術成果,有部分已經在真實業務場景中落地應用。比如“面向地球觀測影像通用解譯的多模態遙感基礎模型”一文,介紹了螞蟻自研的多模態遙感基礎模型SkySense,它是迄今為止國際上參數規模最大、覆蓋任務最全、識別精度最高的多模態遙感基礎模型。在17 項國際權威測試場景中,SkySense 的指標全面超過國際同類產品。
目前,SkySense已應用于網商銀行的衛星遙感風控系統“大山雀”,可精準識別和捕捉20多種農作物的種類和長勢,讓它們成為銀行認可的資產抵押物,從而靈活、隨時給到種糧戶合理的貸款額度和還款周期。
還有部分學術成果,致力于優化和提高AI的可靠性、經濟性和易用性,為AI持續降本增效,以推動大模型在真實場景,尤其是嚴謹產業中得以規模化落地應用。比如“基于promp的視覺語言模型無監督蒸餾”一文,提出了一種基于可學習提示的視覺語言模型 CLIP 的蒸餾方法,可將大型 CLIP 教師模型的知識遷移至輕量級 CLIP 學生模型中。這是將大模型做“小”,提高AI經濟性的有效技術解決方案,AI降本,大模型應用才有可能成為主流。實驗結果表明,該蒸餾方法訓練出的模型,在多個數據集上達到了最先進的性能。
據介紹,螞蟻此次被CVPR收錄的24篇論文中,有13篇出自螞蟻技術研究院。作為螞蟻聚焦前瞻科技的科研團隊,螞蟻技術研究院設立了交互智能、數據庫、圖計算、計算系統、程序設計語言與編譯器、密碼學等六個實驗室,以推動實現幾個階段性目標:在人工智能方向,能做出真正通過圖靈測試的智能模型,以及可以以假亂真、實時可交互的高精度數字人;在隱私計算方向,實現隱私計算軟硬件結合加速10萬倍;在數據方向,做到讓數據庫更智能,以及在圖計算上部署大腦模擬和融合神經科學的智能機理研究。
據了解,清華大學、南京大學、華中科技大學、哈爾濱工業大學、西安電子科技大學、華南理工大學、騰訊、字節跳動等國內高校和互聯網企業均有論文被該會議收錄。在這波生成式AI科技浪潮下,國內校企正在發力積極參與其中。
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。