奇富科技論文斬獲ASRU 2025,集齊語音三大頂會彰顯自研硬實力觀點

奇富科技智能語音團隊再傳捷報——多模態情感計算研究論文Qieemo: Multimodal Emotion Recognition Based on the ASR Backbone被語音領域旗艦會議ASRU 2025正式收錄。由此,奇富科技成為極少數集齊全球語音領域三大頂會(ICASSP、InterSpeech、ASRU)成果的金融科技企業,躋身全球語音技術研發第一梯隊。
奇富科技智能語音團隊再傳捷報——多模態情感計算研究論文Qieemo: Multimodal Emotion Recognition Based on the ASR Backbone被語音領域旗艦會議ASRU 2025正式收錄。由此,奇富科技成為極少數集齊全球語音領域三大頂會(ICASSP、InterSpeech、ASRU)成果的金融科技企業,躋身全球語音技術研發第一梯隊。
作為音頻理解領域的旗艦會議,ASRU(全稱IEEE Workshop on Automatic Speech Recognition and Understanding)每兩年舉辦一次,代表著全球音頻理解領域研究的最高水平。
此次入選ASRU 2025的論文,其核心價值在于構建了一個具有普遍意義的理論框架,而不僅僅是一個特定任務的模型。論文從數學建模視角出發,開創性地構建了以ASR模型為核心骨架的通用特征融合理論框架,系統論證了預訓練ASR模型編碼器多層次特征對下游音頻理解任務的本質性貢獻與關鍵作用機制。這一框架的提出,跳出了在現有模型上疊加網絡層或微調參數的常規思路,深入探索了語音表征的本質及其跨模態應用的底層邏輯,為多模態情感識別乃至更廣泛的語音理解任務提供了全新的、堅實的理論基礎。
應運而生的Qieemo模型實現,正是基于此理論框架。它以預訓練ASR(自動語音識別)模型這一廣泛可得的組件為基礎,提取文本相關的語音后驗概率特征與幀對齊的情感特征,通過自研的多模態融合模塊與跨模態注意力模塊,實現了ASR模型不同層特征的高效融合。Qieemo模型的設計理念使其具備良好的可遷移性和擴展性,其核心思想——利用ASR骨干網絡提取的深層、對齊的特征作為多模態融合的基礎——不僅適用于情感計算,也為活體識別、語義理解等其他下游相關任務,甚至跨行業(如教育、醫療、娛樂等)的智能交互場景,提供了強大的基礎工具和新的研究范式。更為重要的是,Qieemo在實時交互過程中,除提供對應的文本信息外,還能提供更深層次的情緒信息。
Qieemo開創性地讓機器真正“聽懂”了人類語音中的情感!這項突破性技術將識別準確率較傳統方法提升15%以上,更在復雜場景下實現顯著突破——在已達SOTA的單模態方案MSMSER基礎上再創4%的相對提升,讓智能客服首次具備真正的“情感理解”能力,為情感計算領域樹立了“SOTA+”的新標桿。這一性能飛躍,正是源于對底層語音特征及其作用機制的深刻洞察,而非簡單的模型復雜化。
從業務價值來看,這一技術可直接賦能金融服務全流程:在智能客服場景中,通過實時識別用戶情感波動,可動態調整服務策略,提升用戶滿意度;在信貸審核環節,結合語音情感特征與文本信息,能更精準判斷用戶信用狀態,降低風險成本。更重要的是,Qieemo所奠定的理論基礎和框架設計,為金融乃至更廣泛領域的智能語音交互,構建了一個性能更強、適應性更廣的底層平臺。
與多數依賴開源技術或外部合作的金融科技公司不同,奇富科技在人工智能核心領域堅持全鏈路自主研發,在語音識別、情感計算等前沿領域持續投入,形成了從算法設計到工程落地的完整體系。尤為關鍵的是,奇富科技的研發路徑選擇了一條更深入、更基礎的探索之路。當行業普遍聚焦于在現有神經網絡架構上堆疊層數或嘗試不同組合時,奇富科技選擇回歸問題本質,深入探究語音信號處理、特征表達與融合的底層數學原理和機制。這種對基礎理論和原創框架的執著追求,使其在技術深度、應用靈活性以及長期競爭力上占據極大優勢。
奇富科技首席算法科學家費浩峻表示:“完成三大頂會收官不是終點,而是奇富科技語音技術生態的起點。Qieemo模型的建立,標志著我們在構建基礎性語音理解能力上邁出了關鍵一步。它不僅服務于我們自身的金融場景,其理論內核和設計思想具備向同行乃至跨行業輸出的潛力。我們將持續探索語音技術與人機協作的融合臨界點,堅持在基礎理論和核心框架上的創新,讓金融科技有精度更有溫度,也讓更廣泛的智能世界受益于我們對底層邏輯的深刻理解。”
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。