搜狗推出唇語識別技術,不過落地還需時間觀點
目前這一黑科技通用場景的準確識別率還比較低、泛化性不足,技術落地還需時間。
從鍵盤打字到觸控屏,再到現在的語音交互和手勢交互,人工智能技術的發展,正在促使人機交互方式向更加多元化方向變革。
當前市場上漸漸出現一種新的人機交互新技術——唇語識別。與語音識別不同,唇語識別是基于機器視覺與自然語言處理于一體的技術,不用聽聲音,僅靠機器視覺識別說話人唇部動作,就能解讀說話者所說的內容,因此在研發難度上也比語音識別大得多。
就在剛剛過去的第四屆烏鎮互聯網大會上,一直專注搜索的搜狗竟然也亮相了唇語識別這一黑科技。12月14日,搜狗在北京舉行了媒體溝通會,公開演示了唇語識別這項新技術,包括背后的技術原理、研發動因以及未來的場景應用。
搜狗語音交互中心技術總監陳偉向鈦媒體介紹,得益于搜狗自然語言處理方面的強大優勢,搜狗首創了復雜端到端深度神經網絡技術進行中文唇語序列建模,通過數千小時的真實唇語數據訓練,建立了10萬詞以上的詞匯表,取得不錯的識別效果。
具體而言,搜狗通過攝像頭從圖像中連續識別出人的唇形,提取說話人連續的口型變化特征,然后將這些唇語特征放入唇語識別模型進行解碼,從唇語文本數據到唇語語言模型進一步獲取發音單元,最終輸出文字。
目前,搜狗在非特定人開放口語測試集上,即搜狗唇語識別系統的通用識別的準確率在60%以上,超過google發布的英文唇語系統50%以上的準確率;而在垂直場景下,如車載、智能家居等場景下已經達到90%的準確率。
其實唇語識別并不神秘。早在2003年,英特爾公司就曾推出一款名叫視聽說識別系統的軟件,電腦開發者可以在此基礎上研制讀懂“唇語”的計算機;而國外技術最純熟的谷歌,其DeepMind團隊在2016年使用BBC新聞視頻,對AI系統進行訓練,視頻總長超過5000小時,然后以當年3月到9月的視頻節目進行測試,唇語識別正確率達到了46.8%。
這個正確率雖然不算高,但實際上正常人的唇語識別能力也只在10%左右,一些受過訓練的唇語專家則可以達到40%左右。可以想見,唇語識別技術的壁壘之高。
在國內,BAT這些互聯網巨頭雖未涉足這一領域,但也有一些創新公司在唇語識別技術方面取得了突破。
今年3月,國內專注于大數據可視化的海云數據也試水唇語識別,發布了其與重慶市公安科研所共同研發的唇語識別技術成果。在研發階段,海云訓練了1萬小時新聞類節目,來判斷嘴型的準確度和語言的準確性。有報道稱,海云數據的唇語識別技術在中文識別率已高達71%,英文識別率達到80%。
但陳偉也強調,唇語識別最大的難點在于泛化性。之所以這一技術尚未得到普及,很大程度上是識別率不能做到像語音識別那樣高,做不到普適性,應用的意義也就不大。
從谷歌唇語識別系統訓練來看,測試集與訓練集其實是同源的,都來自廣播電視新聞,而眾所周知這些播音主持人在發音、吐字、唇形變化等方面都比普通人要標準,如果將測試選擇在普通人時,識別率應該會更低。
搜狗為了突破唇語識別的泛化性,一方面通過各類新聞、電視節目的數據進行訓練,另一方面通過搜集大量普通人的唇語數據進行訓練,提升了唇語識別的泛化效果。另外,具體到車載、智能家居場景時,搜狗團隊又通過限定場景、限定語句等形式,對唇語識別準確性做了進一步優化。
因此,在未來場景落地上,搜狗唇語團隊將關注兩方面,一方面可以和語音識別技術相結合解決遠場環境下的語音問題,另一方面唇語識別作為人機交互的形式之一,輔助語音交互及圖像識別,在日常生活、安防、公益等各個領域實現廣泛應用。
車載場景下,周圍噪音過大時會對語音指令產生干擾,通過唇語識別技術則可以規避干擾,保證人車交互的準確性和穩定性,日常不便發聲的公共場所也可以保證說話內容的私密性。
在安防領域,由于目前多數監控只有攝像頭沒有麥克風,往往只能看清嘴型卻不知道在說什么,給案情分析帶來很多難題,而唇語識別技術可以幫助公安人員獲取重要的講話信息,為公共安全提供有效支持。
在公益事業領域,唇語識別技術還能發揮巨大價值,幫助先天性聽障人群或老年人,讓他們更好地理解和表達自己。
時至今日,人工智能的發展速度已經完全超出了我們的想象,那些電影里的炫酷黑科技正在一步步成為現實出現在我們的生活中。隨著AI技術的發展,相信在不遠的將來,唇語識別也能像語音識別、圖像識別一樣成為我們生活中隨處可見的一部分。
(來源:鈦媒體 作者:張葉)
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。