數據決定人工智能前景,Testin 云測助力產業落地的未來互聯網+

在數據標注行業,AI發展和數據標注產業是一個雞生蛋,Testin云測旗下AI數據服務(數據標注采集)品牌——云測數據總經理賈宇航這樣說道。
雖然早在2017年,“AI元年”的噱頭就已經打響,但直到近期,業界才終于承認,各項技術紛紛實現落地的2019年,才是名副其實的“AI元年”。在“互聯網”成為傳統產業的今天,基于各項AI技術實現的無人駕駛、智慧家居、新零售等新概念爭先恐后出現,而物流、制造業等傳統產業也沒有落后于時代潮流,紛紛尋求借助AI進行產業升級,擁抱智能化,而在勢不可擋的智能化大潮前,始終藏在幕后構建技術地基、協助技術實現落地支撐的數據標注服務,在其中扮演了關鍵性的重要角色,是AI行業里真正的“隱形關鍵”。
在過去,數據標注行業很少出現在人們的視野中,但業內卻有著相同的共識:沒有好的數據,AI就沒有未來。
這句話并不夸張。目前為止,我們所看到的人工智能,已經跳脫出枯燥單一的計算,轉化為以深度神經網絡為主的新智能體系,而深度神經網絡對于數據有很強的依賴性,所以,憑借對體量龐大的結構化和半結構化數據進行高效率的深度分析,挖掘隱性知識,AI系統才能將海量、復雜、多源的語音、圖像和視頻數據轉化為機器可識別的、具有明確語義的信息,借此進行機器的自主學習。而不夠精準卻足量的數據,則會讓AI的識別學習系統產生混亂和誤差。在谷歌發布的CNN報告中,就提到一個嚴重的問題:自動駕駛車輛的識別系統難以分辨黑色人種和同為靈長類的大猩猩,所以相比白種人、黃種人,黑色人種的辨別率會低10%,——如果采用更多的、經過精密標注過的數據,這樣的誤差可以很大程度的緩解。
其實,在自動駕駛領域,精準海量的數據標注,價值不僅僅體現在識別上,在逐漸成為汽車標配的輔助駕駛方面,數據標注也有很強的存在感。在輔助駕駛過程中,有一個關鍵功能叫做駕駛員疲勞檢測,通過視覺識別的方式監測駕駛員的狀態,識別是否分神,是否在打電話,是否在打瞌睡,而在輔助駕駛的過程中,駕駛員也極有可能出現注意力不集中的情況。在更細致精密的數據標注介入后,識別系統被賦予了一系列能力,比如疲勞監測系統、危險動作監測系統等,在用戶享受便利的同時,能使得公路駕駛更加安全,解決了這樣的問題,自動駕駛和輔助駕駛才得以廣泛推廣和應用。
在高科技產業的實際落地中,數據的重要性有目共睹,而在助力傳統產業智能化方面,數據標注也有著廣闊的賦能前景。一個非常容易被感知到的變化是,我們在致電銀行、通信運營商,或者接到他們的服務電話時,會發現很多坐席人員變成了AI語音助手,能夠精準識別天南海北的方言提出的疑問,這要歸功于數據標注在方言識別上的突破,使得坐席人員可以從簡單的問題中或通知性溝通中解放出來,將精力專注于服務更棘手的特殊問題,不僅提高了話務人員的工作效率,也減輕了機械性人工的投入。
“不僅是要服務高新技術產業,扶持和賦能傳統產業的智能化升級,也是我們的使命,通過高純凈度的數據標注服務,無論是高科技產業,還是傳統產業,都能獲得智慧升級的機會。”Testin云測旗下AI數據服務(數據標注采集)品牌——云測數據總經理賈宇航這樣說道。
創新和技術改造傳統數據標注
雖然不如科技公司光鮮亮麗賺足眼球,數據標注行業一直巧居幕后默默無聞。根據2018年智研發布的《2019-2025年中國數據標注與審核行業市場專項分析研究及投資前景預測報告》顯示,近幾年,數據標注與審核行業快速發展,2018年市場規模已達到52.55億元,而在這樣的增量市場中,大批看到了企業需求的從業者瘋狂涌入,使得整個行業出現良莠不齊的情況,數據粗放、混亂、復用的情況屢見不鮮,在賈宇航看來,這樣的數據導入到機器學習中,結果是得不償失的。
“AI發展和數據標注產業是一個雞生蛋,蛋生雞的邏輯,如果數據不夠純凈,就像人吃了壞掉的食物,只會產生病狀,不能起到吸收利用的作用。用到機器學習中,就會破壞AI的數據學習體系,產生大的誤差,而誤差產生后,后續的自主學習又會產生偏離,形成惡性循環。”
面對這樣的問題,云測數據做出了一系列的應對措施。
為了滿足不同場景的特殊需求,云測數據搭建了自己的場景實驗室,為各種細分場景模擬無噪的專屬數據。在數據標注行業,特定場景的數據在普通的場景下始終是可遇不可求的,比如馬路上的摔倒場景,如果真的調取某一個特定道路攝像頭的資料,符合“路人摔倒”要求的畫面也許在1000分鐘里都難以捕捉到一次,更不能滿足各種角度、各個時段、不同年齡、著裝、性別的學習要求。面對這種指向明確的需求,云測數據會搭建特定的場景棚,邀請各種“演員”,模擬不同的形態進行采集;為了采集不同的情緒在面部五官上的表現,云測數據甚至還在橫店建立了一個數據場景實驗室,專門邀請橫店具有面部表情表現力的群眾演員,為企業錄制精準的情緒,以滿足需要識別情緒的場景。
完成數據收集后,標注的過程依然存在挑戰。在更多的數據標注企業中,依然在沿用傳統的標注工具,“小米加步槍”式地進行數據標注,而云測數據團隊研發的標注平臺,率先實現了全品類支持,同時滿足AI數據的三個維度:圖像、文本和音頻。在實際生產使用的過程中,針對一些特殊的標注,例如自動駕駛中的3D模型,由于文件大、渲染速度慢,導致標注效率很低,而這套自研的標注工具中包含的渲染引擎,就能保證整個過程的流暢和快捷。憑借這樣工程化的研發改造,在面對客戶的定制化的需求時,云測數據保證了自身的能力觸達和及時響應,從而提高了服務能力和效率。在保證準確性的同時,降低了人為因素可能導致的誤差,確保了降本提效。
在數據標注行業,復制一份數據是非常簡單的,也能節省大量的人力成本,在業內成了大家心知肚明的“潛規則”。作為頭部選手的云測數據,核心的原則,就是保證數據隱私性和安全性,而首先要做到的,是數據絕不復用。出于強烈的自我規范意識,云測數據對客戶定制的數據交付后不留底,全部清刪;第二就是保證數據隱私性。與所有數據采集的用戶都簽訂數據授權協議,包括歐盟GDPR協議也做支持,確保AI企業用于訓練的數據合法合規;第三,建立相關的數據保障機制,如從防火墻的設置、內部信息系統的管護、各個終端也做了不聯網、USB接口封死等管理,從源頭上保證了客戶的數據安全。
“從整體看來,AI數據行業關于安全、隱私等方面并沒有統一的標準和強調重視。但從我們長遠角度出發,一直在隱私和安全防護角度下大力氣服務行業、樹立數據質量標桿,只有以這種負責的態度來服務客戶,我們的行業才能‘良幣驅除劣幣’,真正讓人工智能成為新一輪技術革命,改變整個社會和人類進程”。Testin云測CMO張鵬飛說道。
告別“血汗工廠”,培新+晉升讓人工更“智能”
即便運用了各種技術手段,增加標注行業的技術含量和安全性,但由于行業過于低調,外界對這個行業依然存在誤解,認為數據標注是“AI產業的富士康”,與AI“去人工化”的本質相違背。事實上,在云測數據的各個標注基地,近千人的標注團隊并非人們固有印象中的“血汗工廠”。云測數據十分注重對標注人員的專業性培訓,也致力于用自研的標注工具這樣的技術手段,減輕“人”在數據標注中的重復勞動力。
從技術層面來說,云測數據自研的數據標注平臺會根據實際使用中的反饋,以每周甚至更快的頻率進行更新,以契合標注平臺更人性化的使用。基于云測數據在過去的幾年里進行的海量技術更新,并結合更多的落地場景,數據標注工作的技術含量也在不斷提升。
從管理角度來看,過去數據標注業經常會面對“血汗工廠”的誤解,有暗無天日、機械重復的固有印象。但實際上,云測數據的標注基地采取八小時工作制,也會提供用餐補助,讓員工吃上安全豐盛的工作餐。此外,標注人員在云測數據也會享受到完善的晉升機制,從標注員到審核人員、項目助理、項目經理,云測數據提供了一條明確的職業上升路線,致力于協助標注人員進行職業規劃和職業發展。至于近千人的用工規模,賈宇航認為,這和AI的本質也并不違背:
“AI就是要去人工化,這句話太片面,它其實也在創造更多的就業崗位。就像工業革命到來以后,很多手工作坊消失了,但我們也看到,更多的人工投入到了工業革命所創造出的其他行業中,AI的出現,同樣也是擴大了人類的生產力。我相信其實人工智能的確會替代很多重復性勞動,但我不認為人的工作會變少,數據標注只是像工業革命一樣,創造了更多的就業機會,同時也在推動行業的技術升級。”
在云測數據看來,將技術升級引進數據標注的過程,不僅僅是在解放重復生產力,對行業的推動也是巨大的,在云測數據內部,有著“一橫一縱”的說法,一橫,指的是有越來越多的行業會引入人工智能,而云測數據將在駕駛、家居、零售、金融和智慧城市等更多領域持續發力;一縱,指的是深挖行業趨勢,結合領域相關的知識,提高AI數據精度、效率。
在未來,云測數據希望沿著人工智能的發展動線,通過AI數據服務的支撐,推動不同產業積極擁抱智能化,助力各行各業的發展。而在這樣的趨勢中,緊密鏈接產業鏈上下游的云測數據已經做好了準備,在潛在的爆發機會中,云測數據蓄勢待發,為一場行業變革積累著可觀的勢能。
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。