論蘋果是如何將面部識別技術(shù)一步步發(fā)展起來的?智能
蘋果推出了iPhone X 之后,業(yè)內(nèi)人士才明白了為什么蘋果這幾年瘋狂收購3-D 傳感器制造商 PrimeSense、圖像識別公司 Perceptio、增強(qiáng)現(xiàn)實(shí)公司 Metaio 和 運(yùn)動(dòng)捕捉技術(shù)公司 Faceshift和研究的意義…
蘋果推出了iPhone X 之后,業(yè)內(nèi)人士才明白了為什么蘋果這幾年瘋狂收購3-D 傳感器制造商 PrimeSense、圖像識別公司 Perceptio、增強(qiáng)現(xiàn)實(shí)公司 Metaio 和 運(yùn)動(dòng)捕捉技術(shù)公司 Faceshift和研究的意義是什么。
而這款跨時(shí)代的機(jī)型中最重要的新功能可能就是人臉解鎖和定制表情(Animoji)以及其背后的人臉追蹤技術(shù)。蘋果認(rèn)為 iPhone X 代表了移動(dòng)設(shè)備技術(shù)的未來,目前從很多方面來看,事實(shí)確實(shí)如此。雷鋒網(wǎng)覺得,如果去追溯面對消費(fèi)者的重大科技進(jìn)步,你會(huì)發(fā)現(xiàn)大多數(shù)技術(shù)突破都是在無聊的大學(xué)實(shí)驗(yàn)室里產(chǎn)生的。而在Animoji 的例子中,技術(shù)研究是從十年前一些歐洲頂級科技類高校里開始的。
技術(shù)的開端
《阿凡達(dá)》工作照
2005 年左右,運(yùn)動(dòng)捕捉技術(shù)仍處在實(shí)驗(yàn)室階段。用《阿凡達(dá)》舉例,要想制作人物角色細(xì)微的表情和動(dòng)作,需要演員穿上帶有小球的衣服,并在面部涂上標(biāo)記點(diǎn)。這些小點(diǎn)作為標(biāo)記,幫助光學(xué)系統(tǒng)追蹤面部和身體的動(dòng)作變化,最終模擬出電影的動(dòng)態(tài)效果。“標(biāo)記點(diǎn)非常有用,因?yàn)樗鼈兒喕诉\(yùn)動(dòng)追蹤的計(jì)算。”Faceshift 的聯(lián)合創(chuàng)始人 Mark Pauly 解釋道(Pauly 還是瑞士洛桑 EPFL 大學(xué)計(jì)算圖形和幾何實(shí)驗(yàn)室的主管)。
標(biāo)記點(diǎn)技術(shù)十分有用,但是需要使用大量設(shè)備——一個(gè)工作站、運(yùn)動(dòng)捕捉套件、演員還需要全身穿著標(biāo)記點(diǎn)。Pauly 實(shí)驗(yàn)室的博士生 Hao Li(目前是 USC 的視覺圖像實(shí)驗(yàn)室主管)說:“無論你想制作什么,這種技術(shù)所要花費(fèi)的時(shí)間和成本都太高了。我們想要把它變得簡單一些。”
所以,Pauly、Li 和其他一些研究者們(包括 Thibaut Weise,、Brian Amberg 和 Sofien Bouaziz,他們目前都就職于蘋果),開始探索如何使用深度感應(yīng)相機(jī)的長鏡頭來代替點(diǎn)標(biāo)記和運(yùn)動(dòng)捕捉套件,完成面部表情追蹤。他們的目標(biāo)是制作可以實(shí)時(shí)捕捉人類表情的動(dòng)態(tài)數(shù)字頭像。
但是這里的問題在于:人臉跟蹤算法是出了名的復(fù)雜。Li 把人臉稱為“圖形運(yùn)算中的圣杯”,因?yàn)槿四樳\(yùn)算實(shí)在太難。不同于靜態(tài)物體,人臉總是持續(xù)變化,因此沒有一個(gè)普遍的運(yùn)算法則可以通用。
讓機(jī)器讀懂表情
為了讓機(jī)器可以識別出面部運(yùn)動(dòng),必須讓它看懂形式各異的人臉。“算法必須對變幻的光線、頭部的旋轉(zhuǎn)、人種和年齡方面同的形態(tài)標(biāo)準(zhǔn)等保持其穩(wěn)定性。”專攻汽車和金融領(lǐng)域的面部追蹤軟件公司 Visage Technologies 的市場主管 Dino Paic 解釋道。
在 2005 年前,3-D 深度感應(yīng)相機(jī)的發(fā)展已經(jīng)足以捕捉面部動(dòng)作。但是更大的挑戰(zhàn)在于教會(huì)計(jì)算機(jī)如何理解捕獲到的數(shù)據(jù)。Li 說:“這里的問題是,即使你可以看到所有點(diǎn)的數(shù)據(jù),但這對于計(jì)算機(jī)來說,毫無意義。”
為了解決這一問題,Li 和他的團(tuán)隊(duì)將人臉當(dāng)作幾何圖形來求解。他們使用大量面部表情來不斷訓(xùn)練算法,創(chuàng)建大量可以被描述出的數(shù)字 3-D 模型,進(jìn)而描繪出不同人種、不同環(huán)境下的人臉模型。利用這些計(jì)算好的模型,算法就可以更容易地自動(dòng)匹配面部 3-D 標(biāo)記點(diǎn),實(shí)現(xiàn)實(shí)時(shí)捕捉面部表情,創(chuàng)建模擬頭像。
臉的價(jià)值
Pinscreen 此前惡搞川普的圖片
目前,視覺特效公司大都在產(chǎn)品制作中使用原有技術(shù),但是這個(gè)主流將會(huì)被新技術(shù)所取代,相信過不了多久,像蘋果的 Animoji 和 英特爾的“Pocket Avatars”(可以將你的臉植入進(jìn)各種圖像中)這種使用面部識別軟件的應(yīng)用將會(huì)越來越多。
Li 說,面部模仿的 emoji 表情還只是一個(gè)開始。他現(xiàn)在正在運(yùn)作一個(gè)專注于圖形擬真計(jì)算的創(chuàng)業(yè)公司——Pinscreen,他們最近正在研究一個(gè)基于單源照片的超現(xiàn)實(shí) 3-D 頭像的算法。
去年秋天的總統(tǒng)大選后,Pinscreen 放出了一系列“跳舞的川普”GIF 圖,展示了它目前的技術(shù)能力。這組 GIF 還不是最為復(fù)雜的——川普的臉還有一些 CGI (電腦三維動(dòng)畫)產(chǎn)品遺留的模糊感。但是他們已經(jīng)為未來的發(fā)展奠定了基石。我們相信,未來任何人都可以創(chuàng)建出一個(gè)現(xiàn)實(shí)感的頭像,通過頭像說話和動(dòng)作。Pinscreen 的技術(shù)仍在測試中,但它的發(fā)展?jié)摿赡芗攘钊思?dòng),又隱隱有些擔(dān)憂。
擔(dān)憂的是:隨著這種技術(shù)的發(fā)展和不斷應(yīng)用,現(xiàn)在還能分清現(xiàn)實(shí)和虛擬的區(qū)別的我們,不久以后,可能越來越難以區(qū)分真假了。
99VR視界君說:也許這些擔(dān)憂也是多余的,未來技術(shù)能發(fā)張到真假難辨的時(shí)候,相應(yīng)破解及識別的技術(shù)也一定會(huì)應(yīng)運(yùn)而生的。
來源:99VR視界
1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會(huì)明確標(biāo)注作者和來源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請轉(zhuǎn)載時(shí)務(wù)必注明文章作者和"來源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會(huì)經(jīng)TMT觀察網(wǎng)編輯修改或補(bǔ)充。