AI語(yǔ)音對(duì)話何時(shí)擺脫智障?互聯(lián)網(wǎng)+
給我一個(gè)靈活,有創(chuàng)意的對(duì)話AI
一鳴網(wǎng)8月1日前沿觀察:(謝東霞|關(guān)注人工智能、物聯(lián)網(wǎng))近期谷歌又更新了其新的聊天機(jī)器人——Dialogflow企業(yè)版接管呼叫中心。Dialogflow是基于谷歌的Duplex技術(shù)開發(fā),該技術(shù)使得客戶獲得更好的人機(jī)交互體驗(yàn),使得對(duì)話聊天更加自然。這項(xiàng)技術(shù)借鑒了谷歌的深度學(xué)習(xí)研究和來(lái)自 Alphabet DeepMind 的開創(chuàng)性人工智能。 Deepmind 的 WaveNet 技術(shù)賦予了聊天機(jī)器人“聽起來(lái)像人類”的特點(diǎn)。 Wavenet 用超過(guò)70% 的人聲縮小了機(jī)器人與人聲的語(yǔ)音差距。
百度研究院前段時(shí)間也推出了他們有關(guān)TTS的成果——ClariNet,在語(yǔ)音的自然度方面成功地超越了其他方法,成為百度在TTS研究上的又一里程碑。此前基于神經(jīng)內(nèi)網(wǎng)絡(luò)的TTS模型是將優(yōu)化的文本到聲譜圖和波形合成模型分開來(lái)的,這可能會(huì)導(dǎo)致不理想的表現(xiàn)。而ClariNet第一次做到了用完全的端到端TTS模型,直接將文本轉(zhuǎn)換成波形圖,并且只需要一個(gè)神經(jīng)網(wǎng)絡(luò)即可。
超越機(jī)器學(xué)習(xí)的新工具
對(duì)話AI是人工智能的一個(gè)子領(lǐng)域,專注于在人與計(jì)算機(jī)之間產(chǎn)生自然而無(wú)縫的對(duì)話。 近年來(lái),在自動(dòng)語(yǔ)音識(shí)別(ASR),文本到語(yǔ)音(TTS)和意圖識(shí)別等方面都產(chǎn)生了重大改進(jìn),但是,我們距離科幻小說(shuō)中所承諾的流暢的人機(jī)對(duì)話還有很長(zhǎng)的路要走。機(jī)器學(xué)習(xí)在過(guò)去幾年推動(dòng)了面部識(shí)別,語(yǔ)音識(shí)別和對(duì)象識(shí)別等領(lǐng)域取得重大進(jìn)步,使許多人相信它將解決會(huì)話AI存在的問(wèn)題。
機(jī)器學(xué)習(xí)特別適合于涉及在大型數(shù)據(jù)庫(kù)中查找的問(wèn)題,例如有關(guān)會(huì)話AI中語(yǔ)音識(shí)別、語(yǔ)音合成的問(wèn)題就能通過(guò)機(jī)器學(xué)習(xí)提供很好的解決方案。近幾年,計(jì)算機(jī)對(duì)話的研究主要關(guān)注自然語(yǔ)言理解,人工智能理解人類意圖的能力也有了很大進(jìn)步。但是在自熱語(yǔ)言生成方面還有很大的挑戰(zhàn),自然語(yǔ)言對(duì)語(yǔ)境十分敏感,往往是一種含糊不清的狀態(tài),通過(guò)機(jī)器學(xué)習(xí)收集分析大量的數(shù)據(jù)很難生成合適的回答,能夠維持持續(xù)可靠的對(duì)話狀態(tài)將是接下來(lái)對(duì)話管理要關(guān)注的主要問(wèn)題,我們需要超越機(jī)器學(xué)習(xí)的新工具來(lái)有效管理人機(jī)對(duì)話的所有方面。
追求更高保真度的對(duì)話
現(xiàn)在大多數(shù)的會(huì)話體驗(yàn)要么是廣泛但是很淺,(例如,“時(shí)間是什么時(shí)候?”=>“時(shí)間是早上9點(diǎn)45分”)要么是深入但是狹窄(例如,在測(cè)驗(yàn)游戲中多場(chǎng)景的人物對(duì)話)。我們需要超越這些會(huì)話限制,進(jìn)入到一個(gè)廣泛而深入的對(duì)話世界。會(huì)話AI需要更好地理解用戶輸入的上下文,能夠做出適當(dāng)?shù)仨憫?yīng),強(qiáng)有力地跟蹤對(duì)話的狀態(tài)。
在人類彼此之間的自然對(duì)話中,每個(gè)人都會(huì)根據(jù)談話對(duì)象之前的經(jīng)歷,作出為他們量身定制的回答。但機(jī)械的AI對(duì)話往往缺少個(gè)性令人感到厭煩。要解決這個(gè)問(wèn)題或需讓機(jī)器對(duì)談話人進(jìn)行身份識(shí)別,以便讓AI知道你是誰(shuí),同時(shí)跟蹤先前對(duì)話的狀態(tài),學(xué)習(xí)特定用戶的偏好或風(fēng)格,并且對(duì)不同的用戶做出個(gè)性化的回應(yīng)。
一直以來(lái),會(huì)話AI專注于理解口頭輸入和產(chǎn)生口頭反應(yīng)。但是,應(yīng)該允許用戶以多種不同的方式提供輸入,并且輸出也能以不同的形式生成。例如,通過(guò)情緒分析讓AI對(duì)情緒級(jí)輸入做出反應(yīng),并能考慮同時(shí)進(jìn)行多個(gè)輸入或輸出會(huì)帶來(lái)的一系列復(fù)雜性問(wèn)題。
將人類置于初始對(duì)話生成的循環(huán)中
目前已經(jīng)可以發(fā)現(xiàn),嘗試生成完全自動(dòng)化的自然語(yǔ)言生成可能不是最佳前進(jìn)方式,因?yàn)樽钭匀坏娜祟悓?duì)話不是重組大量先前對(duì)話數(shù)據(jù)的結(jié)果,而是通過(guò)聯(lián)系當(dāng)前上下文,考慮到雙方獨(dú)特的會(huì)話歷史,以及一系列的會(huì)話習(xí)慣和技巧所形成的。
所以在當(dāng)前技術(shù)條件下,自然語(yǔ)言生成的解決方案無(wú)法消除人類在機(jī)器學(xué)習(xí)循環(huán)中的介入,將人類置于初始對(duì)話生成的循環(huán)中,能夠控制合成角色的語(yǔ)氣,風(fēng)格和個(gè)性。讓人類進(jìn)行創(chuàng)造性輸入,幫助系統(tǒng)識(shí)別每個(gè)上下文做個(gè)性化的回應(yīng),并定義對(duì)話應(yīng)該如何流入下一個(gè)問(wèn)題或主題。訓(xùn)練出靈活的創(chuàng)作工具,帶給我們一個(gè)愉快、流暢的對(duì)話體驗(yàn)。
1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會(huì)明確標(biāo)注作者和來(lái)源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請(qǐng)轉(zhuǎn)載時(shí)務(wù)必注明文章作者和"來(lái)源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會(huì)經(jīng)TMT觀察網(wǎng)編輯修改或補(bǔ)充。