商城類電商軟件及服務提供商--HiShop海商,歡迎您!
Hi新零售消息,語音交互是去年AI最火的領(lǐng)域,先鋒的智能音箱一個單品就讓所有互聯(lián)網(wǎng)大佬們都參戰(zhàn)其中。
但從當初驚人眼球的蘋果SIRI語音助手到智能音箱,語音這項被寄予厚望成為人機交互入口的技術(shù),似乎未能形成真正顛覆市場的應用落地,始終在單品上火一陣試一陣。相反,視覺技術(shù)里人臉識別已經(jīng)形成規(guī)?;幕A(chǔ)應用,滲透到金融、安防甚至零售領(lǐng)域。
為何最早火起來被寄予厚望的語音交互反而在市場化應用這一環(huán)節(jié)上似乎慢了?
一方面,相比圖像識別語音的交互鏈條更長,是一個點往縱深深入走。語音交互不只包括識別,還要識別后理解文本意思再反饋出來,包括自然語言理解、語音合成以及對內(nèi)容資源的整合挖掘,路線遠比圖像更長。
另一方面,機器視覺受干擾因素較少,例如人臉識別的臉部特征幾十年不會大變,光線的強弱通過紅外都已經(jīng)解決。而語音是個變量,噪音、環(huán)境、距離、人的發(fā)音特征等因素下的語音交互都完全不一樣,同一句話在逛街、辦公室等不同場景,所表達的意思完全不一樣。
因此,語音比視覺的挑戰(zhàn)更大,它只存在于整體智能,而不是局部智能。語音是個交互手段,通過交互調(diào)取后端的服務,例如聽什么歌,去什么地方。而這又涉及與后端內(nèi)容的配合,如果第三方內(nèi)容庫內(nèi)容不夠全,也會導致整體語音交互顯得不夠智能。
第三,語音商業(yè)化落地不具有非常強的復制性,圖像識別技術(shù)的應用復制性非常高,對設(shè)備的依賴程度不高,就一個數(shù)據(jù)包在任何情況下都可以用。
語音所處的場景不一樣,例如用在機器人、冰箱、車載不同的產(chǎn)品里,對三款產(chǎn)品說同一句“我餓了”,對機器人說有可能就是單純聊天;對車載說肯定不會是點外賣也不會是聊天,只有可能是導航。
新零售模式 | 國外新零售 |
門店新零售 | 馬云新零售解讀 |
新零售商業(yè)模式 | 新零售模式概念圖解 |
因此,沒有辦法把所有語義做成一個通用庫復制到所有產(chǎn)品,每一個產(chǎn)品針對不同場景都有不同需求,都需要個性化定制。
基于語音的特征,語音交互的商業(yè)化更像個系統(tǒng)工程,從語音識別到語義理解到后端內(nèi)容資源庫,互相制約,牽一發(fā)而動全身。由于語音交互的復雜帶來的商業(yè)化困境,語音交互技術(shù)公司也開始走技術(shù)平臺輸出路線。
一方面開放自己的基礎(chǔ)技術(shù)能力,讓市場化的應用企業(yè)直接在基礎(chǔ)上商業(yè)化應用,例如家居、車載、金融、醫(yī)療、教育等各領(lǐng)域的智能語音服務都可以采用其平臺的技術(shù)來探索細分領(lǐng)域的商業(yè)化,擴大定制規(guī)?;?另一方面,將語音交互技術(shù)開放出來擴大生態(tài)合作,以突破語音交互的局限。