騰訊 AI Lab 副主任、西雅圖人工智能研究室負(fù)責(zé)人俞棟日前發(fā)表觀點(diǎn):即使語(yǔ)音識(shí)別在過(guò)去取得了一定進(jìn)步,如今機(jī)器也已經(jīng)在電話聊天這樣的任務(wù)上達(dá)到甚至超過(guò)人的識(shí)別水準(zhǔn),但是離真正的人與機(jī)器的自由交流還有一定差距。
俞棟還介紹了如今語(yǔ)音識(shí)別的四個(gè)前沿方向,包括更有效的序列到序列直接轉(zhuǎn)換的模型、雞尾酒會(huì)問(wèn)題、持續(xù)預(yù)測(cè)與適應(yīng)的模型以及前后端聯(lián)合優(yōu)化。
值得一提的是,騰訊AI Lab于2016年4月成立。作為騰訊公司級(jí)AI實(shí)驗(yàn)室,AI Lab專注于基礎(chǔ)研究和應(yīng)用探索的結(jié)合,語(yǔ)音識(shí)別正是其四大基礎(chǔ)研究方向之一。騰訊西雅圖研究室由AI Lab副主任、語(yǔ)音識(shí)別及深度學(xué)習(xí)領(lǐng)域?qū)<矣釛澆┦款I(lǐng)導(dǎo),偏向語(yǔ)音識(shí)別及自然語(yǔ)言理解兩大領(lǐng)域的基礎(chǔ)研究。
俞棟是在參加全球機(jī)器智能峰會(huì)(GMIS 2017)期間透露上述觀點(diǎn)的。他在發(fā)表《語(yǔ)音識(shí)別領(lǐng)域的前沿研究(Frontier Research of Speech Recognition)》的演講時(shí)分享了語(yǔ)音識(shí)別領(lǐng)域的四個(gè)前沿研究方向。
他認(rèn)為,如今語(yǔ)音識(shí)別的環(huán)境,以及聲音衰減度等問(wèn)題都是制約語(yǔ)音識(shí)別技術(shù)進(jìn)一步發(fā)展的問(wèn)題。“如今我們研究的語(yǔ)音識(shí)別問(wèn)題越來(lái)越?jīng)]有環(huán)境、說(shuō)話風(fēng)格、口音、詞匯等限定(不像以前有非常多的限制),這極大地增加了語(yǔ)音識(shí)別的難度,同時(shí)研究的前沿也從近場(chǎng)麥克風(fēng)轉(zhuǎn)向遠(yuǎn)場(chǎng)麥克風(fēng)。兩者的區(qū)別在于,在遠(yuǎn)場(chǎng)情況下,當(dāng)人的聲音傳達(dá)到麥克風(fēng)時(shí),聲音衰減很厲害。所以以前在近場(chǎng)麥克風(fēng)很難見到的一些困難,在遠(yuǎn)場(chǎng)麥克風(fēng)場(chǎng)景下就變得很明顯。如果不解決這些問(wèn)題,用戶在很多的應(yīng)用場(chǎng)合仍然會(huì)覺得語(yǔ)音識(shí)別效果欠佳。”俞棟指出。
俞棟還介紹了如今語(yǔ)音識(shí)別的四個(gè)前沿方向,包括更有效的序列到序列直接轉(zhuǎn)換的模型、雞尾酒會(huì)問(wèn)題、持續(xù)預(yù)測(cè)與適應(yīng)的模型以及前后端聯(lián)合優(yōu)化。以雞尾酒會(huì)問(wèn)題為例,俞棟指出,人在雞尾酒會(huì)這樣非常嘈雜的環(huán)境中能夠把注意力集中在某一個(gè)人的聲音上,屏蔽掉周圍的說(shuō)話聲或噪音,非常好地聽懂他要關(guān)注的那個(gè)人的說(shuō)話聲音。現(xiàn)在絕大部分的語(yǔ)音識(shí)別系統(tǒng)還沒有這個(gè)能力。
這個(gè)問(wèn)題在近場(chǎng)麥克風(fēng)并不明顯,這是因?yàn)槿寺暤?a href="http://www.zao8j.cn/html/gupiao/gainian/index.html" target="_blank">能量對(duì)比噪聲非常大,而信噪比下降得很厲害,所以這個(gè)問(wèn)題就變得非常突出,成為了一個(gè)非常關(guān)鍵、比較難解決的問(wèn)題。(原標(biāo)題:騰訊AI LAB副主任俞棟:語(yǔ)音識(shí)別有四大前沿方向)
