人工智能對(duì)話是人工智能的一個(gè)子領(lǐng)域,專注于在人與計(jì)算機(jī)之間生成自然無(wú)縫對(duì)接的對(duì)話。 近幾年,像亞馬遜Echo和谷歌Home這樣的語(yǔ)音助理的發(fā)展速度,如同火箭一般迅速,估計(jì)在2018年就有接近1億個(gè)設(shè)備在家庭中使用,不僅如此,我們也已經(jīng)在自動(dòng)語(yǔ)音識(shí)別(ASR)、從文本到語(yǔ)音(TTS)和意圖識(shí)別等方面取得了驚人的進(jìn)步。 但是距離實(shí)現(xiàn)科幻小說(shuō)中所描述的人機(jī)之間進(jìn)行的流暢對(duì)話,我們?nèi)匀挥泻荛L(zhǎng)一段路要走。在未來(lái)十年,我們應(yīng)該看到這些關(guān)鍵進(jìn)展,它們將讓我們更接近這一長(zhǎng)期愿景。 在過(guò)去幾年里,機(jī)器學(xué)習(xí),尤其是深度學(xué)習(xí),已經(jīng)成為了人工智能領(lǐng)域中應(yīng)用非常廣泛的技術(shù)。它已經(jīng)在人臉識(shí)別、語(yǔ)音識(shí)別和對(duì)象識(shí)別等領(lǐng)域取得了重大進(jìn)展,因此許多人認(rèn)為它將解決人工智能對(duì)話的所有問(wèn)題。然而,實(shí)際上它只是我們工具箱中一個(gè)有價(jià)值的工具。我們需要其他技術(shù)來(lái)管理有效人機(jī)對(duì)話中的各個(gè)方面。 機(jī)器學(xué)習(xí)特別適合解決在大數(shù)據(jù)庫(kù)中查找模式的問(wèn)題,或者就像圖靈獲得者Judea Pearl說(shuō)的那樣,機(jī)器學(xué)習(xí)實(shí)際上是解決曲線擬合的問(wèn)題。人工智能對(duì)話中有幾個(gè)問(wèn)題都很好地反映了這類解決方案,如語(yǔ)音識(shí)別和語(yǔ)音合成。該技術(shù)也已應(yīng)用于意圖識(shí)別(將人類語(yǔ)言的文本語(yǔ)句轉(zhuǎn)換成用戶意圖或愿望的高級(jí)描述)并取得了很大成功,盡管使用此技術(shù)捕獲具有固定形態(tài)或語(yǔ)義敏感而模棱兩可的自然語(yǔ)言時(shí)存在一定的局限性。 然而,在計(jì)算機(jī)對(duì)話中確實(shí)存在一些不太適合機(jī)器學(xué)習(xí)的問(wèn)題。人機(jī)對(duì)話由兩部分組成: l 自然語(yǔ)言理解(NLU)——理解用戶所說(shuō)的話 l 自然語(yǔ)言生成(NLG)——為用戶制定合理的話術(shù)回應(yīng) 近來(lái),大部分的注意力都集中在了第一部分,但是其中仍然存在很多挑戰(zhàn),而這些不適合機(jī)器學(xué)習(xí)的原因在于話術(shù)回應(yīng)生成不僅僅是收集和分析大量數(shù)據(jù)的產(chǎn)物。在未來(lái)幾年,這種持續(xù)、有狀態(tài)的對(duì)話挑戰(zhàn)仍然需要更多地關(guān)注NLG和對(duì)話管理部分的問(wèn)題。 作為技術(shù)人員,我們常常被驅(qū)使著試圖用計(jì)算機(jī)來(lái)解決每一個(gè)問(wèn)題。然而,需要注意的是,有些領(lǐng)域,如游戲、娛樂(lè)或銷(xiāo)售和營(yíng)銷(xiāo),總是希望對(duì)計(jì)算機(jī)回應(yīng)的聲音和個(gè)性進(jìn)行巧妙的設(shè)計(jì)來(lái)匹配它們的品牌。此外,已經(jīng)注意到的是,試圖生成全自動(dòng)自然語(yǔ)言生成可能不是最好的,因?yàn)樽钭匀坏娜祟悓?duì)話不是重復(fù)很多以前對(duì)話的結(jié)果,而是通過(guò)考慮當(dāng)前上下文而形成的。 今天,這些創(chuàng)造性的輸入必然還處于人類寫(xiě)作層面,系統(tǒng)可以識(shí)別每個(gè)上下文的意思,并定義對(duì)話應(yīng)該如何進(jìn)入下一個(gè)話題環(huán)節(jié)。我們似乎不太可能在未來(lái)幾年完全消除這種循環(huán),因此當(dāng)我們展望未來(lái)時(shí),我們將希望建立支持更具可擴(kuò)展性和廣泛機(jī)制的方法來(lái)定義一個(gè)人的聲音和音調(diào)。例如,可以在更抽象的層面上定義其關(guān)鍵特征。
|
|
來(lái)自: Outsider6nhzoq > 《文件夾1》