日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

聞聲識人——聲紋識別如何走過規(guī)模商用前夜?

 山蟹居 2019-10-09
作為語音賽道一個(gè)重度垂直的領(lǐng)域,聲紋識別終于從“等風(fēng)來”,成為站在“風(fēng)口”上的技術(shù)。盡管同為生物識別技術(shù)的指紋、人臉識別已經(jīng)快速搶占了市場,但隨著新一波人工智能技術(shù)的發(fā)展,聲紋識別有望因提升用戶體驗(yàn)、安全性等方面的獨(dú)到之處而迎來發(fā)展高潮。
聲紋識別近年來主要經(jīng)歷了哪些重大突破?發(fā)展主要受益于哪些驅(qū)動因素?
首先是技術(shù)驅(qū)動。近年來,依托算法迭代、模型升級等優(yōu)化措施,識別準(zhǔn)確率有提升,并根據(jù)特定專題的研究,初步解決了穩(wěn)定性等問題;更重要的,隨著抗時(shí)變、防錄音技術(shù)的進(jìn)步,大大提升了安全性和用戶體驗(yàn),打消了人們對聲紋識別可靠性的顧慮,使這項(xiàng)有潛力的技術(shù)真正走上規(guī)模商用的道路。
其次是政策驅(qū)動。經(jīng)過中國建設(shè)銀行等第一波應(yīng)用單位的示范,金融行業(yè)逐漸認(rèn)識到聲音作為身份密碼是可行的。去年央行聲紋應(yīng)用標(biāo)準(zhǔn)的頒布,對行業(yè)基本面起到了較大的推動作用,該標(biāo)準(zhǔn)明確傳遞出一個(gè)信息:生物識別技術(shù)的應(yīng)用在追求用戶體驗(yàn)時(shí)必須重視安全和隱私,其信息的傳導(dǎo)范圍遠(yuǎn)遠(yuǎn)超出了金融行業(yè),它使得現(xiàn)階段,技術(shù)和場景的匹配真正明確。
第三是用戶認(rèn)識觀念和使用習(xí)慣的變化。這一點(diǎn)得益于智能客服、智能音箱等以語音識別技術(shù)為主的消費(fèi)級應(yīng)用場景的普及,人們在真正體驗(yàn)到語音交互的便利之后,提出了更高的個(gè)性化需求和安全要求,可以說,語音識別技術(shù)幫助聲紋識別技術(shù)在C端快速完成了用戶教育。

聲紋識別可助智能設(shè)備“聞聲識人”

當(dāng)前熱門的智能設(shè)備,不論是百“箱”大戰(zhàn)的智能音箱,還是百“機(jī)”爭鳴的智能機(jī)器人,初期這些產(chǎn)品在交互方式上實(shí)現(xiàn)了一定程度上的智能,但在交流方式上卻有欠缺。所謂交流,即有明確的對象,與不同對象交流有不同的回應(yīng),才是更為智能的體驗(yàn)。聲紋識別——正是實(shí)現(xiàn)這種“聞聲識人”的技術(shù)手段。
以智能音箱這一典型產(chǎn)品為例,阿里的天貓精靈、京東的叮咚音箱二代,以及華為的小藝音箱等,紛紛加入了聲紋識別功能。這一功能可以使智能音箱在競爭中體現(xiàn)出差異化的優(yōu)勢,而不只是千篇一律地回答天氣查詢、搜索歌曲名和定鬧鐘等功能。它能夠根據(jù)不同聲音識別出不同的使用者,提供更為個(gè)性化的內(nèi)容回應(yīng),并且保證了安全性和私密性,特別是在進(jìn)行在線支付時(shí)操作更為便捷。HomePod是蘋果在2017年推出的智能音箱產(chǎn)品,在今年的全球開發(fā)者大會上,蘋果也宣布在HomePod 加入了聲紋識別功能。
在CSDN組織編撰的《2018中國人工智能產(chǎn)業(yè)路線圖》中,曾將語音交互劃分為三個(gè)階段
L1階段:能以極高的準(zhǔn)確率,在典型環(huán)境下響應(yīng)用戶的語音輸入;
L2階段:能以極高的準(zhǔn)確率識別出交互的當(dāng)事人和環(huán)境,然后進(jìn)行個(gè)性化的交互;
L3階段:只要有數(shù)據(jù),語音交互系統(tǒng)的能力就可以無邊界擴(kuò)展(包括個(gè)性和能力)。
在L2階段體現(xiàn)的就是個(gè)性化,語音交互不再停留在千人一面的固定化模式中,而是實(shí)現(xiàn)千人千面的個(gè)性化交互體驗(yàn)。在這一階段,聲紋識別技術(shù)將成為新的標(biāo)配。 

“人臉識別”遭打臉,聲紋識別為什么變得重要?

聲紋識別為什么開始得到關(guān)注?除了上文提到的進(jìn)一步提升用戶體驗(yàn)之外,在滿足高安全場景的訴求時(shí)也有獨(dú)到優(yōu)勢。
AI對抗AI的音視頻欺騙事件近來屢有發(fā)生,不論是被騙的人臉識別系統(tǒng),還是偽造聲音進(jìn)行的金融詐騙,這些事件給AI的發(fā)展前景蒙上一層陰影之外,也讓個(gè)人對于自己身上的“活”密碼(指紋、臉、聲音、瞳孔等)的安全性產(chǎn)生了擔(dān)憂。特別是前段時(shí)間一夜爆火的AI換臉“ZAO”,使得這種擔(dān)心達(dá)到極致。每個(gè)人獨(dú)一無二的生物特征,一旦暴露了該怎么辦?
事實(shí)上,指紋、人臉是靜態(tài)的生理特征,并不能體現(xiàn)出個(gè)體的動態(tài)變化,因此很容易出現(xiàn)被盜用等安全問題。而“聲紋”作為一種特殊的行為特征,每個(gè)人在說話過程中所蘊(yùn)含的語音特征和發(fā)音習(xí)慣幾乎是不可替代的,即使是模仿,也難以改變說話者最本質(zhì)的發(fā)音特性和聲道特征,它是一種“動態(tài)”的識別,因此與其他靜態(tài)的生物識別方式相比,不僅具有特定性,也具有相對的穩(wěn)定性,它不容易丟失,可以做到“失聲(音)不失身(份)”,偽造起來也更為困難,因而被認(rèn)為認(rèn)證強(qiáng)度更高、更安全。

場景驅(qū)動下的商用浪潮

事實(shí)上,聲紋識別雖然未在智能手機(jī)這樣的消費(fèi)級產(chǎn)品中普及,卻早已在金融、安防、公共服務(wù)等領(lǐng)域得到較為廣泛的應(yīng)用。
成立于2002年的得意音通屬于國內(nèi)較早布局聲紋識別領(lǐng)域的企業(yè)之一,形成了聲紋技術(shù)自主專利多層保護(hù),并與公安部、人民銀行、工信部共同主導(dǎo)了聲紋相關(guān)標(biāo)準(zhǔn)的制訂。以其“聲密?!睘楹诵模稍谑謾C(jī)銀行、聲紋身份認(rèn)證云、社保生存認(rèn)證、聲紋門禁、聲紋考勤等領(lǐng)域提供相應(yīng)的產(chǎn)品和服務(wù)。
為泛金融身份認(rèn)證護(hù)航
通過多年來的布局,得意音通在金融領(lǐng)域最早形成了規(guī)模應(yīng)用,其主導(dǎo)起草的《移動金融基于聲紋識別的安全應(yīng)用技術(shù)規(guī)范》已于2018年10月9日由中國人民銀行頒布至各銀行、證券、保險(xiǎn)、基金,以及非銀行支付機(jī)構(gòu),成為我國金融領(lǐng)域第一個(gè)生物特征識別安全應(yīng)用技術(shù)標(biāo)準(zhǔn),大大推動了聲紋的行業(yè)落地與應(yīng)用合規(guī)。
是什么樣的契機(jī)使聲紋識別技術(shù)最先在金融行業(yè)落地?得意音通CEO倪鳴介紹,金融領(lǐng)域因其豐富的場景、海量的數(shù)據(jù)、對可靠性的高要求和廣泛的用戶反饋等,一直是人工智能技術(shù)在民用領(lǐng)域(相較于公共安全領(lǐng)域)的理想試金石。
聲紋識別也不例外,在4G時(shí)代,金融行業(yè)催生了手機(jī)銀行這一形態(tài)并迅速普及,使得金融級遠(yuǎn)程身份認(rèn)證的需求激增,而聲紋識別剛好可以滿足這個(gè)需求。2016至2018年間,中國建設(shè)銀行、貴陽銀行、蘭州銀行、西安銀行、中國銀聯(lián)、中國互聯(lián)網(wǎng)金融協(xié)會等多個(gè)金融單位和機(jī)構(gòu)都上線了聲紋識別身份認(rèn)證服務(wù),用于賬戶登錄、大額轉(zhuǎn)賬、無卡取款、密碼找回等業(yè)務(wù)場景。微信和支付寶也上線了基于聲紋動態(tài)口令的登錄方式。此外,在信貸業(yè)務(wù)中引入聲紋識別技術(shù)作為反欺詐手段,還可有效降低冒用他人身份進(jìn)行騙貸以及多頭貸款等事件的發(fā)生率。
為公共服務(wù)提供便利
隨著語音技術(shù)的普及,越來越多的聲紋識別應(yīng)用場景還在不斷涌現(xiàn)。如利用1:1聲紋確認(rèn)技術(shù),可幫助居民領(lǐng)取養(yǎng)老金等社會保障金時(shí)足不出戶自證身份。
城鄉(xiāng)養(yǎng)老保險(xiǎn)是社會保障體系的重要組成部分,然而冒領(lǐng)養(yǎng)老金的事件時(shí)有發(fā)生,每年冒領(lǐng)總金額以億元計(jì),但若要求高齡老人親臨現(xiàn)場驗(yàn)明身份又非常不便。由于聲紋確認(rèn)技術(shù)具有很強(qiáng)的遠(yuǎn)程操控屬性,社保局通過預(yù)裝聲紋身份認(rèn)證系統(tǒng),便于進(jìn)行遠(yuǎn)程身份認(rèn)證,為長期居住外地、高齡、重病等特殊情況的老年人提供了方便。同時(shí),由于聲紋可很好地防假冒攻擊,為社保體系防冒領(lǐng)提供了很好的技術(shù)保障手段。
去年,得意音通的“聲紋+”身份認(rèn)證云已在貴州省貴安新區(qū)落地,現(xiàn)已覆蓋貴州省金融、社保、公安等領(lǐng)域,隨著央行聲紋標(biāo)準(zhǔn)發(fā)布,以及中國電子政務(wù)網(wǎng)、內(nèi)蒙古社保、西北某省等項(xiàng)目的逐步落地,得意音通聲紋身份認(rèn)證技術(shù)的應(yīng)用逐漸北上。今年八月,與烏蘭察布市人民政府簽署了戰(zhàn)略合作協(xié)議,共同建設(shè)“草原云谷”“聲紋+”身份認(rèn)證云基地,以輻射周邊諸省。相鄰的內(nèi)蒙古自治區(qū)包頭市、黑龍江省牡丹江市等作為試點(diǎn)區(qū),已率先開展了聲紋認(rèn)證領(lǐng)取養(yǎng)老金服務(wù)。
個(gè)性化語音交互場景正在涌現(xiàn)
聲紋識別還可完成個(gè)人日常生活中各種事物訪問控制的授權(quán),比如智能手機(jī)鎖屏、各類網(wǎng)絡(luò)賬號的聲控密碼鎖、電腦聲控鎖、聲控安全門、汽車聲控鎖等。
利用1:N聲紋辨認(rèn)技術(shù),可在一定程度上防范電信網(wǎng)絡(luò)詐騙,還可支持智能音箱、智能語音助手等提供個(gè)性化服務(wù),如針對家庭用戶中的老年人、兒童等不同年齡段用戶,按照興趣推薦不同的歌曲、新聞,以及開放特定的功能權(quán)限等;利用聲紋檢出和追蹤技術(shù),可取代人工完成會議紀(jì)要,通過語音識別和聲紋識別技術(shù)的結(jié)合,將會議錄音通過語音識別技術(shù)識別說話內(nèi)容、通過聲紋識別技術(shù)標(biāo)注每段話所對應(yīng)的說話人,即可輕松完成多人會議記錄,大大提高工作效率。

未來的爆發(fā)點(diǎn)和挑戰(zhàn)

對于聲紋技術(shù)爆發(fā)的關(guān)鍵點(diǎn),倪鳴認(rèn)為決定因素主要有二:一是在于技術(shù)和場景的最佳匹配;二是在于聲紋建庫的建立,也就是當(dāng)合法的聲紋模型數(shù)據(jù)積累到一定量,就會產(chǎn)生裂變。
有人將2017年看做智能語音交互元年,2018年則可以說是聲紋應(yīng)用元年。2017年,各大品牌廠商打造的智能音箱紛紛上市,2018年語音交互落地突然加速,相關(guān)產(chǎn)品從智能音箱擴(kuò)展到其他品類,如電視盒子、鬧鐘、燈、智能馬桶等。這些應(yīng)用幾乎都產(chǎn)生了通過遠(yuǎn)場聲紋識別實(shí)現(xiàn)個(gè)性化語音交互的需求。倪鳴強(qiáng)調(diào),需要注意的是,這類面向未來物聯(lián)網(wǎng)應(yīng)用的新興需求大部分還處在探索階段。
聲紋識別目前在商用落地以及下一步的發(fā)展方面還面臨哪些挑戰(zhàn)?有哪些主要的克服手段?倪鳴表示,從技術(shù)發(fā)展來看,聲紋識別當(dāng)前還存在以下兩大類挑戰(zhàn):
一是魯棒性挑戰(zhàn):
魯棒性是指聲紋識別抵抗其他因素干擾的能力。這些干擾可能來自:
1)說話人自身。比如說話人隨著身體狀況改變而發(fā)聲的聲音改變、隨著年齡增長而發(fā)聲的聲音變化、不同情感、語氣、語速情況下的聲音變化。
2)也可能來自說話人之外的環(huán)境。比如噪聲干擾、遠(yuǎn)場情況下收錄到的聲音發(fā)生的變化。如何在眾多干擾之下,精準(zhǔn)的對聲紋進(jìn)行識別,是一個(gè)重要的研究方向。
3)還有可能來自說話的內(nèi)容。例如超短語音挑戰(zhàn)。短語音是指系統(tǒng)的識別性能對語音長度的依賴性。較長的語音會達(dá)到更高的精準(zhǔn)度,但顯然,過長的語音會影響用戶體驗(yàn)。并且在一些特定場景下,比如司法應(yīng)用中,系統(tǒng)只能收集到有限長度的語音。因此如何在較短語音長度的情況下,提高系統(tǒng)的識別性能,也是一個(gè)重要的研究方向。
二是安全性挑戰(zhàn):
1)防攻擊能力。是指聲紋識別系統(tǒng)拒絕非真實(shí)說話人的能力。這些嘗試進(jìn)入系統(tǒng)的聲音,可能是由人類模仿發(fā)聲的,也可能是機(jī)器偽造的,比如通過語音合成、聲音轉(zhuǎn)換以及錄音重放技術(shù),產(chǎn)生出和真實(shí)說話人相近的聲音,嘗試進(jìn)入系統(tǒng)。如何阻止這些假冒語音通過系統(tǒng),是很重要的研究方向。
2)情感識別能力。相關(guān)問題有兩個(gè):一是要做到不同情感下都能準(zhǔn)確識別,可稱為情感魯棒性;二是要能識別出用戶是否處于被脅迫或者處于焦慮狀況下等,可認(rèn)為是理解用戶的意圖真實(shí)性。而后者更為重要,所以將它歸為安全性挑戰(zhàn)之一。
由于較早將聲紋技術(shù)帶出實(shí)驗(yàn)室接受市場檢驗(yàn),這一先發(fā)優(yōu)勢造就了得意音通今天的市場地位。通過多年的積累,得意音通擁有“聲紋識別+動態(tài)密碼”身份認(rèn)證方案的原始發(fā)明專利,還擁有與之相關(guān)的支撐技術(shù)和應(yīng)用技術(shù)國家發(fā)明專利10余項(xiàng),其中的國際發(fā)明專利已在日、韓、美等國獲得授權(quán)。圍繞這些核心專利,構(gòu)筑了完整的專利墻體系。在多項(xiàng)國際賽事中,例如國際音頻情感識別競賽MEC 2017、國際自動說話人驗(yàn)證欺騙和對策挑戰(zhàn)賽ASVspoof 2019等,得意音通均榮獲冠軍。

多生物特征識別融合成為必然

一個(gè)值得關(guān)注的趨勢是——由于不同場景對生物特征的適應(yīng)性各有不同,多生物特征識別技術(shù)融合已經(jīng)成為必然。
針對金融交易驗(yàn)證,央行科技司司長李偉最近就指出,部分機(jī)構(gòu)高估了弱隱私特征的識別作用,在網(wǎng)絡(luò)空間僅依靠人臉等單一特征進(jìn)行金融交易驗(yàn)證,存在嚴(yán)重隱患。他表示,不能簡單地將人臉特征作為唯一的交易驗(yàn)證因素,須根據(jù)風(fēng)險(xiǎn)等級結(jié)合用戶口令等其他因素進(jìn)行多因素認(rèn)證。
而目前看來,“聲紋+人臉” 的身份認(rèn)證產(chǎn)品,既解決了單一生物特征所具有的局限性,同時(shí)可覆蓋更多身份認(rèn)證場景,滿足用戶的多樣式要求。得意音通在“聲紋+”多維融合身份認(rèn)證解決方案方面投入已久,今年4月,推出了無感式“聲紋+人臉”方案。
倪鳴強(qiáng)調(diào),這一多維方案并不是聲紋與人臉識別簡單的疊加,而是深度融合、一步完成、多重防偽,實(shí)現(xiàn)安全與體驗(yàn)的雙重提升。此外,還有情感識別、唇紋識別、唇語識別等眾多創(chuàng)新技術(shù),也在不斷開發(fā)中。

“孤軍奮戰(zhàn)的日子一去不復(fù)返”

“聲紋開始熱了,產(chǎn)業(yè)態(tài)勢已成,孤軍奮戰(zhàn)的日子一去不復(fù)返。再好的科研成果,只有從象牙塔里走出來,放到實(shí)踐中去檢驗(yàn),才能發(fā)光發(fā)熱,造福社會。作為行業(yè)老兵,我們感到欣慰,因?yàn)檫@證明了我們當(dāng)初的判斷和堅(jiān)持是正確的”——這是清華大學(xué)人工智能研究院聽覺智能研究中心主任、得意音通創(chuàng)始人、得意音通信息技術(shù)研究院院長鄭方在《中國聲紋識別產(chǎn)業(yè)發(fā)展白皮書》發(fā)布時(shí)的感慨。
目前國內(nèi)主流聲紋識別企業(yè)主要背靠清華大學(xué)、廈門大學(xué)、中科院聲學(xué)所、自動化研究所等高校和科研機(jī)構(gòu),得意音通則是清華系的典型代表。雙方建立了“產(chǎn)學(xué)研”合作生態(tài),清華以知識產(chǎn)權(quán)入股得意音通,得意音通投資反哺清華建立聯(lián)合實(shí)驗(yàn)室,從而保證了能夠不斷將最新的前沿研究成果運(yùn)用于產(chǎn)業(yè),同時(shí)建立起了穩(wěn)定的人才儲備梯隊(duì)。
從專利數(shù)量來看,2013 年起,國內(nèi)相關(guān)專利公開數(shù)量呈大幅上升,5 年內(nèi)翻了 10 倍以上。相對專利公開數(shù)量,專利授權(quán)數(shù)量相對增長較緩,總數(shù)不超過40 件。但是2018 年,不論是公開數(shù)量還是授權(quán)數(shù)量,專利增幅均達(dá)到歷史峰值。
圖:國內(nèi)聲紋相關(guān)專利申請數(shù)量宏觀態(tài)勢
(來源:《中國聲紋識別產(chǎn)業(yè)發(fā)展白皮書》)

    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多