聽 6 秒鐘語音，這個(gè) AI 就能知道你長什么樣

人工智能

2019

06/09

23:29

愛范兒

評論

聲音可以暴露很多信息，比如說，廣東人跟東北人講的普通話永遠(yuǎn)都不是一個(gè)味兒。

而麻省理工學(xué)院（MIT）最近一項(xiàng)研究發(fā)現(xiàn)，經(jīng)過訓(xùn)練的 AI 不僅能從聲音里辨別出你的性別、年齡和種族，甚至能猜出你大概長什么樣。這些「秘密」都藏不住了。

▲ 圖自《華爾街日報(bào)》

研究人員用一個(gè)由數(shù)百萬 YouTube 視頻剪輯組成的數(shù)據(jù)集，對一個(gè)名為 Speech2Face 的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行自我訓(xùn)練，從最終結(jié)果來看，6 秒語音對人臉進(jìn)行還原的效果還算不錯(cuò)。

▲ 一共 6 組結(jié)果示例，左邊是視頻里的人像，右邊是 AI 根據(jù)聲音還原的效果

Speech2Face 模型的運(yùn)作大概分為兩部分，一個(gè)是語音編碼器，負(fù)責(zé)對輸入的語音進(jìn)行分析，預(yù)測出相關(guān)的面部特征；另一個(gè)則是面部解碼器，對輸入的面部特征進(jìn)行整合產(chǎn)生圖像。

MIT 研究團(tuán)隊(duì)指出，他們的目的不是為了準(zhǔn)確地還原說話者的模樣，Speech2Face 模型主要是為了研究語音跟相貌之間的相關(guān)性。

從訓(xùn)練結(jié)果看，Speech2Face 能較好地識(shí)別出性別，對白種人和亞洲人也能較好地分辨出來，另外對 30-40 歲和 70 歲的年齡段聲音命中率稍微高一些。

▲ Speech2Face 似乎傾向?qū)?30 歲以下的說話者年齡猜大，將 40-70 歲的說話者年齡猜小

除了比較基礎(chǔ)的性別、年齡和種族，Speech2Face 甚至能猜中一些面部特征，比如說鼻子的結(jié)構(gòu)、嘴唇的厚度和形狀、咬合情況，以及大概的面部骨架?；旧陷斎氲恼Z音時(shí)間越長，AI 的準(zhǔn)確度會(huì)越高。

當(dāng)然 AI 的「聽覺」也會(huì)出錯(cuò)。研究人員發(fā)現(xiàn)，它會(huì)將未經(jīng)歷變聲期的小男孩識(shí)別為女性，對一些說話者的口音判斷錯(cuò)誤，也會(huì)搞混年紀(jì) …… 這一點(diǎn)完全可以理解，畢竟聲音還是會(huì)騙人的，夜夜伴你入睡的萌妹奶音主播，實(shí)際上說不定就是個(gè)摳腳硬漢。

▲ Speech2Face 的一些錯(cuò)誤示例

研究人員指出，Speech2Face 的局限性，部分原因來自數(shù)據(jù)集里的說話者本身種族多樣性不夠豐富，這也導(dǎo)致了它辨認(rèn)黑種人聲音的能力比較弱。

至于他們對這個(gè) AI 模型的應(yīng)用，則有一個(gè)很可愛的想象：只需要說幾句話，未來 Animoji 和 Gboard 等功能或許就能根據(jù)聲音生成你的卡通頭像。

▲ 圖自 Independent

不管你信或不信，藏在我們聲音的秘密都正被開發(fā)研究，投入各式各樣的場景應(yīng)用。

卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)副教授 Rita Singh 也主導(dǎo)過一項(xiàng)類似的研究，能從聲音猜測說話者的年齡、身高、體重、環(huán)境噪音和說話時(shí)的空間類型等信息。她認(rèn)為聲音里藏著豐富而獨(dú)特的信息，「就像是你的 DNA 或指紋」。

這項(xiàng)技術(shù)后來升級成跟 Speech2Face 相似的語音分析系統(tǒng)，還原人臉的準(zhǔn)確度達(dá)到 60%-70%，目前正被美國海岸警衛(wèi)隊(duì)用于縮小調(diào)查范圍找到惡作劇報(bào)警者。據(jù)稱，他們每年會(huì)接到約 150 個(gè)惡作劇電話，這些行為被視作浪費(fèi)警力，甚至?xí)獾叫淌缕鹪V。

▲ 聽起來就像是刑偵劇里的犯罪側(cè)寫師

目前，匯豐、渣打、摩根大通等銀行都在用「聲紋」作為身份識(shí)別的一種方式（voice ID），可以檢測你的賬戶是否被盜。

大都會(huì)人壽保險(xiǎn)公司的客服中心，會(huì)用一套 AI 系統(tǒng)幫忙識(shí)別客戶的情緒和感受，平均準(zhǔn)確率達(dá)到 82%；一些保險(xiǎn)公司甚至?xí)璐伺袛鄟黼娬哂袥]有騙保的意圖——如果說話時(shí)出現(xiàn)微小停頓，很可能就是在提供虛假信息。

除此之外，經(jīng)過訓(xùn)練的 AI 還被一些公司用于招聘，從應(yīng)聘者的說話模式分析出性格特征，判斷是否適合在招崗位。

而豐田汽車曾經(jīng)在 2017 年 CES 大會(huì)展出 Concept-i 概念車型，車內(nèi)配備紅外攝像頭、傳感器、車載語音識(shí)別和對話系統(tǒng)，它們將協(xié)作判斷司機(jī)是不是處于疲勞駕駛狀態(tài)并作出提醒。

跟 MIT 的卡通頭像相比，Singh 教授的想法似乎要更長遠(yuǎn)且宏大一些。她希望，有朝一日語音識(shí)別技術(shù)可以用于遠(yuǎn)程確診帕金森等疾病。

▲ 圖自 NewScientist

而目前已經(jīng)有研究發(fā)現(xiàn)，冠狀動(dòng)脈疾病患者在聲音上會(huì)留有不同的頻率標(biāo)志。未來，「聽聲看病」說不定也會(huì)跟「聽聲識(shí)臉」一樣成真。

【來源：愛范兒】

THE END

廣告、內(nèi)容合作請點(diǎn)擊這里尋求合作

免責(zé)聲明：本文系轉(zhuǎn)載，版權(quán)歸原作者所有；旨在傳遞信息，不代表砍柴網(wǎng)的觀點(diǎn)和立場。

虎扑评分区,老熟妇大胆性开放图,中文字幕精品av一区二区五区,波多野42部无码喷潮在线

聽 6 秒鐘語音，這個(gè) AI 就能知道你長什么樣

相關(guān)熱點(diǎn)

最新文章

相關(guān)推薦

“特斯拉又割了我 7 萬塊”

用 eSIM 取代手機(jī)卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機(jī)曝光：最美安卓屏幕沒跑了！

iPhone 13機(jī)模曝光：值得等！

蘋果計(jì)劃在美國生產(chǎn) Apple Car 汽車電池

關(guān)注我們

虎扑评分区,老熟妇大胆性开放图,中文字幕精品av一区二区五区,波多野42部无码喷潮在线

聽 6 秒鐘語音，這個(gè) AI 就能知道你長什么樣

相關(guān)熱點(diǎn)

最新文章

相關(guān)推薦

“特斯拉又割了我 7 萬塊”

用 eSIM 取代手機(jī)卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機(jī)曝光：最美安卓屏幕沒跑了！

iPhone 13機(jī)模曝光：值得等！

蘋果計(jì)劃在美國生產(chǎn) Apple Car 汽車電池

關(guān)注我們

聽 6 秒鐘語音，這個(gè) AI 就能知道你長什么樣

用 eSIM 取代手機(jī)卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機(jī)曝光：最美安卓屏幕沒跑了！

iPhone 13機(jī)模曝光：值得等！