虎扑评分区,老熟妇大胆性开放图,中文字幕精品av一区二区五区,波多野42部无码喷潮在线

IBM的人工智能可執(zhí)行最先進的廣播新聞字幕

VR/AR
2019
05/15
17:39
venturebeat
分享
評論

兩年前,IBM的研究人員聲稱,他們用機器學習系統(tǒng)訓練了兩個公共語音識別數(shù)據(jù)集,取得了最先進的轉(zhuǎn)錄性能。人工智能系統(tǒng)不僅要應對訓練語料庫音頻片段的失真,還要應對一系列的演講風格、重疊的演講、中斷、重啟和參與者之間的交流。

為了開發(fā)一種更強大的系統(tǒng),這家總部位于紐約阿蒙克的公司的研究人員最近在一篇論文中設計了一種架構(gòu),該論文名為《人類和機器對英語廣播新聞語音識別》(English Broadcast News Speech Recognition by Humans and Machines),將于本周在布萊頓舉行的聲學、語音和信號處理國際會議上發(fā)表。他們說,在初步實驗中,它在播放新聞字幕任務上取得了行業(yè)領(lǐng)先的結(jié)果。

做到這一點并不容易。該系統(tǒng)本身也面臨著一系列挑戰(zhàn),比如帶有大量背景噪音的音頻信號,以及主持人就各種新聞話題發(fā)表演講。雖然大部分培訓語料庫的演講都很清晰,但其中包含了現(xiàn)場采訪、電視節(jié)目剪輯和其他多媒體內(nèi)容等材料。

正如IBM研究人員Samuel Thomas在一篇博客文章中所解釋的那樣,人工智能利用了長短時記憶(LSTM)(一種能夠?qū)W習長期依賴關(guān)系的算法)和聲學神經(jīng)網(wǎng)絡語言模型,以及互補的語言模型的組合。聲學模型包含多達25層的節(jié)點(模擬生物神經(jīng)元的數(shù)學函數(shù)),它們通過語音譜圖或信號頻譜的視覺表示進行訓練,而六層的LSTM網(wǎng)絡學習了“豐富”的各種聲學特征,以增強語言建模。

在為整個系統(tǒng)提供1,300小時的廣播新聞數(shù)據(jù)后,研究人員將人工智能放進了一個測試集,測試集包含6個節(jié)目的兩個小時數(shù)據(jù),總共有近100名重疊的演講者。(第二個測試集包含12個節(jié)目的四個小時廣播新聞數(shù)據(jù),大約有230名重疊的演講者。)該團隊與語音和搜索技術(shù)公司Appen合作,對語音識別任務的識別錯誤率進行了測量,并報告說,該系統(tǒng)在第一組測試中達到6.5%,在第二次測試中達到5.9%,比人類的表現(xiàn)略差一些,分別為3.6%和2.8%。

托馬斯寫道:“(我們的)新結(jié)果……是我們在這項任務中所知的最低水平,(但)在這個領(lǐng)域仍有新技術(shù)和改進的空間。”

原文出自:https://venturebeat.com/2019/05/14/ibms-ai-achieves-state-of-the-art-broadcast-news-captioning/

來源:venturebeat

THE END
廣告、內(nèi)容合作請點擊這里 尋求合作
VR
免責聲明:本文系轉(zhuǎn)載,版權(quán)歸原作者所有;旨在傳遞信息,不代表砍柴網(wǎng)的觀點和立場。

相關(guān)熱點

VR Cover是一家領(lǐng)先的頭顯配件公司,生產(chǎn)一些高品質(zhì)的面部護罩和其他配件,以改善舒適度和衛(wèi)生。Oculus Quest將于下周5月21日發(fā)布,他們當然也在準備推出一系列新產(chǎn)品。
VR
英特爾處理器再曝新的安全漏洞,它允許黑客竊取處理器最近訪問過的任何數(shù)據(jù)。即使在云計算服務器上也是如此,這可能幫助黑客從運行在同一臺PC上的其他虛擬機上竊取信息。
VR
舊金山監(jiān)事會以8:1的投票通過一項法令,禁止警察和其他政府機構(gòu)使用人臉識別技術(shù)。
VR
華為今日向全球發(fā)布了人工智能原生(AI-Native)數(shù)據(jù)庫GaussDB和分布式存儲FusionStorage 8.0。華為常務董事、ICT戰(zhàn)略與Marketing總裁汪濤表示,人類正在進入智能時代,數(shù)據(jù)成為新的生產(chǎn)資料,智能成為新...
VR
前段時間小編發(fā)了一篇VR面罩的文章,近日,F(xiàn)eelreal這款頭顯就將適配《亞利桑那陽光》,這款游戲可以說是一款非常出名的喪尸類型VR游戲。
VR

相關(guān)推薦

1
3