兩年前,IBM的研究人員聲稱,他們用機器學習系統(tǒng)訓練了兩個公共語音識別數(shù)據(jù)集,取得了最先進的轉(zhuǎn)錄性能。人工智能系統(tǒng)不僅要應對訓練語料庫音頻片段的失真,還要應對一系列的演講風格、重疊的演講、中斷、重啟和參與者之間的交流。
為了開發(fā)一種更強大的系統(tǒng),這家總部位于紐約阿蒙克的公司的研究人員最近在一篇論文中設計了一種架構(gòu),該論文名為《人類和機器對英語廣播新聞語音識別》(English Broadcast News Speech Recognition by Humans and Machines),將于本周在布萊頓舉行的聲學、語音和信號處理國際會議上發(fā)表。他們說,在初步實驗中,它在播放新聞字幕任務上取得了行業(yè)領(lǐng)先的結(jié)果。
做到這一點并不容易。該系統(tǒng)本身也面臨著一系列挑戰(zhàn),比如帶有大量背景噪音的音頻信號,以及主持人就各種新聞話題發(fā)表演講。雖然大部分培訓語料庫的演講都很清晰,但其中包含了現(xiàn)場采訪、電視節(jié)目剪輯和其他多媒體內(nèi)容等材料。
正如IBM研究人員Samuel Thomas在一篇博客文章中所解釋的那樣,人工智能利用了長短時記憶(LSTM)(一種能夠?qū)W習長期依賴關(guān)系的算法)和聲學神經(jīng)網(wǎng)絡語言模型,以及互補的語言模型的組合。聲學模型包含多達25層的節(jié)點(模擬生物神經(jīng)元的數(shù)學函數(shù)),它們通過語音譜圖或信號頻譜的視覺表示進行訓練,而六層的LSTM網(wǎng)絡學習了“豐富”的各種聲學特征,以增強語言建模。
在為整個系統(tǒng)提供1,300小時的廣播新聞數(shù)據(jù)后,研究人員將人工智能放進了一個測試集,測試集包含6個節(jié)目的兩個小時數(shù)據(jù),總共有近100名重疊的演講者。(第二個測試集包含12個節(jié)目的四個小時廣播新聞數(shù)據(jù),大約有230名重疊的演講者。)該團隊與語音和搜索技術(shù)公司Appen合作,對語音識別任務的識別錯誤率進行了測量,并報告說,該系統(tǒng)在第一組測試中達到6.5%,在第二次測試中達到5.9%,比人類的表現(xiàn)略差一些,分別為3.6%和2.8%。
托馬斯寫道:“(我們的)新結(jié)果……是我們在這項任務中所知的最低水平,(但)在這個領(lǐng)域仍有新技術(shù)和改進的空間。”
原文出自:https://venturebeat.com/2019/05/14/ibms-ai-achieves-state-of-the-art-broadcast-news-captioning/
來源:venturebeat