IT之家 6 月 24 日訊息 微軟日前釋出新一代深度神經網路 HiFiNet 聲碼器,與微軟上一代語音技術相比,由 HiFiNet 聲碼器合成的神經網路版聲音質量再創新高,主要體現在發音更準確
2021-06-24 20:37:16
IT之家 6 月 24 日訊息 微軟日前釋出新一代深度神經網路 HiFiNet 聲碼器,與微軟上一代語音技術相比,由 HiFiNet 聲碼器合成的神經網路版聲音質量再創新高,主要體現在發音更準確、韻律更自然、高保真效果更完美,更受客戶青睞。自推出以來,被廣泛應用到有聲讀物、線上教育、車載語音助手等領域。
IT之家獲悉,HiFiNet 是微軟神經網路版語音合成技術中最新的聲音編碼器,是決定音訊質量的關鍵因素。根據專業評估語音自然度的 MOS 測試結果顯示,由 HiFiNet 聲碼器合成的語音音質可與用於訓練的真人錄音樣本相媲美,並同時改善毛刺、噪音等音訊質量問題,輸出的音質具備更高保真度,更大程度還原真人錄音。
(微軟上一代聲碼器合成聲音)
(微軟 HiFiNet 聲碼器合成聲音)
語音質量的優劣會直接影響收聽者的感受,為提升使用者收聽的舒適度,在 Azure 語音合成系統中,神經網路聲學模型基於深度學習網路,使用真人錄音作為原始資料進行迭代訓練。首先,提取真人錄音的聲學特徵。然後,利用真人錄音的聲學特徵自動生成兩組音訊:一組真實聲波(原始錄音)和一組偽波(合成聲波)。最後,由鑑別器區分真實聲波和偽波。隨著訓練次數的增多,聲波生成器也會愈發「聰明」,直至生成鑑別器也無法區分的偽波,這意味著機器合成的聲音已經和原始錄音相差無幾,從而給使用者帶來更貼近自然的體驗。
(真人原始錄音)
(微軟 HiFiNet 合作聲音)
由微軟 HiFiNet 聲碼器合成的音訊質量更接近真人原始錄音。
▲HiFiNet 聲碼器訓練示意圖
取樣率越高,聲音還原越真實。Azure 神經網路版語音合成聲學模型預設每秒鐘取樣 24,000 次 (24 千赫茲),為還原特殊場景中更為複雜、細微的聲音內容,HiFiNet 聲碼器每秒鐘取樣 48,000 次(48 千赫茲),滿足使用者對語音質量的嚴格要求,讓使用者盡享高清語音體驗。
▲音訊取樣頻率與保真度對比示意圖
除語音質量外,HiFiNet 合成速度較之其他模型也有顯著的提升,進一步提升了語音合成的實時率。據 RTF(Real Time Factor,實時率,用來測量語音合成速度的工具)測試結果顯示,HiFiNet 在 GPU 裝置上運行的速度是第一代高效能聲碼器的 3 倍,在 CPU 裝置上運行的速度是第一代高效能聲碼器的 2 倍。
目前,內建 HiFiNet 聲碼器的 Azure 認知服務神經網路版語音合成服務已支援超過 70 多個國家和地區的語言,提供超過 170 個自然逼真的音色供開發者選擇。
有關 HiFiNet 及語音合成的更多內容:
關於 HiFiNet
關於語音合成試用版
關於語音合成的更多資料
關於示例程式碼
相關文章
IT之家 6 月 24 日訊息 微軟日前釋出新一代深度神經網路 HiFiNet 聲碼器,與微軟上一代語音技術相比,由 HiFiNet 聲碼器合成的神經網路版聲音質量再創新高,主要體現在發音更準確
2021-06-24 20:37:16
一、前言:經典設計再出新款!這次的配置更高階作為聯想筆記本產品線的全新系列,2019年才誕生的ThinkBook,雖然在升級換代方面總是慢半拍,但每一次都充滿驚喜。這個在名字上跟聯想
2021-06-24 20:36:08
當我在某東瀏覽手機時,我突然發現了一個使用者好評反差非常大的兩款手機,分別是華為Mate40 Pro和小米11,兩款手機在某東都有20萬+的評論量,但是華為手機好評率卻高達98%,而小米僅
2021-06-24 20:16:11
近日,「中國院士說不解決晶片卡脖子問題死不瞑目「的相關話題登上微博熱搜,引發了國人的廣泛討論。6月22日央視新聞針對相關問題採訪了中國科學院院士王陽元,並對王陽元的成就
2021-06-24 20:15:34
2020年以來價格持續飆升的位元幣,引起了全球的高度關注。雖然有不少投資者藉此機會實現「一夜暴富」的美夢,但多方金融機構以及業內專家卻頻頻發出監管收緊的預警。人民日報海
2021-06-24 20:14:19
【電動狗】據此前相關爆料,蘋果將會在明年推出新一代的iPhone SE,可能會被直接命名為iPhone SE 2022,近日還有海外爆料者公佈了該機的渲染圖。iPhone SE 2022將會與iPhone XR看
2021-06-24 19:54:37