微軟語音釋出升級版 HiFiNet 聲碼器

2021-06-24 20:37:16

IT之家 6 月 24 日訊息微軟日前釋出新一代深度神經網路 HiFiNet 聲碼器，與微軟上一代語音技術相比，由 HiFiNet 聲碼器合成的神經網路版聲音質量再創新高，主要體現在發音更準確、韻律更自然、高保真效果更完美，更受客戶青睞。自推出以來，被廣泛應用到有聲讀物、線上教育、車載語音助手等領域。

IT之家獲悉，HiFiNet 是微軟神經網路版語音合成技術中最新的聲音編碼器，是決定音訊質量的關鍵因素。根據專業評估語音自然度的 MOS 測試結果顯示，由 HiFiNet 聲碼器合成的語音音質可與用於訓練的真人錄音樣本相媲美，並同時改善毛刺、噪音等音訊質量問題，輸出的音質具備更高保真度，更大程度還原真人錄音。

（微軟上一代聲碼器合成聲音）

（微軟 HiFiNet 聲碼器合成聲音）

語音質量的優劣會直接影響收聽者的感受，為提升使用者收聽的舒適度，在 Azure 語音合成系統中，神經網路聲學模型基於深度學習網路，使用真人錄音作為原始資料進行迭代訓練。首先，提取真人錄音的聲學特徵。然後，利用真人錄音的聲學特徵自動生成兩組音訊：一組真實聲波（原始錄音）和一組偽波（合成聲波）。最後，由鑑別器區分真實聲波和偽波。隨著訓練次數的增多，聲波生成器也會愈發「聰明」，直至生成鑑別器也無法區分的偽波，這意味著機器合成的聲音已經和原始錄音相差無幾，從而給使用者帶來更貼近自然的體驗。

（真人原始錄音）

（微軟 HiFiNet 合作聲音）

由微軟 HiFiNet 聲碼器合成的音訊質量更接近真人原始錄音。

▲HiFiNet 聲碼器訓練示意圖

取樣率越高，聲音還原越真實。Azure 神經網路版語音合成聲學模型預設每秒鐘取樣 24,000 次（24 千赫茲），為還原特殊場景中更為複雜、細微的聲音內容，HiFiNet 聲碼器每秒鐘取樣 48,000 次（48 千赫茲），滿足使用者對語音質量的嚴格要求，讓使用者盡享高清語音體驗。

▲音訊取樣頻率與保真度對比示意圖

除語音質量外，HiFiNet 合成速度較之其他模型也有顯著的提升，進一步提升了語音合成的實時率。據 RTF（Real Time Factor，實時率，用來測量語音合成速度的工具）測試結果顯示，HiFiNet 在 GPU 裝置上運行的速度是第一代高效能聲碼器的 3 倍，在 CPU 裝置上運行的速度是第一代高效能聲碼器的 2 倍。

目前，內建 HiFiNet 聲碼器的 Azure 認知服務神經網路版語音合成服務已支援超過 70 多個國家和地區的語言，提供超過 170 個自然逼真的音色供開發者選擇。

有關 HiFiNet 及語音合成的更多內容：

關於 HiFiNet
關於語音合成試用版
關於語音合成的更多資料
關於示例程式碼

微軟語音釋出升級版 HiFiNet 聲碼器

熱門文章