技術解讀為什麼百度智慧視訊雲讓視訊變得更聰明？

2021-05-24 16:01:43

人工智慧與5G的飛速發展，讓各行各業對視訊的應用、體驗提出了更高的要求。5月13日，百度智慧雲「2021雲智技術論壇-智慧視訊專場」活動在京舉辦，百度智慧雲重磅釋出了智慧視訊雲3.0全景圖，融合百度前沿的視訊雲和AI技術能力矩陣，從雲智技術一體化、產品平臺化、應用場景化三個層面全面賦能多場景的視訊應用。作為國內AI公有云服務市場第一的百度智慧雲，正以「雲智一體」獨家優勢持續滲透市場中。

視訊具有「重」資料的特點，在海量資料的情況下，一方面對採集、儲存、傳輸和分發提出了極高的訴求，另一方面需要強大的智慧化分析與處理能力。基於此，百度智慧雲「雲智一體」的全場景視訊技術中，「雲」的部分以雲邊端一體、異構融合的基礎架構提供先進的雲端計算能力，「智」則以業界領先且全面的AI能力實現了對視訊語音、影象、文字等多種資訊的多模態智慧分析、理解、生成等處理。

依託「雲智一體」推出了視訊創作分發平臺和視聯網感知平臺。在消費類視訊方面，將採集到的各種結構化資訊、知識資訊通過智慧視訊雲的手段，轉化成多媒體的資訊進行高效分發和傳播；而在產業類視訊方面，將採集到的視訊轉變為結構化資訊，通過提取獲得的資訊，來幫助業務進行高效的感知和決策。

「雲智一體」的百度智慧視訊雲3.0究竟在技術上有什麼獨到之處？

（智慧視訊雲3.0全景圖）

雲：高效穩定的基礎技術架構，打造強有力的輸出載體

為了更好地應對已經來到的海量視訊業務需求，智慧視訊雲3.0以雲邊端一體的基礎技術架構作為核心依託，進一步拓展算力邊界，端到端、強穩定、高效能的視訊雲能力，幫助客戶快速實現應用的落地與交付。

百度智慧視訊雲3.0的雲能力主要表現在智慧編碼、智感超清、實時音視訊通訊、低延時直播、視訊分發加速CDN等五大方面：

智慧編碼：基於百度AI深度學習技術，通過深度學習網路來提取視訊的特徵，結合BD265生成智慧編碼技術。

演算法方面，依靠百度多年積累的技術優勢，通過60+演算法的優化，在質量和效率、速度上取得最優解。

效率方面，相比業界開源的X265編碼器，在編碼速度有2-4倍的提升，同時節省30%的編碼位元速率。

（智慧編碼）

智感超清：視訊體驗的優化是一項精細求精、永無止境的工作。百度智慧視訊雲3.0通過智慧超分、智慧畫質增強、智慧插幀、智慧修復、智慧HDR生成等技術，在老片修復、真4K生成等典型應用場景上大幅提升畫質體驗、彌補超高清內容缺失，加速了超高清產業發展，相關技術在國際權威比賽中屢次奪冠，具體優勢體現在：

超解析度：通過多層級聯的U型神經網路架構，對視訊空間的解析度進行從粗到細的提升。

畫面去噪：基於無監督去噪聲演算法，擺脫了有監督神經網路訓練對於成對的噪聲與乾淨影象的依賴；設計了可互動控制參數，支援使用者調節，增加了系統靈活性。

畫質增強：通過深度殘差神經網路，將內容特徵提取與重建，不僅可以優化畫質飽和度、還原壓縮視訊導致的失真，還能對ROI區域進行區域增強和位元速率分配優化。

高幀率重製：依靠MEMC高幀率提升技術能力，通過對運動方向預判，據此進行插幀，提升畫面流暢度與觀屏舒適度。

超高清編碼：採用CPU+GPU+ASIC的異構加速計算框架，支援國產崑崙K200晶片，提升AI推理效率和超高清編碼效率，降低使用者成本，提升總體的生成效率。

（智感超清）

實時音視訊通訊：依靠核心自研的多個演算法，實現通訊順暢的超低延時互動體驗，並分為如下幾個方面：

抗弱網支援方面：基於上/下行鏈路智慧探測器，根據上下行網路鏈路惡化程度因子，調整FEC、NACK、碼控、超清權重，選擇因子進行抗弱網抖動演算法，使視訊抗弱網可達到60%，音訊80%。

AI能力方面：通過百度多年的AI技術積累，支援實時美顏、濾鏡、貼紙、AR特效，更多娛樂場景玩法，並提供人臉識別、語音識別等能力，適用於用於身份核驗、學生狀態監測等更多場景。

高質量音視訊通話方面：通過大量音視訊場景資料AI模型訓練，對音訊進行3A優化的同時，並能通過智感超清支撐超高清畫質，自動適配多解析度，實現高質量音視訊訊息聊天。

效能指標方面：為針對通訊節點路由的選擇，優化混沌神經網路演算法規劃最短路徑、實現動態平衡路由選擇，可使端到端延時穩定收斂到200ms左右，並在單個節點故障時，能自動重建路由，保障server的可用性。依靠WHIP協議轉換裝置解決了傳統RTC通訊server由於信令互動複雜、房間管理業務量大、資料庫操作頻繁等影響效能及大規模搞併發問題，可支撐每個房間線上人數達百萬級別。

端到端效能監控方面：通過各端大量資料收集，依託百度智慧雲大資料分析，能精準的定位問題，對潛在的不可靠服務提前預警，讓潛在風險在萌芽狀態被解決，保障音視訊實時通訊服務的高可用。

（實時音視訊通訊）

低延時直播：採用了全鏈路SRT協議，可穩定支撐千萬級直播併發。關鍵特性包括：

卓越抗弱網：自研mpegts資料格式封裝、支援SRT協議推拉流，將網路丟包的可能性降到最低，有效改善弱網環境下的推流及觀看體驗。

首屏秒開：CDN邊緣先將編碼參數資訊發給播放器，播放器解析到編碼資訊，待下個關鍵幀到達後即可快速播放。

協議相容：實現多種視訊流協議的輸入與輸出，基於SRT低延遲直播協議的上下行，能無縫接入LSS低延遲直播系統，與主流直播分發協議HTTP-FLV/RTMP/HLS結合，視訊轉發場景更加靈活。

規模併發：與HTTP-FLV支援的併發規模一致，支援千萬級規模併發。

（低延時直播）

視訊分發基礎設施CDN：擁有遍佈全球1000+節點、100T頻寬儲備，以強大網路基礎設施帶來極致視訊分發體驗和效率。其中具有這幾大能力：

資源儲備的擴展能力：通過雲邊端一體，將資源的使用能力持續下沉，與邊緣計算的資源深度結合，做到流量加速的同時，也能做到算力的加速。

近似實時的智慧排程能力：具備全網流量與質量的感知系統，能實現近似實時的智慧排程。

分場景的協議調優能力：通過質量感知系統Bcats、節點多級快取優化、分場景協議棧優化滿足客戶多場景的質量要求，節點間使用私有協議加速，提升加速體驗並保證資料安全。

快速便捷的可程式設計能力：通過易用的可程式設計邊緣運行環境EJS，使用者可自主實現個性化業務控制邏輯，應對業務變化的敏捷效率挑戰。

（視訊分發基礎設施CDN）

此外在全民拍攝、泛直播時代背景下，針對輕量化美顏、智慧剪輯、低位元速率高品質推流、沉浸式播放體驗等音視訊終端業務的基礎需求。百度智慧雲的視訊雲終端能力矩陣，面向不同業務，提供豐富的SDK解決方案。

受益於終端工程化技術演進，視訊雲終端框架正在經歷從模組化向智慧化演進，平臺接入層重點解決多SDK的複用和資料管線組合，提高內部協同效率同時，提升產品按需交付的靈活度。輔以橫貫模組間的資料監控，運行質量一目瞭然。跨平臺層重點解決多終端資料處理一致性體驗，基於生產消費模型，在終端算力的不斷釋放的情況下，將自研演算法抽象成獨立運算元（例如PaddleLite的人臉演算法），經過管線中不同處理節點，最終將資料消費成業務效果（如美顏等）。終端資料高效率的處理，離不開平臺引擎層提供的持續動力。終端平行計算技術讓CPU與GPU在時間和空間上得到更好的協同。

（All In One能力矩陣）

智：AI能力讓視訊變得更加「聰明」

伴隨著視訊智慧化的大潮，AI技術在視訊行業轉型升級中作用日益凸顯。依託百度雲智一體的獨特優勢，為滿足產業對場景的定製化應用需求，百度智慧視訊雲3.0全景圖的AI技術能力，基於百度自研業界最大包含了5500億海量知識的多元異構知識圖譜，在視訊的智慧理解分析、視訊智慧生產與智慧互動生成等方面充當了平臺化與場景化的創新應用的技術基石，助力智慧視訊從「刀耕火種」走向「精耕細作」。

（智慧視訊雲3.0全景圖的AI技術能力）

智慧理解分析

通過影象、聲音、場景、人物、文字描述等資訊，進行視訊智慧分析、內容智慧稽核、智慧檢索。

視覺模態理解框架的升級：提出了一個「預訓練+小型化+定製化」新的框架。該框架基於飛槳提供的大規模分類框架、PaddleSlim等元件，有效應對理解任務的複雜性，解決場景資料的稀缺性。在人臉任務上，全場景下識別相對錯誤率下降40%。在其他一些垂類任務上，訓練的標註量可以減少40%以上。

知識增強的視訊理解：基於知識的視訊語義理解技術，充分利用豐富而全面的知識圖譜提升視訊理解效果。該技術通過對視覺、語音、文字的多模態內容進行解析與融合，再利用知識關聯技術建立與視訊理解知識圖譜的連線，並根據背景知識以及知識計算與推理技術，實現對視訊的深度語義理解。這項技術打破了在傳統技術中，視訊內容分析基於感知的侷限性，實現對視訊的深度結構化語義理解，大幅提升視訊理解的效果。

（智慧理解分析）

視訊智慧生產

通過圖文資訊、資料、圖集等多種內容載體，進行智慧編輯與智慧創作。

視覺模態創新豐富的能力：可將多種內容載體向視訊形式進行自動轉換，提升傳播效率。目前百度智慧雲支援多種視訊生產方式，包括圖文，資料，圖集等轉視訊，長視訊拆短視訊及Video-in等生產形式。

知識增強的視訊生產：基於知識圖譜的視訊生產技術是百度智慧雲視訊生產的亮點技術。

其中，藉助知識圖譜的海量事實，可生產關於實體屬性、關係的各種知識類、趣味性的盤點視訊；通過對影視劇的多模語義理解，可將某一類場景鏡頭進行聚合，呈現作品的精彩片段。

（脈絡視訊生產）

事件脈絡生成則是基於知識圖譜中一項核心技術能力。基於多輪問答技術，可達到事件監測和事件論元抽取的能力；再通過事件識別、聚類、歸一等技術總體構建事件脈絡生成技術，可以實現對客觀事件的動態理解。基於事件脈絡能力，可生成關於熱點事件來龍去脈的報道視訊。

視訊互動與生成

智慧視訊雲擁有豐富的技術能力，全新構建了互動與生成AI能力矩陣，從AR特效等技術到新型的驅動特效，風格特效等，再到多模態生成，支援各種各樣的泛娛樂場景的視訊互動與生成需求。

（視訊互動與生成）

視覺模態的任意風格化：基於元學習、多風格Adaptation技術、Few-shot Learning等技術，可根據需求快速定製不同風格的高質量視訊。

多模態生成的數字人：通過多模態技術，結合虛擬數字人形象與語音合成、脣動等生成技術，可低成本製作形象豐富靈動、線上線下多端覆蓋的的數字人，不僅互動自然、聲音動聽，還能夠適配多種業務場景需求。

目前數字人的應用載體較為廣泛，除了PC端以及手持移動裝置以外，百度智慧雲自研了智慧雲屏、智慧雲席等數字人的新載體。為了更好的模擬真人互動，在雲屏、雲席等數字人載體上整合定製攝像頭以檢測面部動態，設定了的扇形拾音區域採集實音，這樣可以更好的識別主說話人，從而解決「雞尾酒會問題」。

今年兩會期間百度智慧雲與央視網合作推出虛擬數字人小C，進行「兩會C+真探」的虛擬記者採訪項目，一時收到市場廣泛關注。

（虛擬數字人小C）

雙平臺：便捷、高效、面向全場景的應用平臺

基於雲智一體，百度智慧視訊雲3.0的視訊創作分發平臺和視聯網感知平臺面向不同場景應用提供一站式服務和平臺化支撐。

視訊創作分發平臺面向泛網際網路、泛媒體行業，聚焦工作流和媒介資源管理，覆蓋視訊接入、生產、處理、稽核分析和個性化推薦分發全流程。核心是媒資管理和工作流，通過媒資結構化處理和多摸精準搜尋，媒資利用率可提升40%，盤活媒資，最大發揮內容價值。與傳統採編發管理軟體的區別在於，利用AI能力對資料進行分析和理解，實現盤活資料，加快資料流動，提高媒資資料的利用率；工作流則提供了視覺化控制檯，使用者可以通過簡單靈活的配置編排視訊的處理流程，更靈活的應對個性化業務需求，並適配移動化、多終端、多形態業務場景。

（視訊創作分發平臺）

視聯網感知平臺面向傳統產業，對視訊端裝置和泛視訊資料流進行統一連線、分析和管理，實現通用的面向生產、控制和治理等場景的連結、鏈感、鏈管的基礎平臺。核心是對泛視訊裝置和泛視訊資料流的統一連線、分析和管理，在企業生產、園區管理、城市和社會治理方面能發揮重要價值。

（視聯網感知平臺）

三大場景：雲智一體智慧視訊雲的訴求

為了更好聚焦產業應用中的痛點與難點，為技術深入產業智慧化轉型升級發揮更大價值。在百度智慧視訊雲的這張全景圖3.0，通過基於雲智一體的兩大平臺，打造泛網際網路、泛媒體和泛產業方向的智慧視訊方案與應用案例，覆蓋互動娛樂、內容生產、智慧分析、遠端實時通訊、生產管理、安全管理等場景。

泛媒體場景：百度智慧視訊技術通過媒體大腦平臺，賦能產業三大升級，打造智媒產業網際網路生態圈。智慧視訊雲將雲智一體的視訊技術和媒介中臺裡的媒體AI中臺、媒體知識中臺、媒體經營中臺相結合，從智慧媒資管理、智慧內容生產、智慧媒體經營三個層面解決智慧視訊雲技術在多種場景下的需求。

媒體AI中臺：通過智慧內容匯聚、智慧內容生產、智慧媒資一體，全面覆蓋媒體內容產出的測、採、編、審、發全流程。

媒體知識中臺：通過多元知識圖譜，把內容資產知識化、資產化。將媒體自研和採購產生大量媒體資源，做標籤索引，形成一種資源。

媒體經營中臺：所有內容生產都是為了消費，都是為了觸達使用者，實現傳播的效果，或者商業的變現，百度有多元的媒體內容經營分發這樣的經驗，我們也形成媒體的智慧經營的一套中臺體系。

（百度智慧雲泛媒體產品和解決方案全景圖）

泛網際網路場景：內容和使用者是網際網路企業增長核心要素，百度智慧視訊技術助力優秀內容創作者，深入垂類賽道，用AI技術幫助客戶降低位元速率提升畫質，以低成本分發的方式，精準觸達到目標受眾群，形成裂變增長。

智慧小視訊一站式解決方案：提供全套智慧視訊拍攝工具，在拍攝器上提供100+的AR技術拍攝編輯玩法；通過一站式工作流，直接將拍攝到的視訊傳輸至儲存系統，後臺流式處理視訊、稽核釋出並做分發加速；開放APP樣本及服務端部分程式碼給客戶，使用者可通過自身需求定製開發，實現快速打造視訊應用。

全鏈路編解碼優化解決方案：基於採集端的BD265方案，支援相容軟硬編碼的能力，相比硬編265，節省了50%位元速率。在服務端，結合BD265以及智感超清AI能力，提升畫質降低位元速率，節省使用者的傳輸的頻寬和儲存的成本。在分發端，提供實時視訊增強的SDK技術，只需下發低位元速率視訊，就可以將整個視訊的畫質優化提升。

新零售的直播SaaS解決方案：通過一鍵式的導購直播能力，提升客戶的觸達率，實現線上的營銷變現，裂變引流，得到更多的轉化；並提供了分銷系統，實現訂單的追蹤，保證使用者的歸屬和轉化；同時具有資料分析能力，幫助客戶做出直播決策。

線上社交解決方案：支援IM聊天，實時音視訊通話，以及虛擬AI技術，通過三位一體的技術支撐，幫助使用者打造文字、語音、視訊內容等社交的屬性。並且可以使用動畫製作功能，讓使用者去打造獨一無二的虛擬形象，通過真人實時驅動，構造定製化IP。

（百度智慧雲泛網際網路產品和解決方案全景圖）

泛產業場景：百度智慧視訊雲以雲邊端一體為基礎架構，平臺+資料主導，解決業務對接系統和資料平臺化的需求。

智慧技術：通過百度全棧式自主人工智慧平臺，提供多場景的智慧視覺應用，核心為識別常見的人臉、人體、車輛等具有豐富的特徵值資訊，同時提供豐富的庫內的查詢能力。在各類業務場景中，覆蓋比如交通、政府、能源、城市治理和農林等場景，此外還具有視訊修復能力，對提升整個視訊的理解能力有著極大的幫助。

雲邊端架構：在端側，為快捷獲取資料，部署了主要的算力和運算元。邊側，通過閉環的能力，可以實現快速的邊緣的業務場景的整個閉環。雲側，通過關鍵資訊、關鍵資料傳送到雲端，通過資料彙集，加強雲端計算和平臺的能力，為業務提供服務，實現更多的業務場景的應用。

開放能力：在端側，開放端雲協同的SDK和AI的SDK，實現統一管理，同時在公網環境下，實現低延時效果；平臺側，開放所有模組，實現SaaS和PaaS的結構，使用者可以更快捷的利用業務需求，利用PaaS能力快速迭代，提升整個SaaS的開發效率。應用方面，推出智慧全感知系統，利用雲邊端一體的技術架構，可以快速實現業務層的開發。

憑藉「雲智一體」的獨特優勢，除智慧視訊方向以外，百度智慧雲已在智慧製造、智慧金融、智慧城市、智慧能源、智慧醫療等領域擁有領先產品、技術和解決方案，與多家行業翹楚合作推進企業數字化、智慧化升級。百度將持續以深耕多年的AI技術能力深入各行各業，夯實智慧化基礎，助力產業智慧化升級實現新突破。

技術解讀為什麼百度智慧視訊雲讓視訊變得更聰明？

熱門文章