淺談音視訊 pts dts基本概念及理解

2022-08-04 18:02:59

視訊的播放過程可以簡單理解為一幀一幀的畫面按照時間順序呈現出來的過程，就像在一個本子的每一頁畫上畫，然後快速翻動的感覺。
但是在實際應用中，並不是每一幀都是完整的畫面，因為如果每一幀畫面都是完整的圖片，那麼一個視訊的體積就會很大，這樣對於網路傳輸或者視訊資料儲存來說成本太高，所以通常會對視訊流中的一部分畫面進行壓縮（編碼）處理。由於壓縮處理的方式不同，視訊中的畫面幀就分為了不同的類別，其中包括：I 幀、P 幀、B 幀。

I、P、B 幀

I 幀、P 幀、B 幀的區別在於：

I 幀（Intra coded frames）：I 幀影象採用幀內編碼方式，即只利用了單幀影象內的空間相關性，而沒有利用時間相關性。I 幀使用幀內壓縮，不使用運動補償，由於 I 幀不依賴其它幀，所以是隨機存取的入點，同時是解碼的基準幀。I 幀主要用於接收機的初始化和通道的獲取，以及節目的切換和插入，I 幀影象的壓縮倍數相對較低。I 幀影象是週期性出現在影象序列中的，出現頻率可由編碼器選擇。
P 幀（Predicted frames）：P 幀和 B 幀影象採用幀間編碼方式，即同時利用了空間和時間上的相關性。P 幀影象只採用前向時間預測，可以提高壓縮效率和影象質量。P 幀影象中可以包含幀內編碼的部分，即 P 幀中的每一個宏塊可以是前向預測，也可以是幀內編碼。
B 幀（Bi-directional predicted frames）：B 幀影象採用雙向時間預測，可以大大提高壓縮倍數。值得注意的是，由於 B 幀影象採用了未來幀作為參考，因此 MPEG-2 編碼碼流中影象幀的傳輸順序和顯示順序是不同的。
也就是說，一個 I 幀可以不依賴其他幀就解碼出一幅完整的影象，而 P 幀、B 幀不行。P 幀需要依賴視訊流中排在它前面的幀才能解碼出影象。B 幀則需要依賴視訊流中排在它前面或後面的幀才能解碼出影象。

這就帶來一個問題：在視訊流中，先到來的 B 幀無法立即解碼，需要等待它依賴的後面的 I、P 幀先解碼完成，這樣一來播放時間與解碼時間不一致了，順序打亂了，那這些幀該如何播放呢？這時就需要我們來了解另外兩個概念：DTS 和 PTS(詳見下邊說明)。

兩個I frame之間形成一個GOP，在x264中同時可以通過引數來設定bf的大小，即：I 和p或者兩個P之間B的數量。

通過上述基本可以說明如果有B frame 存在的情況下一個GOP的最後一個frame一定是P.

看x264程式碼，感覺GOP 就是IDR幀到另一個IDR幀之間就是一個GOP.在視訊編碼序列中，GOP即Group of picture（影象組），指兩個I幀之間的距離，Reference（參考週期）指兩個P幀之間的距離（如下圖）。一個I幀所佔用的位元組數大於一個P幀，一個P幀所佔用的位元組數大於一個B幀（如下圖所示）。

所以在位元速率不變的前提下，GOP值越大，P、B幀的數量會越多，平均每個I、P、B幀所佔用的位元組數就越多，也就更容易獲取較好的影象質量；Reference越大，B幀的數量越多，同理也更容易獲得較好的影象質量。

需要說明的是，通過提高GOP值來提高影象質量是有限度的，在遇到場景切換的情況時，H.264編碼器會自動強制插入一個I幀，此時實際的GOP值被縮短了。另一方面，在一個GOP中，P、B幀是由I幀預測得到的，當I幀的影象質量比較差時，會影響到一個GOP中後續P、B幀的影象質量，直到下一個GOP開始才有可能得以恢復，所以GOP值也不宜設定過大。

同時，由於P、B幀的複雜度大於I幀，所以過多的P、B幀會影響編碼效率，使編碼效率降低。另外，過長的GOP還會影響Seek操作的響應速度，由於P、B幀是由前面的I或P幀預測得到的，所以Seek操作需要直接定位，解碼某一個P或B幀時，需要先解碼得到本GOP內的I幀及之前的N個預測幀才可以，GOP值越長，需要解碼的預測幀就越多，seek響應的時間也越長。

DTS、PTS 的概念

DTS、PTS 的概念如下所述：

DTS（Decoding Time Stamp）：即解碼時間戳，這個時間戳的意義在於告訴播放器該在什麼時候解碼這一幀的資料。
PTS（Presentation Time Stamp）：即顯示時間戳，這個時間戳用來告訴播放器該在什麼時候顯示這一幀的資料。
需要注意的是：雖然 DTS、PTS 是用於指導播放端的行為，但它們是在編碼的時候由編碼器生成的。

當視訊流中沒有 B 幀時，通常 DTS 和 PTS 的順序是一致的。但如果有 B 幀時，就回到了我們前面說的問題：解碼順序和播放順序不一致了。

比如一個視訊中，幀的顯示順序是：I B B P，現在我們需要在解碼 B 幀時知道 P 幀中資訊，因此這幾幀在視訊流中的順序可能是：I P B B，這時候就體現出每幀都有 DTS 和 PTS 的作用了。DTS 告訴我們該按什麼順序解碼這幾幀影象，PTS 告訴我們該按什麼順序顯示這幾幀影象。順序大概如下：

PTS:   480   640  560  520  600  800  720  680  760  960 ...
DTS:   400   440  480  520  560  600  640  680  720  760 ...
Stream: I     P    B    B    B    P    B    B    B    P  ...
播放序： 1     5    3    2    4    9    7    6    8   10  ...               
PTS >= DTS

音視訊的同步

上面說了視訊幀、DTS、PTS 相關的概念。我們都知道在一個媒體流中，除了視訊以外，通常還包括音訊。音訊的播放，也有 DTS、PTS 的概念，但是音訊沒有類似視訊中 B 幀，不需要雙向預測，所以音訊幀的 DTS、PTS 順序是一致的。

音訊視訊混合在一起播放，就呈現了我們常常看到的廣義的視訊。在音視訊一起播放的時候，我們通常需要面臨一個問題：怎麼去同步它們，以免出現畫不對聲的情況。

要實現音視訊同步，通常需要選擇一個參考時鐘，參考時鐘上的時間是線性遞增的，編碼音視訊流時依據參考時鐘上的時間給每幀資料打上時間戳。在播放時，讀取資料框上的時間戳，同時參考當前參考時鐘上的時間來安排播放。這裡的說的時間戳就是我們前面說的 PTS。實踐中，我們可以選擇：同步視訊到音訊、同步音訊到視訊、同步音訊和視訊到外部時鐘。

PTS和DTS的時間基

PST和DTS的單位是什麼?

為了回答這個問題，先引入FFmpeg中時間基的概念，也就是time_base。它也是用來度量時間的。
如果把1秒分為25等份，你可以理解就是一把尺，那麼每一格表示的就是1/25秒。此時的time_base={1，25}
如果你是把1秒分成90000份，每一個刻度就是1/90000秒，此時的time_base={1，90000}。
所謂時間基表示的就是每個刻度是多少秒
pts的值就是佔多少個時間刻度（佔多少個格子）。它的單位不是秒，而是時間刻度。只有pts加上time_base兩者同時在一起，才能表達出時間是多少。
好比我只告訴你，某物體的長度佔某一把尺上的20個刻度。但是我不告訴你，這把尺總共是多少釐米的，你就沒辦法計算每個刻度是多少釐米，你也就無法知道物體的長度。
pts=20個刻度
time_base={1,10} 每一個刻度是1/10釐米
所以物體的長度=ptstime_base=201/10 釐米

在ffmpeg中。av_q2d(time_base)=每個刻度是多少秒
此時你應該不難理解 pts*av_q2d(time_base)才是幀的顯示時間戳。

下面理解時間基的轉換，為什麼要有時間基轉換。
首先，不同的封裝格式，timebase是不一樣的。另外，整個轉碼過程，不同的資料狀態對應的時間基也不一致。拿mpegts封裝格式25fps來說（只說視訊，音訊大致一樣，但也略有不同）。非壓縮時候的資料（即YUV或者其它），在ffmpeg中對應的結構體為AVFrame,它的時間基為AVCodecContext 的time_base ,AVRational{1,25}。
壓縮後的資料（對應的結構體為AVPacket）對應的時間基為AVStream的time_base，AVRational{1,90000}。
因為資料狀態不同，時間基不一樣，所以我們必須轉換，在1/25時間刻度下佔10格，在1/90000下是佔多少格。這就是pts的轉換。

根據pts來計算一楨在整個視訊中的時間位置：
timestamp(秒) = pts * av_q2d(st->time_base)

duration和pts單位一樣，duration表示當前幀的持續時間佔多少格。或者理解是兩幀的間隔時間是佔多少格。一定要理解單位。
pts：格子數
av_q2d(st->time_base): 秒/格

計算視訊長度：
time(秒) = st->duration * av_q2d(st->time_base)

ffmpeg內部的時間與標準的時間轉換方法：
ffmpeg內部的時間戳 = AV_TIME_BASE * time(秒)
AV_TIME_BASE_Q=1/AV_TIME_BASE

av_rescale_q(int64_t a, AVRational bq, AVRational cq)函數
這個函數的作用是計算a*bq / cq來把時間戳從一個時間基調整到另外一個時間基。在進行時間基轉換的時候，應該首先這個函數，因為它可以避免溢位的情況發生。
函數表示在bq下的佔a個格子，在cq下是多少。

關於音訊pts的計算：
音訊sample_rate:samples per second，即取樣率，表示每秒採集多少取樣點。
比如44100HZ，就是一秒採集44100個sample.
即每個sample的時間是1/44100秒

一個音訊幀的AVFrame有nb_samples個sample，所以一個AVFrame耗時是nb_samples*（1/44100）秒
即標準時間下duration_s=nb_samples*（1/44100）秒，
轉換成AVStream時間基下
duration=duration_s / av_q2d(st->time_base)
基於st->time_base的num值一般等於取樣率,所以duration=nb_samples.
pts=nduration=nnb_samples

到此這篇關於淺談音視訊 pts dts基本概念及理解的文章就介紹到這了,更多相關音視訊 pts dts內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com！

淺談音視訊 pts dts基本概念及理解

目錄

I、P、B 幀

DTS、PTS 的概念

音視訊的同步

PTS和DTS的時間基

熱門文章