首頁 > 科技

NVIDIA RTX 3070 Ti首測 Ti家族第三位成員

2021-06-10 18:02:03

隨著GeForce RTX 3080 Ti的釋出,相信大家都對這一次的「Ti」系列充滿期待,畢竟GeForce RTX 3080 Ti的效能提升「肉眼可見」,甚至非公版的GeForce RTX 3080 Ti在跑分已經出現了越級提升的情況。今天給大家帶來的評測則是本次臺北電腦展釋出的最後一個型號——GeForce RTX 3070 Ti

此次GeForce RTX 3070 Ti的釋出讓整個30系的「Ti家族」已經補全,當然不排除後續NVIDIA會推出GeForce RTX 3090 Ti的可能性,畢竟GA102核心到目前為止仍沒有效能全開。

不過遠的不說,自GTX 10系開始,「Ti家族」還沒有如此整整齊齊過,雖然目前單輪顯示卡數量上,RTX 20系仍然要比RTX 30系多,但RTX 20系顯示卡家族的成員並沒有同時登場,在super系列推出後,先前釋出不帶字尾的型號就已經相繼停產。

而RTX 30系顯示卡截止目前還未宣佈哪款顯示卡將停產,如果說NVIDIA是覺得去年釋出的RTX 30系顯示卡定價過低,想推出Ti系列來提高售價,但從已釋出的GeForce RTX 3080 Ti來看,雖然價格上去了,但效能同樣約等於GeForce RTX 3090,換算過來其實價格並沒有變化。

在之前的臺北電腦展上,GeForce RTX 3070 Ti的價格已經曝光,為4499元起。在看過了GeForce RTX 3080 Ti的效能提升後,相信大家已經迫不及待了,今天我們就來看看這款GeForce RTX 3070 Ti的效能提升如何。

GA104核心的第二張顯示卡

在核心架構上,GeForce RTX 3070 Ti是採用GA104核心的第二張卡,官方白皮書上對比的物件為GeForce RTX 2070 SUPER,相較於上一代的NVIDIA Turing架構,NVIDIA Ampere架構下的GeForce RTX 3070 Ti每個時鐘執行2次著色器運算,而Turing為1次,RTX 3070 Ti的著色器效能達到22 TFLOPS單精度效能,而Turing為9 TFLOPS。

新老兩代顯示卡算力對比

NVIDIA Ampere架構翻倍了光線與三角形的相交吞吐量,RT Core達到42 RT TFLOPS,而Turing為24 RT TFLOPS。而且第二代光線追蹤最重要的不僅僅是效能提升,還增加了對遊戲中運動模糊部分場景的光線追蹤計算加速。

第三代Tensor Core可自動識別並消除不太重要的DNN權重,處理稀疏網路的速率是Turing的兩倍,算力高達174 Tensor TFLOPS,而Turing為72 Tensor TFLOPS。

GeForce RTX 3070 Ti採用了GA104核心,與GeForce RTX 3070相同,不過NVIDIA官方並沒有給出GA104核心架構圖,我們仍以GA102來做講解。

完整的GA102核心

完整的GA102 GPU包含7個GPC(圖形處理叢集)42個TPC(紋理處理叢集)以及84個SM(流處理器)組成,而GeForce RTX 3070 Ti的CUDA數量是6144個,共有48個SM單元,也就是3個GPC 24個TPC,而剛剛釋出的GeForce RTX 3080 Ti共有40個TPC 80個SM單元,這也是兩款晶片的差距所在。

公版顯示卡參數表

為了查詢方便,筆者將這幾款顯示卡的核心參數列出,可以看到GeForce RTX 3070與GeForce RTX 3070 Ti的差距不大,相差的兩個SM單元,和剛剛釋出的GeForce RTX 3080 Ti情況基本相同,也就是1組TPC,256個CUDA。只不過GeForce RTX 3080 Ti更接近GeForce RTX 3090,而根據參數來看GeForce RTX 3070 Ti與GeForce RTX 3080還有一定差距。

GDDR6X

另外GeForce RTX 3070 Ti的視訊記憶體雖然依舊是8GB,但已經由GDDR6更換為GDDR6X,兩者的區別主要在於頻率和頻寬上,同頻下實現更高的視訊記憶體頻寬可以降低成本和功耗,另外在相同時間內GDDR6X可以比GDDR6傳輸多2倍的資料。這對於需要大量資料負載的工作尤為重要,如光線追蹤的遊戲、AI學習和8K視訊渲染。

NVIDIA Ampere架構GA104解析

GeForce RTX 3070 Ti採用了GA104核心,擁有174億(17400 million)個電晶體,392平方毫米的面積,基於三星的8nm NVIDIA定製工藝,來自Micron的GDDR6X視訊記憶體,這裡與GeForce RTX 3070的GDDR6有所區別。

本次NVIDIA Ampere的SM在Turing基礎上增加了一倍的FP32運算單元,這使得每個SM的FP32運算單元數量提高了一倍,同時吞吐量也就變為了一倍。

而通常我們計算顯示卡的CUDA數量,並不是把SM中的所有單元加起來計數,而是隻統計FP32單元的數量,所以這樣一來,SM中的【FP32 : INT32】 從 1:1 變為 2:1。

GeForce RTX 3070 Ti共有6144個CUDA,其實它有3072個INT32單元,但由於內部的FP32數量翻了一倍,所以最終實現了6144的CUDA數量。

而這樣粗暴的提升CUDA數量對於遊戲其實有著非常大的幫助,通常在遊戲中浮點運算相比整數計算要常用的多,圖形、演算法以及各種計算操作中著色器工作負載通常需要混合使用FP32算數指令,而FP32的加速也有助於光線追蹤降噪著色器。

在去年與GeForce RTX 30系顯示卡一同釋出的還有一項新技術——RTX IO。目前很多遊戲動輒幾十G甚至百G的安裝空間,對於儲存空間的負擔暫且不提,但存放在硬碟中的資料,如果顯示卡想要讀取到,需要先由CPU從硬碟中讀取壓縮過的資料,經過解壓縮再發送到視訊記憶體中。

雖然隨著NVMe SSD的推出,讀取速度相較機械硬碟能夠快20倍,但受制於傳統I/O限制,NVMe高達7GB/秒的高速讀寫對於CPU是極大的負擔。

傳統的資料交換

在這個過程中,會佔用多個CPU核心,壓力急劇增大,佔用較多的記憶體,而此時其實GPU是處於閒置狀態的。RTX IO的作用就是越過CPU解壓再傳輸資料這一步,直接從PCIE匯流排讀取硬碟上經過壓縮的資料,並且完成無損GPU解壓,降低CPU佔用,變向提升了效能。

RTX IO可以極大解放CPU負擔

當然這項技術作為系統底層的運行方式改變,還需要藉助微軟釋出的DirectStorage來實現,對於目前容量的遊戲來說,RTX IO的改善效果有限,但假以時日等遊戲容量上百G成為常態的時候,這項技術將會發揮巨大的功效。

同時搭配新增的HDMI 2.1介面,可以支援單線8K的視訊輸出,而上一代HDMI 2.0僅支援4K 98Hz的視訊輸出,如果想要連線8K電視,則需要更多的線纜支援。

GeForce RTX 3070 Ti外觀

首先還是來看一下外觀,在外包裝上相比之前的公版沒有變化,不過顯示卡本身GeForce RTX 3070 Ti更像是GeForce RTX 3080的mini版,與GeForce RTX 3070相距甚遠。

GeForce RTX 3070 Ti配件盒展示

外包裝依舊是禮盒形式的,收藏感滿滿,在拿出顯示卡後下方是轉接線和說明書的配件盒,因為此次公版仍採用單12pin的供電插槽,所以需要轉換成雙8pin的接口才能使用。

GeForce RTX 3070 Ti

GeForce RTX 3070

顯示卡正面我們對比一下GeForce RTX 3070,可以看到GeForce RTX 3070仍然採用了單面雙風扇的設計,而GeForce RTX 3070 Ti則是採用了軸流式設計,兩側均有風扇。除此之外,顯示卡的整體外邊框設計基本相似。

GeForce RTX 3070 Ti

GeForce RTX 3070

GeForce RTX 3070 Ti的背面其實更像GeForce RTX 3080,包括金屬邊框以及表面的磨砂質感,只是從體積上略小一號。

GeForce RTX 3070 Ti 內角的金屬光澤

與GeForce RTX 3080 Ti在邊框部位的改動相同,GeForce RTX 3070 Ti的內角從啞光改為了鏡面,這種略帶跳躍的視覺效果相比之前的設計更好看。

GeForce RTX 3070 Ti 單12pin供電介面

在GeForce RTX 3070 Ti顯示卡的側面,可以看到單12pin的供電介面,從整體來看它比較靠近中間部位,但我們都知道公版卡採用了高度緊湊的PCB板,長度也小於一般尺寸,所以其實供電介面已經位於板子的尾部,沒有往右挪的空間了。根據NVIDIA官方說明,GeForce RTX 3070 Ti的單卡功耗為290W,推薦750W及以上電源。

另外在邊框的配色上GeForce RTX 3070 Ti的顏色幾乎為純銀色,而GeForce RTX 3080和GeForce RTX 3080 Ti則為玫瑰金。

GeForce RTX 3070 Ti視訊介面

GeForce RTX 3070 Ti的擋板部位整體設計與GeForce RTX 3070相同。介面方面的配置依舊為DP 1.4a*3+HDMI 2.1*1的4介面設計,另外由於新的HDMI 2.1協議,最高已可支援單線8K的視訊輸出。

3DMARK 理論效能測試

首先介紹一下測試平臺,為了保證此次評測能夠發揮GeForce RTX 3080 Ti顯示卡的最佳效能,主機板和CPU採用了目前桌面旗艦級配置,具體如下。

在測試成績上,基準測試採用3DMARK,遊戲效能測試使用遊戲自帶Benchmark,同時為了減小誤差,每項測試成績均測試3遍取平均值。

GPU-Z參數

首先看一下GPU-Z的參數,GeForce RTX 3070 Ti採用GA104核心,三星8nm工藝,芯片面積392平方毫米,擁有6144個CUDA,1770MHz頻率。採用8GB GDDR6X視訊記憶體,位寬為256bit,視訊記憶體頻寬達到了608.3 GB/s,光柵單元和紋理單元為96和192。

下面先進行的是用來衡量顯示卡DX11理論效能的3DMARK FS套裝:FS,FSE,FSU三者分別對應顯示卡在1080P、2K、4K的理論效能,取顯示卡分數實際測試結果如下:

3D MARK FS套裝測試

在針對顯示卡DX11效能的3DMARK FS套裝測試中,我們選擇了上代和本代的4張顯示卡進行分值對比,以便能更好的反應GeForce RTX 3070 Ti的效能水平。

可以看到GeForce RTX 3070 Ti的效能顯然更接近GeForce RTX 3070,整體提升10%左右;對比GeForce RTX 3080的差距為17%左右;相比上一代的GeForce RTX 2070 SUPER提升45%左右。

3D MARK TS套裝測試

而在針對DX12環境下的Time Spy和Time Spy Extreme測試中,GeForce RTX 3070 Ti的分數提升稍弱,相比GeForce RTX 3070提升7%左右。而對比GeForce RTX 3080的分數差距為23%左右;對比上一代GeForce RTX 2070 SUPER的分數要高出42%左右。

3D MARK 光追測試

PortRoyal是3DMARK中專門針對光追效能的測試項,在這組測試中GeForce RTX 3070 Ti的表現更貼近GeForce RTX 3070,分數提升為6%左右;對比GeForce RTX 3080的分數差距為31%左右;對比上一代GeForce RTX 2070 SUPER的分數提升則非常大,約為50%

這是比較理想的等差數列

另外我們對比了一組比較有意思的資料,綜合來看目前GeForce RTX 30系顯示卡效能,形成等差數列的遊戲卡型號分別為RTX 3060、RTX 3060 Ti、RTX 3070 Ti以及RTX 3080,所以個人來看GeForce RTX 3070與GeForce RTX 3070 Ti的型號會有些許衝突,不知道NVIDIA後續是否會有停產GeForce RTX 3070的打算。

遊戲效能測試

在遊戲效能測試中,我們選擇了《德軍總部新血脈》、《孤島驚魂5》、《刺客信條:英靈殿》、《無主之地》,國產遊戲《邊境》、《光明記憶:無限》的benchmark跑分軟體。

另外在遊戲測試中,由於顯示卡驅動的版本更新和遊戲更新非常影響遊戲幀數,所有benchmark跑分成績均以本次成績為準。

《刺客信條:英靈殿》遊戲測試

在遊戲實測中可以看到GeForce RTX 3070 Ti和GeForce RTX 3070的幀數差距並不明顯,平均下來為2%左右。而對比GeForce RTX 3080的分數差距整體在12%左右。

《德軍總部新血脈》遊戲測試

《德軍總部新血脈》並且由於自帶兩個benchmark,所以我們的資料取跑分均值,另外這款遊戲幾乎每更新一次驅動或者遊戲版本升級都會導致分數的巨大差異,在本次重新測試中,GeForce RTX 3070 Ti與GeForce RTX 3070的差距約為3%,而相比GeForce RTX 3080的幀數差距為13%左右,雖然差距沒有那麼大,但可以發現其實在1080P解析度下,CPU已經限制了顯示卡的發揮,而在4K解析度下GeForce RTX 3080能領先GeForce RTX 3070 Ti約22%的幀數。

《孤島驚魂5》遊戲測試

《孤島驚魂5》同樣算是優化比較到位的3A大作,在這款遊戲中CPU的瓶頸更加明顯,1080P解析度下兩款顯示卡的成績居然相同,在2K和4K解析度下比較能反應真實水平,相比GeForce RTX 3070提升約為7%。

《無主之地3》遊戲測試

《無主之地3》是一款採用了卡通渲染風格的遊戲,它對於效能要求的下限很低而上限又很高,並且這款遊戲的跑分也很符合三款顯示卡的效能規律,其中GeForce RTX 3070 Ti相比GeForce RTX 3070提升為6%;相比GeForce RTX 3080的分數差距為26%。

《光明記憶:無限》遊戲測試

《光明記憶:無限》是由飛燕群島工作室開發的《光明記憶》新系列,目前還沒有遊戲提供試玩,不過benchmark的跑分軟體官方已經提供,玩家可以在steam上自行下載。另外我們在測試的時候由於無法關閉光追選項,故所有測試成績均為「RTX 最高/DLSS 質量」模式下進行。整體的分數分佈情況與《無主之地3》非常相似。

《邊境》遊戲測試

在另外一款國產遊戲《邊境》的跑分軟體中,情況基本與《光明記憶:無限》相同,測試條件均在「RTX最高/DLSS質量」下進行。

功耗及溫度測試

功耗測試中,我們選擇FurMark軟體進行拷機測試,並採用GPU-Z檢測溫度,功耗僅計算顯示卡自身。

功耗測試

GeForce RTX 3070 Ti經過我們的實測在滿載狀態下單卡功耗為280-290W左右,建議搭配750W及以上電源。

溫度測試

溫度方面,本次的GeForce RTX 3070 Ti經過15分鐘左右的拷機,溫度穩定為78℃左右,相比GeForce RTX 3080 Ti更高,但視訊記憶體溫度較低為86℃左右,在上一次GeForce RTX 3080 Ti的溫度測試中,視訊記憶體溫度一度達到98℃左右。

部分遊戲光追及DLSS效果展示

上面我們測試了部分遊戲的光追和DLSS效能表現,這些效果具體在遊戲中是什麼表現,下邊筆者選擇了兩款遊戲給大家展示一下。

《賽博朋克2077》RTX ON

《賽博朋克2077》RTX OFF

在《賽博朋克2077》中,光追效果隨處可見,而在遊戲中也運用到了不同的光追效果,包括最常見的光追反射、陰影,還有環境光遮蔽、漫反射照明以及全局光照等比較高階的效果。

RTX ON

RTX OFF

在網遊《逆水寒》中,由於光追效果正處於試驗階段,並沒有如宣傳片一樣的水面反射。但畫面整體的陰影更加真實,如頭頂樹木的陰影,以及水面上荷葉的效果。而且由於光追效果較少,在開啟該功能後幀數並沒有明顯下降。

《堡壘之夜》RTX ON

《堡壘之夜》RTX OFF

堡壘之夜的光追效果還是比較明顯的,其中加入了反射、全局照明和路徑追蹤等效果。卡車車身上的反射較為明顯,角色身上的環境光在開啟光追後更為寫實,另外仔細看的話遠處建築物的玻璃同樣有光線的反射,整體畫質改善非常明顯。

《魔獸世界9.0》RTX ON

《魔獸世界9.0》RTX OFF

《魔獸世界9.0》同樣作為一款卡通渲染的網遊來說,魔獸的年代更加久遠,此次加入光追效果在整體視覺上沒有堡壘之夜明顯。不過如遠處的樹木陰影,以及近處石臺下方的陰影都比較明顯。

《控制》RTX ON

《控制》RTX OFF

《控制》這款遊戲所採用的引擎物理效果非常出色,同時光追開關的對比也是肉眼可見的明顯。包括玻璃上的人物反光,遠處地面的植物反光都比較清晰,同時開啟光追後屋頂處的明暗對比也更加明顯。

《賽博朋克2077》DLSS模式對比

DLSS的對比測試我們選擇《賽博朋克2077》這款遊戲,2K/RTX ON/DLSS關閉 原生畫質下作為標準,在開啟DLSS質量模式後可以看到整體畫面幾乎沒有任何變化,廣告牌的字樣邊緣依然很清晰。在DLSS平衡和DLSS效能模式中依然有著不錯的狀態,整體相較原生畫質並無二致。

《逆水寒》DLSS模式對比

畫質說明

在《逆水寒》的DLSS測試中,我們將畫面設定為4K解析度,畫質為預設最高。通過關閉、快速、超級效能,3種不同模式來進行幀數以及畫面的對比。

首先在關閉DLSS中,遊戲幀數為26幀原生畫質,開啟DLSS快速模式後為41幀,而開啟DLSS超級效能模式後為57幀。通過放大圖片不難發現原生畫質和DLSS快速模式的區別很小,而DLSS超級效能模式中角色背後的裝飾會變模糊,以及木條箱的紋理邊界會有較明顯變化。但幀數提升卻非常明顯。

軟硬兼施 鑄就Ampere

好的硬體沒有軟體的加持,相當於空有長柄沒有槍頭,想要發揮十成威力則必須軟硬搭配,反之亦然。此次隨著釋出會共同推出的還有以下幾項非常值得大家關注。

NVIDIA Reflex

以往我們關注延遲大多從顯示器上了解到幾毫秒極速響應,但那只是作為最終端的顯示輸出效果,你是否想過從系統內部到實際看到的畫面有多大延遲?

NVIDIA Reflex

在20系顯示卡中NVIDIA反覆提及的「幀能贏」,在30系顯示卡中也做了更進一步的突破,除了NVIDIA將推出自己的電競顯示器NVIDIA 360Hz G-SYNC ESPORTS,還有NVIDIA Reflex技術。

以往如果想測量系統延遲需要高速相機以及定製的LED滑鼠電路。而使用帶有NVIDIA Reflex技術的顯示器將內建精確的延遲分析工具,可在CPU和GPU中優化渲染管道,極大減少延遲時間,將系統延遲整體降低至30ms以下。不過就像圖中所示,為此你需要一個支援反射延遲分析的滑鼠。

NVIDIA Broadcast

NVIDIA Broadcast是一款易用且專業的直播軟體,它的強大之處就在於主播不再需要任何的背景佈置,只需要一個普通的攝像頭和一張GeForce RTX系列的顯示卡即可。

寵物派對直播

這款軟體可以讓你雜亂無章的房間立即變成直播間,其內建了音訊降噪、背景虛化、虛擬背景、頭部追蹤等功能。NVIDIA Broadcast的工作原理是利用AI演算法通過DGX超級計算機深度學習而來。

NVENC編碼

同時RTX 30系顯示卡擁有目前最好的硬體解碼器,大部分使用者的電腦在直播時開啟OBS推流後CPU佔用會直接飆升到50%左右,而基於GPU的NVENC解碼可以極大地減輕CPU負擔。

NVIDIA Studio

對於內容創作者來說,提到軟體可能大部分只會想到內容創作的相關軟體,但NVIDIA專為內容創作者推出的NVIDIA Studio驅動則是承擔著連線創作軟體和顯示卡功能的關鍵。

NVIDIA Studio

NVIDIA Studio驅動經過更新與優化,對於最新版本的Adobe系列軟體支援更為穩定,同時附帶更出彩的創作功能。利用NVIDIA CUDA技術,GPU加速特效可實現更快的實時視訊編輯並加速渲染輸出,並讓原本只能進行軟體編碼輸出的視訊輕鬆得到硬體的支援。另外在AI計算方面的優勢,包括自動標記片段、特效追蹤和人臉識別等功能,都有顯著的速度提升。

以GPU渲染為14.98秒 而CPU渲染為11分鐘

當然NVIDIA Studio的加速創作絕不止Adobe一家,DaVinci、Keyshot、Blender、D5等專業軟體中都有非常亮眼的表現。不僅能提供強大且穩定的運行環境,更能以GPU加速,有效提升創作效率。

身世複雜 效能提升7%

作為GeForce RTX 30系「Ti家族」的第三位成員,GeForce RTX 3070 Ti和其他幾款還有些許不同。在本代顯示卡中,目前所有Ti系列產品相較原型號基本都有很大提升,如GeForce RTX 3060 Ti和GeForce RTX 3080 Ti,而此次釋出的GeForce RTX 3070 Ti整體效能則更貼近原型號。但這一情況精通刀法的黃教主不可能不清楚,通過RTX 20 SUPER系的提升我們就能略見一二。

通過價格來看,GeForce RTX 3070的首發價格為3899元,GeForce RTX 3080的首發價格為5499元,兩者的中間值為4699元,而GeForce RTX 3070 Ti為4499元,看似說得過去。

另外A卡方面,RX 6700 XT與GeForce RTX 3070打的有來有回,不過整體來說還是NVIDIA更勝一籌,而GeForce RTX 3070 Ti的出現,進一步拉開與RX 6700 XT的差距。同時與RX 6800的差距更小,換句話來說GeForce RTX 3070 Ti在效能上橫在了RX 6700 XT與RX 6800之間。

所以通過目前的顯示卡市場來看,N卡的價格中間值與A卡的效能中間值,造就了GeForce RTX 3070 Ti的誕生。不過它的出現在自家產品中的地位還是比較尷尬,不知道大家如何看待?

另外GeForce RTX 3070 Ti的視訊記憶體雖然依舊是8GB,但已經由GDDR6更換為GDDR6X,兩者的區別主要在於頻率和頻寬上,同頻下實現更高的視訊記憶體頻寬可以降低成本和功耗。從理論上來講GDDR6X的能效提升很多。同樣是8顆視訊記憶體,GDDR6X能效比相比GDDR6的每位元能耗要低15%。

這是比較理想的等差數列

綜合來看,GeForce RTX 3070 Ti的推出更像是GeForce RTX 3070的改進版,通過目前GeForce RTX 30系顯示卡的整體效能來看,形成等差數列的遊戲卡型號分別為RTX 3060、RTX 3060 Ti、RTX 3070 Ti以及RTX 3080,所以個人來看GeForce RTX 3070與GeForce RTX 3070 Ti的型號會有些許衝突,不知道NVIDIA後續是否會有停產GeForce RTX 3070的打算。

最後,這款顯示卡的首發價格為4499元。老規矩,在顯示卡首發的時候會是最優惠的價格,如果你網速好手氣好,不妨試著搶一下6月10日的顯示卡首發。


IT145.com E-mail:sddin#qq.com